导航:首页 > 研究方法 > 数据挖掘统计方法的研究现状

数据挖掘统计方法的研究现状

发布时间:2022-08-27 12:40:33

Ⅰ 智能数据挖掘与知识发现的内容提要

面对“人们被数据淹没,却饥渴于知识”的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展。数据挖掘涉及到人工智能、模式识别、机器学习、统计学等领域,因此,我们把体现当代科学技术发展特征的多学科间的知识交叉及最新成果反映到教材中来,同时本书从智能信息处理及数据挖掘两大主题出发,着重于介绍将智能信息处理中的最新技术如何应用于数据挖掘领域,如智能搜索、分类、聚类和智能决策等。
全书共分9章:
第一章主要从整体上介绍数据挖掘和知识发现的基本概念、研究现状及发展方向;
第二章介绍了数据挖掘的理论基础;
第三章详细论述了用于数据挖掘的计算智能方法的理论基础;
第四章论述了神经网络和进化计算的分类方法;
第五章全面论述了支撑矢量机与核分类方法;
第六章详细论述了集成分类方法;
第七章系统论述了数据挖掘中大规模数据聚类方法;
第八章论述关联规则挖掘方法;
第九章介绍数据挖掘实例及可视化。
从第三章后的每一章都给出了所用方法的实验条件设置及实验结果。

Ⅱ 数据挖掘的统计方法有哪些

传统的数据挖掘统计方法包括回归分析、主成分分析、聚类分析;
非机器的数据挖掘统计学习方法包括模糊集、粗糙集、支持向量机。

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。现在人们迫切希望能对海量数据进行深入分析,发现并提取隐藏在其中的信息,以便更好地利用这些数据,正是因为这样的需求,数据挖掘技术应运而生。数据挖掘有很多合法的用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在1000人中也不会出现一例,但药物学相关的项目就可以运用此方法减少对药物有不良反应的病人数量,还有可能挽救生命。

关于数据挖掘的相关学习,这里推荐CDA数据师的相关课程,课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”。点击预约免费试听课。

Ⅲ 数据挖掘的国内外研究现状

摘要:随着网络、数据库技术的迅速发畏以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法

关键词:数据挖掘;知识;分析;市场营销;金融投资

随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。由此,数据挖掘技术应运而生。下面,本文对数据技术及其应用作一简单介绍。
一、数据挖掘定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。从这个角度数据挖掘也可以描述为:按企业制定的业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
二、数据挖掘技术
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,代写论文其中数据仓库技术的发展与数据挖掘有着密切的关系。大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中,因为数据仓库会对数据进行清理,并会解决数据的不一致问题,这会给数据挖掘带来很多好处。此外数据挖掘还利用了人工智能(AI)和统计分析的进步所带来的好处,这两门学科都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘所发现的知识的不同,其所利用的技术也有所不同。
1.广义知识。指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向屙性的归约等。数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。而面向属性的归约是以类SQL语言来表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。
2.关联知识。它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为着名的关联规
则发现方法是Apriori算法和FP—Growth算法。关联规则的发现可分为两步:第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。
3.分类知识。它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。分类方法有决策树、朴素贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性回归和K—Means划分等。其中最为典型的分类方法是决策树。它是从实例集中构造决策树,是一种有指导的学习方法。
该方法先根据训练子集形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练子集中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的屙性,该分枝对应该屙性的某一可能值。
4.预测型知识。它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年BoX和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。
5.偏差型知识。它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。
三、数据挖掘流程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,代写毕业论文并使用这些信息做出决策或丰富知识。数据挖掘的基本过程和主要步骤如下:
过程中各步骤的大体内容如下:
1.确定业务对象,清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构不可预测,但要探索的问题应该是有预见的,为了数据挖掘而挖掘则带有盲目性,是不会成功的。
2.数据准备。(1)数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(2)数据预处理。研究数据的质量,进行数据的集成、变换、归约、压缩等.为进一步的分析作准备,并确定将要进行的挖掘操作的类型。(3)数据转换。将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,这是数据挖掘成功的关键。
3.数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。
4.结果分析。解释并评估结果。其使用的分析方法一般应视挖掘操作而定,通常会用到可视化技术。
5.知识同化。将分析所得到的知识集成到业务信息系统的组织结构中去。
四、数据挖掘的应用
数据挖掘技术从一开始就是面向应用的。目前在很多领域,数据挖掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。
1.市场营销。由于管理信息系统和P0S系统在商业尤其是零售业内的普遍使用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据,并且数据量在不断激增。对市场营销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供了可靠的依据。数据挖掘在营销业上的应用可分为两类:数据库营销(database markerting)和货篮分析(basket analysis)。数据库营销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客,以便向它们推销产品。通过对已有的顾客数据的辱淅,可以将用户分为不同级别,级别越高,其购买的可能性就越大。货篮分析
是分析市场销售数据以识别顾客的购买行为模式,例如:如果A商品被选购,那么B商品被购买的可能性为95%,从而帮助确定商店货架的布局排放以促销某些商品,并且对进货的选择和搭配上也更有目的性。这方面的系统有:Opportunity Ex-plorer,它可用于超市商品销售异常情况的因果分析等,另外IBM公司也开发了识别顾客购买行为模式的一些工具(IntdligentMiner和QUEST中的一部分)。
2.金融投资。典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。代写硕士论文由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。这方面的系统有Fidelity Stock Selector和LBS Capital Management。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。
3.欺诈甄别。银行或商业上经常发生诈骗行为,如恶性透支等,这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性,这样当某项业务符合这些特征时,可以向决策人员提出警告。
这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;FAIS则是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的政府数据表单。此外数据挖掘还可用于天文学上的遥远星体探测、基因工程的研究、web信息检索等。
结束语
随着数据库、人工智能、数理统计及计算机软硬件技术的发展,数据挖掘技术必能在更多的领域内取得更广泛的应用。

参考文献:
[1]闫建红《数据库系统概论》的教学改革与探索[J].山西广播电视大学学报,2006,(15):16—17.

Ⅳ 大数据时代空间数据挖掘的认识及其思考

引言

空间数据挖掘(Spatial Data Mining,SDM)即找出开始并不知道但是却隐藏在空间数据中潜在的、有价值的规则的过程。具体来说,空间数据挖掘就是在海量空间数据集中,结合确定集、模糊集、仿生学等理论,利用人工智能、模式识别等科学技术,提取出令人相信的、潜在有用的知识,发现空间数据集背后隐藏的规律、联系,为空间决策提供理论技术上的依据[1]。

1.空间数据挖掘的一般步骤

空间数据挖掘系统大致可以分为以下步骤:

(1)空间数据准备:选择合适的多种数据来源,包括地图数据、影像数据、地形数据、属性数据等。

(2)空间数据预处理和特征提取:数据预处理目的是去除数据中的噪声,包括对数据的清洗、数据的转换、数据的集成等。特征提取是剔除掉冗余或不相关的特征并将特征转化为适合数据挖掘的新特征。

(3)空间数据挖掘和知识评估:采用空间数据挖掘技术对空间数据进行分析处理和预测,从而发现数据背后的某种联系。然后结合具体的领域知识进行评估,看是否达到预期效果。

2.空间数据挖掘的方法研究

空间数据挖掘是一门综合型的交叉学科,结合了计算机科学、统计学、地理学等领域的很多特性,产生了大量处理空间数据的挖掘方法。

2.1 空间关联规则

关联规则挖掘是寻找数据项之间的联系,表达式形式是X→Y,其中X与Y是两种不相交的数据项集,即X∩Y=?覫。KOPERSKI K等人将关联规则与空间数据库相结合,提出了空间关联规则挖掘[2]。空间关联规则将数据项替换为了空间谓词,一般表达形式如下:

A1∧A2∧…∧An→B1∧B2∧…∧Bm(3)

令A=(A1,A2,…,An),B=(B1,B2,…,Bm),A和B分别表示Ai和Bj的谓词集合,A和B可以是空间谓词或非空间谓词,但是必须至少包含一个空间谓词且A∩B=?覫。SHEKHAR S和HUANG Y针对空间关联规则的特点提出了把关联规则的思想泛化成空间索引点集的空间同位规则的概念,在不违背空间相关性的同时用邻域替换掉了事务[3]。时空关联不仅涉及事件在空间中的关联,还考虑了空间位置和时间序列因素。国内的柴思跃、苏奋振和周成虎提出了基于周期表的时空关联规则挖掘方法[4]。

2.2 空间聚类

空间聚类分析是普通聚类分析的扩展,不能完全按照处理普通数据的聚类分析方法来处理空间数据。由于存在地理学第一定律,即空间对象之间都存在一定的相关性,因此在空间聚类分析中,对于簇内的定义,要考虑空间自相关这一因素。通过对空间数据进行自相关分析,可判断对象之间是否存在空间相关性,从而可合理判断出对象是否可以分为一簇。

基本的聚类挖掘算法有:

(1)划分聚类算法:存在n个数据对象,对于给定k个分组(k≤n),将n个对象通过基于一定目标划分规则,不停迭代、优化,直到将这n个对象分配到k个分组中,使得每组内部对象相似度大于组之间相似度。

(2)层次聚类算法:通过将数据不停地拆分与重组,最终把数据转为一棵符合一定标准的具有层次结构的聚类树。

(3)密度聚类算法:用低密度的区域对数据对象进行分割,最终将数据对象聚类成为若干高密度的区域。

(4)图聚类算法:用空间结点表示每个数据对象,然后基于一定标准形成若干子图,最后把所有子图聚类成一个包含所有空间对象的整图,子图则代表一个个空间簇。

(5)网格聚类算法:把空间区域分割成具有多重分辨率的和有网格结构特性的若干网格单元,在网格单元上对数据进行聚类。

(6)模型聚类算法:借助一定的数学模型,使用最佳拟合数据的数学模型来对数据进行聚类,每一个簇用一个概率分布表示。

仅采用一种算法通常无法达到令人满意的预期结果,王家耀、张雪萍、周海燕将遗传算法与K-均值算法结合提出了用于空间聚类分析的遗传K-均值算法[5]。现实空间环境中,存在很多像道路、桥梁、河流的障碍物,张雪萍、杨腾飞等人把K-Medoids算法与量子粒子群算法结合进行带有空间障碍约束的聚类分析[6]。

2.3 空间分类

分类,简单地说是通过学习得到一定的分类模型,然后把数据对象按照分类模型划分至预先给定类的过程。空间分类时,不仅考虑数据对象的非空间属性,还要顾及邻近对象的非空间属性对其类别的影响,是一种监督式的分析方法。

空间分类挖掘方法有统计方法、机器学习的方法和神经网络方法等。贝叶斯分类器是基于统计学的方法,利用数据对象的先验概率和贝叶斯公式计算出其后验概率,选择较大后验概率的类作为该对象映射的类别。决策树分类器是机器学习的方法,采取从上到下的贪心策略,比较决策树内部节点的属性值来往下建立决策树的各分支,每个叶节点代表满足某个条件的属性值,从根节点到叶节点的路径表示一条合适的规则。支持向量机也是机器学习的方法,思路是使用非线性映射把训练数据集映射到较高维,然后寻找出最大边缘超平面,将数据对象分类。神经网络是一种模拟人神经的网络,由一组连接的输入和输出单元组成,赋予各个连接相应的权值,通过调节各连接的权值使得数据对象得到正确分类。

针对融入空间自相关性的空间分类挖掘,SHEKHAR S等人使用空间自回归模型和基于贝叶斯的马可夫随机场进行空间分类挖掘[7],汪闽、骆剑承、周成虎等人将高斯马尔可夫随机场与支持向量机结合并将其用于遥感图像的信息提取[8]。

2.4 其他空间挖掘方法

空间数据挖掘的方法多种多样,其他还包括:空间分析的方法,即利用GIS的方法、技术和理论对空间数据进行加工处理,从而找出未知有用的信息模式;基于模糊集、粗糙集和云理论的方法可用来分析具有不确定性的空间数据;可视化方法是对空间数据对象的视觉表示,通过一定技术用图像的形式表达要分析的空间数据,从而得到其隐含的信息;国内张自嘉、岳邦珊、潘琦等人将蚁群算法与自适应滤波的模糊聚类算法相结合用以对图像进行分割[9]。

3.结论

空间数据挖掘作为数据挖掘的延伸,有很好的传统数据挖掘方法理论的基础,虽然取得了很大进步,然而其理论和方法仍需进一步的深入研究。伴随着大数据时代,面对越来越多的空间数据,提升数据挖掘的准确度和精度是一个有待研究的问题。同时现在流行的空间数据挖掘算法的时间复杂度仍停留在O(nlog(n))~O(n3)之间,处理大量的异构数据,数据挖掘算法的效率也需要进一步提高。数据挖掘在云环境下已经得到很好的应用[10],对于处理空间数据的空间云计算是有待学者们研究的方向。大多数空间数据挖掘算法没有考虑含有障碍约束的情况,如何解决现实中障碍约束问题值得探讨。带有时间属性的空间数据呈现出了一种动态、可变的空间现象,时空数据挖掘将是未来研究的重点。

由于数据挖掘涉及多种学科,其基本理论与方法也已经比较成熟,针对空间数据挖掘,如何合理地利用和拓展这些理论方法以实现对空间数据的挖掘仍将是研究人员们需要长期努力的方向。

参考文献

[1] 李德仁,王树良,李德毅.空间数据挖掘理论与应用(第2版)[M].北京:科学出版社,2013.

[2] KOPERSKI K, HAN J W. Discovery of spatial association rules in geographic information databases[C]. Procedings of the 4th International Symposium on Advances in Spatial Databases, 1995: 47-66.

[3] SHEKHAR S, HUANG Y. Discovering spatial co-location patterns: a summary of results[C]. Procedings of the 7th International Symposium on Advances in Spatial and Temporal Databases, 2001:236-256.

[4] 柴思跃,苏奋振,周成虎.基于周期表的时空关联规则挖掘方法与实验[J].地球信息科学学报,2011,13(4):455-464.

[5] 王家耀,张雪萍,周海燕.一个用于空间聚类分析的遗传K-均值算法[J].计算机工程,2006,32(3):188-190.

[6] Zhang Xueping, Du Haohua, Yang Tengfei, et al. A novel spatial clustering with obstacles constraints based on PNPSO and K-medoids[C]. Advances in Swarm Intelligence, Lecture Notes in Computer Science (LNCS), 2010: 476-483.

[7] SHEKHAR S, SCHRATER P R, VATSAVAI R R, et al.Spatial contextual classification and prediction models for mining geospatial data[J]. IEEE Transactions on Multimedia, 2002, 4(2):174-187.

[8] 汪闽,骆剑承,周成虎,等.结合高斯马尔可夫随机场纹理模型与支撑向量机在高分辨率遥感图像上提取道路网[J].遥感学报,2005,9(3):271-275.

[9] 张自嘉,岳邦珊,潘琦,等.基于蚁群和自适应滤波的模糊聚类图像分割[J].电子技术应用,2015,41(4):144-147.

[10] 石杰.云计算环境下的数据挖掘应用[J].微型机与应用,2015,34(5):13-15.

来源 | AET电子技术应用

Ⅳ 统计学学生的数据挖掘发展之路

楼主你好,我也想往数据挖掘方面转。不知可否交流一下。
就我本科生的水平给楼主稍微回答一下,不对之处请各位纠正:
1-2.统计学是一个研究随机性的学科。其方法理论常常被数据挖掘、机器学习领域运用,但统计不等同于数据挖掘。这方面理解不是很深,楼主可以搜索COS上的文章。
3.当真如此,如果一个统计学学生只会很多统计方法,而不是脚踏实地地去研究此领域的特点,实事求是地分析问题,那么再高深的理论也无法得出一个好的结论。
4.需要的知识结构可参考这个图http://nirvacana.com/thoughts/wp-content/uploads/2013/07/RoadToDataScientist1.png
5.我目前理解较浅,但是了解过去和现在,预测未来一直是统计学、数据科学想要完成的目标。
6.数据科学慢慢会发展,今后可能需要更多的人才不仅限于理论研究,而是更多能够将方法很好地应用到实际领域中的人(我猜测)。所以楼主不必纠结学习路径问题,尽可能多掌握几种技能,总会有用的

Ⅵ 数据挖掘概念综述

数据挖掘概念综述
数据挖掘又称从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持。KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随后在1991年、1993年和1994年都举行KDD 专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算 法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD国际会议发展成为年会。1998 年在美国纽约举行的第四届知识发现与数据 挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。
一、什么是数据挖掘
1.1、数据挖掘的历史
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对”人们被数据淹没,人们却饥饿于知识”的挑战。另一方面计算机技术的另一领域——人工智能自1956年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究 热点是机器学习。机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(KDD:Knowledge Discovery in Databases)的产生,因此,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘又称从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持。KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随后在1991年、1993年和1994年都举行KDD 专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算 法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD国际会议发展成为年会。1998 年在美国纽约举行的第四届知识发现与数据 挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。
2.2数据挖掘的概念
从1989年到现在,KDD的定义随着人们研究的不断深入也在不断完善,目前比较公认的定义是Fayyad 等给出的:KDD是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。从定义可以看出,数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
一般来说在科研领域中称为KDD,而在工程领域则称为数据挖掘。
二、数据挖掘的步骤
KDD包括以下步骤:
1、数据准备
KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上面进行知识挖 掘,需要做数据准备工作,一般包括数据的选择(选择相关的数据)、净化(消除噪音、冗余数据)、推测(推算缺失数据)、转换(离散值 数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等)、数据缩减(减少数据量)。如果KDD的对象是数据仓 库,那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是KDD 的第一个步骤,也是比较重要的一个步骤。数据准备是否做好将影 响到数据挖掘的效率和准确度以及最终模式的有效性。
2、数据挖掘
数据挖掘是KDD最关键的步骤,也是技术难点所在。研究KDD的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、 聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式 模型。
3、评估、解释模式模型
上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事 实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。 这个步骤还包括把模式以易于理解的方式呈现给用户。
4、巩固知识
用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意对知识做一
致性检查,解决与以前得到的知识互相冲 突、矛盾的地方,使知识得到巩固。
5、运用知识
发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就 可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化
三、数据挖掘的特点及功能
3.1、数据挖掘的特点
数据挖掘具有如下几个特点,当然,这些特点与数据挖掘要处理的数据和目的是密切相关的。
1、处理的数据规模十分巨大。
2、查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求。
3、由于数据变化迅速并可能很快过时,因此需要对动态数据作出快速反应,以提供决策支持。
4、主要基于大样本的统计规律,其发现的规则不一定适用于所有数据
3.2、数据挖掘的功能
数据挖掘所能发现的知识有如下几种:
广义型知识,反映同类事物共同性质的知识;
特征型知识,反映事物各方面的特征知识;
差异型知识,反映不同事物之间属性差别的知识 ;关联型知识,反映事物之间依赖或关联的知识;
预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。
所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是”买面包和黄油的顾客十有八九也买牛奶”,也可能是”买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。至于发现工具和方法,常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。归纳起来,数据挖掘有如下几个功能:
预测/验证功能:预测/验证功能指用数据库的若干已知字段预测或验证其他未知字段值。预测方法有统计分析方法、关联规则和决策树预测方法、回归树预测方法等。
描述功能:描述功能指找到描述数据的可理解模式。描述方法包括以下几种:数据分类、回归分析、簇聚、概括、构造依赖模式、变化和偏差分析、模式发现、路径发现等。
四、数据挖掘的模式
数据挖掘的任务是从数据中发现模式。模式是一个用语言L来表示的一个表达式E,它可用来描述数据集F中数据的特性,E 所描述的数据是集 合F的一个子集FE。E作为一个模式要求它比列举数据子集FE中所有元素的描述方法简单。例如,“如果成绩在81 ~90之间,则成绩优良”可称 为一个模式,而“如果成绩为81、82、83、84、85、86、87、88、89 或90,则成绩优良”就不能称之为一个模式。
模式有很多种,按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。
预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。例如,根据各种 动物的资料,可以建立这样的模式:凡是胎生的动物都是哺乳类动物。当有新的动物资料时,就可以根据这个模式判别此动物是否是哺乳动物。
描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。例如,在地球上,70 %的表面被水覆盖,30 %是土地。
在实际应用中,往往根据模式的实际作用细分为以下6 种:
1、分类模式
分类模式是一个分类函数( 分 类 器),能够把数据集中的数据项映射到某个给定的类上。分类模式往往表现为一棵分类树,根据数据的 值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。
2、回归模式
回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。如给出某种动物的特征,可以用分类模式判定这种动物是哺乳动物还是鸟类;给出某个人的教育情况、工作经验,可以用回归模式判定这个人的年工资在哪个范围内,是在6000元以下,还是在6000元到1万元之间,还是在1万元以上。
3、时间序列模式
时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年 等,不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有 多大的影响力)等。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。
4、聚类模式
聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几 个组和什么样的组,也不知道根据哪一(几)个数据项来定义组。一般来说,业务知识丰富的人应该可以理解这些组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段重新组织数据。
5、关联模式
关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:“在无力偿还贷款的人当中,60%的人的月收入在3000元以下。”
6、序列模式
序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发现序列模式,不仅需要知道事件是否发生,而且需要确定事件 发生的时间。例如,在购买彩电的人们当中,60%的人会在3个月内购买影碟机
五、数据挖掘的发现任务
数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP 方法,另外还有面向属性的归纳方法。
从挖掘任务和挖掘方法的角度而言有数据总结、分类发现、聚类和关联规则发现四种非常重要的发现任务。
5.1、数据总结
数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。由于数据库上的数据或对象所包含的信息总是最原始、基本的信息(这是为了不遗漏任何可能有用的数据信息)。人们有时希望能从较高层次的视图上处理或浏览数据,因此需要对数据进行不同层次上的泛化以适应各种查询要求。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。
1、多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如着名的SAS数据分析软件包、Business Object公司的决策支持系统Business Object,以及IBM公司的决策分析工具都使用了多维数据分析技术。
采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。
2、为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。
5.2、分类发现
分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。
要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:( v1, v2, …, vn; c );其中vi表示字段值,c表示类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。另外,最近又兴起了一种新的方法:粗糙集(rough set),其知识表示是产生式规则。
不同的分类器有不同的特点。有三种分类器评价或比较尺度:1 预测准确度;2 计算复杂度;3 模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据库,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎;例如,采用规则表示的分类器构造法就更有用,而神经网络方法产生的结果就难以理解。
另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺值, 有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。
5.3、聚类
聚类是把一组个体按照相似性归成若干类别,即”物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。
在统计方法中,聚类称聚类分析,它是多元数据分析的三大方法之一(其它两种是回归分析和判别分析)。它主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分;因此它要求所有的数据必须预先给定,而不能动态增加新的数据对象。聚类分析方法不具有线性的计算复杂度,难以适用于数据库非常大的情况。
在机器学习中聚类称作无监督或无教师归纳;因为和分类学习相比,分类学习的例子或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算法来自动确定。很多人工智能文献中,聚类也称概念聚类;因为这里的距离不再是统计方法中的几何距离 ,而是根据概念的描述来确定的。当聚类对象可以动态增加时,概念聚类则称是概念形成。
在神经网络中,有一类无监督学习方法:自组织神经网络方法;如Kohonen自组织特征映射网络、竞争学习网络等等。在数据挖掘领域里,见报道的神经网络聚类方法主要是自组织特征映射方法,IBM在其发布的数据挖掘白皮书中就特别提到了使用此方法进行数据库聚类分割。
5.4、关联规则发现
关联规则是形式如下的一种规则,”在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油 ( 牛奶 )。用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是售货数据,也称货篮数据。一个事务一般由如下几个部分组成:事务处理时间 ,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)。
由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据。因此,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例如,可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货)。由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。
如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。在文献中,一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度;后者即用户规定的关联规则必须满足的最小可信度,它反应了关联规则的最低可靠度。
在实际情况下,一种更有用的关联规则是泛化关联规则。因为物品概念间存在一种层次关系,如夹克衫、滑雪衫属于外套类,外套、衬衣又属于衣服类。有了层次关系后,可以帮助发现一些更多的有意义的规则。例如,”买外套,买鞋子”(此处,外套和鞋子是较高层次上的物品或概念,因而该规则是一种泛化的关联规则)。由于商店或超市中有成千上万种物品,平均来讲,每种物品(如滑雪衫)的支持度很低,因此有时难以发现有用规则;但如果考虑到较高层次的物品(如外套),则其支持度就较高,从而可能发现有用的规则。另外,关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间上或序列上的规律,因为,很多时候顾客会这次买这些东西,下次买同上次有关的一些东西,接着又买有关的某些东西。

Ⅶ 数据挖掘的应用现状

数据挖掘的应用现状
数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。其应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘(DM)技术进行有目的的发掘分析。
常见的应用案例多发生在零售业、财务金融保险、制造业、通讯及医疗服务行业:
1、零售商从顾客购买商品中发现一定的关系,提供打折购物券等,提高销售额;
2、保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润;
3、在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量;
4、电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计。

Ⅷ 数据分析行业中数据分析和数据挖掘

阅读全文

与数据挖掘统计方法的研究现状相关的资料

热点内容
净化大师使用方法 浏览:718
ve使用方法 浏览:445
采集视频的方法 浏览:878
天猫快速下店方法 浏览:461
疤克正确的涂抹方法视频 浏览:993
男士电脑使用方法 浏览:156
抓地的最佳方法 浏览:123
腺肌症的症状和治疗方法 浏览:637
重车调整方法有哪些 浏览:792
电脑护肤方法 浏览:501
负温度系数热敏电阻的测量方法 浏览:906
新奥德赛抖动解决方法 浏览:929
辣椒缺铜施什么肥施肥方法 浏览:112
电脑调试摄像头方法 浏览:781
帕萨特18t发电机涨紧器安装方法 浏览:934
笔记本电脑耳机设置在哪里设置方法 浏览:19
win7恢复语言设置在哪里设置方法 浏览:309
无资料地区水文研究方法 浏览:689
肺部内膜结合临床治疗方法 浏览:710
挽回方法是什么 浏览:206