导航:首页 > 研究方法 > 聚类分析有什么分类方法

聚类分析有什么分类方法

发布时间:2022-09-27 20:51:07

⑴ 聚类算法有哪几种

聚类分析计算方法主要有: 层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

其流程如下:

(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(3)重新计算每个(有变化)聚类的均值(中心对象);

(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。

优点: 本算法确定的K个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。

缺点

1. K 是事先给定的,但非常难以选定;

2. 初始聚类中心的选择对聚类结果有较大的影响。

⑵ 聚类分析的算法有哪几类

聚类分析的算法可以分为以下几大类:分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。

⑶ 模糊聚类分析的常用分类方法

数据分类中,常用的分类方法有多元统计中的系统聚类法、模糊聚类分析等.在模糊聚类分析中,首先要计算模糊相似矩阵,而不同的模糊相似矩阵会产生不同的分类结果;即使采用相同的模糊相似矩阵,不同的阈值也会产生不同的分类结果.“如何确定这些分类的有效性”便成为模糊聚类的要点。
识别研究中的一个重要问题.文献,把有效性不满意的原因归结于数据集几何结构的不理想.但笔者认为,不同的几何结构是对实际需要的反映,我们不能排除实际需要而追求所谓的“理想几何结构”,不理想的分类不应归因于数据集的几何结构.针对同一模糊相似矩阵,文献建立了确定模糊聚类有效性的方法.用固定的显着性水平,在不同分类的F一统计量和F检验临界值的差中选最大者,即为有效分类.但是,当显着性水平变化时,此方法的结果也会变化.文献引进了一种模糊划分嫡来评价模糊聚类的有效性,并人为规定当两类的嫡大于一数时,此两类可合并,通过逐次合并,最终得到有效分类.此方法人为干预较多,当这个规定数不同时,也会得到不同的结果.另外这两种方法也未比较不同模糊相似矩阵的分类结果. 系统聚类法是基于模糊等价关系的模糊聚类分析法。在经典的聚类分析方法中可用经典等价关系对样本集X进行聚类。设R是 X上的经典等价关系。对X中的两个元素x和y,若xRy或(x,y)∈R,则将x和y并为一类,否则x和y不属于同一类。
相应地,可用X上的模糊等价关系对样本集X进行模糊聚类。设慒是X上的模糊等价关系,是慒 的隶属函数。对于任何α∈【0,1】,定义慒 的α截关系 Sα是X上的经典等价关系。根据Sα得到X 的一种聚类,称为在α水平上的聚类。
应用这种方法,分类的结果与α的取值大小有关。α取值越大,分的类数越多。α小到某一值时,X中的所有样本归并为一类。这种方法的优点在于可按实际需要选取α的值,以便得到恰当的分类。
系统聚类法的步骤如下:
①用数字描述样本的特征。设被聚类的样本集为 X={x1,…,xn}。每个样本均有p种特征,记作xi=(xi1,…,xip);i=1,2,…,n;xip表示描述样本xi的第p个特征的数。 ②规定样本之间的相似系数rij(0≤rij≤1;i,j=1,…,n)。rij描述样本xi与xj之间的差异或相似的程度。rij 越接近于1,表明样本xi与xj之间的差异越小;rij 越接近于0,表明xi与xj之间的差异越大。rij可用主观评定或集体评分的方法规定,也可用公式计算,如采用夹角余弦法、最小最大法、算术平均最小法等。
因为rii=1(xi与自身没有差异),rij=rji(xi与xj之间的差异等同于xj与xi之间的差异),所以由rij(i,j=1,…,n)可得X上的模糊相似关系。
一般,R不具备可传递性,因而R不一定是 X上的模糊等价关系。
③运用合成运算R=R⋅R(或R=R⋅R等)求出最接近相似关系R的模糊等价关系S=R(或R等)。若R已是模糊等价关系,则取S=R。
④选取适当水平α(0≤α≤1),得到X 的一种聚类。 逐步聚类法是一种基于模糊划分的模糊聚类分析法。它是预先确定好待分类的样本应分成几类,然后按最优化原则进行再分类,经多次迭代直到分类比较合理为止。
在分类过程中可认为某个样本以某一隶属度隶属于某一类,又以另一隶属度隶属于另一类。这样,样本就不是明确地属于或不属于某一类。若样本集有 n个样本要分成c类,则它的模糊划分矩阵为此c×n模糊划分矩阵有下列特性:①uij∈【0,1】;i=1,…,c;j=1,…,n。②即每一样本属于各类的隶属度之和为1。③即每一类模糊子集都不是空集。

⑷ 四种聚类方法之比较

四种聚类方法之比较
介绍了较为常见的k-means、层次聚类、SOM、FCM等四种聚类算法,阐述了各自的原理和使用步骤,利用国际通用测试数据集IRIS对这些算法进行了验证和比较。结果显示对该测试类型数据,FCM和k-means都具有较高的准确度,层次聚类准确度最差,而SOM则耗时最长。
关键词:聚类算法;k-means;层次聚类;SOM;FCM
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。
聚类技术[2]正在蓬勃发展,对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进,而不同的方法适合于不同类型的数据,因此对各种聚类方法、聚类效果的比较成为值得研究的课题。
1 聚类算法的分类
目前,有大量的聚类算法[3]。而对于具体应用,聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。
主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法[4-6]。
每一类中都存在着得到广泛应用的算法,例如:划分方法中的k-means[7]聚类算法、层次方法中的凝聚型层次聚类算法[8]、基于模型方法中的神经网络[9]聚类算法等。
目前,聚类问题的研究不仅仅局限于上述的硬聚类,即每一个数据只能被归为一类,模糊聚类[10]也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据隶属于各个簇的程度,而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出,如着名的FCM算法等。
本文主要对k-means聚类算法、凝聚型层次聚类算法、神经网络聚类算法之SOM,以及模糊聚类的FCM算法通过通用测试数据集进行聚类效果的比较和分析。
2 四种常用聚类算法研究
2.1 k-means聚类算法
k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。
k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:

这里E是数据库中所有对象的平方误差的总和,p是空间中的点,mi是簇Ci的平均值[9]。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。k-means聚类算法的算法流程如下:
输入:包含n个对象的数据库和簇的数目k;
输出:k个簇,使平方误差准则最小。
步骤:
(1) 任意选择k个对象作为初始的簇中心;
(2) repeat;
(3) 根据簇中对象的平均值,将每个对象(重新)赋予最类似的簇;
(4) 更新簇的平均值,即计算每个簇中对象的平均值;
(5) until不再发生变化。
2.2 层次聚类算法
根据层次分解的顺序是自底向上的还是自上向下的,层次聚类算法分为凝聚的层次聚类算法和分裂的层次聚类算法。
凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同。四种广泛采用的簇间距离度量方法如下:

这里给出采用最小距离的凝聚层次聚类算法流程:
(1) 将每个对象看作一类,计算两两之间的最小距离;
(2) 将距离最小的两个类合并成一个新类;
(3) 重新计算新类与所有类之间的距离;
(4) 重复(2)、(3),直到所有类最后合并成一类。
2.3 SOM聚类算法
SOM神经网络[11]是由芬兰神经网络专家Kohonen教授提出的,该算法假设在输入对象中存在一些拓扑结构或顺序,可以实现从输入空间(n维)到输出平面(2维)的降维映射,其映射具有拓扑特征保持性质,与实际的大脑处理有很强的理论联系。
SOM网络包含输入层和输出层。输入层对应一个高维的输入向量,输出层由一系列组织在2维网格上的有序节点构成,输入节点与输出节点通过权重向量连接。学习过程中,找到与之距离最短的输出层单元,即获胜单元,对其更新。同时,将邻近区域的权值更新,使输出节点保持输入向量的拓扑特征。
算法流程:
(1) 网络初始化,对输出层每个节点权重赋初值;
(2) 将输入样本中随机选取输入向量,找到与输入向量距离最小的权重向量;
(3) 定义获胜单元,在获胜单元的邻近区域调整权重使其向输入向量靠拢;
(4) 提供新样本、进行训练;
(5) 收缩邻域半径、减小学习率、重复,直到小于允许值,输出聚类结果。
2.4 FCM聚类算法
1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展,模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点,出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析,就是模糊聚类分析[12]。
FCM算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。该聚类算法是传统硬聚类算法的一种改进。

算法流程:
(1) 标准化数据矩阵;
(2) 建立模糊相似矩阵,初始化隶属矩阵;
(3) 算法开始迭代,直到目标函数收敛到极小值;
(4) 根据迭代结果,由最后的隶属矩阵确定数据所属的类,显示最后的聚类结果。
3 四种聚类算法试验
3.1 试验数据
实验中,选取专门用于测试分类、聚类算法的国际通用的UCI数据库中的IRIS[13]数据集,IRIS数据集包含150个样本数据,分别取自三种不同的莺尾属植物setosa、versicolor和virginica的花朵样本,每个数据含有4个属性,即萼片长度、萼片宽度、花瓣长度,单位为cm。在数据集上执行不同的聚类算法,可以得到不同精度的聚类结果。
3.2 试验结果说明
文中基于前面所述各算法原理及算法流程,用matlab进行编程运算,得到表1所示聚类结果。

如表1所示,对于四种聚类算法,按三方面进行比较:(1)聚错样本数:总的聚错的样本数,即各类中聚错的样本数的和;(2)运行时间:即聚类整个过程所耗费的时间,单位为s;(3)平均准确度:设原数据集有k个类,用ci表示第i类,ni为ci中样本的个数,mi为聚类正确的个数,则mi/ni为第i类中的精度,则平均精度为:

3.3 试验结果分析
四种聚类算法中,在运行时间及准确度方面综合考虑,k-means和FCM相对优于其他。但是,各个算法还是存在固定缺点:k-means聚类算法的初始点选择不稳定,是随机选取的,这就引起聚类结果的不稳定,本实验中虽是经过多次实验取的平均值,但是具体初始点的选择方法还需进一步研究;层次聚类虽然不需要确定分类数,但是一旦一个分裂或者合并被执行,就不能修正,聚类质量受限制;FCM对初始聚类中心敏感,需要人为确定聚类数,容易陷入局部最优解;SOM与实际大脑处理有很强的理论联系。但是处理时间较长,需要进一步研究使其适应大型数据库。
聚类分析因其在许多领域的成功应用而展现出诱人的应用前景,除经典聚类算法外,各种新的聚类方法正被不断被提出。

⑸ 聚类算法有哪些

聚类算法有:划分法、层次法、密度算法、图论聚类法、网格算法、模型算法。

1、划分法

划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。

2、层次法

层次法(hierarchical methods),这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。

3、密度算法

基于密度的方法(density-based methods),基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

4、图论聚类法

图论聚类方法解决的第一步是建立与问题相适应的图,图的节点对应于被分析数据的最小单元,图的边(或弧)对应于最小处理单元数据之间的相似性度量。因此,每一个最小处理单元数据之间都会有一个度量表达,这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源,因而其主要优点是易于处理局部数据的特性。

5、网格算法

基于网格的方法(grid-based methods),这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。

6、模型算法

基于模型的方法(model-based methods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。通常有两种尝试方向:统计的方案和神经网络的方案。

(5)聚类分析有什么分类方法扩展阅读:

聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。

⑹ 聚类分析法(CA)

3.2.3.1 技术原理

聚类分析又称群分析(CA),它是研究(对样品或指标)分类问题的一种多元统计方法。首先认为所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),根据一批样品的多个观测指标具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类,根据分类对象不同,可分为对样品分类的Q型聚类分析和对指标分类的R型聚类分析两种类型。聚类分析可用SPSS软件直接实现,在水质时空变异、水化学类型分区中得到广泛的应用。聚类分析的功能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类,聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:系统聚类法、调优法、最优分割法、模糊聚类法等。

聚类分析根据分类对象的不同又分为R型和Q型两大类,R型是对变量(指标)进行分类,Q型是对样品进行分类。为了对样品(或变量)进行分类,就必须研究它们之间的关系,描述样品间亲疏相似程度的统计量很多,目前用得最多的是距离和相似系数。距离方法主要有:闵科夫斯基(Minkowski)距离、绝对值距离、欧氏距离等。

样品间的亲疏程度除了用距离描述外,也可用相似系数来表示,相似系数的构造主要有以下两种方法:对于定量变量,我们通常采用的相似系数有xi和xj之间的夹角余弦和相关系数。

3.2.3.2 方法流程

目前使用最多的聚类方法是系统聚类法,其基本思想是:先将n个样品各自看成一类,共有n个类,然后计算类与类间的距离,选择距离最小的两类合并成一个新类,使总类数减少为n-1,接着再计算这n-1类两两间的距离,从中找出距离最近的两类合并,总类数又减少一个,剩下n-2个类,照此下去,每合并一次,减少一类,直至所有样品都合并成一类为止。在并类的过程当中,可以根据聚类的先后以及并类时两类间的距离,画出能直观反映各样品间相近和疏远程度的聚类图(也称谱系图),根据这张聚类图有可能找到最合适的分类方案。系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法,类间距离的定义方法主要有最短距离法、最长距离法、中间距离法、重心法、类平均法。在合理地选定(或定义)样品间的距离以后,再适当定义类间的距离,就确定了一种聚类规则,之后按照系统聚类法的一般步骤加以聚类(图3.4)。

图3.4 聚类分析技术流程图

3.2.3.3 适用范围

聚类分析能够将变量及样本按照相应的规则进行分类,在大样本多参数数据降维方面具有相对的优势,尤其是对于在时间、空间上具有复杂变化的数据,聚类分析能够根据变量和样本的相关性和相似性,将数据有效地划分为不同的类别,并通过树状图反映出样品随距离或变量间相似性变化的情况,为查清变量和样品之间关系提供了依据,也为查明污染来源奠定了基础。

⑺ 聚类算法有哪些分类

聚类算法的分类有:

1、划分法

划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K小于N。而且这K个分组满足下列条件:

(1) 每一个分组至少包含一个数据纪录;

(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);

2、层次法

层次法(hierarchical methods),这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。

例如,在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

3、密度算法

基于密度的方法(density-based methods),基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

4、图论聚类法

图论聚类方法解决的第一步是建立与问题相适应的图,图的节点对应于被分析数据的最小单元,图的边(或弧)对应于最小处理单元数据之间的相似性度量。因此,每一个最小处理单元数据之间都会有一个度量表达,这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源,因而其主要优点是易于处理局部数据的特性。

5、网格算法

基于网格的方法(grid-based methods),这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。

代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;

6、模型算法

基于模型的方法(model-based methods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。

通常有两种尝试方向:统计的方案和神经网络的方案。

(7)聚类分析有什么分类方法扩展阅读:

聚类算法的要求:

1、可伸缩性

许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有偏的结果。

我们需要具有高度可伸缩性的聚类算法。

2、不同属性

许多算法被设计用来聚类数值类型的数据。但是,应用可能要求聚类其他类型的数据,如二元类型(binary),分类/标称类型(categorical/nominal),序数型(ordinal)数据,或者这些数据类型的混合。

3、任意形状

许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是,一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。

4、领域最小化

许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担,也使得聚类的质量难以控制。

5、处理“噪声”

绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。

6、记录顺序

一些聚类算法对于输入数据的顺序是敏感的。例如,同一个数据集合,当以不同的顺序交给同一个算法时,可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要的意义。

⑻ 16种常用的数据分析方法-聚类分析

聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。











聚类分析定义









聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。


聚类效果的好坏依赖于两个因素:1.衡量距离的方法(distance measurement) 2.聚类算法(algorithm)

 
















聚类分析常见算法









K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。


K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。


也称为层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其所包含的对象就越少,但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用,数据量大的时候速度会非常慢。

 
















案例









有20种12盎司啤酒成分和价格的数据,变量包括啤酒名称、热量、钠含量、酒精含量、价格。


 

问题一:选择那些变量进行聚类?——采用“R 型聚类”

 

现在我们有4个变量用来对啤酒分类,是否有必要将4个变量都纳入作为分类变量呢?热量、钠含量、酒精含量这3个指标是要通过化验员的辛苦努力来测定,而且还有花费不少成本。


所以,有必要对4个变量进行降维处理,这里采用spss R型聚类(变量聚类),对4个变量进行降维处理。输出“相似性矩阵”有助于我们理解降维的过程。



4个分类变量各自不同,这一次我们先用相似性来测度,度量标准选用pearson系数,聚类方法选最远元素,此时,涉及到相关,4个变量可不用标准化处理,将来的相似性矩阵里的数字为相关系数。若果有某两个变量的相关系数接近1或-1,说明两个变量可互相替代。



只输出“树状图”就可以了,从proximity matrix表中可以看出热量和酒精含量两个变量相关系数0.903,最大,二者选其一即可,没有必要都作为聚类变量,导致成本增加。


至于热量和酒精含量选择哪一个作为典型指标来代替原来的两个变量,可以根据专业知识或测定的难易程度决定。(与因子分析不同,是完全踢掉其中一个变量以达到降维的目的。)这里选用酒精含量,至此,确定出用于聚类的变量为:酒精含量,钠含量,价格。

        


问题二:20 中啤酒能分为几类?—— 采用“Q 型聚类”

 

现在开始对20中啤酒进行聚类。开始不确定应该分为几类,暂时用一个3-5类范围来试探。Q型聚类要求量纲相同,所以我们需要对数据标准化,这一回用欧式距离平方进行测度。



主要通过树状图和冰柱图来理解类别。最终是分为4类还是3类,这是个复杂的过程,需要专业知识和最初的目的来识别。


这里试着确定分为4类。选择“保存”,则在数据区域内会自动生成聚类结果。




问题三:用于聚类的变量对聚类过程、结果又贡献么,有用么?——采用“单因素方差分析”

 

聚类分析除了对类别的确定需讨论外,还有一个比较关键的问题就是分类变量到底对聚类有没有作用有没有贡献,如果有个别变量对分类没有作用的话,应该剔除。


这个过程一般用单因素方差分析来判断。注意此时,因子变量选择聚为4类的结果,而将三个聚类变量作为因变量处理。方差分析结果显示,三个聚类变量sig值均极显着,我们用于分类的3个变量对分类有作用,可以使用,作为聚类变量是比较合理的。




 

问题四:聚类结果的解释?——采用”均值比较描述统计“


聚类分析最后一步,也是最为困难的就是对分出的各类进行定义解释,描述各类的特征,即各类别特征描述。这需要专业知识作为基础并结合分析目的才能得出。


我们可以采用spss的means均值比较过程,或者excel的透视表功能对各类的各个指标进行描述。其中,report报表用于描述聚类结果。对各类指标的比较来初步定义类别,主要根据专业知识来判定。这里到此为止。



以上过程涉及到spss层次聚类中的Q型聚类和R型聚类,单因素方差分析,means过程等,是一个很不错的多种分析方法联合使用的案例。

 
















聚类分析的应用









聚类分析是细分市场的有效工具,被用来发现不同的客户群,并且它通过对不同的客户群的特征的刻画,被用于研究消费者行为,寻找新的潜在市场。

 



聚类分析被用来对动植物和基因进行分类,以获取对种群固有结构的认识。

 



聚类分析可以通过平均消费来鉴定汽车保险单持有者的分组,同时可以根据住宅类型、价值、地理位置来鉴定城市的房产分组。

 



聚类分析被用来在网上进行文档归类。

 



聚类分析通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,从而帮助电子商务企业了解自己的客户,向客户提供更合适的服务。

 


⑼ 什么是聚类分析聚类算法有哪几种

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于

分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行

定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识

难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又

将多元分析的技术引入到数值分类学形成了聚类分析。

聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论

聚类法、聚类预报法等。

聚类分析计算方法主要有如下几种:分裂法(partitioning methods):层次法(hierarchical

methods):基于密度的方法(density-based methods): 基于网格的方法(grid-based

methods): 基于模型的方法(model-based methods)。

阅读全文

与聚类分析有什么分类方法相关的资料

热点内容
pc肌锻炼方法教学视频 浏览:997
接触角测量仪使用方法 浏览:789
冰晶石用什么方法干燥好 浏览:897
紫砂老壶用什么方法最好 浏览:390
10元折桃心方法6步骤图片 浏览:359
天气变化如何保护自己方法 浏览:683
域故障分析方法 浏览:74
洗衣机使用方法的视频 浏览:513
婴幼儿皮炎怎么治疗方法 浏览:944
广电路由器连接电视方法 浏览:202
消防编码器的使用方法 浏览:721
如何正确方法画出粽子 浏览:645
用什么方法可以查出输尿管癌症 浏览:295
如何止住流泪的方法 浏览:963
怎么发制海参的方法 浏览:210
什么叫分步说明的方法 浏览:429
用哪些方法可以预防糖尿病 浏览:460
甲亢治疗方法比较 浏览:573
分数计算方法如何运用 浏览:493
ipadqq麦克风设置在哪里设置方法 浏览:659