导航:首页 > 研究方法 > 聚类分析中利用统计学定义的方法

聚类分析中利用统计学定义的方法

发布时间:2024-08-31 22:47:08

1. 聚类算法有哪几种

聚类分析计算方法主要有: 层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。
k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
其流程如下:
(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;
(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。
优点: 本算法确定的K个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。
缺点:
1. K 是事先给定的,但非常难以选定;
2. 初始聚类中心的选择对聚类结果有较大的影响。

2. 聚类分析中常用哪些统计量进行样本间亲疏关系的度量

常用的统计量有 距离和相似系数两大类。
聚类分析,是一种将随机现象归类的统计学分析方法,在不知道应分为多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。在生物医学之中,聚类分析已成为发掘海量信息(包括基因信息)的首选工具。聚类分析数据探索性统计分析方法,按照分类的目的可以分为R型聚类和Q型聚类。R型聚类又称为指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标,是针对变量进行的聚类分析。Q型聚类又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性,是针对样本的聚类分析。 测量n个样本的m个变量,可以进行指标聚类(R型聚类)和样品聚类(Q型聚类)。计算类间的相似系数是进行聚类分析的关键。

3. 聚类分析中的空间和距离概念

聚类分析的意义Cluster Analysis

在经济和社会学研究中,聚类分析是比较常用的多元统计分析方法,是将大量复杂多维的数据和变量进行分组分析的方法。

例如采集1个亿微信用户样本,他们的特征变量不太一样,例如年龄、收入、性格、学历、职业、兴趣、生活作息习惯等等进行初步的量化转化,作为输入变量进行假设分析。

那么这一个亿样本里面,哪些人是能够做为中产阶级,哪些人是可以作为文艺青年?

可以建立文艺青年分类指标,然后分析每个样本个体之间的接近或相似程度,分组建立关联函数。

从直观和简单的分组概念出发,对于庞大的数据,也可以进行客观的统计学分组划分。

这里就会用到聚类分析方法,首先是测量样本个体之间的差异或相似程度。

这里引入空间几何概念,即将每个样本当作一个点,分布在n维空间里,每个维度分别是年龄、收入、性格等。

如果两个变量越接近,我们定义为两个点之间的越相似或亲密,这里使用“距离”的概念进行定义。

如果变量是数值型的变量,而非函数变量。那么可以使用如下几个空间和距离进行量化样本之间的亲密程度。

欧式空间的欧式距离。Euclidean Distance in Euclidean Space.

定义为变量个体差值的平方和的平方根。

平方欧式距离 Squared Euclidean Distance

定义为变量个体差值的平方和,即欧式距离的平方和。

切比雪夫距离Chebychev Distance

定义为变量差值的绝对值得最大值

块距离Block Distance

定义为变量差值的绝对值的总合

明考斯基距离Minkowski Distance

定义为变量差值绝对值的p次方的总和的p次根

夹角余弦距离Cosine Distance

定义为变量乘积的平方的和,除以(单独每个变量自身平方的和,再相乘)

如果变量是计数的离散变量,那么距离就需要用以下方法定义

卡方距离Chi-Square Measure Distance

x,y变量之间的距离定义为x变量的第i个变量与期望值(这里也成为期望频数,例如一个人每天去咖啡馆的平均次数)的差值的平方,除以期望值之后进行汇总计算,再加上y变量的第i个变量与期望值(这里也成为期望频数,例如一个人每天去咖啡馆的平均次数)的差值的平方,除以期望值之后进行汇总计算。然后再开平方。

Phi方距离Phi-Square Measure Distance

和卡方距离的区别在于,是在最后一个开平方之前,先除以总频数n。即加入了总频数的数学考量。

如果变量是二项式数值,即0或1,有或无,是或非的选择,那么距离可以用以下方法定义

简单匹配系数Simple Matching

将2个选择变量进行矩阵组合,然后将一个变量为0,另一个变量为1的频数相加,作为分子,除以分母。分母为矩阵中所有频数的总和。

Jaccard系数

和简单匹配系数的区别在于,分母减去了2个变量都为0的频数,即去掉了同时为0的数据的影响。

有了距离以后,下一步是划分小组,或空间中的小球体,小集合

每个小组或小集合里面有n个样本个体,可以按照不同的原则进行最优分组。例如最近邻距离原则,组内平均链锁距离原则,重心距离,离差平方和距离方法等方法使得分组合理化和优化。

形象点说,就是科学合理的通过数据统计方法将真正的文艺青年分成一组,伪文青分成一组,另类文青分成一组。。。

如果应用于经济学领域,可以将100个国家按照发达指数、开放指数等做分类分层,按照聚类分析碎石图,可以划分层次,将这些国家分为3组、4组或更多组。

分组工具可以使用SPSS等统计分析软件的聚类分析模块来实现。

聚类分析先到这里,我们对空间和距离概念进一步引申

数学上,空间、距离等概念在应用和研究中,进行了进一步的抽象化。

我们常识上或直观上理解的多为欧几里得空间,也就是欧式空间,最常见的是三维欧式空间。即XYZ三个轴是相互垂直的关系,所有点可以通过三个轴对应映射关系进行三点定位。而欧式空间的距离,是两点之间的实际距离。

进一步引申,将三维空间抽象化之后,进行4维、5维乃至n维空间,即有n个相互垂直的坐标系,而每个点可以用n个轴上的映射进行n点定位,这个空间的两点之间的距离定义为两个点第i个坐标上映射的差值的平方和之后再开方。即我们前面提到的欧式空间距离概念。

明考斯基距离是欧式空间距离的进一步推广,如果p设定为2,则为欧式距离,如果p设定为无穷大,则为切比雪夫距离。

从以上数学定义推广过程,我们可以看出,对于数值型的空间概念,是基于欧式空间的引申推广而产生的不同定义,可以应用在合适的场合和情景下。

而距离基于线性结构八大定律之后,构成的向量空间概念,是进一步的抽象,而这个空间里,每个点到空间坐标轴原点的距离,定义为范数norm。如果向量空间定义了范数,则这个空间成为赋范向量空间。

然后进一步抽象:

赋范空间+线性结构⟶>线性赋范空间

如果在线性赋范空间上增加添加内积运算概念,即,使空间中向量在n个维度上映射的分别乘积的和,和向量之间的角度有关,则这个空间称为内积空间。

如果在这个内积空间里,所有的运算的极限运算,仍然在这个空间内,即收敛,那么这个空间就定义为希尔伯特空间Hilbert Space。

如果是基于线性赋范空间+收敛(完备性),则这个空间称为巴拿赫空间Banach Space。

回归到聚类分析,我们进一步将聚类概念进行抽象化

如果是将函数或向量进行聚类,那么函数或向量之间的距离概念,则可以通过以上范数的概念进行进一步分析,而线性赋范空间的概念,为我们为更抽象的点和集合的分组聚类提供了可供探索的工具。

聚类分析或聚类算法在机器学习、数据挖掘等人工智能领域应用较广,它的一个重点特点是通过机器或计算机将大量数据进行自动统计分类,不需要人工参与。

关于希尔伯特空间、巴拿赫空间的聚类问题,可以继续阅读相关文献。

深入阅读:

下面文献可以通过高校邮箱进行注册账号,阅读公开论文。

Clustering via Hilbert space

Clustering in Banach Spaces

阅读全文

与聚类分析中利用统计学定义的方法相关的资料

热点内容
分光仪调节的不确定度计算方法 浏览:670
综合算式有小括号怎样算简便方法 浏览:908
药典四种鉴别方法 浏览:171
自动档排档杆活动锲块安装方法 浏览:161
皇冠盒子制作方法视频 浏览:411
隔尿垫的使用方法 浏览:812
9岁反复低烧怎么处理方法 浏览:350
低头玩手机正确方法 浏览:25
衣柜滑轮安装方法视频 浏览:638
茶树嫁接方法视频 浏览:680
6s闹钟铃声在哪里设置方法 浏览:208
t2金属探测器使用方法 浏览:737
幼儿测量身高方法图片 浏览:159
正确给孩子断奶的方法 浏览:663
摩托车省油方法如何换摩托车气缸 浏览:628
手口足病的治疗方法 浏览:906
玻璃钢排风的安装方法 浏览:682
八十一除以二十七计算方法 浏览:287
有哪些方法是描写人物的方法 浏览:472
坐骨神经如何快速缓解土方法 浏览:474