1. 常用的统计分析方法总结(聚类分析、主成分分析、因子分析)
1. 系统聚类法 :由N类--1类
2. 分解法 :由1类---N类
3. K-均值法 :事先在聚类过程中确定在K类,适用于数据量大的数据
4. 有序样品的聚类 :N个样品排序,次序相邻的样品聚成一类
5. 模糊聚类法 :模糊数学的方法,多用于定性变量
6. 加入法 :样品依次加入,全部加入完得到聚类图。
a.夹角余弦
b.相关系数
a.常用的类间距离定义有8种之多,与之相应的 系统聚类法 也有8种,分别为
a. 中间距离法
b. 最短距离法 :类与类之间的距离最近两个样品的距离。
c. 最长距离法 :类与类之间的距离最远两个样品的距离。【先距离最短,后距离最远合并】
d. 类平均法 :两类元素中任两个样品距离的平均。
e. 重心法 :两个重心xp 和xq 的距离。
f. 可变类平均法
e. 离差平方和法(Ward法) : 该方法的基本思想来自于方差分析,如果分类正确,同 类样品的离差平方和应当较小,类与类的离差平方和较大。 具体做法是先将 n 个样品各自成一类,然后每次缩小一类,每 缩小一类,离差平方和就要增大,选择使方差增加最小的两 类合并,直到所有的样品归为一类为止。
a. 最短距离法的主要缺点是它有链接聚合的趋势,容易形 成一个比较大的类,大部分样品都被聚在一类中,所以最短 距离法的聚类效果并不好,实际中不提倡使用。
b. 最长距离法克服了最短距离法链接聚合的缺陷,两类合 并以后与其他类的距离是原来两个类中的距离最大者,加大 了合并后的类与其他类的距离。
a. 定义 :主成分分析(Principal Component Analysis,简记 PCA)是将 多个指标化为少数几个综合指标的一种统计分析方法 ,通常我们把转化成的综合指标称为主成分。
b. 本质:降维
c. 表达 :主成分为原始变量的线性组合
d. 即信息量在空间降维以后信息量没有发生改变,所有主成分的方差之和与原始的方差之和
e. 多个变量之间有一定的相关性,利用原始变量 的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用。
f. 累积贡献率一般是 85% 以上
(1)每一个主成分都是各 原始变量的线性组合
(2)主成分的数目大大少于原始变量的数目
(3)主成分保留了原始变量绝大多数信息
(4)各主成分之间 互不相关
a. 基本目的:用 少数几个综合因子去描述多个随机变量之间的相关关系 。
b. 定义:多个变量————少数综合因子(不存在的因子)
c. 显在变量:原始变量X;潜在变量:因子F
d. X=AF+e【公共因子+特殊因子】
e. 应用: 因子分析主要用于相关性很强的多指标数据的降维处理。
f. 通过研究原始变量相关矩阵内部 的依赖关系,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
g. 定义:原始的变量是可观测的显在变量,而 综合 的因子是 不可观测 的 潜在变量 ,称为因子。
i. 根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。
ii. 公共因子 :每组变量代表一个基本结构,并用一个不可观测的综合变量表示。
iii. 对于所研究的某一具体问题,原始变量分解成两部分:
i. R 型因子分析——研究变量之间的相关关系
ii. Q 型因子分析——研究样品之间的相关关系
a. 因子载荷 是第i个变量与第j个公共因子的相关系数,绝对值越大,相关的密切程度越高。
a. 变量 Xi 的共同度是因子载荷矩阵的第i行的元素的平方和。记为
b. 所有的公共因子与特殊因子对变量 Xi 的贡献和为1。
a. 确定因子载荷
b. 因子旋转
c. 计算因子得分
a. 寻找简单结构的载荷矩阵:载荷矩阵A的所有元素都接 近0或±1,则模型的公共因子就易于解释。
b. 如果各主因子的典型代表变量不突出,就需要进行旋转使因子载荷矩阵中载荷的绝对值向0和1两个方向分化。
a.意义:对公共因子作正交旋转相当于对载荷矩阵 A 作一正交变换 ,右乘正交矩阵 T ,使 A* = AT 能有更鲜明的实际意义。
b.几何意义:是在 m 维空间上对原因子轴作一刚性旋转。 因子旋转不改变公共因子的共同度,这是因为 A A '=ATT'A'=AA'
c. 旋转方法有:正交旋转和斜交旋转
d. 最普遍的是: 最大方差旋转法
a. 定义:通过坐标变换使各个因子载荷的方差之和最大。
b. 任何一个变量只在一个因子上有高贡献率,而在 其它因子上的载荷几乎为0;
c. 任何一个因子只在少数变量上有高载荷,而在其 它变量上的载荷几乎为0。
思想相同: 降维
前提条件:各变量间必须有 相关性 ,否则各变量之间没有共享信息
2. 社会科学中有哪些常用的统计分析方法
1、聚类分析
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
2、因子分析
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反复法。
3、相关分析
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
4、对应分析
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
5、回归分析
研究一个随机变量Y对另一个(X)或一组(X1,X2,„,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
3. 聚类分析法方法
聚类分析法是数据挖掘中常用的一种技术,它通过将数据对象分组,使得同一组内的对象相似度较高,而不同组之间的对象相似度较低。以下是三种常见的聚类方法的描述:
首先,直接聚类法(又称单链接法)从每个分类对象独立开始,通过寻找距离最小的两个对象合并为一类。如果其中一个对象已归属,就将其对应的另一对象也并入该类。如果两个对象已分别归属两个类,则将这两个类合并。这个过程重复进行,直至所有对象归为一类。这种聚类方法可以用聚类谱系图直观地表示分类过程。
其次,最短距离聚类法(又称双链接法)是通过不断寻找两个分类对象之间的最小距离,将它们合并为新类。合并后,重新计算所有类与新类的距离,继续寻找最小距离进行下一轮的合并,直到所有对象形成一个大类。这种方法强调的是邻近度,确保新类内的对象间关系最为紧密。
最后,最远距离聚类法(又称完全链接法)与最短距离聚类法的不同在于,它使用的是类间最大距离来衡量相似性。该方法将两个分类对象间的最大距离作为合并的依据,以确保新类内的对象尽可能远离其他类。这个过程也是不断重复,直到所有对象归为一类。
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。