❶ 主成分分析法
在对灾毁土地复垦效益进行分析时,会碰到众多因素,各因素间又相互关联,将这些存在相关关系的因素通过数学方法综合成少数几个最终参评因素,使这几个新的因素既包含原来因素的信息又相互独立。简化问题并抓住其本质是分析过程中的关键,主成分分析法可以解决这个难题。
(一)主成分分析的基本原理
主成分分析法(Principal Components Analysis,PCA)是把原来多个变量化为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理方法,即通过对原始指标相关矩阵内部结果关系的研究,将原来指标重新组合成一组新的相互独立的指标,并从中选取几个综合指标来反映原始指标的信息。假定有n个评价单元,每个评价单元用m个因素来描述,这样就构成一个n×m阶数据矩阵:
灾害损毁土地复垦
如果记m个因素为 x1,x2,…,xm,它们的综合因素为 z1,z2,…,zp(p≤m),则:
灾害损毁土地复垦
系数lij由下列原则来决定:
(1)zi与zj(i≠j,i,j=1,2,…,p)相互无关;
(2)z1是x1,x2,…,xm的一切线性组合中方差最大者,依此类推。
依据该原则确定的综合变量指标z1,z2,…,zp分别称为原始指标的第1、第2、…、第p个主成分,分析时可只挑选前几个方差最大的主成分。
(二)主成分分析法的步骤
(1)将原始数据进行标准化处理,以消除原始数据在数量级或量纲上的差异。
(2)计算标准化的相关数据矩阵:
灾害损毁土地复垦
(3)用雅克比法求相关系数矩阵R的特征值(λ1,λ2,…,λp)和与之相对应的特征向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。
(4)选择重要的主成分,并写出其表达式。
主成分分析可以得到P个主成分,但是由于各个主成分的方差与其包含的信息量皆是递减的,所以在实际分析时,一般不选取P个主成分,而是根据各个主成分所累计的贡献率的大小来选取前K个主成分,这里的贡献率是指某个主成分的方差在全部方差中所占的比重,实际上也是某个特征值在全部特征值合计中所占的比重。即:
灾害损毁土地复垦
这说明,主成分所包含的原始变量的信息越强,贡献率也就越大。主成分的累计贡献率决定了主成分个数K的选取情况,为了保证综合变量能包括原始变量的绝大多数信息,一般要求累计贡献率达到85%以上。
另外,在实际应用过程中,选择主成分之后,还要注意主成分实际含义的解释。如何给主成分赋予新的含义,给出合理的解释是主成分分析中一个相当关键的问题。一般来说,这个解释需要根据主成分表达式的系数而定,并与定性分析来进行有效结合。主成分是原来变量的线性组合,在这个线性组合中各变量的系数有正有负、有大有小,有的又大小相当,因此不能简单地把这个主成分看作是某个原变量的属性作用。线性组合中各变量系数的绝对值越大表明该主成分主要包含了该变量;如果有几个大小相当的变量系数时,则认为这一主成分是这几个变量的综合,而这几个变量综合在一起具有什么样的实际意义,就需要结合具体的问题和专业,给出合理的解释,进而才能达到准确分析的目的。
(5)计算主成分得分。根据标准化的原始数据,将各个样品分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下:
灾害损毁土地复垦
(6)依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成分回归,变量子集合的选择,综合评价等。
(三)主成分分析法的评价
通过主成分分析法来评价复垦产生的效益,可将多个指标转化成尽可能少的综合性指标,使综合指标间互不相干,既减少了原指标信息的重叠度,又不丢失原指标信息的总含量。该方法不仅将多个指标转化成综合性指标,而且也能对每个主成分的影响因素进行分析,从而判别出影响整个评价体系的关键因素,并且主成分分析法在确定权重时可以科学地赋值,以避免主观因素的影响。
需要注意的是,主成分分析法虽然可以对每个主成分的权重进行科学、定量的计算,避免人为因素及主观因素的影响,但是有时候赋权的结果可能与客观实际有一定误差。因此,利用主成分分析法确定权重后,再结合不同专家给的权重,是最好的解决办法。这样可以在定量的基础上作出定性的分析,通过一定的数理方法将两种数据结合起来考虑。
❷ 数据分析 常用的降维方法之主成分分析
数据分析:常用的降维方法之主成分分析
主成分分析(Principal Component Analysis,PCA)也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。
主成分分析的主要作用
1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。
2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。
3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。
4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。
5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。
主成分分析法的计算步骤
1、原始指标数据的标准化采集p 维随机向量x = (x1,X2,...,Xp)T)n 个样品xi = (xi1,xi2,...,xip)T ,i=1,2,…,n,
n>p,构造样本阵,对样本阵元进行如下标准化变换:
Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,...,n; j=1,2,...,p
其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1},得标准化阵Z。
2、对标准化阵Z 求相关系数矩阵
R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}
其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,...,p 。
3、解样本相关矩阵R 的特征方程left|R-lambda I_pright|=0得p 个特征根,确定主成分
按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 0.85 确定m 值,使信息的利用率达85%以上,对每个λj, j=1,2,...,m, 解方程组Rb = λjb得单位特征向量b^o_j 。
4、将标准化后的指标变量转换为主成分
U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,m
U1称为第一主成分,U2 称为第二主成分,…,Up 称为第p 主成分。
5 、对m 个主成分进行综合评价
对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。
因子分析
因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。
因子分析法的步骤
(1)对数据样本进行标准化处理。
(2)计算样本的相关矩阵R。
(3)求相关矩阵R的特征根和特征向量。
(4)根据系统要求的累积贡献率确定主因子的个数。
(5)计算因子载荷矩阵A。
(6)确定因子模型。
(7)根据上述计算结果,对系统进行分析。
以上是小编为大家分享的关于数据分析 常用的降维方法之主成分分析的相关内容,更多信息可以关注环球青藤分享更多干货
❸ 主成分计算权重全步骤梳理!
一、研究场景
主成分分析用于对数据信息进行浓缩,比如总共有20个指标值,是否可以将此20项浓缩成4个概括性指标。除此之外,主成分分析可用于权重计算和综合竞争力研究。即主成分分共有三个实际应用场景:
二、SPSSAU操作
SPSSAU左侧仪表盘“进阶方法”→“主成分”;
三、SPSSAU一般步骤
第一步:判断是否进行主成分(pca)分析;判断标准为KMO值大于0.6。
第二步:主成分与分析项对应关系判断。
特别提示: 如果研究目的完全在于信息浓缩,并且找出主成分与分析项对应关系,此时SPSSAU建议使用因子分析【请参考因子分析手册】,而非主成分分析。主成分分析目的在于信息浓缩(但不太关注主成分与分析项对应关系),权重计算,以及综合得分计算。
有时不太会关注主成分与分析项的对应关系情况,比如进行综合竞争力计算时,不需要过多关注主成分与分析项的对应关系情况。
主成与分析项对应关系判断: 假设预期为3个主成分,分析项为10个;主成分与分析项交叉共得到30个数字,此数字称作“载荷系数”(载荷系数值表示分析项与主成分之间的相关程度); 针对每个主成分,对应10个”载荷系数”,针对每个分析项,则有3个“载荷系数值”(比如0.765,-0.066,0.093),选出3个数字绝对值大于0.4的那个值(0.765),如果其对应主成分1,则说明此分析项应该划分在主成分1下面.
对不合理分析项进行删除 ,共有三种情况; 第一类:如果分析项的共同度(公因子方差)值小于0.4,则对应分析项应该作删除处理;第二类:某分析项对应的“载荷系数”的绝对值,全部均小于0.4,也需要删除此分析项;第三类:如果某分析项与主成分对应关系出现严重偏差(通常也称作‘张冠李戴’),也需要对该分析项进行删除处理.
第三步:主成分命名
在第二步删除掉不合理分析项后,并且确认主成分与分析项对应关系良好后,则可结合主成分与分析项对应关系,对主成分进行命名.
四、主成分分析计算权重
1.方差解释率表格
使用主成分分析得到方差解释率表格,主成分分析一共提取出2个主成分,特征根值均大于1,此2个主成分的方差解释率分别是54.450%,7.798%,累积方差解释率为62.248%。
2.载荷系数表格
载荷系数表格里显示的是各分析项在主成分中的载荷系数,载荷系数可以反映主成分对于分析项的信息提取情况。
在计算分析项权重的时候,需要利用载荷系数等信息进行计算,共分为三步:
第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根。
3.线性组合系数及权重结果
在计算分析项权重的时候,需要利用载荷系数等信息进行计算,共分为三步:
第一: 计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即 载荷系数除以对应特征根的平方根。
例:主成分1:
以此类推。
主成分2:
以此类推。
第二: 计算综合得分系数,公式为: 累积(线性组合系数*方差解释率)/累积方差解释率 ,即线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率,即得到综合得分系数。
例:(0.287*54.45%)/62.25% + (0.1201*7.80%)/62.25%≈0.2661;
(0.278*54.45%)/62.25% + (0.1201*7.80%)/62.25%≈0.2683;
(0.2443*54.45%)/62.25% + (0.5818 *7.80%)/62.25%≈0.2866;
(0.2617*54.45%)/62.25% + (0.4385 *7.80%)/62.25%≈0.2839;
以此类推。
第三: 计算权重,将综合得分系数进行求和归一化处理即得到各指标权重值。
求和归一化:
例:综合得分系数和为3.2671,(0.2661+0.2683+…+0.2199=3.2671)。
0.2661/3.2671=8.15%;0.2683/3.2671=8.21%;0.2866/3.2671=8.77%;以此类推。
4.载荷图
载荷图 是针对成分与旋转后载荷值关系的图形化展示,使用较少,通常需要手工加‘圆圈’把挨在一起的因子圈起来,更直观展示成分与分析项的隶属对应关系情况。由于可读性和解释性问题,一般只关注于方差解释率靠前的前面几个成分,多数情况下只关注2个。
五、其他输出指标说明
1.KMO 和 Bartlett 的检验
使用主成分分析进行信息浓缩研究,首先分析研究数据是否适合进行主成分分析,从上表可以看出:KMO为0.910,大于0.6,满足主成分分析的前提要求,意味着数据可用于主成分分析研究。以及数据通过Bartlett 球形度检验(p<0.05),说明研究数据适合进行主成分分析。
2.成份得分系数矩阵
使用主成分分析目的在于信息浓缩,则忽略“成份得分系数矩阵”表格。如果使用主成分分析法进行权重计算,则需要使用“成份得分系数矩阵”建立主成分和研究项之间的关系等式(基于标准化后数据建立关系表达式),如下:
成分得分1
=0.104*A1+0.101*A2+…+0.101*D2+0.090*D3;
成分得分2
=0.115*A1+0.192*A2+…-0.044*D2+0.025*D3;
3.碎石图
可结合 碎石图 辅助判断主成分提取个数。当折线由陡峭突然变得平稳时,陡峭到平稳对应的主成分个数即为参考提取主成分个数。实际研究中更多以专业知识,结合主成分与研究项对应关系情况,综合权衡判断得出主成分个数。图中可以看出当横坐标为2时,折线突然变得比较平稳。
六、疑难解惑
1.主成分回归是什么意思?
主成分分析后,选中保存‘成分得分’,SPSSAU系统会新生成标题用于标识‘成分得分’,比如:PcaScore1_1234,继续使用‘成分得分’用于接下来的线性回归分析,即称作‘主成分回归’,通常‘主成分回归’用于解决共线性问题。
2.SPSSAU时,面板数据如何进行主成分分析?
面板数据可直接进行主成分分析,面板数据格式相对较为特殊,在分析上直接针对研究指标进行分析即可。
3. SPSSAU时,成分得分是标准化后的数据进行吗?
成分得分的数据计算,默认是基于标准化后的数据进行。
七、总结
在各个领域的科学研究中,为了全面客观的分析问题,往往需要对反映事物的多个变量进行大量的观测,如果对这些变量进行一个一个的分析,可能会造成看待事物片面,不好得出一致的结论,主成分分析就是考虑各指标之间的相互关系,利用降维的思维,把多个指标转换成较少的几个互不相关的综合指标,从而使研究变的更简单。以上就是主成分分析的指标说明。
更多干货请前往 SPSSAU 官网查看。
❹ 主成分分析的基本步骤
主成分分析的基本步骤:
1、对原始数据标准化
2、计算相关系数
3、计算特征
4、确定主成分
5、合成主成分。