‘壹’ RNA-Seq(5):构建表达矩阵,归一化样本数据以及检测数据可信度并可视化
但是我们并不能直接拿着数据去做后面的差异分析,得将数据归一化后才能进行下一步操作。那么问题来了,为什么得归一化后才能进行下一步操作,如何归一化。
这里我采用的是使用DESeq2包归一化的两种方法获取归一化数值(当然你也可以采用其它办法归一化),有对归一化过程感兴趣的可以看归一化的算法, excel演示DESeq2归一化原理 - (jianshu.com)
为了探究样本之间的相关性,将使用两个方法主成分分析(PCA)和相关性分析并进行层次聚类分析方法执行样本级质量控制。这些方法允许我们检查重复样本彼此之间的相似程度(聚类),并确保实验条件是数据变异的主要来源。
1.什么是PCA:笔记正在写
2.什么是相关性分析并进行层次聚类分析方法:
1. 协方差与相关系数 - (jianshu.com)
2.层次聚类是将研究对象按照它们的相似性关系用树形图进行呈现。
也可以根据这篇文章画PCA分析图 R语言主成分分析(PCA)加“置信椭圆” - (jianshu.com)
横纵坐标为各个样本,将这些样本两两进行比较,得出皮尔森相关系数。图中可以看出,样本自己与自己比较,皮尔森相关系数是1,与其他样本进行比较,皮尔森相关系数均大于0.9表明各样本之间的正相关性比较好,这也说明送样样本的生物学重复很好,数据是可信的。
‘贰’ 主成分分析(PCA)的推导与解释
PCA是一种无参数的数据降维方法,在机器学习中很常用,这篇文章主要从三个角度来说明PCA是怎么降维的分别是方差角度,特征值和特征向量以及SVD奇异值分解。
推导主要来源于下面网址的这篇文章,是通过方差和协方差矩阵来说明:
http://blog.codinglabs.org/articles/pca-tutorial.html
PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
在上面网址的文章中,从头到尾发明了一遍PCA我觉得很有借鉴意义。我们知道PCA是一种数据降维的方法,在降低维度的过程中,我们当然想要保留更多的特征,PCA就是经过数学推导,保留最多特征同时降维的方法。
在推导之前要先知道几个基础知识:
两个维数相同的向量的内积被定义为:
假设A和B是两个n维向量,我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段,为了简单起见我们假设A和B均为二维向量,则A=(x 1 ,y 1 ),B=(x 2 ,y 2 )。则在二维平面上A和B可以用两条发自原点的有向线段表示,见下图:
到这里还是看不出内积和这东西有什么关系,不过如果我们将内积表示为另一种我们熟悉的形式:
下面我们继续在二维空间内讨论向量。上文说过,一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一个有向线段。例如下面这个向量:
在代数表示方面,我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2),这是我们再熟悉不过的向量表示。
不过我们常常忽略, 只有一个(3,2)本身是不能够精确表示一个向量的。 我们仔细看一下, 这里的3实际表示的是向量在x轴上的投影值是3,在y轴上的投影值是2。 也就是说我们其实 隐式引入了一个定义:以x轴和y轴上正方向长度为1的向量为标准。 那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量,所以可以为负。
更正式的说, 向量(x,y)实际上表示线性组合 :
我们之所以默认选择(1,0)和(0,1)为基,当然是比较方便,因为它们分别是x和y轴正方向上的单位向量,因此就使得二维平面上点坐标和向量一一对应,非常方便。 但实际上任何两个线性无关的二维向量都可以成为一组基, 所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量。
例如,(1,1)和(-1,1)也可以成为一组基。一般来说,我们希望基的模是1,因为从内积的意义可以看到,如果基的模是1,那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了!实际上,对应任何一个向量我们总可以找到其同方向上模为1的向量,只要让两个分量分别除以模就好了。例如,上面的基可以变为(1/√2,1/√2)和(-1/√2,1/√2)
现在,我们想获得(3,2)在新基上的坐标,即在两个方向上的投影矢量值,那么根据内积的几何意义,我们只要分别计算(3,2)和两个基的内积,不难得到新的坐标为(5/√2,-1/√2)。下图给出了新的基以及(3,2)在新基上坐标值的示意图:
另外这里要注意的是,我们列举的例子中基是正交的(即内积为0,或直观说相互垂直),但可以成为一组基的唯一要求就是线性无关,非正交的基也是可以的。不过因为正交基有较好的性质, 所以一般使用的基都是正交的。
一般的,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中第m列变换后的结果。 (新基按行,向量按列)
特别要注意的是,这里R可以小于N,而R决定了变换后数据的维数。也就是说, 我们可以将一N维数据变换到更低维度的空间中去 , 变换后的维度取决于基的数量。因此这种矩阵相乘的表示也可以表示降维变换。
最后,上述分析同时给矩阵相乘找到了一种物理解释: 两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。 更抽象的说,一个矩阵可以表示一种线性变换。很多同学在学线性代数时对矩阵相乘的方法感到奇怪,但是如果明白了矩阵相乘的物理意义,其合理性就一目了然了。
我们从上面的矩阵乘法与基变换可以看出,当新基的维数小于原来的维数时可以做到数据的降维,但是究竟如何选择新基就是我们现在面临的问题,我们想要选择一个维数更小的新基,同时新基保留有更多的信息。我们知道矩阵向新基投影的形式,也就是PCA是将一组N维的特征投影到K维(K<N)同时保留更多的特征。
那么怎么衡量更多的特征,也就是投影后尽量少的重叠,投影值尽可能分散。
这种投影值的分散数学上可以用方差表示。方差公式这里不表, 所以PCA现在的问题就变成了,寻找K维的新基,使得数据变换到这组基上后方差值最大。
从二维到一维的降维,只需要找到一个一维基使得方差最大,但是三维降到二维呢?我们需要找到两个基让这个三维数据投影到两个基上,如果我们找方差最大的两个基,会发现他们完全一样或者线性相关,这和一个基没什么区别,不能表达更多的信息,所以我们需要添加限制条件,我们希望这两个基彼此线性无关,扩展到K个基也是一样。
在数学上使用协方差表示两个向量的相关性,在我们将均值归一化为0后,协方差可以表示为:
=frac{1}{m}sum_{i=1}^{m}a_ib_i)
m为向量的元素数。可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示为其内积除以元素数m。
当协方差为0时,表示两个字段完全独立。为了让协方差为0,我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。
至此,我们得到了降维问题的优化目标: 将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)。
上面我们导出了优化目标,但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么,但根本没有说怎么做。所以我们要继续在数学上研究计算方案。
我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们来了灵感:
假设我们只有a和b两个特征,那么我们将它们按行组成矩阵X:
然后我们用X乘以X的转置,并乘上系数1/m:
这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。两者被统一到了一个矩阵的。
根据矩阵相乘的运算法则,这个结论很容易被推广到一般情况:
设我们有m个n维数据记录,将其按列排成n乘m的矩阵X,设C=1/mXX T ,则C是一个对称矩阵,其对角线分别个各个字段的方差,而第i行j列和j行i列元素相同,表示i和j两个字段的协方差。
根据上述推导,我们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列,这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系:
设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系:
现在事情很明白了!我们要找的P不是别的,而是能让原始协方差矩阵对角化的P。换句话说, 优化目标变成了寻找一个矩阵P,满足PCP T 是一个对角矩阵 ,并且对角元素按从大到小依次排列,那么P的前K行就是要寻找的基,用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。
由上文知道,协方差矩阵C是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:
1)实对称矩阵不同特征值对应的特征向量必然正交。
2)设特征向量λ重数为r,则必然存在r个线性无关的特征向量对应于λ,因此可以将这r个特征向量单位正交化。
由上面两条可知,一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量,设这n个特征向量为e 1 ,e 2 ,...,e n ,我们将其按列组成矩阵:
则对协方差矩阵C有如下结论:
其中Λ为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。以上结论不再给出严格的数学证明,对证明感兴趣的朋友可以参考线性代数书籍关于“实对称矩阵对角化”的内容。
到这里,我们发现我们已经找到了需要的矩阵P:
P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。如果设P按照Λ中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y。
至此我们完成了整个PCA的数学原理讨论。
在我的文章特征值和特征向量中说过,特征值反映了矩阵对于特征向量的拉伸程度,只有拉伸而没有旋转,也就是在特征向量方向上的作用程度,所以在PCA中我们选取前K个特征向量组成新基进行投影,就是因为原特征在前K个特征向量有最大的作用程度,投影过后可以保留更多的信息,作用程度是用特征值表示的,所以我们可以使用下面的式子表示贡献率,贡献率是表示投影后信息的保留程度的变量,可以用下面的式子表示:
也就是特征值的总和比上前K个特征值,一般来说贡献率要大于85%。
上面的推导中我们看到
其实就是对于D的奇异值分解。但是其实两者还有一些区别:
1) SVD可以获取另一个方向上的主成分,而PCA只能获得单个方向上的主成分:
隐语义索引(Latent semantic indexing,简称LSI)通常建立在SVD的基础上,通过低秩逼近达到降维的目的。
注意到PCA也能达到降秩的目的,但是PCA需要进行零均值化,且丢失了矩阵的稀疏性。
通过SVD可以得到PCA相同的结果,但是SVD通常比直接使用PCA更稳定。因为PCA需要计算X T X的值,对于某些矩阵,求协方差时很可能会丢失一些精度。例如Lauchli矩阵:
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)Y=PX即为降维到k维后的数据
courser里吴恩达的PCA的习题就不错。
‘叁’ 什么是主成分分析主成分分析的步骤有哪些
主成分分析是指通过将一组可能存在相关性的变量转换城一组线性不相关的变量,转换后的这组变量叫主成分。
主成分分析步骤:1、对原始数据标准化,2、计算相关系数,3、计算特征,4、确定主成分,5、合成主成分。
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。
主成分分析的主要作用
1.主成分分析能降低所研究的数据空间的维数。
2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。
3.多维数据的一种图形表示方法。
4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。
5.用主成分分析筛选回归变量。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
‘肆’ 主成分分析和层次分析法的区别和联系
层次分析法:
主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。
主成分分析
(1)方法原理及适用场景
主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。
(2)操作步骤
使用SPSSAU【进阶方法-主成分分析】。
如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。
比如本例中,5个指标共提取了2个主成分:
主成分1的权重:45.135%/69.390%=65.05%
主成分2的权重:24.254%/69.390%=34.95%
如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:
第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;
第二:计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;
第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
‘伍’ 6.单细胞 RNA-seq:归一化和 PCA 分析
在获得我们的高质量单细胞后,单细胞 RNA-seq (scRNA-seq) 分析工作流程的下一步是执行聚类。聚类的目标是将不同的细胞类型分成独特的细胞簇。为了进行聚类,我们确定了细胞之间表达差异最大的基因。然后,我们使用这些基因来确定哪些相关基因集是造成对细胞间的表达差异最大的原因。
在进行聚类之前,先需要理解几个概念。
第一个是count normalization,这对于准确比较细胞(或样本)之间的基因表达是至关重要的。每个基因的RNA表达,通过mapped reads 这一有意义的数值来反映,但是这一数值还会受到许多其他无意义的因素干扰。Normalization就是缩放原始计数以解决“无意义”因素的过程。这样,表达水平在细胞之间和/或细胞内更加具有可比性。
归一化过程中经常考虑的主要因素是:
scRNA-seq中的每个细胞都将具有与之相关的不同数量的reads。因此,要准确比较细胞之间的表达,有必要对测序深度进行标准化。
在 scRNA-seq 分析中,我们将比较细胞内不同基因的表达以对细胞进行聚类。 如果使用基于 3' 或 5' 液滴的方法,基因的长度不会影响分析,因为仅对转录物的 5' 或 3' 末端进行测序。 但是,如果使用全长测序,则应考虑转录本长度。
主成分分析(PCA)是一种既强调相似性又强调变异的技术,用来在数据集中产生强模式(降维)。我们将在简要介绍PCA(改编自StatQuests/Josh Starmer的YouTube视频),强烈建议您浏览YouTube的 StatQuest 视频,有更全面的讲解。
假设您已经量化了两个样本(或细胞)中四种基因的表达,您可以绘制这些基因的表达值,其中一个样本表示在 x 轴上,另一个样本表示在 y 轴上,如下所示:
在表示 最大变化 的方向上通过数据绘制一条线,在本例中,该方向位于对角线上。数据集中的最大变异发生在构成这条线的两个端点的基因之间。
我们能看到基因在该线的上方和下方有些不同。同时我们可以在数据上绘制另一条线,表示 数据中变化第二大的量 ,因为该图是二维(2轴)的。
每条线末端附近的基因将是那些变异最高的基因;这些基因在数学上对线条的方向 影响最大 。
例如, 基因 C 值的微小变化会极大地改变较长线的方向,而 基因 A 或 基因 D 的微小变化对线条方向影响很小。
我们还可以旋转整个曲线图,并以从左到右、向上和向下的方式查看表示变化的线条。我们看到数据中的大部分变化是从左到右的(较长的线),第二大的变化是向上和向下的(较短的线)。现在,您可以将这些线视为表示变化的轴。这些轴本质上是“主成分”,其中PC1代表数据中最大的变化,而PC2代表数据中第二大变化。
如果我们有三个样本/细胞,那么我们就会有一个额外的方向可以发生变化(3D)。因此,如果我们有 N 个样本/细胞,我们就会有 N 个变化方向或 N 个主成分(PC)!一旦计算出这些PC,处理数据集中最大变化的PC被指定为PC1,第二PC被指定为PC2,依此类推。
一旦为数据集确定了PC,我们就必须弄清楚每个样本/细胞是如何重新适应坐标系的,这样我们才能以直观的方式可视化相似性/差异性之处。这里的问题是“基于Sample_X中的基因表达,给定PC的Sample_X得分是多少?”按照以下步骤对所有样本计算PC对分数:
(1)首先,根据每个基因对每个PC的影响程度,给每个基因分配一个“影响力”分数。对给定PC没有任何影响的基因得分接近于零,而影响更大的基因得分更高。PC线末端的基因会有更大的影响,所以他们会得到更高的分数,但有相反的符号。
计算所有样本-PC 对的 PC 分数,如下面的步骤和示意图中所述:
(2)确定了影响值,每个样本的分数将使用以下公式计算:
对于我们的 2 个样本示例,以下是分数的计算方式:
这是前两个步骤的示意图:
(3) 一旦计算出所有 PC 的分数,就可以将它们绘制在一个简单的散点图上。下面是示例的绘图,从 2D 矩阵到 2D 绘图:
假设您正在处理 12,000 个细胞 的单细胞 RNA-seq 数据集,并且您已经量化了 20,000 个基因的表达 。
计算 PC 分数后,您会看到一个 12,000 x 12,000 的矩阵,该矩阵表示有关所有细胞中相对基因表达的信息。您可以选择 PC1 和 PC2 列并以二维方式绘制它们。
您还可以使用前 40 个 PC 的 PC 分数进行下游分析,如聚类、标记识别等,因为这些代表了数据中的大部分变化。我们将在后面对此进行更多讨论。
‘陆’ 主成分分析法
在对灾毁土地复垦效益进行分析时,会碰到众多因素,各因素间又相互关联,将这些存在相关关系的因素通过数学方法综合成少数几个最终参评因素,使这几个新的因素既包含原来因素的信息又相互独立。简化问题并抓住其本质是分析过程中的关键,主成分分析法可以解决这个难题。
(一)主成分分析的基本原理
主成分分析法(Principal Components Analysis,PCA)是把原来多个变量化为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理方法,即通过对原始指标相关矩阵内部结果关系的研究,将原来指标重新组合成一组新的相互独立的指标,并从中选取几个综合指标来反映原始指标的信息。假定有n个评价单元,每个评价单元用m个因素来描述,这样就构成一个n×m阶数据矩阵:
灾害损毁土地复垦
如果记m个因素为 x1,x2,…,xm,它们的综合因素为 z1,z2,…,zp(p≤m),则:
灾害损毁土地复垦
系数lij由下列原则来决定:
(1)zi与zj(i≠j,i,j=1,2,…,p)相互无关;
(2)z1是x1,x2,…,xm的一切线性组合中方差最大者,依此类推。
依据该原则确定的综合变量指标z1,z2,…,zp分别称为原始指标的第1、第2、…、第p个主成分,分析时可只挑选前几个方差最大的主成分。
(二)主成分分析法的步骤
(1)将原始数据进行标准化处理,以消除原始数据在数量级或量纲上的差异。
(2)计算标准化的相关数据矩阵:
灾害损毁土地复垦
(3)用雅克比法求相关系数矩阵R的特征值(λ1,λ2,…,λp)和与之相对应的特征向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。
(4)选择重要的主成分,并写出其表达式。
主成分分析可以得到P个主成分,但是由于各个主成分的方差与其包含的信息量皆是递减的,所以在实际分析时,一般不选取P个主成分,而是根据各个主成分所累计的贡献率的大小来选取前K个主成分,这里的贡献率是指某个主成分的方差在全部方差中所占的比重,实际上也是某个特征值在全部特征值合计中所占的比重。即:
灾害损毁土地复垦
这说明,主成分所包含的原始变量的信息越强,贡献率也就越大。主成分的累计贡献率决定了主成分个数K的选取情况,为了保证综合变量能包括原始变量的绝大多数信息,一般要求累计贡献率达到85%以上。
另外,在实际应用过程中,选择主成分之后,还要注意主成分实际含义的解释。如何给主成分赋予新的含义,给出合理的解释是主成分分析中一个相当关键的问题。一般来说,这个解释需要根据主成分表达式的系数而定,并与定性分析来进行有效结合。主成分是原来变量的线性组合,在这个线性组合中各变量的系数有正有负、有大有小,有的又大小相当,因此不能简单地把这个主成分看作是某个原变量的属性作用。线性组合中各变量系数的绝对值越大表明该主成分主要包含了该变量;如果有几个大小相当的变量系数时,则认为这一主成分是这几个变量的综合,而这几个变量综合在一起具有什么样的实际意义,就需要结合具体的问题和专业,给出合理的解释,进而才能达到准确分析的目的。
(5)计算主成分得分。根据标准化的原始数据,将各个样品分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下:
灾害损毁土地复垦
(6)依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成分回归,变量子集合的选择,综合评价等。
(三)主成分分析法的评价
通过主成分分析法来评价复垦产生的效益,可将多个指标转化成尽可能少的综合性指标,使综合指标间互不相干,既减少了原指标信息的重叠度,又不丢失原指标信息的总含量。该方法不仅将多个指标转化成综合性指标,而且也能对每个主成分的影响因素进行分析,从而判别出影响整个评价体系的关键因素,并且主成分分析法在确定权重时可以科学地赋值,以避免主观因素的影响。
需要注意的是,主成分分析法虽然可以对每个主成分的权重进行科学、定量的计算,避免人为因素及主观因素的影响,但是有时候赋权的结果可能与客观实际有一定误差。因此,利用主成分分析法确定权重后,再结合不同专家给的权重,是最好的解决办法。这样可以在定量的基础上作出定性的分析,通过一定的数理方法将两种数据结合起来考虑。
‘柒’ 主成分计算权重全步骤梳理!
一、研究场景
主成分分析用于对数据信息进行浓缩,比如总共有20个指标值,是否可以将此20项浓缩成4个概括性指标。除此之外,主成分分析可用于权重计算和综合竞争力研究。即主成分分共有三个实际应用场景:
二、SPSSAU操作
SPSSAU左侧仪表盘“进阶方法”→“主成分”;
三、SPSSAU一般步骤
第一步:判断是否进行主成分(pca)分析;判断标准为KMO值大于0.6。
第二步:主成分与分析项对应关系判断。
特别提示: 如果研究目的完全在于信息浓缩,并且找出主成分与分析项对应关系,此时SPSSAU建议使用因子分析【请参考因子分析手册】,而非主成分分析。主成分分析目的在于信息浓缩(但不太关注主成分与分析项对应关系),权重计算,以及综合得分计算。
有时不太会关注主成分与分析项的对应关系情况,比如进行综合竞争力计算时,不需要过多关注主成分与分析项的对应关系情况。
主成与分析项对应关系判断: 假设预期为3个主成分,分析项为10个;主成分与分析项交叉共得到30个数字,此数字称作“载荷系数”(载荷系数值表示分析项与主成分之间的相关程度); 针对每个主成分,对应10个”载荷系数”,针对每个分析项,则有3个“载荷系数值”(比如0.765,-0.066,0.093),选出3个数字绝对值大于0.4的那个值(0.765),如果其对应主成分1,则说明此分析项应该划分在主成分1下面.
对不合理分析项进行删除 ,共有三种情况; 第一类:如果分析项的共同度(公因子方差)值小于0.4,则对应分析项应该作删除处理;第二类:某分析项对应的“载荷系数”的绝对值,全部均小于0.4,也需要删除此分析项;第三类:如果某分析项与主成分对应关系出现严重偏差(通常也称作‘张冠李戴’),也需要对该分析项进行删除处理.
第三步:主成分命名
在第二步删除掉不合理分析项后,并且确认主成分与分析项对应关系良好后,则可结合主成分与分析项对应关系,对主成分进行命名.
四、主成分分析计算权重
1.方差解释率表格
使用主成分分析得到方差解释率表格,主成分分析一共提取出2个主成分,特征根值均大于1,此2个主成分的方差解释率分别是54.450%,7.798%,累积方差解释率为62.248%。
2.载荷系数表格
载荷系数表格里显示的是各分析项在主成分中的载荷系数,载荷系数可以反映主成分对于分析项的信息提取情况。
在计算分析项权重的时候,需要利用载荷系数等信息进行计算,共分为三步:
第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根。
3.线性组合系数及权重结果
在计算分析项权重的时候,需要利用载荷系数等信息进行计算,共分为三步:
第一: 计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即 载荷系数除以对应特征根的平方根。
例:主成分1:
以此类推。
主成分2:
以此类推。
第二: 计算综合得分系数,公式为: 累积(线性组合系数*方差解释率)/累积方差解释率 ,即线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率,即得到综合得分系数。
例:(0.287*54.45%)/62.25% + (0.1201*7.80%)/62.25%≈0.2661;
(0.278*54.45%)/62.25% + (0.1201*7.80%)/62.25%≈0.2683;
(0.2443*54.45%)/62.25% + (0.5818 *7.80%)/62.25%≈0.2866;
(0.2617*54.45%)/62.25% + (0.4385 *7.80%)/62.25%≈0.2839;
以此类推。
第三: 计算权重,将综合得分系数进行求和归一化处理即得到各指标权重值。
求和归一化:
例:综合得分系数和为3.2671,(0.2661+0.2683+…+0.2199=3.2671)。
0.2661/3.2671=8.15%;0.2683/3.2671=8.21%;0.2866/3.2671=8.77%;以此类推。
4.载荷图
载荷图 是针对成分与旋转后载荷值关系的图形化展示,使用较少,通常需要手工加‘圆圈’把挨在一起的因子圈起来,更直观展示成分与分析项的隶属对应关系情况。由于可读性和解释性问题,一般只关注于方差解释率靠前的前面几个成分,多数情况下只关注2个。
五、其他输出指标说明
1.KMO 和 Bartlett 的检验
使用主成分分析进行信息浓缩研究,首先分析研究数据是否适合进行主成分分析,从上表可以看出:KMO为0.910,大于0.6,满足主成分分析的前提要求,意味着数据可用于主成分分析研究。以及数据通过Bartlett 球形度检验(p<0.05),说明研究数据适合进行主成分分析。
2.成份得分系数矩阵
使用主成分分析目的在于信息浓缩,则忽略“成份得分系数矩阵”表格。如果使用主成分分析法进行权重计算,则需要使用“成份得分系数矩阵”建立主成分和研究项之间的关系等式(基于标准化后数据建立关系表达式),如下:
成分得分1
=0.104*A1+0.101*A2+…+0.101*D2+0.090*D3;
成分得分2
=0.115*A1+0.192*A2+…-0.044*D2+0.025*D3;
3.碎石图
可结合 碎石图 辅助判断主成分提取个数。当折线由陡峭突然变得平稳时,陡峭到平稳对应的主成分个数即为参考提取主成分个数。实际研究中更多以专业知识,结合主成分与研究项对应关系情况,综合权衡判断得出主成分个数。图中可以看出当横坐标为2时,折线突然变得比较平稳。
六、疑难解惑
1.主成分回归是什么意思?
主成分分析后,选中保存‘成分得分’,SPSSAU系统会新生成标题用于标识‘成分得分’,比如:PcaScore1_1234,继续使用‘成分得分’用于接下来的线性回归分析,即称作‘主成分回归’,通常‘主成分回归’用于解决共线性问题。
2.SPSSAU时,面板数据如何进行主成分分析?
面板数据可直接进行主成分分析,面板数据格式相对较为特殊,在分析上直接针对研究指标进行分析即可。
3. SPSSAU时,成分得分是标准化后的数据进行吗?
成分得分的数据计算,默认是基于标准化后的数据进行。
七、总结
在各个领域的科学研究中,为了全面客观的分析问题,往往需要对反映事物的多个变量进行大量的观测,如果对这些变量进行一个一个的分析,可能会造成看待事物片面,不好得出一致的结论,主成分分析就是考虑各指标之间的相互关系,利用降维的思维,把多个指标转换成较少的几个互不相关的综合指标,从而使研究变的更简单。以上就是主成分分析的指标说明。
更多干货请前往 SPSSAU 官网查看。
‘捌’ 色谱归一化定量法
归一化法的优点是简便、准确、定量结果与进样量重复性无关、操作条件略有变动或进样量控制不十分精确对分析结果影响都很小。