『壹』 RNA-Seq(5):構建表達矩陣,歸一化樣本數據以及檢測數據可信度並可視化
但是我們並不能直接拿著數據去做後面的差異分析,得將數據歸一化後才能進行下一步操作。那麼問題來了,為什麼得歸一化後才能進行下一步操作,如何歸一化。
這里我採用的是使用DESeq2包歸一化的兩種方法獲取歸一化數值(當然你也可以採用其它辦法歸一化),有對歸一化過程感興趣的可以看歸一化的演算法, excel演示DESeq2歸一化原理 - (jianshu.com)
為了探究樣本之間的相關性,將使用兩個方法主成分分析(PCA)和相關性分析並進行層次聚類分析方法執行樣本級質量控制。這些方法允許我們檢查重復樣本彼此之間的相似程度(聚類),並確保實驗條件是數據變異的主要來源。
1.什麼是PCA:筆記正在寫
2.什麼是相關性分析並進行層次聚類分析方法:
1. 協方差與相關系數 - (jianshu.com)
2.層次聚類是將研究對象按照它們的相似性關系用樹形圖進行呈現。
也可以根據這篇文章畫PCA分析圖 R語言主成分分析(PCA)加「置信橢圓」 - (jianshu.com)
橫縱坐標為各個樣本,將這些樣本兩兩進行比較,得出皮爾森相關系數。圖中可以看出,樣本自己與自己比較,皮爾森相關系數是1,與其他樣本進行比較,皮爾森相關系數均大於0.9表明各樣本之間的正相關性比較好,這也說明送樣樣本的生物學重復很好,數據是可信的。
『貳』 主成分分析(PCA)的推導與解釋
PCA是一種無參數的數據降維方法,在機器學習中很常用,這篇文章主要從三個角度來說明PCA是怎麼降維的分別是方差角度,特徵值和特徵向量以及SVD奇異值分解。
推導主要來源於下面網址的這篇文章,是通過方差和協方差矩陣來說明:
http://blog.codinglabs.org/articles/pca-tutorial.html
PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特徵分量,常用於高維數據的降維。
在上面網址的文章中,從頭到尾發明了一遍PCA我覺得很有借鑒意義。我們知道PCA是一種數據降維的方法,在降低維度的過程中,我們當然想要保留更多的特徵,PCA就是經過數學推導,保留最多特徵同時降維的方法。
在推導之前要先知道幾個基礎知識:
兩個維數相同的向量的內積被定義為:
假設A和B是兩個n維向量,我們知道n維向量可以等價表示為n維空間中的一條從原點發射的有向線段,為了簡單起見我們假設A和B均為二維向量,則A=(x 1 ,y 1 ),B=(x 2 ,y 2 )。則在二維平面上A和B可以用兩條發自原點的有向線段表示,見下圖:
到這里還是看不出內積和這東西有什麼關系,不過如果我們將內積表示為另一種我們熟悉的形式:
下面我們繼續在二維空間內討論向量。上文說過,一個二維向量可以對應二維笛卡爾直角坐標系中從原點出發的一個有向線段。例如下面這個向量:
在代數表示方面,我們經常用線段終點的點坐標表示向量,例如上面的向量可以表示為(3,2),這是我們再熟悉不過的向量表示。
不過我們常常忽略, 只有一個(3,2)本身是不能夠精確表示一個向量的。 我們仔細看一下, 這里的3實際表示的是向量在x軸上的投影值是3,在y軸上的投影值是2。 也就是說我們其實 隱式引入了一個定義:以x軸和y軸上正方向長度為1的向量為標准。 那麼一個向量(3,2)實際是說在x軸投影為3而y軸的投影為2。注意投影是一個矢量,所以可以為負。
更正式的說, 向量(x,y)實際上表示線性組合 :
我們之所以默認選擇(1,0)和(0,1)為基,當然是比較方便,因為它們分別是x和y軸正方向上的單位向量,因此就使得二維平面上點坐標和向量一一對應,非常方便。 但實際上任何兩個線性無關的二維向量都可以成為一組基, 所謂線性無關在二維平面內可以直觀認為是兩個不在一條直線上的向量。
例如,(1,1)和(-1,1)也可以成為一組基。一般來說,我們希望基的模是1,因為從內積的意義可以看到,如果基的模是1,那麼就可以方便的用向量點乘基而直接獲得其在新基上的坐標了!實際上,對應任何一個向量我們總可以找到其同方向上模為1的向量,只要讓兩個分量分別除以模就好了。例如,上面的基可以變為(1/√2,1/√2)和(-1/√2,1/√2)
現在,我們想獲得(3,2)在新基上的坐標,即在兩個方向上的投影矢量值,那麼根據內積的幾何意義,我們只要分別計算(3,2)和兩個基的內積,不難得到新的坐標為(5/√2,-1/√2)。下圖給出了新的基以及(3,2)在新基上坐標值的示意圖:
另外這里要注意的是,我們列舉的例子中基是正交的(即內積為0,或直觀說相互垂直),但可以成為一組基的唯一要求就是線性無關,非正交的基也是可以的。不過因為正交基有較好的性質, 所以一般使用的基都是正交的。
一般的,如果我們有M個N維向量,想將其變換為由R個N維向量表示的新空間中,那麼首先將R個基按行組成矩陣A,然後將向量按列組成矩陣B,那麼兩矩陣的乘積AB就是變換結果,其中AB的第m列為A中第m列變換後的結果。 (新基按行,向量按列)
特別要注意的是,這里R可以小於N,而R決定了變換後數據的維數。也就是說, 我們可以將一N維數據變換到更低維度的空間中去 , 變換後的維度取決於基的數量。因此這種矩陣相乘的表示也可以表示降維變換。
最後,上述分析同時給矩陣相乘找到了一種物理解釋: 兩個矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去。 更抽象的說,一個矩陣可以表示一種線性變換。很多同學在學線性代數時對矩陣相乘的方法感到奇怪,但是如果明白了矩陣相乘的物理意義,其合理性就一目瞭然了。
我們從上面的矩陣乘法與基變換可以看出,當新基的維數小於原來的維數時可以做到數據的降維,但是究竟如何選擇新基就是我們現在面臨的問題,我們想要選擇一個維數更小的新基,同時新基保留有更多的信息。我們知道矩陣向新基投影的形式,也就是PCA是將一組N維的特徵投影到K維(K<N)同時保留更多的特徵。
那麼怎麼衡量更多的特徵,也就是投影後盡量少的重疊,投影值盡可能分散。
這種投影值的分散數學上可以用方差表示。方差公式這里不表, 所以PCA現在的問題就變成了,尋找K維的新基,使得數據變換到這組基上後方差值最大。
從二維到一維的降維,只需要找到一個一維基使得方差最大,但是三維降到二維呢?我們需要找到兩個基讓這個三維數據投影到兩個基上,如果我們找方差最大的兩個基,會發現他們完全一樣或者線性相關,這和一個基沒什麼區別,不能表達更多的信息,所以我們需要添加限制條件,我們希望這兩個基彼此線性無關,擴展到K個基也是一樣。
在數學上使用協方差表示兩個向量的相關性,在我們將均值歸一化為0後,協方差可以表示為:
=frac{1}{m}sum_{i=1}^{m}a_ib_i)
m為向量的元素數。可以看到,在欄位均值為0的情況下,兩個欄位的協方差簡潔的表示為其內積除以元素數m。
當協方差為0時,表示兩個欄位完全獨立。為了讓協方差為0,我們選擇第二個基時只能在與第一個基正交的方向上選擇。因此最終選擇的兩個方向一定是正交的。
至此,我們得到了降維問題的優化目標: 將一組N維向量降為K維(K大於0,小於N),其目標是選擇K個單位(模為1)正交基,使得原始數據變換到這組基上後,各欄位兩兩間協方差為0,而欄位的方差則盡可能大(在正交的約束下,取最大的K個方差)。
上面我們導出了優化目標,但是這個目標似乎不能直接作為操作指南(或者說演算法),因為它只說要什麼,但根本沒有說怎麼做。所以我們要繼續在數學上研究計算方案。
我們看到,最終要達到的目的與欄位內方差及欄位間協方差有密切關系。因此我們希望能將兩者統一表示,仔細觀察發現,兩者均可以表示為內積的形式,而內積又與矩陣相乘密切相關。於是我們來了靈感:
假設我們只有a和b兩個特徵,那麼我們將它們按行組成矩陣X:
然後我們用X乘以X的轉置,並乘上系數1/m:
這個矩陣對角線上的兩個元素分別是兩個欄位的方差,而其它元素是a和b的協方差。兩者被統一到了一個矩陣的。
根據矩陣相乘的運演算法則,這個結論很容易被推廣到一般情況:
設我們有m個n維數據記錄,將其按列排成n乘m的矩陣X,設C=1/mXX T ,則C是一個對稱矩陣,其對角線分別個各個欄位的方差,而第i行j列和j行i列元素相同,表示i和j兩個欄位的協方差。
根據上述推導,我們發現要達到優化目前,等價於將協方差矩陣對角化:即除對角線外的其它元素化為0,並且在對角線上將元素按大小從上到下排列,這樣我們就達到了優化目的。這樣說可能還不是很明晰,我們進一步看下原矩陣與基變換後矩陣協方差矩陣的關系:
設原始數據矩陣X對應的協方差矩陣為C,而P是一組基按行組成的矩陣,設Y=PX,則Y為X對P做基變換後的數據。設Y的協方差矩陣為D,我們推導一下D與C的關系:
現在事情很明白了!我們要找的P不是別的,而是能讓原始協方差矩陣對角化的P。換句話說, 優化目標變成了尋找一個矩陣P,滿足PCP T 是一個對角矩陣 ,並且對角元素按從大到小依次排列,那麼P的前K行就是要尋找的基,用P的前K行組成的矩陣乘以X就使得X從N維降到了K維並滿足上述優化條件。
由上文知道,協方差矩陣C是一個是對稱矩陣,在線性代數上,實對稱矩陣有一系列非常好的性質:
1)實對稱矩陣不同特徵值對應的特徵向量必然正交。
2)設特徵向量λ重數為r,則必然存在r個線性無關的特徵向量對應於λ,因此可以將這r個特徵向量單位正交化。
由上面兩條可知,一個n行n列的實對稱矩陣一定可以找到n個單位正交特徵向量,設這n個特徵向量為e 1 ,e 2 ,...,e n ,我們將其按列組成矩陣:
則對協方差矩陣C有如下結論:
其中Λ為對角矩陣,其對角元素為各特徵向量對應的特徵值(可能有重復)。以上結論不再給出嚴格的數學證明,對證明感興趣的朋友可以參考線性代數書籍關於「實對稱矩陣對角化」的內容。
到這里,我們發現我們已經找到了需要的矩陣P:
P是協方差矩陣的特徵向量單位化後按行排列出的矩陣,其中每一行都是C的一個特徵向量。如果設P按照Λ中特徵值的從大到小,將特徵向量從上到下排列,則用P的前K行組成的矩陣乘以原始數據矩陣X,就得到了我們需要的降維後的數據矩陣Y。
至此我們完成了整個PCA的數學原理討論。
在我的文章特徵值和特徵向量中說過,特徵值反映了矩陣對於特徵向量的拉伸程度,只有拉伸而沒有旋轉,也就是在特徵向量方向上的作用程度,所以在PCA中我們選取前K個特徵向量組成新基進行投影,就是因為原特徵在前K個特徵向量有最大的作用程度,投影過後可以保留更多的信息,作用程度是用特徵值表示的,所以我們可以使用下面的式子表示貢獻率,貢獻率是表示投影後信息的保留程度的變數,可以用下面的式子表示:
也就是特徵值的總和比上前K個特徵值,一般來說貢獻率要大於85%。
上面的推導中我們看到
其實就是對於D的奇異值分解。但是其實兩者還有一些區別:
1) SVD可以獲取另一個方向上的主成分,而PCA只能獲得單個方向上的主成分:
隱語義索引(Latent semantic indexing,簡稱LSI)通常建立在SVD的基礎上,通過低秩逼近達到降維的目的。
注意到PCA也能達到降秩的目的,但是PCA需要進行零均值化,且丟失了矩陣的稀疏性。
通過SVD可以得到PCA相同的結果,但是SVD通常比直接使用PCA更穩定。因為PCA需要計算X T X的值,對於某些矩陣,求協方差時很可能會丟失一些精度。例如Lauchli矩陣:
1)將原始數據按列組成n行m列矩陣X
2)將X的每一行(代表一個屬性欄位)進行零均值化,即減去這一行的均值
3)求出協方差矩陣
4)求出協方差矩陣的特徵值及對應的特徵向量
5)將特徵向量按對應特徵值大小從上到下按行排列成矩陣,取前k行組成矩陣P
6)Y=PX即為降維到k維後的數據
courser里吳恩達的PCA的習題就不錯。
『叄』 什麼是主成分分析主成分分析的步驟有哪些
主成分分析是指通過將一組可能存在相關性的變數轉換城一組線性不相關的變數,轉換後的這組變數叫主成分。
主成分分析步驟:1、對原始數據標准化,2、計算相關系數,3、計算特徵,4、確定主成分,5、合成主成分。
主成分分析的原理是設法將原來變數重新組合成一組新的相互無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。
主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。
2.有時可通過因子負荷aij的結論,弄清X變數間的某些關系。
3.多維數據的一種圖形表示方法。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析。
5.用主成分分析篩選回歸變數。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。
『肆』 主成分分析和層次分析法的區別和聯系
層次分析法:
主成分分析和層次分析兩者計算權重的不同,AHP層次分析法是一種定性和定量的計算權重的研究方法,採用兩兩比較的方法,建立矩陣,利用了數字大小的相對性,數字越大越重要權重會越高的原理,最終計算得到每個因素的重要性。
主成分分析
(1)方法原理及適用場景
主成分分析是對數據進行濃縮,將多個指標濃縮成為幾個彼此不相關的概括性指標(主成分),從而達到降維的目的。主成分分析可同時計算主成分權重及指標權重。
(2)操作步驟
使用SPSSAU【進階方法-主成分分析】。
如果計算主成分權重,需要用到方差解釋率。具體加權處理方法為:方差解釋率除累積方差解釋率。
比如本例中,5個指標共提取了2個主成分:
主成分1的權重:45.135%/69.390%=65.05%
主成分2的權重:24.254%/69.390%=34.95%
如果是計算指標權重,可直接查看「線性組合系數及權重結果表格」,SPSSAU自動輸出了各指標權重佔比結果。其計算原理分為三步:
第一:計算線性組合系數矩陣,公式為:loading矩陣/Sqrt(特徵根),即載荷系數除以對應特徵根的平方根;
第二:計算綜合得分系數,公式為:累積(線性組合系數*方差解釋率)/累積方差解釋率,即上一步中得到的線性組合系數分別與方差解釋率相乘後累加,並且除以累積方差解釋率;
第三:計算權重,將綜合得分系數進行歸一化處理即得到各指標權重值。
『伍』 6.單細胞 RNA-seq:歸一化和 PCA 分析
在獲得我們的高質量單細胞後,單細胞 RNA-seq (scRNA-seq) 分析工作流程的下一步是執行聚類。聚類的目標是將不同的細胞類型分成獨特的細胞簇。為了進行聚類,我們確定了細胞之間表達差異最大的基因。然後,我們使用這些基因來確定哪些相關基因集是造成對細胞間的表達差異最大的原因。
在進行聚類之前,先需要理解幾個概念。
第一個是count normalization,這對於准確比較細胞(或樣本)之間的基因表達是至關重要的。每個基因的RNA表達,通過mapped reads 這一有意義的數值來反映,但是這一數值還會受到許多其他無意義的因素干擾。Normalization就是縮放原始計數以解決「無意義」因素的過程。這樣,表達水平在細胞之間和/或細胞內更加具有可比性。
歸一化過程中經常考慮的主要因素是:
scRNA-seq中的每個細胞都將具有與之相關的不同數量的reads。因此,要准確比較細胞之間的表達,有必要對測序深度進行標准化。
在 scRNA-seq 分析中,我們將比較細胞內不同基因的表達以對細胞進行聚類。 如果使用基於 3' 或 5' 液滴的方法,基因的長度不會影響分析,因為僅對轉錄物的 5' 或 3' 末端進行測序。 但是,如果使用全長測序,則應考慮轉錄本長度。
主成分分析(PCA)是一種既強調相似性又強調變異的技術,用來在數據集中產生強模式(降維)。我們將在簡要介紹PCA(改編自StatQuests/Josh Starmer的YouTube視頻),強烈建議您瀏覽YouTube的 StatQuest 視頻,有更全面的講解。
假設您已經量化了兩個樣本(或細胞)中四種基因的表達,您可以繪制這些基因的表達值,其中一個樣本表示在 x 軸上,另一個樣本表示在 y 軸上,如下所示:
在表示 最大變化 的方向上通過數據繪制一條線,在本例中,該方向位於對角線上。數據集中的最大變異發生在構成這條線的兩個端點的基因之間。
我們能看到基因在該線的上方和下方有些不同。同時我們可以在數據上繪制另一條線,表示 數據中變化第二大的量 ,因為該圖是二維(2軸)的。
每條線末端附近的基因將是那些變異最高的基因;這些基因在數學上對線條的方向 影響最大 。
例如, 基因 C 值的微小變化會極大地改變較長線的方向,而 基因 A 或 基因 D 的微小變化對線條方向影響很小。
我們還可以旋轉整個曲線圖,並以從左到右、向上和向下的方式查看錶示變化的線條。我們看到數據中的大部分變化是從左到右的(較長的線),第二大的變化是向上和向下的(較短的線)。現在,您可以將這些線視為表示變化的軸。這些軸本質上是「主成分」,其中PC1代表數據中最大的變化,而PC2代表數據中第二大變化。
如果我們有三個樣本/細胞,那麼我們就會有一個額外的方向可以發生變化(3D)。因此,如果我們有 N 個樣本/細胞,我們就會有 N 個變化方向或 N 個主成分(PC)!一旦計算出這些PC,處理數據集中最大變化的PC被指定為PC1,第二PC被指定為PC2,依此類推。
一旦為數據集確定了PC,我們就必須弄清楚每個樣本/細胞是如何重新適應坐標系的,這樣我們才能以直觀的方式可視化相似性/差異性之處。這里的問題是「基於Sample_X中的基因表達,給定PC的Sample_X得分是多少?」按照以下步驟對所有樣本計算PC對分數:
(1)首先,根據每個基因對每個PC的影響程度,給每個基因分配一個「影響力」分數。對給定PC沒有任何影響的基因得分接近於零,而影響更大的基因得分更高。PC線末端的基因會有更大的影響,所以他們會得到更高的分數,但有相反的符號。
計算所有樣本-PC 對的 PC 分數,如下面的步驟和示意圖中所述:
(2)確定了影響值,每個樣本的分數將使用以下公式計算:
對於我們的 2 個樣本示例,以下是分數的計算方式:
這是前兩個步驟的示意圖:
(3) 一旦計算出所有 PC 的分數,就可以將它們繪制在一個簡單的散點圖上。下面是示例的繪圖,從 2D 矩陣到 2D 繪圖:
假設您正在處理 12,000 個細胞 的單細胞 RNA-seq 數據集,並且您已經量化了 20,000 個基因的表達 。
計算 PC 分數後,您會看到一個 12,000 x 12,000 的矩陣,該矩陣表示有關所有細胞中相對基因表達的信息。您可以選擇 PC1 和 PC2 列並以二維方式繪制它們。
您還可以使用前 40 個 PC 的 PC 分數進行下游分析,如聚類、標記識別等,因為這些代表了數據中的大部分變化。我們將在後面對此進行更多討論。
『陸』 主成分分析法
在對災毀土地復墾效益進行分析時,會碰到眾多因素,各因素間又相互關聯,將這些存在相關關系的因素通過數學方法綜合成少數幾個最終參評因素,使這幾個新的因素既包含原來因素的信息又相互獨立。簡化問題並抓住其本質是分析過程中的關鍵,主成分分析法可以解決這個難題。
(一)主成分分析的基本原理
主成分分析法(Principal Components Analysis,PCA)是把原來多個變數化為少數幾個綜合指標的一種統計分析方法。從數學角度來看,這是一種降維處理方法,即通過對原始指標相關矩陣內部結果關系的研究,將原來指標重新組合成一組新的相互獨立的指標,並從中選取幾個綜合指標來反映原始指標的信息。假定有n個評價單元,每個評價單元用m個因素來描述,這樣就構成一個n×m階數據矩陣:
災害損毀土地復墾
如果記m個因素為 x1,x2,…,xm,它們的綜合因素為 z1,z2,…,zp(p≤m),則:
災害損毀土地復墾
系數lij由下列原則來決定:
(1)zi與zj(i≠j,i,j=1,2,…,p)相互無關;
(2)z1是x1,x2,…,xm的一切線性組合中方差最大者,依此類推。
依據該原則確定的綜合變數指標z1,z2,…,zp分別稱為原始指標的第1、第2、…、第p個主成分,分析時可只挑選前幾個方差最大的主成分。
(二)主成分分析法的步驟
(1)將原始數據進行標准化處理,以消除原始數據在數量級或量綱上的差異。
(2)計算標准化的相關數據矩陣:
災害損毀土地復墾
(3)用雅克比法求相關系數矩陣R的特徵值(λ1,λ2,…,λp)和與之相對應的特徵向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。
(4)選擇重要的主成分,並寫出其表達式。
主成分分析可以得到P個主成分,但是由於各個主成分的方差與其包含的信息量皆是遞減的,所以在實際分析時,一般不選取P個主成分,而是根據各個主成分所累計的貢獻率的大小來選取前K個主成分,這里的貢獻率是指某個主成分的方差在全部方差中所佔的比重,實際上也是某個特徵值在全部特徵值合計中所佔的比重。即:
災害損毀土地復墾
這說明,主成分所包含的原始變數的信息越強,貢獻率也就越大。主成分的累計貢獻率決定了主成分個數K的選取情況,為了保證綜合變數能包括原始變數的絕大多數信息,一般要求累計貢獻率達到85%以上。
另外,在實際應用過程中,選擇主成分之後,還要注意主成分實際含義的解釋。如何給主成分賦予新的含義,給出合理的解釋是主成分分析中一個相當關鍵的問題。一般來說,這個解釋需要根據主成分表達式的系數而定,並與定性分析來進行有效結合。主成分是原來變數的線性組合,在這個線性組合中各變數的系數有正有負、有大有小,有的又大小相當,因此不能簡單地把這個主成分看作是某個原變數的屬性作用。線性組合中各變數系數的絕對值越大表明該主成分主要包含了該變數;如果有幾個大小相當的變數系數時,則認為這一主成分是這幾個變數的綜合,而這幾個變數綜合在一起具有什麼樣的實際意義,就需要結合具體的問題和專業,給出合理的解釋,進而才能達到准確分析的目的。
(5)計算主成分得分。根據標准化的原始數據,將各個樣品分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數據,即為主成分得分。具體形式可如下:
災害損毀土地復墾
(6)依據主成分得分的數據,則可以進行進一步的統計分析。其中,常見的應用有主成分回歸,變數子集合的選擇,綜合評價等。
(三)主成分分析法的評價
通過主成分分析法來評價復墾產生的效益,可將多個指標轉化成盡可能少的綜合性指標,使綜合指標間互不相干,既減少了原指標信息的重疊度,又不丟失原指標信息的總含量。該方法不僅將多個指標轉化成綜合性指標,而且也能對每個主成分的影響因素進行分析,從而判別出影響整個評價體系的關鍵因素,並且主成分分析法在確定權重時可以科學地賦值,以避免主觀因素的影響。
需要注意的是,主成分分析法雖然可以對每個主成分的權重進行科學、定量的計算,避免人為因素及主觀因素的影響,但是有時候賦權的結果可能與客觀實際有一定誤差。因此,利用主成分分析法確定權重後,再結合不同專家給的權重,是最好的解決辦法。這樣可以在定量的基礎上作出定性的分析,通過一定的數理方法將兩種數據結合起來考慮。
『柒』 主成分計算權重全步驟梳理!
一、研究場景
主成分分析用於對數據信息進行濃縮,比如總共有20個指標值,是否可以將此20項濃縮成4個概括性指標。除此之外,主成分分析可用於權重計算和綜合競爭力研究。即主成分分共有三個實際應用場景:
二、SPSSAU操作
SPSSAU左側儀表盤「進階方法」→「主成分」;
三、SPSSAU一般步驟
第一步:判斷是否進行主成分(pca)分析;判斷標准為KMO值大於0.6。
第二步:主成分與分析項對應關系判斷。
特別提示: 如果研究目的完全在於信息濃縮,並且找出主成分與分析項對應關系,此時SPSSAU建議使用因子分析【請參考因子分析手冊】,而非主成分分析。主成分分析目的在於信息濃縮(但不太關注主成分與分析項對應關系),權重計算,以及綜合得分計算。
有時不太會關注主成分與分析項的對應關系情況,比如進行綜合競爭力計算時,不需要過多關注主成分與分析項的對應關系情況。
主成與分析項對應關系判斷: 假設預期為3個主成分,分析項為10個;主成分與分析項交叉共得到30個數字,此數字稱作「載荷系數」(載荷系數值表示分析項與主成分之間的相關程度); 針對每個主成分,對應10個」載荷系數」,針對每個分析項,則有3個「載荷系數值」(比如0.765,-0.066,0.093),選出3個數字絕對值大於0.4的那個值(0.765),如果其對應主成分1,則說明此分析項應該劃分在主成分1下面.
對不合理分析項進行刪除 ,共有三種情況; 第一類:如果分析項的共同度(公因子方差)值小於0.4,則對應分析項應該作刪除處理;第二類:某分析項對應的「載荷系數」的絕對值,全部均小於0.4,也需要刪除此分析項;第三類:如果某分析項與主成分對應關系出現嚴重偏差(通常也稱作『張冠李戴』),也需要對該分析項進行刪除處理.
第三步:主成分命名
在第二步刪除掉不合理分析項後,並且確認主成分與分析項對應關系良好後,則可結合主成分與分析項對應關系,對主成分進行命名.
四、主成分分析計算權重
1.方差解釋率表格
使用主成分分析得到方差解釋率表格,主成分分析一共提取出2個主成分,特徵根值均大於1,此2個主成分的方差解釋率分別是54.450%,7.798%,累積方差解釋率為62.248%。
2.載荷系數表格
載荷系數表格里顯示的是各分析項在主成分中的載荷系數,載荷系數可以反映主成分對於分析項的信息提取情況。
在計算分析項權重的時候,需要利用載荷系數等信息進行計算,共分為三步:
第一:計算線性組合系數矩陣,公式為:loading矩陣/Sqrt(特徵根),即載荷系數除以對應特徵根的平方根。
3.線性組合系數及權重結果
在計算分析項權重的時候,需要利用載荷系數等信息進行計算,共分為三步:
第一: 計算線性組合系數矩陣,公式為:loading矩陣/Sqrt(特徵根),即 載荷系數除以對應特徵根的平方根。
例:主成分1:
以此類推。
主成分2:
以此類推。
第二: 計算綜合得分系數,公式為: 累積(線性組合系數*方差解釋率)/累積方差解釋率 ,即線性組合系數分別與方差解釋率相乘後累加,並且除以累積方差解釋率,即得到綜合得分系數。
例:(0.287*54.45%)/62.25% + (0.1201*7.80%)/62.25%≈0.2661;
(0.278*54.45%)/62.25% + (0.1201*7.80%)/62.25%≈0.2683;
(0.2443*54.45%)/62.25% + (0.5818 *7.80%)/62.25%≈0.2866;
(0.2617*54.45%)/62.25% + (0.4385 *7.80%)/62.25%≈0.2839;
以此類推。
第三: 計算權重,將綜合得分系數進行求和歸一化處理即得到各指標權重值。
求和歸一化:
例:綜合得分系數和為3.2671,(0.2661+0.2683+…+0.2199=3.2671)。
0.2661/3.2671=8.15%;0.2683/3.2671=8.21%;0.2866/3.2671=8.77%;以此類推。
4.載荷圖
載荷圖 是針對成分與旋轉後載荷值關系的圖形化展示,使用較少,通常需要手工加『圓圈』把挨在一起的因子圈起來,更直觀展示成分與分析項的隸屬對應關系情況。由於可讀性和解釋性問題,一般只關注於方差解釋率靠前的前面幾個成分,多數情況下只關注2個。
五、其他輸出指標說明
1.KMO 和 Bartlett 的檢驗
使用主成分分析進行信息濃縮研究,首先分析研究數據是否適合進行主成分分析,從上表可以看出:KMO為0.910,大於0.6,滿足主成分分析的前提要求,意味著數據可用於主成分分析研究。以及數據通過Bartlett 球形度檢驗(p<0.05),說明研究數據適合進行主成分分析。
2.成份得分系數矩陣
使用主成分分析目的在於信息濃縮,則忽略「成份得分系數矩陣」表格。如果使用主成分分析法進行權重計算,則需要使用「成份得分系數矩陣」建立主成分和研究項之間的關系等式(基於標准化後數據建立關系表達式),如下:
成分得分1
=0.104*A1+0.101*A2+…+0.101*D2+0.090*D3;
成分得分2
=0.115*A1+0.192*A2+…-0.044*D2+0.025*D3;
3.碎石圖
可結合 碎石圖 輔助判斷主成分提取個數。當折線由陡峭突然變得平穩時,陡峭到平穩對應的主成分個數即為參考提取主成分個數。實際研究中更多以專業知識,結合主成分與研究項對應關系情況,綜合權衡判斷得出主成分個數。圖中可以看出當橫坐標為2時,折線突然變得比較平穩。
六、疑難解惑
1.主成分回歸是什麼意思?
主成分分析後,選中保存『成分得分』,SPSSAU系統會新生成標題用於標識『成分得分』,比如:PcaScore1_1234,繼續使用『成分得分』用於接下來的線性回歸分析,即稱作『主成分回歸』,通常『主成分回歸』用於解決共線性問題。
2.SPSSAU時,面板數據如何進行主成分分析?
面板數據可直接進行主成分分析,面板數據格式相對較為特殊,在分析上直接針對研究指標進行分析即可。
3. SPSSAU時,成分得分是標准化後的數據進行嗎?
成分得分的數據計算,默認是基於標准化後的數據進行。
七、總結
在各個領域的科學研究中,為了全面客觀的分析問題,往往需要對反映事物的多個變數進行大量的觀測,如果對這些變數進行一個一個的分析,可能會造成看待事物片面,不好得出一致的結論,主成分分析就是考慮各指標之間的相互關系,利用降維的思維,把多個指標轉換成較少的幾個互不相關的綜合指標,從而使研究變的更簡單。以上就是主成分分析的指標說明。
更多干貨請前往 SPSSAU 官網查看。
『捌』 色譜歸一化定量法
歸一化法的優點是簡便、准確、定量結果與進樣量重復性無關、操作條件略有變動或進樣量控制不十分精確對分析結果影響都很小。