導航:首頁 > 研究方法 > 主成分分析中的計算方法

主成分分析中的計算方法

發布時間:2023-03-10 03:21:39

❶ 主成分分析法

在對災毀土地復墾效益進行分析時,會碰到眾多因素,各因素間又相互關聯,將這些存在相關關系的因素通過數學方法綜合成少數幾個最終參評因素,使這幾個新的因素既包含原來因素的信息又相互獨立。簡化問題並抓住其本質是分析過程中的關鍵,主成分分析法可以解決這個難題。

(一)主成分分析的基本原理

主成分分析法(Principal Components Analysis,PCA)是把原來多個變數化為少數幾個綜合指標的一種統計分析方法。從數學角度來看,這是一種降維處理方法,即通過對原始指標相關矩陣內部結果關系的研究,將原來指標重新組合成一組新的相互獨立的指標,並從中選取幾個綜合指標來反映原始指標的信息。假定有n個評價單元,每個評價單元用m個因素來描述,這樣就構成一個n×m階數據矩陣:

災害損毀土地復墾

如果記m個因素為 x1,x2,…,xm,它們的綜合因素為 z1,z2,…,zp(p≤m),則:

災害損毀土地復墾

系數lij由下列原則來決定:

(1)zi與zj(i≠j,i,j=1,2,…,p)相互無關;

(2)z1是x1,x2,…,xm的一切線性組合中方差最大者,依此類推。

依據該原則確定的綜合變數指標z1,z2,…,zp分別稱為原始指標的第1、第2、…、第p個主成分,分析時可只挑選前幾個方差最大的主成分。

(二)主成分分析法的步驟

(1)將原始數據進行標准化處理,以消除原始數據在數量級或量綱上的差異。

(2)計算標准化的相關數據矩陣:

災害損毀土地復墾

(3)用雅克比法求相關系數矩陣R的特徵值(λ1,λ2,…,λp)和與之相對應的特徵向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。

(4)選擇重要的主成分,並寫出其表達式。

主成分分析可以得到P個主成分,但是由於各個主成分的方差與其包含的信息量皆是遞減的,所以在實際分析時,一般不選取P個主成分,而是根據各個主成分所累計的貢獻率的大小來選取前K個主成分,這里的貢獻率是指某個主成分的方差在全部方差中所佔的比重,實際上也是某個特徵值在全部特徵值合計中所佔的比重。即:

災害損毀土地復墾

這說明,主成分所包含的原始變數的信息越強,貢獻率也就越大。主成分的累計貢獻率決定了主成分個數K的選取情況,為了保證綜合變數能包括原始變數的絕大多數信息,一般要求累計貢獻率達到85%以上。

另外,在實際應用過程中,選擇主成分之後,還要注意主成分實際含義的解釋。如何給主成分賦予新的含義,給出合理的解釋是主成分分析中一個相當關鍵的問題。一般來說,這個解釋需要根據主成分表達式的系數而定,並與定性分析來進行有效結合。主成分是原來變數的線性組合,在這個線性組合中各變數的系數有正有負、有大有小,有的又大小相當,因此不能簡單地把這個主成分看作是某個原變數的屬性作用。線性組合中各變數系數的絕對值越大表明該主成分主要包含了該變數;如果有幾個大小相當的變數系數時,則認為這一主成分是這幾個變數的綜合,而這幾個變數綜合在一起具有什麼樣的實際意義,就需要結合具體的問題和專業,給出合理的解釋,進而才能達到准確分析的目的。

(5)計算主成分得分。根據標准化的原始數據,將各個樣品分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數據,即為主成分得分。具體形式可如下:

災害損毀土地復墾

(6)依據主成分得分的數據,則可以進行進一步的統計分析。其中,常見的應用有主成分回歸,變數子集合的選擇,綜合評價等。

(三)主成分分析法的評價

通過主成分分析法來評價復墾產生的效益,可將多個指標轉化成盡可能少的綜合性指標,使綜合指標間互不相干,既減少了原指標信息的重疊度,又不丟失原指標信息的總含量。該方法不僅將多個指標轉化成綜合性指標,而且也能對每個主成分的影響因素進行分析,從而判別出影響整個評價體系的關鍵因素,並且主成分分析法在確定權重時可以科學地賦值,以避免主觀因素的影響。

需要注意的是,主成分分析法雖然可以對每個主成分的權重進行科學、定量的計算,避免人為因素及主觀因素的影響,但是有時候賦權的結果可能與客觀實際有一定誤差。因此,利用主成分分析法確定權重後,再結合不同專家給的權重,是最好的解決辦法。這樣可以在定量的基礎上作出定性的分析,通過一定的數理方法將兩種數據結合起來考慮。

❷ 數據分析 常用的降維方法之主成分分析

數據分析:常用的降維方法之主成分分析

主成分分析(Principal Component Analysis,PCA)也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。
在統計學中,主成分分析是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特徵。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是,這也不是一定的,要視具體應用而定。
主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變數(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數全部近似於零的話,就可以把這個Xi刪除,這也是一種刪除多餘變數的方法。
2.有時可通過因子負荷aij的結論,弄清X變數間的某些關系。
3.多維數據的一種圖形表示方法。我們知道當維數大於3時便不能畫出幾何圖形,多元統計研究的問題大都多於3個變數。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析後,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析。
5.用主成分分析篩選回歸變數。回歸變數的選擇有著重的實際意義,為了使模型本身易於做結構分析、控制和預報,好從原始變數所構成的子集合中選擇最佳變數,構成最佳變數集合。用主成分分析篩選變數,可以用較少的計算量來選擇量,獲得選擇最佳變數子集合的效果。
主成分分析法的計算步驟
1、原始指標數據的標准化採集p 維隨機向量x = (x1,X2,...,Xp)T)n 個樣品xi = (xi1,xi2,...,xip)T ,i=1,2,…,n,
n>p,構造樣本陣,對樣本陣元進行如下標准化變換:
Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,...,n; j=1,2,...,p
其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1},得標准化陣Z。
2、對標准化陣Z 求相關系數矩陣
R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}
其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,...,p 。
3、解樣本相關矩陣R 的特徵方程left|R-lambda I_pright|=0得p 個特徵根,確定主成分
按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 0.85 確定m 值,使信息的利用率達85%以上,對每個λj, j=1,2,...,m, 解方程組Rb = λjb得單位特徵向量b^o_j 。
4、將標准化後的指標變數轉換為主成分
U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,m
U1稱為第一主成分,U2 稱為第二主成分,…,Up 稱為第p 主成分。
5 、對m 個主成分進行綜合評價
對m 個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率。
因子分析
因子分析法是指從研究指標相關矩陣內部的依賴關系出發,把一些信息重疊、具有錯綜復雜關系的變數歸結為少數幾個不相關的綜合因子的一種多元統計分析方法。基本思想是:根據相關性大小把變數分組,使得同組內的變數之間相關性較高,但不同組的變數不相關或相關性較低,每組變數代表一個基本結構一即公共因子。
因子分析法的步驟
(1)對數據樣本進行標准化處理。
(2)計算樣本的相關矩陣R。
(3)求相關矩陣R的特徵根和特徵向量。
(4)根據系統要求的累積貢獻率確定主因子的個數。
(5)計算因子載荷矩陣A。
(6)確定因子模型。
(7)根據上述計算結果,對系統進行分析。

以上是小編為大家分享的關於數據分析 常用的降維方法之主成分分析的相關內容,更多信息可以關注環球青藤分享更多干貨

❸ 主成分計算權重全步驟梳理!

一、研究場景

主成分分析用於對數據信息進行濃縮,比如總共有20個指標值,是否可以將此20項濃縮成4個概括性指標。除此之外,主成分分析可用於權重計算和綜合競爭力研究。即主成分分共有三個實際應用場景:

二、SPSSAU操作

SPSSAU左側儀表盤「進階方法」→「主成分」;

三、SPSSAU一般步驟

第一步:判斷是否進行主成分(pca)分析;判斷標准為KMO值大於0.6。

第二步:主成分與分析項對應關系判斷。

特別提示: 如果研究目的完全在於信息濃縮,並且找出主成分與分析項對應關系,此時SPSSAU建議使用因子分析【請參考因子分析手冊】,而非主成分分析。主成分分析目的在於信息濃縮(但不太關注主成分與分析項對應關系),權重計算,以及綜合得分計算。

有時不太會關注主成分與分析項的對應關系情況,比如進行綜合競爭力計算時,不需要過多關注主成分與分析項的對應關系情況。

主成與分析項對應關系判斷: 假設預期為3個主成分,分析項為10個;主成分與分析項交叉共得到30個數字,此數字稱作「載荷系數」(載荷系數值表示分析項與主成分之間的相關程度); 針對每個主成分,對應10個」載荷系數」,針對每個分析項,則有3個「載荷系數值」(比如0.765,-0.066,0.093),選出3個數字絕對值大於0.4的那個值(0.765),如果其對應主成分1,則說明此分析項應該劃分在主成分1下面.

對不合理分析項進行刪除 ,共有三種情況; 第一類:如果分析項的共同度(公因子方差)值小於0.4,則對應分析項應該作刪除處理;第二類:某分析項對應的「載荷系數」的絕對值,全部均小於0.4,也需要刪除此分析項;第三類:如果某分析項與主成分對應關系出現嚴重偏差(通常也稱作『張冠李戴』),也需要對該分析項進行刪除處理.

第三步:主成分命名

在第二步刪除掉不合理分析項後,並且確認主成分與分析項對應關系良好後,則可結合主成分與分析項對應關系,對主成分進行命名.

四、主成分分析計算權重

1.方差解釋率表格

使用主成分分析得到方差解釋率表格,主成分分析一共提取出2個主成分,特徵根值均大於1,此2個主成分的方差解釋率分別是54.450%,7.798%,累積方差解釋率為62.248%。

2.載荷系數表格

載荷系數表格里顯示的是各分析項在主成分中的載荷系數,載荷系數可以反映主成分對於分析項的信息提取情況。

在計算分析項權重的時候,需要利用載荷系數等信息進行計算,共分為三步:

第一:計算線性組合系數矩陣,公式為:loading矩陣/Sqrt(特徵根),即載荷系數除以對應特徵根的平方根。

3.線性組合系數及權重結果

在計算分析項權重的時候,需要利用載荷系數等信息進行計算,共分為三步:

第一: 計算線性組合系數矩陣,公式為:loading矩陣/Sqrt(特徵根),即 載荷系數除以對應特徵根的平方根。

例:主成分1:

以此類推。

主成分2:

以此類推。

第二: 計算綜合得分系數,公式為: 累積(線性組合系數*方差解釋率)/累積方差解釋率 ,即線性組合系數分別與方差解釋率相乘後累加,並且除以累積方差解釋率,即得到綜合得分系數。

例:(0.287*54.45%)/62.25% + (0.1201*7.80%)/62.25%≈0.2661;

(0.278*54.45%)/62.25% + (0.1201*7.80%)/62.25%≈0.2683;

(0.2443*54.45%)/62.25% + (0.5818 *7.80%)/62.25%≈0.2866;

(0.2617*54.45%)/62.25% + (0.4385 *7.80%)/62.25%≈0.2839;

以此類推。

第三: 計算權重,將綜合得分系數進行求和歸一化處理即得到各指標權重值。

求和歸一化: 

例:綜合得分系數和為3.2671,(0.2661+0.2683+…+0.2199=3.2671)。

0.2661/3.2671=8.15%;0.2683/3.2671=8.21%;0.2866/3.2671=8.77%;以此類推。

4.載荷圖

載荷圖 是針對成分與旋轉後載荷值關系的圖形化展示,使用較少,通常需要手工加『圓圈』把挨在一起的因子圈起來,更直觀展示成分與分析項的隸屬對應關系情況。由於可讀性和解釋性問題,一般只關注於方差解釋率靠前的前面幾個成分,多數情況下只關注2個。

五、其他輸出指標說明

1.KMO 和 Bartlett 的檢驗

使用主成分分析進行信息濃縮研究,首先分析研究數據是否適合進行主成分分析,從上表可以看出:KMO為0.910,大於0.6,滿足主成分分析的前提要求,意味著數據可用於主成分分析研究。以及數據通過Bartlett 球形度檢驗(p<0.05),說明研究數據適合進行主成分分析。

2.成份得分系數矩陣

 使用主成分分析目的在於信息濃縮,則忽略「成份得分系數矩陣」表格。如果使用主成分分析法進行權重計算,則需要使用「成份得分系數矩陣」建立主成分和研究項之間的關系等式(基於標准化後數據建立關系表達式),如下:

成分得分1

=0.104*A1+0.101*A2+…+0.101*D2+0.090*D3;

成分得分2

=0.115*A1+0.192*A2+…-0.044*D2+0.025*D3;

3.碎石圖

  可結合 碎石圖 輔助判斷主成分提取個數。當折線由陡峭突然變得平穩時,陡峭到平穩對應的主成分個數即為參考提取主成分個數。實際研究中更多以專業知識,結合主成分與研究項對應關系情況,綜合權衡判斷得出主成分個數。圖中可以看出當橫坐標為2時,折線突然變得比較平穩。

六、疑難解惑

1.主成分回歸是什麼意思?

主成分分析後,選中保存『成分得分』,SPSSAU系統會新生成標題用於標識『成分得分』,比如:PcaScore1_1234,繼續使用『成分得分』用於接下來的線性回歸分析,即稱作『主成分回歸』,通常『主成分回歸』用於解決共線性問題。

2.SPSSAU時,面板數據如何進行主成分分析?

面板數據可直接進行主成分分析,面板數據格式相對較為特殊,在分析上直接針對研究指標進行分析即可。

3. SPSSAU時,成分得分是標准化後的數據進行嗎?

成分得分的數據計算,默認是基於標准化後的數據進行。

七、總結

在各個領域的科學研究中,為了全面客觀的分析問題,往往需要對反映事物的多個變數進行大量的觀測,如果對這些變數進行一個一個的分析,可能會造成看待事物片面,不好得出一致的結論,主成分分析就是考慮各指標之間的相互關系,利用降維的思維,把多個指標轉換成較少的幾個互不相關的綜合指標,從而使研究變的更簡單。以上就是主成分分析的指標說明。

更多干貨請前往 SPSSAU 官網查看。

❹ 主成分分析的基本步驟

主成分分析的基本步驟:

1、對原始數據標准化

2、計算相關系數

3、計算特徵

4、確定主成分

5、合成主成分。

閱讀全文

與主成分分析中的計算方法相關的資料

熱點內容
活魚袋安裝方法 瀏覽:523
治療股骨頭康復的方法 瀏覽:409
如何diy寶寶棉鞋方法圖解 瀏覽:358
海竿連接魚鉤方法 瀏覽:411
薑汁沉澱問題解決方法 瀏覽:508
居住用地土壤檢測方法和標准 瀏覽:7
受賄罪的研究方法 瀏覽:609
美安鈣粉使用方法兒童 瀏覽:306
水平安裝接地體的方法 瀏覽:961
用繩子做電梯簡單方法 瀏覽:303
魅藍6手機usb在哪裡設置方法 瀏覽:979
審計的技術方法內容是什麼意思 瀏覽:993
假性分手的最佳方法 瀏覽:274
膝蓋長骨刺治療方法 瀏覽:430
婦科念珠菌治療方法 瀏覽:479
手機360清理緩存在哪裡設置方法 瀏覽:474
諧波治理方法有哪些 瀏覽:52
查找問題最常用的兩種方法 瀏覽:360
千層南瓜饅頭的製作方法和步驟 瀏覽:872
髖關節炎的症狀和治療方法 瀏覽:821