A. 主成分分析的主要步驟包括
主成分分析是指通過將一組可能存在相關性的變數轉換城一組線性不相關的變數,轉換後的這組變數叫主成分。
主成分分析步驟:1、對原始數據標准化,2、計算相關系數,3、計算特徵,4、確定主成分,5、合成主成分。
主成分分析的原理是設法將原來變數重新組合成一組新的相互無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。
主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。
2.有時可通過因子負荷aij的結論,弄清X變數間的某些關系。
3.多維數據的一種圖形表示方法。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析。
5.用主成分分析篩選回歸變數。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。
B. spss主成分分析步驟是什麼
spss主成分分析法詳細步驟:
1、打開SPSS軟體,導入數據後,依次點擊分析,降維,因子分析。如圖1所示:
(2)主成分分析前處理方法擴展閱讀:
SPSS是世界上最早採用圖形菜單驅動界面的統計軟體,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮。它將幾乎所有的功能都以統一、規范的界面展現出來,使用Windows的窗口方式展示各種管理和分析數據方法的功能,對話框展示出各種功能選擇項。
用戶只要掌握一定的Windows操作技能,精通統計分析原理,就可以使用該軟體為特定的科研工作服務。SPSS採用類似EXCEL表格的方式輸入與管理數據,數據介面較為通用,能方便的從其他資料庫中讀入數據。
其統計過程包括了常用的、較為成熟的統計過程,完全可以滿足非統計專業人士的工作需要。輸出結果十分美觀,存儲時則是專用的SPO格式,可以轉存為HTML格式和文本格式。對於熟悉老版本編程運行方式的用戶,SPSS還特別設計了語法生成窗口。
C. spss中主成分分析
主成分分析用於對數據信息進行濃縮,比如總共有20個指標值,是否可以將此20項濃縮成4個概括性指標。
第一步:判斷是否進行主成分(pca)分析;判斷標准為KMO值大於0.6.
第二步:主成分與分析項對應關系判斷.
第三步:在第二步刪除掉不合理分析項後,並且確認主成分與分析項對應關系良好後,則可結合主成分與分析項對應關系,對主成分進行命名.
spssau主成分分析操作共有三步:
①選擇【進階方法】--【主成分分析】
②將分析項拖拽到右側分析框
③點擊開始分析
默認提供主成分得分和綜合得分,分析前勾選「成分得分」、「綜合得分」即可。
D. 如何進行主成分分析
主成分分析法的基本思想
主成分分析(Principal Component Analysis)是利用降維的思想,將多個變數轉化為少數幾個綜合變數(即主成分),其中每個主成分都是原始變數的線性組合,各主成分之間互不相關,從而這些主成分能夠反映始變數的絕大部分信息,且所含的信息互不重疊.採用這種方法可以克服單一的財務指標不能真實反映公司的財務情況的缺點,引進多方面的財務指標,但又將復雜因素歸結為幾個主成分,使得復雜問題得以簡化,同時得到更為科學、准確的財務信息。
具體的實際操作我也在學習,主要是在實驗室分析,用minitab
網上有很多這方面的資料,你可以自己去詳細地看
希望對你有用
E. 主成分分析法
在對災毀土地復墾效益進行分析時,會碰到眾多因素,各因素間又相互關聯,將這些存在相關關系的因素通過數學方法綜合成少數幾個最終參評因素,使這幾個新的因素既包含原來因素的信息又相互獨立。簡化問題並抓住其本質是分析過程中的關鍵,主成分分析法可以解決這個難題。
(一)主成分分析的基本原理
主成分分析法(Principal Components Analysis,PCA)是把原來多個變數化為少數幾個綜合指標的一種統計分析方法。從數學角度來看,這是一種降維處理方法,即通過對原始指標相關矩陣內部結果關系的研究,將原來指標重新組合成一組新的相互獨立的指標,並從中選取幾個綜合指標來反映原始指標的信息。假定有n個評價單元,每個評價單元用m個因素來描述,這樣就構成一個n×m階數據矩陣:
災害損毀土地復墾
如果記m個因素為 x1,x2,…,xm,它們的綜合因素為 z1,z2,…,zp(p≤m),則:
災害損毀土地復墾
系數lij由下列原則來決定:
(1)zi與zj(i≠j,i,j=1,2,…,p)相互無關;
(2)z1是x1,x2,…,xm的一切線性組合中方差最大者,依此類推。
依據該原則確定的綜合變數指標z1,z2,…,zp分別稱為原始指標的第1、第2、…、第p個主成分,分析時可只挑選前幾個方差最大的主成分。
(二)主成分分析法的步驟
(1)將原始數據進行標准化處理,以消除原始數據在數量級或量綱上的差異。
(2)計算標准化的相關數據矩陣:
災害損毀土地復墾
(3)用雅克比法求相關系數矩陣R的特徵值(λ1,λ2,…,λp)和與之相對應的特徵向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。
(4)選擇重要的主成分,並寫出其表達式。
主成分分析可以得到P個主成分,但是由於各個主成分的方差與其包含的信息量皆是遞減的,所以在實際分析時,一般不選取P個主成分,而是根據各個主成分所累計的貢獻率的大小來選取前K個主成分,這里的貢獻率是指某個主成分的方差在全部方差中所佔的比重,實際上也是某個特徵值在全部特徵值合計中所佔的比重。即:
災害損毀土地復墾
這說明,主成分所包含的原始變數的信息越強,貢獻率也就越大。主成分的累計貢獻率決定了主成分個數K的選取情況,為了保證綜合變數能包括原始變數的絕大多數信息,一般要求累計貢獻率達到85%以上。
另外,在實際應用過程中,選擇主成分之後,還要注意主成分實際含義的解釋。如何給主成分賦予新的含義,給出合理的解釋是主成分分析中一個相當關鍵的問題。一般來說,這個解釋需要根據主成分表達式的系數而定,並與定性分析來進行有效結合。主成分是原來變數的線性組合,在這個線性組合中各變數的系數有正有負、有大有小,有的又大小相當,因此不能簡單地把這個主成分看作是某個原變數的屬性作用。線性組合中各變數系數的絕對值越大表明該主成分主要包含了該變數;如果有幾個大小相當的變數系數時,則認為這一主成分是這幾個變數的綜合,而這幾個變數綜合在一起具有什麼樣的實際意義,就需要結合具體的問題和專業,給出合理的解釋,進而才能達到准確分析的目的。
(5)計算主成分得分。根據標准化的原始數據,將各個樣品分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數據,即為主成分得分。具體形式可如下:
災害損毀土地復墾
(6)依據主成分得分的數據,則可以進行進一步的統計分析。其中,常見的應用有主成分回歸,變數子集合的選擇,綜合評價等。
(三)主成分分析法的評價
通過主成分分析法來評價復墾產生的效益,可將多個指標轉化成盡可能少的綜合性指標,使綜合指標間互不相干,既減少了原指標信息的重疊度,又不丟失原指標信息的總含量。該方法不僅將多個指標轉化成綜合性指標,而且也能對每個主成分的影響因素進行分析,從而判別出影響整個評價體系的關鍵因素,並且主成分分析法在確定權重時可以科學地賦值,以避免主觀因素的影響。
需要注意的是,主成分分析法雖然可以對每個主成分的權重進行科學、定量的計算,避免人為因素及主觀因素的影響,但是有時候賦權的結果可能與客觀實際有一定誤差。因此,利用主成分分析法確定權重後,再結合不同專家給的權重,是最好的解決辦法。這樣可以在定量的基礎上作出定性的分析,通過一定的數理方法將兩種數據結合起來考慮。
F. 主成分分析法(PCA)
3.2.2.1 技術原理
主成分分析方法(PCA)是常用的數據降維方法,應用於多變數大樣本的統計分析當中,大量的統計數據能夠提供豐富的信息,利於進行規律探索,但同時增加了其他非主要因素的干擾和問題分析的復雜性,增加了工作量,影響分析結果的精確程度,因此利用主成分分析的降維方法,對所收集的資料作全面的分析,減少分析指標的同時,盡量減少原指標包含信息的損失,把多個變數(指標)化為少數幾個可以反映原來多個變數的大部分信息的綜合指標。
主成分分析法的建立,假設xi1,xi2,…,xim是i個樣品的m個原有變數,是均值為零、標准差為1的標准化變數,概化為p個綜合指標F1,F2,…,Fp,則主成分可由原始變數線性表示:
地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例
計算主成分模型中的各個成分載荷。通過對主成分和成分載荷的數據處理產生主成分分析結論。
3.2.2.2 方法流程
1)首先對數據進行標准化,消除不同量綱對數據的影響,標准化可採用極值法
圖3.3 方法流程圖
2)根據標准化數據求出方差矩陣;
3)求出共變數矩陣的特徵根和特徵變數,根據特徵根,確定主成分;
4)結合專業知識和各主成分所蘊藏的信息給予恰當的解釋,並充分運用其來判斷樣品的特性。
3.2.2.3 適用范圍
主成分分析不能作為一個模型來描述,它只是通常的變數變換,主成分分析中主成分的個數和變數個數p相同,是將主成分表示為原始變數的線性組合,它是將一組具有相關關系的變數變換為一組互不相關的變數。適用於對具有相關性的多指標進行降維,尋求主要影響因素的統計問題。
G. 主成分分析(PCA)
主成分分析(PCA)是一種常用的無監督學習方法,這一方法利用正交變換把由現行相關變數表示的觀測數據轉化為少數幾個由線性無關變數表示的數據,線性無關的變數稱為主成分。主成分的個數通常小於原始變數的個數,所以主成分分析屬於姜維方法。主成分分析主要用於發現數據中的基本結構,即數據中變數之間的關系,是數據分析的有力工具,也用於其他機器學習方法的前處理。
統計分析比中,數據的變數之間可能存在相關性,以致增加了分析的難度。於是,考慮由少數幾個不相關的變數來代替相關的變數,用來表示數據,並且要求能夠保留數據中的不部分信息。
主成分分析中,首先對給定數據進行規范化,使得數據每一變數的平均值為0,方差為1,。之後對數據進行正交變換,用來由線性相關表示的數據,通過正交變換變成若干個線性無關的新變數表示的數據。新變數是可能的正交變換中變數的方差和(信息保存)最大的,方差表示在新變數上信息的大小。將新變數一次成為第一主成分,第二主成分等。通過主成分分析,可以利用主成分近似地表示原始數據,這可理解為發現數據的「基本結構」;也可以把數據由少數主成分表示,這可理解為對數據降維。
方差最大的解釋。假設有兩個變數 ,三個樣本點A,B,C。樣本分布在由 軸組成的坐標系中,對坐標系進行旋轉變換,得到新的坐標軸 ,表示新的變數 。坐標值的平方和 表示樣本在變數 上的方差和。主成分分析旨在選取正交變換中方差最大的變數,作為第一主成分,也是是旋轉變換中坐標值的平方和最大的軸。注意到旋轉變換中變換中樣本點到原點距離的平方和 不變,根據勾股定理,坐標值的平方和最大 等價於樣本點到 軸的距離平方和 最小。所以,等價地,主成分分析在旋轉變換中選取離樣本點的距離的平方和最小的軸,作為第一主成分。第二主成分等的選取,在保證與已有坐標軸正交的條件下,類似地進行
假設 是m維隨機變數,其均值是
,
協方差矩陣是
考慮到m維隨機變數 到m維隨機變數 的線性變換
其中
由隨機變數的性質可知
總體主成分的定義 給定式(1)所示的線性變換,如果他們滿足下列條件
設 是m維隨機變數, 是 的協方差矩陣, 的特徵值分別是 ,特徵值對應的單位特徵向量分別是 ,則 的第k主成分是
的第k主成分的方差是
即協方差矩陣 的第k個特徵值
首先求 的第一主成分 ,即求系數向量 。第一主成分的 是在 的條件下, 的所有線性變換中使方差達到最大的
求第一主成分就是求解最優化問題
定義拉格朗日函數
其中 是拉格朗日乘子,將拉格朗日函數對 求導,並令其為0,得
因此 是 的特徵值, 是對應的單位特徵向量。於是目標函數
假設 是 的最大特徵值 對應的單位特徵向量,顯然 與 是最優化問題的解,所以, 構成第一主成分,其方差等於協方差矩陣的最大特徵值
接著求 的第二主成分 ,第二主成分的 是在 且 與 不相關條件下, 的所有線性變換中使達到最大
求第二主成分需參求解約束最優化問題
定義拉格朗日函數
其中 對應拉格朗日乘子。對 求偏導,並令其為0,得
將方程左則乘以 有
此式前兩項為0,且 ,導出 ,因此式成為
由此, 是 的特徵值, 是對應的特徵向量,於是目標函數為
假設 是 的第二大特徵值 的特徵向量,顯然 是以上最優化問題的解。於是 構成第二主成分,其方差等於協方差矩陣的第二大特徵值,
按照上述方法可以求得第一、第二、直到第m個主成分,其系數向量 分別是 的第一、第二、直到m個單位特徵向量, 分別是對應的特徵值。並且,第k主成分的方差等於 的第k個特徵值。
主成分分析的主要目的是降維,所以一般選擇 個主成分(線性無觀變數),使問題得以簡化,並能保留原有變數的大部分信息。這里所說的信息是指原有信息的方差。
對任意正整數 ,考慮正交線性變換
其中 是q的維向量, 是q*m維矩陣,令 的協方差矩陣為
則 的跡 在 時取最大值,其中矩陣 是由正交矩陣A的前q列組成。
這表明,當 的線性變換 在 時,其協方差矩陣 的跡 取得最大值。也就是說,當A取前 的前q個主成分時,能夠最大限度地保留原有變數方差的信息。
以上作為選擇k個主成分的理論依據。具體選擇k的方法,通常利用方差貢獻率。
第k主成分 的方差貢獻率定義為 的方差與所有方差之和的比記作
k個主成分 的累計方差貢獻率定義為k個方差之和和所有方差之和的比
通常取k使得累計方差貢獻率達到規定的百分比以上,例如70%~80%。累計方差貢獻率反映了主成分保留信息的比例,但它不能反映對某個原有變數 保留信息的比例,這時通常利用k個主成分 對原有變數 的貢獻率。
k個主成分 對原有變數 的貢獻率為 , 的相關系數的平方,記作
計算公式如下:
其中, 是隨機變數 的方差,即協方差矩陣 的對角元素。
在實際問題中,不同變數可能有不同的量綱,直接求主成分有時會產生不合理的結果,為了消除這個影響,常常對各個隨機變數實施規范化,使其均值為0,方差為1
設 為隨機變數, 為第i個隨機變數, ,令
其中, 分布是隨機變數 的均值和方差,這時 就是 的規范化隨機變數。
在實際問題中,需要在觀測數據上進行主成分分析,這就是樣本主成分分析。樣本主成分也和總體主成分具體相同的性質。
使用樣本主成分時,一般假設樣本數據是規范化的,即對樣本矩陣如下操作:
其中
樣本協方差矩陣S是中體協方差矩陣 的無偏估計,樣本相關矩陣R是總體相關矩陣的無偏估計,S的特徵值和特徵向量 的特徵值和特徵向量的無偏估計。
傳統的主成分分析通過數據的協方差矩陣或相關矩陣的特徵值分解進行,現在常用的方法是通過數據矩陣的奇異值分解進行。下面介紹數據的協方差矩陣或相關矩陣的分解方法
給定樣本矩陣 ,利用數據的樣本的協方差矩陣或樣本相關矩陣的特徵值分解進行主成分分析
給定樣本矩陣 ,利用數據矩陣奇異值分解進行主成分分析,這里沒有假設k個主成分
對於 維實矩陣A,假設其秩為r, ,則可將矩陣A進行截斷奇異值分解
式 是 矩陣, 是k階對角矩陣, 分別由取A的完全奇異分解的矩陣U,V的前k列, 由完全奇異分解的矩陣 的前k個對角元素得到
定義一個新的 矩陣
的每一列均值為0,
即 等於X的協方差矩陣
主成分分析歸結於求協方差矩陣 的特徵值和對應的單位特徵向量。
假設 的截斷奇異值分解為 ,那麼V 的列向量就是 的單位向量,因此V的列向量就是X的主成分。於是X求X的主成分可以通過 的奇異值來實現