A. 主成分分析(PCA)
主成分分析(PCA)是一種常用的無監督學習方法,這一方法利用正交變換把由現行相關變數表示的觀測數據轉化為少數幾個由線性無關變數表示的數據,線性無關的變數稱為主成分。主成分的個數通常小於原始變數的個數,所以主成分分析屬於姜維方法。主成分分析主要用於發現數據中的基本結構,即數據中變數之間的關系,是數據分析的有力工具,也用於其他機器學習方法的前處理。
統計分析比中,數據的變數之間可能存在相關性,以致增加了分析的難度。於是,考慮由少數幾個不相關的變數來代替相關的變數,用來表示數據,並且要求能夠保留數據中的不部分信息。
主成分分析中,首先對給定數據進行規范化,使得數據每一變數的平均值為0,方差為1,。之後對數據進行正交變換,用來由線性相關表示的數據,通過正交變換變成若干個線性無關的新變數表示的數據。新變數是可能的正交變換中變數的方差和(信息保存)最大的,方差表示在新變數上信息的大小。將新變數一次成為第一主成分,第二主成分等。通過主成分分析,可以利用主成分近似地表示原始數據,這可理解為發現數據的「基本結構」;也可以把數據由少數主成分表示,這可理解為對數據降維。
方差最大的解釋。假設有兩個變數 ,三個樣本點A,B,C。樣本分布在由 軸組成的坐標系中,對坐標系進行旋轉變換,得到新的坐標軸 ,表示新的變數 。坐標值的平方和 表示樣本在變數 上的方差和。主成分分析旨在選取正交變換中方差最大的變數,作為第一主成分,也是是旋轉變換中坐標值的平方和最大的軸。注意到旋轉變換中變換中樣本點到原點距離的平方和 不變,根據勾股定理,坐標值的平方和最大 等價於樣本點到 軸的距離平方和 最小。所以,等價地,主成分分析在旋轉變換中選取離樣本點的距離的平方和最小的軸,作為第一主成分。第二主成分等的選取,在保證與已有坐標軸正交的條件下,類似地進行
假設 是m維隨機變數,其均值是
,
協方差矩陣是
考慮到m維隨機變數 到m維隨機變數 的線性變換
其中
由隨機變數的性質可知
總體主成分的定義 給定式(1)所示的線性變換,如果他們滿足下列條件
設 是m維隨機變數, 是 的協方差矩陣, 的特徵值分別是 ,特徵值對應的單位特徵向量分別是 ,則 的第k主成分是
的第k主成分的方差是
即協方差矩陣 的第k個特徵值
首先求 的第一主成分 ,即求系數向量 。第一主成分的 是在 的條件下, 的所有線性變換中使方差達到最大的
求第一主成分就是求解最優化問題
定義拉格朗日函數
其中 是拉格朗日乘子,將拉格朗日函數對 求導,並令其為0,得
因此 是 的特徵值, 是對應的單位特徵向量。於是目標函數
假設 是 的最大特徵值 對應的單位特徵向量,顯然 與 是最優化問題的解,所以, 構成第一主成分,其方差等於協方差矩陣的最大特徵值
接著求 的第二主成分 ,第二主成分的 是在 且 與 不相關條件下, 的所有線性變換中使達到最大
求第二主成分需參求解約束最優化問題
定義拉格朗日函數
其中 對應拉格朗日乘子。對 求偏導,並令其為0,得
將方程左則乘以 有
此式前兩項為0,且 ,導出 ,因此式成為
由此, 是 的特徵值, 是對應的特徵向量,於是目標函數為
假設 是 的第二大特徵值 的特徵向量,顯然 是以上最優化問題的解。於是 構成第二主成分,其方差等於協方差矩陣的第二大特徵值,
按照上述方法可以求得第一、第二、直到第m個主成分,其系數向量 分別是 的第一、第二、直到m個單位特徵向量, 分別是對應的特徵值。並且,第k主成分的方差等於 的第k個特徵值。
主成分分析的主要目的是降維,所以一般選擇 個主成分(線性無觀變數),使問題得以簡化,並能保留原有變數的大部分信息。這里所說的信息是指原有信息的方差。
對任意正整數 ,考慮正交線性變換
其中 是q的維向量, 是q*m維矩陣,令 的協方差矩陣為
則 的跡 在 時取最大值,其中矩陣 是由正交矩陣A的前q列組成。
這表明,當 的線性變換 在 時,其協方差矩陣 的跡 取得最大值。也就是說,當A取前 的前q個主成分時,能夠最大限度地保留原有變數方差的信息。
以上作為選擇k個主成分的理論依據。具體選擇k的方法,通常利用方差貢獻率。
第k主成分 的方差貢獻率定義為 的方差與所有方差之和的比記作
k個主成分 的累計方差貢獻率定義為k個方差之和和所有方差之和的比
通常取k使得累計方差貢獻率達到規定的百分比以上,例如70%~80%。累計方差貢獻率反映了主成分保留信息的比例,但它不能反映對某個原有變數 保留信息的比例,這時通常利用k個主成分 對原有變數 的貢獻率。
k個主成分 對原有變數 的貢獻率為 , 的相關系數的平方,記作
計算公式如下:
其中, 是隨機變數 的方差,即協方差矩陣 的對角元素。
在實際問題中,不同變數可能有不同的量綱,直接求主成分有時會產生不合理的結果,為了消除這個影響,常常對各個隨機變數實施規范化,使其均值為0,方差為1
設 為隨機變數, 為第i個隨機變數, ,令
其中, 分布是隨機變數 的均值和方差,這時 就是 的規范化隨機變數。
在實際問題中,需要在觀測數據上進行主成分分析,這就是樣本主成分分析。樣本主成分也和總體主成分具體相同的性質。
使用樣本主成分時,一般假設樣本數據是規范化的,即對樣本矩陣如下操作:
其中
樣本協方差矩陣S是中體協方差矩陣 的無偏估計,樣本相關矩陣R是總體相關矩陣的無偏估計,S的特徵值和特徵向量 的特徵值和特徵向量的無偏估計。
傳統的主成分分析通過數據的協方差矩陣或相關矩陣的特徵值分解進行,現在常用的方法是通過數據矩陣的奇異值分解進行。下面介紹數據的協方差矩陣或相關矩陣的分解方法
給定樣本矩陣 ,利用數據的樣本的協方差矩陣或樣本相關矩陣的特徵值分解進行主成分分析
給定樣本矩陣 ,利用數據矩陣奇異值分解進行主成分分析,這里沒有假設k個主成分
對於 維實矩陣A,假設其秩為r, ,則可將矩陣A進行截斷奇異值分解
式 是 矩陣, 是k階對角矩陣, 分別由取A的完全奇異分解的矩陣U,V的前k列, 由完全奇異分解的矩陣 的前k個對角元素得到
定義一個新的 矩陣
的每一列均值為0,
即 等於X的協方差矩陣
主成分分析歸結於求協方差矩陣 的特徵值和對應的單位特徵向量。
假設 的截斷奇異值分解為 ,那麼V 的列向量就是 的單位向量,因此V的列向量就是X的主成分。於是X求X的主成分可以通過 的奇異值來實現
B. 數據分析 常用的降維方法之主成分分析
數據分析:常用的降維方法之主成分分析
主成分分析(Principal Component Analysis,PCA)也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。
在統計學中,主成分分析是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特徵。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是,這也不是一定的,要視具體應用而定。
主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變數(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數全部近似於零的話,就可以把這個Xi刪除,這也是一種刪除多餘變數的方法。
2.有時可通過因子負荷aij的結論,弄清X變數間的某些關系。
3.多維數據的一種圖形表示方法。我們知道當維數大於3時便不能畫出幾何圖形,多元統計研究的問題大都多於3個變數。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析後,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析。
5.用主成分分析篩選回歸變數。回歸變數的選擇有著重的實際意義,為了使模型本身易於做結構分析、控制和預報,好從原始變數所構成的子集合中選擇最佳變數,構成最佳變數集合。用主成分分析篩選變數,可以用較少的計算量來選擇量,獲得選擇最佳變數子集合的效果。
主成分分析法的計算步驟
1、原始指標數據的標准化採集p 維隨機向量x = (x1,X2,...,Xp)T)n 個樣品xi = (xi1,xi2,...,xip)T ,i=1,2,…,n,
n>p,構造樣本陣,對樣本陣元進行如下標准化變換:
Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,...,n; j=1,2,...,p
其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1},得標准化陣Z。
2、對標准化陣Z 求相關系數矩陣
R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}
其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,...,p 。
3、解樣本相關矩陣R 的特徵方程left|R-lambda I_pright|=0得p 個特徵根,確定主成分
按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 0.85 確定m 值,使信息的利用率達85%以上,對每個λj, j=1,2,...,m, 解方程組Rb = λjb得單位特徵向量b^o_j 。
4、將標准化後的指標變數轉換為主成分
U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,m
U1稱為第一主成分,U2 稱為第二主成分,…,Up 稱為第p 主成分。
5 、對m 個主成分進行綜合評價
對m 個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率。
因子分析
因子分析法是指從研究指標相關矩陣內部的依賴關系出發,把一些信息重疊、具有錯綜復雜關系的變數歸結為少數幾個不相關的綜合因子的一種多元統計分析方法。基本思想是:根據相關性大小把變數分組,使得同組內的變數之間相關性較高,但不同組的變數不相關或相關性較低,每組變數代表一個基本結構一即公共因子。
因子分析法的步驟
(1)對數據樣本進行標准化處理。
(2)計算樣本的相關矩陣R。
(3)求相關矩陣R的特徵根和特徵向量。
(4)根據系統要求的累積貢獻率確定主因子的個數。
(5)計算因子載荷矩陣A。
(6)確定因子模型。
(7)根據上述計算結果,對系統進行分析。
以上是小編為大家分享的關於數據分析 常用的降維方法之主成分分析的相關內容,更多信息可以關注環球青藤分享更多干貨