導航:首頁 > 方法技巧 > 降維思想方法如何應用

降維思想方法如何應用

發布時間:2022-10-01 09:20:37

⑴ 葫蘆書第四章——降維

在機器學習中,數據通常需要被表示為向量形式以輸入模型進行訓練。但眾所周知,對高維向量進行處理和分析時,會極大地消耗系統資源,甚至產生維度災難(相關筆記記錄於 這里 )。因此,用一個低維度的向量表示原始高維度的特徵就顯得尤為重要。

在機器學習領域中,我們對原始數據進行特徵提取,有時會得到比較高維的特徵向量。在這些向量所處的高維空間中,包含很多的冗餘和雜訊。我們希望通過降維的方式來尋找數據內部的特性,從而提升特徵表達能力,降低訓練復雜度。主成分分析(PCA)作為降維中最經典的方法,屬於一種 線性、非監督、全局的降維演算法

1、所謂主成分,就是把原特徵進行線性組合後得到新的特徵,此特徵盡可能多地保留了原特徵的方差。

2、設一組參數 ,記原特徵為 ,新特徵為 ,根據定義,我們要讓 的方差盡可能大,即 這就是我們的目標函數。

3、具體的求解過程要藉助特徵值分解。

(a)是二維空間中經過中心化的一組數據,我們很容易看出主成分所在的軸(以下稱為主軸)的大致方向,即(b)中黃線所處的軸。因為在黃線所處的軸上,數據分布得更為分散,這也意味著數據在這個方向上方差更大。

我們不難引出 PCA的目標,即最大化投影方差,也就是讓數據在主軸上投影的方差最大 。對於給定的一組數據點 ,其中所有向量均為列向量,中心化後的表示為 ,其中 。我們知道,向量內積在幾何上表示為第一個向量投影到第二個向量上的長度,因此向量 在 (單位方向向量)上的投影坐標可以表示為 。所以目標是找到一個投影方向 ,使得 在 上的投影方差盡可能大。易知,投影之後均值為0( ),因此投影後方差可以表示為:

其中 其實就是協方差矩陣,我們將其寫為 ,另外,由於 是單位向量,因此 ,因此我們要求解一個最大化問題:

引入拉格朗日乘子並對 求導令其等於0,便可以推出 ,此時:

不難看出, 投影後的方差就是協方差矩陣的特徵值。我們要找到最大的方差也就是協方差矩陣最大的特徵值,最佳投影方向就是最大特徵值所對應的特徵向量。次佳投影方向位於最佳投影方向的正交空間中,是第二大特徵值對應的特徵向量,以此類推。至此,我們得到了PCA的求解方法:

1)對樣本數據進行中心化處理。

2)求樣本協方差矩陣。

3)對協方差矩陣進行特徵值分解,將特徵值從大到小排列。

4)取特徵值前 大對應的特徵向量 通過以下映射將 維樣本映射到 維:

定義降維後的信息佔比為:

可以。從線性回歸的角度切入,最佳投影方向對應的直線應該使得各點到此直線的距離的平方和最小。關於這個目標和最大方差目標的等價性,我在 這里 已經說明過了。

從求解直線的思路出發,很容易聯想到數學中的線性回歸問題,其目標也是求解一個線性函數使得對應直線能夠更好地擬合樣本點集合。如果我們從這個角度定義PCA的目標,那麼問題就會轉化為一個回歸問題。

數據集中每個點 到 維超平面 的距離為:

其中 表示 在超平面 上的投影向量。若該超平面 由 個標准正交基 構成,則有線代知識可知, 可由這組基線性表示:

其中 表示 在 方向上投影的長度。因此 實際上就是 在 這組標准正交基下的坐標。而PCA要優化的目標是:

將上式中每個距離展開:

可以看到,第一項與選取的 無關,是一個常數,將 代入第二項第三項得到:

因為當 時, ,因此上式可寫為:

於是:

這等價於求解帶約束的優化問題:

如果我們對 中的 個基 依次求解,就會發現 和最大方差理論的方法完全等價

線性判別分析(Linear Discriminant Analysis, LDA)是一種 有監督學習演算法 ,同時經常被用來對數據進行降維。

相比於PCA,LDA可以作為一種有監督的降維演算法。在PCA中沒有考慮數據的標簽(類別),只是把原數據映射到一些方差比較大的方向上而已。

假設用不同的顏色標注 兩個不同類別的數據,如圖所示。根據PCA演算法,數據應該映射到方差最大的那個方向,亦即 軸方向。但是, 兩個不同類別的數據就會完全混合在一起,很難區分開。所以,使用PCA演算法進行降維後再進行分類的效果會非常差。但是如果使用LDA演算法,數據會映射到 軸方向。

1、要想降維過程中不損失類別信息,一個簡單的想法就是降維後兩類樣本點之間的距離越遠越好,這樣才能將兩類樣本區分開來。

2、在這樣的目標下,假設樣本在目標超平面上的投影,並考察兩類樣本投影的均值點,求解一個超平面,使得這兩個均值點之間的距離最大。

LDA首先是為了分類服務的,因此只要找到一個投影方向 ,使得投影後的樣本盡可能按照原始類別分開 。 我仍不妨從一個簡單的二分類問題出發,有 兩個類別的樣本,兩類的均值分別為 ,我們希望投影之後兩類之間的距離盡可能大,距離表示為:

和 表示兩類中心在 方向上的投影向量,即 ,因此需要優化的問題為:

容易發現當 方向與 一致的時候,該距離達到最大值,例如對圖(a)的黃棕兩種類別的樣本點進行降維時, 若按照最大化兩類投影中心距離的准則,會將樣本點投影到下方的黑線上。但是原本可以被線性劃分的兩類樣本經過投影後有了一定程度的重疊,這顯然不能使我們滿意。我們希望得到的投影結果如圖(b)所示,雖然兩類的中心在投影之後的距離有所減小,但確使投影之後樣本的可區分性提高了。

仔細觀察兩種投影方式的區別,可以發現,在圖(b)中,投影後的樣本點似乎在每一類中分布得更為集中了,用數學化的語言描述就是每類內部的方差比(a)中更小。這就引出了 LDA的中心思想一一最大化類間距離和最小化類內距離

在前文中我們已經找到了使得類間距離盡可能大的投影方式,現在只需要同時優化類內方差,使其盡可能小。我們將整個數據集的類內方差定義為各個類分別的方差之和,將目標函數定義為類間距離和類內距離的比值,於是引出我們需要最大化的目標:

真中 為單位向量, 分別表示兩類投影後的方差:

因此 可以寫成:

定義類間散度矩陣為:

類內散度矩陣為:

則有:

我們要最大化 ,只需對 求偏導,並令導數等於零:

於是得出:

在二分類中 和 是兩個數,令 ,於是:

即:

從這里我們可以看出,我們最大化的目標對應了一個矩陣的特徵值。 於是LDA降維變成了一個求矩陣特徵向量的問題。 就對應矩陣 最大的特徵值,而投影方向就是這個特徵值對應的特徵向量

對於二分類這一問題,由於 ,因此 的方向始終與 一致,若只考慮 的方向而不考慮長度,可得 。

1、LDA和PCA最顯著的區別就是前者是有監督方法而後者是無監督方法,因此在應用中,對於數據中有標簽的應該使用LDA,對於數據中無標簽的則使用PCA。

2、數學推導上,兩者的區別在於,PCA並未考慮類之間的距離(因為PCA並未用到標簽信息),而是僅僅考慮了降維後數據的方差,從這個角度來說,PCA相當於在LDA中將所有數據當成一類去處理的特殊情形。因此我們可以看到兩者的數學推導也十分相似,最終目標都歸為求解一個矩陣的特徵值分解。

首先將LDA拓展到多類高維的情況以和問題PCA的求解對應。假設有 個類別,並需要最終將特徵降維至 維。我們要找到一個 維投影超平面 使得投影後的樣本點滿足LDA的目標一一最大化類間距菌和最小化類內距離。

回顧兩個散度矩陣,類內散度矩陣 在類別數增加時仍滿足定義。而之前兩類問題的類間散度矩陣 在類別增加後就無法按照原始定義。

考慮三類樣本的情況, 分別表示棕綠黃三類樣本的中心, 表示這三個中心的均值(也即全部樣本的中心), 表示第 類的類內散度。我們可以定義一個新的矩陣 表示全局整體的散度,稱為全局散度矩陣:

如果把全局散度定義為類內散度與類間散度之和,即 ,那麼類間散度矩陣可表示為:

其中 是第 個類別中的樣本個數, 是總的類別個數。根據LDA的原理,可以將最大化的目標定義為:

剩下的求解過程與之前二分類LDA相同。

至此我們得到了與PCA步驟類似,但具有多個類別標簽高維數據的LDA求解方法:

1)計算數據集中每個類別樣本的均值向量 ,及總體均值向量 。
2)計算類內散度矩陣 和全局散度矩陣 ,得到類間散度矩陣 。
3)對矩陣 進行特徵值分解,將特徵值從大到小排列。
4)取特徵值前 大的特徵值對應的特徵向量 ,通過以下映
射將 維樣本映射到 維:

從PCA和LDA兩種降維方法的求解過程來看,它們確實有著很大的相似性,但對應的原理卻有所區別。首先從目標出發, PCA選擇的是投影後數據方差最大的方向。由於它是無監督的,因此PCA假設方差越大,信息量越多,用主成分來表示原始數據可以去除冗餘的維度,達到降維。而LDA選擇的是投影後類內方差小、類間方差大的方向,其用到了類別標簽信息。為了找到數據中具有判別性的維度,使得原始數據在這些方向上投影後,不同類別盡可能區分開

舉一個簡單的例子,在語音識別中,我們想從一段音頻中提取出人的語音信號,這時可以使用PCA先進行降維,過濾掉一些固定頻率(方差較小)的背景雜訊。但如果我們的需求是從這段音頻中區分出聲音屬於哪個人,那麼我們應該使用LDA對數據進行降維,使每個人的語音信號具有區分性。

從應用的角度,我們可以掌握一個基本的原則一一 對無監督的任務使用PCA進行降維,對有監督的則應用LDA

⑵ 第十五章 降維

第二種類型的無監督學習問題,叫做降維。
這里有一些,你想要使用降維的原因:
① 數據壓縮
數據壓縮不僅能對數據進行壓縮,使得數據佔用較小的內存或硬碟空間。它還能對學習演算法進行加速
② 可視化數據

但首先,讓我們談論降維是什麼。舉個例子,假設我們收集了一個數據集,它有很多很多的特徵,我只在這里繪制兩個特徵。
假如,對我們來說,這兩個特徵,x_1 是某物體的厘米長度,另一個特徵x_2 是同一物體的英寸長度。這實際上是一種高度冗餘的表示。
對於這兩個單獨的特徵 x_1 和 x_2,它們表示的都是基本長度。或許我們想做的是,把數據減少到一維。只有一個數字來測量某物體的長度。
這個例子可能有點牽強,這與我在行業中所見的完全是兩回事。

如果你有幾百個或成千上萬的特徵,你很容易就會迷失,自己到底有哪些特徵。有時可能有幾個不同的工程團隊,也許一個工程隊給你二百個特徵,第二工程隊給你另外三百個的特徵,第三工程隊給你五百個特徵。最後加起來你就有一千多個特徵,這時就很難去了解某個特徵是從哪個小組得到的,這時就比較容易產生這與高度冗餘的特徵。
並且,如果這里的 厘米 和 英寸 長度都被四捨五入了,這就是這個例子為什麼不是完美地落在一條直線上。

👆另一個例子:如果你想要調查或做這些不同飛行員的測試——你可能有兩個特徵:x_1 是他們的技能(直升機飛行員);x_2 表示他們是否喜歡飛行。也許這兩個特徵將高度相關。你真正關心的可能是這條紅線的方向。它是一個不同的特徵,用來真正測量飛行員能力的特徵。
還是那句話,如果特徵高度冗餘,那麼你可能真的需要降低維數

如果我們將數據從二維(2D)降到一維(1D),究竟意味著什麼?
現在我把不同的樣本,用不同的顏色標出。在這時,通過降維,我的意思是我想找出這條看起來大多數樣本所在的直線(綠色)。所有數據都投影到這條直線上,通過這種做法,我能夠測量出每個樣本在線上的位置,現在我能做的是建立新特徵 z_1。我們只需要一個數,就能確定z_1所在的位置,也就是說z_1是一個全新的特徵。它能夠指定綠線上每一個點位置。

之前的樣本 x_1,它是一個二維向量。在降維後,我們可用一維向量(即,實數)z_1表示第一個樣本。

總結一下:
如果我們允許一個近似於原始數據集的數據集, 該數據集通過投射原始樣本數據到這個綠色線上而得到。那麼,我們只需要一個實數,就能指定點在直線上的位置。所以,我能夠只用一個數字表示樣本的位置,通過把這些原始樣本都投射到綠線上(這是對原始數據集的一種近似,因為我將這些樣本都投射到了同一條直線上)。這樣(樣本從用二維表示,變為用一個實數表示)就能把內存/數據空間的需求減半。

另外,更有趣也更重要的是。在之前的視頻中,我們將能夠了解到,這么做能夠讓學習演算法運行得更快。

另一個例子,將數據從 3D 降到 2D。

降維的第二個應用:可視化數據
在許多及其學習問題中,如果我們能將數據可視化,我們便能尋找到一個更好的解決方案,降維可以幫助我們。

假使我們有關於許多不同國家的數據,每一個特徵向量都有50個特徵(如GDP,人均GDP,平均壽命等)。如果要將這個50維的數據可視化是不可能的。使用降維的方法將其降至2維,我們便可以將其可視化了。

比如,你可能發現,橫軸(z_1)大致相當於國家的總體規模或者國家的總體經濟活躍程度,所以橫軸代表的是GDP、一個國家的經濟規模。而縱軸大致對應於人均GDP。你可能會發現,這50個 特徵,實際上只偏離為兩個主要維度。(這樣做的問題在於,降維的演算法只負責減少維數,新產生的特徵的意義就必須由我們自己去發現了)

一個特殊的演算法:PAC,也叫做「主成分分析」。它可以用來做降維操作,可以用來實現我們之前所提到的壓縮數據。

主成分分析(PCA)是最常見的降維演算法。
在PCA中,我們要做的是找到一個方向向量(Vector direction),當我們把所有的數據都投射到該向量上時,我們希望投射平均均方誤差能盡可能地小。方向向量是一個經過原點的向量,而投射誤差是從特徵向量向該方向向量作垂線的長度。

PCA 問題的公式描述。換句話說,我們會試著用公式准確地表述PCA的用途。

所以,正式的說,PCA做的就是,它會找到一個低維平面(該例子中,是條直線),然後將數據投影在上面,使這些藍色小線段(即,點到平面的距離)長度平方最小。這個藍色小線段的距離,有時也稱投影誤差。
所以,PCA 所做的就是,它會試圖尋找一個投影平面對數據進行投影,使得能最小化這個距離。
另外在應用PCA 之前,常規的做法是,先進行 均值歸一化,使得特徵量 x_1 和 x_2 其均值為0。並且其數值在可比較的范圍之內。(本例中,我們已經處理過了)

後面會詳細講,PCA背景下的均值歸一化問題的細節。

PCA做的就是,如果想將數據從二維降到一維。我們要試著找一個方向向量,使得向量 u^(i) ∈ R^n (本例中, n = 2,即,u^(i) ∈ R^2)投影到這個方向向量上的投影誤差最小。

更通常的情況是:我們會有N維數據,並且我們想其降到K維,這種情況下,我們不只是想找單個向量來對數據進行投影,而是想尋找K個方向來對數據進行投影,來最小化投影誤差。(我們要做的是,將數據投影到這 k 個向量展開的線性子空間上)

u^(1) 和 u^(2) 兩個向量一起定義了一個二維平面。我們將我們的數據投影到上面。

因此,PCA做的是其視圖找出一條直線,或一個平面,或其他維的空間,然後對數據進行投影,以最小化平方投影。90度投影,或正交投影的誤差。

事實上,PCA不是線性回歸,盡管看上去有一些相似,但是它們確實是兩種不同的演算法。
上圖中,左邊的是線性回歸的誤差(垂直於橫軸投影),右邊則是主要成分分析的誤差(垂直於紅線投影)。
主成分分析最小化的是投射誤差(Projected Error),而線性回歸嘗試的是最小化預測誤差。線性回歸的目的是預測結果,而主成分分析不作任何預測。

PCA將n個特徵降維到k個,可以用來進行數據壓縮,如果100維的向量最後可以用10維來表示,那麼壓縮率為90%。同樣圖像處理領域的KL變換使用PCA做圖像壓縮。但PCA 要保證降維後數據的特性損失最小。

PCA技術的一大好處是對數據進行降維的處理。我們可以對新求出的「主元」向量的重要性進行排序,根據需要取前面最重要的部分,將後面的維數省去,可以達到降維從而簡化模型或是對數據進行壓縮的效果。同時最大程度的保持了原有數據的信息。

PCA技術的一個很大的優點是,它是完全無參數限制的。在PCA的計算過程中完全不需要人為的設定參數或是根據任何經驗模型對計算進行干預,最後的結果只與數據相關,與用戶是獨立的。

但是,這一點同時也可以看作是缺點。如果用戶對觀測對象有一定的先驗知識,掌握了數據的一些特徵,卻無法通過參數化等方法對處理過程進行干預,可能會得不到預期的效果,效率也不高。

主成分分析演算法

在使用PCA之前,首先要做的是,進行數據的預處理。
給定一個交易例子的集合,
預處理:
① 一定要做的一個事情是:執行均值歸一化。
② 依據於你的數據,可能也要進行特徵縮放。
這兩個過程,即在我們有監督學習中,均值標准化過程 與 特徵縮放的過程 是相似的。實際上,確實是相同的過程,除了我們現在是對未標記數據 x^(1) 到 x^(m) 做 均值標准化過程 與 特徵縮放過程。

接下來,如果不同的特徵有非常不相同的縮放,例如 x_1 是房子的尺寸, x_2 是卧室的數量。我們縮放每一個特徵,一個相對的價值范圍。
相對於之前的監督學習:x_j^(i) = ( (x_j^(i) - u_j) / s_j )。 s_j = x_j 預測的最大值 - 最小值。更普遍的,s_j 是特徵 j 的標准偏差。

做完這一系列的數據預處理之後,我們來看PCA演算法
我們能從先前的視頻看到,PCA所做的就是,它嘗試著找到一個 低維 子空間,對數據進行投影,我們希望找到一個向量 u^(k) (比如,從 N 維將到 K 維),是的數據到這個向量的投影誤差平方和最小。
給個提示,是什麼減少了數據平均值的維度??
對於左邊的例子,我們給定的樣本 x^(i) 在 R^2 中(即,兩個維度,x_1^(i), x_2^(i))。我們要做的就是在 R 中(一維)找到一個數據集 z^(i) 來代表我們原始的樣本數據。所以,我們的均值從 2維 降到 1維。
所以,PCA要做的就是,要想出一個方法計算兩個東西:
① 計算向量 u^(k)
② 計算 z^(i)

1,首先,我們要做的是計算這個「協方差(covariance matrix)」,通常用希臘字母 Σ。

① 希臘字母 Σ ,表示矩陣
② 累加和標記

『 [U, S, V] = svd(Sigma); 』:計算 矩陣U = S 和 V 協方差矩陣sigma。
再補充一些細節:這個 協方差矩陣sigma,將會是一個 n*n 的矩陣。

矩陣U 的每一列就是 u^(i) ,即,u ∈ R^(n*n) 。所以,我們想減少數據的維度從 n 維 到 k 維,我們需要做的是提取前 k 個向量。u^1, … , u^k ,這給了我們 k 個方向(構成了一個 k維度的 子空間),即,我們想要投影數據的方向。

有了 u^k 後,我們要做的就是:x ∈ R^n ——> z ∈R^k
我們稱 矩陣U 為 U_rece(n*k 矩陣)。這是 矩陣U 被降維的版本,我們將用它來對我們的數據進行降維。

z = (U_rece)^T * x
(U_rece)^T : k * n 矩陣
x 是 「n 維度向量(即,n * 1)」
所以,z 是 「k 維度向量」

在PCA演算法中,我們將N維特徵減少為K維特徵。這個數字 K 是PCA演算法的一個參數。這個數 K 也被稱為 主成分的數字。或者,我們保留的主成分的數字。
在一般情況下,如何考慮選取這個參數 K ?

我們希望在平均均方誤差與訓練集方差的比例盡可能小的情況下選擇盡可能小的k值。
如果我們希望這個比例小於1%,就意味著原本數據的方差有99%都保留下來了,如果我們選擇保留95%的方差,便能非常顯著地降低模型中特徵的維度了。
99%、95%、90% 都是一些具有代表性的范圍。

對於許多數據集,你會驚訝,為了保留99%的方差,你可以減少維度,但仍然保留大部分的方差。因為對於真實世界的數據來說,許多特徵都是高度相關的。因此,結果證明:對數據進行很多壓縮,仍然可以保留99%的方差。

那麼該如何實現了?

但是,👆這個方法非常低效。

在以前的視頻中,我談論PCA作為壓縮演算法。在那裡你可能需要把1000維的數據壓縮100維特徵,或具有三維數據壓縮到一二維表示。所以,如果這是一個壓縮演算法,應該能回到這個壓縮表示,回到你原有的高維數據的一種近似。
所以,給定的z (i),這可能100維,怎麼回到你原來的表示x (i),這可能是1000維的數組?

我們可以把👆這個過程叫做:原始數據的重構。

我們常常使用PCA演算法對監督學習演算法進行加速。

假使我們正在針對一張 100×100像素的圖片進行某個計算機視覺的機器學習,即總共有10000 個特徵。

最後要注意的一點是,PCA所做的是定義一個從 x 到 z 的映射。這個從 x 到 z 的映射只能通過在訓練集上運行PCA來得到。這個映射(注意,這里說的是映射,而不是PCA演算法)也能夠被應用在 交叉校驗 和 測試集 上的其他樣本中。(即,如果我們有交叉驗證集合測試集,也採用對訓練集學習而來的U_rece。 )

總結一下:當在運行PCA時,僅僅在訓練集中的數據上運行,不能用在交叉驗證和測試集上。但,當你定義了 x 到 z 的映射後,你可以應用這個映射到你的交叉驗證集和你的測試集。

順便說一下,實際上,在許多問題中我們確實能減少數據的維度,大概可以減少到 1/5 或者 1/10,而且仍然保留大部分的方差,幾乎不影響性能。而且使用較低的維度數據,我們的學習演算法通常可以運行的更快。

錯誤的主要成分分析情況:一個常見錯誤使用主要成分分析的情況是,將其用於減少過擬合(減少了特徵的數量)。這樣做非常不好,不如嘗試正則化處理。原因在於PCA不需要使用標簽y,它僅僅使用輸入的 x^(i) ,使用它去尋找低緯數據,來近似你的數據。因此PCA會舍掉一些信息,它扔掉或減少數據的維度,不關心 y 值是什麼。所以如果99%的方差信息被保留,你保留了大部分的方差,那麼這樣使用PCA是可以的。但是它也可能會丟掉一些有價值的信息。
事實證明,只使用正則化來防止過擬合常常會給你帶來更好的結果。因為,當你應用 線性回歸 或者 logistic回歸 或其他的一些方法,進行正則化時,這個最小化問題,實際上是知道 y 的值的,所以不太可能損失掉一些有價值的信息。而PCA不使用標簽,更有可能丟失一些有價值的信息。

因此,總結一下,使用PCA比較好的方式,是用它來提高學習演算法的速度。但是使用PCA來防止過擬合,這不是PCA的一個好的運用。要使用正則化來防止過擬合。

另一個常見的錯誤是,默認地將主要成分分析作為學習過程中的一部分,這雖然很多時候有效果,最好還是從所有原始特徵開始,只在有必要的時候(演算法運行太慢或者佔用太多內存)才考慮採用主要成分分析。

⑶ 高維打擊低維的思想在營銷中怎樣應用,能否舉幾個例子

這種高維打擊低維的營銷,有什麼特點呢?

第一,內容不再是產品,而是產品的載體。《羋月傳》電視劇作為火爆的內容吸引了觀眾的眼球,聚集了無數粉絲,短時間內如此巨大的流量集中到一個平台,便成為一個勢不可擋的營銷維度,將樂視其他產品變現也是水到渠成。內容轉化為產品的載體,反過來也進一步加大了劇集的影響力,呈現滾雪球的效應。

第二,用戶自動聚焦。企業和用戶之間就像原子核與電子,有牢牢的電磁力吸引,不存在其他環節。

第三,流程降維,把一切多餘環節砍掉。所以這才有「平台+內容+終端+應用」的多維並舉,合而為一。


‍‍答主: 一名在微信公眾號【營銷航班】研究十二維空間營銷的何牧宸先生。‍‍

⑷ 數據分析 常用的降維方法之主成分分析

數據分析:常用的降維方法之主成分分析

主成分分析(Principal Component Analysis,PCA)也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。
在統計學中,主成分分析是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特徵。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是,這也不是一定的,要視具體應用而定。
主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變數(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數全部近似於零的話,就可以把這個Xi刪除,這也是一種刪除多餘變數的方法。
2.有時可通過因子負荷aij的結論,弄清X變數間的某些關系。
3.多維數據的一種圖形表示方法。我們知道當維數大於3時便不能畫出幾何圖形,多元統計研究的問題大都多於3個變數。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析後,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析。
5.用主成分分析篩選回歸變數。回歸變數的選擇有著重的實際意義,為了使模型本身易於做結構分析、控制和預報,好從原始變數所構成的子集合中選擇最佳變數,構成最佳變數集合。用主成分分析篩選變數,可以用較少的計算量來選擇量,獲得選擇最佳變數子集合的效果。
主成分分析法的計算步驟
1、原始指標數據的標准化採集p 維隨機向量x = (x1,X2,...,Xp)T)n 個樣品xi = (xi1,xi2,...,xip)T ,i=1,2,…,n,
n>p,構造樣本陣,對樣本陣元進行如下標准化變換:
Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,...,n; j=1,2,...,p
其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1},得標准化陣Z。
2、對標准化陣Z 求相關系數矩陣
R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}
其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,...,p 。
3、解樣本相關矩陣R 的特徵方程left|R-lambda I_pright|=0得p 個特徵根,確定主成分
按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 0.85 確定m 值,使信息的利用率達85%以上,對每個λj, j=1,2,...,m, 解方程組Rb = λjb得單位特徵向量b^o_j 。
4、將標准化後的指標變數轉換為主成分
U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,m
U1稱為第一主成分,U2 稱為第二主成分,…,Up 稱為第p 主成分。
5 、對m 個主成分進行綜合評價
對m 個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率。
因子分析
因子分析法是指從研究指標相關矩陣內部的依賴關系出發,把一些信息重疊、具有錯綜復雜關系的變數歸結為少數幾個不相關的綜合因子的一種多元統計分析方法。基本思想是:根據相關性大小把變數分組,使得同組內的變數之間相關性較高,但不同組的變數不相關或相關性較低,每組變數代表一個基本結構一即公共因子。
因子分析法的步驟
(1)對數據樣本進行標准化處理。
(2)計算樣本的相關矩陣R。
(3)求相關矩陣R的特徵根和特徵向量。
(4)根據系統要求的累積貢獻率確定主因子的個數。
(5)計算因子載荷矩陣A。
(6)確定因子模型。
(7)根據上述計算結果,對系統進行分析。

以上是小編為大家分享的關於數據分析 常用的降維方法之主成分分析的相關內容,更多信息可以關注環球青藤分享更多干貨

⑸ 第11章 降維

去掉數據集中關聯性不大和冗餘的數據,確保不出現過度適應的前提下降低計算的成本,需要對特徵進行無損規約,數學上叫降維。廣泛用於模式識別、文本檢索以及機器學習領域,主要分為兩類,特徵提取和特徵篩選,前者是高維數據投影到低維空間,後者是特徵子集代替原始特徵集,包括特徵分級和特徵篩選,分級是找到優化後的特徵子集。
特徵提取可以分成線性抽取和非線性抽取兩種方法,前者是試圖找到一個仿射空間能夠最好的說明數據分布的變化,後者對高維非線性曲線平面分布的數據非常有效。
線性特徵的抽取方法:

首先設定一些標准,然後挑選出滿足標準的特徵。

演算法首先調用一個權重函數得到每個特徵的權重值,權重評價指標是平均精確度下降 importance.type = 1 ,除了上面用的隨機森林,還可以使用 chi.squared, information.gain 。
然後獲取優化的特徵子集,首先5折交叉驗證評估特徵子集的重要性,爬山搜索演算法從原始特徵集中選出優化的特徵子集,也可以選擇其他演算法,比如 forward.search 。還可以使用caret包進行特徵篩選,據說這個包是個寶呀,包羅萬象。

主成分分析是一種應用非常廣泛的線性降維方法,適合數據集包含非常多的特徵,並且特徵間彼此冗餘(相關的情況)。通過將特徵集縮減成一小部分能代表原始特徵集最主要變化的主要特徵分量,實現高維數據到低維數據空間的映射。

特徵選擇過程中會去掉一些彼此關聯但有價值的特徵,需要在特徵製取過程中考慮將這些特徵綜合到單特徵中,PCA採用正交變換將彼此有關聯的特徵轉化為主成分,以便我們確定方差趨勢。
演算法主要包括以下步驟:1)找到平均向量的數據點;2)計算
協方差矩陣;3)計算特徵向量;4)對特徵向量排序並選擇前k個特徵向量;5)構建特徵向量矩陣;最後,將數據樣本轉換成新的子集。
拓展
princomp 是另一個高不成分分析函數,與上面的 prcomp 採用奇異值分解不同,採用相關矩陣或協方差矩陣的特徵值計算方法,一般更習慣用後者。

以上兩個函數均來自stats包,還可以使用psych包中的principal函數進行:

Kaiser方法、scree(碎石測試)和依據挑選規則使用解釋變數比例都可以。碎石測試的主要目的是將主成分結果以碎石圖方式表達,從圖中找到引起曲線斜率變化最快的因素。

主成分為2時,斜率變化最快。也可以使用nfactors以並行分析非圖形方式作Cattell碎石來測試。

biplot繪制數據與原始特徵在前兩個主成分上的投影圖

biplot繪制數據及原始特徵在前兩個主成分上的投影,農業高,教育和檢查低的省份在PC1上得分高;嬰兒死亡率高,農業低的省份在主成分PC2上得分較高。

多維尺度分析通過圖形方式展示多個對象之間的相似或相異程度距離),多維是指映射到一維、二維或多維空間表達CF全家人相對距離,一般使用一或二維空間。

分成計量和非計量兩類,前者是主要考慮如何保證降維後各對象之間的距離盡可能接近它們在原始空間的距離,後者則假設兩個空間中對象的距離排名已知,而且變換後排名不變。

可以通過將投影維度繪制在一個散點圖中比較MDS和PCA的差異,如果MDS採用歐氏距離,投影維度將與PCA完全一致。

奇異值分解是矩陣分解的一種形式,可以將一個矩陣分解為兩個正交矩陣和一個對角矩陣,原始矩陣可由這三個矩陣相乘得到。可以幫助去掉那些從線性代數角度觀察存在線性相關冗餘的矩陣,可以應用在特徵篩選,圖像處理和聚類等。

SVD是一類分解實數或復數矩陣的常見方法,PCA可以被看成SVD的一種特例:

兩個矩陣基本相同。

[圖片上傳失敗...(image-be0ae8-1639570485003)]
圖像壓縮領域應用最為廣泛的標准測試圖像,花花公子當年的模特圖呀!

不知為啥,讀什麼圖片都是負片呢?先繼續:

ISOMAP屬於流形學習方法,支持線性空間到非線性數據結構的轉換,與MDS類似,它也能夠以圖形方式展現對象之間的相似性或相異性(距離),不過,由於數據採用非線性結構表示,以幾何距離代替MDS中有歐氏距離。

ISOMAP是一種等距映射非線性降維方法,如果將計量MDS方法中數據點間成對的歐氏距離替換成鄰接圖間的測地距離,就可以將ISOMAP當做計量MDS方法的擴展。
演算法分為4步:確定鄰近點,構建鄰接圖,計算最短路徑和MDS分析找到數據間的低維嵌入。

擴展
可以將RnavGraph包將圖形作為數據瀏覽的基礎方式來實現高維數據的可視化。

LLE演算法是PCA演算法的擴展,通過嵌入高維空間內的流形映射到低維空間來實現數據壓縮。ISOMAP是全局性非線性降維,LLE主要是局部母性降維演算法,假設每個數據點可以由k個鄰近點的母性組合構成,映射後能保持原來的數據性質。

LLE是一種非線性降維演算法,基於它我們可以得到高維數據在低維空間保持原有數據鄰近嵌入關系的映射。演算法主要分成三步:計算每個點的k個鄰近,然後計算每個鄰近點的權值,使得每個點都能最優地由其鄰近點組合重構,即殘差和最小。

擴展
還可以選擇RDRTollbox包實現非線性降維,支持ISOMAP和LLE演算法。

⑹ 常用降維方法之PCA 和 LDA

PCA本質上是將方差最大的方向作為主要特徵,並且在各個正交方向上將數據「離相關」,也就是讓它們在不同正交方向上沒有相關性。而方差最大的那個維度是主成分。
PCA是比較常見的線性降維方法,通過線性投影將高維數據映射到低維數據中,所期望的是在投影的維度上,新特徵自身的方差盡量大,方差越大特徵越有效,盡量使產生的新特徵間的相關性越小。
PCA演算法的具體操作為對所有的樣本進行中心化操作,計算樣本的協方差矩陣,然後對協方差矩陣做特徵值分解,取最大的n個特徵值對應的特徵向量構造投影矩陣。

再舉個栗子:

下面舉一個簡單的例子,說明PCA的過程。

假設我們的數據集有10個二維數據(2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9),需要用PCA降到1維特徵。

首先我們對樣本中心化,這里樣本的均值為(1.81, 1.91),所有的樣本減去這個均值向量後,即中心化後的數據集為(0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01)。

現在我們開始求樣本的協方差矩陣,由於我們是二維的,則協方差矩陣為:

對於我們的數據,求出協方差矩陣為:

求出特徵值為(0.0490833989, 1.28402771),對應的特徵向量分別為:

由於最大的k=1個特徵值為1.28402771,對於的k=1個特徵向量為 則我們的W=
我們對所有的數據集進行投影 得到PCA降維後的10個一維數據集為:(-0.827970186, 1.77758033, -0.992197494, -0.274210416, -1.67580142, -0.912949103, 0.0991094375, 1.14457216, 0.438046137, 1.22382056)

在上面的PCA演算法中,我們假設存在一個線性的超平面,可以讓我們對數據進行投影。但是有些時候,數據不是線性的,不能直接進行PCA降維。這里就需要用到和支持向量機一樣的核函數的思想,先把數據集從n維映射到線性可分的高維N>n,然後再從N維降維到一個低維度n', 這里的維度之間滿足n'<n<N。

使用了核函數的主成分分析一般稱之為核主成分分析(Kernelized PCA, 以下簡稱KPCA。假設高維空間的數據是由n維空間的數據通過映射ϕ產生。

則對於n維空間的特徵分解:

映射為:

通過在高維空間進行協方差矩陣的特徵值分解,然後用和PCA一樣的方法進行降維。一般來說,映射ϕ不用顯式的計算,而是在需要計算的時候通過核函數完成。由於KPCA需要核函數的運算,因此它的計算量要比PCA大很多。

這里對PCA演算法做一個總結。作為一個非監督學習的降維方法,它只需要特徵值分解,就可以對數據進行壓縮,去噪。因此在實際場景應用很廣泛。為了克服PCA的一些缺點,出現了很多PCA的變種,比如第六節的為解決非線性降維的KPCA,還有解決內存限制的增量PCA方法Incremental PCA,以及解決稀疏數據降維的PCA方法Sparse PCA等。

PCA演算法的主要優點有:

LDA(線性判別分析,Linear Discriminant Analysis)是另一種常用的降維方法,它是有監督的。LDA在模式識別領域(比如人臉識別,艦艇識別等圖形圖像識別領域)中有非常廣泛的應用,因此我們有必要了解下它的演算法原理。這里需要注意的是,此處的LDA與文本主題模型中的LDA(隱含狄利克雷分布,Latent Dirichlet Allocation)並不相同,他是一種處理文檔的主題模型。
LDA是一種監督學習的降維技術,也就是說它的數據集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。

LDA的思想可以用一句話概括,就是「投影後類內方差最小,類間方差最大」。
什麼意思呢? 我們要將數據在低維度上進行投影,投影後希望每一種類別數據的投影點盡可能的接近,而不同類別的數據的類別中心之間的距離盡可能的大。
可能還是有點抽象,我們先看看最簡單的情況。假設我們有兩類數據 分別為紅色和藍色,如下圖所示,這些數據特徵是二維的,我們希望將這些數據投影到一維的一條直線,讓每一種類別數據的投影點盡可能的接近,而紅色和藍色數據中心之間的距離盡可能的大。

以上就是使用LDA進行降維的演算法流程。實際上LDA除了可以用於降維以外,還可以用於分類。一個常見的LDA分類基本思想是假設各個類別的樣本數據符合高斯分布,這樣利用LDA進行投影後,可以利用極大似然估計計算各個類別投影數據的均值和方差,進而得到該類別高斯分布的概率密度函數。當一個新的樣本到來後,我們可以將它投影,然後將投影後的樣本特徵分別帶入各個類別的高斯分布概率密度函數,計算它屬於這個類別的概率,最大的概率對應的類別即為預測類別。

LDA用於降維,和PCA有很多相同,也有很多不同的地方,因此值得好好的比較一下兩者的降維異同點。

這點可以從下圖形象的看出,在某些數據分布下LDA比PCA降維較優。

當然,某些某些數據分布下PCA比LDA降維較優,如下圖所示:

LDA演算法既可以用來降維,又可以用來分類,但是目前來說,主要還是用於降維。在我們進行圖像識別圖像識別相關的數據分析時,LDA是一個有力的工具。下面總結下LDA演算法的優缺點。

LDA演算法的主要優點有:

參考文章: 劉建平老師的博客園

⑺ 如何實現降維處理

降維方法分為線性核非線性降維,非線性降維又分為基於核函數和基於特徵值的方法。

線性降維方法:PCA ICALDA LFA LPP(LE的線性表示)

於核函數的非線性降維方法:KPCA KICAKDA

基於特徵值的非線性降維方法(流型學習):ISOMAP LLE LE LPP LTSA MVU

⑻ 三種常用降維方法的思想總結

     LDA降維和PCA的不同是LDA是有監督的降維,其原理是將特徵映射到低維上,原始數據的類別也能清晰的反應在低維的數據上,也就是低維的數據也可以用來判別分類。

     我們先看看二維的情況,我們希望找到一個向量,使得數據點映射到這個向量上後,兩個類間的距離盡可能,兩個類內的樣本的距離盡可能小。這樣就得到了一個目標函數,分子是投影後兩個類間均值的差的平方,我們希望這個值盡可能大,分母是投影後的類的散列值的和,是少除以樣本數量的方差,進一步化簡分子得到投影向量的轉置乘以投影前的類均值差向量的外積再乘以投影向量,分母是投影向量的轉置乘以投影前的類間散列矩陣的和再乘以投影向量,此時我們需要求使得目標函數最小的投影向量,由於投影向量擴大或縮小多少倍,目標函數值不變,那麼我們可以讓分母的模長為1,此時可以使用拉格朗日乘子法,最後求得:當類間散列矩陣的和存在逆矩陣時,投影向量就是類間散列矩陣的和的逆矩陣和投影前的類均值差向量的外積的特徵向量。進一步的,我們化簡等式左邊得到類間散列矩陣的逆矩陣乘以投影前類間均值向量的差乘以一個常數,那麼由於投影向量可以放縮常數倍不影響結果,我們約掉兩邊的常數,得到投影向量等於投影前類均值向量的差左乘散列矩陣的逆矩陣,這就是fisher提出的判別分析

      PCA是將原始樣本投影到低維的空間上,使得樣本的絕大部分信息得以保留,並且特徵的維度降低使得模型不易過擬合。思想是:對於原始空間中的m維向量而言,找到k個投影向量使得這m維向量投影到這k個投影向量上的方差最大,保留原始的樣本信息最多,我們首先可以看看找第一個向量,使得在這個方向上的投影方差最大。步驟如下:

1.在投影之前,我們對數據做中心化處理,使得原始數據均值為0

2.計算中心化後的樣本的協方差矩陣,這是個m*m維的矩陣,m表示原始特徵的數目。第i行第j列的元素表示數據中第i列和第j列的協方差

3.計算協方差矩陣的特徵值和特徵向量,特徵向量是單位向量,模長為1,

4.選擇帶有最大特徵值的k個特徵向量

5.計算k個最大特徵值對應的k個特徵,對於每一個特徵,都是用原數據矩陣(n行m列)乘以對應的特徵向量(m行1列,m是原始變數的數目):因此最後的特徵有n行一列,表示每個樣本一個特徵值

      對數據進行中心化和歸一化,然後將其投影到某個向量上,計算這一維上的數據點的方差,經過化簡就是投影向量的轉置乘以原始數據的協方差矩陣再乘以投影向量,前提是這個投影向量是單位向量,然後我們令這個方差λ最大,得到最大方差時對應的那個投影向量就是第一個主成分,那麼這個向量如何求解呢?因為這個投影向量是單位向量,那麼等式兩邊左乘以投影向量,得到了λu=Σu,則說明這個投影向量u的方向其實就是這個協方差矩陣的特徵向量,那麼最大方差λ對應的就是Σ的最大特徵值對應的特徵向量的方向,就是第一主成分的方向,第二大特徵值對應的特徵向量就是第二主成分的方向

       數據的中心化並不是必要的,但是卻方便了表示和計算,PCA是計算樣本協方差矩陣的,因此中心化或者中心化並不改變特徵向量的方向或者特徵值的大小,因此即使不中心化,PCA一樣的起作用,然而如果你中心化數據了,那麼樣本的協方差矩陣的數學表示就會得以簡化,如果你的數據點就是你的數據矩陣的列,那麼協方差矩陣就表示為xx',多麼簡便啊!技術上,PCA是包括數據中心化這一步的,但是那隻是為了計算協方差矩陣,然後對協方差矩陣做特徵值分解,得到各個特徵值和特徵向量

      數據的歸一化也不是必須的,如果某些變數有很大或者很小的方差,那麼PCA將會傾向於這些大的方差的變數,例如如果你增加了一個變數的方差,也許這個變數對第一個主成分會從很小的影響到起主導性的作用,因此如果你想要PCA獨立於這樣的變化,歸一化可以做到,當然,如果你的變數在那個規模上很重要,那麼你可以不歸一化,歸一化在PCA中是很重要的,因為PCA是一個方差最大化的實驗,它就是投影你的原始數據到方差最大化的方向上

(1)如果原始的特徵是高度相關的,PCA的結果是不穩定的;

(2)新的特徵是原始特徵的線性組合,所以缺乏解釋性。

(3)原始數據不一定要是多元高斯分布的,除非你使用這個技術來預測性的建模去計算置信區間

       矩陣乘法的作用是線性變換,對一個向量乘以一個矩陣,可以使得這個向量發生伸縮、切變和旋轉。我們都知道對稱矩陣的特徵向量是相互正交的,給定一個對稱矩陣M,可以找到一些這樣的正交向量v,使得Mv=λv,即這個矩陣M對向量做了拉伸變換,λ是拉伸的倍數。那麼對於普通的矩陣呢,才能讓一個原來就是相互垂直的網格平面(orthogonal grid), 線性變換成另外一個網格平面同樣垂直呢?

       對於一個正交矩陣,其對應的變換叫做正交變換,這個變換的作用是不改變向量的尺寸和向量間的夾角。正交變換中的旋轉變換只是將變換向量用另一組正交基表示,在這個過程中並沒有對向量做拉伸,也不改變向量的空間位置,只是將原坐標系旋轉得到新的坐標系,那麼這個旋轉矩陣怎麼求呢?對於二維空間中的某個向量而言,其經過旋轉變換的結果就是從用一組坐標系表示到用另外一組坐標系表示,新的坐標系下的坐標各個分量相當於是原坐標系下的坐標的各個分量在新的坐標系的兩個正交基下的投影,或者是相當於將原來的二維向量經過旋轉到了新的坐標,因此相當於對向量左乘一個旋轉矩陣,求出這個矩陣就是旋轉變換的矩陣。剛剛說正交變換不改變向量的空間位置是絕對的,但是坐標是相對的,從原來的坐標系的基向量位置看這個二維向量,到從新的坐標系下看這個向量的坐標是變化的

      矩陣乘以一個向量的結果仍是同維數的一個向量。因此,矩陣乘法對應了一個變換,把一個向量變成同維數的另一個向量。

      對特定的向量,經過一種方陣變換,經過該變換後,向量的方向不變(或只是反向),而只是進行伸縮變化(伸縮值可以是負值,相當於向量的方向反向)?這就是相當於特徵向量的定義

     特徵向量的幾何含義是:特徵向量通過方陣A變換只進行伸縮,而保持特徵向量的方向不變。特徵值表示的是這個特徵到底有多重要,類似於權重,而特徵向量在幾何上就是一個點,從原點到該點的方向表示向量的方向。

      一個變換(或者說矩陣)的特徵向量就是這樣一種向量,它經過這種特定的變換後保持方向不變,只是進行長度上的伸縮而已。特徵值分解則是對旋轉和縮放兩種效應的歸並。因為特徵值分解中的A為方陣,顯然是不存在投影效應的。或者說,我們找到了一組基(特徵向量們),在這組基下,矩陣的作用效果僅僅是縮放。即矩陣A將一個向量從x這組基的空間旋轉到x這組基的空間上,並在每個方向進行了縮放,由於前後兩組基都是x,即沒有進行旋轉和投影。

      詳細分析特徵值分解的過程:首先由於特徵向量是正交的,特徵向量組成的矩陣是正交方陣,兩邊同時右乘以這個方陣的逆矩陣,可以得到矩陣A的表達式為A=UΛU',兩邊同時右乘一個向量,相當於對這個向量左乘矩陣A,對向量做旋轉或拉伸的變換。這個變換的過程分為三個映射:第一個是將向量x進行了旋轉,它將x用新的坐標系來表示;第二個變換是拉伸變化,對x的每一維分量都進行了特徵值大小的拉伸或縮小變換;第三個是對x做第一個變換的逆變換,因為是第一個矩陣的逆矩陣,也是旋轉變換。在第二個拉伸變換中,可以看出,如果矩陣A不是滿秩的,即有的特徵值為0,那麼這里相當於將x映射到了m維空間的子空間(m是矩陣A的維數m*m),此時矩陣A是一個正交投影矩陣,它將m維向量x映射到了它的列空間。如果A是二維的,那麼可以在二維平面上可以找到一個矩形,使得這個矩形經過A變換後還是矩形

      在特徵值分解中,矩陣A要求是方陣,那麼對於一個任意的矩陣m*n,能否找到一組正交基使得經過它變換後還是正交基?這就是SVD的精髓所在

      A=UΣU',我們來分析矩陣A的作用: 首先是旋轉 ,U的列向量是一組標准正交基,V也是,這表示我們找到了兩組基。A的作用是將一個向量從V這組正交基向量空間旋轉到U這組正交基向量空間; 其次是縮放 ,當V對向量x做了旋轉以後,相當於把向量x旋轉使其用V這組正交基表示坐標,然後Σ對向量x的每個分量做了縮放,縮放的程度就是Σ的主對角線上的元素,是奇異值; 最後是投影 ,如果U的維數小於V的維數,那麼這個過程還包含了投影

      現在的目的是找一組正交基,使得經過A矩陣變換後仍然是一組正交基,假設已經找到這樣一組正交基,那麼對這組正交基經過A變換,如何使其仍然是一組正交基呢?只要使得原來的正交基是A'A的特徵向量即可,|AVi|就是A'A的特徵值的開方,也就是奇異值,然後我們求AVi的單位向量Ui,這些Ui也都是正交的,那麼我們就找到了兩組正交基使得從V這組正交基變換到U這組正交基,V稱作右奇異向量,U稱作左奇異向量,AVi的模是奇異值,我們對V1,...,Vk進行擴充Vk+1,..,Vn(Vk+1,..,Vn是Ax=0的零空間)使得V1,...,Vn是n維空間中的一組正交基,對U1,...,Uk進行擴充Uk+1,...,Um,使得U1,..,Um是m維空間中的一組正交基,這個k值是矩陣A的秩,當A是滿秩時,分解後的矩陣相乘等於A,k越接近於n,則分解後的矩陣相乘結果越接近於A

      對矩陣A的映射過程分析:如果在n維空間中找到一個超矩形,使其都落在A'A的特徵向量的方向上,那麼經過A變換後的形狀仍為超矩形。Vi是A'A的特徵向量,Ui是AA'的特徵向量,也是AVi的單位向量,σ是A'A的特徵值的開方,根據這個公式可以計算出矩陣A的奇異值分解矩陣

       SVD是將一個相互垂直的網格變換到另外一個相互垂直的網格,按照上面的對於U,V的定位,可以實現用矩陣A將一個向量變換的過程,首先將向量x寫成用V這組正交基表示的形式,然後用矩陣A左乘向量x,並帶入AVi=σiUi,最後可以得到A的分解式,不是矩陣分解式,而是向量分解式,可以看出,如果有的奇異值很小甚至為0,那麼本來有n項相加,就最後只有奇異值不為0的項相加了,假如有k項相加,那麼k越接近於n最後A分解的結果越接近於A

(1)可以用來減少元素的存儲

(2)可以用來降噪:去掉奇異值小的項,奇異值小的我們認為是含有樣本重要信息很少,都是雜訊,因此就把這些信息少的給去掉了

(3)數據分析:比如說我們有一些樣本點用於建模,我們通過SVD將數據裡面的奇異值小的都去掉了,最後得到了分解後的數據,用來做分析,更加准確

       我們知道PCA裡面,我們對變數進行降維實際上就相當於對數據矩陣Am*n右乘一個矩陣Pn*r,就得到了Am*r,表示每個樣本的特徵向量只有r維的,和這個矩陣P代表了r個列向量是數據矩陣A的協方差矩陣n*n的最大的r的特徵值對應r個特徵向量,都是n維的。和SVD相比,將SVD的表達式兩邊同時右乘一個Vn*r,這樣等式右邊就Vr*n和Vn*r相乘是單位向量,因為Vn*r是A'A的r個特徵向量,是前r個不為0的特徵值對應的特徵向量,且由於A'A是對稱的,那麼各個特徵向量之間是正交的,這樣就得到了剛剛PCA推導出來的公式

       同理,對數據矩陣Am*n左乘一個矩陣Pr*m,就得到了Ar*n,表示每個特徵對應的樣本只有r個,矩陣P代表了r個m維向量,每個向量是讓每個特徵對應的樣本向量所要投影的方向向量。和SVD相比,將SVD兩邊同時左乘以一個矩陣Ur*m,就得到了Ar*n,即在行方向上進行了降維,等式右邊是Ur*m和Um*r相乘為單位向量,因為Um*r是AA'的特徵向量,是AA'的前r個不為0的特徵值對應的特徵向量,是m維的,由於AA'是對稱矩陣,那麼各個特徵向量之間是正交的,這樣就得到了剛剛PCA推導出來的公式

可以看出:

--PCA幾乎可以說是對SVD的一個包裝,如果我們實現了SVD,那也就實現了PCA了

--而且更好的地方是,有了SVD,我們就可以得到兩個方向的PCA,如果我們對A』A進行特徵值的分解,只能得到一個方向的PCA。

⑼ 降維的方法主要有

在分析高維數據時,降維(Dimensionality rection,DR)方法是我們不可或缺的好幫手。

作為數據去噪簡化的一種方法,它對處理大多數現代生物數據很有幫助。在這些數據集中,經常存在著為單個樣本同時收集數百甚至數百萬個測量值的情況。

由於「維度災難」(curse of dimensionality)的存在,很多統計方法難以應用到高維數據上。雖然收集到的數據點很多,但是它們會散布在一個龐大的、幾乎不可能進行徹底探索的高維空間中。

通過降低數據的維度,你可以把這個復雜棘手的問題變得簡單輕松。除去噪音但保存了所關注信息的低維度數據,對理解其隱含的結構和模式很有幫助。原始的高維度數據通常包含了許多無關或冗餘變數的觀測值。降維可以被看作是一種潛在特徵提取的方法。它也經常用於數據壓縮、數據探索以及數據可視化。

雖然在標準的數據分析流程中已經開發並實現了許多降維方法,但它們很容易被誤用,並且其結果在實踐中也常被誤解。

本文為從業者提供了一套有用的指南,指導其如何正確進行降維,解釋其輸出並傳達結果。

技巧1:選擇一個合適的方法

當你想從現有的降維方法中選擇一種進行分析時,可用的降維方法的數量似乎令人生畏。事實上,你不必拘泥於一種方法;但是,你應該意識到哪些方法適合你當前的工作。

降維方法的選擇取決於輸入數據的性質。比如說,對於連續數據、分類數據、計數數據、距離數據,它們會需要用到不同的降維方法。你也應該用你的直覺和相關的領域知識來考慮收集到的數據。通常情況下,觀測可以充分捕獲臨近(或類似)數據點之間的小規模關系,但並不能捕獲遠距離觀測之間的長期相互作用。對數據的性質和解析度的考慮是十分重要的,因為降維方法可以還原數據的整體或局部結構。一般來說,線性方法如主成分分析(Principal Component Analysis, PCA)、對應分析(Correspondence Analysis, CA)、多重對應分析(Multiple Correspondence Analysis, MCA)、經典多維尺度分析(classical multidimensional scaling, cMDS)也被稱為主坐標分析(Principal Coordinate Analysis, PCoA) 等方法,常用於保留數據的整體結構;而非線性方法,如核主成分分析(Kernel Principal Component Analysis, Kernel PCA)、非度量多維尺度分析(Nonmetric Multidimensional Scaling, NMDS)、等度量映射(Isomap)、擴散映射(Diffusion Maps)、以及一些包括t分布隨機嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)在內的鄰近嵌入技術,更適合於表達數據局部的相互作用關系。NE技術不會保留數據點之間的長期相互作用關系,其可視化報告中的非臨近觀測組的排列並沒有參考價值。因此,NE的圖表不應該被用於數據的大規模結構的推測

⑽ (十)PCA降維演算法

主成分分析(Principal components analysis,以下簡稱PCA) 是最重要的降維方法之一。在數據壓縮消除冗餘和數據噪音消除等領域都有廣泛的應用。它可以通過 線性變換 將原始數據變換為一組 各維度線性無關 的表示,以此來提取數據的主要線性分量。需要注意的是,PCA一般只用於線性數據降維,對於非線性數據一般採用KPCA。

降維就是找出數據里最主要的方面,用數據里最主要的方面來代替原始數據,並且希望損失盡可能的小。首先看幾張圖,有一個直觀的認識。
這裡面,把橢圓看成是數據:

基於這個知識,如果我們想對數據進行降維的話,比如圖1的兩個維度的數據降成一維,我們可以選擇保留X1這個維度的數據,因為在這個維度上蘊含的信息量更多。同理,圖2就可以保留x2這個維度的數據。但是,問題來了,圖3應該保留哪個維度的數據呢?答案是保留哪個維度都不好,都會丟失較大的信息量。但是,如果我們把圖3的坐標軸旋轉一下

比較容易看出,圖3在新的坐標軸下就能進行降維了。
所以,第一,變換正確的坐標軸(基);第二,保留方差最大的幾個軸作為主成分,這樣的做法就是PCA的核心思想。

從前文可以看出,理想的坐標軸是要求數據投在新坐標軸後,盡可能的分散,也就是數據的方差最大。然後每次選擇方差最大的軸作為主成分。
將前文2維降1維的例子擴展到更高維度,還有一個問題需要解決,考慮三維降到二維問題。與之前相同,首先我們希望找到一個方向使得投影後方差最大,這樣就完成了第一個方向的選擇,繼而我們選擇第二個投影方向。如果我們還是單純只選擇方差最大的方向,很明顯,這個方向與第一個方向應該是「幾乎重合在一起」,顯然這樣的維度是沒有用的,因為發生了大量的信息重復,起不到降維的作用,因此,應該有其他約束條件——就是正交。 PCA要求軸與軸之間是正交的,也就是不同維度的信息相關性為0。

在表示相關性中,相關系數與協方差是等價的,這里為了方便計算,使用協方差。下面是協方差公式,當協方差為0時,表示兩個特徵a,b線性不相關。

可以發現,當a=b時,協方差公式就變成了方差公式,方差是特殊的協方差。如果運氣更好,特徵a與b的平均數都為0,那麼公式會進一步簡化,得到:

所以說,為了計算方便,PCA降維前,一般都要求將所有特徵屬性中心化,即平均數為0。

因為PCA要求,同一軸內方差最大,不同軸協方差為0,如何把它們放在一塊呢?這里就引入了協方差矩陣的概念:
假設有m個樣本,每個樣本特徵維度是2,每個特徵都經過中心化處理:

我們發現協方差矩陣的對角線是方差,而且是對稱矩陣。方差和協方差都放在了一個矩陣裡面,只需對這個矩陣優化,使它除了對角線的其餘元素都為0,就可以了,美滋滋。

我們知道矩陣乘法,本質上就是一種線性變換的過程。而正交基矩陣的乘法,則是坐標系變換的過程。設原空間的數據為X,協方差矩陣為C,經過正交基矩陣P,得到了新坐標系下的數據Y,即Y=PX。那麼新坐標系下的協方差矩陣D是怎樣的呢?

我們發現,新舊空間的協方差矩陣是有關系的,而且都和變換矩陣P有關系。問題就轉化成了,能不能找到一個矩陣P,使得新空間下的協方差矩陣的非對角線元素都為0.

首先,原始數據矩陣X的協方差矩陣C是一個實對稱矩陣,它有特殊的數學性質:

也就是說,P就是是協方差矩陣的特徵向量單位化後按行排列出的矩陣,其中每一行都是C的一個特徵向量。 如果設P按照中特徵值的從大到小,將特徵向量從上到下排列,則用P的前K行組成的矩陣乘以原始數據矩陣X,就得到了我們需要的降維後的數據矩陣Y
其實,經過數學上的推導的,我們就可以知道,特徵值對應的特徵向量就是理想中想取得正確的坐標軸,而特徵值就等於數據在旋轉之後的坐標上對應維度上的方差。

由於協方差矩陣的維度和特徵相同,所以在進行特徵值分解時,得到的特徵值數目不會超過特徵的數目。

在學習線性代數時,我們都會學矩陣的特徵值分解,我們知道一個方陣A經過 特徵值分解 後就得到 特徵向量 特徵值 了。那麼,這個所謂的特徵值和特徵向量到底是什麼東西呢?
很多人都會說是那個經典的式子:

首先給出概念上的一種解釋。所謂的特徵值和特徵向量,最重要的是理解「特徵」這兩個字,特徵向量翻譯為eigen vector, eigen這個單詞來自德語,本義是在「本身固有的,本質的」。純數學的定義下,並不能很明白地理解到底為什麼叫做特徵值和特徵向量。但是舉一個應用例子,可能就容易理解多了。

在圖像處理中,有一種方法就是特徵值分解。我們都知道圖像其實就是一個像素值組成的矩陣,假設有一個100x100的圖像, 對這個圖像矩陣做特徵值分解,其實是在提取這個圖像中的特徵,這些提取出來的特徵是一個個的向量,即對應著特徵向量。而這些特徵在圖像中到底有多重要,這個重要性則通過特徵值來表示。 比如這個100x100的圖像矩陣A分解之後,會得到一個100x100的特徵向量組成的矩陣Q,以及一個100x100的只有對角線上的元素不為0的矩陣E,這個矩陣E對角線上的元素就是特徵值,而且還是按照從大到小排列的(取模,對於單個數來說,其實就是取絕對值),也就是說這個圖像A提取出來了100個特徵,這100個特徵的重要性由100個數字來表示,這100個數字存放在對角矩陣E中。 在實際中我們發現,提取出來的這100個特徵從他們的特徵值大小來看,大部分只有前20(這個20不一定,有的是10,有的是30或者更多)個特徵對應的特徵值很大,後面的就都是接近0了,也就是說後面的那些特徵對圖像的貢獻幾乎可以忽略不計。

我們知道,圖像矩陣 A 特徵值分解後可以得到矩陣 P 和矩陣 E (特徵值對角矩陣):

我們可以看到,在只取前20個特徵值和特徵向量對圖像進行恢復的時候,基本上已經可以看到圖像的大體輪廓了,而取到前50的時候,幾乎已經和原圖像無異了。明白了吧,這就是所謂的矩陣的特徵向量和特徵值的作用。

所以歸根結底,特徵向量其實反應的是矩陣A本身固有的一些特徵,本來一個矩陣就是一個線性變換,當把這個矩陣作用於一個向量的時候,通常情況絕大部分向量都會被這個矩陣A變換得「面目全非」,但是偏偏剛好存在這么一些向量,被矩陣A變換之後居然還能保持原來的樣子,於是這些向量就可以作為矩陣的核心代表了。於是我們可以說:一個變換(即一個矩陣)可以由其特徵值和特徵向量完全表述,這是因為從數學上看,這個矩陣所有的特徵向量組成了這個向量空間的一組基底。而矩陣作為變換的本質其實不就把一個基底下的東西變換到另一個基底表示的空間中么?

參考:
https://blog.csdn.net/hjq376247328/article/details/80640544
https://blog.csdn.net/hustqb/article/details/78394058
https://blog.csdn.net/woainishifu/article/details/76418176

閱讀全文

與降維思想方法如何應用相關的資料

熱點內容
聯想電腦打開麥克風在哪裡設置方法 瀏覽:969
如何測量水溫感測器方法 瀏覽:440
橋梁鋼腹板的安裝方法 瀏覽:743
中式棉襖製作方法圖片 瀏覽:71
五菱p1171故障碼解決方法 瀏覽:866
男士修護膏使用方法 瀏覽:554
電腦圖標修改方法 瀏覽:609
濕氣怎麼用科學的方法解釋 瀏覽:545
910除以26的簡便計算方法 瀏覽:813
吹東契奇最簡單的方法 瀏覽:712
對腎臟有好處的食用方法 瀏覽:106
電腦四線程內存設置方法 瀏覽:520
數字電路通常用哪三種方法分析 瀏覽:27
實訓課程的教學方法是什麼 瀏覽:533
苯甲醇乙醚鑒別方法 瀏覽:90
蘋果手機微信視頻聲音小解決方法 瀏覽:708
控制箱的連接方法 瀏覽:83
用什麼簡單的方法可以去痘 瀏覽:797
快速去除甲醛的小方法你知道幾個 瀏覽:811
自行車架尺寸測量方法 瀏覽:132