Ⅰ 降維的方法主要有
在分析高維數據時,降維(Dimensionality rection,DR)方法是我們不可或缺的好幫手。
作為數據去噪簡化的一種方法,它對處理大多數現代生物數據很有幫助。在這些數據集中,經常存在著為單個樣本同時收集數百甚至數百萬個測量值的情況。
由於「維度災難」(curse of dimensionality)的存在,很多統計方法難以應用到高維數據上。雖然收集到的數據點很多,但是它們會散布在一個龐大的、幾乎不可能進行徹底探索的高維空間中。
通過降低數據的維度,你可以把這個復雜棘手的問題變得簡單輕松。除去噪音但保存了所關注信息的低維度數據,對理解其隱含的結構和模式很有幫助。原始的高維度數據通常包含了許多無關或冗餘變數的觀測值。降維可以被看作是一種潛在特徵提取的方法。它也經常用於數據壓縮、數據探索以及數據可視化。
雖然在標準的數據分析流程中已經開發並實現了許多降維方法,但它們很容易被誤用,並且其結果在實踐中也常被誤解。
本文為從業者提供了一套有用的指南,指導其如何正確進行降維,解釋其輸出並傳達結果。
技巧1:選擇一個合適的方法
當你想從現有的降維方法中選擇一種進行分析時,可用的降維方法的數量似乎令人生畏。事實上,你不必拘泥於一種方法;但是,你應該意識到哪些方法適合你當前的工作。
降維方法的選擇取決於輸入數據的性質。比如說,對於連續數據、分類數據、計數數據、距離數據,它們會需要用到不同的降維方法。你也應該用你的直覺和相關的領域知識來考慮收集到的數據。通常情況下,觀測可以充分捕獲臨近(或類似)數據點之間的小規模關系,但並不能捕獲遠距離觀測之間的長期相互作用。對數據的性質和解析度的考慮是十分重要的,因為降維方法可以還原數據的整體或局部結構。一般來說,線性方法如主成分分析(Principal Component Analysis, PCA)、對應分析(Correspondence Analysis, CA)、多重對應分析(Multiple Correspondence Analysis, MCA)、經典多維尺度分析(classical multidimensional scaling, cMDS)也被稱為主坐標分析(Principal Coordinate Analysis, PCoA) 等方法,常用於保留數據的整體結構;而非線性方法,如核主成分分析(Kernel Principal Component Analysis, Kernel PCA)、非度量多維尺度分析(Nonmetric Multidimensional Scaling, NMDS)、等度量映射(Isomap)、擴散映射(Diffusion Maps)、以及一些包括t分布隨機嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)在內的鄰近嵌入技術,更適合於表達數據局部的相互作用關系。NE技術不會保留數據點之間的長期相互作用關系,其可視化報告中的非臨近觀測組的排列並沒有參考價值。因此,NE的圖表不應該被用於數據的大規模結構的推測
Ⅱ 降維是什麼意思
意思如下:
維,在幾何學上指空間獨立而互相正交的方位數,通常的空間有三維,平面或曲面有二維,直線或曲線只有一維。
在商業領域,企業的競爭力可以體現在若干個維度的累加上,這些維度包括核心技術、成本優勢、管理優勢、人才優勢、地域優勢等多個方面。
降維就是把競爭對手拉入到一個更低維度的競爭模式中,讓對手因為失去原有的競爭力而無所適從。
降維方法
降維方法分為線性和非線性降維,非線性降維又分為基於核函數和基於特徵值的方法。
1、線性降維方法:PCA 、ICA LDA、LFA、LPP(LE的線性表示)
2、非線性降維方法:
(1)基於核函數的非線性降維方法:KPCA 、KICA、KDA
(2)基於特徵值的非線性降維方法(流型學習):ISOMAP、LLE、LE、LPP、LTSA、MVU
方法介紹
1、LLE(Locally Linear Embedding)演算法(局部線性嵌入):
每一個數據點都可以由其近鄰點的線性加權組合構造得到。
演算法的主要步驟分為三步:
(1)尋找每個樣本點的k個近鄰點(k是一個預先給定的值);
(2)由每個樣本點的近鄰點計算出該樣本點的局部重建權值矩陣;
(3)由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值,定義一個誤差函數。
Ⅲ (十)PCA降維演算法
主成分分析(Principal components analysis,以下簡稱PCA) 是最重要的降維方法之一。在數據壓縮消除冗餘和數據噪音消除等領域都有廣泛的應用。它可以通過 線性變換 將原始數據變換為一組 各維度線性無關 的表示,以此來提取數據的主要線性分量。需要注意的是,PCA一般只用於線性數據降維,對於非線性數據一般採用KPCA。
降維就是找出數據里最主要的方面,用數據里最主要的方面來代替原始數據,並且希望損失盡可能的小。首先看幾張圖,有一個直觀的認識。
這裡面,把橢圓看成是數據:
基於這個知識,如果我們想對數據進行降維的話,比如圖1的兩個維度的數據降成一維,我們可以選擇保留X1這個維度的數據,因為在這個維度上蘊含的信息量更多。同理,圖2就可以保留x2這個維度的數據。但是,問題來了,圖3應該保留哪個維度的數據呢?答案是保留哪個維度都不好,都會丟失較大的信息量。但是,如果我們把圖3的坐標軸旋轉一下
比較容易看出,圖3在新的坐標軸下就能進行降維了。
所以,第一,變換正確的坐標軸(基);第二,保留方差最大的幾個軸作為主成分,這樣的做法就是PCA的核心思想。
從前文可以看出,理想的坐標軸是要求數據投在新坐標軸後,盡可能的分散,也就是數據的方差最大。然後每次選擇方差最大的軸作為主成分。
將前文2維降1維的例子擴展到更高維度,還有一個問題需要解決,考慮三維降到二維問題。與之前相同,首先我們希望找到一個方向使得投影後方差最大,這樣就完成了第一個方向的選擇,繼而我們選擇第二個投影方向。如果我們還是單純只選擇方差最大的方向,很明顯,這個方向與第一個方向應該是「幾乎重合在一起」,顯然這樣的維度是沒有用的,因為發生了大量的信息重復,起不到降維的作用,因此,應該有其他約束條件——就是正交。 PCA要求軸與軸之間是正交的,也就是不同維度的信息相關性為0。
在表示相關性中,相關系數與協方差是等價的,這里為了方便計算,使用協方差。下面是協方差公式,當協方差為0時,表示兩個特徵a,b線性不相關。
可以發現,當a=b時,協方差公式就變成了方差公式,方差是特殊的協方差。如果運氣更好,特徵a與b的平均數都為0,那麼公式會進一步簡化,得到:
所以說,為了計算方便,PCA降維前,一般都要求將所有特徵屬性中心化,即平均數為0。
因為PCA要求,同一軸內方差最大,不同軸協方差為0,如何把它們放在一塊呢?這里就引入了協方差矩陣的概念:
假設有m個樣本,每個樣本特徵維度是2,每個特徵都經過中心化處理:
我們發現協方差矩陣的對角線是方差,而且是對稱矩陣。方差和協方差都放在了一個矩陣裡面,只需對這個矩陣優化,使它除了對角線的其餘元素都為0,就可以了,美滋滋。
我們知道矩陣乘法,本質上就是一種線性變換的過程。而正交基矩陣的乘法,則是坐標系變換的過程。設原空間的數據為X,協方差矩陣為C,經過正交基矩陣P,得到了新坐標系下的數據Y,即Y=PX。那麼新坐標系下的協方差矩陣D是怎樣的呢?
我們發現,新舊空間的協方差矩陣是有關系的,而且都和變換矩陣P有關系。問題就轉化成了,能不能找到一個矩陣P,使得新空間下的協方差矩陣的非對角線元素都為0.
首先,原始數據矩陣X的協方差矩陣C是一個實對稱矩陣,它有特殊的數學性質:
也就是說,P就是是協方差矩陣的特徵向量單位化後按行排列出的矩陣,其中每一行都是C的一個特徵向量。 如果設P按照中特徵值的從大到小,將特徵向量從上到下排列,則用P的前K行組成的矩陣乘以原始數據矩陣X,就得到了我們需要的降維後的數據矩陣Y 。
其實,經過數學上的推導的,我們就可以知道,特徵值對應的特徵向量就是理想中想取得正確的坐標軸,而特徵值就等於數據在旋轉之後的坐標上對應維度上的方差。
由於協方差矩陣的維度和特徵相同,所以在進行特徵值分解時,得到的特徵值數目不會超過特徵的數目。
在學習線性代數時,我們都會學矩陣的特徵值分解,我們知道一個方陣A經過 特徵值分解 後就得到 特徵向量 和 特徵值 了。那麼,這個所謂的特徵值和特徵向量到底是什麼東西呢?
很多人都會說是那個經典的式子:
首先給出概念上的一種解釋。所謂的特徵值和特徵向量,最重要的是理解「特徵」這兩個字,特徵向量翻譯為eigen vector, eigen這個單詞來自德語,本義是在「本身固有的,本質的」。純數學的定義下,並不能很明白地理解到底為什麼叫做特徵值和特徵向量。但是舉一個應用例子,可能就容易理解多了。
在圖像處理中,有一種方法就是特徵值分解。我們都知道圖像其實就是一個像素值組成的矩陣,假設有一個100x100的圖像, 對這個圖像矩陣做特徵值分解,其實是在提取這個圖像中的特徵,這些提取出來的特徵是一個個的向量,即對應著特徵向量。而這些特徵在圖像中到底有多重要,這個重要性則通過特徵值來表示。 比如這個100x100的圖像矩陣A分解之後,會得到一個100x100的特徵向量組成的矩陣Q,以及一個100x100的只有對角線上的元素不為0的矩陣E,這個矩陣E對角線上的元素就是特徵值,而且還是按照從大到小排列的(取模,對於單個數來說,其實就是取絕對值),也就是說這個圖像A提取出來了100個特徵,這100個特徵的重要性由100個數字來表示,這100個數字存放在對角矩陣E中。 在實際中我們發現,提取出來的這100個特徵從他們的特徵值大小來看,大部分只有前20(這個20不一定,有的是10,有的是30或者更多)個特徵對應的特徵值很大,後面的就都是接近0了,也就是說後面的那些特徵對圖像的貢獻幾乎可以忽略不計。
我們知道,圖像矩陣 A 特徵值分解後可以得到矩陣 P 和矩陣 E (特徵值對角矩陣):
我們可以看到,在只取前20個特徵值和特徵向量對圖像進行恢復的時候,基本上已經可以看到圖像的大體輪廓了,而取到前50的時候,幾乎已經和原圖像無異了。明白了吧,這就是所謂的矩陣的特徵向量和特徵值的作用。
所以歸根結底,特徵向量其實反應的是矩陣A本身固有的一些特徵,本來一個矩陣就是一個線性變換,當把這個矩陣作用於一個向量的時候,通常情況絕大部分向量都會被這個矩陣A變換得「面目全非」,但是偏偏剛好存在這么一些向量,被矩陣A變換之後居然還能保持原來的樣子,於是這些向量就可以作為矩陣的核心代表了。於是我們可以說:一個變換(即一個矩陣)可以由其特徵值和特徵向量完全表述,這是因為從數學上看,這個矩陣所有的特徵向量組成了這個向量空間的一組基底。而矩陣作為變換的本質其實不就把一個基底下的東西變換到另一個基底表示的空間中么?
參考:
https://blog.csdn.net/hjq376247328/article/details/80640544
https://blog.csdn.net/hustqb/article/details/78394058
https://blog.csdn.net/woainishifu/article/details/76418176
Ⅳ 什麼是降維打擊,怎麼降維打擊
1、降維攻擊出自中國科幻作家劉慈欣的科幻小說《三體Ⅲ·死神永生》,從三維降至二維的攻擊由二向箔觸發。
2、降維打擊指的是,對三維宇宙中某個區域(通常是敵對文明所在的區域)發射一個很小的二維空間碎塊,碎塊用一種力場封裝,力場蒸發以後二維空間與三維空間接觸以後,就會使三維空間向二維空間跌落,使整個空間跌落到二維。
3、降維攻擊有別於降級攻擊,兩者的區別有點像量與質的區別。如果有人說降級攻擊,最多是說兩者的水平不在一個層次;但如果說降維打擊,則代表兩者已經不是在一個共同的認知范圍內。
4、降維打擊的意思就是和競爭對手在一個維度上進行競爭,贏得競爭勝利的難度比較大,則自己主動降低一個競爭維度,實現以小打大,以弱勝強的一種競爭策略。
例如在一線城市成功比較難,選擇回到老家在二三線城市尋找發展機會。在全國市場上很難取得競爭勝利,主動退縮到某個區域市場,做不大海里的蝦米,而去做池塘里的鯨魚。
(4)降維方法都用於哪些領域擴展閱讀:
降維打擊常用環境:
1、IT界,有這樣一個說法一股悲觀情緒在互聯網業蔓延,一群自稱為「心理陰暗」的從業者,糾結於那些沒有底線的競爭、大公司的抄襲、小公司不再創新、最終生態的破壞,可參照《降維攻擊與世界下墜》。
2、文化界,兩個人打筆仗,打到最後,往往文章的內容變成爭論「他是人,他不是人」這種可笑的攻擊上,這種也叫降維攻擊。比如,有人曾經打筆仗,直接說出了:「文壇是個屁。」,直接降級攻擊KO了某個作家。
Ⅳ 常用降維方法之PCA 和 LDA
PCA本質上是將方差最大的方向作為主要特徵,並且在各個正交方向上將數據「離相關」,也就是讓它們在不同正交方向上沒有相關性。而方差最大的那個維度是主成分。
PCA是比較常見的線性降維方法,通過線性投影將高維數據映射到低維數據中,所期望的是在投影的維度上,新特徵自身的方差盡量大,方差越大特徵越有效,盡量使產生的新特徵間的相關性越小。
PCA演算法的具體操作為對所有的樣本進行中心化操作,計算樣本的協方差矩陣,然後對協方差矩陣做特徵值分解,取最大的n個特徵值對應的特徵向量構造投影矩陣。
再舉個栗子:
下面舉一個簡單的例子,說明PCA的過程。
假設我們的數據集有10個二維數據(2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9),需要用PCA降到1維特徵。
首先我們對樣本中心化,這里樣本的均值為(1.81, 1.91),所有的樣本減去這個均值向量後,即中心化後的數據集為(0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01)。
現在我們開始求樣本的協方差矩陣,由於我們是二維的,則協方差矩陣為:
對於我們的數據,求出協方差矩陣為:
求出特徵值為(0.0490833989, 1.28402771),對應的特徵向量分別為:
由於最大的k=1個特徵值為1.28402771,對於的k=1個特徵向量為 則我們的W=
我們對所有的數據集進行投影 得到PCA降維後的10個一維數據集為:(-0.827970186, 1.77758033, -0.992197494, -0.274210416, -1.67580142, -0.912949103, 0.0991094375, 1.14457216, 0.438046137, 1.22382056)
在上面的PCA演算法中,我們假設存在一個線性的超平面,可以讓我們對數據進行投影。但是有些時候,數據不是線性的,不能直接進行PCA降維。這里就需要用到和支持向量機一樣的核函數的思想,先把數據集從n維映射到線性可分的高維N>n,然後再從N維降維到一個低維度n', 這里的維度之間滿足n'<n<N。
使用了核函數的主成分分析一般稱之為核主成分分析(Kernelized PCA, 以下簡稱KPCA。假設高維空間的數據是由n維空間的數據通過映射ϕ產生。
則對於n維空間的特徵分解:
映射為:
通過在高維空間進行協方差矩陣的特徵值分解,然後用和PCA一樣的方法進行降維。一般來說,映射ϕ不用顯式的計算,而是在需要計算的時候通過核函數完成。由於KPCA需要核函數的運算,因此它的計算量要比PCA大很多。
這里對PCA演算法做一個總結。作為一個非監督學習的降維方法,它只需要特徵值分解,就可以對數據進行壓縮,去噪。因此在實際場景應用很廣泛。為了克服PCA的一些缺點,出現了很多PCA的變種,比如第六節的為解決非線性降維的KPCA,還有解決內存限制的增量PCA方法Incremental PCA,以及解決稀疏數據降維的PCA方法Sparse PCA等。
PCA演算法的主要優點有:
LDA(線性判別分析,Linear Discriminant Analysis)是另一種常用的降維方法,它是有監督的。LDA在模式識別領域(比如人臉識別,艦艇識別等圖形圖像識別領域)中有非常廣泛的應用,因此我們有必要了解下它的演算法原理。這里需要注意的是,此處的LDA與文本主題模型中的LDA(隱含狄利克雷分布,Latent Dirichlet Allocation)並不相同,他是一種處理文檔的主題模型。
LDA是一種監督學習的降維技術,也就是說它的數據集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。
LDA的思想可以用一句話概括,就是「投影後類內方差最小,類間方差最大」。
什麼意思呢? 我們要將數據在低維度上進行投影,投影後希望每一種類別數據的投影點盡可能的接近,而不同類別的數據的類別中心之間的距離盡可能的大。
可能還是有點抽象,我們先看看最簡單的情況。假設我們有兩類數據 分別為紅色和藍色,如下圖所示,這些數據特徵是二維的,我們希望將這些數據投影到一維的一條直線,讓每一種類別數據的投影點盡可能的接近,而紅色和藍色數據中心之間的距離盡可能的大。
以上就是使用LDA進行降維的演算法流程。實際上LDA除了可以用於降維以外,還可以用於分類。一個常見的LDA分類基本思想是假設各個類別的樣本數據符合高斯分布,這樣利用LDA進行投影後,可以利用極大似然估計計算各個類別投影數據的均值和方差,進而得到該類別高斯分布的概率密度函數。當一個新的樣本到來後,我們可以將它投影,然後將投影後的樣本特徵分別帶入各個類別的高斯分布概率密度函數,計算它屬於這個類別的概率,最大的概率對應的類別即為預測類別。
LDA用於降維,和PCA有很多相同,也有很多不同的地方,因此值得好好的比較一下兩者的降維異同點。
這點可以從下圖形象的看出,在某些數據分布下LDA比PCA降維較優。
當然,某些某些數據分布下PCA比LDA降維較優,如下圖所示:
LDA演算法既可以用來降維,又可以用來分類,但是目前來說,主要還是用於降維。在我們進行圖像識別圖像識別相關的數據分析時,LDA是一個有力的工具。下面總結下LDA演算法的優缺點。
LDA演算法的主要優點有:
參考文章: 劉建平老師的博客園
Ⅵ 第十五章 降維
第二種類型的無監督學習問題,叫做降維。
這里有一些,你想要使用降維的原因:
① 數據壓縮
數據壓縮不僅能對數據進行壓縮,使得數據佔用較小的內存或硬碟空間。它還能對學習演算法進行加速
② 可視化數據
但首先,讓我們談論降維是什麼。舉個例子,假設我們收集了一個數據集,它有很多很多的特徵,我只在這里繪制兩個特徵。
假如,對我們來說,這兩個特徵,x_1 是某物體的厘米長度,另一個特徵x_2 是同一物體的英寸長度。這實際上是一種高度冗餘的表示。
對於這兩個單獨的特徵 x_1 和 x_2,它們表示的都是基本長度。或許我們想做的是,把數據減少到一維。只有一個數字來測量某物體的長度。
這個例子可能有點牽強,這與我在行業中所見的完全是兩回事。
如果你有幾百個或成千上萬的特徵,你很容易就會迷失,自己到底有哪些特徵。有時可能有幾個不同的工程團隊,也許一個工程隊給你二百個特徵,第二工程隊給你另外三百個的特徵,第三工程隊給你五百個特徵。最後加起來你就有一千多個特徵,這時就很難去了解某個特徵是從哪個小組得到的,這時就比較容易產生這與高度冗餘的特徵。
並且,如果這里的 厘米 和 英寸 長度都被四捨五入了,這就是這個例子為什麼不是完美地落在一條直線上。
👆另一個例子:如果你想要調查或做這些不同飛行員的測試——你可能有兩個特徵:x_1 是他們的技能(直升機飛行員);x_2 表示他們是否喜歡飛行。也許這兩個特徵將高度相關。你真正關心的可能是這條紅線的方向。它是一個不同的特徵,用來真正測量飛行員能力的特徵。
還是那句話,如果特徵高度冗餘,那麼你可能真的需要降低維數
如果我們將數據從二維(2D)降到一維(1D),究竟意味著什麼?
現在我把不同的樣本,用不同的顏色標出。在這時,通過降維,我的意思是我想找出這條看起來大多數樣本所在的直線(綠色)。所有數據都投影到這條直線上,通過這種做法,我能夠測量出每個樣本在線上的位置,現在我能做的是建立新特徵 z_1。我們只需要一個數,就能確定z_1所在的位置,也就是說z_1是一個全新的特徵。它能夠指定綠線上每一個點位置。
之前的樣本 x_1,它是一個二維向量。在降維後,我們可用一維向量(即,實數)z_1表示第一個樣本。
總結一下:
如果我們允許一個近似於原始數據集的數據集, 該數據集通過投射原始樣本數據到這個綠色線上而得到。那麼,我們只需要一個實數,就能指定點在直線上的位置。所以,我能夠只用一個數字表示樣本的位置,通過把這些原始樣本都投射到綠線上(這是對原始數據集的一種近似,因為我將這些樣本都投射到了同一條直線上)。這樣(樣本從用二維表示,變為用一個實數表示)就能把內存/數據空間的需求減半。
另外,更有趣也更重要的是。在之前的視頻中,我們將能夠了解到,這么做能夠讓學習演算法運行得更快。
另一個例子,將數據從 3D 降到 2D。
降維的第二個應用:可視化數據
在許多及其學習問題中,如果我們能將數據可視化,我們便能尋找到一個更好的解決方案,降維可以幫助我們。
假使我們有關於許多不同國家的數據,每一個特徵向量都有50個特徵(如GDP,人均GDP,平均壽命等)。如果要將這個50維的數據可視化是不可能的。使用降維的方法將其降至2維,我們便可以將其可視化了。
比如,你可能發現,橫軸(z_1)大致相當於國家的總體規模或者國家的總體經濟活躍程度,所以橫軸代表的是GDP、一個國家的經濟規模。而縱軸大致對應於人均GDP。你可能會發現,這50個 特徵,實際上只偏離為兩個主要維度。(這樣做的問題在於,降維的演算法只負責減少維數,新產生的特徵的意義就必須由我們自己去發現了)
一個特殊的演算法:PAC,也叫做「主成分分析」。它可以用來做降維操作,可以用來實現我們之前所提到的壓縮數據。
主成分分析(PCA)是最常見的降維演算法。
在PCA中,我們要做的是找到一個方向向量(Vector direction),當我們把所有的數據都投射到該向量上時,我們希望投射平均均方誤差能盡可能地小。方向向量是一個經過原點的向量,而投射誤差是從特徵向量向該方向向量作垂線的長度。
PCA 問題的公式描述。換句話說,我們會試著用公式准確地表述PCA的用途。
所以,正式的說,PCA做的就是,它會找到一個低維平面(該例子中,是條直線),然後將數據投影在上面,使這些藍色小線段(即,點到平面的距離)長度平方最小。這個藍色小線段的距離,有時也稱投影誤差。
所以,PCA 所做的就是,它會試圖尋找一個投影平面對數據進行投影,使得能最小化這個距離。
另外在應用PCA 之前,常規的做法是,先進行 均值歸一化,使得特徵量 x_1 和 x_2 其均值為0。並且其數值在可比較的范圍之內。(本例中,我們已經處理過了)
後面會詳細講,PCA背景下的均值歸一化問題的細節。
PCA做的就是,如果想將數據從二維降到一維。我們要試著找一個方向向量,使得向量 u^(i) ∈ R^n (本例中, n = 2,即,u^(i) ∈ R^2)投影到這個方向向量上的投影誤差最小。
更通常的情況是:我們會有N維數據,並且我們想其降到K維,這種情況下,我們不只是想找單個向量來對數據進行投影,而是想尋找K個方向來對數據進行投影,來最小化投影誤差。(我們要做的是,將數據投影到這 k 個向量展開的線性子空間上)
u^(1) 和 u^(2) 兩個向量一起定義了一個二維平面。我們將我們的數據投影到上面。
因此,PCA做的是其視圖找出一條直線,或一個平面,或其他維的空間,然後對數據進行投影,以最小化平方投影。90度投影,或正交投影的誤差。
事實上,PCA不是線性回歸,盡管看上去有一些相似,但是它們確實是兩種不同的演算法。
上圖中,左邊的是線性回歸的誤差(垂直於橫軸投影),右邊則是主要成分分析的誤差(垂直於紅線投影)。
主成分分析最小化的是投射誤差(Projected Error),而線性回歸嘗試的是最小化預測誤差。線性回歸的目的是預測結果,而主成分分析不作任何預測。
PCA將n個特徵降維到k個,可以用來進行數據壓縮,如果100維的向量最後可以用10維來表示,那麼壓縮率為90%。同樣圖像處理領域的KL變換使用PCA做圖像壓縮。但PCA 要保證降維後數據的特性損失最小。
PCA技術的一大好處是對數據進行降維的處理。我們可以對新求出的「主元」向量的重要性進行排序,根據需要取前面最重要的部分,將後面的維數省去,可以達到降維從而簡化模型或是對數據進行壓縮的效果。同時最大程度的保持了原有數據的信息。
PCA技術的一個很大的優點是,它是完全無參數限制的。在PCA的計算過程中完全不需要人為的設定參數或是根據任何經驗模型對計算進行干預,最後的結果只與數據相關,與用戶是獨立的。
但是,這一點同時也可以看作是缺點。如果用戶對觀測對象有一定的先驗知識,掌握了數據的一些特徵,卻無法通過參數化等方法對處理過程進行干預,可能會得不到預期的效果,效率也不高。
主成分分析演算法
在使用PCA之前,首先要做的是,進行數據的預處理。
給定一個交易例子的集合,
預處理:
① 一定要做的一個事情是:執行均值歸一化。
② 依據於你的數據,可能也要進行特徵縮放。
這兩個過程,即在我們有監督學習中,均值標准化過程 與 特徵縮放的過程 是相似的。實際上,確實是相同的過程,除了我們現在是對未標記數據 x^(1) 到 x^(m) 做 均值標准化過程 與 特徵縮放過程。
接下來,如果不同的特徵有非常不相同的縮放,例如 x_1 是房子的尺寸, x_2 是卧室的數量。我們縮放每一個特徵,一個相對的價值范圍。
相對於之前的監督學習:x_j^(i) = ( (x_j^(i) - u_j) / s_j )。 s_j = x_j 預測的最大值 - 最小值。更普遍的,s_j 是特徵 j 的標准偏差。
做完這一系列的數據預處理之後,我們來看PCA演算法
我們能從先前的視頻看到,PCA所做的就是,它嘗試著找到一個 低維 子空間,對數據進行投影,我們希望找到一個向量 u^(k) (比如,從 N 維將到 K 維),是的數據到這個向量的投影誤差平方和最小。
給個提示,是什麼減少了數據平均值的維度??
對於左邊的例子,我們給定的樣本 x^(i) 在 R^2 中(即,兩個維度,x_1^(i), x_2^(i))。我們要做的就是在 R 中(一維)找到一個數據集 z^(i) 來代表我們原始的樣本數據。所以,我們的均值從 2維 降到 1維。
所以,PCA要做的就是,要想出一個方法計算兩個東西:
① 計算向量 u^(k)
② 計算 z^(i)
1,首先,我們要做的是計算這個「協方差(covariance matrix)」,通常用希臘字母 Σ。
① 希臘字母 Σ ,表示矩陣
② 累加和標記
『 [U, S, V] = svd(Sigma); 』:計算 矩陣U = S 和 V 協方差矩陣sigma。
再補充一些細節:這個 協方差矩陣sigma,將會是一個 n*n 的矩陣。
矩陣U 的每一列就是 u^(i) ,即,u ∈ R^(n*n) 。所以,我們想減少數據的維度從 n 維 到 k 維,我們需要做的是提取前 k 個向量。u^1, … , u^k ,這給了我們 k 個方向(構成了一個 k維度的 子空間),即,我們想要投影數據的方向。
有了 u^k 後,我們要做的就是:x ∈ R^n ——> z ∈R^k
我們稱 矩陣U 為 U_rece(n*k 矩陣)。這是 矩陣U 被降維的版本,我們將用它來對我們的數據進行降維。
z = (U_rece)^T * x
(U_rece)^T : k * n 矩陣
x 是 「n 維度向量(即,n * 1)」
所以,z 是 「k 維度向量」
在PCA演算法中,我們將N維特徵減少為K維特徵。這個數字 K 是PCA演算法的一個參數。這個數 K 也被稱為 主成分的數字。或者,我們保留的主成分的數字。
在一般情況下,如何考慮選取這個參數 K ?
我們希望在平均均方誤差與訓練集方差的比例盡可能小的情況下選擇盡可能小的k值。
如果我們希望這個比例小於1%,就意味著原本數據的方差有99%都保留下來了,如果我們選擇保留95%的方差,便能非常顯著地降低模型中特徵的維度了。
99%、95%、90% 都是一些具有代表性的范圍。
對於許多數據集,你會驚訝,為了保留99%的方差,你可以減少維度,但仍然保留大部分的方差。因為對於真實世界的數據來說,許多特徵都是高度相關的。因此,結果證明:對數據進行很多壓縮,仍然可以保留99%的方差。
那麼該如何實現了?
但是,👆這個方法非常低效。
在以前的視頻中,我談論PCA作為壓縮演算法。在那裡你可能需要把1000維的數據壓縮100維特徵,或具有三維數據壓縮到一二維表示。所以,如果這是一個壓縮演算法,應該能回到這個壓縮表示,回到你原有的高維數據的一種近似。
所以,給定的z (i),這可能100維,怎麼回到你原來的表示x (i),這可能是1000維的數組?
我們可以把👆這個過程叫做:原始數據的重構。
我們常常使用PCA演算法對監督學習演算法進行加速。
假使我們正在針對一張 100×100像素的圖片進行某個計算機視覺的機器學習,即總共有10000 個特徵。
最後要注意的一點是,PCA所做的是定義一個從 x 到 z 的映射。這個從 x 到 z 的映射只能通過在訓練集上運行PCA來得到。這個映射(注意,這里說的是映射,而不是PCA演算法)也能夠被應用在 交叉校驗 和 測試集 上的其他樣本中。(即,如果我們有交叉驗證集合測試集,也採用對訓練集學習而來的U_rece。 )
總結一下:當在運行PCA時,僅僅在訓練集中的數據上運行,不能用在交叉驗證和測試集上。但,當你定義了 x 到 z 的映射後,你可以應用這個映射到你的交叉驗證集和你的測試集。
順便說一下,實際上,在許多問題中我們確實能減少數據的維度,大概可以減少到 1/5 或者 1/10,而且仍然保留大部分的方差,幾乎不影響性能。而且使用較低的維度數據,我們的學習演算法通常可以運行的更快。
錯誤的主要成分分析情況:一個常見錯誤使用主要成分分析的情況是,將其用於減少過擬合(減少了特徵的數量)。這樣做非常不好,不如嘗試正則化處理。原因在於PCA不需要使用標簽y,它僅僅使用輸入的 x^(i) ,使用它去尋找低緯數據,來近似你的數據。因此PCA會舍掉一些信息,它扔掉或減少數據的維度,不關心 y 值是什麼。所以如果99%的方差信息被保留,你保留了大部分的方差,那麼這樣使用PCA是可以的。但是它也可能會丟掉一些有價值的信息。
事實證明,只使用正則化來防止過擬合常常會給你帶來更好的結果。因為,當你應用 線性回歸 或者 logistic回歸 或其他的一些方法,進行正則化時,這個最小化問題,實際上是知道 y 的值的,所以不太可能損失掉一些有價值的信息。而PCA不使用標簽,更有可能丟失一些有價值的信息。
因此,總結一下,使用PCA比較好的方式,是用它來提高學習演算法的速度。但是使用PCA來防止過擬合,這不是PCA的一個好的運用。要使用正則化來防止過擬合。
另一個常見的錯誤是,默認地將主要成分分析作為學習過程中的一部分,這雖然很多時候有效果,最好還是從所有原始特徵開始,只在有必要的時候(演算法運行太慢或者佔用太多內存)才考慮採用主要成分分析。