導航:首頁 > 研究方法 > 主成分分析方法屬於什麼分析方法

主成分分析方法屬於什麼分析方法

發布時間:2022-10-21 00:33:45

如何理解主成分分析法 (PCA)

什麼是主成分分析法

主成分分析法: 英文全名 Principal Component Analysis 簡稱 PCA ,由名字就可以看出來,這是一個挑重點分析的方法。主成分分析 法是通過 恰當 的數學變換 ,使新變數—— 主成分成為原變數 的線性 組合 ,並選 取少數 幾個在變差總信息量中 比例較 大的主成分來分析 事物 的一種方法 。 主成分在變差信息量中的比例越大 , 它在綜合評價 中的作用就越大

思想: 整體思想就是化繁為簡,抓住問題關鍵,也就是降維思想。當然,既然是抓住關鍵,那麼自然就是以犧牲精度為代價。

解決問題: 因為每個變數都在不同程度上反映了所研究問題的某些信息,並且指標之間彼此有一定的相關性,因而所得的統計數據反映的信息在一定程度上有重疊。 在用統計方法研究多變數問題時,變數太多會增加計算量和分析問題的復雜性。

人們希望在進行定量分析過程中,涉及的變數較少,得到的信息量較多。為了盡可能的減少冗餘和噪音,一般情況可以從相關變數中選擇一個,或者把幾個相關變數綜合為一個變數作為代表,用少數變數來代表所有變數。

原理: 因為評估所涉及的眾多變數之間既然有一定的相關性,就必然存在著起支配作用的因素。根據這一點,通過對原始變數和相關矩陣的內部結構的關系研究 ,找出影響目標變數某一要素的幾個綜合指標,使綜合指標為原來變數的線性擬合。 這樣,綜合指標不僅保留了原始變數的主要信息,且彼此間不相關,又比原始變數具有某些更優越的性質,使得我們在研究復雜目標變數評估問題時,容易抓住主要矛盾。

形象理解

比如,某學籍數據,有兩列 M 和 F ,其中M 列的取值是如果學生為男性,則取值為 1 如果為女性,則取值為 0 。F 列,如果為男性則取值為 0 否則取值為一。 由這兩種關系可以知道,這兩列數據是強相關的。只要保留一列,就能夠完全還原另外一列。  當然,不要局限於數據刪除,還有數據轉換,刪除可以理解為在此方法中的一種方式。

當然,上述情況在真實數據中是不可能出現的。這里只是藉此介紹一下這種思維。真實情況中, 我們需要考慮刪除哪一列信息可以使得損失最小?或者是通過變換數據就能使得損失信息更小?又如何度量信息的丟失量?原始數據的處理降維有哪些步驟?

坐標示例:

我們來看下面這張圖,這是一個橢圓的點陣。橢圓上面有一個長軸和一個短軸。現在我們要表示點陣的主要變化趨勢,就可以以長短軸(或者平行於長短軸)構建新的坐標系。在極端的情況下,短軸變成了一個點,那麼長軸就能代表這個點陣的趨勢和特點。這樣,一個二維數據,就變成了一維。

基礎知識儲備

內積與投影:

內積運算,將兩個向量映射為一個實數。其幾何意義就是 向量 A ,在向量 B 的投影長度。(下圖是以二維向量為例,多維空間依然是如此。)

上式中,B 為單位向量

基 :

同樣以上圖 B為例,B向量為(3,2)其表示的其實為在 X 軸的投影值為3 ,在Y軸的投影值 為 2 。這其實加入了一個隱含信息,就是本坐標軸 分別是以 X Y軸為方向的單位向量。這里的 X Y 軸其實就是我們所提到的 基。只不過一般默認為 (1,0)和(0,1)

所以呢,要描述一組向量,首先是要確定一組基。然後求這個向量在這組基中的投影即可。對基的要求是線性無關,並不一定非要正交。但是因為正交基有較好的性質,所以一般情況我們都是用正交基。

基變換

上面我們了解了基的原理。如果同樣把(3,2)放到新基裡面描述,那就是把向量和新基相乘即可。

如果是在描述中,有多個基呢?那就是與基陣相乘。

如何實現降維

上面的思路,我們都清楚了。那麼我們如何通過基變換來降維呢?這里我們來舉個例子。假設我們有一個矩陣如下。

為了處理方面,我們現在把每個欄位都減去欄位平均值,那麼就變成了如下所示

表示在坐標上如下圖

那麼,我們現在想用一維坐標來表示,而且要求盡可能的保留原來的信息,我們需要如何選擇方向(基)呢?(二維降一維)

思路就是,希望投影後的值盡可能的分散,避免重合。

協方差:

在概率論與統計學中,協方差用於衡量兩個隨機變數的聯合變化程度。而方差則是協方差的一種特殊情況,即變數與自身的協方差。

期望:在概率論和統計學中,一個離散性隨機變數的期望值(或數學期望,亦簡稱期望,物理學中稱為期待值)是試驗中每次可能的結果乘以其結果概率的總和。比如骰子的期望值為 1* 1/6 +2*1/6 + …+ 6*1/6 = 3.5

協方差公式為:

其中,E(X) = u E(Y) = v

協方差表示的是兩個變數的總體的誤差 ,這與只表示一個變數誤差的方差不同。 如果兩個變數的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那麼兩個變數之間的協方差就是正值。 如果兩個變數的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。如果X 與Y 是統計獨立的,那麼二者之間的協方差就是0

流程和步驟

第一步:標准化

把輸入數據集變數的范圍標准化,以使它們中的每一個均可以大致成比例的分析。簡單說,就是要把存在較大差異的數據轉變為可比較的數據。比如把 0-100 的變數轉化為 0-1 的變數。這一步一般可以通過減去平均值,再除以每個變數值的標准差來完成。標准差公式如下

那麼常用的標准化指標變數公式可為

第二步:協方差矩陣計算

這一步的目的是:了解輸入數據集的變數是如何相對於平均值變化的。或者換句話說,是為了查看它們之間是否存在任何關系。因為有時候,變數間高度相關是因為它們包含大量的信息。因此,為了識別這些相關性,我們進行協方差矩陣計算。

協方差矩陣是p×p對稱矩陣(其中p是維數),其所有可能的初始變數與相關聯的協方差作為條目。

好了,現在我們知道協方差矩陣只不過是一個表,匯總了所有可能配對的變數間相關性。下面就是計算協方差矩陣的特徵向量和特徵值,以篩選主要成分。

第三步:計算協方差矩陣的特徵向量和特徵值,用以識別主成分

特徵向量和特徵值都是線性代數概念,需要從協方差矩陣計算得出,以便確定數據的主成分。開始解釋這些概念之前,讓我們首先理解主成分的含義

主成分是由初始變數的線性組合或混合構成的新變數。該組合中新變數(如主成分)之間彼此不相關,且大部分初始變數都被壓縮進首個成分中。所以,10維數據會顯示10個主成分,但是PCA試圖在第一個成分中得到盡可能多的信息,然後在第二個成分中得到盡可能多的剩餘信息,以此類推。

例如,假設你有一個10維數據,你最終將得到的內容如下面的屏幕圖所示,其中第一個主成分包含原始數據集的大部分信息,而最後一個主成分只包含其中的很少部分。因此,以這種方式組織信息,可以在不丟失太多信息的情況下減少維度,而這需要丟棄攜帶較少信息的成分。

在這里,方差和信息間的關系是,線所承載的方差越大,數據點沿著它的分散也越大,沿著線的散點越多,它所攜帶的信息也越多。簡單地說,只要把主成分看作是提供最佳角度來觀察和評估數據的新軸,這樣觀測結果之間的差異就會更明顯。

協方差矩陣的特徵向量實際上是方差最多的軸的方向(或最多的信息),我們稱之為主成分。通過特徵值的順序對特徵向量進行排序,從最高到最低,你就得到了按重要性排序的主成分。

第四步:特徵向量

正如我們在上一步中所看到的,計算特徵向量並按其特徵值依降序排列,使我們能夠按重要性順序找到主成分。在這個步驟中我們要做的,是選擇保留所有成分還是丟棄那些重要性較低的成分(低特徵值),並與其他成分形成一個向量矩陣,我們稱之為特徵向量。

因此,特徵向量只是一個矩陣,其中包含我們決定保留的成分的特徵向量作為列。這是降維的第一步,因為如果我們選擇只保留n個特徵向量(分量)中的p個,則最終數據集將只有p維。

第五步:沿主成分軸重新繪制數據

在前面的步驟中,除了標准化之外,你不需要更改任何數據,只需選擇主成分,形成特徵向量,但輸入數據集時要始終與原始軸統一(即初始變數)。

這一步,也是最後一步,目標是使用協方差矩陣的特徵向量去形成新特徵向量,將數據從原始軸重新定位到由主成分軸中(因此稱為主成分分析)。這可以通過將原始數據集的轉置乘以特徵向量的轉置來完成。

優缺點

優點:化繁為簡,降低了計算量。

缺點:一定程度上損失了精度。並且只能處理「線性問題」,這是一種線性降維技術、

總結

假設我們拿到了一份數據集,有m個樣本,每個樣本由n個特徵(變數)來描述,那麼我們可以按照以下的步驟進行降維:

1、將數據集中的每個樣本作為列向量,按列排列構成一個n行m列的矩陣;

2、將矩陣的每一個行向量(每個變數)都減去該行向量的均值,從而使得新行向量的均值為0,得到新的數據集矩陣X;

3、求X的協方差矩陣,並求出協方差矩陣的特徵值λ和單位特徵向量e;

4、按照特徵值從大到小的順序,將單位特徵向量排列成矩陣,得到轉換矩陣P,並按PX計算出主成分矩陣;

5、用特徵值計算方差貢獻率和方差累計貢獻率,取方差累計貢獻率超過85%的前k個主成分,或者想降至特定的k維,直接取前k個主成分。

參考文章: https://blog.csdn.net/Murray_/article/details/79945148

參考文章: https://www.cnblogs.com/Luv-GEM/p/10765574.html

參考文章: https://www.ssffx.com/wangzhanjianshe/40715.html

Ⅱ 主成分分析法和聚類分析法的區別

聚類分析法是理想的多變數統計技術,主要有分層聚類法和迭代聚類法。 聚類分析也稱群分析、點群分析,是研究分類的一種多元統計方法。
指標(變數)之間存在程度不同的相似性(親疏關系——以樣品間距離衡量)。於是根據一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統計量,以這些統計量為劃分類型的依據。把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,直到把所有的樣品(或指標)聚合完畢,這就是分類的基本思想。 在聚類分析中,通常我們將根據分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。
R型聚類分析是對變數進行分類處理,Q型聚類分析是對樣本進行分類處理。
R型聚類分析的主要作用是: 1、不但可以了解個別變數之間的關系的親疏程度,而且可以了解各個變數組合之間的親疏程度。
2、根據變數的分類結果以及它們之間的關系,可以選擇主要變數進行回歸分析或Q型聚類分析。

Ⅲ 分析物質成分有什麼方法

分析物質成分方法:主成分分析是一種綜合評價方法。它比較了樣品的相對位置,比較了樣品的優缺點,缺口和原因。方向不積極,沒有正確的結論。因此,在分析中,必須轉發指標體系中的強度逆指數和中等指數。
主成分分析的理論和計算較為成熟,但主成分分析的應用尚未達到解決實際問題的成熟狀態。
根據總結,一些用戶在應用主成分分析方法進行綜合評價時有以下10個問題。
1、原始數據不正,有什麼影響?如何轉發?
2、原始變數是否意味著主成分的平方和不是1對?
3、主成分分析的主成分正交旋轉後會發生什麼?
4、回歸計算是否需要主成分分析的主要成分?
5、主成分分析和正交因子分析嗎?
6、何時進行主成分分析?
7、主成分分析有時會丟失一些原始變數的原因是什麼?
8、如何命名主成分並維護原始變數和多個主成分之間的內在關系?
9、前m個主成分仍然是多因素,客觀上只使用綜合主成分進行綜合分析?
10、綜合評價結果,如何深入了解決策相關程度?
主成分分析服務范圍
1、產品開發或改進:一般分析,比較分析,特殊需求分析。
2、質量控制:供應商評估,內部控制檢查。
3、工業診斷:異物分析,失效分析,副產物分析。
4、了解成分:(溶劑,表面活性劑,樹脂,主成分)定性和定量分析,名稱
5、組分定量或驗證,未知重復,無機定性定量,橡膠和塑料主成分表徵等。

Ⅳ 因子分析法和主成分分析法的區別與聯系是什麼

聯系:因子分析法和主成分分析法都是統計分析方法,都要對變數標准化,並找出相關矩陣。區別:在主成分分析中,最終確定的新變數是原始變數的線性組合,因子分析是要利用少數幾個公共因子去解釋較多個要觀測變數中存在的復雜關系。
1.因子分析法通過正交變換,將一組可能具有相關性的變數轉換為一組線性不相關的變數,稱為主成分。它主要用於市場研究領域。在市場研究中,研究人員關注一些研究指標的整合或組合。這些概念通常通過分數來衡量。人口學、數量地理學、分子動力學模擬、數學建模、數學分析等學科。因子分析和主成分分析都是統計分析方法,都需要對變數進行標准化,找出相關矩陣。
2.因子分析可以在許多變數中發現隱藏的代表性因素。主成分分析的原理是嘗試將原始變數重新組合成一組新的獨立綜合變數。因子分析在主成分分析的基礎上增加了一個旋轉函數。這種輪換的目的是更容易地命名和解釋因素的含義。如果研究的重點是指標與分析項目之間的對應關系,或者想要對得到的指標進行命名,建議使用因子分析。
3.主成分分析法是根據實際需要,盡量選取盡可能少的求和變數,以反映原始變數的信息。這種統計方法稱為主成分分析或主成分分析,這也是一種處理降維的數學方法。主成分分析試圖用一套新的不相關的綜合指標取代原有指標。因子分析是社會研究的有力工具,但它不能確定一項研究中有多少因素。當研究中選擇的變數發生變化時,因素的數量也會發生變化。
拓展資料:霍特林將這種方法推廣到隨機向量的情況。信息的大小通常由方差或方差的平方和來衡量。因子分析最早由英國心理學家C.E.斯皮爾曼提出。他發現學生在不同科目的成績之間有一定的相關性。一門學科成績好的學生往往在其他學科成績更好,因此他推測是否有一些潛在的共同因素或一些一般的智力條件影響學生的學業成績。

Ⅳ 因子分析法和主成分分析法的區別與聯系

一、方式不同:

1、因子分析法:

通過從變數群中提取共性因子

2、主成分分析法:

通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。

二、應用不同:

1、因子分析法:

主要應用於市場調研領域,在市場調研中,研究人員關心的是一些研究指標的集成或者組合,這些概念通常是通過等級評分問題來測量的。

2、主成分分析法:

人口統計學、數量地理學、分子動力學模擬、數學建模、數理分析等學科中均有應用。

三、聯系:

因子分析法和主成分分析法都是統計分析方法,都要對變數標准化,並找出相關矩陣。

(5)主成分分析方法屬於什麼分析方法擴展閱讀

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

因子分析法最早由英國心理學家C.E.斯皮爾曼提出。他發現學生的各科成績之間存在著一定的相關性,一科成績好的學生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學生的學習成績。因子分析可在許多變數中找出隱藏的具有代表性的因子。

Ⅵ 主成分分析(PCA)

主成分分析(PCA)是一種常用的無監督學習方法,這一方法利用正交變換把由現行相關變數表示的觀測數據轉化為少數幾個由線性無關變數表示的數據,線性無關的變數稱為主成分。主成分的個數通常小於原始變數的個數,所以主成分分析屬於姜維方法。主成分分析主要用於發現數據中的基本結構,即數據中變數之間的關系,是數據分析的有力工具,也用於其他機器學習方法的前處理。

統計分析比中,數據的變數之間可能存在相關性,以致增加了分析的難度。於是,考慮由少數幾個不相關的變數來代替相關的變數,用來表示數據,並且要求能夠保留數據中的不部分信息。

主成分分析中,首先對給定數據進行規范化,使得數據每一變數的平均值為0,方差為1,。之後對數據進行正交變換,用來由線性相關表示的數據,通過正交變換變成若干個線性無關的新變數表示的數據。新變數是可能的正交變換中變數的方差和(信息保存)最大的,方差表示在新變數上信息的大小。將新變數一次成為第一主成分,第二主成分等。通過主成分分析,可以利用主成分近似地表示原始數據,這可理解為發現數據的「基本結構」;也可以把數據由少數主成分表示,這可理解為對數據降維。

方差最大的解釋。假設有兩個變數 ,三個樣本點A,B,C。樣本分布在由 軸組成的坐標系中,對坐標系進行旋轉變換,得到新的坐標軸 ,表示新的變數 。坐標值的平方和 表示樣本在變數 上的方差和。主成分分析旨在選取正交變換中方差最大的變數,作為第一主成分,也是是旋轉變換中坐標值的平方和最大的軸。注意到旋轉變換中變換中樣本點到原點距離的平方和 不變,根據勾股定理,坐標值的平方和最大 等價於樣本點到 軸的距離平方和 最小。所以,等價地,主成分分析在旋轉變換中選取離樣本點的距離的平方和最小的軸,作為第一主成分。第二主成分等的選取,在保證與已有坐標軸正交的條件下,類似地進行

假設 是m維隨機變數,其均值是
,
協方差矩陣是

考慮到m維隨機變數 到m維隨機變數 的線性變換

其中

由隨機變數的性質可知

總體主成分的定義 給定式(1)所示的線性變換,如果他們滿足下列條件

設 是m維隨機變數, 是 的協方差矩陣, 的特徵值分別是 ,特徵值對應的單位特徵向量分別是 ,則 的第k主成分是

的第k主成分的方差是

即協方差矩陣 的第k個特徵值

首先求 的第一主成分 ,即求系數向量 。第一主成分的 是在 的條件下, 的所有線性變換中使方差達到最大的

求第一主成分就是求解最優化問題

定義拉格朗日函數

其中 是拉格朗日乘子,將拉格朗日函數對 求導,並令其為0,得

因此 是 的特徵值, 是對應的單位特徵向量。於是目標函數

假設 是 的最大特徵值 對應的單位特徵向量,顯然 與 是最優化問題的解,所以, 構成第一主成分,其方差等於協方差矩陣的最大特徵值

接著求 的第二主成分 ,第二主成分的 是在 且 與 不相關條件下, 的所有線性變換中使達到最大

求第二主成分需參求解約束最優化問題

定義拉格朗日函數

其中 對應拉格朗日乘子。對 求偏導,並令其為0,得

將方程左則乘以 有

此式前兩項為0,且 ,導出 ,因此式成為

由此, 是 的特徵值, 是對應的特徵向量,於是目標函數為

假設 是 的第二大特徵值 的特徵向量,顯然 是以上最優化問題的解。於是 構成第二主成分,其方差等於協方差矩陣的第二大特徵值,

按照上述方法可以求得第一、第二、直到第m個主成分,其系數向量 分別是 的第一、第二、直到m個單位特徵向量, 分別是對應的特徵值。並且,第k主成分的方差等於 的第k個特徵值。

主成分分析的主要目的是降維,所以一般選擇 個主成分(線性無觀變數),使問題得以簡化,並能保留原有變數的大部分信息。這里所說的信息是指原有信息的方差。

對任意正整數 ,考慮正交線性變換

其中 是q的維向量, 是q*m維矩陣,令 的協方差矩陣為

則 的跡 在 時取最大值,其中矩陣 是由正交矩陣A的前q列組成。

這表明,當 的線性變換 在 時,其協方差矩陣 的跡 取得最大值。也就是說,當A取前 的前q個主成分時,能夠最大限度地保留原有變數方差的信息。

以上作為選擇k個主成分的理論依據。具體選擇k的方法,通常利用方差貢獻率。

第k主成分 的方差貢獻率定義為 的方差與所有方差之和的比記作

k個主成分 的累計方差貢獻率定義為k個方差之和和所有方差之和的比

通常取k使得累計方差貢獻率達到規定的百分比以上,例如70%~80%。累計方差貢獻率反映了主成分保留信息的比例,但它不能反映對某個原有變數 保留信息的比例,這時通常利用k個主成分 對原有變數 的貢獻率。

k個主成分 對原有變數 的貢獻率為 , 的相關系數的平方,記作


計算公式如下:

其中, 是隨機變數 的方差,即協方差矩陣 的對角元素。

在實際問題中,不同變數可能有不同的量綱,直接求主成分有時會產生不合理的結果,為了消除這個影響,常常對各個隨機變數實施規范化,使其均值為0,方差為1

設 為隨機變數, 為第i個隨機變數, ,令

其中, 分布是隨機變數 的均值和方差,這時 就是 的規范化隨機變數。

在實際問題中,需要在觀測數據上進行主成分分析,這就是樣本主成分分析。樣本主成分也和總體主成分具體相同的性質。

使用樣本主成分時,一般假設樣本數據是規范化的,即對樣本矩陣如下操作:

其中


樣本協方差矩陣S是中體協方差矩陣 的無偏估計,樣本相關矩陣R是總體相關矩陣的無偏估計,S的特徵值和特徵向量 的特徵值和特徵向量的無偏估計。

傳統的主成分分析通過數據的協方差矩陣或相關矩陣的特徵值分解進行,現在常用的方法是通過數據矩陣的奇異值分解進行。下面介紹數據的協方差矩陣或相關矩陣的分解方法

給定樣本矩陣 ,利用數據的樣本的協方差矩陣或樣本相關矩陣的特徵值分解進行主成分分析

給定樣本矩陣 ,利用數據矩陣奇異值分解進行主成分分析,這里沒有假設k個主成分

對於 維實矩陣A,假設其秩為r, ,則可將矩陣A進行截斷奇異值分解

式 是 矩陣, 是k階對角矩陣, 分別由取A的完全奇異分解的矩陣U,V的前k列, 由完全奇異分解的矩陣 的前k個對角元素得到

定義一個新的 矩陣

的每一列均值為0,

即 等於X的協方差矩陣

主成分分析歸結於求協方差矩陣 的特徵值和對應的單位特徵向量。

假設 的截斷奇異值分解為 ,那麼V 的列向量就是 的單位向量,因此V的列向量就是X的主成分。於是X求X的主成分可以通過 的奇異值來實現

Ⅶ 什麼是主成分分析方法

什麼是主成分分析方法
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標.
在統計學中,主成分分析(principal components analysis,PCA)是一種簡化數據集的技術.它是一個線性變換.這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推.主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特徵.這是通過保留低階主成分,忽略高階主成分做到的.這樣低階成分往往能夠保留住數據的最重要方面.但是,這也不是一定的,要視具體應用而定.

Ⅷ pca主成分分析是什麼

主成分分析(英語:Principal components analysis,PCA)是一種統計分析、簡化數據集的方法。

它利用正交變換來對一系列可能相關的變數的觀測值進行線性變換,從而投影為一系列線性不相關變數的值,這些不相關變數稱為主成分(Principal Components)。具體地,主成分可以看做一個線性方程,其包含一系列線性系數來指示投影方向。PCA對原始數據的正則化或預處理敏感(相對縮放)。

1、將坐標軸中心移到數據的中心,然後旋轉坐標軸,使得數據在C1軸上的方差最大,即全部n個數據個體在該方向上的投影最為分散。意味著更多的信息被保留下來。C1成為第一主成分。

2、C2第二主成分:找一個C2,使得C2與C1的協方差(相關系數)為0,以免與C1信息重疊,並且使數據在該方向的方差盡量最大。

3、以此類推,找到第三主成分,第四主成分……第p個主成分。p個隨機變數可以有p個主成分。

主成分分析經常用於減少數據集的維數,同時保留數據集當中對方差貢獻最大的特徵。這是通過保留低維主成分,忽略高維主成分做到的。這樣低維成分往往能夠保留住數據的最重要部分。但是,這也不是一定的,要視具體應用而定。由於主成分分析依賴所給數據,所以數據的准確性對分析結果影響很大。

使用統計方法計算PCA

以下是使用統計方法計算PCA的詳細說明。但是請注意,如果利用奇異值分解(使用標準的軟體)效果會更好。

我們的目標是把一個給定的具有M維的數據集X變換成具有較小維度L的數據集Y。現在要求的就是矩陣Y,Y是矩陣XKarhunen–Loève變換。

Ⅸ 主成分分析法適用於哪些問題

主成分分析法適用於變數間有較強相關性的數據,若原始數據相關性弱,則起不到很好的降維作用,降維後,存在少量信息丟失,不可能包含100%原始數據。
主成分分析是一種統計方法,即通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。主成分分析首先是由K.皮爾森對非隨機變數引入的,而後H.霍特林將此方法推廣到隨機向量的情形。

Ⅹ 主成分分析法(PCA)

3.2.2.1 技術原理

主成分分析方法(PCA)是常用的數據降維方法,應用於多變數大樣本的統計分析當中,大量的統計數據能夠提供豐富的信息,利於進行規律探索,但同時增加了其他非主要因素的干擾和問題分析的復雜性,增加了工作量,影響分析結果的精確程度,因此利用主成分分析的降維方法,對所收集的資料作全面的分析,減少分析指標的同時,盡量減少原指標包含信息的損失,把多個變數(指標)化為少數幾個可以反映原來多個變數的大部分信息的綜合指標。

主成分分析法的建立,假設xi1,xi2,…,xim是i個樣品的m個原有變數,是均值為零、標准差為1的標准化變數,概化為p個綜合指標F1,F2,…,Fp,則主成分可由原始變數線性表示:

地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例

計算主成分模型中的各個成分載荷。通過對主成分和成分載荷的數據處理產生主成分分析結論。

3.2.2.2 方法流程

1)首先對數據進行標准化,消除不同量綱對數據的影響,標准化可採用極值法

及標准差標准化法

,其中s=

(圖3.3);

圖3.3 方法流程圖

2)根據標准化數據求出方差矩陣;

3)求出共變數矩陣的特徵根和特徵變數,根據特徵根,確定主成分;

4)結合專業知識和各主成分所蘊藏的信息給予恰當的解釋,並充分運用其來判斷樣品的特性。

3.2.2.3 適用范圍

主成分分析不能作為一個模型來描述,它只是通常的變數變換,主成分分析中主成分的個數和變數個數p相同,是將主成分表示為原始變數的線性組合,它是將一組具有相關關系的變數變換為一組互不相關的變數。適用於對具有相關性的多指標進行降維,尋求主要影響因素的統計問題。

閱讀全文

與主成分分析方法屬於什麼分析方法相關的資料

熱點內容
釣具的連接方法 瀏覽:131
細胞增生的治療方法 瀏覽:830
下列處理方法不正確的是 瀏覽:164
舒適進入安裝方法 瀏覽:222
用什麼方法粘膠最快 瀏覽:605
無線加濕器的安裝步驟及使用方法 瀏覽:799
歐萊雅洗面乳使用方法 瀏覽:815
win8怎麼設置鎖屏圖片在哪裡設置方法 瀏覽:937
爛地面地坪施工方法簡單 瀏覽:693
穩壓電路計算方法視頻 瀏覽:845
不用安全繩攀岩還有什麼方法 瀏覽:697
作業反應的教學方法 瀏覽:450
247乘101的簡便方法 瀏覽:104
可存放時間的計算方法 瀏覽:965
紅酒持杯的正確方法 瀏覽:551
熟板栗怎麼快速剝皮的方法 瀏覽:552
42乘98的簡便計算方法 瀏覽:820
斗魚直播技巧和方法 瀏覽:551
轉基因食品檢測方法 瀏覽:90
cam常用修模方法 瀏覽:997