⑴ K均值聚類法和系統聚類法有什麼區別,這兩種聚類方法的適用條件都是什麼
適用條件:系統聚類法適於二維有序樣品聚類的樣品個數比較均勻。K均值聚類法適用於快速高效,特別是大量數據時使用。
兩者區別如下:
一、指代不同
1、K均值聚類法:是一種迭代求解的聚類分析演算法。
2、系統聚類法:又叫分層聚類法,聚類分析的一種方法。
二、步驟不同
1、K均值聚類法:步驟是隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。
2、系統聚類法:開始時把每個樣品作為一類,然後把最靠近的樣品(即距離最小的群品)首先聚為小類,再將已聚合的小類按其類間距離再合並,不斷繼續下去,最後把一切子類都聚合到一個大類。
三、目的不同
1、K均值聚類法:終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。
2、系統聚類法:是以距離為相似統計量時,確定新類與其他各類之間距離的方法,如最短距離法、最長距離法、中間距離法、重心法、群平均法、離差平方和法、歐氏距離等。
⑵ 常用的統計分析方法總結(聚類分析、主成分分析、因子分析)
1. 系統聚類法 :由N類--1類
2. 分解法 :由1類---N類
3. K-均值法 :事先在聚類過程中確定在K類,適用於數據量大的數據
4. 有序樣品的聚類 :N個樣品排序,次序相鄰的樣品聚成一類
5. 模糊聚類法 :模糊數學的方法,多用於定性變數
6. 加入法 :樣品依次加入,全部加入完得到聚類圖。
a.夾角餘弦
b.相關系數
a.常用的類間距離定義有8種之多,與之相應的 系統聚類法 也有8種,分別為
a. 中間距離法
b. 最短距離法 :類與類之間的距離最近兩個樣品的距離。
c. 最長距離法 :類與類之間的距離最遠兩個樣品的距離。【先距離最短,後距離最遠合並】
d. 類平均法 :兩類元素中任兩個樣品距離的平均。
e. 重心法 :兩個重心xp 和xq 的距離。
f. 可變類平均法
e. 離差平方和法(Ward法) : 該方法的基本思想來自於方差分析,如果分類正確,同 類樣品的離差平方和應當較小,類與類的離差平方和較大。 具體做法是先將 n 個樣品各自成一類,然後每次縮小一類,每 縮小一類,離差平方和就要增大,選擇使方差增加最小的兩 類合並,直到所有的樣品歸為一類為止。
a. 最短距離法的主要缺點是它有鏈接聚合的趨勢,容易形 成一個比較大的類,大部分樣品都被聚在一類中,所以最短 距離法的聚類效果並不好,實際中不提倡使用。
b. 最長距離法克服了最短距離法鏈接聚合的缺陷,兩類合 並以後與其他類的距離是原來兩個類中的距離最大者,加大 了合並後的類與其他類的距離。
a. 定義 :主成分分析(Principal Component Analysis,簡記 PCA)是將 多個指標化為少數幾個綜合指標的一種統計分析方法 ,通常我們把轉化成的綜合指標稱為主成分。
b. 本質:降維
c. 表達 :主成分為原始變數的線性組合
d. 即信息量在空間降維以後信息量沒有發生改變,所有主成分的方差之和與原始的方差之和
e. 多個變數之間有一定的相關性,利用原始變數 的線性組合形成幾個綜合指標(主成分),在保留原始變數主要信息的前提下起到降維與簡化問題的作用。
f. 累積貢獻率一般是 85% 以上
(1)每一個主成分都是各 原始變數的線性組合
(2)主成分的數目大大少於原始變數的數目
(3)主成分保留了原始變數絕大多數信息
(4)各主成分之間 互不相關
a. 基本目的:用 少數幾個綜合因子去描述多個隨機變數之間的相關關系 。
b. 定義:多個變數————少數綜合因子(不存在的因子)
c. 顯在變數:原始變數X;潛在變數:因子F
d. X=AF+e【公共因子+特殊因子】
e. 應用: 因子分析主要用於相關性很強的多指標數據的降維處理。
f. 通過研究原始變數相關矩陣內部 的依賴關系,把一些具有錯綜復雜關系的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。
g. 定義:原始的變數是可觀測的顯在變數,而 綜合 的因子是 不可觀測 的 潛在變數 ,稱為因子。
i. 根據相關性大小把原始變數分組,使得同組內的變數之間相關性較高,而不同組的變數間的相關性則較低。
ii. 公共因子 :每組變數代表一個基本結構,並用一個不可觀測的綜合變數表示。
iii. 對於所研究的某一具體問題,原始變數分解成兩部分:
i. R 型因子分析——研究變數之間的相關關系
ii. Q 型因子分析——研究樣品之間的相關關系
a. 因子載荷 是第i個變數與第j個公共因子的相關系數,絕對值越大,相關的密切程度越高。
a. 變數 Xi 的共同度是因子載荷矩陣的第i行的元素的平方和。記為
b. 所有的公共因子與特殊因子對變數 Xi 的貢獻和為1。
a. 確定因子載荷
b. 因子旋轉
c. 計算因子得分
a. 尋找簡單結構的載荷矩陣:載荷矩陣A的所有元素都接 近0或±1,則模型的公共因子就易於解釋。
b. 如果各主因子的典型代表變數不突出,就需要進行旋轉使因子載荷矩陣中載荷的絕對值向0和1兩個方向分化。
a.意義:對公共因子作正交旋轉相當於對載荷矩陣 A 作一正交變換 ,右乘正交矩陣 T ,使 A* = AT 能有更鮮明的實際意義。
b.幾何意義:是在 m 維空間上對原因子軸作一剛性旋轉。 因子旋轉不改變公共因子的共同度,這是因為 A A '=ATT'A'=AA'
c. 旋轉方法有:正交旋轉和斜交旋轉
d. 最普遍的是: 最大方差旋轉法
a. 定義:通過坐標變換使各個因子載荷的方差之和最大。
b. 任何一個變數只在一個因子上有高貢獻率,而在 其它因子上的載荷幾乎為0;
c. 任何一個因子只在少數變數上有高載荷,而在其 它變數上的載荷幾乎為0。
思想相同: 降維
前提條件:各變數間必須有 相關性 ,否則各變數之間沒有共享信息