導航:首頁 > 研究方法 > 簡述聚類分析目的及基本方法

簡述聚類分析目的及基本方法

發布時間：2024-11-20 10:53:45

⑴ 一文總結聚類分析步驟！

一、聚類

1.准備工作

（1）研究目的

聚類分析是根據事物本身的特性研究個體分類的方法，聚類分析的原則是同一類別的個體有較大相似性，不同類別的個體差異比較大。

（2）數據類型

1）定量：數字有比較意義，比如數字越大代表滿意度越高，量表為典型定量數據。

2）定類：數字無比較意義，比如性別，1代表男，2代表女。

PS： SPSSAU會根據數據類型自動選擇聚類方法。

K-modes聚類：數據類型僅定類時。

2.上傳數據到SPSSAU

登錄賬號後進入SPSSAU頁面，點擊右上角「上傳數據」，將處理好的數據進行「點擊上傳文件」上傳即可。

3.SPSSAU操作

（1）拖拽分析項

1） SPSSAU進階方法→聚類。

2）檢查

檢查分析項是否都在左側分析框中。

3）進行拖拽

（2）選擇參數

聚類個數：聚類個數設置為幾類主要以研究者的研究思路為標准，如果不進行設置，SPSSAU默認聚類個數為3，通常情況下，建議設置聚類數量介於3~6個之間。

標准化：聚類演算法是根據距離進行判斷類別，因此一般需要在聚類之前進行標准化處理，SPSSAU默認是選中進行標准化處理。數據標准化之後，數據的相對大小意義還在（比如數字越大GDP越高），但是實際意義消失了。

保存類別：分析選擇保存『保存類別』，SPSSAU會生成新標題用於標識，也可以右上角「我的數據」處查看到分析後的「聚類類別」。

新標題類似如下：Cluster_********。

4.SPSSAU分析

（1）聚類類別基本情況匯總分析

使用聚類分析對樣本進行分類，使用Kmeans聚類分析方法，從上表可以看出：最終聚類得到4類群體，此4類群體的佔比分別是20.00%, 30.00%, 20.00%, 30.00%。整體來看， 4類人群分布較為均勻，整體說明聚類效果較好。

（2）聚類類別匯總圖分析

上圖可以直觀的看到各個類別所佔百分比，4類群體的佔比分別是20.00%, 30.00%, 20.00%, 30.00%。

（3）聚類類別方差分析差異對比

使用方差分析去探索各個類別的差異特徵，從上表可知：聚類類別群體對於所有研究項均呈現出顯著性(p<0.05),意味著聚類分析得到的4類群體，他們在研究項上的特徵具有明顯的差異性，具體差異性可通過平均值進行對比，並且最終結合實際情況，對聚類類別進行命名處理。

（4）聚類項重要性對比

從上述結果看，所有研究項均呈現出顯著性，說明不同類別之間的特徵有明顯的區別，聚類的效果較好。

（5）聚類中心

5.其它說明

（1）聚類中心是什麼？

聚類中心是聚類類別的中心點情況，比如某類別時年齡對應的聚類中心為20，意味著該類別群體年齡基本在20歲左右。初始聚類中心基本無意義，它是聚類演算法隨機選擇的聚類點，如果需要查看聚類中心情況，需要關注於最終聚類中心。實際分析時聚類中心的意義相對較小，其僅為聚類演算法的計算值而已。

（2）k-prototype聚類是什麼？

如果說聚類項中包括定類項，那麼SPSSAU默認會進行K-prototype聚類演算法（而不是kmeans演算法）。定類數據不能通過數字大小直接分析距離，因而需要使用K-prototype聚類演算法。

（3）聚類分析時SSE是什麼意思？

在進行Kmeans聚類分析時SPSSAU默認輸出誤差平方和SSE值，該值可用於測量各點與中心點的距離情況，理論上是希望越小越好，而且如果同樣的數據，聚類類別越多則SSE值會越小（但聚類類別過多則不便於分析）。

SSE指標可用於輔助判斷聚類類別個數，建議在不同聚類類別數量情況下記錄下SSE值，然後分析SSE值的減少幅度情況，如果發現比如從3個聚類到4個類別時SSE值減少幅度明顯很大，那麼此時選擇4個聚類類別較好。

二、分層聚類

1.准備工作

（1）研究目的

從分析角度上看，聚類分析可分為兩種，一種是按樣本（或個案）聚類，此類聚類的代表是K-means聚類方法；另外一種是按變數（或標題）聚類，此類聚類的代表是分層聚類。

（2）數據類型

2.上傳數據到SPSSAU

登錄賬號後進入SPSSAU頁面，點擊右上角「上傳數據」，將處理好的數據進行「點擊上傳文件」上傳即可。

3.SPSSAU操作

（1）拖拽分析項

1） SPSSAU進階方法→分層聚類。

2）檢查

檢查分析項是否都在左側分析框中。

3）進行拖拽

（2）確定參數

SPSSAU會默認聚類為3類並且呈現表格結果，如果希望更多的類別個數，可自行進行設置。

4.SPSSAU分析

（1）聚類項描述分析

上表格展示總共8個分析項（即8個裁判數據）的基本情況，包括均值，最大或者最小值，中位數等，以便對於基礎數據有個概括性了解。整體上看，8個裁判的打分基本平均在8分以上。

（2）聚類類別分布表分析

總共聚類為3個類別，以及具體分析項的對應關系情況。在上表格中展示出來，上表格可以看出：裁判8單獨作為一類；裁判5，3，7這三個聚為一類；以及裁判1，6，2，4作為一類。

（PS：聚類類別與分析項上的對應關系可以在上表格中得到，同時也可以查看聚類樹狀圖得出更多信息。至於聚類類別分別應該叫做什麼名字，這個需要結合對應有關系情況，自己單獨進行命名。）

（3）聚類樹狀圖分析

上圖為聚類樹狀圖的展示，聚類樹狀圖是將聚類的具體過程用圖示法手法進行展示；最上面一行的數字僅僅是一個刻度單位，代表相對距離大小；一個結點表示一次聚焦過程。

樹狀圖的解讀上，建議單獨畫一條垂直線，然後對應查看分成幾個類別，以及每個類別與分析項的對應關系。比如上圖中，紅色垂直線最終會拆分成3個類別；第1個類別對應裁判8；第2個類別對應裁判5，3，7；第3個類別對應裁判1，6，2，4。

如果是聚為四類；從上圖可看出，明顯的已經不再合適。原因在於垂直線不好區分成四類。也即說明有2個類別本應該在一起更合適（上圖中的裁判1與6/2/4）；但是如果分成4類，此時裁判1會單獨成一類。所以畫垂直線無法區分出類別。因而綜合分析來看，最終聚類為3個類別最為適合。

當然在分析時也可以考慮分成2個類別，此時只需要對應將垂直線移動即可。

5.其它說明

（1）針對分層聚類，需要注意以下幾點：

（2）什麼時候做因子分析後再做聚類分析？

如果題項較多，可先做因子分析，得到每個維度（因子）的數據，再進行聚類。

三、總結

聚類分析廣泛的應用於自然科學、社會科學等領域。在分析時可以比較多次聚類結果，綜合選擇更適合的方案。

以上就是聚類分析步驟匯總，更多干貨請前往官網查看！

⑵ 聚類分析法

聚類分析，亦稱群分析或點分析，是研究多要素事物分類問題的數量方法。其基本原理是，根據樣本自身的屬性，用數學方法按照某些相似性或差異性指標，定量地確定樣本之間的親疏關系，並按親疏關系的程度對樣本進行聚類（徐建華，1994）。

聚類分析方法，應用在地下水中，是在各種指標和質量級別標准約束條件下，通過樣品的各項指標監測值綜合聚類，以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。

（一）系統聚類法

系統聚類法的主要步驟有：數據標准化、相似性統計量計算和聚類。

1.數據標准化

在聚類分析中，聚類要素的選擇是十分重要的，它直接影響分類結果的准確性和可靠性。在地下水質量研究中，被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大，這會對分類結果產生影響。因此當分類要素的對象確定之後，在進行聚類分析之前，首先對聚類要素進行數據標准化處理。

假設把所考慮的水質分析點（G）作為聚類對象（有m個），用i表示（i=1，2，…，m）；把影響水質的主要因素作為聚類指標（有n個），用j表示（j=1，2，…，n），它們所對應的要素數據可用表4-3給出。在聚類分析中，聚類要素的數據標准化的方法較多，一般採用標准差法和極差法。

表4-3 聚類對象與要素數據

對於第j個變數進行標准化，就是將x_ij變換為x′_ij。

（1）總和標准化

區域地下水功能可持續性評價理論與方法研究

這種標准化方法所得的新數據x′_ij滿足

區域地下水功能可持續性評價理論與方法研究

（2）標准差標准化

區域地下水功能可持續性評價理論與方法研究

式中：

；

由這種標准化方法所得的新數據x′_ij，各要素的平均值為0，標准差為1，即有

區域地下水功能可持續性評價理論與方法研究

（3）極差標准化

區域地下水功能可持續性評價理論與方法研究

經過這種標准化所得的新數據，各要素的極大值為1，極小值為0，其餘的數值均在［0，1］閉區間內。

上述式中：x_ij為j變數實測值；x_j為j變數的樣本平均值；s_j為樣本標准差。

2.相似性統計量

系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標，需要找到能量度相似關系的統計量，這是系統聚類法的關鍵。

相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點，用點間的距離來表示研究對象的緊密關系，距離越小，表明關系越密切。相似系數值表明樣本和變數間的相似程度。

（1）距離系數

常採用歐幾里得絕對距離，其中i樣品與j樣品距離d_ij為

區域地下水功能可持續性評價理論與方法研究

d_ij越小，表示i，j樣品越相似。

（2）相似系數

常見的相似系數有夾角餘弦和相關系數，計算公式為

1）夾角餘弦

區域地下水功能可持續性評價理論與方法研究

在式（4-20）中：-1≤cosθ_ij≤1。

2）相關系數

區域地下水功能可持續性評價理論與方法研究

式中：d_ij為i樣品與j樣品的歐幾里得距離；cosθ_ij為i樣品與j樣品的相似系數；r_ij為i樣品與j樣品的相關系數；x_ik為i樣品第k個因子的實測值或標准化值；x_jk為j樣品第k個因子的實測值或標准化值；

為i樣品第k個因子的均值，

；

為j樣品第k個因子的均值，

；n為樣品的數目；k為因子（變數）數。

3.聚類

在選定相似性統計量之後，根據計算結果構成距離或相似性系數矩陣（n×n），然後通過一定的方法把n個樣品組合成不同等級的分類單位，對類進行並類，即將最相似的樣品歸為一組，然後，把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法（最短距離聚類法、最遠距離聚類法）。

（1）直接聚類法

直接聚類法，是根據距離或相似系數矩陣的結構一次並類得到結果，是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類，然後根據距離最小或相似系數最大的原則，依次選出一對分類對象，並成新類。如果一對分類對象正好屬於已歸的兩類，則把這兩類並為一類。每一次歸並，都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類，最後根據歸並的先後順序作出聚類分析譜系圖。

（2）距離聚類法

距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性，而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示：

區域地下水功能可持續性評價理論與方法研究

當γ=-0.5時，式（4-22）計算類之間的距離最短；當γ=0.5時，式（4-22）計算類之間的距離最遠。

最短、最遠距離法，是在原來的n×n距離矩陣的非對角元素中找出d_pq=min（d_ij）或d_pq=max（d_ij），把分類對象G_p和G_q歸並為一新類G_r，然後按計算公式：

d_pq=min（d_pk，d_qk）（k≠ p，q）（4-23）

d_pq=max（d_pk，d_qk）（k≠ p，q）（4-24）

計算原來各類與新類之間的距離，這樣就得到一個新的（n-1）階的距離矩陣；再從新的距離矩陣中選出最小或最大的d_ij，把G_i和G_j歸並成新類；再計算各類與新類的距離，直至各分類對象被歸為一類為止。最後綜合整個聚類過程，作出最短距離或最遠距離聚類譜系圖（圖4-1）。

圖4-1 地下水質量評價的聚類譜系圖

（二）模糊聚類法

模糊聚類法是普通聚類方法的一種拓展，它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟，包括數據標准化、標定和聚類3個方面（付雁鵬等，1987）。

1.數據標准化

在進行聚類過程中，由於所研究的各個變數絕對值不一樣，所以直接使用原始數據進行計算就會突出絕對值大的變數，而降低絕對值小的變數作用，特別是在進行模糊聚類分析中，模糊運算要求必須將數據壓縮在［0，1］之間。因此，模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。

2.標定與聚類

所謂標定就是計算出被分類對象間的相似系數r_ij，從而確定論域集U上的模糊相似關系R_ij。相似系數的求取，與系統聚類分析法相同。

聚類就是在已建立的模糊關系矩陣R_ij上，給出不同的置信水平λ（λ∈［0，1］）進行截取，進而得到不同的分類。

聚類方法較多，主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。

（1）模糊等價關系方法

所謂模糊等價關系，是指具有自反性（r_ii=1）、對稱性（r_ij=r_ji）與傳遞性（R·R⊆R）的模糊關系。

基於模糊等價關系的模糊聚類分析方法的基本思想是：由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集，因此可以對R進行分解，當用λ-水平對R作截集時，截得的U×U的普通子集R_λ就是U上的一個普通等價關系，也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時，所得的分類由細變粗，逐漸歸並，從而形成一個動態聚類譜系圖（徐建華，1994）。此類分析方法的具體步驟如下。

第一步：模糊相似關系的建立，即計算各分類對象之間相似性統計量。

第二步：將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言，模糊相似關系滿足自反性和對稱性，但不滿足傳遞性。因此，需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘，即

R²=R·R

R⁴=R²·R²

︙

這樣計算下去，直到：R^2k=R^k·R^k=R^k，則R′=R^k便是一個模糊等價關系。

第三步：在不同的截集水平下進行聚類。

（2）最大樹聚類方法

基於最大樹的模糊聚類分析方法的基本思路是：最大樹是一個不包含迴路的連通圖（圖4-2）；選取λ水平對樹枝進行截取，砍去權重低於λ 的枝，形成幾個孤立的子樹，每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。

圖4-2 最大聚類支撐樹圖

第一步：計算分類對象之間的模糊相似性統計量r_ij，構建最大樹。

以所有被分類的對象為頂點，當兩點間r_ij不等於0時，兩點間可以用樹干連接，這種連接是按r_ij從大到小的順序依次進行的，從而構成最大樹。

第二步：由最大樹進行聚類分析。

選擇某一λ值作截集，將樹中小於λ值的樹干砍斷，使相連的結點構成一類，即子樹，當λ由1到0時，所得到的分類由細變粗，各結點所代表的分類對象逐漸歸並，從而形成一個動態聚類譜系圖。

在聚類方法中，模糊聚類法比普通聚類法有較大的突破，簡化了運算過程，使聚類法更易於掌握。

（三）灰色聚類法

灰色聚類是根據不同聚類指標所擁有的白化數，按幾個灰類將聚類對象進行歸納，以判斷該聚類對象屬於哪一類。

灰色聚類應用於地下水水質評價中，是把所考慮的水質分析點作為聚類對象，用i表示（i=1，2，…，n）；把影響水質的主要因素作為聚類指標，用j表示（j=1，2，…，m），把水質級別作為聚類灰數（灰類），用k表示（k=1，2，3）即一級、二級、三級3個灰類（羅定貴等，1995）。

灰色聚類的主要步驟：確定聚類白化數、確定各灰色白化函數f_jk、求標定聚類權重η_jk、求聚類系數和按最大原則確定聚類對象分類。

1.確定聚類白化數

當各灰類白化數在數量上相差懸殊時，為保證各指標間的可比性與等效性，必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數，i=1，2，…，n；j=1，2，…，m。

2.確定各灰色白化函數

建立滿足各指標、級別區間為最大白化函數值（等於1），偏離此區間愈遠，白化函數愈小（趨於0）的功效函數f_ij（x）。根據監測值C_ki，可在圖上（圖4-3）解析出相應的白化函數值f_jk（C_ik），j=1，2，…，m；k=1，2，3。

3.求標定聚類權重

根據式（4-25），計算得出聚類權重η_jk的矩陣（n×m）。

區域地下水功能可持續性評價理論與方法研究

式中：η_jk為第j個指標對第k個灰類的權重；λ_jk為白化函數的閾值（根據標准濃度而定）。

圖4-3 白化函數圖

註：圖4-3白化函數f（x）∈［0，1］，具有下述特點：①平頂部分，表示該量的最佳程度。這部分的值為最佳值，即系數（權）為1，f（x）=max=1（峰值），x∈［x₂，x₃］。②白化函數是單調變化的，左邊部分f（x）=L（x），單調增，x∈（x₁，x₂］，稱為白化的左支函數；右邊部分f（x）=R（x），單調減，x∈［x₃，x₄），稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數，為了簡便，一般是直線。⑤白化函數的起點和終點，一般來說是人為憑經驗確定。

4.求聚類系數

σ_ik=∑f_jk（d_ij）η_jk （4-26）

式中：σ_ik為第i個聚類對象屬於第k個灰類的系數，i=1，2，…，n；k=1，2，3。

5.按最大原則確定聚類對象分類

由σ_ik構造聚類向量矩陣，行向量最大者，確定k樣品屬於j級對應的級別。

用灰色聚類方法進行地下水水質評價，能最大限度地避免因人為因素而造成的「失真、失效」現象。

聚類方法計算相對復雜，但是計算結果與地下水質量標准級別對應性明顯，能夠較全面反映地下水質量狀況，也是較高層次定量研究地下水質量的重要方法。

閱讀全文

與簡述聚類分析目的及基本方法相關的資料

熱點內容

如何擦木製門方法發布：2025-01-31 23:39:58 瀏覽：629

水中臭氧檢測方法發布：2025-01-31 23:23:29 瀏覽：889

母豬拱地不吃食的治療方法發布：2025-01-31 23:15:14 瀏覽：160

外泌體蛋白質組學分析方法發布：2025-01-31 23:15:03 瀏覽：438

epson掃描儀的使用方法發布：2025-01-31 23:14:57 瀏覽：421

兒童斑禿的治療方法發布：2025-01-31 23:09:59 瀏覽：592

怎麼選擇籌資決策的評價方法發布：2025-01-31 22:50:39 瀏覽：660

掛鍾製作方法簡單發布：2025-01-31 22:44:03 瀏覽：923

電腦版全然不信下載方法發布：2025-01-31 22:43:51 瀏覽：250

家庭教育有哪些教育方法發布：2025-01-31 22:43:50 瀏覽：825

起訴離婚的方法有哪些發布：2025-01-31 22:37:55 瀏覽：431

用簡便方法怎麼算乘法發布：2025-01-31 22:19:34 瀏覽：52

雪碧是怎麼做的簡單方法發布：2025-01-31 22:05:28 瀏覽：464

如何快速找到野生蜜蜂巢方法發布：2025-01-31 21:51:29 瀏覽：981

人文思辨類文章有哪些研究方法發布：2025-01-31 21:39:44 瀏覽：56

筍殼斑去除的最佳方法發布：2025-01-31 21:36:35 瀏覽：287

經絡鍛煉的好方法發布：2025-01-31 21:33:06 瀏覽：889

黑面膜使用方法發布：2025-01-31 21:31:13 瀏覽：433

視覺思維模式的創新的研究方法發布：2025-01-31 21:10:03 瀏覽：890

用什麼方法不腐爛發布：2025-01-31 20:56:17 瀏覽：318