導航:首頁 > 研究方法 > 什麼情況下採用聚類的方法

什麼情況下採用聚類的方法

發布時間:2024-06-21 22:06:38

⑴ 聚類分析(Cluster Analysis)

聚類,將相似的事物聚集在一起,將不相似的事物劃分到不同的類別的過程。是將復雜數據簡化為少數類別的一種手段。

設有m個樣本單位,每個樣本測的n項指標(變數),原始資料矩陣:

指標的選擇非常重要:
必要性要求:和聚類分析的目的密切相關,並不是越多越好
代表性要求:反映要分類變數的特徵
區分度要求:在不同研究對象類別上的值有明顯的差異
獨立性要求:變數之間不能高度相關(兒童生長身高和體重非常相關)
散布性要求:最好在值域范圍內分布不太集中

在各種標准量度值scale差異過大時,或數據不符合正態分布時,可能需要進行數據標准化。
(1) 總和標准化 。 分別求出各聚類指標所對應的數據的總和, 以各指標的數據除以該指標的數據的總和。

根據聚類對象的不同,分為Q型聚類,R型聚類

(1)常見距離統計量 - 閔可夫斯基距離系列(線性距離)

p=2,時為歐氏距離(n維空間中的幾何距離)
p=∞,時為切比雪夫距離(棋盤格距離)

(2)常見距離統計量 - 馬氏距離(協方差距離)
均值為μ,協方差矩陣為∑的向量x=(1,2,...n)
相比於歐式距離,馬氏距離考慮到各種指標之間的聯系(如身高和體重並不獨立,)且馬氏距離具有尺度無關性(scale-invariant),因此可不必做標准化。
如果協方差矩陣為單位矩陣(各指標之間完全相互獨立),則馬氏距離化為歐幾里得距離。
如果協方差矩陣為對角矩陣,則馬氏距離化為正規化的歐幾里得距離(normalized Euclidean distance)

(3)常見距離統計量 - 文本距離
文本距離通常用來度量文本之間的相似度,在生物研究中常見於序列比對分析。

常見相似系數統計量
相似系數= 1,表明完全相似
相似系數= -1 表明完全相反
相似系數 = 0 表明完全獨立
相關系數:

類與類之間 距離的度量方法:
系統聚類法不僅需要度量個體與個體之間的距離,還要度量類與類之間的距離。類間距離被度量出來之後,距離最小的兩個小類將首先被合並成為一類。 由類間距離定義的不同產生了不同的系統聚類法。

目前有1000多種聚類演算法:沒有一種聚類演算法可以包打天下,聚類演算法中的各種參數也必須依據具體問題而調節
常見聚類演算法的分類:
1,層次聚類(Hierarchical clustering)
2,劃分聚類(Partitioning clustering)
3,密度聚類(Density-based)
4,期望最大化聚類(Expectation Maximization)
5,網格聚類(Grid-based)
6,模型聚類(Model-based)

1. 層次聚類的方法
基本思想:
在聚類分析的開始,每個樣本(或變數)自成一類; 然後,按照某種方法度量所有樣本(或變數)之間的親疏程度,並把最相似的樣本(或變數)首先聚成一小類; 接下來,度量剩餘的樣本(或變數)和小類間的親疏程度,並將當前最接近的樣本(或變數)與小類聚成一類;如此反復,知道所有樣本聚成一類為止。
舉例:
有一組數據D={a,b,c,d,e} 給了它們之間的距離矩陣。
首先,每一個例子都是一個類:

2. 劃分聚類的方法
劃分聚類演算法:
給定一個包含n個樣本的數據集,基於劃分的方法(Partitioning Method)就是將n個樣本按照特定的度量劃分為k個簇(k≤n),使得每個簇至少包含一個對象,並且每個對象屬於且僅屬於一個簇,而且簇之間不存在層次關系。

基於劃分的方法大多數是基於距離來劃分的,首先對樣本進行初始化分,然後計算樣本間的距離,重新對數據集中的樣本進行劃分,將樣本劃分到距離更近的簇中,得到一個新的樣本劃分,迭代計算直到聚類結果滿足用戶指定的要求。

要想得到最優的聚類結果,演算法需要窮舉數據集所有可能的劃分情況,但是在實際應用中數據量都比較大,利用窮舉方法聚類顯然是不現實的,因此大部分基於劃分的聚類方法採用貪心策略,即在每一次劃分過程中尋求最優解,然後基於最優解進行迭代計算,逐步提高聚類結果的質量。雖然這種方式有可能得到局部最優結果,但是結合效率方面考慮,也是可以接受的。

演算法:

舉例:
有一個二維空間的一些點,我們要將它們分成3個類,即K=3。

我們首先隨機選擇3個初始質心,每一個質心為一類:

然後我們計算每一個不是質心的點到這三個質心的距離:

將這些點歸類於距離最近的那個質心的一類:

重新計算這三個分類的質心:

不斷重復上述兩步,更新三個類:

當穩定以後,迭代停止,這時候的三個類就是我們得到的最後的三個:

最著名的是k-means聚類演算法和K-medoids演算法(中心點聚類)

處理「大海中的若干孤島」,以密度來區分島

大部分基於密度的方法(Density-based Method)採用距離度量來對數據集進行劃分,在球狀的數據集中能夠正確劃分,但是在非球狀的數據集中則無法對樣本進行正確聚類,並且受到數據集中的雜訊數據影響較大。基於密度的方法可以克服這兩個弱點。

基於密度的方法提出「密度」的思想,即給定鄰域中樣本點的數量,當鄰域中密度達到或超過密度閾值時,將鄰域內的樣本包含到當前的簇中。若鄰域的密度不滿足閾值要求,則當前的簇劃分完成,對下一個簇進行劃分。基於密度的方法可以對數據集中的離群點進行檢測和過濾。

演算法

基於網格的方法(Grid-based Method)將數據集空間劃分為有限個網格單元,形成一個網路結構,在後續的聚類過程中,以網格單元為基本單位進行聚類,而不是以樣本為單位。由於演算法處理時間與樣本數量無關,只與網格單元數量有關,因此這種方法在處理大數據集時效率很高。基於網格的方法可以在網格單元劃分的基礎上,與基於密度的方法、基於層次的方法等結合使用。

基於模型的方法(Model-based Method)假定數據集滿足一定的分布模型,找到這樣的分布模型,就可以對數據集進行聚類。基於模型的方法主要包括基於統計和基於神經網路兩大類,前者以高斯混合模型(Gaussian Mixture Models,GMM)為代表,後者以自組織映射網路(Self Organizing Map,SOM)為代表。目前以基於統計模型的方法為主。

以下內容後續補充:

數據示例:

數據示例:

為了有效利用聚類演算法, 首先需要度量觀測值見的距離,在R中常通過stats包里的dist函數來實現:
dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2)
dist 函數計算對象(矩陣或數據框)中兩兩間的距離,返回的是距離矩陣(dist類對象)。dist函數的參數描述如下。

另一個計算點之間的距離的方法是cluster包裡面的daisy函數:

daisy函數計算數據集中每對觀測值的不相似度。daisy函數的參數描述如下:

k-means聚類是最簡單的聚類演算法之一。R中可以通過stats包裡面的kmeans函數實現k-means聚類:
kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen"), trace=FALSE)
kmeans函數的參數描述如下:

⑵ 聚類分析法

聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關系,並按親疏關系的程度對樣本進行聚類(徐建華,1994)。

聚類分析方法,應用在地下水中,是在各種指標和質量級別標准約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。

(一)系統聚類法

系統聚類法的主要步驟有:數據標准化、相似性統計量計算和聚類。

1.數據標准化

在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的准確性和可靠性。在地下水質量研究中,被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大,這會對分類結果產生影響。因此當分類要素的對象確定之後,在進行聚類分析之前,首先對聚類要素進行數據標准化處理。

假設把所考慮的水質分析點(G)作為聚類對象(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素數據可用表4-3給出。在聚類分析中,聚類要素的數據標准化的方法較多,一般採用標准差法和極差法。

表4-3 聚類對象與要素數據

對於第j個變數進行標准化,就是將xij變換為x′ij

(1)總和標准化

區域地下水功能可持續性評價理論與方法研究

這種標准化方法所得的新數據x′ij滿足

區域地下水功能可持續性評價理論與方法研究

(2)標准差標准化

區域地下水功能可持續性評價理論與方法研究

式中:

由這種標准化方法所得的新數據x′ij,各要素的平均值為0,標准差為1,即有

區域地下水功能可持續性評價理論與方法研究

(3)極差標准化

區域地下水功能可持續性評價理論與方法研究

經過這種標准化所得的新數據,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。

上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標准差。

2.相似性統計量

系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標,需要找到能量度相似關系的統計量,這是系統聚類法的關鍵。

相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點,用點間的距離來表示研究對象的緊密關系,距離越小,表明關系越密切。相似系數值表明樣本和變數間的相似程度。

(1)距離系數

常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij

區域地下水功能可持續性評價理論與方法研究

dij越小,表示i,j樣品越相似。

(2)相似系數

常見的相似系數有夾角餘弦和相關系數,計算公式為

1)夾角餘弦

區域地下水功能可持續性評價理論與方法研究

在式(4-20)中:-1≤cosθij≤1。

2)相關系數

區域地下水功能可持續性評價理論與方法研究

式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似系數;rij為i樣品與j樣品的相關系數;xik為i樣品第k個因子的實測值或標准化值;xjk為j樣品第k個因子的實測值或標准化值;

為i樣品第k個因子的均值,

為j樣品第k個因子的均值,

;n為樣品的數目;k為因子(變數)數。

3.聚類

在選定相似性統計量之後,根據計算結果構成距離或相似性系數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。

(1)直接聚類法

直接聚類法,是根據距離或相似系數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類,然後根據距離最小或相似系數最大的原則,依次選出一對分類對象,並成新類。如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類,最後根據歸並的先後順序作出聚類分析譜系圖。

(2)距離聚類法

距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示:

區域地下水功能可持續性評價理論與方法研究

當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。

最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類對象Gp和Gq歸並為一新類Gr,然後按計算公式:

dpq=min(dpk,dqk)(k≠ p,q) (4-23)

dpq=max(dpk,dqk)(k≠ p,q) (4-24)

計算原來各類與新類之間的距離,這樣就得到一個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把Gi和Gj歸並成新類;再計算各類與新類的距離,直至各分類對象被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。

圖4-1 地下水質量評價的聚類譜系圖

(二)模糊聚類法

模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括數據標准化、標定和聚類3個方面(付雁鵬等,1987)。

1.數據標准化

在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始數據進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將數據壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。

2.標定與聚類

所謂標定就是計算出被分類對象間的相似系數rij,從而確定論域集U上的模糊相似關系Rij。相似系數的求取,與系統聚類分析法相同。

聚類就是在已建立的模糊關系矩陣Rij上,給出不同的置信水平λ(λ∈[0,1])進行截取,進而得到不同的分類。

聚類方法較多,主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。

(1)模糊等價關系方法

所謂模糊等價關系,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(R·R⊆R)的模糊關系。

基於模糊等價關系的模糊聚類分析方法的基本思想是:由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集,因此可以對R進行分解,當用λ-水平對R作截集時,截得的U×U的普通子集Rλ就是U上的一個普通等價關系,也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸並,從而形成一個動態聚類譜系圖(徐建華,1994)。此類分析方法的具體步驟如下。

第一步:模糊相似關系的建立,即計算各分類對象之間相似性統計量。

第二步:將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘,即

R2=R·R

R4=R2·R2

這樣計算下去,直到:R2k=Rk·Rk=Rk,則R′=Rk便是一個模糊等價關系。

第三步:在不同的截集水平下進行聚類。

(2)最大樹聚類方法

基於最大樹的模糊聚類分析方法的基本思路是:最大樹是一個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行截取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。

圖4-2 最大聚類支撐樹圖

第一步:計算分類對象之間的模糊相似性統計量rij,構建最大樹。

以所有被分類的對象為頂點,當兩點間rij不等於0時,兩點間可以用樹干連接,這種連接是按rij從大到小的順序依次進行的,從而構成最大樹。

第二步:由最大樹進行聚類分析。

選擇某一λ值作截集,將樹中小於λ值的樹干砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類對象逐漸歸並,從而形成一個動態聚類譜系圖。

在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。

(三)灰色聚類法

灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類對象進行歸納,以判斷該聚類對象屬於哪一類。

灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類對象,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、三級3個灰類(羅定貴等,1995)。

灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函數fjk、求標定聚類權重ηjk、求聚類系數和按最大原則確定聚類對象分類。

1.確定聚類白化數

當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。

2.確定各灰色白化函數

建立滿足各指標、級別區間為最大白化函數值(等於1),偏離此區間愈遠,白化函數愈小(趨於0)的功效函數fij(x)。根據監測值Cki,可在圖上(圖4-3)解析出相應的白化函數值fjk(Cik),j=1,2,…,m;k=1,2,3。

3.求標定聚類權重

根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。

區域地下水功能可持續性評價理論與方法研究

式中:ηjk為第j個指標對第k個灰類的權重;λjk為白化函數的閾值(根據標准濃度而定)。

圖4-3 白化函數圖

註:圖4-3白化函數f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。這部分的值為最佳值,即系數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x),單調增,x∈(x1,x2],稱為白化的左支函數;右邊部分f(x)=R(x),單調減,x∈[x3,x4),稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數,為了簡便,一般是直線。⑤白化函數的起點和終點,一般來說是人為憑經驗確定。

4.求聚類系數

σik=∑fjk(dij)ηjk (4-26)

式中:σik為第i個聚類對象屬於第k個灰類的系數,i=1,2,…,n;k=1,2,3。

5.按最大原則確定聚類對象分類

由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。

用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。

聚類方法計算相對復雜,但是計算結果與地下水質量標准級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。

閱讀全文

與什麼情況下採用聚類的方法相關的資料

熱點內容
mjxrc遙控器使用方法 瀏覽:552
正調黑坑鯉魚技巧和方法 瀏覽:829
土壤水分檢測方法 瀏覽:872
中醫治療腦血腫的方法 瀏覽:632
被狗屎蜂蟄了怎麼辦普通方法 瀏覽:792
保護圖片版權有哪幾種方法 瀏覽:866
小米2隱藏的照片在哪裡設置方法 瀏覽:879
紅米手機字體管家使用方法 瀏覽:922
米6的耳機位置在哪裡設置方法 瀏覽:671
用道家方法如何查出生日期 瀏覽:269
用什麼方法可以讓自己快速生長 瀏覽:871
700的計算方法 瀏覽:441
利潤計算方法政治 瀏覽:58
常用漢字排列方法 瀏覽:102
腦缺血治療方法 瀏覽:388
淺談雙色球的幾種簡單選號方法 瀏覽:470
用什麼方法才能夠把牙洗白 瀏覽:839
水暖空調怎麼安裝方法 瀏覽:203
如何去地上鐵銹最簡單方法 瀏覽:812
釣小魚方法如何開紅蟲拉餌 瀏覽:62