㈠ 聚類分析法
聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關系,並按親疏關系的程度對樣本進行聚類(徐建華,1994)。
聚類分析方法,應用在地下水中,是在各種指標和質量級別標准約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。
(一)系統聚類法
系統聚類法的主要步驟有:數據標准化、相似性統計量計算和聚類。
1.數據標准化
在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的准確性和可靠性。在地下水質量研究中,被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大,這會對分類結果產生影響。因此當分類要素的對象確定之後,在進行聚類分析之前,首先對聚類要素進行數據標准化處理。
假設把所考慮的水質分析點(G)作為聚類對象(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素數據可用表4-3給出。在聚類分析中,聚類要素的數據標准化的方法較多,一般採用標准差法和極差法。
表4-3 聚類對象與要素數據
對於第j個變數進行標准化,就是將xij變換為x′ij。
(1)總和標准化
區域地下水功能可持續性評價理論與方法研究
這種標准化方法所得的新數據x′ij滿足
區域地下水功能可持續性評價理論與方法研究
(2)標准差標准化
區域地下水功能可持續性評價理論與方法研究
式中:
由這種標准化方法所得的新數據x′ij,各要素的平均值為0,標准差為1,即有
區域地下水功能可持續性評價理論與方法研究
(3)極差標准化
區域地下水功能可持續性評價理論與方法研究
經過這種標准化所得的新數據,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。
上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標准差。
2.相似性統計量
系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標,需要找到能量度相似關系的統計量,這是系統聚類法的關鍵。
相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點,用點間的距離來表示研究對象的緊密關系,距離越小,表明關系越密切。相似系數值表明樣本和變數間的相似程度。
(1)距離系數
常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij為
區域地下水功能可持續性評價理論與方法研究
dij越小,表示i,j樣品越相似。
(2)相似系數
常見的相似系數有夾角餘弦和相關系數,計算公式為
1)夾角餘弦
區域地下水功能可持續性評價理論與方法研究
在式(4-20)中:-1≤cosθij≤1。
2)相關系數
區域地下水功能可持續性評價理論與方法研究
式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似系數;rij為i樣品與j樣品的相關系數;xik為i樣品第k個因子的實測值或標准化值;xjk為j樣品第k個因子的實測值或標准化值;
3.聚類
在選定相似性統計量之後,根據計算結果構成距離或相似性系數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。
(1)直接聚類法
直接聚類法,是根據距離或相似系數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類,然後根據距離最小或相似系數最大的原則,依次選出一對分類對象,並成新類。如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類,最後根據歸並的先後順序作出聚類分析譜系圖。
(2)距離聚類法
距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示:
區域地下水功能可持續性評價理論與方法研究
當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。
最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類對象Gp和Gq歸並為一新類Gr,然後按計算公式:
dpq=min(dpk,dqk)(k≠ p,q) (4-23)
dpq=max(dpk,dqk)(k≠ p,q) (4-24)
計算原來各類與新類之間的距離,這樣就得到一個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把Gi和Gj歸並成新類;再計算各類與新類的距離,直至各分類對象被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。
圖4-1 地下水質量評價的聚類譜系圖
(二)模糊聚類法
模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括數據標准化、標定和聚類3個方面(付雁鵬等,1987)。
1.數據標准化
在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始數據進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將數據壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。
2.標定與聚類
所謂標定就是計算出被分類對象間的相似系數rij,從而確定論域集U上的模糊相似關系Rij。相似系數的求取,與系統聚類分析法相同。
聚類就是在已建立的模糊關系矩陣Rij上,給出不同的置信水平λ(λ∈[0,1])進行截取,進而得到不同的分類。
聚類方法較多,主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。
(1)模糊等價關系方法
所謂模糊等價關系,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(R·R⊆R)的模糊關系。
基於模糊等價關系的模糊聚類分析方法的基本思想是:由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集,因此可以對R進行分解,當用λ-水平對R作截集時,截得的U×U的普通子集Rλ就是U上的一個普通等價關系,也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸並,從而形成一個動態聚類譜系圖(徐建華,1994)。此類分析方法的具體步驟如下。
第一步:模糊相似關系的建立,即計算各分類對象之間相似性統計量。
第二步:將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘,即
R2=R·R
R4=R2·R2
︙
這樣計算下去,直到:R2k=Rk·Rk=Rk,則R′=Rk便是一個模糊等價關系。
第三步:在不同的截集水平下進行聚類。
(2)最大樹聚類方法
基於最大樹的模糊聚類分析方法的基本思路是:最大樹是一個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行截取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。
圖4-2 最大聚類支撐樹圖
第一步:計算分類對象之間的模糊相似性統計量rij,構建最大樹。
以所有被分類的對象為頂點,當兩點間rij不等於0時,兩點間可以用樹干連接,這種連接是按rij從大到小的順序依次進行的,從而構成最大樹。
第二步:由最大樹進行聚類分析。
選擇某一λ值作截集,將樹中小於λ值的樹干砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類對象逐漸歸並,從而形成一個動態聚類譜系圖。
在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。
(三)灰色聚類法
灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類對象進行歸納,以判斷該聚類對象屬於哪一類。
灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類對象,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、三級3個灰類(羅定貴等,1995)。
灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函數fjk、求標定聚類權重ηjk、求聚類系數和按最大原則確定聚類對象分類。
1.確定聚類白化數
當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。
2.確定各灰色白化函數
建立滿足各指標、級別區間為最大白化函數值(等於1),偏離此區間愈遠,白化函數愈小(趨於0)的功效函數fij(x)。根據監測值Cki,可在圖上(圖4-3)解析出相應的白化函數值fjk(Cik),j=1,2,…,m;k=1,2,3。
3.求標定聚類權重
根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。
區域地下水功能可持續性評價理論與方法研究
式中:ηjk為第j個指標對第k個灰類的權重;λjk為白化函數的閾值(根據標准濃度而定)。
圖4-3 白化函數圖
註:圖4-3白化函數f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。這部分的值為最佳值,即系數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x),單調增,x∈(x1,x2],稱為白化的左支函數;右邊部分f(x)=R(x),單調減,x∈[x3,x4),稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數,為了簡便,一般是直線。⑤白化函數的起點和終點,一般來說是人為憑經驗確定。
4.求聚類系數
σik=∑fjk(dij)ηjk (4-26)
式中:σik為第i個聚類對象屬於第k個灰類的系數,i=1,2,…,n;k=1,2,3。
5.按最大原則確定聚類對象分類
由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。
用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。
聚類方法計算相對復雜,但是計算結果與地下水質量標准級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。
㈡ (21)聚類分析基礎知識
所謂聚類分析,就是按照個體的特徵將他們分類,並且在於讓同一個類別內的個體之間具有較高的相似度,讓不同類別之間具有較大的差異性。這樣,研究人員就能根據不同類別的特徵有針對性的進行分析,並制定出適用於不同類別的解決方案。
聚類分析主要應用在市場細、用戶細分等領域。
如何將個體劃分成不同的類別?
為了合理的進行聚類,需要採用適當的指標來衡量研究對象之間的聯系緊密程度,常用的指標有「距離」和「相似系數」。假設將研究對象採用點表示,聚類分析時,將「距離」小的點或者「相關系數」較大的點歸為一類,將「距離」大的點或「相關系數」小的點歸為一類。
聚類分析的特點?
1)聚類結果是未知的。不同的聚類方法可能得到不同的分類結果,相同的聚類方法但是所分析的變數不同,也會得到不同的聚類結果。
2)對於聚類結果的合理性判斷比較主觀。只要類別內的相似性和類別間的差異性都能得到合理的解釋和判斷,就認識聚類結果是可行的。
常見應用場景?
零售研究中,刻畫不同的用戶或消費者生活形態以及特徵;互聯網中,通過用戶瀏覽、消費行為來總結用戶特徵;金融研究中,根據用戶金融行為和資產狀況對用戶進行分類;城市規劃中,根據區域特徵對城市分類......
聚類分析的步驟:
1)確定需要參加聚類分析的變數。即使用那些變數來進行分類。
2)對數據進行標准化處理。單位、數量級等
3)選擇聚類方法和類別數目。即用什麼聚類方法,分成幾類。
4)分析聚類結果。
為什麼要對數據進行標准化處理?
因為有事各個變數之間的變數值的數量級別差異較大,或者單位也不一樣。例如一個是元,一個是萬元,再或者數量級別差距太大都無法進行比較或者計算「距離」和「相似系數」等指標。只有通過標准化處理,消除變數間的量綱關系的影響,在統一標准下才能夠進行比較或者計算「距離」和「相似系數」等指標。
聚類方法的分類
聚類方法主要有三種:
1)快速聚類:也稱K均值聚類,他是按照一定的方法,選取一批聚類中心點,讓個案向最近的聚類中心點聚集形成初始分類,然後按照最近距離原則調整不合理的分類,直到分類合理為止。
2)系統聚類:也稱層次聚類,首先將參與聚類的個案(或變數)各視為一類,然後根據兩個類別之間的距離或者相似性逐步合並,直到所有個案(或變數)合並為一個大類為止。
3)二階聚類:也稱兩步聚類,這是隨著人工智慧的發展而發展起來的一種智能聚類方法。分成兩個步驟:第一步驟是預聚類,就是根據定義的最大類別數對個案進行初步歸類;第二步驟是正式聚類,就是對第一步驟得到的初步聚類進行在聚類並確定最終聚類結果,並且在這一步中,會根據一定的統計標准確定聚類的類別數。
㈢ 常用的聚類方法有哪幾種
聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。
1、劃分法,給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。
2、層次法,這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。
3、基於密度的方法,基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。
4、圖論聚類方法解決的第一步是建立與問題相適應的圖,圖的節點對應於被分析數據的最小單元,圖的邊(或弧)對應於最小處理單元數據之間的相似性度量。
5、基於網格的方法,這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。
6、基於模型的方法,基於模型的方法給每一個聚類假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。
(3)聚類分析數據變換的方法及特點擴展閱讀:
在商業上,聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來,並且概括出每一類消費者的消費模式或者說習慣。
它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息,並且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;並且,聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。
許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好;但是,一個大規模資料庫可能包含幾百萬個對象,在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。
許多聚類演算法在聚類分析中要求用戶輸入一定的參數,例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定,特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔,也使得聚類的質量難以控制。
㈣ 16種常用的數據分析方法-聚類分析
聚類(Clustering)就是一種尋找數據之間內在結構的技術。聚類把全體數據實例組織成一些相似組,而這些相似組被稱作簇。處於相同簇中的數據實例彼此相同,處於不同簇中的實例彼此不同。
聚類分析定義
聚類分析是根據在數據中發現的描述對象及其關系的信息,將數據對象分組。目的是,組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內相似性越大,組間差距越大,說明聚類效果越好。
聚類效果的好壞依賴於兩個因素:1.衡量距離的方法(distance measurement) 2.聚類演算法(algorithm)
聚類分析常見演算法
K-均值聚類也稱為快速聚類法,在最小化誤差函數的基礎上將數據劃分為預定的類數K。該演算法原理簡單並便於處理大量數據。
K-均值演算法對孤立點的敏感性,K-中心點演算法不採用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。
也稱為層次聚類,分類的單位由高到低呈樹形結構,且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特徵越多。該聚類方法只適合在小數據量的時候使用,數據量大的時候速度會非常慢。
案例
有20種12盎司啤酒成分和價格的數據,變數包括啤酒名稱、熱量、鈉含量、酒精含量、價格。
問題一:選擇那些變數進行聚類?——採用「R 型聚類」
現在我們有4個變數用來對啤酒分類,是否有必要將4個變數都納入作為分類變數呢?熱量、鈉含量、酒精含量這3個指標是要通過化驗員的辛苦努力來測定,而且還有花費不少成本。
所以,有必要對4個變數進行降維處理,這里採用spss R型聚類(變數聚類),對4個變數進行降維處理。輸出「相似性矩陣」有助於我們理解降維的過程。
4個分類變數各自不同,這一次我們先用相似性來測度,度量標准選用pearson系數,聚類方法選最遠元素,此時,涉及到相關,4個變數可不用標准化處理,將來的相似性矩陣里的數字為相關系數。若果有某兩個變數的相關系數接近1或-1,說明兩個變數可互相替代。
只輸出「樹狀圖」就可以了,從proximity matrix表中可以看出熱量和酒精含量兩個變數相關系數0.903,最大,二者選其一即可,沒有必要都作為聚類變數,導致成本增加。
至於熱量和酒精含量選擇哪一個作為典型指標來代替原來的兩個變數,可以根據專業知識或測定的難易程度決定。(與因子分析不同,是完全踢掉其中一個變數以達到降維的目的。)這里選用酒精含量,至此,確定出用於聚類的變數為:酒精含量,鈉含量,價格。
問題二:20 中啤酒能分為幾類?—— 採用「Q 型聚類」
現在開始對20中啤酒進行聚類。開始不確定應該分為幾類,暫時用一個3-5類范圍來試探。Q型聚類要求量綱相同,所以我們需要對數據標准化,這一回用歐式距離平方進行測度。
主要通過樹狀圖和冰柱圖來理解類別。最終是分為4類還是3類,這是個復雜的過程,需要專業知識和最初的目的來識別。
這里試著確定分為4類。選擇「保存」,則在數據區域內會自動生成聚類結果。
問題三:用於聚類的變數對聚類過程、結果又貢獻么,有用么?——採用「單因素方差分析」
聚類分析除了對類別的確定需討論外,還有一個比較關鍵的問題就是分類變數到底對聚類有沒有作用有沒有貢獻,如果有個別變數對分類沒有作用的話,應該剔除。
這個過程一般用單因素方差分析來判斷。注意此時,因子變數選擇聚為4類的結果,而將三個聚類變數作為因變數處理。方差分析結果顯示,三個聚類變數sig值均極顯著,我們用於分類的3個變數對分類有作用,可以使用,作為聚類變數是比較合理的。
問題四:聚類結果的解釋?——採用」均值比較描述統計「
聚類分析最後一步,也是最為困難的就是對分出的各類進行定義解釋,描述各類的特徵,即各類別特徵描述。這需要專業知識作為基礎並結合分析目的才能得出。
我們可以採用spss的means均值比較過程,或者excel的透視表功能對各類的各個指標進行描述。其中,report報表用於描述聚類結果。對各類指標的比較來初步定義類別,主要根據專業知識來判定。這里到此為止。
以上過程涉及到spss層次聚類中的Q型聚類和R型聚類,單因素方差分析,means過程等,是一個很不錯的多種分析方法聯合使用的案例。
聚類分析的應用
聚類分析是細分市場的有效工具,被用來發現不同的客戶群,並且它通過對不同的客戶群的特徵的刻畫,被用於研究消費者行為,尋找新的潛在市場。
聚類分析被用來對動植物和基因進行分類,以獲取對種群固有結構的認識。
聚類分析可以通過平均消費來鑒定汽車保險單持有者的分組,同時可以根據住宅類型、價值、地理位置來鑒定城市的房產分組。
聚類分析被用來在網上進行文檔歸類。
聚類分析通過分組聚類出具有相似瀏覽行為的客戶,並分析客戶的共同特徵,從而幫助電子商務企業了解自己的客戶,向客戶提供更合適的服務。
㈤ 聚類分析
化探工作中常常要研究元素和樣品分類問題。聚類分析則提供了一些數量化的衡量元素或樣品相似程度的指示,利用這些指標可將元素樣品按其相似程度的大小劃分為不同的類,從而揭示元素或樣品之間的本質聯系,這有助於研究元素共生組合關系和對岩體異常等的分類評價。
根據分類對象不同,聚類分析分為R型聚類分析(對元素進行分類),Q型聚類分析(對樣品進行分類)。聚類分析一般採用逐次聯結法,具體做法如下。
1.轉換對數
常將實測數據先轉換為對數,因為微量元素多屬對數正態分布,而且數據過於離散。
2.數據均勻化
數據均勻化化的目的是將大小懸殊的數據化為同一度量的水平上。均勻化的方法常用的有:
(1)標准化
用於R型聚類分析,計算公式:
地球化學找礦
式中:zij為標准化數據;xij為原始數據(對數值);xi為 i個變數的平均值(對數平均值),
(2)正規化
用於Q型聚類分析,計算公式:
地球化學找礦
式中:wij為正規化數據;xij為原始數據(對數值);xi(max)為i個變數的最大值(對數值);xi(min)為i個變數的最小值(對數值);i 為變數數(i =1,2,3,…,m);j 為樣品數(j=1,2,3,…,n)。
(3)計算相似性統計量
1)相關系數r
用於R型聚分析,計算公式(任何兩元素):
地球化學找礦
數據標准化後:
地球化學找礦
-1≤r≤1,|r|愈大,元素愈相似。
2)相似性系數
用於Q型聚類分析,計算公式(任何二樣品):
地球化學找礦
-1≤cosθ≤1,|cosθ|愈大,元素愈相似。
3)距離系數
用於Q型聚類分析,計算公式(對於任何兩樣品)
地球化學找礦
對於正規化數據0≤d≤1,d值越小樣品越相似。將計算出的相似性統計量排列成矩陣。
(4)根據相似性統計量進行分類
1)選出相似程度最大(即相關系數、相似性系數最大,距離系數最小)的一對元素或樣品聯結成一類,填入分類表(表6-4),聯結後的元素或樣品組成一個新變數(新樣品)替換序號較小的變數(樣品),去掉序號較大的變數(樣品)。
2)將聯結成一類的元素或樣品均勻化數據加權平均,替換序號較小的一行作為新變數(新樣品)的數據,去掉序號較大的一行數據,其餘各行不變。得到比原來少一個變數或樣品的均勻化數據表。
表6-4 分類統計表
加權平均計算公式:
如第一、二兩個元素聯結後新變數的標准化數據為,則:
地球化學找礦
N1和N2分別為權,未組合的數據權為1,組合一次權增加1。
3)根據新變數(新樣品)的數據,計算新變數(新樣品)與其餘變數(樣品)間的相似性統計量,其餘不變,列出新的矩陣。
4)重復上述1),2),3)各步驟,即挑選相似程度最大的變數(或樣品)聯結歸類;加權平均合並數據;計算新變數(新樣品)與其他變數(樣品)間的相似性統計量,刷新原矩陣,直至全部聯結完畢為止。
5)製作譜系圖,見圖6-3。
圖6-3 譜系圖(示意)
3.計算實例
某地一批超基性岩樣品,經分析 Ni,Co,Cu,Cr,S,As含量如表6-5。
表6-5 某地超基性樣品Ni,Co,Cu,Cr,S,As 含量
(1)用R型聚類分析對元素進行分類
1)將原始數據轉換為對數,並計算各元素對數值的平均值和標准離差,其結果見表6-6。
2)將各樣品中各元素含量對數值進行標准化。
3)按照數據標准化公式:
地球化學找礦
地球化學找礦
於是可得標准化數據表6-7。
表6-7 標准化數據
4)計算相關系數,列出相關系數矩陣R(0),按照相關系數計算公式:
地球化學找礦
於是得相關矩陣R(0):
地球化學找礦
5)將R(0)中相關系數最大的Co,Cu聯結成一類,記為Co′填入分類統計表中,並計算Co′的數據。
按照加權平均計算公式:
地球化學找礦
於是得表6-8。
表6-8 由R(0)得到的Co′值
6)計算新變數Co′與剩餘的變數的相關系數,列出新相關矩陣R(1)。
相關系數計算公式同前(以下同),於是得:
地球化學找礦
7)將R(1)中相關系數最大的Ni,Co′聯結成一類,記為Ni′填入分類統計表中,並計算Ni′的數據。
Ni′的數據仍按前加權平均的公式計算(以下同),於是得表6-9。
表6-9 由Co′重新計算的Ni′值
8)計算新變數Ni′與剩餘的變數的相關系數,列出新相關矩陣R(2)。
於是得:
地球化學找礦
9)將R(2)中相關系數最大的S,As聯結成一類,記為填入分類統計表中,並計算S′的數據(表6-10)。
表6-10 S′計算結果
10)計算新變數S′與剩餘變數的相關系數,列出刷新的相關矩陣R(3):
地球化學找礦
11)將R(3)中相關系數最大的 Ni′與 S′聯結成一類,記為 Ni″,填入分類統計表中(表6-11)。
表6-11 Ni″計算結果
12)計算新變數Ni″與剩餘變數的相關系數,列出刷新的相關矩R(4)。
13)最後將Ni″與Cr聯結起來,記入分類統計表6-12。
表6-12 分類統計表
14)製作譜系圖(圖6-4)。
圖6-4 譜系圖
從上述譜系圖可見,在相關系數0.2~0.5的相似水平上,可將述六個元素分為兩類:一類是 Cr(親氧元素);另一類是 Co,Cu,Ni,As(親硫元素)。在相關系數0.6 左右可將親硫元素分為兩組,一組是S,As(陰離子);一組是Co,Cu,Ni(陽離子),且Co,Cu相關關系更密切。這樣R型聚類分析清楚地顯示出這些元素在超基性岩石的相互關系。
(2)用Q型聚類分析對樣品進行分類
仍以上述超基岩樣品分析結果為例。
對樣品分類常用距離系數。由於距離系數是對直角坐標系而言,即要求變數要互不相關。故可先用R型聚類分析(式R型因子分析)選出互相獨立的變數(在用R型聚類分析時,通常取相關系數絕對值小的變數),然後以距離系數對樣品進行分類。
上例R型聚類分析結果,在R=0.6 水平左右可將變數分為三組,即Ni′(Ni,Co,Cu);S′(S,As);Cr,現以這三組為變數對樣品進行分類。
1)將變數數據(對數值)進行合並,得出新的數據表。合並的辦法是取該組變數的平均值,於是得表6-13。
表6-13 對變數數據合並後的新的數據
2)將數據正規化。按正規化的公式:
地球化學找礦
於是得表6-14。
表6-14 正規化後的數據表
3)計算距離系數djk,列出初始距離系數矩陣D(0)。
按距離系數公式:
地球化學找礦
於是得:
地球化學找礦
4)將D(0)中距離系數值最小的(5),(6)樣品聯結成一類,記為(5′)填入分類統計表中,並計算(5′)的數據。
按照加權平均計算公式:
地球化學找礦
於是得表6-15。
表6-15 (5′)的數據表
5)計算(5′)與樣品的距離系數,列出刷新距離系數矩陣D(1),於是得:
地球化學找礦
6)將D(1)中距離系數最大的(2),(5′)聯結成一類,記為(2′),填入分類統計表中,並計算(2′)的數據。於是得表6-16。
表6-16 (2′)的數據表
7)計算(2′)與剩餘樣品的距離系數,列出刷新的距離系數矩陣D(2),於是得:
地球化學找礦
8)將D(2)中距離系數最小的(1),(4)聯結成一類,記為(1′),填入分類統計表中,並計算(1′)的數據。於是得表6-17。
表6-17 (1′)的數據表
9)計算(1′)與剩餘樣品的距離系數,列出刷新的距離系數矩陣D(3),於是得:
地球化學找礦
10)將D(3)中距離系數最小的(1′),(2′),聯結成一類,記為(1″),填入分類統計表中,並計算(1″)的數據。於是得表6-18。
表6-18 (1″)的數據表
11)計算(1″)與剩餘樣品的距離系數,列出新的距離系數矩陣D(4),於是得:
地球化學找礦
12)最後將(1″),(3)聯結成一類,填入分類統計表6-19。
表6-19 分類統計表
13)製作譜系圖(圖6-5)。
圖6-5 譜系圖
從譜系圖上可得:在距離系數0.35~0.5水平上,可將數個樣品分成三類;一類是礦化的蛇紋岩(1)及(4);另一類是無礦化的蛇紋岩(2)及滑鎂岩(5),(6);樣品(3)為單獨一類,它是無礦化的蛇紋岩。因此,通過Q型聚類分析很好地將該地含礦岩體和不含礦岩體區分開來。至於樣品(3)單獨開,還可進一步研究它與其他無礦岩體的差異。
這里需要特別指出的是,運用回歸分析、判別分析、聚類分析都是在特定的地質條件下得出的統計規律,因此,在利用這些規律對未知進行判斷時,一定要注意地質條件的相似性,切不可把某一地質條件下導出的規律,生搬硬套地用於解決不同地質條件下的問題。
㈥ 聚類分析方法有哪些
問題一:什麼是聚類分析?聚類演算法有哪幾種 聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源於
分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行
定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識
難以確切地進行分類,於是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之後又
將多元分析的技術引入到數值分類學形成了聚類分析。
聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論
聚類法、聚類預報法等。
聚類分析計算方法主要有如下幾種:分裂法(partitioning methods):層次法(hierarchical
methods):基於密度的方法(density-based methods): 基於網格的方法(grid-based
methods): 基於模型的方法(model-based methods)。
問題二:聚類分析方法有什麼好處 5分 聚類分析:將個體(樣品)或者對象(變數)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。其主要依據是聚到同一個數據集中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。
常用聚類方法:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。
注意事項:
1. 系統聚類法可對變數或者記錄進行分類,K-均值法只能對記錄進行分類;
2. K-均值法要求分析人員事先知道樣品分為多少類;
3. 對變數的多元正態性,方差齊性等要求較高。
應用領域:細分市場,消費行為劃分,設計抽樣方案等
優點:聚類分析模型的優點就是直觀,結論形式簡明。
缺點:在樣本量較大時,要獲得聚類結論有一定困難。由於相似系數是根據被試的反映來建立反映琺試間內在聯系的指標,而實踐中有時盡管從被試反映所得出的數據中發現他們之間有緊密的關系,但事物之間卻無任何內在聯系,此時,如果根據距離或相似系數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。
問題三:什麼是聚類分析? 聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源於
分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行
定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識
難以確切地進行分類,於是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之後又
將多元分析的技術引入到數值分類學形成了聚類分析。
聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論
聚類法、聚類預報法等。
聚類分析計算方法主要有如下幾種:分裂法(partitioning methods):層次法(hierarchical
methods):基於密度的方法(density-based methods): 基於網格的方法(grid-based
methods): 基於模型的方法(model-based methods)。
問題四:常用的聚類方法有哪幾種?? 1.k-mean聚類分析 適用於樣本聚類;
2.分層聚類 適用於對變數聚類;
3.兩步搐類 適用於分類變數和連續變數聚類;
4.基於密度的聚類演算法;
5.基於網路的聚類;
6.機器學習中的聚類演算法;
前3種,可用spss簡單操作實現;
問題五:spss聚類分析方法有哪些 首先,k-means你每次算的結果都會不一樣,因為結果跟初始選取的k個點有關
問題六:聚類分析方法是什麼? 5分 聚類分析:將個體(樣品)或者對象(變數)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。
問題七:聚類分析的演算法 聚類分析是數據挖掘中的一個很活躍的研究領域,並提出了許多聚類演算法。傳統的聚類演算法可以被分為五類:劃分方法、層次方法、基於密度方法、基於網格方法和基於模型方法。1 劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然後利用一個循環定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:k-means,k-medoids,CLARA(Clustering LARge Application),CLARANS(Clustering Large Application based upon RANdomized Search).FCM2 層次方法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上而下(分解)和自下而上(合並)兩種操作方式。為彌補分解與合並的不足,層次合並經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利用其它聚類方法對這些聚類進行優化。CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定量(向聚類中心)進行收縮。ROCK方法,它利用聚類間的連接進行聚類合並。CHEMALOEN方法,它則是在層次聚類時構造動態模型。3 基於密度的方法,根據密度完成對象的聚類。它根據對象周圍的密度(如DBSCAN)不斷增長聚類。典型的基於密度方法包括:DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義為一組「密度連接」的點集。OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。4 基於網格的方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利用網格結構完成聚類。STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基於網格聚類的方法。CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方法。5 基於模型的方法,它假設每個聚類的模型並發現適合相應模型的數據。典型的基於模型方法包括:統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是採用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建一個層次聚類。CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚類。它為每個結點中的每個屬性保存相應的連續正態分布(均值與方差);並利用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對大資料庫進行聚類處理.傳統的聚類演算法已經比較成功的解決了低維數據的聚類問題。但是由於實際應用中數據的復雜性,在處理許多問題時,現有的演算法經常失效,特別是對於高維數據和大型數據的......>>
問題八:主成分分析法和聚類分析法的區別
問題九:聚類分析方法具體有哪些應用?可不可以舉個例子? 比如說現在要把n個產品按產品的m個指標繼續聚類,因為產品可能之前的特色是不一樣的。而這個時候影響產品的因素有m個,不可能一個一個的考慮,那樣是分不出類來的。所以只能對產品的m個指標綜合考慮,採用SPSS中的樣本聚類方法,就可以直接將產品分好類。並且從分析結果還可以看出各類產品的特色分別是什麼。。就是最主要的分類標準是什麼。
聚類分析不僅可以用於樣本聚類,還可以用於變數聚類,就是對m個指標進行聚類。因為有時指標太多,不能全部考慮,需要提取出主要因素,而往往指標之間又有很多相關聯的地方,所以可以先對變數聚類,然後從每一類中選取出一個代表型的指標。這樣就大大減少了指標,並且沒有造成巨大的信息丟失。