『壹』 聚類分析的分析原理是什麼。
聚類分析是研究「物以類聚」的一種科學有效的方法。做聚類分析時,出於不同的目的和要求,可以選擇不同的統計量和聚類方法。
系統聚類是目前應用最為廣泛的一種聚類方法,其基本思想是:先將待聚類的n個樣品(或者變數)各自看成一類,共有n類;然後按照實現選定的方法計算每兩類之間的聚類統計量,即某種距離(或者相似系數),將關系最為密切的兩類合為一類,其餘不變,即得到n-1類;再按照前面的計算方法計算新類與其他類之間的距離(或相似系數),再將關系最為密切的兩類並為一類,其餘不變,即得到n-2類;如此下去,每次重復都減少一類,直到最後所有的樣品(或者變數)都歸為一類為止。
『貳』 K均值聚類法和系統聚類法有什麼區別,這兩種聚類方法的適用條件都是什麼
適用條件:系統聚類法適於二維有序樣品聚類的樣品個數比較均勻。K均值聚類法適用於快速高效,特別是大量數據時使用。
兩者區別如下:
一、指代不同
1、K均值聚類法:是一種迭代求解的聚類分析演算法。
2、系統聚類法:又叫分層聚類法,聚類分析的一種方法。
二、步驟不同
1、K均值聚類法:步驟是隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。
2、系統聚類法:開始時把每個樣品作為一類,然後把最靠近的樣品(即距離最小的群品)首先聚為小類,再將已聚合的小類按其類間距離再合並,不斷繼續下去,最後把一切子類都聚合到一個大類。
三、目的不同
1、K均值聚類法:終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。
2、系統聚類法:是以距離為相似統計量時,確定新類與其他各類之間距離的方法,如最短距離法、最長距離法、中間距離法、重心法、群平均法、離差平方和法、歐氏距離等。
『叄』 有哪些常用的聚類演算法
聚類分析計算方法主要有如下幾種:
1. 劃分法(partitioning methods)
給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:(1) 每一個分組至少包含一個數據紀錄;(2)每一個數據紀錄屬於且僅屬於一個分組(注意:這個要求在某些模糊聚類演算法中可以放寬);對於給定的K,演算法首先給出一個初始的分組方法,以後通過反復迭代的方法改變分組,使得每一次改進之後的分組方案都較前一次好,而所謂好的標准就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。使用這個基本思想的演算法有:K-MEANS演算法、K-MEDOIDS演算法、CLARANS演算法;
2. 層次法(hierarchical methods)
這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。例如在「自底向上」方案中,初始時每一個數據紀錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合並成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表演算法有:BIRCH演算法、CURE演算法、CHAMELEON演算法等;
3. 基於密度的方法(density-based methods)
基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。這個方法的指導思想就是,只要一個區域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。代表演算法有:DBSCAN演算法、OPTICS演算法、DENCLUE演算法等;
4. 基於網格的方法(grid-based methods)
這種方法首先將數據空間劃分成為有限個單元(cell)的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快,通常這是與目標資料庫中記錄的個數無關的,它只與把數據空間分為多少個單元有關。代表演算法有:STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法;
5. 基於模型的方法(model-based methods)
基於模型的方法給每一個聚類假定一個模型,然後去尋找能個很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是:目標數據集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統計的方案和神經網路的方案。
『肆』 如何運用聚類分析法
聚類分析法是理想的多變數統計技術,主要有分層聚類法和迭代聚類法。聚類通過把目標數據放入少數相對同源的組或「類」(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標准化,然後成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean 「距離」中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使「類」內分散度最小化的方法。
聚類方法有兩個顯著的局限:首先,要聚類結果要明確就需分離度很好(well-separated)的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度通過序列比較來指導聚類解釋。
第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較,大大減少發現表達類型關系的計算量,但忽視了生物系統多因素和非線性的特點。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言,聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。
聚類分析還可以作為其他數據挖掘任務(如分類、關聯規則)的預處理步驟。
數據挖掘領域主要研究面向大型資料庫、數據倉庫的高效實用的聚類分析演算法。
聚類分析是數據挖掘中的一個很活躍的研究領域,並提出了許多聚類演算法。
這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和
基於模型方法。
1 劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然後利用一個循環
定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 層次方法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上
而下(分解)和自下而上(合並)兩種操作方式。為彌補分解與合並的不足,層次合
並經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:
第一個是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利
用其它聚類方法對這些聚類進行優化。
第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定
量(向聚類中心)進行收縮。
第三個是ROCK方法,它利用聚類間的連接進行聚類合並。
最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。
3 基於密度方法,根據密度完成對象的聚類。它根據對象周圍的密度(如
DBSCAN)不斷增長聚類。典型的基於密度方法包括:
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密
度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義
為一組「密度連接」的點集。
OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一
個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。
4 基於網格方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利
用網格結構完成聚類。
STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基
於網格聚類的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方
法。
5 基於模型方法,它假設每個聚類的模型並發現適合相應模型的數據。典型的
基於模型方法包括:
統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建
一個層次聚類。
CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚
類。它為每個結點中的每個屬性保存相應的連續正態分布(均值與方差);並利
用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)
和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
因此它們都不適合對大資料庫進行聚類處理.
『伍』 在進行系統聚類分析時,不同的類間距離計算方法有何區別
聚類分析有兩種主要計算方法,分別是凝聚層次聚類(Agglomerative hierarchical method)和K均值聚類(K-Means)。
一、層次聚類
層次聚類又稱為系統聚類,首先要定義樣本之間的距離關系,距離較近的歸為一類,較遠的則屬於不同的類。可用於定義「距離」的統計量包括了歐氏距離 (euclidean)、馬氏距離(manhattan)、 兩項距離(binary)、明氏距離(minkowski)。還包括相關系數和夾角餘弦。
層次聚類首先將每個樣本單獨作為一類,然後將不同類之間距離最近的進行合並,合並後重新計算類間距離。這個過程一直持續到將所有樣本歸為一類為止。在計算類間距離時則有六種不同的方法,分別是最短距離法、最長距離法、類平均法、重心法、中間距離法、離差平方和法。
下面我們用iris數據集來進行聚類分析,在R語言中所用到的函數為hclust。首先提取iris數據中的4個數值變數,然後計算其歐氏距離矩陣。然後將矩陣繪制熱圖,從圖中可以看到顏色越深表示樣本間距離越近,大致上可以區分出三到四個區塊,其樣本之間比較接近。
data=iris[,-5]
dist.e=dist(data,method='euclidean')
heatmap(as.matrix(dist.e),labRow = F, labCol = F)
X
然後使用hclust函數建立聚類模型,結果存在model1變數中,其中ward參數是將類間距離計算方法設置為離差平方和法。使用plot(model1)可以繪制出聚類樹圖。如果我們希望將類別設為3類,可以使用cutree函數提取每個樣本所屬的類別。
model1=hclust(dist.e,method='ward')
result=cutree(model1,k=3) 為了顯示聚類的效果,我們可以結合多維標度和聚類的結果。先將數據用MDS進行降維,然後以不同的的形狀表示原本的分類,用不同的顏色來表示聚類的結果。可以看到setose品種聚類很成功,但有一些virginica品種的花被錯誤和virginica品種聚類到一起。
『陸』 系統聚類的原理
確定了距離和相似系數後就要進行分類。分類有許多種方法,最常用的一種方法是在樣品距離的基礎上定義類與類之間的距離。首先將n個樣品分成n類,每個樣品自成一類,然後每次將具有最小距離的兩類合並,合並後重新計算類與類之間的距離,這個過程一直持續到將所有的樣品歸為一類為止,並把這個過程畫成一張聚類圖,參照聚類圖可方便地進行分類。因為聚類圖很像一張系統圖,所以這種方法就叫系統聚類法。系統聚類法是在實際中使用最多的一種方法,從上面的分析可以看出,雖然我們已給了計算樣品之間距離的方法,但在實際計算過程中還要定義類與類之間的距離。定義類與類之間的距離也有許多方法,不同的方法就產生了不同的系統聚類方法,常用的有如下六種:
(1)最短距離法:類與類之間的距離等於兩類最近樣品之間的距離;
(2)最長距離法:類與類之間的距離等於兩類最遠樣品之間的距離:
(3)類平均法:類與類之問的距離等於各類元素兩兩之間的平方距離的平均;
(4)重心法:類與類之間的距離定義為對應這兩類重心之間的距離對樣品分類來說,每一類的類重心就是該類樣品的均值;
(5)中間距離法:最長距離法誇大了類間距離,最短距離法低估了類間距離介於兩者問的距離法即為中間距離法,類與類之問的距離既不採用兩類之間最近距離。也不採用最遠距離,而是採用介於最遠和最近之間的距離;
(6)離差平方和法(Ward法):基於方差分析的思想,如果分類正確,同類樣品之間的離差平方和應當較小,類與類之間的離差平方和應當較大
『柒』 spss系統聚類分析解讀
1.打開SPSS19.0,在界面鏟膚內輸入你需要分析的數據.
2.在上面菜單欄選擇「分析」-「分類」-「系統聚類」,得到系統聚類選項框
3.將A、B、C、D四組數據分別選擇進入變數框內.
4.點擊右邊「繪制」選項,披濤羞選中「樹狀圖」.
5.在「方法」選項中選擇你需要選擇的方法.
6.點擊「繼續」-「確認」.恭喜你,你需要的系統類聚樹狀圖舍犧出來了.
『捌』 常用的聚類方法有哪幾種
聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。
1、劃分法,給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。
2、層次法,這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。
3、基於密度的方法,基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。
4、圖論聚類方法解決的第一步是建立與問題相適應的圖,圖的節點對應於被分析數據的最小單元,圖的邊(或弧)對應於最小處理單元數據之間的相似性度量。
5、基於網格的方法,這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。
6、基於模型的方法,基於模型的方法給每一個聚類假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。
(8)系統類聚的常用方法擴展閱讀:
在商業上,聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來,並且概括出每一類消費者的消費模式或者說習慣。
它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息,並且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;並且,聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。
許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好;但是,一個大規模資料庫可能包含幾百萬個對象,在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。
許多聚類演算法在聚類分析中要求用戶輸入一定的參數,例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定,特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔,也使得聚類的質量難以控制。
『玖』 聚類分析中常見的數據類型有哪些
簡單地說,分類(Categorization or Classification)就是按照某種標准給對象貼標簽(label),再根據標簽來區分歸類.
簡單地說,聚類是指事先沒有「標簽」而通過某種成團分析找出事物之間存在聚集性原因的過程.
區別是,分類是事先定義好類別 ,類別數不變 .分類器需要由人工標注的分類訓練語料訓練得到,屬於有指導學習范疇.聚類則沒有事先預定的類別,類別數不確定. 聚類不需要人工標注和預先訓練分類器,類別在聚類過程中自動生成 .分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文檔文摘、搜索引擎結果後聚類(元搜索)等.
分類的目的是學會一個分類函數或分類模型(也常常稱作分類器 ),該模型能把資料庫中的數據項映射到給定類別中的某一個類中. 要構造分類器,需要有一個訓練樣本數據集作為輸入.訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記.一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示欄位值,c表示類別.分類器的構造方法有統計方法、機器學習方法、神經網路方法等等.
聚類(clustering)是指根據「物以類聚」原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數據對象的集合叫做簇,並且對每一個這樣的簇進行描述的過程.它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似.與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組.其目的旨在發現空間實體的屬性間的函數關系,挖掘的知識用以屬性名為變數的數學方程來表示.聚類技術正在蓬勃發展,涉及范圍包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為數據挖掘研究領域中一個非常活躍的研究課題.常見的聚類演算法包括:K-均值聚類演算法、K-中心點聚類演算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等.
『拾』 幾種主要類聚方法的比較和試驗
引言 聚類分析是人類的區分標志之一,從孩提時代開始,一個人就下意識地學會區分動植物,並且不斷改進。這一原理在如今不少領域得到了相應的研究和應用,比如模式識別、數據分析、圖像處理、Web文檔分類等。 將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。「物以類聚,人以群分」,在自然科學和社會科學中,存在著大量的分類問題。 聚類技術正在蓬勃發展,對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進,而不同的方法適合於不同類型的數據,因此對各種聚類方法、聚類效果的比較成為值得研究的課題。 1 聚類演算法的分類 現在有很多的聚類演算法,而在實際應用中,正確選擇聚類演算法的則取決於數據的類型、聚類的目的等因素。如果聚類分析被用作描述或探查的工具,可以對同樣的數據嘗試多種演算法,以發現數據可能揭示的結果。 已知的聚類演算法可以大致劃分為以下幾類:劃分方法、層次方法、基於密度的方法、基於網格的方法和基於模型的方法。 每一個類型的演算法都被廣泛地應用著,例如:劃分方法中的k-means聚類演算法、層次方法中的凝聚型層次聚類演算法、基於模型方法中的神經網路聚類演算法等。 聚類問題的研究早已不再局限於上述的硬聚類,即每一個數據只能被歸為一類,模糊聚類也是聚類分析中研究較為廣泛的一個「流派」。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度,而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出,如FCM演算法。 本文主要分析和比較k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法。通過通用測試數據集進行聚類效果的比較和分析。 2 四種常用聚類演算法研究 2.1 k-means聚類演算法 k-means是劃分方法中較經典的聚類演算法之一。該演算法的效率高,使得在對大規模數據進行聚類時廣泛應用。目前,許多演算法均圍繞著該演算法進行擴展和改進。 k-means演算法以k為參數,把n個對象分成k個簇,使簇內具有較高的相似度,而簇間的相似度較低。k-means演算法的處理過程如下:首先,隨機地選擇k個對象,每個對象初始地代表了一個簇的平均值或中心;對剩餘的每個對象,根據其與各簇中心的距離,將它賦給最近的簇;然後重新計算每個簇的平均值。這個過程不斷重復,直到准則函數收斂。通常,採用平方誤差准則,其定義如下: 這里E是資料庫中所有對象的平方誤差的總和,p是空間中的點,mi是簇Ci的平均值。該目標函數使生成的簇盡可能緊湊獨立,使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下: 輸入:包含n個對象的資料庫和簇的數目k; 輸出:k個簇,使平方誤差准則最小。 步驟: (1) 任意選擇k個對象作為初始的簇中心; (2) repeat; (3) 根據簇中對象的平均值,將每個對象(重新)賦予最類似的簇; (4) 更新簇的平均值,即計算每個簇中對象的平均值; (5) until不再發生變化。 2.2 層次聚類演算法 根據層次分解的順序,層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。 凝聚型層次聚類的策略是先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到所有對象都在一個簇中,或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類,它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下: 這里給出採用最小距離的凝聚層次聚類演算法流程: (1) 將每個對象看作一類,計算兩兩之間的最小距離; (2) 將距離最小的兩個類合並成一個新類; (3) 重新計算新類與所有類之間的距離; (4) 重復(2)、(3),直到所有類最後合並成一類。 2.3 SOM聚類演算法 SOM神經網路是由芬蘭神經網路專家Kohonen教授提出的,該演算法假設在輸入對象中存在一些拓撲結構或順序,可以實現從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。 SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在2維網格上的有序節點構成,輸入節點與輸出節點通過權重向量連接。學習過程中,找到與之距離最短的輸出層單元,即獲勝單元,對其更新。同時,將鄰近區域的權值更新,使輸出節點保持輸入向量的拓撲特徵。 演算法流程: (1) 網路初始化,對輸出層每個節點權重賦初值; (2) 將輸入樣本中隨機選取輸入向量,找到與輸入向量距離最小的權重向量; (3) 定義獲勝單元,在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏; (4) 提供新樣本、進行訓練; (5) 收縮鄰域半徑、減小學習率、重復,直到小於允許值,輸出聚類結果。 2.4 FCM聚類演算法 1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展,模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點,出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析,就是模糊聚類分析。 FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。 演算法流程: (1) 標准化數據矩陣; (2) 建立模糊相似矩陣,初始化隸屬矩陣; (3) 演算法開始迭代,直到目標函數收斂到極小值; (4) 根據迭代結果,由最後的隸屬矩陣確定數據所屬的類,顯示最後的聚類結果。 3 試驗 3.1 試驗數據 實驗中,選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS數據集,IRIS數據集包含150個樣本數據,分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本,每個數據含有4個屬性,即萼片長度、萼片寬度、花瓣長度,單位為cm。在數據集上執行不同的聚類演算法,可以得到不同精度的聚類結果。 3.2 試驗結果說明 文中基於前面所述各演算法原理及演算法流程,用matlab進行編程運算,得到表1所示聚類結果。 如表1所示,對於四種聚類演算法,按三方面進行比較: (1)聚錯樣本數:總的聚錯的樣本數,即各類中聚錯的樣本數的和; (2)運行時間:即聚類整個過程所耗費的時間,單位為s; (3)平均准確度:設原數據集有k個類,用ci表示第i類,ni為ci中樣本的個數,mi為聚類正確的個數,則mi/ni為第i類中的精度,則平均精度為: 3.3 試驗結果分析 四種聚類演算法中,在運行時間及准確度方面綜合考慮,k-means和FCM相對優於其他。但是,各個演算法還是存在固定缺點:k-means聚類演算法的初始點選擇不穩定,是隨機選取的,這就引起聚類結果的不穩定,本實驗中雖是經過多次實驗取的平均值,但是具體初始點的選擇方法還需進一步研究;層次聚類雖然不需要確定分類數,但是一旦一個分裂或者合並被執行,就不能修正,聚類質量受限制;FCM對初始聚類中心敏感,需要人為確定聚類數,容易陷入局部最優解;SOM與實際大腦處理有很強的理論聯系。但是處理時間較長,需要進一步研究使其適應大型資料庫。 4 結語 聚類分析因其在許多領域的成功應用而展現出誘人的應用前景,除經典聚類演算法外,各種新的聚類方法正被不斷被提出。
該文章僅供學習參考使用,版權歸作者所有。