⑴ 技術 | 文本聚類與分類
按照處理的對象和處理的方法不同,可將常見文本分類/聚類任務分為以下幾種:
① 文檔聚類: 把一組未知類別的文檔劃分為若干類別,例如將介紹奧運會的新聞都歸到某一類;
② 文檔分類: 給定一個文檔,將其劃分到預定義好的某一個類別中,例如將所有介紹奧運會的新聞都標記為「體育」;
③ 詞彙聚類: 把一組未知類別的詞彙劃分為若干類別,例如將各種運動的項目名稱(詞彙)都歸為一類;
④ 詞彙分類: 給定一個詞彙,將其劃分到預定義好的某一個類別中,例如將籃球、足球等都比較為球類,將打獵、射箭等都標記為射擊。
要實現上述目的,通常有以下幾個核心問題要解決:
1. 特徵選擇
1.1 用什麼作為特徵項
用於表示文本的基本單位通常稱為文本的特徵或特徵項。特徵項必須滿足:能夠標識文本內容、能夠將目標文本與其他文本相區分、個數不能太多、特徵項分離要比較容易實現。在中文文本中可以採用字、詞或短語作為表示文本的特徵項。
相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數中文文本分類系統都採用詞作為特徵項,稱作特徵詞。這些特徵詞作為文檔的中間表示形式,用來實現文檔與文檔、文檔與用戶目標之間的相似度計算 。
1.2 選取哪些作為特徵項
如果把所有的詞都作為特徵項,那麼特徵向量的維數將過於巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特徵提取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數,以此來降低向量空間維數,從而簡化計算,提高文本處理的速度和效率。
特徵選取的方式有2種:用映射或變換的方法把原始特徵變換為較少的新特徵(將原始特徵用新特徵表示);從原始特徵中挑選出一些最具代表性的特徵(只保留部分原始特徵,不產生新特徵),即根據某個特徵評估函數計算各個特徵的評分值,然後按評分值對這些特徵進行排序,選取若干個評分值最高的作為特徵詞,常見的特徵評估函數包括TF-IDF、信息增益、互信息等。
2. 文本表示
2.1 如何表示文檔
為了讓計算機能夠「計算」文本,就需要我們將文本數據轉換成計算機可以處理的結構化數據。常見的文本表示模型有布爾模型、向量空間模型、統計主題模型等。其中,向量空間模型概念簡單,把對文本內容的處理簡化為向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度,直觀易懂,目前應用最廣。
2.2 如何確立權重
一篇文檔有很多詞,有些詞表達的語義很重要,有些相對次要,那麼如何確定哪些重要?哪些次要呢?因此,需要進一步對每個詞的重要性進行度量。常見的確立詞彙權重的演算法有TF-IDF、詞頻法等。
3. 相似性計算
要實現文本的分類和聚類,需要設計一種演算法計算出文檔與文檔、詞彙與詞彙之間的相似性。
3.1 文檔相似性
設定我們要比較X和Y間的差異,它們都包含了N個維的特徵,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面來看看主要可以用哪些方法來衡量兩者的差異,主要分為距離度量和相似度度量。
a. 距離度量
距離度量(Distance)用於衡量個體在空間上存在的距離,距離越遠說明個體間的差異越大。常見的距離有歐幾里得距離(Euclidean Distance)、明可夫斯基距離(Minkowski Distance)、曼哈頓距離(Manhattan Distance)、切比雪夫距離(Chebyshev Distance)、馬哈拉諾比斯距離(Mahalanobis Distance)。
b. 相似性度量
相似度度量(Similarity),即計算個體間的相似程度,與距離度量相反,相似度度量的值越小,說明個體間相似度越小,差異越大。常見的相似性度量有向量空間餘弦相似度(Cosine Similarity)、皮爾森相關系數(Pearson Correlation Coefficient)、Jaccard相似系數(Jaccard Coefficient)、調整餘弦相似度(Adjusted Cosine Similarity)。
歐氏距離是最常見的距離度量,而餘弦相似度則是最常見的相似度度量,很多的距離度量和相似度度量都是基於這兩者的變形和衍生,所以下面重點比較下兩者在衡量個體差異時實現方式和應用環境上的區別。下面藉助三維坐標系來看下歐氏距離和餘弦相似度的區別:
從圖上可以看出距離度量衡量的是空間各點間的絕對距離,跟各個點所在的位置坐標(即個體特徵維度的數值)直接相關;而餘弦相似度衡量的是空間向量的夾角,更加的是體現在方向上的差異,而不是位置。如果保持A點的位置不變,B點朝原方向遠離坐標軸原點,那麼這個時候餘弦相似度cosθ是保持不變的,因為夾角不變,而A、B兩點的距離顯然在發生改變,這就是歐氏距離和餘弦相似度的不同之處。
根據歐氏距離和餘弦相似度各自的計算方式和衡量特徵,分別適用於不同的數據分析模型:歐氏距離能夠體現個體數值特徵的絕對差異,所以更多的用於需要從維度的數值大小中體現差異的分析,如使用用戶行為指標分析用戶價值的相似度或差異;而餘弦相似度更多的是從方向上區分差異,而對絕對的數值不敏感,更多的用於使用用戶對內容評分來區分用戶興趣的相似度和差異,同時修正了用戶間可能存在的度量標准不統一的問題(因為餘弦相似度對絕對數值不敏感)。
3.2 詞彙相似性
目前我接觸的常見詞彙相似性的方法有:
a. 傳統圖情領域:基於共現頻次這一基本統計量衍生出來的,如association strength、inclusion index、Jaccard』s coefficient、Salton』s cosine(Ochiia系數)等;
b. 計算機領域:一是基於語義詞典的方法,即依據詞典分類體系挖掘所包含的詞義知識,常用的詞典包括Wordnet、Hownet等;二是基於語料庫的方法,這里的語料庫較為多元,例如網路預料、唐詩宋詞預料等;;三是進行詞向量化,如Word2vec。
4. 文本分類/聚類演算法
有了文本表示方法,又有了計算相似性的公式,下一步就可以在此基礎上討論文本分類/聚類的演算法了。
4.1 文本分類
醫生對病人進行診斷就是一個典型的分類過程,任何一個醫生都無法直接看到病人的病情,只能觀察病人表現出的症狀和各種化驗檢測數據來推斷病情,這時醫生就好比一個分類器,而這個醫生診斷的准確率,與他當初受到的教育方式(構造方法)、病人的症狀是否突出(待分類數據的特性)以及醫生的經驗多少(訓練樣本數量)都有密切關系。
分類器是對樣本進行分類的方法的統稱,包含決策樹、邏輯回歸、樸素貝葉斯、神經網路等演算法。舉個例子:假如你想區分小明是好學生還是壞學生,那麼區分「好學生」和「壞學生」就是一個分類任務。
4.1.1 K最鄰近
「別和其他壞學生在一起,否則你也會和他們一樣。」 —— 家長
主要思想是通過離待預測樣本最近的K個樣本的類別來判斷當前樣本的類別。從K最近鄰演算法的角度來看,就是讓目標樣本與其他正樣本距離更近、與其他負樣本距離更遠,從而使得其近鄰中的正樣本比例更高,更大概率被判斷成正樣本。
4.1.2 樸素貝葉斯
「根據以往抓獲的情況來看,十個壞學生有九個愛打架。」 —— 教導主任
「十個壞學生有九個愛打架」就意味著「壞學生」打架的概率P(打架|壞學生)=0.9,假設根據訓導處歷史記錄壞學生占學生總數P(壞學生)=0.1、打架發生的概率是P(打架)=0.09,那麼這時如果發生打架事件,就可以通過貝葉斯公式判斷出當事學生是「壞學生」的概率P(壞學生|打架)=P(打架|壞學生)×P(壞學生)÷P(打架)=1.0,即該學生100%是「壞學生」。
4.1.3 決策樹
「先看抽不抽煙,再看染不染頭發,最後看講不講臟話。」 ——社區大媽
假設「抽煙」、「染發」和「講臟話」是社區大媽認為的區分「好壞」學生的三項關鍵特徵,那麼這樣一個有先後次序的判斷邏輯就構成一個決策樹模型。在決策樹中,最能區分類別的特徵將作為最先判斷的條件,然後依次向下判斷各個次優特徵。決策樹的核心就在於如何選取每個節點的最優判斷條件,也即特徵選擇的過程。
而在每一個判斷節點,決策樹都會遵循一套IF-THEN的規則:
IF 「抽煙」 THEN -> 「壞學生」 ELSE IF 「染發」 THEN -> 「壞學生」 ELSE IF 「講臟話」 THEN -> 「壞學生」 ELSE -> 「好學生」
4.1.4 邏輯回歸
「上課講話扣1分,不交作業扣2分,比賽得獎加5分。」 ——紀律委員
我們稱邏輯回歸為一種線性分類器,其特徵就在於自變數x和因變數y之間存在類似y=ax+b的一階的、線性的關系。假設「上課講話」、「不交作業」和「比賽得獎」的次數分別表示為x1、x2、和x3,且每個學生的基礎分為0,那麼最終得分y=-1 x1-2 x2+5*x3+0。其中-1、-2和5分別就對應於每種行為在「表現好」這一類別下的權重。
對於最終得分y,邏輯回歸還通過Sigmoid函數將其變換到0-1之間,其含義可以認為是當前樣本屬於正樣本的概率,即得分y越高,屬於「表現好」的概率就越大。也就是說,假如紀律委員記錄了某位同學分別「上課講話」、「不交作業」和「比賽得獎」各一次,那麼最終得分y=-2-1+5=2,而對2進行Sigmoid變換後約等於0.88,即可知該同學有88%的概率為「好學生」。
4.1.5 支持向量機
「我想個辦法把表現差的學生都調到最後一排。」 ——班主任
支持向量機致力於在正負樣本的邊界上找到一條分割界線(超平面),使得它能完全區分兩類樣本的同時,保證劃分出的間隔盡量的大。如果一條分割界線無法完全區分(線性不可分),要麼加上鬆弛變數進行適當的容忍,要麼通過核函數對樣本進行空間上的映射後再進行劃分。對於班主任來講,調換學生們的座位就相當於使用了核函數,讓原本散落在教室里的「好」、「壞」學生從線性不可分變得線性可分了。
4.2 文本聚類
4.2.1 基於分層的聚類
hierarchical methods: 對數據集進行逐層分解,直到滿足某種條件為止。可分為「自底向上」和「自頂向下」兩種。例如「自底向上」指初始時每個數據點組成一個單獨的組,在接下來的迭代中,按一定的距離度量將相互鄰近的組合並成一個組,直至所有的記錄組成一個分組或者滿足某個條件為止。代表演算法有:BIRCH,CURE,CHAMELEON等。自底向上的凝聚層次聚類如下圖所示。
4.2.2 基於劃分的聚類
partitioning methods: 給定包含N個點的數據集,劃分法將構造K個分組,每個分組代表一個聚類,這里每個分組至少包含一個數據點,每個數據點屬於且僅屬於一個分組。對於給定的K值,演算法先給出一個初始的分組方法,然後通過反復迭代的方法改變分組,使得每一次改進之後的分組方案較前一次好,這里好的標准在於同一組中的點越近越好,不同組中的點越遠越好。代表演算法有:K-means,K-medoids,CLARANS。K-means聚類過程圖解如下:
4.2.3 基於密度的聚類
density-based methods: 基於密度的方法的特點是不依賴於距離,而是依賴於密度,從而克服基於距離的演算法只能發現「球形」聚簇的缺點。其核心思想在於只要一個區域中點的密度大於某個閾值,就把它加到與之相近的聚類中去。代表演算法有:DBSCAN,OPTICS,DENCLUE,WaveCluster。DBSCAN的聚簇生成過程的簡單理解如下圖。
4.2.3 基於網格的聚類
gird-based methods: 這種方法通常將數據空間劃分成有限個單元的網格結構,所有的處理都是以單個的單元為對象。這樣做起來處理速度很快,因為這與數據點的個數無關,而只與單元個數有關。代表演算法有:STING,CLIQUE,WaveCluster。基於Clique的聚類過程可直觀如下圖進行理解。
4.2.4 基於模型的聚類
model-based methods: 基於模型的方法給每一個聚類假定一個模型,然後去尋找能很好的擬合模型的數據集。模型可能是數據點在空間中的密度分布函數或者其它。這樣的方法通常包含的潛在假設是:數據集是由一系列的潛在概率分布生成的。通常有兩種嘗試思路:統計學方法和神經網路方法。其中,統計學方法有COBWEB演算法、GMM(Gaussian Mixture Model),神經網路演算法有SOM(Self Organized Maps)演算法。下圖是GMM過程的一個簡單直觀地理解。
4.2.5 基於圖論的聚類
圖論聚類方法解決的第一步是建立與問題相適應的圖,圖的節點對應於被分析數據的最小單元,圖的邊(或弧)對應於最小處理單元數據之間的相似性度量。因此,每一個最小處理單元數據之間都會有一個度量表達,這就確保了數據的局部特性比較易於處理。圖論聚類法是以樣本數據的局域連接特徵作為聚類的主要信息源,因而其主要優點是易於處理局部數據的特性。典型演算法有譜聚類。
聚類問題的研究不僅僅局限於上述的硬聚類,即每一個數據只能被歸為一類,模糊聚類也是聚類分析中研究較為廣泛的一個分支。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度,而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出,如著名的FCM演算法等。
⑵ 聚類分析方法應用於哪些問題的研究
1.聚類分析的特點
聚類分析(cluster analysis)是根據事物本身的特性研究個體的一種方法,目的在於將相似的事物歸類.它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大.這種方法有三個特徵:適用於沒有先驗知識的分類.如果沒有這些事先的經驗或一些國際、國內、行業標准,分類便會顯得隨意和主觀.這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別;可以處理多個變數決定的分類.例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較復雜,而聚類分析法可以解決這類問題;聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術.
這種較成熟的統計學方法如果在市場分析中得到恰當的應用,必將改善市場營銷的效果,為企業決策提供有益的參考.其應用的步驟為:將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟體(如SPSS、SAS等)求得結果,由專家解讀結果,並轉換為實際操作措施,從而提高企業利潤,降低企業成本.
2.應用范圍
聚類分析在客戶細分中的應用
消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩餘,這就是客戶細分的主要目的.常用的客戶分類方法主要有三類:經驗描述法,由決策者根據經驗對客戶進行類別劃分;傳統統計法,根據客戶屬性特徵的簡單統計來劃分客戶類別;非傳統統計方法,即基於人工智慧技術的非數值方法.聚類分析法兼有後兩類方法的特點,能夠有效完成客戶細分的過程.
例如,客戶的購買動機一般由需要、認知、學習等內因和文化、社會、家庭、小群體、參考群體等外因共同決定.要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變數,並將所有目標客戶每一個分析變數的指標值量化出來,再運用聚類分析法進行分類.在指標值量化時如果遇到一些定性的指標值,可以用一些定性數據定量化的方法加以轉化,如模糊評價法等.除此之外,可以將客戶滿意度水平和重復購買機會大小作為屬性進行分類;還可以在區分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變數劃分為五類:產品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據這些分析變數聚類得到的歸類,可以為企業制定營銷決策提供有益參考.
以上分析的共同點在於都是依據多個變數進行分類,這正好符合聚類分析法解決問題的特點;不同點在於從不同的角度尋求分析變數,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用范圍廣的體現.
聚類分析在實驗市場選擇中的應用
實驗調查法是市場調查中一種有效的一手資料收集方法,主要用於市場銷售實驗,即所謂的市場測試.通過小規模的實驗性改變,以觀察客戶對產品或服務的反應,從而分析該改變是否值得在大范圍內推廣.
實驗調查法最常用的領域有:市場飽和度測試.市場飽和度反映市場的潛在購買力,是市場營銷戰略和策略決策的重要參考指標.企業通常通過將消費者購買產品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度.或者在出現滯銷時,企業投放類似的新產品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力.前述兩種措施由於利益和風險的原因,不可能在企業覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產品的價格實驗.這種實驗往往將新定價的產品投放市場,對顧客的態度和反應進行測試,了解顧客對這種價格的是否接受或接受程度;新產品上市實驗.波士頓矩陣研究的企業產品生命周期圖表明,企業為了生存和發展往往要不斷開發新產品,並使之向明星產品和金牛產品順利過渡.然而新產品投放市場後的失敗率卻很高,大致為66%到90%.因而為了降低新產品的失敗率,在產品大規模上市前,運用實驗調查法對新產品的各方面(外觀設計、性能、廣告和推廣營銷組合等)進行實驗是非常有必要的.
在實驗調查方法中,最常用的是前後單組對比實驗、對照組對比實驗和前後對照組對比實驗.這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同.
通過聚類分析,可將待選的實驗市場(商場、居民區、城市等)分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性.聚類時,商店的規模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變數
⑶ 多元統計學-聚類分析
1. 應用統計學與R語言實現學習筆記(十)——聚類分析 )
2. 廈門大學-多元統計分析
3. DBSCAN 密度聚類法
4. 四大聚類演算法(KNN、Kmeans、密度聚類、層次聚類)
俗話說,物以類聚,人以群分。聚類在日常生活中,非常常見.
就是將相似的物體,放在一起.
聚類的目的 ——根據已知數據( 一批觀察個體的許多觀測指標) , 按照一定的數學公式計算各觀察個體或變數(指標)之間親疏關系的統計量(距離或相關系數等)。 根據某種准則( 最短距離法、最長距離法、中間距離法、重心法等),使同一類內的差別較小,而類與類之間的差別較大,最終將觀察個體或變數分為若干類。
根據分類的對象可將聚類分析分為:
樣品間親疏程度的測度
研究樣品或變數的親疏程度的數量指標有兩種,一種叫相似系數,性質越接近的變數或樣品,它們的相似系數越接近於1,而彼此無關的變數或樣品它們的相似系數則越接近於0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個樣品看作p維空間的一個點,並用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點屬於不同的類。
變數之間的聚類即R型聚類分析,常用相似系數來測度變數之間的親疏程度。
而樣品之間的聚類即Q型聚類分析,則常用距離來測度樣品之間的親疏程度。
距離
假使每個樣品有p個變數,則每個樣品都可以看成p維空間中的一個點, n個樣品就是p維空間中的n個點,則第i樣品與第j樣品之間的距離可以進行計算。
幾種常用方式度量:
歐式距離 L2(Euclidean distance)--- 常用
馬氏距離(Mahalanobis distance)---協方差矩陣
Minkowski測度( Minkowski metric)
Canberra測度(Canberra metric)
有了距離衡量度量,我們可以計算兩兩的距離,就得到距離矩陣~
比如:下面用dist 計算距離的方法
定義了距離之後,怎樣找到"合理"的規則,使相似的/距離小的個體聚成一個族群?
考慮所有的群組組合顯然在計算上很難實現,所以一種常用的聚類方法為層次聚類/系統聚類(hierarchical
clustering)
從系統樹圖中可以看出,我們需要度量族群與族群之間的距離,不同的定義方法決定了不同的聚類結果:
計算族群距離的三種方法的比較:
(可以看到都是小小的族群合並在一起,因為讓方差增加最小,傾向與合並小群體)
一般情況,我們得到系統樹,需要對樹進行切割. 如下圖一條條豎線.
層次聚類族群數的選擇:
1、建立n個初始族群,每個族群中只有一個個體
2、計算n個族群間的距離矩陣
3、合並距離最小的兩個族群
4、計算新族群間的距離矩陣。如果組別數為1,轉步驟5;否則轉步驟3
5、繪制系統樹圖
6、選擇族群個數
在層次聚類中,一旦個體被分入一個族群,它將不可再被歸入另一個族群,故現在介紹一個「非層次」的聚類方法——分割法(Partition)。最常用的分割法是k-均值(k-Means)法
k-均值法試圖尋找 個族群 的劃分方式,使得劃分後的族群內方差和(within-group sum of squares,WGSS)最小.
思路也是將相近的樣本,聚在一起,使得組內方差小,組間方差大.
① 選定 個「種子」(Cluster seeds)作為初始族群代表
② 每個個體歸入距離其最近的種子所在的族群
③ 歸類完成後,將新產生的族群的質心定為新的種子
④ 重復步驟2和3,直到不再需要移動
⑤ 選擇不同的k 值,計算WGSS,找到拐點確定最合適的K.
有多種初始種子的選取方法可供選擇:
1、在相互間隔超過某指定最小距離的前提下,隨機選擇k個個體
2、選擇數據集前k個相互間隔超過某指定最小距離的個體
3、選擇k個相互距離最遠的個體
4、選擇k個等距網格點(Grid points),這些點可能不是數據集的點
可以想到,左側的點收斂更快得到全局最優;左側可能聚類效果一般,或者收斂非常慢,得到局部最優.
我們的目標是使得WGSS足夠小,是否應該選取k使得WGSS最小?
我們需要選擇一個使得WGSS足夠小(但不是最小)的k值.(PS: 族群內方差和最小時候,k=n,此時WGSS為0,此時是過擬合問題~)
當我們分部計算k=1,2,3,4,5... 時候,WGSS值,就可以繪制下面碎石圖。及WGSS 隨著k 變化過程。k 越大,WGSS越小.
⑷ 一文總結聚類分析步驟!
一、聚類
1.准備工作
(1) 研究目的
聚類分析是根據事物本身的特性研究個體分類的方法,聚類分析的原則是同一類別的個體有較大相似性,不同類別的個體差異比較大。
(2) 數據類型
1)定量:數字有比較意義,比如數字越大代表滿意度越高,量表為典型定量數據。
2)定類:數字無比較意義,比如性別,1代表男,2代表女。
PS: SPSSAU會根據數據類型自動選擇聚類方法。
K-modes聚類: 數據類型僅定類時。
2.上傳數據到SPSSAU
登錄賬號後進入SPSSAU頁面,點擊右上角「上傳數據」,將處理好的數據進行「點擊上傳文件」上傳即可。
3.SPSSAU操作
(1)拖拽分析項
1) SPSSAU進階方法→聚類。
2)檢查
檢查分析項是否都在左側分析框中。
3)進行拖拽
(2)選擇參數
聚類個數: 聚類個數設置為幾類主要以研究者的研究思路為標准,如果不進行設置,SPSSAU默認聚類個數為3,通常情況下,建議設置聚類數量介於3~6個之間。
標准化: 聚類演算法是根據距離進行判斷類別,因此一般需要在聚類之前進行標准化處理,SPSSAU默認是選中進行標准化處理。數據標准化之後,數據的相對大小意義還在(比如數字越大GDP越高),但是實際意義消失了。
保存類別: 分析選擇保存『保存類別』,SPSSAU會生成 新標題 用於標識,也可以右上角「我的數據」處查看到分析後的「聚類類別」。
新標題類似如下:Cluster_********。
4.SPSSAU分析
(1)聚類類別基本情況匯總分析
使用聚類分析對樣本進行分類,使用Kmeans聚類分析方法,從上表可以看出:最終聚類得到4類群體,此4類群體的佔比分別是20.00%, 30.00%, 20.00%, 30.00%。整體來看, 4類人群分布較為均勻,整體說明聚類效果較好。
(2)聚類類別匯總圖分析
上圖可以直觀的看到各個類別所佔百分比,4類群體的佔比分別是20.00%, 30.00%, 20.00%, 30.00%。
(3)聚類類別方差分析差異對比
使用方差分析去探索各個類別的差異特徵,從上表可知:聚類類別群體對於所有研究項均呈現出顯著性(p<0.05),意味著聚類分析得到的4類群體,他們在研究項上的特徵具有明顯的差異性,具體差異性可通過平均值進行對比,並且最終結合實際情況,對聚類類別進行命名處理。
(4)聚類項重要性對比
從上述結果看,所有研究項均呈現出顯著性,說明不同類別之間的特徵有明顯的區別,聚類的效果較好。
(5)聚類中心
5.其它說明
(1)聚類中心是什麼?
聚類中心是聚類類別的中心點情況,比如某類別時年齡對應的聚類中心為20,意味著該類別群體年齡基本在20歲左右。初始聚類中心基本無意義,它是聚類演算法隨機選擇的聚類點,如果需要查看聚類中心情況,需要關注於最終聚類中心。實際分析時聚類中心的意義相對較小,其僅為聚類演算法的計算值而已。
(2)k-prototype聚類是什麼?
如果說聚類項中包括定類項,那麼SPSSAU默認會進行K-prototype聚類演算法(而不是kmeans演算法)。定類數據不能通過數字大小直接分析距離,因而需要使用K-prototype聚類演算法。
(3)聚類分析時SSE是什麼意思?
在進行Kmeans聚類分析時SPSSAU默認輸出誤差平方和SSE值,該值可用於測量各點與中心點的距離情況,理論上是希望越小越好,而且如果同樣的數據,聚類類別越多則SSE值會越小(但聚類類別過多則不便於分析)。
SSE指標可用於輔助判斷聚類類別個數,建議在不同聚類類別數量情況下記錄下SSE值,然後分析SSE值的減少幅度情況,如果發現比如從3個聚類到4個類別時SSE值減少幅度明顯很大,那麼此時選擇4個聚類類別較好。
二、分層聚類
1.准備工作
(1)研究目的
從分析角度上看,聚類分析可分為兩種,一種是按樣本(或個案)聚類,此類聚類的代表是K-means聚類方法;另外一種是按變數(或標題)聚類,此類聚類的代表是分層聚類。
(2)數據類型
2.上傳數據到SPSSAU
登錄賬號後進入SPSSAU頁面,點擊右上角「上傳數據」,將處理好的數據進行「點擊上傳文件」上傳即可。
3.SPSSAU操作
(1)拖拽分析項
1) SPSSAU進階方法→分層聚類。
2)檢查
檢查分析項是否都在左側分析框中。
3)進行拖拽
(2)確定參數
SPSSAU會默認聚類為3類並且呈現表格結果,如果希望更多的類別個數,可自行進行設置。
4.SPSSAU分析
(1)聚類項描述分析
上表格展示總共8個分析項(即8個裁判數據)的基本情況,包括均值,最大或者最小值,中位數等,以便對於基礎數據有個概括性了解。整體上看,8個裁判的打分基本平均在8分以上。
(2)聚類類別分布表分析
總共聚類為3個類別,以及具體分析項的對應關系情況。在上表格中展示出來,上表格可以看出:裁判8單獨作為一類;裁判5,3,7這三個聚為一類;以及裁判1,6,2,4作為一類。
(PS:聚類類別與分析項上的對應關系可以在上表格中得到,同時也可以查看聚類樹狀圖得出更多信息。至於聚類類別分別應該叫做什麼名字,這個需要結合對應有關系情況,自己單獨進行命名。)
(3)聚類樹狀圖分析
上圖為聚類樹狀圖的展示,聚類樹狀圖是將聚類的具體過程用圖示法手法進行展示;最上面一行的數字僅僅是一個刻度單位,代表相對距離大小;一個結點表示一次聚焦過程。
樹狀圖的解讀上,建議單獨畫一條垂直線,然後對應查看分成幾個類別,以及每個類別與分析項的對應關系。比如上圖中,紅色垂直線最終會拆分成3個類別;第1個類別對應裁判8;第2個類別對應裁判5,3,7;第3個類別對應裁判1,6,2,4。
如果是聚為四類;從上圖可看出,明顯的已經不再合適。原因在於垂直線不好區分成四類。也即說明有2個類別本應該在一起更合適(上圖中的裁判1與6/2/4);但是如果分成4類,此時裁判1會單獨成一類。所以畫垂直線無法區分出類別。因而綜合分析來看,最終聚類為3個類別最為適合。
當然在分析時也可以考慮分成2個類別,此時只需要對應將垂直線移動即可。
5.其它說明
(1)針對分層聚類,需要注意以下幾點:
(2)什麼時候做因子分析後再做聚類分析?
如果題項較多,可先做因子分析,得到每個維度(因子)的數據,再進行聚類。
三、總結
聚類分析廣泛的應用於自然科學、社會科學等領域。在分析時可以比較多次聚類結果,綜合選擇更適合的方案。
以上就是聚類分析步驟匯總,更多干貨請前往官網查看!
⑸ 關於聚類分析
1。聚類分析的特點
聚類分析(cluster analysis)是根據事物本身的特性研究個體的一種方法,目的在於將相似的事物歸類。它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大。這種方法有三個特徵:適用於沒有先驗知識的分類。如果沒有這些事先的經驗或一些國際、國內、行業標准,分類便會顯得隨意和主觀。這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別;可以處理多個變數決定的分類。例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較復雜,而聚類分析法可以解決這類問題;聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術。
這種較成熟的統計學方法如果在市場分析中得到恰當的應用,必將改善市場營銷的效果,為企業決策提供有益的參考。其應用的步驟為:將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟體(如SPSS、SAS等)求得結果,由專家解讀結果,並轉換為實際操作措施,從而提高企業利潤,降低企業成本。
2.應用范圍
聚類分析在客戶細分中的應用
消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩餘,這就是客戶細分的主要目的。常用的客戶分類方法主要有三類:經驗描述法,由決策者根據經驗對客戶進行類別劃分;傳統統計法,根據客戶屬性特徵的簡單統計來劃分客戶類別;非傳統統計方法,即基於人工智慧技術的非數值方法。聚類分析法兼有後兩類方法的特點,能夠有效完成客戶細分的過程。
例如,客戶的購買動機一般由需要、認知、學習等內因和文化、社會、家庭、小群體、參考群體等外因共同決定。要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變數,並將所有目標客戶每一個分析變數的指標值量化出來,再運用聚類分析法進行分類。在指標值量化時如果遇到一些定性的指標值,可以用一些定性數據定量化的方法加以轉化,如模糊評價法等。除此之外,可以將客戶滿意度水平和重復購買機會大小作為屬性進行分類;還可以在區分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變數劃分為五類:產品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據這些分析變數聚類得到的歸類,可以為企業制定營銷決策提供有益參考。
以上分析的共同點在於都是依據多個變數進行分類,這正好符合聚類分析法解決問題的特點;不同點在於從不同的角度尋求分析變數,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用范圍廣的體現。
聚類分析在實驗市場選擇中的應用
實驗調查法是市場調查中一種有效的一手資料收集方法,主要用於市場銷售實驗,即所謂的市場測試。通過小規模的實驗性改變,以觀察客戶對產品或服務的反應,從而分析該改變是否值得在大范圍內推廣。
實驗調查法最常用的領域有:市場飽和度測試。市場飽和度反映市場的潛在購買力,是市場營銷戰略和策略決策的重要參考指標。企業通常通過將消費者購買產品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度。或者在出現滯銷時,企業投放類似的新產品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力。前述兩種措施由於利益和風險的原因,不可能在企業覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產品的價格實驗。這種實驗往往將新定價的產品投放市場,對顧客的態度和反應進行測試,了解顧客對這種價格的是否接受或接受程度;新產品上市實驗。波士頓矩陣研究的企業產品生命周期圖表明,企業為了生存和發展往往要不斷開發新產品,並使之向明星產品和金牛產品順利過渡。然而新產品投放市場後的失敗率卻很高,大致為66%到90%。因而為了降低新產品的失敗率,在產品大規模上市前,運用實驗調查法對新產品的各方面(外觀設計、性能、廣告和推廣營銷組合等)進行實驗是非常有必要的。
在實驗調查方法中,最常用的是前後單組對比實驗、對照組對比實驗和前後對照組對比實驗。這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同。
通過聚類分析,可將待選的實驗市場(商場、居民區、城市等)分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性。聚類時,商店的規模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變數。 轉
⑹ 四種聚類方法之比較
四種聚類方法之比較
介紹了較為常見的k-means、層次聚類、SOM、FCM等四種聚類演算法,闡述了各自的原理和使用步驟,利用國際通用測試數據集IRIS對這些演算法進行了驗證和比較。結果顯示對該測試類型數據,FCM和k-means都具有較高的准確度,層次聚類准確度最差,而SOM則耗時最長。
關鍵詞:聚類演算法;k-means;層次聚類;SOM;FCM
聚類分析是一種重要的人類行為,早在孩提時代,一個人就通過不斷改進下意識中的聚類模式來學會如何區分貓狗、動物植物。目前在許多領域都得到了廣泛的研究和成功的應用,如用於模式識別、數據分析、圖像處理、市場研究、客戶分割、Web文檔分類等[1]。
聚類就是按照某個特定標准(如距離准則)把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能地大。即聚類後同一類的數據盡可能聚集到一起,不同數據盡量分離。
聚類技術[2]正在蓬勃發展,對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進,而不同的方法適合於不同類型的數據,因此對各種聚類方法、聚類效果的比較成為值得研究的課題。
1 聚類演算法的分類
目前,有大量的聚類演算法[3]。而對於具體應用,聚類演算法的選擇取決於數據的類型、聚類的目的。如果聚類分析被用作描述或探查的工具,可以對同樣的數據嘗試多種演算法,以發現數據可能揭示的結果。
主要的聚類演算法可以劃分為如下幾類:劃分方法、層次方法、基於密度的方法、基於網格的方法以及基於模型的方法[4-6]。
每一類中都存在著得到廣泛應用的演算法,例如:劃分方法中的k-means[7]聚類演算法、層次方法中的凝聚型層次聚類演算法[8]、基於模型方法中的神經網路[9]聚類演算法等。
目前,聚類問題的研究不僅僅局限於上述的硬聚類,即每一個數據只能被歸為一類,模糊聚類[10]也是聚類分析中研究較為廣泛的一個分支。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度,而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出,如著名的FCM演算法等。
本文主要對k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法通過通用測試數據集進行聚類效果的比較和分析。
2 四種常用聚類演算法研究
2.1 k-means聚類演算法
k-means是劃分方法中較經典的聚類演算法之一。由於該演算法的效率高,所以在對大規模數據進行聚類時被廣泛應用。目前,許多演算法均圍繞著該演算法進行擴展和改進。
k-means演算法以k為參數,把n個對象分成k個簇,使簇內具有較高的相似度,而簇間的相似度較低。k-means演算法的處理過程如下:首先,隨機地選擇k個對象,每個對象初始地代表了一個簇的平均值或中心;對剩餘的每個對象,根據其與各簇中心的距離,將它賦給最近的簇;然後重新計算每個簇的平均值。這個過程不斷重復,直到准則函數收斂。通常,採用平方誤差准則,其定義如下:
這里E是資料庫中所有對象的平方誤差的總和,p是空間中的點,mi是簇Ci的平均值[9]。該目標函數使生成的簇盡可能緊湊獨立,使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下:
輸入:包含n個對象的資料庫和簇的數目k;
輸出:k個簇,使平方誤差准則最小。
步驟:
(1) 任意選擇k個對象作為初始的簇中心;
(2) repeat;
(3) 根據簇中對象的平均值,將每個對象(重新)賦予最類似的簇;
(4) 更新簇的平均值,即計算每個簇中對象的平均值;
(5) until不再發生變化。
2.2 層次聚類演算法
根據層次分解的順序是自底向上的還是自上向下的,層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。
凝聚型層次聚類的策略是先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到所有對象都在一個簇中,或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類,它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下:
這里給出採用最小距離的凝聚層次聚類演算法流程:
(1) 將每個對象看作一類,計算兩兩之間的最小距離;
(2) 將距離最小的兩個類合並成一個新類;
(3) 重新計算新類與所有類之間的距離;
(4) 重復(2)、(3),直到所有類最後合並成一類。
2.3 SOM聚類演算法
SOM神經網路[11]是由芬蘭神經網路專家Kohonen教授提出的,該演算法假設在輸入對象中存在一些拓撲結構或順序,可以實現從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。
SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在2維網格上的有序節點構成,輸入節點與輸出節點通過權重向量連接。學習過程中,找到與之距離最短的輸出層單元,即獲勝單元,對其更新。同時,將鄰近區域的權值更新,使輸出節點保持輸入向量的拓撲特徵。
演算法流程:
(1) 網路初始化,對輸出層每個節點權重賦初值;
(2) 將輸入樣本中隨機選取輸入向量,找到與輸入向量距離最小的權重向量;
(3) 定義獲勝單元,在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏;
(4) 提供新樣本、進行訓練;
(5) 收縮鄰域半徑、減小學習率、重復,直到小於允許值,輸出聚類結果。
2.4 FCM聚類演算法
1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展,模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點,出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析,就是模糊聚類分析[12]。
FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。
演算法流程:
(1) 標准化數據矩陣;
(2) 建立模糊相似矩陣,初始化隸屬矩陣;
(3) 演算法開始迭代,直到目標函數收斂到極小值;
(4) 根據迭代結果,由最後的隸屬矩陣確定數據所屬的類,顯示最後的聚類結果。
3 四種聚類演算法試驗
3.1 試驗數據
實驗中,選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS[13]數據集,IRIS數據集包含150個樣本數據,分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本,每個數據含有4個屬性,即萼片長度、萼片寬度、花瓣長度,單位為cm。在數據集上執行不同的聚類演算法,可以得到不同精度的聚類結果。
3.2 試驗結果說明
文中基於前面所述各演算法原理及演算法流程,用matlab進行編程運算,得到表1所示聚類結果。
如表1所示,對於四種聚類演算法,按三方面進行比較:(1)聚錯樣本數:總的聚錯的樣本數,即各類中聚錯的樣本數的和;(2)運行時間:即聚類整個過程所耗費的時間,單位為s;(3)平均准確度:設原數據集有k個類,用ci表示第i類,ni為ci中樣本的個數,mi為聚類正確的個數,則mi/ni為第i類中的精度,則平均精度為:
3.3 試驗結果分析
四種聚類演算法中,在運行時間及准確度方面綜合考慮,k-means和FCM相對優於其他。但是,各個演算法還是存在固定缺點:k-means聚類演算法的初始點選擇不穩定,是隨機選取的,這就引起聚類結果的不穩定,本實驗中雖是經過多次實驗取的平均值,但是具體初始點的選擇方法還需進一步研究;層次聚類雖然不需要確定分類數,但是一旦一個分裂或者合並被執行,就不能修正,聚類質量受限制;FCM對初始聚類中心敏感,需要人為確定聚類數,容易陷入局部最優解;SOM與實際大腦處理有很強的理論聯系。但是處理時間較長,需要進一步研究使其適應大型資料庫。
聚類分析因其在許多領域的成功應用而展現出誘人的應用前景,除經典聚類演算法外,各種新的聚類方法正被不斷被提出。
⑺ 聚類分析是什麼研究手段
類通過把目標數據放入少數相對同源的組或「類」(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標准化,然後成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean 「距離」中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使「類」內分散度最小化的方法。
聚類方法有兩個顯著的局限:首先,要聚類結果要明確就需分離度很好(well-separated)的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度通過序列比較來指導聚類解釋。
第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較,大大減少發現表達類型關系的計算量,但忽視了生物系統多因素和非線性的特點。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言,聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。
⑻ 聚類分析法
聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關系,並按親疏關系的程度對樣本進行聚類(徐建華,1994)。
聚類分析方法,應用在地下水中,是在各種指標和質量級別標准約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。
(一)系統聚類法
系統聚類法的主要步驟有:數據標准化、相似性統計量計算和聚類。
1.數據標准化
在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的准確性和可靠性。在地下水質量研究中,被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大,這會對分類結果產生影響。因此當分類要素的對象確定之後,在進行聚類分析之前,首先對聚類要素進行數據標准化處理。
假設把所考慮的水質分析點(G)作為聚類對象(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素數據可用表4-3給出。在聚類分析中,聚類要素的數據標准化的方法較多,一般採用標准差法和極差法。
表4-3 聚類對象與要素數據
對於第j個變數進行標准化,就是將xij變換為x′ij。
(1)總和標准化
區域地下水功能可持續性評價理論與方法研究
這種標准化方法所得的新數據x′ij滿足
區域地下水功能可持續性評價理論與方法研究
(2)標准差標准化
區域地下水功能可持續性評價理論與方法研究
式中:
由這種標准化方法所得的新數據x′ij,各要素的平均值為0,標准差為1,即有
區域地下水功能可持續性評價理論與方法研究
(3)極差標准化
區域地下水功能可持續性評價理論與方法研究
經過這種標准化所得的新數據,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。
上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標准差。
2.相似性統計量
系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標,需要找到能量度相似關系的統計量,這是系統聚類法的關鍵。
相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點,用點間的距離來表示研究對象的緊密關系,距離越小,表明關系越密切。相似系數值表明樣本和變數間的相似程度。
(1)距離系數
常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij為
區域地下水功能可持續性評價理論與方法研究
dij越小,表示i,j樣品越相似。
(2)相似系數
常見的相似系數有夾角餘弦和相關系數,計算公式為
1)夾角餘弦
區域地下水功能可持續性評價理論與方法研究
在式(4-20)中:-1≤cosθij≤1。
2)相關系數
區域地下水功能可持續性評價理論與方法研究
式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似系數;rij為i樣品與j樣品的相關系數;xik為i樣品第k個因子的實測值或標准化值;xjk為j樣品第k個因子的實測值或標准化值;
3.聚類
在選定相似性統計量之後,根據計算結果構成距離或相似性系數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。
(1)直接聚類法
直接聚類法,是根據距離或相似系數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類,然後根據距離最小或相似系數最大的原則,依次選出一對分類對象,並成新類。如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類,最後根據歸並的先後順序作出聚類分析譜系圖。
(2)距離聚類法
距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示:
區域地下水功能可持續性評價理論與方法研究
當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。
最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類對象Gp和Gq歸並為一新類Gr,然後按計算公式:
dpq=min(dpk,dqk)(k≠ p,q) (4-23)
dpq=max(dpk,dqk)(k≠ p,q) (4-24)
計算原來各類與新類之間的距離,這樣就得到一個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把Gi和Gj歸並成新類;再計算各類與新類的距離,直至各分類對象被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。
圖4-1 地下水質量評價的聚類譜系圖
(二)模糊聚類法
模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括數據標准化、標定和聚類3個方面(付雁鵬等,1987)。
1.數據標准化
在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始數據進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將數據壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。
2.標定與聚類
所謂標定就是計算出被分類對象間的相似系數rij,從而確定論域集U上的模糊相似關系Rij。相似系數的求取,與系統聚類分析法相同。
聚類就是在已建立的模糊關系矩陣Rij上,給出不同的置信水平λ(λ∈[0,1])進行截取,進而得到不同的分類。
聚類方法較多,主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。
(1)模糊等價關系方法
所謂模糊等價關系,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(R·R⊆R)的模糊關系。
基於模糊等價關系的模糊聚類分析方法的基本思想是:由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集,因此可以對R進行分解,當用λ-水平對R作截集時,截得的U×U的普通子集Rλ就是U上的一個普通等價關系,也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸並,從而形成一個動態聚類譜系圖(徐建華,1994)。此類分析方法的具體步驟如下。
第一步:模糊相似關系的建立,即計算各分類對象之間相似性統計量。
第二步:將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘,即
R2=R·R
R4=R2·R2
︙
這樣計算下去,直到:R2k=Rk·Rk=Rk,則R′=Rk便是一個模糊等價關系。
第三步:在不同的截集水平下進行聚類。
(2)最大樹聚類方法
基於最大樹的模糊聚類分析方法的基本思路是:最大樹是一個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行截取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。
圖4-2 最大聚類支撐樹圖
第一步:計算分類對象之間的模糊相似性統計量rij,構建最大樹。
以所有被分類的對象為頂點,當兩點間rij不等於0時,兩點間可以用樹干連接,這種連接是按rij從大到小的順序依次進行的,從而構成最大樹。
第二步:由最大樹進行聚類分析。
選擇某一λ值作截集,將樹中小於λ值的樹干砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類對象逐漸歸並,從而形成一個動態聚類譜系圖。
在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。
(三)灰色聚類法
灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類對象進行歸納,以判斷該聚類對象屬於哪一類。
灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類對象,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、三級3個灰類(羅定貴等,1995)。
灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函數fjk、求標定聚類權重ηjk、求聚類系數和按最大原則確定聚類對象分類。
1.確定聚類白化數
當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。
2.確定各灰色白化函數
建立滿足各指標、級別區間為最大白化函數值(等於1),偏離此區間愈遠,白化函數愈小(趨於0)的功效函數fij(x)。根據監測值Cki,可在圖上(圖4-3)解析出相應的白化函數值fjk(Cik),j=1,2,…,m;k=1,2,3。
3.求標定聚類權重
根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。
區域地下水功能可持續性評價理論與方法研究
式中:ηjk為第j個指標對第k個灰類的權重;λjk為白化函數的閾值(根據標准濃度而定)。
圖4-3 白化函數圖
註:圖4-3白化函數f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。這部分的值為最佳值,即系數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x),單調增,x∈(x1,x2],稱為白化的左支函數;右邊部分f(x)=R(x),單調減,x∈[x3,x4),稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數,為了簡便,一般是直線。⑤白化函數的起點和終點,一般來說是人為憑經驗確定。
4.求聚類系數
σik=∑fjk(dij)ηjk (4-26)
式中:σik為第i個聚類對象屬於第k個灰類的系數,i=1,2,…,n;k=1,2,3。
5.按最大原則確定聚類對象分類
由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。
用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。
聚類方法計算相對復雜,但是計算結果與地下水質量標准級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。