㈠ 數學建模中模糊聚類分析法的優缺點
數學建模中模糊聚類分析法優點:聚類分析模型的優點就是直觀,結論形式簡明。 缺點:在樣本量較大時,要獲得聚類結論有一定困難。
由於相似系數是根據被試的反映來建立反映被試間內在聯系的指標, 而實踐中有時盡管從被試反映所得出的數據中發現他們之間有緊密的關系,但事物之間卻無任何內在聯系,此時,如果根據距離或相 似系數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。
模糊聚類分析是根據客觀事物間的特徵、親疏程度、相似性,通過建立模糊相似關系對客觀事物進行聚類的分析方法。
模糊劃分矩陣有無窮多個,這種模糊劃分矩陣的全體稱為模糊劃分空間。最優分類的標準是樣本與聚類中心的距離平方和最小。因為一個樣本是按不同的隸屬度屬於各類的,所以應同時考慮它與每一類的聚類中心的距離。逐步聚類法需要反復迭代計算,計算工作量很大,要在電子計算機上進行。算出最優模糊劃分矩陣後,還必須求得相應的常規劃分。此時可將得到的聚類中心存在計算機中,將樣本重新逐個輸入,去與每個聚類中心進行比較,與哪個聚類中心最接近就屬於哪一類。
這種方法要預先知道分類數,如分類數不合理,就重新計算。這就不如運用基於模糊等價關系的系統聚類法,但可以得到聚類中心,即各類模式樣本,而這往往正是所要求的。因此可用模糊等價關系所得結果作為初始分類,再通過反復迭代法求得更好的結果。
㈡ 聚類分析法
聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關系,並按親疏關系的程度對樣本進行聚類(徐建華,1994)。
聚類分析方法,應用在地下水中,是在各種指標和質量級別標准約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。
(一)系統聚類法
系統聚類法的主要步驟有:數據標准化、相似性統計量計算和聚類。
1.數據標准化
在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的准確性和可靠性。在地下水質量研究中,被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大,這會對分類結果產生影響。因此當分類要素的對象確定之後,在進行聚類分析之前,首先對聚類要素進行數據標准化處理。
假設把所考慮的水質分析點(G)作為聚類對象(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素數據可用表4-3給出。在聚類分析中,聚類要素的數據標准化的方法較多,一般採用標准差法和極差法。
表4-3 聚類對象與要素數據
對於第j個變數進行標准化,就是將xij變換為x′ij。
(1)總和標准化
區域地下水功能可持續性評價理論與方法研究
這種標准化方法所得的新數據x′ij滿足
區域地下水功能可持續性評價理論與方法研究
(2)標准差標准化
區域地下水功能可持續性評價理論與方法研究
式中:
由這種標准化方法所得的新數據x′ij,各要素的平均值為0,標准差為1,即有
區域地下水功能可持續性評價理論與方法研究
(3)極差標准化
區域地下水功能可持續性評價理論與方法研究
經過這種標准化所得的新數據,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。
上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標准差。
2.相似性統計量
系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標,需要找到能量度相似關系的統計量,這是系統聚類法的關鍵。
相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點,用點間的距離來表示研究對象的緊密關系,距離越小,表明關系越密切。相似系數值表明樣本和變數間的相似程度。
(1)距離系數
常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij為
區域地下水功能可持續性評價理論與方法研究
dij越小,表示i,j樣品越相似。
(2)相似系數
常見的相似系數有夾角餘弦和相關系數,計算公式為
1)夾角餘弦
區域地下水功能可持續性評價理論與方法研究
在式(4-20)中:-1≤cosθij≤1。
2)相關系數
區域地下水功能可持續性評價理論與方法研究
式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似系數;rij為i樣品與j樣品的相關系數;xik為i樣品第k個因子的實測值或標准化值;xjk為j樣品第k個因子的實測值或標准化值;
3.聚類
在選定相似性統計量之後,根據計算結果構成距離或相似性系數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。
(1)直接聚類法
直接聚類法,是根據距離或相似系數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類,然後根據距離最小或相似系數最大的原則,依次選出一對分類對象,並成新類。如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類,最後根據歸並的先後順序作出聚類分析譜系圖。
(2)距離聚類法
距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示:
區域地下水功能可持續性評價理論與方法研究
當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。
最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類對象Gp和Gq歸並為一新類Gr,然後按計算公式:
dpq=min(dpk,dqk)(k≠ p,q) (4-23)
dpq=max(dpk,dqk)(k≠ p,q) (4-24)
計算原來各類與新類之間的距離,這樣就得到一個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把Gi和Gj歸並成新類;再計算各類與新類的距離,直至各分類對象被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。
圖4-1 地下水質量評價的聚類譜系圖
(二)模糊聚類法
模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括數據標准化、標定和聚類3個方面(付雁鵬等,1987)。
1.數據標准化
在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始數據進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將數據壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。
2.標定與聚類
所謂標定就是計算出被分類對象間的相似系數rij,從而確定論域集U上的模糊相似關系Rij。相似系數的求取,與系統聚類分析法相同。
聚類就是在已建立的模糊關系矩陣Rij上,給出不同的置信水平λ(λ∈[0,1])進行截取,進而得到不同的分類。
聚類方法較多,主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。
(1)模糊等價關系方法
所謂模糊等價關系,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(R·R⊆R)的模糊關系。
基於模糊等價關系的模糊聚類分析方法的基本思想是:由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集,因此可以對R進行分解,當用λ-水平對R作截集時,截得的U×U的普通子集Rλ就是U上的一個普通等價關系,也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸並,從而形成一個動態聚類譜系圖(徐建華,1994)。此類分析方法的具體步驟如下。
第一步:模糊相似關系的建立,即計算各分類對象之間相似性統計量。
第二步:將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘,即
R2=R·R
R4=R2·R2
︙
這樣計算下去,直到:R2k=Rk·Rk=Rk,則R′=Rk便是一個模糊等價關系。
第三步:在不同的截集水平下進行聚類。
(2)最大樹聚類方法
基於最大樹的模糊聚類分析方法的基本思路是:最大樹是一個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行截取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。
圖4-2 最大聚類支撐樹圖
第一步:計算分類對象之間的模糊相似性統計量rij,構建最大樹。
以所有被分類的對象為頂點,當兩點間rij不等於0時,兩點間可以用樹干連接,這種連接是按rij從大到小的順序依次進行的,從而構成最大樹。
第二步:由最大樹進行聚類分析。
選擇某一λ值作截集,將樹中小於λ值的樹干砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類對象逐漸歸並,從而形成一個動態聚類譜系圖。
在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。
(三)灰色聚類法
灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類對象進行歸納,以判斷該聚類對象屬於哪一類。
灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類對象,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、三級3個灰類(羅定貴等,1995)。
灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函數fjk、求標定聚類權重ηjk、求聚類系數和按最大原則確定聚類對象分類。
1.確定聚類白化數
當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。
2.確定各灰色白化函數
建立滿足各指標、級別區間為最大白化函數值(等於1),偏離此區間愈遠,白化函數愈小(趨於0)的功效函數fij(x)。根據監測值Cki,可在圖上(圖4-3)解析出相應的白化函數值fjk(Cik),j=1,2,…,m;k=1,2,3。
3.求標定聚類權重
根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。
區域地下水功能可持續性評價理論與方法研究
式中:ηjk為第j個指標對第k個灰類的權重;λjk為白化函數的閾值(根據標准濃度而定)。
圖4-3 白化函數圖
註:圖4-3白化函數f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。這部分的值為最佳值,即系數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x),單調增,x∈(x1,x2],稱為白化的左支函數;右邊部分f(x)=R(x),單調減,x∈[x3,x4),稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數,為了簡便,一般是直線。⑤白化函數的起點和終點,一般來說是人為憑經驗確定。
4.求聚類系數
σik=∑fjk(dij)ηjk (4-26)
式中:σik為第i個聚類對象屬於第k個灰類的系數,i=1,2,…,n;k=1,2,3。
5.按最大原則確定聚類對象分類
由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。
用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。
聚類方法計算相對復雜,但是計算結果與地下水質量標准級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。
㈢ 模糊聚類分析的常用分類方法
數據分類中,常用的分類方法有多元統計中的系統聚類法、模糊聚類分析等.在模糊聚類分析中,首先要計算模糊相似矩陣,而不同的模糊相似矩陣會產生不同的分類結果;即使採用相同的模糊相似矩陣,不同的閾值也會產生不同的分類結果.「如何確定這些分類的有效性」便成為模糊聚類的要點。
識別研究中的一個重要問題.文獻,把有效性不滿意的原因歸結於數據集幾何結構的不理想.但筆者認為,不同的幾何結構是對實際需要的反映,我們不能排除實際需要而追求所謂的「理想幾何結構」,不理想的分類不應歸因於數據集的幾何結構.針對同一模糊相似矩陣,文獻建立了確定模糊聚類有效性的方法.用固定的顯著性水平,在不同分類的F一統計量和F檢驗臨界值的差中選最大者,即為有效分類.但是,當顯著性水平變化時,此方法的結果也會變化.文獻引進了一種模糊劃分嫡來評價模糊聚類的有效性,並人為規定當兩類的嫡大於一數時,此兩類可合並,通過逐次合並,最終得到有效分類.此方法人為干預較多,當這個規定數不同時,也會得到不同的結果.另外這兩種方法也未比較不同模糊相似矩陣的分類結果. 系統聚類法是基於模糊等價關系的模糊聚類分析法。在經典的聚類分析方法中可用經典等價關系對樣本集X進行聚類。設R是 X上的經典等價關系。對X中的兩個元素x和y,若xRy或(x,y)∈R,則將x和y並為一類,否則x和y不屬於同一類。
相應地,可用X上的模糊等價關系對樣本集X進行模糊聚類。設慒是X上的模糊等價關系,是慒 的隸屬函數。對於任何α∈【0,1】,定義慒 的α截關系 Sα是X上的經典等價關系。根據Sα得到X 的一種聚類,稱為在α水平上的聚類。
應用這種方法,分類的結果與α的取值大小有關。α取值越大,分的類數越多。α小到某一值時,X中的所有樣本歸並為一類。這種方法的優點在於可按實際需要選取α的值,以便得到恰當的分類。
系統聚類法的步驟如下:
①用數字描述樣本的特徵。設被聚類的樣本集為 X={x1,…,xn}。每個樣本均有p種特徵,記作xi=(xi1,…,xip);i=1,2,…,n;xip表示描述樣本xi的第p個特徵的數。 ②規定樣本之間的相似系數rij(0≤rij≤1;i,j=1,…,n)。rij描述樣本xi與xj之間的差異或相似的程度。rij 越接近於1,表明樣本xi與xj之間的差異越小;rij 越接近於0,表明xi與xj之間的差異越大。rij可用主觀評定或集體評分的方法規定,也可用公式計算,如採用夾角餘弦法、最小最大法、算術平均最小法等。
因為rii=1(xi與自身沒有差異),rij=rji(xi與xj之間的差異等同於xj與xi之間的差異),所以由rij(i,j=1,…,n)可得X上的模糊相似關系。
一般,R不具備可傳遞性,因而R不一定是 X上的模糊等價關系。
③運用合成運算R=R⋅R(或R=R⋅R等)求出最接近相似關系R的模糊等價關系S=R(或R等)。若R已是模糊等價關系,則取S=R。
④選取適當水平α(0≤α≤1),得到X 的一種聚類。 逐步聚類法是一種基於模糊劃分的模糊聚類分析法。它是預先確定好待分類的樣本應分成幾類,然後按最優化原則進行再分類,經多次迭代直到分類比較合理為止。
在分類過程中可認為某個樣本以某一隸屬度隸屬於某一類,又以另一隸屬度隸屬於另一類。這樣,樣本就不是明確地屬於或不屬於某一類。若樣本集有 n個樣本要分成c類,則它的模糊劃分矩陣為此c×n模糊劃分矩陣有下列特性:①uij∈【0,1】;i=1,…,c;j=1,…,n。②即每一樣本屬於各類的隸屬度之和為1。③即每一類模糊子集都不是空集。
㈣ 水平井產能預測的模糊聚類方法
模糊聚類分析方法在實際中應用很廣泛,目前已在選礦、氣象、地質、地震、環境科學等方面取得成效,在石油工業的地質學、勘探決策等方面也有應用。
在現實世界中,一組事物根據其親疏程度和相似性是否形成一個類群,或一個事物是否屬於一個類別,其界限往往是不分明的,具有很大程度的模糊性。模糊集合論正是刻畫和解決這類聚類問題的數學方法。模糊聚類分析是依據客觀事物間的特徵、親疏程度和相似性,通過建立模糊相似關系對客觀事物進行分類的數學方法。用模糊聚類分析方法處理帶有模糊性的聚類問題要更為客觀、靈活、直觀和計算更加簡潔。
本書將模糊聚類分析方法應用到水平井的開發指標預測上,採用模糊聚類的方法,以勝利油田已經大量投產的水平井的數據為基礎,將同類油藏中已投產水平井進行分類,然後根據新設計井的有關參數將其歸到相應類中,根據同類中已投產井的有關開發指標對新設計水平井的指標進行預測,取得了較好效果。
模糊聚類分析的一般步驟為:①原始數據標准化;②構造模糊相似矩陣;③水平井模糊聚類;④新井歸類評價。
下面以勝利油區斷塊油藏永8斷塊為例,分析模糊聚類分析方法在水平井產能中的應用。
表4-11為勝利油區永安油田復雜斷塊油藏已投產14口水平井的有關數據,我們選取除永8平8井外的13口井參與聚類,參與聚類的指標為表4-11中的前6項,可采儲量及初始日產液量、日產油量為新井預測對比指標。
表4-11 永安油田已投產水平井指標統計表
1.原始數據標准化
對於表4-11所示復雜斷塊油藏水平井的數據,由於各參數量綱不同,需要將其標准化。
原始數據標准化的目的就是排除原始數據中不同變數間量綱的影響,並使原始數據分布在相同的區間內,以相同的量級參與分類,即把除去量綱影響的原始數據都壓縮在[0,1]閉區間內。
假設有N口水平井參與分類,每口水平井有K個參考油藏參數,構成如下矩陣:
實用水驅油藏開發評價方法
對上述原始矩陣進行標准化常用的方法有標准差標准化、極差標准化等。在本文的研究中,對不同性質的指標,採用了不同的方法。
對於水平井滲透率、垂直滲透率、控制儲量等的「趨大」(值越大越好)指標,本文採用如下的數據標准化方法:
實用水驅油藏開發評價方法
對於原油黏度、密度等的「趨小」(值越小越好)指標,採用了如下標准化方法:
實用水驅油藏開發評價方法
對於油層厚度、水平段長度等的「趨中」(值以靠近某一標准值為好)指標,採用的標准化方法為
當
當
式中:i=1,2,…,N;j=1,2,…,K;Xjmin,Ximax,Xjavg分別為在第j個參考參數中的最小值、最大值及最優值(或指定最優值)。
2.構造模糊相似矩陣
根據標准化數據,計算各水平井之間的相似程度,又稱標定。標定的方法很多,如距離法包括切比雪夫距離法、海明距離法、歐氏距離法、閔可夫斯基距離法等,相似系數法包括夾角餘弦法、相關系數法、指數相似系數法等,貼近度法包括最大最小法、算術平均最小法等。本文採用夾角餘弦法來計算相似系數得到模糊相似矩陣:
實用水驅油藏開發評價方法
如果rij=0,說明兩口井完全不相關,如果rij=1,說明兩口井完全相似或相同。
選取斷塊油藏中已投產水平井的水平段實鑽長度、原油地下黏度、有效厚度、水平與垂直滲透率比值等的6個參數作為模糊聚類分析的參考指標(即N=13,K=6),根據前面所述方法得到的模糊相似矩陣如下所示。
實用水驅油藏開發評價方法
3.水平井模糊聚類
人們在實踐中總結了多種模糊聚類方法,就理論上講大致可分為三類:一類是基於模糊等價關系的傳遞閉包法,另一類是基於模糊相似關系的直接聚類法,再一類是基於軟分類空間的模糊聚類法。用傳遞閉包法進行分類,當矩陣的階數較高時計算量很大。考慮到以後研究中隨投產水平井的增加,矩陣階數會很大,因此這里採用了直接聚類法。
直接聚類法為乃指直接利用相似矩陣進行聚類的方法,常用的有最大樹法和表格法。兩種方法若手工完成,效率很低,本文編程序實現了利用最大樹法的聚類過程,輸入水平閾值λ∈[0,1],分類一次完成,非常方便。輸入不同的閾值,可得到不同的分類。
得到相似矩陣以後,便可以進行聚類了,對不同的閾值λ∈[0,1],可得到不同的分類,取閾值λ=0.9,13口井被分成了6類,如表4-12所示。
表4-12 永安油田已投產水平井模糊聚類結果
4.新設計水平井歸類評價
(1)新井歸類計算
在已知水平井分類後,對於新設計水平井類別的劃分,本書主要根據新水平井與已知水平井之間的相似程度來確定其歸屬。通過分別計算新井與已知井的相似系數,找出與新井相似系數最大的已知井類別作為新井的類別。
(2)新井指標預測
在確定新井類別後,將同類中已投產水平井的有關開發指標的平均值及產能變化規律作為新井的預測指標。
現假設永8平8井為新設計未投產井,通過歸類計算,將其歸到第二類中,那麼就可以根據第二類中三口已投產水平井的有關指標來對該井進行指標預測。表4-13為第二類中已投產三口井指標的平均值與永8平8井的指標對比表。從表中可以看出,三口井指標平均值預測永8平8井的可采儲量為5.05×104t,初始日產液為32.6t/d,初始日產油量27.0t/d,與永8平8井實際指標的相對誤差均在10%以內,能夠滿足工程設計的要求。那麼我們就可以根據三口井的可采儲量、初產油量等指標以及產量變化規律來對永8平8井的開發指標進行預測。
表4-13 新井歸類指標對比表