㈠ 單因子指數法的主成分分析方法
地理環境是多要素的復雜系統,在我們進行地理系統分析時,多變數問題是經常會遇到的。變數太多,無疑會增加分析問題的難度與復雜性,而且在許多實際問題中,多個變數之間是具有一定的相關關系的。因此,我們就會很自然地想到,能否在各個變數之間相關關系研究的基礎上,用較少的新變數代替原來較多的變數,而且使這些較少的新變數盡可能多地保留原來較多的變數所反映的信息?事實上,這種想法是可以實現的,本節擬介紹的主成分分析方法就是綜合處理這種問題的一種強有力的方法。
第一節 主成分分析方法的原理
主成分分析是把原來多個變數化為少數幾個綜合指標的一種統計分析方法,從數學角度來看,這是一種降維處理技術。假定有n個地理樣本,每個樣本共有p個變數描述,這樣就構成了一個n×p階的地理數據矩陣:
如何從這么多變數的數據中抓住地理事物的內在規律性呢?要解決這一問題,自然要在p維空間中加以考察,這是比較麻煩的。為了克服這一困難,就需要進行降維處理,即用較少的幾個綜合指標來代替原來較多的變數指標,而且使這些較少的綜合指標既能盡量多地反映原來較多指標所反映的信息,同時它們之間又是彼此獨立的。那麼,這些綜合指標(即新變數)應如何選取呢?顯然,其最簡單的形式就是取原來變數指標的線性組合,適當調整組合系數,使新的變數指標之間相互獨立且代表性最好。
如果記原來的變數指標為x1,x2,…,xp,它們的綜合指標——新變數指標為x1,x2,…,zm(m≤p)。則
在(2)式中,系數lij由下列原則來決定:
(1)zi與zj(i≠j;i,j=1,2,…,m)相互無關;
(2)z1是x1,x2,…,xp的一切線性組合中方差最大者;z2是與z1不相關的x1,x2,…,xp的所有線性組合中方差最大者;……;zm是與z1,z2,……zm-1都不相關的x1,x2,…,xp的所有線性組合中方差最大者。
這樣決定的新變數指標z1,z2,…,zm分別稱為原變數指標x1,x2,…,xp的第一,第二,…,第m主成分。其中,z1在總方差中占的比例最大,z2,z3,…,zm的方差依次遞減。在實際問題的分析中,常挑選前幾個最大的主成分,這樣既減少了變數的數目,又抓住了主要矛盾,簡化了變數之間的關系。
從以上分析可以看出,找主成分就是確定原來變數xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的載荷lij(i=1,2,…,m;j=1,2,…,p),從數學上容易知道,它們分別是x1,x2,…,xp的相關矩陣的m個較大的特徵值所對應的特徵向量。
第二節 主成分分析的解法
主成分分析的計算步驟
通過上述主成分分析的基本原理的介紹,我們可以把主成分分析計算步驟歸納如下:
(1)計算相關系數矩陣
在公式(3)中,rij(i,j=1,2,…,p)為原來變數xi與xj的相關系數,其計算公式為
因為R是實對稱矩陣(即rij=rji),所以只需計算其上三角元素或下三角元素即可。
(2)計算特徵值與特徵向量
首先解特徵方程|λI-R|=0求出特徵值λi(i=1,2,…,p),並使其按大小順序排列,即λ1≥λ2≥…,≥λp≥0;然後分別求出對應於特徵值λi的特徵向量ei(i=1,2,…,p)。
(3)計算主成分貢獻率及累計貢獻率
一般取累計貢獻率達85-95%的特徵值λ1,λ2,…,λm所對應的第一,第二,……,第m(m≤p)個主成分。
(4)計算主成分載荷
由此可以進一步計算主成分得分:
第三節 主成分分析應用實例
主成分分析實例
對於某區域地貌-水文系統,其57個流域盆地的九項地理要素:x1為流域盆地總高度(m)x2為流域盆地山口的海拔高度(m),x3為流域盆地周長(m),x4為河道總長度(km),x5為河
表2-14 某57個流域盆地地理要素數據
道總數,x6為平均分叉率,x7為河谷最大坡度(度),x8為河源數及x9為流域盆地面積(km)的原始數據如表2-14所示。張超先生(1984)曾用這些地理要素的原始數據對該區域地貌-水文系統作了主成分分析。下面,我們將其作為主成分分析方法在地理學研究中的一個應用實例介紹給讀者,以供參考。
表2-15相關系數矩陣
(1)首先將表2-14中的原始數據作標准化處理,由公式(4)計算得相關系數矩陣(見表2-15)。
(2)由相關系數矩陣計算特徵值,以及各個主成分的貢獻率與累計貢獻率(見表2-16)。由表2-16可知,第一,第二,第三主成分的累計貢獻率已高達86.5%,故只需求出第一,第二,第三主成分z1,z2,z3即可。
表2-16 特徵值及主成分貢獻率
(3)對於特徵值λ1=5.043,λ2=1.746,λ3=0.997分別求出其特徵向量e1,e2,e3,並計算各變數x1,x2,……,x9在各主成分上的載荷得到主成分載荷矩陣(見表2-17)。
表2-17 主成分載荷矩陣
從表2-17可以看出,第一主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關,這是由於這六個地理要素與流域盆地的規模有關,因此第一主成分可以被認為是流域盆地規模的代表:第二主成分z2與x2有較大的正相關,與x7有較大的負相關,而這兩個地理要素是與流域切割程度有關的,因此第二主成分可以被認為是流域侵蝕狀況的代表;第三主成分z3與x6有較大的正相關,而地理要素x6是流域比較獨立的特性——河系形態的表徵,因此,第三主成成可以被認為是代表河系形態的主成分。
以上分析結果表明,根據主成分載荷,該區域地貌-水文系統的九項地理要素可以被歸為三類,即流域盆地的規模,流域侵蝕狀況和流域河系形態。如果選取其中相關系數絕對值最大者作為代表,則流域面積,流域盆地出口的海拔高度和分叉率可作為這三類地理要素的代表,利用這三個要素代替原來九個要素進行區域地貌-水文系統分析,可以使問題大大地簡化。
二、內梅羅水質指數污染
表1 內梅羅水質指數污染等級劃分標准 P <1 1~2 2~3 3~5 >5 水質等級 清潔 輕污染 污染 重污染 嚴重污染 表2 地表水環境質量標准(GB3838—2002) 單位:mg/L 序 號 項 目 V類標准值 1 水溫(℃) — 2 PH值(無量綱) 6—9 3 溶解氧 ≥ 2 4 高錳酸鹽指數 ≤ 15 5 化學需氧量 ≤ 40 6 五日生化需氧量 ≤ 10 7 氨氮 ≤ 2.0 8 總磷 ≤ 0.4 9 總氮 ≤ 2.0 10 銅 ≤ 1.0 11 鋅 ≤ 2.0 12 氟化物 ≤ 1.5 13 硒 ≤ 0.02 14 砷 ≤ 0.1 15 汞 ≤ 0.001 16 鎘 ≤ 0.01 17 鉻(六價) ≤ 0.1 18 鉛 ≤ 0.1 19 氰化物 ≤ 0.2 20 揮發酚 ≤ 0.1 21 石油類 ≤ 1.0 22 硫化物 ≤ 1.0 23 糞大腸菌群(個/L) ≤ 40000 表3 水質評價計算方法 單因子污染指數 Pi = Ci/ Si Ci——第i項污染物的監測值; Si——第i項污染物評價標准值; 溶解氧指數 Cf——對應溫度T時的飽和溶解氧濃度;
Ci——溶解氧濃度監測值;
Si——溶解氧評價標准值; pH指數 pHi——pH監測值;
pHS,min——評價標准值的下限;
pHS,max ——評價標准值的上限; 污染物超標倍數 Ci ——第i項污染物的監測值;
C0 ——第i項污染物評價標准值; 內梅羅指數 Pmax ——單因子污染指數的最高值;
Pi ——第i項污染物的污染指數;
n ——參與評價污染物的項數; 常用的客觀賦權法之一:熵值法
熵是資訊理論中測度一個系統不確定性的量。信息量越大,不確定性就越小,熵也越小,反之,信息量越小,不確定性就越大,熵也越大。熵值法主要是依據各指標值所包含的信息量的大小,利用指標的熵值來確定指標權重的。熵值法的一般步驟為:
(1)、對決策矩陣作標准化處理,得到標准化矩陣,並進行歸一化處理得:
(2)、計算第個指標的熵值:。其中。
(3)、計算第個指標的差異系數。對於第個指標,指標值的差異越大,對方案評價的作用越大,熵值越小,反之,差異越小,對方案評價的作用越小,熵值就越大。因此,定義差異系數為:。
(4)、確定指標權重。第個指標的權重為:。
效益型和成本型指標的標准化方法
對於效益型(正向)指標和成本型(逆向)指標,由於這兩者是最常見並且使用最廣泛的指標,所以,對這兩種指標標准化處理的方法也最多,一般的處理方法有:
1. 極差變換法
該方法即在決策矩陣中,對於效益型指標,令
=
對於成本型指標,令
=
則得到的矩陣稱為極差變換標准化矩陣。其優點為經過極差變換後,均有,且各指標下最好結果的屬性值,最壞結果的屬性值。該方法的缺點是變換前後的各指標值不成比例。
2. 線性比例變換法
即在決策矩陣中,對於效益型指標,令
=
對成本型指標,令
=
或
=
則矩陣稱為線性比例標准化矩陣。該方法的優點是這些變換方式是線性的,且變化前後的屬性值成比例。但對任一指標來說,變換後的和不一定同時出現。
3. 向量歸一化法
即在決策矩陣中,對於效益型指標,令
對於成本型指標,令
則矩陣稱為向量歸一標准化矩陣。顯然,矩陣的列向量的模等於1,即。該方法使,且變換前後正逆方向不變,缺點是它是非線性變換,變換後各指標的最大值和最小值不相同。
4. 標准樣本變換法
在中,令
其中,樣本均值,樣本均方差,則得出矩陣,稱為標准樣本變換矩陣。經過標准樣本變換之後,標准化矩陣的樣本均值為,方差為。
5. 等效系數法
對成本型指標,令
=
該方法的優點是變換前後的指標值成比例,缺點是各指標下方案的最好與最差指標值標准化後不完全相同。
另外,關於效益型指標的標准化處理還有:
=
關於成本型指標的標准化處理還有:
=
固定型指標的標准化方法
對於固定型指標,若設為給定的固定值,則標准化處理的方法主要有以下幾種,即令
或
或
或
(4.15)式的特點是各最優屬性值標准化後的值均為1,而各最差屬性的值標准化後的值不統一,即不一定都為0。
若設和分別是人為規定的最優方案和最劣方案,在該情形下,還給出了效益型、成本型和固定型指標的新的標准化方法。
對效益型和成本型,有:
對固定型指標則有:
區間型指標的標准化方法
對區間型的指標,其指標標准化處理的方法主要有以下幾式:
設,令
或令
顯然,還可以簡化為:
或令
或令
其中,是指給定的某個固定區間,即屬性值越接近該區間越好。
偏離型指標的標准化方法
對越來越偏離某值越好的偏離性指標,一般有如下標准化公式:
或令
(對都有)
或令
偏離型指標是與固定型指標相對立的一種指標類型,它的公式使用可以用固定型指標的公式改造,但在使用時要注意其公式的適用范圍。
偏離區間型指標的標准化方法
對偏離區間型指標,有如下標准化的方法:
令
或令
或令
其中,是某個固定區間,屬性值越偏離該區間越好。偏離區間型指標是與區間型指標相對立的一種指標類型。
㈡ 因子分析法的分析步驟
因子分析的核心問題有兩個:一是如何構造因子變數;二是如何對因子變數進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。
(i)因子分析常常有以下四個基本步驟:
⑴確認待分析的原變數是否適合作因子分析。
⑵構造因子變數。
⑶利用旋轉方法使因子變數更具有可解釋性。
⑷計算因子變數得分。
(ii)因子分析的計算過程:
⑴將原始數據標准化,以消除變數間在數量級和量綱上的不同。
⑵求標准化數據的相關矩陣;
⑶求相關矩陣的特徵值和特徵向量;
⑷計算方差貢獻率與累積方差貢獻率;
⑸確定因子:
設F1,F2,…, Fp為p個因子,其中前m個因子包含的數據信息總量(即其累積貢獻率)不低於80%時,可取前m個因子來反映原評價指標;
⑹因子旋轉:
若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。
⑺用原指標的線性組合來求各因子得分:
採用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。
⑻綜合得分
以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此處wi為旋轉前或旋轉後因子的方差貢獻率。
⑼得分排序:利用綜合得分可以得到得分名次。
在採用多元統計分析技術進行數據處理、建立宏觀或微觀系統模型時,需要研究以下幾個方面的問題:
· 簡化系統結構,探討系統內核。可採用主成分分析、因子分析、對應分析等方法,在眾多因素中找出各個變數最佳的子集合,從子集合所包含的信息描述多變數的系統結果及各個因子對系統的影響。「從樹木看森林」,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統的結構,認識系統的內核。
· 構造預測模型,進行預報控制。在自然和社會科學領域的科研與生產中,探索多變數系統運動的客觀規律及其與外部環境的關系,進行預測預報,以實現對系統的最優控制,是應用多元統計分析技術的主要目的。在多元分析中,用於預報控制的模型有兩大類。一類是預測預報模型,通常採用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術。另一類是描述性模型,通常採用聚類分析的建模技術。
· 進行數值分類,構造分類模式。在多變數系統的分析中,往往需要將系統性質相似的事物或現象歸為一類。以便找出它們之間的聯系和內在規律性。過去許多研究多是按單因素進行定性處理,以致處理結果反映不出系統的總的特徵。進行數值分類,構造分類模式一般採用聚類分析和判別分析技術。
如何選擇適當的方法來解決實際問題,需要對問題進行綜合考慮。對一個問題可以綜合運用多種統計方法進行分析。例如一個預報模型的建立,可先根據有關生物學、生態學原理,確定理論模型和試驗設計;根據試驗結果,收集試驗資料;對資料進行初步提煉;然後應用統計分析方法(如相關分析、逐步回歸分析、主成分分析等)研究各個變數之間的相關性,選擇最佳的變數子集合;在此基礎上構造預報模型,最後對模型進行診斷和優化處理,並應用於生產實際。
㈢ 什麼是單因子分析法
單因子分析法應該是單因素敏感性分析法
每次只變動一個因素而其他因素保持不變時所做的敏感性分析法叫做單因素敏感性分析法
㈣ 單因子指數法的方法簡介及步驟
計算某一評價指標的污染指數公式為:
單項指標污染指數:
(2–1)
或者
(2–2)
某斷面綜合污染指數:
(2–3)
式中 Pi——某一評價指標的相對污染值
Ci——某一評價指標的實測濃度值
Co——某一評價指標的最高允許標准值
P——某斷面的污染指數
n——某斷面內測點數
計算單項參數溶解氧(DO)來說,,其只值應隨濃度增大而減小,因此它的計算式:
2–4
式子是根據國家及有關部門頒布的水環境質量標准,以L4作為溶解氧最低濃度標准值,以C i≥8作為河流未受污染時的情況.
對於評價參數pH ,由於它的Ci濃度值為7.0時,表明河流水質狀況良好,Ci過高或過低均表示不同性質的污染。計算公式為:
2–5
式中:—— pH 的最高濃度標准值
—— pH 的最低濃度標准值
㈤ 常用的氣候變化檢測和歸因方法有哪些
水文頻率分析計算是水利工程規劃設計、施工以及運行管理的基礎工作,傳統的水文頻率分析計算的一個基本前提是水文序列滿足一致性假設。近幾十年來,受氣候變化和人類活動影響,許多河流的徑流序列存在非一致性,導致傳統基於一致性假設的水文頻率計算方法的適用性受到嚴峻挑戰,因此研究非一致性條件下水文頻率分析方法具有重要的意義。在總結了國內外最新的非一致水文序列頻率分析研究成果的基礎上,將該研究方向的研究重點、難點和熱點歸納為如下四方面:1)單變數水文序列的非一致性診斷;2)單變數水文序列非一致性的數學描述與歸因分析;3)非一致性條件下的單變數隨機事件重現期定義和估計;4)多變數非一致水文序列的頻率分析。
㈥ 描述氣候的主要指標有哪些
氣象指標:氣象部門根據氣象預測而發布的為居民生產,生活出行而提供的參考數據。包括溫度、濕度、風向、風力、太陽照射強度等相關數據。氣象指標是利用氣象觀測、試驗調查資料,以及利用氣象的歷史資料,進行分析、驗證、修正、歸納得出的具體數值,在所選用資料的區間范圍內比較穩定並具有代表性。指標有單因子和多因子兩種,後者又稱綜合指標。單因子指標以一個氣象參數的量值表示,如平均溫度,降水量等;多因子指標以多個氣象參數的量值表示,如用氣溫、相對濕度和風速表示的乾熱風指標,用蒸發量與降水量的比值來表示干濕程度的乾燥指數或乾燥度等。同一單因子指標因氣象條件的不同關系,又可有多種具體指標,如溫度指標還可分為最低、最高、適宜等。