導航:首頁 > 研究方法 > 空間多元統計分析方法

空間多元統計分析方法

發布時間:2022-04-25 18:42:53

㈠ 水土資源合理利用案例研究———以張掖地區為例

9. 5. 1 張掖地區土地利用結構空間分異特徵

研究區域土地利用結構的空間分異,可對復雜土地利用現象進行規律性簡化,進而為各種土地利用問題的深入研究提供指導性框架。隨著土地利用信息的日益豐富,如何科學處理大量相關信息,已是土地利用格局研究面臨的問題。多元統計分析方法的應用,為相關的空間分異研究提供了可行的方法和手段。計算機應用技術的發展,使多元統計分析過程中的計算速度已不是限制因素; 相應地,發掘和利用數值方法,探索區域宏觀空間分異特徵的研究取得了許多進展 ( 李元,2000; 唐華俊等,2000) 。

本節以甘肅張掖市各縣區 1996 年土地利用詳查數據為基礎,用提取主要信息的因子分析和綜合各種信息的聚類分析相結合的方法,探討該區域土地利用結構的空間分異特徵。

以甘肅張掖市 6 個縣 ( 區) 為評價單元,具體包括甘州區、肅南裕固族自治縣、民樂縣、臨澤縣、高台縣和山丹縣。基礎數據為 1996 年土地利用詳查數據,具體到土地利用的二級類型數據。除去面積為零或面積極小的土地利用二級類型外,引入計算的土地利用結構類型有 25 種,包括耕地中的灌溉水田、水澆地、旱地,園地中的果園,林地中的有林地、灌木林地、疏林地、未成林地、苗圃,草地中的天然草地、改良草地、人工草地,居民點及工礦用地中的城鎮、農居、獨立工礦地、特殊用地,交通用地中的鐵路、公路、農村道路,水域中的河流、水庫、坑塘、葦地、灘塗、溝渠。

多元統計分析方法中的因子分析和聚類分析是兩種重要的綜合評價方法。因子分析是建立一種從高維空間到低維空間的映射,這種映射能保持樣本在高維空間的某種 「結構」,其中最明顯的是與 「排序」有關的結構 ( 於秀林等,1999; 胡永宏等,2000) 。因子分析不僅可以研究各個指標之間的關系,進而進行指標歸類; 而且更重要的是通過因子分析的綜合評價,可賦予每個評價單元少數富含有結構性映射的綜合得分值或降維新指標以及反映新指標重要程度的特徵根值。

聚類分析主要體現綜合分析的作用,並能展示各樣本之間的親疏關系。其局限性是,變數的量綱不同會影響分析結果,但經消除量綱影響的標准化處理,又使每個變數權重一致; 更為重要的是不能剔除變數之間的多餘或重疊信息。可見單純的聚類分析結果往往不能真實反映各樣本之間的親疏關系。但以因子分析的特徵根為權重,乘以相應的因子得分值,則可以得到體現變數重要程度的少數指標,在此基礎上進行的聚類分析可以較客觀地反映樣本或評價單元之間的親疏關系。

對 25 種土地利用結構類型的比重進行因子分析和聚類分析。因子分析的具體步驟: ①利用主成分分析法提取公共因子。②根據方差累計貢獻率提取特徵根 ( 一般認為大於 70%) 。③選擇方差最大正交旋轉進行變換。④依據回歸法計算因子得分。聚類分析方法的具體步驟: ①以因子分析的前幾個特徵根和相應的因子得分值,計算新的變數; ②在新變數非標准化的前提下,用 Euclidean 方法計算樣本間距離,用 Ward 方法進行連接 ( 於秀林等,1999;胡永宏等,2000) 。

9. 5. 1. 1 評價指標之間的關系

評價指標的歸類是綜合數值分析的基礎。有關土地利用結構類型的各種指標之間存在著程度不同的相關性,通過因子分析,可對不同指標做進一步的歸並,深化人們對各種指標之間 「親疏」關系的理解。如表9. 46、表9. 47、圖9. 13 所示,前3 個特徵根值的累計貢獻率已經達到81. 559%( 大於 70%) ,即 25 個變數所反映的信息可由 3 個主成分 ( λ1+ λ2+ λ3≈20. 4 個變數) 反映81. 559%,降維效果十分明顯。因此,在 25 個特徵根中提取前 3 個特徵根。

表 9. 46 因子分析總方差解釋

注 : 提取方法為主成分分析; 旋轉方法: 方差最大正交旋轉。

表 9. 47 旋轉後的因子成分矩陣

注: 提取方法為主成分分析; 旋轉方法: 方差最大正交旋轉。表中不顯示絕對值小於 0. 1 的數值。

由表 9. 47 可知,第一因子在農村道路溝渠、特殊用地、水澆地、城鎮、農居、果園、公路、改良草地、葦地和苗圃比重上的載荷較高,其中改良草地的影響為負,其他為正; 第二因子在獨立工礦地、未成林地、疏林地、灌木林地、灘塗、水庫、坑塘、天然草地和鐵路用地比重上的載荷較高,疏林地、灌木林地和天然草地影響為負,其他為正; 第三因子在有林地、人工草地、旱地、灌溉水田和河流比重上的載荷較高,人工草地和旱地影響為負,其餘為正。每個因子中載荷較高的土地利用結構類型比重之間具有較高的相關性,相應的土地利用結構類型可歸為一類。這樣,通過因子分析,可將 25 類土地利用類型歸並為 3 類。

9. 5. 1. 2 評價單元之間的關系

通過因子分析,可利用每個因子得分對評價單元進行排序比較。以含有主要特徵的降維變數乘以相應的特徵根為新指標,通過聚類分析可研究各評價單元之間的親疏關系 ( 圖 9. 14) ,為分區定界提供定量依據。

圖 9. 13 降維分析碎石圖

如果採用較長的距離閾值,如連接距離閾值為 90,可將評價單元分為兩大類,即西北部的張掖市甘州區、臨澤縣和高台縣,以及東南部的肅南裕固族自治縣、民樂縣和山丹縣。隨著採用距離閾值的減小,評價單元可逐步分離。如連接距離閾值為 70,評價單元歸並為 4 類,即: ①張掖市甘州區,②臨澤縣和高台縣,③南裕固族自治縣,④民樂縣和山丹縣。各評價單元的親疏關系如圖 9. 14 所示。

圖 9. 14 基於因子分析的系統聚類分析

9. 5. 1. 3 類型區的歸並

根據基於因子分析的系統聚類分析結果,按照區劃方法的經典原則 ( 黃秉緯,1989; 鄭度等,1997; 吳傳鈞等,1994) ,結合土地資源分布特點 ( 蒙吉軍,1998) ,則可以實現從分類到分區的轉換。研究結果可將張掖市的土地利用結構分為 4 個類型區 ( 圖 9. 15) 。

圖 9. 15 張掖市土地利用結構分區

幾大類土地利用結構的空間變化情況為: 耕地比重肅南裕固族自治縣最低,其他地區從東南部到西北部,有下降的趨勢,其中與甘州區比鄰的縣耕地比重較大; 園地比重甘州區最高,以甘州區為中心,向其他方向園地比重下降; 林地比重東南部較高,向西北部降低,甘州區林地比重較低; 牧草地比重東南部較高,向西北部降低,甘州區牧草地比重較高; 居民工礦地和交通用地比重以甘州區為高值中心向其他方向減小,但高台縣的略有上升; 水域面積比重,以臨澤縣及其比鄰的縣市較高; 未利用地比重從東南向西北下降,肅南裕固族自治縣的未利用地比重也較高 ( 表 9. 48) 。

表 9. 48 張掖市土地利用結構 ( 占土地總面積比例) ( 1996) 單位: %

9. 5. 2 張掖地區土地利用結構時間變化特徵

1997 ~ 2000 年期間,張掖地區土地利用結構的變化幅度不大。耕地、園地、居民及工礦地、交通用地和水域用地面積都有所增加; 牧草地和未利用地面積有下降的趨勢,林地面積有升有降( 表 9. 49) 。

從各縣區土地利用狀況分析,耕地在各縣區均有所增加; 園地面積主要增加在高台、山丹和民樂; 林地面積增加在肅南、臨澤、民樂,減少在高台,其他縣區基本不變; 牧草地面積在各縣區均有減少; 居民點及工礦地、交通用地基本不變或略有增加; 水域面積在臨澤和高台增加; 未利用土地除肅南外,均有減少的趨勢。

表 9. 49 張掖市土地利用變化 單位: 103hm2

9. 5. 3 張掖市水土資源匹配

9. 5. 3. 1 張掖市各縣區灌溉定額及其適宜綠洲面積的確定

張掖綠洲氣候乾旱,具有光照資源充沛的優勢和年降水量不足的特點,加上結構復雜、起伏較大的地形和沙漠戈壁發射率高,大氣濕度低,凈輻射反而比同緯度濕潤地區低 ( 246~287MJ/m2) 。因此必須考慮水熱資源的平衡,在調節水熱資源的基礎上進行灌溉,才能取得良好的生態、經濟效益。蒙吉軍 ( 1998) 根據水熱平衡對張掖市各縣區的灌溉定額做了深入研究。

( 1) 實際蒸散的確定

蒸散的確定有多種方法,其中影響較大的是彭曼和拜倫的方法。拜倫提出以 「實際」蒸散代替可能蒸散,其實際蒸散是由實際氣溫、降水制約的濕潤狀況反推出來的蒸散,是與不同干濕區的臨界值比較後得出的各種蒸散值,對評價降水量的豐欠、流域水分平衡、水熱平衡等都有重要作用。由於張掖綠洲處在乾旱、半乾旱地區,下墊面不可能達到恆定的濕潤狀態,不具備可能蒸散的條件。因此,本文採用了拜倫的實際蒸散公式來計算調節水熱資源的一系列參數。

西北典型內流盆地水資源調控與優化利用模式:以黑河流域為例

西北典型內流盆地水資源調控與優化利用模式:以黑河流域為例

式中

S———濕潤指數;

Si———月濕潤指數;

P———月降水量 ( cm) ;

t———月均溫 ( ℃ ) ;

Ea———S= 6. 37 ( 即半濕潤區中值條件) 的實際蒸散量 ( cm) ;

T———年均溫 ( ℃ ) ;

T'———綜合性年溫;

Rt———年凈輻射;

A———氣溫年均差 ( U = 0. 366A) ;

D———乾燥率;

Lp———潛熱。

據此法計算結果見表 9. 50。各縣區實際蒸發量 ( Ea) 在 44. 2969~56. 2470cm 之間,凈輻射約( 17×104~ 24×104) J/ ( a·cm2) ; 乾燥度甘州、臨澤、高台在 7 ~ 9 之間,肅南、山丹、民樂在 2~ 4 之間,說明前者屬於乾旱氣候,後者屬於半乾旱氣候。

表 9. 50 按照拜倫蒸散公式計算的張掖綠洲調節水熱平衡的參數

( 據蒙吉軍,1998)

( 2) 波文比與灌溉定額

波文比是感熱消耗 ( C) 對潛熱消耗 ( LE) 的比值,即 β=C/LE。它反映了下墊面上的感熱與潛熱比,可明顯表示其干濕狀況,一般 β 越大下墊面越乾燥,反之則濕潤,通常情況下,海洋為0. 1,沙漠可達 5. 8 以上。在計算波文比時潛熱用實際蒸散 ( Ea) 乘以汽化潛熱 ( L) 即可求得,感熱 ( C) 用凈輻射 ( Rt) 減潛熱 ( Lp) 求得。計算結果見表 9. 50。除民樂外其他地方 β 均大於0. 6,說明感熱消耗過多,顯熱消耗不足。計算實際蒸散、凈輻射以及波文比都是為了求得合理的灌水深度和灌溉定額。

當 S=6. 37、D =1. 377 時,為半濕潤區的中值,按這一濕潤指數推算的 Ea稱為基本實際蒸散( E1. 37) ; 當 S = 9. 56、D = 0. 90 時,為濕潤區的中值,據此推算的 Ea為最優實際蒸散 ( E0. 9) 。滿足 E1. 37可使植被生長良好; 滿足 E0. 9可使植被生長最優。因此,調節水熱平衡應將 E 控制在 E1. 37和 E0. 9之間,同時灌溉定額也將隨 E 調控。計算公式如下:

西北典型內流盆地水資源調控與優化利用模式:以黑河流域為例

西北典型內流盆地水資源調控與優化利用模式:以黑河流域為例

參考溫帶濕潤區情況,波文比取 β=0. 4 就可以照顧 Rt在感熱和顯熱方面的適當分配。如 β=0. 4,則合理蒸散 E0. 4= 1. 19Rt,g0. 4= E0. 4-P,Q0. 4= 100 g0. 4。式中,g1. 37、g0. 9、g0. 4分別為基本灌溉深度、最優灌溉深度和合理灌溉深度,Q1. 37、Q0. 9、Q0. 4分別為基本灌溉定額、最優灌溉定額和合理灌溉定額。據此得出灌溉定額,見表 9. 51。

表 9. 51 張掖綠洲各縣區各類灌溉定額和深度

( 據蒙吉軍,1998)

超額灌溉,不僅浪費了大量的水資源,而且導致了成片土地的鹽鹼化。因此必須節約水資源,以防止土壤鹽鹼化的繼續蔓延。據中科院沙漠所在臨澤進行的作物需水量實驗研究得出的結論:年降水量 100mm、蒸發量 2400mm 的河西走廊,每年灌水 4500m3/ hm2就可達到畝產噸糧。因此,不論從理論上還是實踐上都證明,控制灌溉定額對綠洲生態平衡是非常重要的。據此,本研究取合理灌溉定額作為計算合理綠洲面積的基礎。

( 3) 張掖市 2005 年和 2010 年農業可供水量預測

由於歷史傳統原因,農業一直是張掖市用水的主體。2000 年張掖市生活 ∶ 工業 ∶ 農業 ∶ 生態用水的比例為2. 2 ∶ 2. 8 ∶ 87. 7 ∶ 7. 4。而在 2001 年,全區用水總量為 24. 50×108m3,其中的 95. 1%為農林牧業用水。根據 《張掖市節水型社會建設試點實施方案大綱》,張掖市到 2010 年的節水目標是: ①保障國務院批準的分水方案,正常年份使正義峽下泄水量達到 9. 5×108m3; ②全區用水總量由目前的 26×108m3減少到 20×108m3,全區生活 ∶ 工業 ∶ 農業 ∶ 生態用水比例調整為5. 8 ∶7. 7 ∶ 56. 8 ∶ 29. 6。綜合上述,2005 年整個張掖市安排用水總量為 22×108m3,生活 ∶ 工業 ∶ 農業∶ 生態用水比例為4. 5 ∶ 5. 0 ∶ 72. 5 ∶ 18. 0。以此推算,張掖市 2005 年農業用水量為 15. 95×108m3,2010 年農業用水量為 11. 36 × 108m3。根據上述總量控制指標以及現狀用水區域比例,2005 年和2010 年張掖市各縣區農業可供水量如表 9. 52 所示。

表 9. 52 張掖市 2005 年和 2010 年農業可供水量預測與綠洲面積

( 4) 基於基本灌溉定額的適宜綠洲面積

乾旱區綠洲的水土平衡一般採用公式 A=W/I 來計算。式中,A 為綠洲面積 ( hm2) ,W 為農業可用水量 ( m3) ,I 為灌溉定額 ( m3/ hm2) 。根據各縣 ( 區) 大農業凈供水量及合理灌溉定額,各縣 ( 區) 適宜的綠洲面積如表 9. 52 所示。

9. 5. 3. 2 生態安全條件下的綠洲土地利用結構

( 1) 綠洲的生態環境問題與防護林建設

黑河流域目前所面臨的主要生態環境問題是,上游山區水源涵養林的破壞及其保護和中下游平原地區人工和天然綠洲沙漠化及其治理。此外,還有污染和土壤鹽鹼化等環境問題。污染問題從目前來看還不太明顯和突出,但在流域工業化進程中是不可避免的,應特別重視,防患於未然。因為對乾旱地區來說,任何污染物都是只吞不吐,不能排出區外,如果沒有污水的科學化處理和高標准排放,日積月累,最終將會徹底地污染和破壞人類現有的生存空間,造成無法挽回的損失。土地次生鹽鹼化是乾旱地區三大自然災害之一,因局部地區大水漫灌和地下水位過高造成,隨著流域地表水和地下水聯合開發利用階段的完成,將最終得到根本的抑制和治理。乾旱地區植物生長離不開水源,上游山區降水較多,水源涵養林主要分布在溫濕條件適宜的中山地帶和亞高山地帶,不需人工灌溉,山前平原的中、下游地區降水稀少,無論是人工還是天然綠洲都需要外來( 主要來自山區) 水源補充灌溉。綠洲既然是乾旱地區一種零星分布的逆沙漠化景觀,必然要遭遇到乾旱地區所特有的各種自然災害的包圍和侵襲。以從事農業生產為主的人工綠洲,如果沒有一個完整的能夠抵禦這些自然災害的防護體系,就不會有生態環境良好的、適於人類生存的可持續發展基地。乾旱地區人民在長期利用和改造自然的社會生產實踐過程中,最終找到了既能美化和保護環境,又能抵禦主要自然災害的兩全其美的方法,就是 「植樹造林,綠化祖國,保護環境」,在人工綠洲內部和外圍營造和建立適宜比例的防護體系。黑河流域經過國家兩期 「三北防護林建設工程」的實施,集中分布在中游地區的人工綠洲內部,已有 90%以上的農田得到保護,促進了環境和生產的雙豐收,在國家第二期 「三北防護林工程」實施後,完整的人工綠洲生態環境防護體系,在 2000 年最終建成,使 100%的綠洲和農田得到庇護。由於乾旱地區生態效益和經濟效益具有高度的統一性,二者相輔相成,良好的生態效益不僅是獲取高經濟效益的基礎和保證,也是實現可持續發展不可缺少的。因此在缺水和因缺水生態環境十分脆弱的乾旱地區,應當更為強調良好生態環境的保護和建設,其用水保證在排序上應僅次於生活供水。實際上,在具體的生產實踐中,所有比較穩定的人工綠洲都具有十分完整和健全的林業防護體系。人工綠洲防護林體系是指: 在綠洲外圍建立灌草固沙帶和營建防風固沙林帶; 在綠洲邊緣營建大型基幹防風防沙林帶;在綠洲內部營造護田林網,實行農林混作,包括營建護渠 ( 田) 林、護路林、村落 「四旁植樹」和在小片夾荒地、鹽鹼下潮地、河灘地上,建設小片經濟林、用材林和大片薪炭養畜林等。從綠洲的外圍到內部,根據不同的生境和需要進行植樹造林,使整個綠洲的林木分布均勻,布局合理,構成一個層層設防的網、片、帶和喬、灌、草結合的防護林體系。防護林體系的防護能力,一般隨林地的增加而提高,但不是林地面積越大越好,而是到一定程度後不再提高,另外林地比例過大,還會出現農林爭地、爭水和林帶脅地等問題,因此 「林地」比例應有一個 「適宜度」。根據研究和長期的生產實踐,黑河流域中游防護林地面積以占人工綠洲總面積的 12%為宜 ( 北部被風沙包圍的綠洲可增加到 13%) ,其中綠洲邊緣大型防風沙林帶占 0. 9%,農田防護林面積占 7%,護路林面積占 1. 9%,四旁植樹面積占 2. 3% ( 曲耀光等,2000) 。

( 2) 防護林建設的區域差異分析

根據 「九五」國家重點科技攻關計劃項目 96-912,黑河流域水資源合理利用與社會經濟和生態環境協調發展研究 ( 程國棟等) 成果,可較合理地設定各縣市防護林建設的結構。張掖市境內現形成兩個大沙區: 一是甘州至高台沙區,沙漠主要分布於黑河水系的干支流兩岸,成片狀,帶狀零星散布於綠洲農田區和交通沿線; 二是山丹、民樂沙區,包括山丹、民樂兩縣的北部地區和張掖石崗墩帶,以戈壁沙灘為主,被綠洲農田所包圍或隔離開。地下水位埋藏較深。1995 年山丹縣境內現狀不存在現代風沙化土地,即不存在流動沙丘 ( 地) 。固定或半固定沙丘 ( 地) 以及非生物固沙工程地等為代表的沙質荒漠土地,僅存在戈壁沙灘荒漠。流域中游地區其他各縣境內土地沙漠化程度都十分嚴重,其中高台、臨澤縣,沙漠化土地已達總土地面積的 54. 9%~64. 3%,超過半數; 最少的肅南裕固族自治縣境內沙漠土地也占總土地面積的 20%,且多集中於沖洪積平原地勢平坦的綠洲周圍。如果不計戈壁灘地,僅以單純意義上的活動沙丘、固定或半固定沙丘及非生物工程固沙地計算各地的沙化土地,可得出: 民樂縣為 1. 565 × 104hm2,占總土地面積的22. 05%; 甘州區為 2. 413×104hm2,占土地總面積的 6. 92%; 臨澤縣為 1. 229×104hm2,占總土地面積的 40. 37%; 高台縣為 10. 708×104hm2,占總土地面積的 24. 32%; 肅南裕固族自治縣為6. 491× 104hm2,占總土地面積的 13. 0%。反映出民樂、臨澤及肅南等地各類沙丘面積所佔比例較大,張掖市以戈壁沙灘地所佔比例最大,約占沙化土地面積的 70. 80%。在沙漠化土地中,流動沙丘起沙風速小,大約 5m/s,而且比固定沙地在起沙條件下輸沙強度大,風沙機會也多,因此是危害性最大的一類沙化土地類型; 半固定沙丘介於流動沙丘與固定沙丘之間,同樣比固定沙丘的危害性要大。因此,從風沙危害性及潛在風沙機會 ( 風沙時間及沙丘推移擴展強度) 兩方面來說,流動沙丘及半固定沙丘的多少,可以表徵一個區域的沙化危害程度及潛在風沙強度。從表 9. 53 可看出,民樂、肅南兩地流動沙丘所佔比例較大,反映該地區現代沙化過程較強烈; 高台縣境內,不僅沙漠化土地規模較大,而且流動沙丘所佔比例也較大,沙漠化危害程度較其他地區要嚴重。臨澤縣境內,流動沙丘規模較小,但半固定沙丘范圍較大,二者合起來已佔總沙漠化土地的 54%,植被生態體系建設與維護程度將直接影響該地區的沙化程度。

表 9. 53 張掖市沙漠化土地分布特徵

注: 表中肅南裕固族自治縣括弧中的數據為沙漠化面積與草地面積之比。

研究區沙漠化土地分布的另一個特徵就是大部分地區,沙漠化面積均大於現狀耕地面積。除山丹縣以外 ( 耕地面積大於沙漠化面積) ,民樂、甘州兩縣區沙漠化面積約為耕地面積的 1. 4~1. 5倍。農耕環境相對惡劣,農業生態環境較脆弱,沙化威脅較大。肅南耕地面積較少,其比值意義不大,與草地面積相比,草地面積要顯著大於沙漠化面積。如果用耕地、林地及草地之和代表現狀綠洲面積,則臨澤現狀綠洲面積與沙漠化面積之比為 1 ∶ 1. 27,高台綠洲面積與沙漠化面積之比為 1 ∶ 2. 3; 而民樂綠洲面積約為沙漠化面積的 2. 04 倍。這些結果反映出流域中游地區山丹、民樂、肅南等境內現狀綠洲面積要大於沙漠化土地面積,綠洲仍是自然生態體系中的主體要素,但在臨澤、高台等中下游地區,沙漠化土地面積已超過綠洲面積而成為主導性環境要素。

根據表 9. 54,山丹、民樂、甘州和肅南防護林面積設置為人工綠洲面積的 12%,相應的綠洲邊緣大型防風沙林帶占 0. 9%,農田防護林面積占 7%,護路林面積占 1. 9%,四旁植樹面積佔2. 3%。臨澤和高台縣防護林面積設置為人工綠洲面積的 13%,相應的綠洲邊緣大型防風沙林帶佔1%,農田防護林面積占 7. 6%,護路林面積占 2. 1%,四旁植樹面積占 2. 5%。根據陳昌毓 ( 1995)的研究,適宜農田面積占人工綠洲面積的百分比如表 9. 54 所示。

表 9. 54 張掖市綠洲土地利用結構 ( 占適宜綠洲面積的百分比) 單位: %

由此可以根據表 9. 54 計算 2005 年人工綠洲區農林牧用地面積,如表 9. 55 所示。

表 9. 55 張掖市 2005 年綠洲土地利用結構預測 單位: hm2

根據近幾年,特別是 2001 年耕地復種指數及農作物種植結構,可以預測 2005 年可能的農作物種植情況 ( 表 9. 56) 。

表 9. 56 張掖市 2005 年綠洲農作物種植結構預測 單位: hm2

根據基於因子分析的聚類分析的結果,各縣區 ( 評價單元) ,在土地利用結構上: 臨澤縣和高台縣非常相近,並在一定連接距離上與甘州區相近; 民樂縣和山丹縣也非常相近,並在一定連接距離上與肅南裕固族自治縣相近。因此,在水土資源匹配、土地利用結構和農作物種植結構調整上可以參照上述分區結果。

㈡ 統計學專業的研究概況

20世紀的最後五年,人類富有創造性的勤奮努力,使信息技術、生命科學等領域的研究取得了重大突破,在科學技術史冊中譜寫了光輝的篇章。統計學學科伴隨著科學技術的發展在理論研究和實際應用中也取得了可喜的進展。本報告分別從國外、國內研究概況及中國高校統計學科的研究發展情況給予扼要總結和回顧。 隨著科學技術的飛速發展,統計方法與技術的應用越來越重要。19世紀統計技術為基因學說奠定了理論基礎,在即將跨入21世紀的今天,科學技術對統計方法的依賴愈來愈強。世界上許多國家尤其是發達國家都非常重視統計學理論的研究和發展。根據國際統計學會(ISI)近幾年的會刊及統計學方面的著名雜志,可將近幾年國際統計界研究的主要問題概括如下:
1.統計學基本理論研究有:概率極限理論及其在統計中應用、樹形概率、Banach空間概率、隨機PDE』S、泊松逼近、隨機網路、馬爾科夫過程及場論、馬爾科夫收斂率、布朗運動與偏微分方程、空間分支總體的極限、大的偏差與隨機中數、序貫分析和時序分析中的交叉界限問題、馬爾科夫過程與狄利克雷表的一一對應關系、函數估計中的中心極限定理、極限定理的穩定性問題、因果關系與統計推斷、預測推斷、網路推斷、似然、M——估計量與最大似然估計、參數模型中的精確逼近、非參數估計中的自適應方法、多元分析中的新內容、時間序列理論與應用、非線性時間序列、時間序列中確定模型與隨機模型比較、極值統計、貝葉斯計算、變點分析、對隨機PDE』S的估計、測度值的處理、函數數據統計分析等。
2.統計學主要應用領域有:社會發展與評價、持續發展與環境保護、資源保護與利用、電子商務、保險精算、金融業資料庫建設與風險管理、宏觀經濟監測與預測、政府統計數據收集與質量保證等、分子生物學中的統計方法、高科技農業研究中的統計方法、生物制葯技術中的統計方法、流行病規律研究與探索的統計方法、人類染色體工程研究中的統計方法、質量與可靠性工程等。 「九五」期間中國統計界出現了社會經濟統計學與數理統計學相互學習、共同提高、共創未來的新局面。1996年10月,中國統計學會、中國概率統計學會、中國現場統計學會聯合舉辦了全國統計科學討論會,這是「九五」期間中國統計學術界一次盛會,它標志著中國社會經濟統計學與數理統計學的合作已進入實質性階段。統計界在數理統計與社會經濟統計學的結合方面、風險管理與保險精算方面、空間統計學及其應用方面、政府統計數據質量研究與評價方面、信息技術、網路技術在統計學的應用方面、金融及證券理論研究方面、國民經濟核算理論與應用方面、綜合國力研究方面等取得了可喜的成就。「九五」期間國內統計界主要有影響的研究可概括如下:
1.理學類統計學一級學科地位的確立
「九五」期間中國統計界關於建立和完善統計學學科體系的研究與爭論異常激烈。統計界對「大統計」的認識通過大量探索已逐步趨向統一。所謂「大統計」是針對中國過去數理統計、社會經濟統計、生物醫學統計等各學科領域的應用統計各自為政相對面窄而言。1998年9月國家教育部頒布的《普通高等學校本科專業目錄和專業介紹》將統計學列為理學類一級學科,這是中國統計界「九五」期間的重大成就。教育部這項專業調整是為了適應市場經濟與國際接軌的要求,在「寬口徑,厚基礎」的指導思想下,將原來的504個專業調整到249個專業,50%以上專業被砍掉,然而統計學不僅保留,而且列入理學類一級學科,這是中國統計界廣大理論工作者辛勤努力的重要成就,是中國統計界值得慶幸的大事,它的頒布對中國統計的未來具有重大意義和深遠影響。這一專業目錄的確定為中國統計界長期的爭論進一步指明了發展方向。這個方向就是——適應市場經濟與國際接軌的統計學就是理學類統計學。統計學一級學科的地位表明統計學既不是經濟學的一個子學科,也不是數學的一個子學科,統計學就是統計學。盡管統計學被教育部專業目錄確定為理學類一級學科,但統計界,尤其是中國高等統計教育界經濟類統計學者反對者甚多。有的學者認為理學類統計學就是數學,只有經濟學其中的統計學才是統計學。贊成者認為統計學就是統計學,理學類統計學與數學有著質的區別,經濟學類的統計學已被中國實踐證明是前蘇聯的文科式統計學,根本不能代表作為方法論的整個統計學科。這一爭論還將繼續一段時間。
2.統計學基本理論與方法問題研究
「九五」期間中國統計界圍繞與國際統計學接軌做了大量研究工作,系統地介紹了國外統計學研究的一些新進展。這方面最為突出的是國家統計局統計教育中心和中國統計出版社組織國內一流統計專家翻譯出版了15本現代外國統計學優秀著作。這些著作令中國統計界不少學者大開眼界,從中汲取豐富的統計理論和方法,已在中國統計界產生了積極影響,為理學類統計學科的建立與發展奠定了基礎。為適用新專業目錄的需要,國內高校的統計教師們編寫了一批統計方法和應用的新教材。中國統計界在抽樣方法、時間序列分析、多元統計分析、非參數統計、回歸分析、指數理論、宏觀經濟建模等理論與應用研究方面作了大量工作。
3. 政府統計數據質量的研究
隨著中國社會主義市場經濟的深入發展,政府統計數據無論是在國家制定發展戰略和社會、經濟發展的宏觀調控中,還是企業制定營銷策略以及社會、經濟、環境等科學研究領域都起著不可或缺的重要作用,用戶對政府統計數據的內在質量以及數據的產生、提供過程的可靠性的企盼也越來越高。關於中國政府統計數據的質量關注和研究的學者很多,發表的論文或報告已有近百篇之多。幾乎每個省都設立了統計數據質量研究的課題,全國哲學社會科學基金還設立了「關於評估、改進和保證中國政府統計數據質量問題的研究」的重點項目。該項目從定性與定量的有機結合上開展對政府統計數據的評價與研究,主要從技術與方法上對中國政府統計數據的質量作出客觀評價,對改進、提高、控制、監測中國政府統計數據的質量從理論與實踐的結合上做了一些研究和探索。但總體來看,現有的大多數研究基本停留在定性的評說上,提批評的多,提實質性建議的少;指責體制的多,研究評價、改進、識別的理論與方法的少,大多數文獻把統計數據的質量問題歸結為中國的政治、經濟體制問題。事實上,縱觀北美、歐盟等許多國家的政府統計數據,無一例外地也存在數據質量問題,政府統計數據的質量是各國普遍存在和廣泛關注的熱點問題。
4. 風險管理和保險精算的研究
「九五」期間關於風險管理和保險精算的研究得到較快發展,主要表現在不少發達國家風險管理和保險精算名著的翻譯出版,中國統計方面雜志以及幾次全國概率統計學術會議這方面論文的顯著增加。風險管理與保險精算的研究不僅滿足中國社會主義市場經濟的需要,也更大地擴展了統計學方法的應用。這方面的研究從引進國外理論已向中國的具體應用健康發展,保險精算的研究已由壽險領域向非壽險領域擴展,尤其是開始結合中國實際向社會保障領域有效延伸。
5. 統計學在金融、證券領域的應用研究
1997年開始的亞洲金融風暴,給亞洲乃至世界經濟的健康發展帶來危機,中國經濟的發展也受到亞洲金融風暴的影響。國家的經濟安全、金融安全被國家領導核心重視,為統計技術與方法的應用提供了新的機遇,在全國應運而生建立了金融數學與金融工程管理中心、證券期貨模擬實驗室、金融數學系等。全國有不少統計學者成為研究金融、證券、投資的主力。從發表的論文來看統計方法研究金融、證券問題主要有:(1)有效投資組合研究。最為典型的是VaR技術的運用和具有異方差的時間序列模型技術的應用。(2)結構分析研究。運用多元統計方法分析股票的投資結構、探討股票漲跌規律、尋求證券市場發展與影響因素的關系。(3)金融安全概率的研究。有學者運用東南亞等國和中國的金融數據資料,結合金融安全給出預警概率,為國家宏觀經濟調控和金融風險防範提供了有力的決策依據。
6. 統計綜合評價理論與應用的研究
國際競爭力的研究是頗受世界各國關注的重要研究。中國學者在「九五」期間開始開展這一領域的研究、並且通過刻苦努力緊跟這一領域的世界水平,在這方面中國學者所用的統計方法與世界水平相當,結合中國國情國力取得了重要成果。這方面有國民經濟核算進一步發展的國際競爭力統計研究,知識經濟時代中國科技創新的國際競爭力研究,中國金融、保險等領域的國際競爭力研究還有統計方法在社會經濟發展水平的綜合評價中的應用,顧客滿意度量測與評價的研究等。
7. 國民經濟核算理論與應用研究
「九五」期間,中國的國民經濟核算體系研究進一步完善。在內容上,以增加值和GDP為核心,已經能比較全面地反映中國國民經濟生產全過程、收入與分配、消費、儲蓄、實物投資、金融投資、國際收支、資本和財富存量的變化等。為國家制定經濟政策和宏觀調控發揮著積極作用。可喜的是已有一些學者在國家的可持續發展、環境與核算技術相結合方面取得了重要研究成果。
8.質量體系認證應用研究
「九五」期間,一股「ISO9000」認證熱席捲全球,質量體系認證日益成為國際貿易中所要求的供方質量保證能力和水平的標志。ISO9000族標准中有許多要素涉及到統計技術與方法的應用,中國已有近2萬家大中型企業通過了認證。這方面的認證,對統計方法的應用提供了新的機會,中國不少統計學者找到了統計應用的現場,為國有企業員工培訓、提高素質、扭虧增盈,國家經濟形勢好轉發揮了統計工作者的積極作用。特別是試驗設計、ISO14000和6質量標准技術的推廣對改進企業管理水平,提高產品質量,提升企業國際競爭力發揮了重要作用。
9.抽樣調查方法的研究與應用
「九五」期間關於抽樣調查方法的研究與應用在中國開展的如火如荼。例如,交通部還建立了統計抽樣調查系統。交通運輸的大量統計數據已基本由抽樣調查方法獲得。全國許多行業對本部門關心的問題進行抽樣調查,不少部門就公眾關注的熱點問題開展公眾調查,有的報刊還定期刊登公眾調查的調查報告。中國90年代初成立了不少市場調查公司,經過幾年的大浪淘沙,全國生存下來的公司經營狀況不錯。網上調查、電話調查在中國也健康發展。有關抽樣調查的理論,如非抽樣誤差控制的研究也得到統計界的廣泛重視。
10.空間統計與地理信息系統的應用研究
空間統計學是近幾年統計學發展的一個新領域,其主要的應用包括遙感,國土資源估計,農業和林業,海洋學、生態學和環境觀測。在遙感技術的應用中,得到的統計數據通常以網路的形式出現,而且這些數據受到大氣效應、觀測位置以及測量工具的影響產生誤差,空間統計學的應用在於,針對這種特殊的數據,研究如何控制誤差、如何建立模型、如何處理資料信息。在資源的估測中,空間統計學的應用在於,如何利用空間統計數據,估計資源的總儲量、資源的地區分布、資源的開發等。在環境監測等領域也作了積極的探索。

㈢ 統計學專業的學科發展

人類帶著上個千年創造的輝煌跨入新的千年。面對忽忽到來的21世紀,每個人、每個實體、每個學科,乃至整個國家都面臨機遇和挑戰。欲行千里,始於足下,走好21世紀的頭五年,至關重要。在此,我們將對21世紀的頭五年,即中國經濟社會發展的第十個五年計劃中,統計學學科的發展予以厚望。
一、統計學學科的研究發展趨勢
21世紀是知識經濟的時代,信息技術、計算機技術為統計學理論與方法的發展將產生巨大的推動作用。知識創新是時代的基本特徵。統計學理論與方法的創新必將為眾多領域和學科的發展體現出應有的價值。統計學與其他學科的緊密結合將產生新的邊緣學科,許多學科的發展將依賴於統計理論與技術的應用,更為復雜數據的處理方法將成為統計理論界研究的熱點,實用快捷的統計方法與技術將更加普及。
二、十五」期間統計學學科研究的奮斗目標
「九五」期間統計學學科的建立為「十五」已打下了堅實基礎,通過五年的努力,中國統計學理學類一級學科的地位將更加牢固,中國高等統計教育將發生較大的變化,大多數院校的統計專業將改造成適應一級學科地位的統計學,高校統計專業的課程設置將更具有時代特點,統計學理論與方法的應用將在社會主義市場經濟建設中發揮重大作用。有些統計學理論研究與應用將縮小與世界水平的差距,在某些研究方面將達到世界先進水平。
三、「十五」期間統計學研究的重點領域
1.統計理論與方法的創新研究
統計學的生命力就在於應用,應用為統計學的發展賦予活力。
「十五」期間異方差性時間序列問題研究、離散多元統計分析研究、數據挖掘理論研究、異常數據診斷的研究、非參數理論與方法的研究、抽樣與非抽樣誤差理論的研究等將是統計理論研究的熱點。知識經濟、新經濟對統計理論與方法提出更高要求,如何適應電子商務時代統計數據的收集,空間遙感技術的運用等都為統計理論提出新挑戰,統計工作者必須創新出適合各種復雜類型數據的統計方法才能適應實踐的需求。
2.開展空間統計學理論與應用的研究
空間統計學是近幾年統計學發展的一個新領域,主要指運用遙感技術進行國土資源的測定,農業和林業、海洋生物、環境生態的觀測。這種觀測數據通常表現為網路形式,而且這些數據受到大氣效應、觀測工具等諸多因素的影響。空間統計學的應用在於,針對這種特殊的數據,研究誤差控制、數據處理、模型建立、統計推斷。這將是統計學研究的新領域。
計算機技術的發展對統計學發展影響的研究
信息技術與計算機技術的發展是推動新經濟發展的主要動力。可以斷言,沒有計算機的發展就沒有統計方法的普遍有效應用。計算機技術的飛速發展為統計學方法的應用帶來挑戰和發展的機遇。統計數據的收集如何有效藉助網路技術,統計調查方法如何適應現代信息技術,統計數據處理如何深入都將成為研究的熱點問題。
3.生命科學與生物技術中統計方法的應用研究
21世紀是生命科學的世紀,人類不久將完全揭示人類基因排序。19世紀中葉基因學說的創立,就是依賴於統計推斷技術,21世紀生命科學中將有大量的相關研究要藉助統計方法與技術,這個領域的學者將大有作為。21世紀醫學領域的科技創新,將使許多不治之症得到解決,生物制葯將在醫學領域大放異彩,統計學方法在生物制葯技術中的廣泛應用將是不爭的事實。美國輝瑞制葯公司每年投入50億美金用於研究發展,在美的生物統計人員極易找到高薪的工作就足以說明這一領域的廣闊前景。
4.國家經濟安全與金融、保險領域的應用研究
國家的經濟安全及其金融危機的防範問題是中國改革開放中必須高度重視的問題。國家經濟安全、金融危機的預警系統的研究是與統計學方法緊密聯系的研究熱點,投資項目的風險管理研究也將依賴統計學者去研究解決。保險產品的精算理論與實踐在「九五」期間得到一定的進展,為這一領域的深入發展奠定了基礎,如何將發達國家保險精算的理論與中國保險業實際相結合值得深入研究,尤其是保險精算方法向社會保障領域延伸的研究是中國國情賦予給這個領域的迫切任務。
5.政府統計數據質量的進一步研究
政府統計數據的質量在「九五」期間得到國人的普遍關注。不僅國家哲學社科基金設立重點研究課題,幾乎各地方政府也設專項研究,發表的論文已有近百篇。然而這方面的研究還有待深入,不僅從制度上約束、控制數據的可靠性,從檢測、驗證的方法上還需進一步探討。有的重點課題已在檢驗方法上有所突破,但如何具體與中國政府實際數據緊密結合,實施這些方法還須加大力度進行研究和實踐。
6.統計學在社會、人口、教育、環境等領域的應用研究
社會的發展、人口的控制、教育結構的調整與發展、環境的保護等領域存在著大量急待研究的問題,統計學方法是定性與定量研究的有力工具。統計學方法在這些領域將會有廣闊的應用前景。
四、「十五」期間統計學重點研究課題及其簡要論證
1. 中國統計教育發展戰略研究
統計教育是統計科學長期發展的戰略問題。但中國統計教育卻存在著招生難、分配難、經費缺、師資不足、教材陳舊、課程設置不合理等諸多問題。因此,加強統計教育研究也是我們的重要課題。
研究內容包括:統計教育指導思想的研究;統計教育發展目標的研究;統計教育如何適應市場經濟發展的要求,適應現代信息產業與信息技術的要求,適應與國際接軌的要求等問題,要研究統計教育改革與培養目標模式轉換的問題;統計專業培養方案研究;研究統計教育基礎理論課程設置和統計教育辦學層次問題;研究統計教學方法及教學中計算機運用的問題;研究統計師資隊伍建設與培養問題。
理學類一級學科的統計學課程建設的研究
中國大多數院校統計專業的課程設置基本上是前蘇聯的文科模式,這與國際接軌的理學類統計學嚴重不適應。統計學專業應該開設一些什麼課程,這關繫到統計專業是否得到社會認可,是關繫到統計專業生存與發展的大問題。課程建設與課程設置、教材編寫必須高度重視,這應該成為「十五」期間研究解決的主要課題之一。
關於提高政府統計數據質量問題的進一步研究部分統計數據的質量低,可靠性不夠是從上到下各級領導與各界人士廣泛關注的熱點問題之一。提高和保證中國官方統計數據的質量,不僅是政府進行宏觀決策重要保證,也是改善社會風氣重要方面之一。要想從根本上提高和保證官方統計數據的質量,從統計學的角度看,必須解決好以下問題:(1)建立評價統計數據質量的質量標准;(2)對影響統計數據質量的各種因素進行系統分析,找出其中限制性環節;(3)對現有各種統計調查方法的實用性進行比較研究,確定適合中國國情的科學的統計調查方法體系;(4)建立統計數據質量控制體系,選擇適當的方法和控制手段,對統計數據質量實現從指標、設計、調查、匯總到分布的全過程質量控制;(5)宏觀總量數據的科學估算問題研究。這些問題在「九五」期間已得到較多研究,但是檢驗、診斷及控制數據質量的實踐研究須進一步深入。
中國「地下經濟」活動核算的理論和方法研究
過去幾年,中國的「地下經濟」問題表現很突出,並引起人們的關注。「地下經濟」的存在,它的規模多大,性質如何,影響怎樣,會影響到國民生產總值和人民生活水平的正確統計,影響對改革開放成果的評價,也影響到中國經濟政策和調控措施的落實。對「地下經濟」問題的研究、計量已是完善國民經濟核算體系,改善客觀經濟管理的重要內容。西方國家對「地下經濟」的研究已有20多年的歷史,但一直沒有形成十分成熟的理論和方法。結合中國「地下經濟」的具體特點,研究「地下經濟」核算的理論和方法,不僅具有現實意義,也具有國際意義。
對「地下經濟」核算理論與方法的研究主要包括:「地下經濟」的界定與劃分;「地下經濟」的核算范圍;「地下經濟」活動的性質及表現;「地下經濟」的測算方法如直接調查法、間接推演算法、各種測算方法的結合運用;「地下間接」調查方法體系的建立與實施;「地下經濟」對國民經濟核算的影響及分析,「地下經濟」對國民經濟發展影響的統計分析等。這一研究課題在「九五」期間就曾提出,但實質性的進展不大。
關於旅遊經濟、假日經濟和休閑時間的統計研究
「十五」期間中國的經濟結構將得到進一步調整,假日經濟、旅遊經濟將佔一席之地。關於這個領域統計指標體系的建立問題的研究,旅遊客流量、賓館入住率、景點門票收入、餐飲業收入、航空、鐵路等運輸客流量的預測研究等。隨著人民生活水平的提高,生活質量及其休閑時間的規律研究對於制定有關政策,開發市場都具有重要的現實意義。這些都是統計科學應用的新課題。
抽樣技術在社會經濟統計調查中的應用
盡管從理論上講,抽樣技術從樣本容量確定到抽樣估計都已經比較成熟,但在抽樣方法的具體應用過程中卻存在許多難於解決的實際問題。尤其是運用抽樣技術於社會經濟現象的調查中更是如此。當前中國統計制度改革的重要內容之一是推行以抽樣調查為中心,以定期普查為基礎的新統計調查體系。而這要求我們必須解決應用抽樣調查技術所面臨的許多具體實際問題,包括:(1)抽樣調查中國家樣本和地方樣本的協調與配合問題;(2)對於按某一標志代表性抽取的樣本,如何保證其它標志的代表性問題;(3)抽樣調查中的不回答問題;(4)抽樣調查過程中調查誤差的控制問題;(5)對於缺損數據的科學估算問題;(6)抽樣調查方案設計與實施中其它問題。在研究過程中,始終要注意考慮中國的具體國情。「十五」期間更應關注網路技術和通信技術在抽樣調查中的應用研究。
關於中國居民消費模式的量化研究
消費與收入之間有著密切的關系。消費函數是可支配收入與總消費支出之間關系的數學描述。研究中國居民消費與收入之間的關系,量測中國居民的消費水平,探討影響居民消費的主要因素。研究者應考慮到影響消費的眾多因素,利用統計數據,建立消費模型,並總結建立中國消費函數應注意的問題和經驗。
中國第五次人口普查數據資料的深度分析
2000年11月1日的第五次人口普查是跨入21世紀的一次規模最大的統計調查,這些大量數據無疑隱含著非常寶貴的信息,對這些數據的深入挖掘和分析,為國家制定各種宏觀政策將起到巨大作用。過去受統計人員水平和計算機水平所限中國對人口普查數據的挖掘遠不如國外的競爭對手。「十五」期間對第五次人口普查數據的深入分析是中國政府統計界的一大任務。
關於災害損失統計指標與方法的研究
自然災害是人類不能迴避的一個現實問題,幾乎每年都有不同的自然災害,給人民生命財產造成極大損失。總結研究自然災害及其造成的損失具有重大的現實意義。統計指標的建立,數據的收集,規律的探討這是總結和掌握災害規律的重要過程。統計理論和方法在這一領域將會發揮重要作用。
金融市場風險的測度及管理模型研究
金融市場是具有高風險的市場。運用統計方法研究金融風險,建立風險監測系統,不僅能夠為管理層宏觀調控金融市場提供科學的理論依據,而且對投資個人和機構實施風險控制具有重要指導作用。本課題立足中國金融市場,旨在從數量及數量關繫上研究風險的測度方法,風險管理模型的選擇及其管理對策。
SPC技術在產品質量控制中的應用
產品的質量關繫到企業的生存。中國許多企業非常重視產品質量控制,從產品的設計到生產的全過程的質量管理已經有些經驗。但是這方面仍有潛力可挖,特別是統計方法在質量管理中的運用與發達國家差距較大。該課題研究應緊密結合某企業或某產品的生產過程,運用統計方法,實施產品設計、生產的全過程式控制制。這方面的研究可結合企業ISO9000認證進行。還可進一步探討「6」質量標准在中國企業的推廣應用。
高新技術產業的綜合考核與評價研究
關於企業經濟效益的綜合評價研究在過去已有不少,然而高新技術企業的評價考核指標體系的建立仍是一個新問題。高新技術企業與傳統企業的評價指標應有嚴格的不同,應具有高新技術的自身特點。這方面研究需要政府統計與企業統計人員一起進行研究,探討指標體系的建立,數據的收集、數據的分析等。
關於數理統計方法普及和推廣的研究
數理統計方法的科學性已被中國廣大統計工作者所接受,但由於歷史原因,中國社會經濟統計界對數理統計的基本理論和方法了解甚少。許多數理統計方法數學味太濃,實際統計工作者難以掌握。如何普及數理統計方法,使廣大統計工作者容易掌握,並在實踐應用中有很強的可操作性是需研究的問題。研究者需提出切實的可行性方案,並給予論證。
多元統計方法在社會經濟數據處理中的應用
多元統計分析是研究多個變數間相互關系的一個數理統計分支。經濟問題的復雜多樣性,經濟因素間的互相制約性,通過多元分析的一些方法,研究經濟變數之間的相互關系,尋找影響經濟現象的主要因素是非常有效的方法。研究者可結合社會主義建設中的任何具體問題進行研究,並注意總結多元統計方法在實際應用中存在的問題。
時間序列分析在經濟預測中的應用
這里所說的時間序列是隨機時間序列的分析,時間序列分析是數理統計中的一個重要分支。許多經濟指標都可依時間順序得到一串經濟數據,按時間順序排列的經濟數據就是經濟時間序列。利用時間序列方法研究中國的某些經濟指標的變化情況,建立相應的序列分析模型,並用時序模型去預測某經濟指標的未來數值為國家的宏觀調控服務。研究者應注意在中國應用時間序列方法存在的問題,克服中國經濟數據的一些缺陷,大力開展VaR模型技術的應用,總結時序分析在中國應用的經驗。
復雜動態隨機系統的統計學方法研究
在社會、經濟、自然等領域,經常遇到的反映現實的系統都是非常復雜的動態隨機系統,它們的特徵是,系統本身非常復雜,需要用成千上萬個參數進行描述,而且有關數據一般只能通過觀察而非實驗來取得。此外,在這些系統的研究中,隨機化和可重復性難於保證。這樣,就使得現有的各種統計學方法的應用效果不理想。在經濟學研究中,現有各種大規模經濟計量模型在分析預測社會經濟現象及其趨勢時,經常出現失誤,就是一個明顯的例證。究其原因主要有:(1)模型過於抽象,脫離實際太遠;(2)依據的數據質量不高;(3)採取的統計方法要求的前提條件不能滿足。類似的例子在研究許多生態、環境中的大系統問題時也經常出現。
統計方法在教育、考試測量研究中的應用
通過對各種考試現有資料的分析處理,並進行適當的實驗測試分析研究,尋找出各種考試的自身規律和特點,為更好地組織考試提供科學依據。要列舉出考試中各種因素,運用統計方法,分析研究這些因素對考試的影響,找出各主要影響因素,為更有效地控制這些因素提供方法和依據。這方面的研究是多變數的統計方法的應用。多元統計分析方法是這一領域地主要研究工具。
統計學方法在生命科學、生物制葯等領域的應用
生命科學、生物制葯的研究在21世紀將得到飛速發展。這一領域的發展帶動統計學理論與技術的發展,為統計理論和方法找到廣闊的應用領域。通過對這一領域的應用將拓寬統計方法在中國的應用,也必將促進統計方法與理論的完善。
參考文獻:
1.1996——1998年普通高校人文社會科學統計資料匯編
2.教育部人文社會科學研究第二屆優秀成果獎獲獎成果簡介匯編
3.教育部人文社會科學重點研究基地建設試點工作文件匯編
4.普通高等學校人文社會科學研究「九五」規劃咨詢報告匯編
5.全國哲學、社會科學「九五」期間統計學發展回顧與「十五」期間研究的重要領域、方向與研究。

㈣ 多元統計分析的簡介

multivariate statistical analysis
研究客觀事物中多個變數(或多個因素)之間相互依賴的統計規律性。它的重要基礎之一是多元正態分析。又稱多元分析 。 如果每個個體有多個觀測數據,或者從數學上說, 如果個體的觀測數據能表為 P維歐幾里得空間的點,那麼這樣的數據叫做多元數據,而分析多元數據的統計方法就叫做多元統計分析 。 它是數理統計學中的一個重要的分支學科。20世紀30年代,R.A.費希爾,H.霍特林,許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到迅速發展。50年代中期,隨著電子計算機的發展和普及 ,多元統計分析在地質 、氣象、生物、醫學、圖像處理、經濟分析等許多領域得到了廣泛的應用 ,同時也促進了理論的發展。各種統計軟體包如SAS,SPSS等,使實際工作者利用多元統計分析方法解決實際問題更簡單方便。重要的多元統計分析方法有:多重回歸分析(簡稱回歸分析)、判別分析、聚類分析、主成分分析、對應分析、因子分析、典型相關分析、多元方差分析等。
早在19世紀就出現了處理二維正態總體(見正態分布)的一些方法,但系統地處理多維概率分布總體的統計分析問題,則開始於20世紀。人們常把1928年維夏特分布的導出作為多元分析成為一個獨立學科的標志。20世紀30年代,R.A.費希爾、H.霍特林、許寶祿以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到了迅速的進展。40年代,多元分析在心理、教育、生物等方面獲得了一些應用。由於應用時常需要大量的計算,加上第二次世界大戰的影響,使其發展停滯了相當長的時間。50年代中期,隨著電子計算機的發展和普及,它在地質、氣象、標准化、生物、圖像處理、經濟分析等許多領域得到了廣泛的應用,也促進了理論的發展。
多元分析發展的初期,主要討論如何把一元正態總體的統計理論和方法推廣到多元正態總體。多元正態總體的分布由兩組參數,即均值向量μ(見數學期望)和協方差矩陣(簡稱協差陣)∑ (見矩)所決定,記為Np(μ,∑)(p為分布的維數,故又稱p維正態分布或p 維正態總體)。設X1,X2,…,Xn為來自正態總體Np(μ,∑)的樣本,則μ和∑的無偏估計(見點估計)分別是

分別稱之為樣本均值向量和樣本協差陣,它們是在各種多元分析問題中常用的統計量。樣本相關陣R 也是一個重要的統計量,它的元素為
其中υij為樣本協差陣S的元素。S的分布是維夏特分布,它是一元統計中的Ⅹ2分布的推廣。
另一典型問題是:假定兩個多維正態分布協差陣相同,檢驗其均值向量是否相同。設樣本X1,X2,…,Xn抽自正態總體Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要檢驗假設H 0:μ1=μ2(見假設檢驗)。在一元統計中使用t統計量(見統計量)作檢驗;在多元分析中則用T2統計量,
,其中,
,
·
,T2的分布稱為T2分布。這是H.霍特林在1936年提出來的。
在上述問題中的多元與一元相應的統計量是類似的,但並非都是如此。例如,要檢驗k個正態總體的均值是否相等,在一元統計中是導致F統計量,但在多元分析中可導出許多統計量,最著名的有威爾克斯Λ統計量和最大相對特徵根統計量。研究這些統計量的精確分布和優良性是近幾十年來多元統計分析的重要理論課題。
多元統計分析有狹義與廣義之分,當假定總體分布是多元正態分布時,稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內容已被推廣到更廣的分布之中,特別是推廣到一種稱為橢球等高分布族之中。
按多元分析所處理的實際問題的性質分類,重要的有如下幾種。 簡稱回歸分析。其特點是同時處理多個因變數。回歸系數和常數的計算公式與通常的情況相仿,只是由於因變數不止一個,原來的每個回歸系數在此都成為一個向量。因此,關於回歸系數的檢驗要用T2統計量;對回歸方程的顯著性檢驗要用Λ統計量。
回歸分析在地質勘探的應用中發展了一種特殊的形式,稱為趨勢面分析,它以各種元素的含量作為因變數,把它們對地理坐標進行回歸(選用一次、二次或高次的多項式),回歸方程稱為趨勢面,反映了含量的趨勢。殘差分析是趨勢面分析的重點,找出正的殘差異常大的點,在這些點附近,元素的含量特別高,這就有可能形成可採的礦位。這一方法在其他領域也有應用。 由 k個不同總體的樣本來構造判別函數,利用它來決定新的未知類別的樣品屬於哪一類,這是判別分析所處理的問題。它在醫療診斷、天氣預報、圖像識別等方面有廣泛的應用。例如,為了判斷某人是否有心臟病,從健康的人和有心臟病的人這兩個總體中分別抽取樣本,對每人各測兩個指標X1和X2,點繪如圖 。可用直線A將平面分成g1和g2兩部分,落在g1的絕大部分為健康者,落在g2的絕大部分為心臟病人,利用A的垂線方向l=(l1,l2)來建立判別函數
y=l1X1+l2X2,可以求得一常數с,使 y<с 等價於(X1,X2)落在g1,y>с等價於(X1,X2)落在g2。由此得判別規則:若,l1X1+l2X2<c
判,即此人為健康者;若,l1X1+l2X2>C
判,
即此人為心臟病人;若,l1X1+l2X2=c則為待判。此例的判別函數是線性函數,它簡單方便,在實際問題中經常使用。但有時也用非線性判別函數,特別是二次判別函數。建立判別函數和判別規則有不少准則和方法,常用的有貝葉斯准則、費希爾准則、距離判別、回歸方法和非參數方法等。
無論用哪一種准則或方法所建立的判別函數和判別規則,都可能產生錯判,錯判所佔的比率用錯判概率來度量。當總體間區別明顯時,錯判概率較小;否則錯判概率較大。判別函數的選擇直接影響到錯判概率,故錯判概率可用來比較不同方法的優劣。
變數(如上例中的X1和X2)選擇的好壞是使用判別分析的最重要的問題,常用逐步判別的方法來篩選出一些確有判別作用的變數。利用序貫分析的思想又產生了序貫判別分析。例如醫生在診斷時,先確定是否有病,然後確定是哪個系統有病,再確定是什麼性質的病等等。 又稱數值分類。聚類分析和判別分析的區別在於,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝標准,對 N個成年人,測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、後背(x7)、腰圍(x8)、臀圍(x9)、下體長(x10)等部位,要將這N個人進行分類,每一類代表一個號型;為了使用和裁剪的方便,還要對這些變數(x1,x2,…,x10)進行分類。聚類分析就是解決上述兩種分類問題。
設已知N個觀測值X1,X2,…,Xn,每個觀測值是一個p維向量(如上例中人的身高、胸圍等)。聚類分析的思想是將每個觀測值Xi看成p維空間的一個點,在p維空間中引入「距離」的概念,則可按各點間距離的遠近將各點(觀測值)歸類。若要對 p個變數(即指標)進行分類,常定義一種「相似系數」來衡量變數之間的親密程度,按各變數之間相似系數的大小可將變數進行分類。根據實際問題的需要和變數的類型,對距離和相似系數有不同的定義方法。
按距離或相似系數分類,有下列方法。①凝聚法:它是先將每個觀察值{Xi}看成一類,逐步歸並,直至全部觀測值並成一類為止,然後將上述並類過程畫成一聚類圖(或稱譜系圖),利用這個圖可方便地得到分類。②分解法:它是先將全部觀測值看成一類,然後逐步將它們分解為2類、3類、…、N類,它是凝聚法的逆過程。③動態聚類法:它是將觀測值先粗糙地分類,然後按適當的目標函數和規定的程序逐步調整,直至不能再調為止。
若觀察值X1,X2,…,Xn之間的次序在分類時不允許打亂,則稱為有序分類。例如在地質學中將地層進行分類,只能將互相鄰接的地層分成一類,不能打亂上下的次序。用於這一類問題中的重要方法是費希爾於1958年提出的最優分割法。
聚類分析也能用於預報洪水、暴雨、地震等災害性問題,其效果比其他統計方法好。但它在理論上還很薄弱,因為它不象其他方法那樣有確切的數學模型。 又稱主分量分析,是將多個變數通過線性變換以選出較少個數重要變數的一種方法。設原來有p個變數x1,x2,…,xp,為了簡化問題,選一個新變數z,
,
要求z盡可能多地反映p個變數的信息,以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定後,稱z為x1,x2,…,xp的主成分(或主分量)。有時僅一個主成分不足以代表原來的p個變數,可用q(<p)個互不相關的呈上述形式的主成分來盡可能多地反映原p個變數的信息。用來決定諸系數的原則是,在
的約束下,選擇l1,l2,…,lp使z的方差達到最大。
在根據樣本進行主成分分析時又可分為R型分析與Q型分析。前者是用樣本協差陣(或相關陣)的特徵向量作為線性函數的系數來求主成分;後者是由樣品之間的內積組成的內積陣來進行類似的處理,其目的是尋找出有代表性的「典型」樣品,這種方法在地質結構的分析中常使用。 它是由樣本的資料將一組變數
y2,……yp)
分解為一些公共因子f與特殊因子s的線性組合,即有常數矩陣A使у=Af+s。公共因子f 的客觀內容有時是明確的,如在心理研究中,根據學生的測驗成績(指標)來分析他的反應快慢、理解深淺(公共因子);有時則是不明確的。為了尋求易於解釋的公共因子,往往對因子軸進行旋轉,旋轉的方法有正交旋轉,斜旋轉,極大變差旋轉等。
從樣本協差陣或相關陣求公共因子的方法有廣義最小二乘法、最大似然法與不加權的最小二乘法等。通常在應用中,最方便的是直接利用主成分分析所得的頭幾個主成分,它們往往是對各個指標影響都比較大的公共因子。 它是尋求兩組變數各自的線性函數中相關系數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。各對的相關系數稱為典型相關系數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯系。典型相關分析雖然30年代已經出現,但至今未能廣泛應用。
上述的各種方法可以看成廣義多元分析的內容,在有些方法中,如加上正態性的假定,就可以討論一些更深入的問題,例如線性模型中有關線性假設檢驗的問題,在正態的假定下,就有比較系統的結果。 多元分析也可按指標是離散的還是連續的來區分,離散值的多元分析實質上與列聯表分析有很大部分是類似的,甚至是一樣的。
非數量指標數量化的理論和方法也是廣義多元分析的一個重要的研究課題。

㈤ 多元統計分析方法的作用是什麼

多元統計分析方法的作用使實際工作者利用多元統計分析方法解決實際問題更簡單方便。

如果每個個體有多個觀測數據,或者從數學上說,如果個體的觀測數據能表為P維歐幾里得空間的點,那麼這樣的數據叫做多元數據,而分析多元數據的統計方法就叫做多元統計分析,它是數理統計學中的一個重要的分支學科。

典型相關分析

它是尋求兩組變數各自的線性函數中相關系數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。各對的相關系數稱為典型相關系數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯系。典型相關分析雖然30年代已經出現,但至今未能廣泛應用。

㈥ 因子分析法的概念

1.主成分分析
主成分分析主要是一種探索性的技術,在分析者進行多元數據分析之前,用他來分析數據,讓自己對數據有一個大致的了解,這是非常有必要的。主成分分析一般很少單獨使用:a、了解數據。(screening the data),b、和cluster analysis(聚類分析)一起使用,c、和判別分析一起使用,比如當變數很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成分對變數簡化(rece dimensionality),d、在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
1、因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成各變數的線性組合。
2、主成分分析的重點在於解釋各變數的總方差,而因子分析則把重點放在解釋各變數之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且藉助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的信息)來進入後續的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到。所以這種區分不是絕對的。
在演算法上,主成分分析和因子分析很類似,不過在因子分析中所採用的協方差矩陣的對角元素不再是變數的方差,而是和變數對應的共同度(變數方差中被各因子所解釋的部分)。
2.聚類分析(Cluster Analysis)
聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術。
在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,並且可以描述出各細分市場的人群特徵,以便於客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。
3.判別分析(Discriminatory Analysis)
判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;採用不同的判別准則,又有費歇、貝葉斯、距離等判別方法。
費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。貝葉斯(BAYES)判別思想是根據先驗概率求出後驗概率,並依據後驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂後驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正後的結果。
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關於各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬於距離值最小的那個母體。
4.對應分析(Correspondence Analysis)
對應分析是一種用來研究變數與變數之間聯系緊密程度的研究技術。
運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。
這種研究技術還可以用於檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出後或市場推廣活動後消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。
5.典型相關分析
典型相關分析是分析兩組隨機變數間線性密切程度的統計方法,是兩變數間線性相關分析的拓廣。各組隨機變數中既可有定量隨機變數,也可有定性隨機變數(分析時須F6說明為定性變數)。本法還可以用於分析高維列聯表各邊際變數的線性關系。
注意
1.嚴格地說,一個典型相關系數描述的只是一對典型變數之間的相關,而不是兩個變數組之間的相關。而各對典型變數之間構成的多維典型相關才共同揭示了兩個觀測變數組之間的相關形式。
2.典型相關模型的基本假設和數據要求
要求兩組變數之間為線性關系,即每對典型變數之間為線性關系;
每個典型變數與本組所有觀測變數的關系也是線性關系。如果不是線性關系,可先線性化:如經濟水平和收入水平與其他一些社會發展水之間並不是線性關系,可先取對數。即log經濟水平,log收入水平。
3.典型相關模型的基本假設和數據要求
所有觀測變數為定量數據。同時也可將定性數據按照一定形式設為虛擬變數後,再放入典型相關模型中進行分析。
6.多維尺度分析(Multi-dimension Analysis)
多維尺度分析(Multi-dimension Analysis) 是市場研究的一種有力手段,它可以通過低維空間(通常是二維空間)展示多個研究對象(比如品牌)之間的聯系,利用平面距離來反映研究對象之間的相似程度。由於多維尺度分析法通常是基於研究對象之間的相似性(距離)的,只要獲得了兩個研究對象之間的距離矩陣,我們就可以通過相應統計軟體做出他們的相似性知覺圖。
在實際應用中,距離矩陣的獲得主要有兩種方法:一種是採用直接的相似性評價,先將所有評價對象進行兩兩組合,然後要求被訪者所有的這些組合間進行直接相似性評價,這種方法我們稱之為直接評價法;另一種為間接評價法,由研究人員根據事先經驗,找出影響人們評價研究對象相似性的主要屬性,然後對每個研究對象,讓被訪者對這些屬性進行逐一評價,最後將所有屬性作為多維空間的坐標,通過距離變換計算對象之間的距離。
多維尺度分析的主要思路是利用對被訪者對研究對象的分組,來反映被訪者對研究對象相似性的感知,這種方法具有一定直觀合理性。同時該方法實施方便,調查中被訪者負擔較小,很容易得到理解接受。當然,該方法的不足之處是犧牲了個體距離矩陣,由於每個被訪者個體的距離矩陣只包含1與0兩種取值,相對較為粗糙,個體距離矩陣的分析顯得比較勉強。但這一點是完全可以接受的,因為對大多數研究而言,我們並不需要知道每一個體的空間知覺圖。
多元統計分析是統計學中內容十分豐富、應用范圍極為廣泛的一個分支。在自然科學和社會科學的許多學科中,研究者都有可能需要分析處理有多個變數的數據的問題。能否從表面上看起來雜亂無章的數據中發現和提煉出規律性的結論,不僅對所研究的專業領域要有很好的訓練,而且要掌握必要的統計分析工具。對實際領域中的研究者和高等院校的研究生來說,要學習掌握多元統計分析的各種模型和方法,手頭有一本好的、有長久價值的參考書是非常必要的。這樣一本書應該滿足以下條件:首先,它應該是「淺入深出」的,也就是說,既可供初學者入門,又能使有較深基礎的人受益。其次,它應該是既側重於應用,又兼顧必要的推理論證,使學習者既能學到「如何」做,而且在一定程度上了解「為什麼」這樣做。最後,它應該是內涵豐富、全面的,不僅要基本包括各種在實際中常用的多元統計分析方法,而且還要對現代統計學的最新思想和進展有所介紹、交代。
主成分分析通過線性組合將原變數綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變數)。在多變數分析中,某些變數間往往存在相關性。是什麼原因使變數間有關聯呢?是否存在不能直接觀測到的、但影響可觀測變數變化的公共因子?因子分析法(Factor Analysis)就是尋找這些公共因子的模型分析方法,它是在主成分的基礎上構築若干意義較為明確的公因子,以它們為框架分解原變數,以此考察原變數間的聯系與區別。
例如,隨著年齡的增長,兒童的身高、體重會隨著變化,具有一定的相關性,身高和體重之間為何會有相關性呢?因為存在著一個同時支配或影響著身高與體重的生長因子。那麼,我們能否通過對多個變數的相關系數矩陣的研究,找出同時影響或支配所有變數的共性因子呢?因子分析就是從大量的數據中「由表及裡」、「去粗取精」,尋找影響或支配變數的多變數統計方法。
可以說,因子分析是主成分分析的推廣,也是一種把多個變數化為少數幾個綜合變數的多變數分析方法,其目的是用有限個不可觀測的隱變數來解釋原始變數之間的相關關系。
因子分析主要用於:1、減少分析變數個數;2、通過對變數間相關關系探測,將原始變數進行分類。即將相關性高的變數分為一組,用共性因子代替該組變數。

㈦ 距離判別與貝葉斯判別的區別是什麼

如下:

貝葉斯判別的准則是使由誤判帶來的平均損失達到最小。距離判別採用的是馬氏距離,馬氏距離反映了分散程度,判別時計算樣品到總體的馬氏距離,把樣品歸類到馬氏距離最小的類別中。

對於協方差矩陣相等的若干個正態總體,兩者的不同之處在於臨界值的選取;若是先驗概率和損失函數相同的兩個同協方差矩陣的總體,則貝葉斯和距離判別是相同的。

三大類主流的判別分析演算法,分別為費希爾(Fisher)判別、貝葉斯(Bayes)判別和距離判別。

具體的,在費希爾判別中我們將主要討論線性判別分析(Linear Discriminant Analysis,簡稱LDA)及其原理一般化後的衍生演算法,即二次判別分析(Quadratic Discriminant Analysis,簡稱QDA)。

而在貝葉斯判別中將介紹樸素貝葉斯分類(Naive Bayesian Classification)演算法;距離判別我們將介紹使用最為廣泛的K最近鄰(k-Nearest Neighbor,簡稱kNN)及有權重的K最近鄰( Weighted k-Nearest Neighbor)演算法。

1、費希爾判別

費希爾判別的基本思想就是「投影」,即將高維空間的點向低維空間投影,從而簡化問題進行處理。

投影方法之所以有效,是因為在原坐標系下,空間中的點可能很難被劃分開,如下圖中,當類別Ⅰ和類別Ⅱ中的樣本點都投影至圖中的「原坐標軸」後,出現了部分樣本點的「影子」重合的情況,這樣就無法將分屬於這兩個類別的樣本點區別開來。

而如果使用如圖「投影軸」進行投影,所得到的「影子」就可以被「類別劃分線」明顯地區分開來,也就是得到了我們想要的判別結果。

我們可以發現,費希爾判別最重要的就是選擇出適當的投影軸,對該投影軸方向上的要求是:保證投影後,使每一類之內的投影值所形成的類內離差盡可能小,而不同類之間的投影值所形成的類間離差盡可能大,即在該空間中有最佳的可分離性,以此獲得較高的判別效果。

對於線性判別,一般來說,可以先將樣本點投影到一維空間,即直線上,若效果不明顯,則可以考慮增加一個維度,即投影至二維空間中,依次類推。而二次判別與線性判別的區別就在於投影面的形狀不同,二次判別使用若干二次曲面,而非直線或平面來將樣本劃分至相應的類別中。

相比較來說,二次判別的適用面比線性判別函數要廣。這是因為,在實際的模式識別問題中,各類別樣本在特徵空間中的分布往往比較復雜,因此往往無法用線性分類的方式得到令人滿意的效果。

這就必須使用非線性的分類方法,而二次判別函數就是一種常用的非線性判別函數,尤其是類域的形狀接近二次超曲面體時效果更優。

2、貝葉斯判別

樸素貝葉斯的演算法思路簡單且容易理解。

理論上來說,它就是根據已知的先驗概率P(A|B),利用貝葉斯公式求後驗概率P(B|A),即該樣本屬於某一類的概率,然後選擇具有最大後驗概率的類作為該樣本所屬的類。

通俗地說,就是對於給出的待分類樣本,求出在此樣本出現條件下各個類別出現的概率,哪個最大,就認為此樣本屬於哪個類別。

樸素貝葉斯的演算法原理雖然「樸素」,但用起來卻很有效,其優勢在於不怕雜訊和無關變數。而明顯的不足之處則在於,它假設各特徵屬性之間是無關的。

當這個條件成立時,樸素貝葉斯的判別正確率很高,但不幸的是,在現實中各個特徵屬性間往往並非獨立,而是具有較強相關性的,這樣就限制了樸素貝葉斯分類的能力。

3、距離判別

距離判別的基本思想,就是根據待判定樣本與已知類別樣本之間的距離遠近做出判別。具體的,即根據已知類別樣本信息建立距離判別函數式,再將各待判定樣本的屬性數據逐一代入計算,得到距離值,根據距離值將樣本判入距離值最小的類別的樣本簇。

K最近鄰演算法則是距離判別中使用最為廣泛的,即如果一個樣本在特徵空間中的K個最相似/最近鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。

K最近鄰方法在進行判別時,由於其主要依靠周圍有限鄰近樣本的信息,而不是靠判別類域的方法來確定所屬類別,因此對於類域的交叉或重疊較多的待分樣本集來說,該方法較其他方法要更為適合。

閱讀全文

與空間多元統計分析方法相關的資料

熱點內容
嗨吃伴侶食用方法 瀏覽:292
鑒別紅色五葉神方法 瀏覽:349
擦水毛巾步驟和方法 瀏覽:409
學習悟透的方法和技巧 瀏覽:298
拉抽芯鉚釘視頻安裝方法 瀏覽:814
門派靈寶怎麼獲得方法 瀏覽:501
植物監測的方法有哪些 瀏覽:940
在洪水中如何救人的方法 瀏覽:822
茉莉怎麼養殖方法 瀏覽:802
木粉的檢測方法 瀏覽:241
卡包的編織方法視頻教學 瀏覽:583
網路監控的安裝方法 瀏覽:458
做龍蝦方法步驟 瀏覽:472
鋅銅線的鑒別方法 瀏覽:767
如何介紹方法論 瀏覽:615
打火感測器使用方法 瀏覽:581
樓層水管止回閥的正確安裝方法 瀏覽:811
桑葉喂鴨子的正確方法 瀏覽:534
空間桿件角度非接觸測量方法 瀏覽:707
汽車缸墊安裝方法 瀏覽:226