A. 浠涔堟槸鍒ゅ埆鍒嗘瀽錛
鍒ゅ埆鍒嗘瀽錛圖iscriminant Analysis錛夋槸涓縐嶅父鐢ㄧ殑緇熻″垎鏋愭柟娉曪紝瀹冪殑鍩烘湰鎬濇兂鏄閫氳繃瀵逛竴緇勬暟鎹榪涜屽垎鏋愬拰澶勭悊錛屾壘鍒拌兘澶熸渶濂藉尯鍒嗕笉鍚岀被鍒鐨勫彉閲忔垨鐗瑰緛錛屼粠鑰屽規柊鏁版嵁榪涜屽垎綾繪垨棰勬祴銆備笅闈浠庡畾涔夈佸垎綾匯佸熀鏈鎬濇兂鍜屽簲鐢ㄧ瓑鏂歸潰瀵瑰垽鍒鍒嗘瀽榪涜岃︾粏鍒嗘瀽銆
鍩烘湰鎬濇兂
鍒ゅ埆鍒嗘瀽鐨勫熀鏈鎬濇兂鏄鎵懼埌鑳藉熸渶濂藉尯鍒嗕笉鍚岀被鍒鐨勫彉閲忔垨鐗瑰緛錛屼粠鑰屽規柊鏁版嵁榪涜屽垎綾繪垨棰勬祴銆傚叿浣撴潵璇達紝鍒ゅ埆鍒嗘瀽鐨勮繃紼嬪寘鎷浠ヤ笅姝ラわ細
錛1錛夋暟鎹鐨勫噯澶囷細鏀墮泦鍜屾暣鐞嗘暟鎹錛屽皢鏁版嵁鍒嗘垚璁緇冮泦鍜屾祴璇曢泦銆
錛2錛夊彉閲忕殑閫夋嫨錛氶夋嫨鑳藉熸渶濂藉尯鍒嗕笉鍚岀被鍒鐨勫彉閲忔垨鐗瑰緛錛屽彲浠ラ氳繃鐩稿叧鍒嗘瀽銆佹柟宸鍒嗘瀽絳夋柟娉曡繘琛岄夋嫨銆
錛3錛夊緩絝嬪垎綾繪ā鍨嬶細閫氳繃綰挎ф垨闈炵嚎鎬у嚱鏁扮瓑鏂瑰紡寤虹珛鍒嗙被妯″瀷錛屽皢鏁版嵁鍒嗘垚涓嶅悓鐨勭被鍒銆
錛4錛夋ā鍨嬬殑璇勪及錛氬瑰垎綾繪ā鍨嬭繘琛岃瘎浼板拰浼樺寲錛屽寘鎷浜ゅ弶楠岃瘉銆丷OC鏇茬嚎絳夋柟娉曘
錛5錛夋ā鍨嬬殑搴旂敤錛氬皢鍒嗙被妯″瀷搴旂敤鍒版柊鐨勬暟鎹涓錛岃繘琛屽垎綾繪垨棰勬祴銆
搴旂敤
鍒ゅ埆鍒嗘瀽鍦ㄥ疄闄呭簲鐢ㄤ腑鏈夌潃騫挎硾鐨勫簲鐢錛屽父鐢ㄤ簬浠ヤ笅鍑犱釜棰嗗煙錛
錛1錛夊尰瀛﹁瘖鏂錛氶氳繃瀵圭柧鐥呯浉鍏沖洜緔犵殑鍒嗘瀽鍜屽垽鍒錛岀『瀹氭偅鑰呯殑鐥呮儏鍜屾不鐤楁柟妗堛
錛2錛夐噾鋙嶉庨櫓璇勪及錛氶氳繃瀵瑰㈡埛淇$敤璁板綍銆佽儲鍔$姸鍐電瓑鍥犵礌鐨勫垎鏋愬拰鍒ゅ埆錛岀『瀹氬㈡埛鐨勪俊鐢ㄧ瓑綰у拰璐鋒鵑庨櫓銆
錛3錛変紒涓氬喅絳栵細閫氳繃瀵瑰競鍦恆佹秷璐硅呫佷駭鍝佺瓑鍥犵礌鐨勫垎鏋愬拰鍒ゅ埆錛岀『瀹氫紒涓氱殑甯傚満瀹氫綅鍜屽彂灞曠瓥鐣ョ瓑銆
錛4錛変漢鑴歌瘑鍒錛氶氳繃瀵逛漢鑴哥壒寰佺殑鍒嗘瀽鍜屽垽鍒錛岀『瀹氫漢鑴哥殑韜浠藉拰淇℃伅銆
錛5錛夎嚜鐒惰璦澶勭悊錛氶氳繃瀵規枃鏈鐗瑰緛鐨勫垎鏋愬拰鍒ゅ埆錛岀『瀹氭枃鏈鐨勬儏鎰熴佷富棰樼瓑淇℃伅銆
鎬諱箣錛屽垽鍒鍒嗘瀽浣滀負涓縐嶉噸瑕佺殑緇熻″垎鏋愭柟娉曪紝鍏鋒湁騫挎硾鐨勫簲鐢ㄥ墠鏅銆傚湪瀹為檯搴旂敤涓錛岄渶瑕佹牴鎹鍏蜂綋鐨勯渶奼傚拰鏁版嵁綾誨瀷閫夋嫨鍚堥傜殑鏂規硶鍜屾ā鍨嬶紝閫氳繃瀵規暟鎹鐨勫垎鏋愬拰澶勭悊錛屽緱鍒版洿鍔犲噯紜鐨勫垎綾誨拰棰勬祴緇撴灉銆
B. 多元統計分析概述
後期會把每一章的學習筆記鏈接加上
多元統計分析 是研究多個隨機變數之間相互依賴關系及其內在統計規律的一門學科
在統計學的基本內容匯總,只考慮一個或幾個因素對一個觀測指標(變數)的影響大小的問題,稱為 一元統計分析 。
若考慮一個或幾個因素對兩個或兩個以上觀測指標(變數)的影響大小的問題,或者多個觀測指標(變數)的相互依賴關系,既稱為 多元統計分析 。
有兩大類,包括:
將數據歸類,找出他們之間的聯系和內在規律。
構造分類模型一般採用 聚類分析 和 判別分析 技術
在眾多因素中找出各個變數中最佳的子集合,根據子集合所包含的信心描述多元系統的結果及各個因子對系統的影響,舍棄次要因素,以簡化系統結構,認識系統的內核(有點做單細胞降維的意思)
可採用 主成分分析 、 因子分析 、 對應分析 等方法。
多元統計分析的內容主要有: 多元數據圖示法 、 多元線性相關 與 回歸分析 、 判別分析 、 聚類分析 、 主成分分析 、 因子分析 、 對應分析 及 典型相關分析 等。
多元數據是指具有多個變數的數據。如果將每個變數看作一個隨機向量的話,多個變數形成的數據集將是一個隨機矩陣,所以多元數據的基本表現形式是一個矩陣。對這些數據矩陣進行數學表示是我們的首要任務。也就是說,多元數據的基本運算是矩陣運算,而R語言是一個優秀的矩陣運算語言,這也是我們應用它的一大優勢。
直觀分析即圖示法,是進行數據分析的重要輔助手段。例如,通過兩變數的散點圖可以考察異常的觀察值對樣本相關系數的影響,利用矩陣散點圖可以考察多元之間的關系,利用多元箱尾圖可以比較幾個變數的基本統計量的大小差別。
相關分析就是通過對大量數字資料的觀察,消除偶然因素的影響,探求現象之間相關關系的密切程度和表現形式。在經濟系統中,各個經濟變數常常存在內在的關系。例如,經濟增長與財政收人、人均收入與消費支出等。在這些關系中,有一些是嚴格的函數關系,這類關系可以用數學表達式表示出來。還有一些是非確定的關系,一個變數產生變動會影響其他變數,使其產生變化。這種變化具有隨機的特性,但是仍然遵循一定的規律。函數關系很容易解決,而那些非確定的關系,即相關關系,才是我們所關心的問題。
回歸分析研究的主要對象是客觀事物變數間的統計關系。它是建立在對客觀事物進行大量實驗和觀察的基礎上,用來尋找隱藏在看起來不確定的現象中的統計規律的方法。回歸分析不僅可以揭示自變數對因變數的影響大小,還可以用回歸方程進行預測和控制。回歸分析的主要研究范圍包括:
(1) 線性回歸模型: 一元線性回歸模型 , 多元線性回歸模型 。
(2) 回歸模型的診斷: 回歸模型基本假設的合理性,回歸方程擬合效果的判定,選擇回歸函數的形式。
(3) 廣義線性模型: 含定性變數的回歸 , 自變數含定性變數 , 因變數含定性變數 。
(4) 非線性回歸模型: 一元非線性回歸 , 多元非線性回歸 。
在實際研究中,經常遇到一個隨機變數隨一個或多個非隨機變數的變化而變化的情況,而這種變化關系明顯呈非線性。怎樣用一個較好的模型來表示,然後進行估計與預測,並對其非線性進行檢驗就成為--個重要的問題。在經濟預測中,常用多元回歸模型反映預測量與各因素之間的依賴關系,其中,線性回歸分析有著廣泛的應用。但客觀事物之間並不一定呈線性關系,在有些情況下,非線性回歸模型更為合適,只是建立起來較為困難。在實際的生產過程中,生產管理目標的參量與加工數量存在相關關系。隨著生產和加工數量的增加,生產管理目標的參量(如生產成本和生產工時等)大多不是簡單的線性增加,此時,需採用非線性回歸分析進行分析。
鑒於統計模型的多樣性和各種模型的適應性,針對因變數和解釋變數的取值性質,可將統計模型分為多種類型。通常將自變數為定性變數的線性模型稱為 一般線性模型 ,如實驗設計模型、方差分析模型; 將因變數為非正態分布的線性模型稱為 廣義線性模型 ,如 Logistic回歸模型 、 對數線性模型 、 Cox比例風險模型 。
1972年,Nelder對經典線性回歸模型作了進一步的推廣,建立了統一的理論和計算框架,對回歸模型在統計學中的應用產生了重要影響。這種新的線性回歸模型稱為廣義線性模型( generalized linear models,GLM)。
廣義線性模型是多元線性回歸模型的推廣,從另一個角度也可以看作是非線性模型的特例,它們具有--些共性,是其他非線性模型所不具備的。它與典型線性模型的區別是其隨機誤差的分布 不是正態分布 ,與非線性模型的最大區別則在於非線性模型沒有明確的隨機誤差分布假定,而廣義線性模型的 隨機誤差的分布是可以確定的 。廣義線性模型 不僅包括離散變數,也包括連續變數 。正態分布也被包括在指數分布族裡,該指數分布族包含描述發散狀況的參數,屬於雙參數指數分布族。
判別分析是多元統計分析中用於 判別樣本所屬類型 的一種統計分析方法。所謂判別分析法,是在已知的分類之下,一旦有新的樣品時,可以利用此法選定一個判別標准,以判定將該新樣品放置於哪個類別中。判別分析的目的是對已知分類的數據建立由數值指標構成的 分類規則 ,然後把這樣的規則應用到未知分類的樣品中去分類。例如,我們獲得了患胃炎的病人和健康人的一些化驗指標,就可以從這些化驗指標中發現兩類人的區別。把這種區別表示為一個判別公式,然後對那些被懷疑患胃炎的人就可以根據其化驗指標用判別公式來進行輔助診斷。
聚類分析是研究 物以類聚 的--種現代統計分析方法。過去人們主要靠經驗和專業知識作定性分類處理,很少利用數學方法,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內在的本質差別和聯系,特別是對於多因素、多指標的分類問題,定性分類更難以實現准確分類。為了克服定性分類的不足,多元統計分析逐漸被引人到數值分類學中,形成了聚類分析這個分支。
聚類分析是一種分類技術,與多元分析的其他方法相比,該方法較為粗糙,理論上還不完善,但應用方面取得了很大成功。 聚類分析 與 回歸分析 、 判別分析 一起被稱為多元分析的三個主要方法。
在實際問題中,研究多變數問題是經常遇到的,然而在多數情況下,不同變數之間有一定相關性,這必然增加了分析問題的復雜性。主成分分析就是一種 通過降維技術把多個指標化為少數幾個綜合指標 的統計分析方法。如何將具有錯綜復雜關系的指標綜合成幾個較少的成分,使之既有利於對問題進行分析和解釋,又便於抓住主要矛盾作出科學的評價,此時便可以用主成分分析方法。
因子分析是主成分分析的推廣,它也是一種把多個變數化為少數幾個綜合變數的多元分析方法,但其目的是 用有限個不可觀測的隱變數來解釋原變數之間的相關關系 。主成分分析通過線性組合將原變數綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變數)。在多元分析中,變數間往往存在相關性,是什麼原因使變數間有關聯呢? 是否存在不能直接觀測到的但影響可觀測變數變化的公共因子呢?
因子分析就是尋找這些公共因子的統計分析方法,它是 在主成分的基礎上構築若干意義較為明確的公因子,以它們為框架分解原變數,以此考察原變數間的聯系與區別 。例如,在研究糕點行業的物價變動中,糕點行業品種繁多、多到幾百種甚至上千種,但無論哪種樣式的糕點,用料不外乎麵粉、食用油、糖等主要原料。那麼,麵粉、食用油、糖就是眾多糕點的公共因子,各種糕點的物價變動與麵粉、食用油、糖的物價變動密切相關,要了解或控制糕點行業的物價變動,只要抓住麵粉、食用油和糖的價格即可。
對應分析又稱為相應分析,由法國統計學家J.P.Beozecri於 1970年提出。對應分析是在因子分析基礎之上發展起來的一種多元統計方法,是Q型和R型因子分析的聯合應用。在經濟管理數據的統計分析中,經常要處理三種關系,即 樣品之間的關系(Q型關系)、變數間的關系(R型關系)以及樣品與變數之間的關系(對應型關系) 。例如,對某一行業所屬的企業進行經濟效益評價時,不僅要研究經濟效益指標間的關系,還要將企業按經濟效益的好壞進行分類,研究哪些企業與哪些經濟效益指標的關系更密切一些,為決策部門正確指導企業的生產經營活動提供更多的信息。這就需要有一種統計方法, 將企業(樣品〉和指標(變數)放在一起進行分析、分類、作圖,便於作經濟意義.上的解釋 。解決這類問題的統計方法就是對應分析。
在相關分析中,當考察的一組變數僅有兩個時,可用 簡單相關系數 來衡量它們;當考察的一組變數有多個時,可用 復相關系數 來衡量它們。大量的實際問題需要我們把指標之間的聯系擴展到兩組變數,即 兩組隨機變數之間的相互依賴關系 。典型相關分析就是用來解決此類問題的一種分析方法。它實際上是 利用主成分的思想來討論兩組隨機變數的相關性問題,把兩組變數間的相關性研究化為少數幾對變數之間的相關性研究,而且這少數幾對變數之間又是不相關的,以此來達到化簡復雜相關關系的目的 。
典型相關分析在經濟管理實證研究中有著廣泛的應用,因為許多經濟現象之間都是多個變數對多個變數的關系。例如,在研究通貨膨脹的成因時,可把幾個物價指數作為一組變數,把若干個影響物價變動的因素作為另一組變數,通過典型相關分析找出幾對主要綜合變數,結合典型相關系數對物價上漲及通貨膨脹的成因,給出較深刻的分析結果。
多維標度分析( multidimensional scaling,MDS)是 以空間分布的形式表現對象之間相似性或親疏關系 的一種多元數據分析方法。1958年,Torgerson 在其博士論文中首次正式提出這一方法。MDS分析多見於市場營銷,近年來在經濟管理領域的應用日趨增多,但國內在這方面的應用報道極少。多維標度法通過一系列技巧,使研究者識別構成受測者對樣品的評價基礎的關鍵維數。例如,多維標度法常用於市場研究中,以識別構成顧客對產品、服務或者公司的評價基礎的關鍵維數。其他的應用如比較自然屬性(比如食品口味或者不同的氣味),對政治候選人或事件的了解,甚至評估不同群體的文化差異。多維標度法 通過受測者所提供的對樣品的相似性或者偏好的判斷推導出內在的維數 。一旦有數據,多維標度法就可以用來分析:①評價樣品時受測者用什麼維數;②在特定情況下受測者可能使用多少維數;③每個維數的相對重要性如何;④如何獲得對樣品關聯的感性認識。
20世紀七八十年代,是現代科學評價蓬勃興起的年代,在此期間產生了很多種評價方法,如ELECTRE法、多維偏好分析的線性規劃法(LINMAP)、層次分析法(AHP)、數據包絡分析法(EDA)及逼近於理想解的排序法(TOPSIS)等,這些方法到現在已經發展得相對完善了,而且它們的應用也比較廣泛。
而我國現代科學評價的發展則是在20世紀八九十年代,對評價方法及其應用的研究也取得了很大的成效,把綜合評價方法應用到了國民經濟各個部門,如可持續發展綜合評價、小康評價體系、現代化指標體系及國際競爭力評價體系等。
多指標綜合評價方法具有以下特點: 包含若干個指標,分別說明被評價對象的不同方面 ;評價方法最終要 對被評價對象作出一個整體性的評判,用一個總指標來說明被評價對象的一般水平 。
目前常用的綜合評價方法較多, 如綜合評分法、綜合指數法、秩和比法、層次分析法、TOPSIS法、模糊綜合評判法、數據包絡分析法 等。
R -- 永遠滴神~