控制圖,用來對過程狀態進行監控,並可度量、診斷和改進過程狀態。
直方圖,是以一組無間隔的直條圖表現頻數分布特徵的統計圖,能夠直觀地顯示出數據的分布情況。
排列圖,又叫帕累托圖,它是將各個項目產生的影響從最主要到最次要的順序進行排列的一種工具。可用其區分影響產品質量的主要、次要、一般問題,找出影響產品質量的主要因素,識別進行質量改進的機會。
散布圖,以點的分布反映變數之間相關情況,是用來發現和顯示兩組數據之間相關關系的類型和程度,或確認其預期關系的一種示圖工具。
過程能力指數(Cpk),分析工序能力滿足質量標准、工藝規范的程度。
頻數分析,形成觀測量中變數不同水平的分布情況表。
描述統計量分析,如平均值、最大值、最小值、范圍、方差等,了解過程的一些總體特徵。
相關分析,研究變數之間關系的密切程度,並且假設變數都是隨機變動的,不分主次,處於同等地位。
回歸分析,分析變數之間的相互關系。
當然,在質量管理中,還有很多常用的統計分析方法,在此不一一列舉。
(盈飛無限)
2. 多元統計分析概述
後期會把每一章的學習筆記鏈接加上
多元統計分析 是研究多個隨機變數之間相互依賴關系及其內在統計規律的一門學科
在統計學的基本內容匯總,只考慮一個或幾個因素對一個觀測指標(變數)的影響大小的問題,稱為 一元統計分析 。
若考慮一個或幾個因素對兩個或兩個以上觀測指標(變數)的影響大小的問題,或者多個觀測指標(變數)的相互依賴關系,既稱為 多元統計分析 。
有兩大類,包括:
將數據歸類,找出他們之間的聯系和內在規律。
構造分類模型一般採用 聚類分析 和 判別分析 技術
在眾多因素中找出各個變數中最佳的子集合,根據子集合所包含的信心描述多元系統的結果及各個因子對系統的影響,舍棄次要因素,以簡化系統結構,認識系統的內核(有點做單細胞降維的意思)
可採用 主成分分析 、 因子分析 、 對應分析 等方法。
多元統計分析的內容主要有: 多元數據圖示法 、 多元線性相關 與 回歸分析 、 判別分析 、 聚類分析 、 主成分分析 、 因子分析 、 對應分析 及 典型相關分析 等。
多元數據是指具有多個變數的數據。如果將每個變數看作一個隨機向量的話,多個變數形成的數據集將是一個隨機矩陣,所以多元數據的基本表現形式是一個矩陣。對這些數據矩陣進行數學表示是我們的首要任務。也就是說,多元數據的基本運算是矩陣運算,而R語言是一個優秀的矩陣運算語言,這也是我們應用它的一大優勢。
直觀分析即圖示法,是進行數據分析的重要輔助手段。例如,通過兩變數的散點圖可以考察異常的觀察值對樣本相關系數的影響,利用矩陣散點圖可以考察多元之間的關系,利用多元箱尾圖可以比較幾個變數的基本統計量的大小差別。
相關分析就是通過對大量數字資料的觀察,消除偶然因素的影響,探求現象之間相關關系的密切程度和表現形式。在經濟系統中,各個經濟變數常常存在內在的關系。例如,經濟增長與財政收人、人均收入與消費支出等。在這些關系中,有一些是嚴格的函數關系,這類關系可以用數學表達式表示出來。還有一些是非確定的關系,一個變數產生變動會影響其他變數,使其產生變化。這種變化具有隨機的特性,但是仍然遵循一定的規律。函數關系很容易解決,而那些非確定的關系,即相關關系,才是我們所關心的問題。
回歸分析研究的主要對象是客觀事物變數間的統計關系。它是建立在對客觀事物進行大量實驗和觀察的基礎上,用來尋找隱藏在看起來不確定的現象中的統計規律的方法。回歸分析不僅可以揭示自變數對因變數的影響大小,還可以用回歸方程進行預測和控制。回歸分析的主要研究范圍包括:
(1) 線性回歸模型: 一元線性回歸模型 , 多元線性回歸模型 。
(2) 回歸模型的診斷: 回歸模型基本假設的合理性,回歸方程擬合效果的判定,選擇回歸函數的形式。
(3) 廣義線性模型: 含定性變數的回歸 , 自變數含定性變數 , 因變數含定性變數 。
(4) 非線性回歸模型: 一元非線性回歸 , 多元非線性回歸 。
在實際研究中,經常遇到一個隨機變數隨一個或多個非隨機變數的變化而變化的情況,而這種變化關系明顯呈非線性。怎樣用一個較好的模型來表示,然後進行估計與預測,並對其非線性進行檢驗就成為--個重要的問題。在經濟預測中,常用多元回歸模型反映預測量與各因素之間的依賴關系,其中,線性回歸分析有著廣泛的應用。但客觀事物之間並不一定呈線性關系,在有些情況下,非線性回歸模型更為合適,只是建立起來較為困難。在實際的生產過程中,生產管理目標的參量與加工數量存在相關關系。隨著生產和加工數量的增加,生產管理目標的參量(如生產成本和生產工時等)大多不是簡單的線性增加,此時,需採用非線性回歸分析進行分析。
鑒於統計模型的多樣性和各種模型的適應性,針對因變數和解釋變數的取值性質,可將統計模型分為多種類型。通常將自變數為定性變數的線性模型稱為 一般線性模型 ,如實驗設計模型、方差分析模型; 將因變數為非正態分布的線性模型稱為 廣義線性模型 ,如 Logistic回歸模型 、 對數線性模型 、 Cox比例風險模型 。
1972年,Nelder對經典線性回歸模型作了進一步的推廣,建立了統一的理論和計算框架,對回歸模型在統計學中的應用產生了重要影響。這種新的線性回歸模型稱為廣義線性模型( generalized linear models,GLM)。
廣義線性模型是多元線性回歸模型的推廣,從另一個角度也可以看作是非線性模型的特例,它們具有--些共性,是其他非線性模型所不具備的。它與典型線性模型的區別是其隨機誤差的分布 不是正態分布 ,與非線性模型的最大區別則在於非線性模型沒有明確的隨機誤差分布假定,而廣義線性模型的 隨機誤差的分布是可以確定的 。廣義線性模型 不僅包括離散變數,也包括連續變數 。正態分布也被包括在指數分布族裡,該指數分布族包含描述發散狀況的參數,屬於雙參數指數分布族。
判別分析是多元統計分析中用於 判別樣本所屬類型 的一種統計分析方法。所謂判別分析法,是在已知的分類之下,一旦有新的樣品時,可以利用此法選定一個判別標准,以判定將該新樣品放置於哪個類別中。判別分析的目的是對已知分類的數據建立由數值指標構成的 分類規則 ,然後把這樣的規則應用到未知分類的樣品中去分類。例如,我們獲得了患胃炎的病人和健康人的一些化驗指標,就可以從這些化驗指標中發現兩類人的區別。把這種區別表示為一個判別公式,然後對那些被懷疑患胃炎的人就可以根據其化驗指標用判別公式來進行輔助診斷。
聚類分析是研究 物以類聚 的--種現代統計分析方法。過去人們主要靠經驗和專業知識作定性分類處理,很少利用數學方法,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內在的本質差別和聯系,特別是對於多因素、多指標的分類問題,定性分類更難以實現准確分類。為了克服定性分類的不足,多元統計分析逐漸被引人到數值分類學中,形成了聚類分析這個分支。
聚類分析是一種分類技術,與多元分析的其他方法相比,該方法較為粗糙,理論上還不完善,但應用方面取得了很大成功。 聚類分析 與 回歸分析 、 判別分析 一起被稱為多元分析的三個主要方法。
在實際問題中,研究多變數問題是經常遇到的,然而在多數情況下,不同變數之間有一定相關性,這必然增加了分析問題的復雜性。主成分分析就是一種 通過降維技術把多個指標化為少數幾個綜合指標 的統計分析方法。如何將具有錯綜復雜關系的指標綜合成幾個較少的成分,使之既有利於對問題進行分析和解釋,又便於抓住主要矛盾作出科學的評價,此時便可以用主成分分析方法。
因子分析是主成分分析的推廣,它也是一種把多個變數化為少數幾個綜合變數的多元分析方法,但其目的是 用有限個不可觀測的隱變數來解釋原變數之間的相關關系 。主成分分析通過線性組合將原變數綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變數)。在多元分析中,變數間往往存在相關性,是什麼原因使變數間有關聯呢? 是否存在不能直接觀測到的但影響可觀測變數變化的公共因子呢?
因子分析就是尋找這些公共因子的統計分析方法,它是 在主成分的基礎上構築若干意義較為明確的公因子,以它們為框架分解原變數,以此考察原變數間的聯系與區別 。例如,在研究糕點行業的物價變動中,糕點行業品種繁多、多到幾百種甚至上千種,但無論哪種樣式的糕點,用料不外乎麵粉、食用油、糖等主要原料。那麼,麵粉、食用油、糖就是眾多糕點的公共因子,各種糕點的物價變動與麵粉、食用油、糖的物價變動密切相關,要了解或控制糕點行業的物價變動,只要抓住麵粉、食用油和糖的價格即可。
對應分析又稱為相應分析,由法國統計學家J.P.Beozecri於 1970年提出。對應分析是在因子分析基礎之上發展起來的一種多元統計方法,是Q型和R型因子分析的聯合應用。在經濟管理數據的統計分析中,經常要處理三種關系,即 樣品之間的關系(Q型關系)、變數間的關系(R型關系)以及樣品與變數之間的關系(對應型關系) 。例如,對某一行業所屬的企業進行經濟效益評價時,不僅要研究經濟效益指標間的關系,還要將企業按經濟效益的好壞進行分類,研究哪些企業與哪些經濟效益指標的關系更密切一些,為決策部門正確指導企業的生產經營活動提供更多的信息。這就需要有一種統計方法, 將企業(樣品〉和指標(變數)放在一起進行分析、分類、作圖,便於作經濟意義.上的解釋 。解決這類問題的統計方法就是對應分析。
在相關分析中,當考察的一組變數僅有兩個時,可用 簡單相關系數 來衡量它們;當考察的一組變數有多個時,可用 復相關系數 來衡量它們。大量的實際問題需要我們把指標之間的聯系擴展到兩組變數,即 兩組隨機變數之間的相互依賴關系 。典型相關分析就是用來解決此類問題的一種分析方法。它實際上是 利用主成分的思想來討論兩組隨機變數的相關性問題,把兩組變數間的相關性研究化為少數幾對變數之間的相關性研究,而且這少數幾對變數之間又是不相關的,以此來達到化簡復雜相關關系的目的 。
典型相關分析在經濟管理實證研究中有著廣泛的應用,因為許多經濟現象之間都是多個變數對多個變數的關系。例如,在研究通貨膨脹的成因時,可把幾個物價指數作為一組變數,把若干個影響物價變動的因素作為另一組變數,通過典型相關分析找出幾對主要綜合變數,結合典型相關系數對物價上漲及通貨膨脹的成因,給出較深刻的分析結果。
多維標度分析( multidimensional scaling,MDS)是 以空間分布的形式表現對象之間相似性或親疏關系 的一種多元數據分析方法。1958年,Torgerson 在其博士論文中首次正式提出這一方法。MDS分析多見於市場營銷,近年來在經濟管理領域的應用日趨增多,但國內在這方面的應用報道極少。多維標度法通過一系列技巧,使研究者識別構成受測者對樣品的評價基礎的關鍵維數。例如,多維標度法常用於市場研究中,以識別構成顧客對產品、服務或者公司的評價基礎的關鍵維數。其他的應用如比較自然屬性(比如食品口味或者不同的氣味),對政治候選人或事件的了解,甚至評估不同群體的文化差異。多維標度法 通過受測者所提供的對樣品的相似性或者偏好的判斷推導出內在的維數 。一旦有數據,多維標度法就可以用來分析:①評價樣品時受測者用什麼維數;②在特定情況下受測者可能使用多少維數;③每個維數的相對重要性如何;④如何獲得對樣品關聯的感性認識。
20世紀七八十年代,是現代科學評價蓬勃興起的年代,在此期間產生了很多種評價方法,如ELECTRE法、多維偏好分析的線性規劃法(LINMAP)、層次分析法(AHP)、數據包絡分析法(EDA)及逼近於理想解的排序法(TOPSIS)等,這些方法到現在已經發展得相對完善了,而且它們的應用也比較廣泛。
而我國現代科學評價的發展則是在20世紀八九十年代,對評價方法及其應用的研究也取得了很大的成效,把綜合評價方法應用到了國民經濟各個部門,如可持續發展綜合評價、小康評價體系、現代化指標體系及國際競爭力評價體系等。
多指標綜合評價方法具有以下特點: 包含若干個指標,分別說明被評價對象的不同方面 ;評價方法最終要 對被評價對象作出一個整體性的評判,用一個總指標來說明被評價對象的一般水平 。
目前常用的綜合評價方法較多, 如綜合評分法、綜合指數法、秩和比法、層次分析法、TOPSIS法、模糊綜合評判法、數據包絡分析法 等。
R -- 永遠滴神~
3. 多元判別分析法
研究多個自變數與因變數相互關系的一組統計理論和方法.又稱多變數分析.多元分析是單變數統計方法的發展和推廣.人的心理和行為具有復雜的內在結構,受到多種因素的制約.僅採用單變數分析難以揭示其內在結構以及各種影響因素的主次作用和交互影響.
4. 多元分析的基本信息
首先涉足多元分析方法是F.高爾頓鋒陪盯,他於1889年把雙變數的正態分布方法運用於傳統的統計學,創立了相關系數和線性回歸。其後的幾十年中,C.E.斯皮爾曼提出因素分析法(見因素分析),R.A.費希爾提出方差分析和亂唯判別分析,S.S.威爾克斯發展了多元方差分析,H.霍特林確定了主成分分析和典型相關。到20世紀前半葉,多元分析銀和理論大多已經確立。60年代以後,隨著計算機科學的發展,多元分析方法在心理學以及其他許多學科的研究中得到了越來越廣泛的應用。
5. 多元統計有哪些常見的分析方法
多重回歸分析、判別分析、聚類分析、主成分分析、對應分析 、因子分析、典型相關分析
6. spss怎麼做多元回歸分析
1)准備分析數據
在SPSS數據編輯窗口中,創建變數,並輸入數據。再創建分級變數「x1」、「x2」、「x3」、「x4」和「y」,它們對應的分級數值可以在SPSS數據編輯窗口中通過計算產生。
2)啟動線性回歸過程
單擊SPSS主菜單的「Analyze」下的「Regression」中「Linear」項,將打開線性回歸過程窗口。
3) 設置分析變數
設置因變數:用滑鼠選中左邊變數列表中的「[y]」變數,然後點擊「Dependent」欄左邊的向右拉按鈕,該變數就移到「Dependent」因變數顯示欄里。
設置自變數:將左邊變數列表中的「 [x1]」、「 [x2]」、「 [x3]」、「[x4]」變數,選移到「Independent(S)」自變數顯示欄里。
設置控制變數:不使用控制變數,可不選擇任何變數。
選擇標簽變數: 選擇為標簽變數。
選擇加權變數:沒有加權變數,可不作任何設置。
4)回歸方式
預報因子變數是經過相關系數法選取出來的,在回歸分析時不做篩選。因此在「Method」框中選中「Enter」選項,建立全回歸模型。
5)設置輸出統計量
單擊「Statistics」按鈕,將打開對話框。該對話框用於設置相關參數。其中各項的意義分別為:
①「Regression Coefficients」回歸系數選項:
「Estimates」輸出回歸系數和相關統計量。
「Confidence interval」回歸系數的95%置信區間。
「Covariance matrix」回歸系數的方差-協方差矩陣。
選擇「Estimates」輸出回歸系數和相關統計量。
②「Resials」殘差選項:
「Durbin-Watson」Durbin-Watson檢驗。
「Casewise diagnostic」輸出滿足選擇條件的觀測量的相關信息。選擇該項,下面兩項處於可選狀態:
「Outliers outside standard deviations」選擇標准化殘差的絕對值大於輸入值的觀測量;
「All cases」選擇所有觀測量。
提交執行
在主對話框里單擊「OK」,提交執行,結果將顯示在輸出窗口
回歸模型統計量:R 是相關系數;R Square 相關系數的平方,又稱判定系數,判定線性回歸的擬合程度:用來說明用自變數解釋因變數變異的程度(所佔比例);Adjusted R Square 調整後的判定系數;Std. Error of the Estimate 估計標准誤差。
7. 簡述多元線性回歸分析的步驟是什麼
在回歸分析中,如果有兩個或兩個以上的自變數,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯系的,由多個自變數的最優組合共同來預測或估計因變數,比只用一個自變數進行預測或估計更有效,更符合實際。因此多元線性回歸比一元線性回歸的實用意義更大。
1、普通最小二乘法(Ordinary Least Square, OLS)
普通最小二乘法通過最小化誤差的平方和尋找最佳函數。
多元線性回歸
其中,Ω是殘差項的協方差矩陣。
8. 多元回歸分析類型
多元回歸分析類型:一元線性回歸分析啟笑納、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變數的回歸分析以及邏輯回歸分析等。
回歸分析的任務就是, 通過研究自變數X和因變數Y的相關關系,嘗試去解釋Y的形成機制,進 而達到通過X去預測Y的目的。
常見的回歸分析有五類:線性回歸、0‐1回歸(邏輯回歸)悄沒、定序回歸、計數回歸 和生存回歸,其劃分的依據是因變數Y的類型。
(5)生存變數:截止數據(不確定),例如:壽命80+,截止到今年他80歲,具體他能夠活到多少歲,還不知道。
2.這就是回歸分析要完成的三個使命:
第一、識別重要變數;
第二、判斷相關性的方向;
第三、要估計權重(回歸系數(必須要去量綱))
3.回歸分析的分類:
OLS:普通最小二乘
GLS:廣義最小二乘
9. 多元統計分析法主要包括
多元統計分析方法主要包括線性回歸分析方法、判別分析方法、聚類分析方法、主成份分析方法、因子分析方法、對應分析方法、典型相關分析方法以及片最小二乘回歸分析方法等。
《多元統計分析方法》是2009年上海格致出版社出版的圖書,作者是(德)巴克豪斯。本書主要講解了多元統計分析中最常見的九種方法。
簡介
多元統計分析是從經典統計學中發展起來的一個分支,是一種綜合分析方法,它能夠在多個對象和多個指標互相關聯的情況下分析它們的統計規律,很適合農業科學研究的特點。主要內容包括多元正態分布及其抽樣分布、多元正態總體的均值向量和協方差陣的假設檢驗。
多元方差分析、直線回歸與相關、多元線性回歸與相關(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、Shannon信息量及其應用。簡稱多元分析。當總體的分布是多維(多元)概率分布時,處理該總體的數理統計理論和方法。數理統計學中的一個重要的分支學科。
10. 多元統計分析的簡介
multivariate statistical analysis
研究客觀事物中多個變數(或多個因素)之間相互依賴的統計規律性。它的重要基礎之一是多元正態分析。又稱多元分析 。 如果每個個體有多個觀測數據,或者從數學上說, 如果個體的觀測數據能表為 P維歐幾里得空間的點,那麼這樣的數據叫做多元數據,而分析多元數據的統計方法就叫做多元統計分析 。 它是數理統計學中的一個重要的分支學科。20世紀30年代,R.A.費希爾,H.霍特林,許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到迅速發展。50年代中期,隨著電子計算機的發展和普及 ,多元統計分析在地質 、氣象、生物、醫學、圖像處理、經濟分析等許多領域得到了廣泛的應用 ,同時也促進了理論的發展。各種統計軟體包如SAS,SPSS等,使實際工作者利用多元統計分析方法解決實際問題更簡單方便。重要的多元統計分析方法有:多重回歸分析(簡稱回歸分析)、判別分析、聚類分析、主成分分析、對應分析、因子分析、典型相關分析、多元方差分析等。
早在19世紀就出現了處理二維正態總體(見正態分布)的一些方法,但系統地處理多維概率分布總體的統計分析問題,則開始於20世紀。人們常把1928年維夏特分布的導出作為多元分析成為一個獨立學科的標志。20世紀30年代,R.A.費希爾、H.霍特林、許寶祿以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到了迅速的進展。40年代,多元分析在心理、教育、生物等方面獲得了一些應用。由於應用時常需要大量的計算,加上第二次世界大戰的影響,使其發展停滯了相當長的時間。50年代中期,隨著電子計算機的發展和普及,它在地質、氣象、標准化、生物、圖像處理、經濟分析等許多領域得到了廣泛的應用,也促進了理論的發展。
多元分析發展的初期,主要討論如何把一元正態總體的統計理論和方法推廣到多元正態總體。多元正態總體的分布由兩組參數,即均值向量μ(見數學期望)和協方差矩陣(簡稱協差陣)∑ (見矩)所決定,記為Np(μ,∑)(p為分布的維數,故又稱p維正態分布或p 維正態總體)。設X1,X2,…,Xn為來自正態總體Np(μ,∑)的樣本,則μ和∑的無偏估計(見點估計)分別是
和
分別稱之為樣本均值向量和樣本協差陣,它們是在各種多元分析問題中常用的統計量。樣本相關陣R 也是一個重要的統計量,它的元素為
其中υij為樣本協差陣S的元素。S的分布是維夏特分布,它是一元統計中的Ⅹ2分布的推廣。
另一典型問題是:假定兩個多維正態分布協差陣相同,檢驗其均值向量是否相同。設樣本X1,X2,…,Xn抽自正態總體Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要檢驗假設H 0:μ1=μ2(見假設檢驗)。在一元統計中使用t統計量(見統計量)作檢驗;在多元分析中則用T2統計量,
,其中,
,
·
,T2的分布稱為T2分布。這是H.霍特林在1936年提出來的。
在上述問題中的多元與一元相應的統計量是類似的,但並非都是如此。例如,要檢驗k個正態總體的均值是否相等,在一元統計中是導致F統計量,但在多元分析中可導出許多統計量,最著名的有威爾克斯Λ統計量和最大相對特徵根統計量。研究這些統計量的精確分布和優良性是近幾十年來多元統計分析的重要理論課題。
多元統計分析有狹義與廣義之分,當假定總體分布是多元正態分布時,稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內容已被推廣到更廣的分布之中,特別是推廣到一種稱為橢球等高分布族之中。
按多元分析所處理的實際問題的性質分類,重要的有如下幾種。 簡稱回歸分析。其特點是同時處理多個因變數。回歸系數和常數的計算公式與通常的情況相仿,只是由於因變數不止一個,原來的每個回歸系數在此都成為一個向量。因此,關於回歸系數的檢驗要用T2統計量;對回歸方程的顯著性檢驗要用Λ統計量。
回歸分析在地質勘探的應用中發展了一種特殊的形式,稱為趨勢面分析,它以各種元素的含量作為因變數,把它們對地理坐標進行回歸(選用一次、二次或高次的多項式),回歸方程稱為趨勢面,反映了含量的趨勢。殘差分析是趨勢面分析的重點,找出正的殘差異常大的點,在這些點附近,元素的含量特別高,這就有可能形成可採的礦位。這一方法在其他領域也有應用。 由 k個不同總體的樣本來構造判別函數,利用它來決定新的未知類別的樣品屬於哪一類,這是判別分析所處理的問題。它在醫療診斷、天氣預報、圖像識別等方面有廣泛的應用。例如,為了判斷某人是否有心臟病,從健康的人和有心臟病的人這兩個總體中分別抽取樣本,對每人各測兩個指標X1和X2,點繪如圖 。可用直線A將平面分成g1和g2兩部分,落在g1的絕大部分為健康者,落在g2的絕大部分為心臟病人,利用A的垂線方向l=(l1,l2)來建立判別函數
y=l1X1+l2X2,可以求得一常數с,使 y<с 等價於(X1,X2)落在g1,y>с等價於(X1,X2)落在g2。由此得判別規則:若,l1X1+l2X2<c
判,即此人為健康者;若,l1X1+l2X2>C
判,
即此人為心臟病人;若,l1X1+l2X2=c則為待判。此例的判別函數是線性函數,它簡單方便,在實際問題中經常使用。但有時也用非線性判別函數,特別是二次判別函數。建立判別函數和判別規則有不少准則和方法,常用的有貝葉斯准則、費希爾准則、距離判別、回歸方法和非參數方法等。
無論用哪一種准則或方法所建立的判別函數和判別規則,都可能產生錯判,錯判所佔的比率用錯判概率來度量。當總體間區別明顯時,錯判概率較小;否則錯判概率較大。判別函數的選擇直接影響到錯判概率,故錯判概率可用來比較不同方法的優劣。
變數(如上例中的X1和X2)選擇的好壞是使用判別分析的最重要的問題,常用逐步判別的方法來篩選出一些確有判別作用的變數。利用序貫分析的思想又產生了序貫判別分析。例如醫生在診斷時,先確定是否有病,然後確定是哪個系統有病,再確定是什麼性質的病等等。 又稱數值分類。聚類分析和判別分析的區別在於,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝標准,對 N個成年人,測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、後背(x7)、腰圍(x8)、臀圍(x9)、下體長(x10)等部位,要將這N個人進行分類,每一類代表一個號型;為了使用和裁剪的方便,還要對這些變數(x1,x2,…,x10)進行分類。聚類分析就是解決上述兩種分類問題。
設已知N個觀測值X1,X2,…,Xn,每個觀測值是一個p維向量(如上例中人的身高、胸圍等)。聚類分析的思想是將每個觀測值Xi看成p維空間的一個點,在p維空間中引入「距離」的概念,則可按各點間距離的遠近將各點(觀測值)歸類。若要對 p個變數(即指標)進行分類,常定義一種「相似系數」來衡量變數之間的親密程度,按各變數之間相似系數的大小可將變數進行分類。根據實際問題的需要和變數的類型,對距離和相似系數有不同的定義方法。
按距離或相似系數分類,有下列方法。①凝聚法:它是先將每個觀察值{Xi}看成一類,逐步歸並,直至全部觀測值並成一類為止,然後將上述並類過程畫成一聚類圖(或稱譜系圖),利用這個圖可方便地得到分類。②分解法:它是先將全部觀測值看成一類,然後逐步將它們分解為2類、3類、…、N類,它是凝聚法的逆過程。③動態聚類法:它是將觀測值先粗糙地分類,然後按適當的目標函數和規定的程序逐步調整,直至不能再調為止。
若觀察值X1,X2,…,Xn之間的次序在分類時不允許打亂,則稱為有序分類。例如在地質學中將地層進行分類,只能將互相鄰接的地層分成一類,不能打亂上下的次序。用於這一類問題中的重要方法是費希爾於1958年提出的最優分割法。
聚類分析也能用於預報洪水、暴雨、地震等災害性問題,其效果比其他統計方法好。但它在理論上還很薄弱,因為它不象其他方法那樣有確切的數學模型。 又稱主分量分析,是將多個變數通過線性變換以選出較少個數重要變數的一種方法。設原來有p個變數x1,x2,…,xp,為了簡化問題,選一個新變數z,
,
要求z盡可能多地反映p個變數的信息,以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定後,稱z為x1,x2,…,xp的主成分(或主分量)。有時僅一個主成分不足以代表原來的p個變數,可用q(<p)個互不相關的呈上述形式的主成分來盡可能多地反映原p個變數的信息。用來決定諸系數的原則是,在
的約束下,選擇l1,l2,…,lp使z的方差達到最大。
在根據樣本進行主成分分析時又可分為R型分析與Q型分析。前者是用樣本協差陣(或相關陣)的特徵向量作為線性函數的系數來求主成分;後者是由樣品之間的內積組成的內積陣來進行類似的處理,其目的是尋找出有代表性的「典型」樣品,這種方法在地質結構的分析中常使用。 它是由樣本的資料將一組變數
y2,……yp)
分解為一些公共因子f與特殊因子s的線性組合,即有常數矩陣A使у=Af+s。公共因子f 的客觀內容有時是明確的,如在心理研究中,根據學生的測驗成績(指標)來分析他的反應快慢、理解深淺(公共因子);有時則是不明確的。為了尋求易於解釋的公共因子,往往對因子軸進行旋轉,旋轉的方法有正交旋轉,斜旋轉,極大變差旋轉等。
從樣本協差陣或相關陣求公共因子的方法有廣義最小二乘法、最大似然法與不加權的最小二乘法等。通常在應用中,最方便的是直接利用主成分分析所得的頭幾個主成分,它們往往是對各個指標影響都比較大的公共因子。 它是尋求兩組變數各自的線性函數中相關系數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。各對的相關系數稱為典型相關系數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯系。典型相關分析雖然30年代已經出現,但至今未能廣泛應用。
上述的各種方法可以看成廣義多元分析的內容,在有些方法中,如加上正態性的假定,就可以討論一些更深入的問題,例如線性模型中有關線性假設檢驗的問題,在正態的假定下,就有比較系統的結果。 多元分析也可按指標是離散的還是連續的來區分,離散值的多元分析實質上與列聯表分析有很大部分是類似的,甚至是一樣的。
非數量指標數量化的理論和方法也是廣義多元分析的一個重要的研究課題。