導航:首頁 > 研究方法 > 下列屬於多變數統計分析的方法是

下列屬於多變數統計分析的方法是

發布時間:2023-10-13 17:53:54

A. SPSS判別分析

判別分析又稱「分辨法」,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變數統計分析方法

y=a1x1+a2x2+……+anxn(a1為系數,Xn為變數)。事先非常明確共有幾個類別,目的是從已知樣本中訓練出判別函數

1.各自變數為連續性或有序分類變數

2.自變數和因變數符合線性假設

3.各組的協方差矩陣相等,類似與方差分析中的方差齊

4.變數間獨立,無共線性

註:違反條件影響也不大,主要看預測准不準,準的話違反也無所謂

1.對客戶進行信用預測;2.尋找潛在客戶等

1.最大似然法

適用於 自變數均為分類變數 的情況,算出這些情況的概率組合,基於這些組合大小進行判別

2.距離判別

對新樣品求出他們離各個類別重心的距離遠近,適用於 自變數均為連續變數 的情況, 對變數分布類型無嚴格要求

3.Fisher判別法

與主成份分析有關,對分布、方差等都沒有什麼限制,按照類別與類別差異最大原則提取公因子然後使用公因子判別

4.Bayes判別

強項是進行多類判別,要求總體呈多元正態分布 。利用貝葉斯公式,概率分布邏輯衍生出來一個判別方法,計算這個樣本落入這個類別的概率,概率最大就被歸為一類

在spss中一般用Fisher判別即可,要考慮概率及誤判損失最小的用Bayes判別,但變數較多時,一般先進行逐步判別篩選出有統計意義的變數,但通常在判別分析前我們已經做了相關的預分析,所以不推薦使用逐步判別分析(採用步進法讓自變數逐個嘗試進入函數式,如果進入到函數式中的自變數符合條件,則保留在函數式中,否則,將從函數式中剔除)。

都是研究分類的。聚類分析,對總體到底有幾種類型不知道(研究分幾類較為合適需從計算中加以調整)。判別分析則是在總體類型劃分已知,對當前新樣本判斷它們屬於哪個總體。如我們對研究的多元數據的特徵不熟悉,當然要進行聚類分析,才能考慮判別分析問題。

1.自身驗證(拿訓練數據直接預測驗證,但是對預測樣本預測好不代表對新樣本預測好)

2.外部數據驗證(收集新的數據來驗證,這是最客觀最有效的,但是麻煩而且兩次收集的數據不一定是同質的)

3.樣本二分法(一般劃分2/3為訓練集,1/3為驗證集,但是浪費了1/3的樣本)

4.交互驗證(Cross-Validation)----刀切法(10分法,數據劃分為10個集合,每次挑選一個出來做驗證集,其餘9個做訓練集,可以做10次,因為驗證集可換10種可能)

在spss軟體中通過尺罩【分析】—【留一分類】獲得此項結論。

下面採用實例來說明。

如下圖-1數據集包含了剛毛、變色、弗吉尼亞這三種鳶尾花的花萼長、寬和花瓣長、寬,分析目的是希望能夠使用這4個變數來對花的種類進行區分。spno為事先的分組,度量標准設為【名義】。

主要是對假設條件的檢驗,在spss中 【分析】—【描述統計】—【描述】 ,如圖-2

如圖-3可以看到數據的分布沒有特別的離異點,也沒有缺失值和不合理的分布,從而可以用該數據做接下來的判別分析。

1)選擇分類變數及其范圍:如圖-4所示

【分組變數】矩形框中選擇表明已知的觀測量所屬類別的變數(一定是離散變數),在定義范圍框最小值中輸入該分類變數的最小值,最大框中輸入陵橘鬧該分類變數的最大值。

2)    指定判別分析的自變數

3) 選擇觀測量

如果希望使用一部分觀測量進行判別函數的推導而且有一個變數的某個值可以作為這些觀測量的標識,則用Select 功能進行選擇,鍵入標識參與分析的觀測量所具有的該變數值, 一般均伍升使用數據文件中的所有合法觀測量此步驟可以省略。

4) 選擇分析方法:如圖-5所示

【一起輸入自變數】 選項,當認為所有自變數都能對觀測量特性提供豐富的信息時,使用該選擇項。選擇該項將不加選擇地使用所有自變數進行判別分析,建立全模型,不需要進一步進行選擇。

【使用步進式方法】 選項,當不認為所有自變數都能對觀測量特性提供豐富的信息時,使用該選擇項。因此需要判別貢獻的大小,再進行選擇當滑鼠單擊該項時【方法】按鈕加亮,可以進一步選擇判別分析方法。一般我們做判別分析前已經做了相關的預分析(不推薦)。

如圖-6所示【方法】選項:步進法讓自變數逐個嘗試進入函數式,如果進入到函數式中的自變數符合條件,則保留在函數式中,否則,將從函數式中剔除。可供選擇的判別分析方法有:

1.Wilks'lambda 選項,它是組內平方和與總平方和之比,用於描述各組的均值是否存在顯著差別,當所有觀測組的均值都相等時,Wilks』lambda值為1;當組內變異與總變異相比很小時,表示組件變異較大,表示組間變異較大,系數接近於0。系統默認選項。

2.未解釋方差。 它指把計算殘余最小的自變數優先納入到判別函數式中。

3.Mahalanobis』距離 。它把每步都使靠得最近的兩類間的馬氏距離最大的變數進入判別函數

4.最小 F值。它把方差差異最大的自變數優先納入到判別函數中。

5.Rao』s V 。勞氏增值法:它把勞氏統計量V產生最大增值的自變數優先納入到判別函數中。可以對一個要加入到模型中的變數的V 值指定一個最小增量。選擇此種方法後,應該在該項下面的V-to-enter 後的矩形框中輸入這個增量的指定值。當某變數導致的V值增量大於指定值的變數後進入判別函數。

【標准】:選擇逐步判別停止的判據

1.使用F值。系統默認的判據。當加人一個變數(或剔除一個變數)後,對在判別函數中的變數進行方差分析。當計算的F值大於指定的進入值時,該變數保留在函數中。默認值是3.84:當該變數使計算的F值小於指定的刪除值時,該變數從函數中剔除。默認值為2.71。即當被加入的變數F 值為3.84 時才把該變數加入到模型中,否則變數不能進入模型;或者,當要從模型中移出的變數F值<2.71時,該變數才被移出模型,否則模型中的變數不會被移出.設置這兩個值時應該注意進入值>刪除值。

2.使用F檢的概率。決定變數是否加入函數或被剔除的概率而不是用F值。加入變數的F值概率的默認值是0.05(5%),移出變數的F值概率是0.10(10%)。刪除值(移出變數的F值概率) >進入值(加入變數的F值概率)。

【輸出】:對於逐步選擇變數的過程和最後結果的顯示可以通過輸出欄中的兩項進行選擇:

1.步進摘要。要求在逐步選擇變數過程中的每一步之後顯示每個變數的統計量。

2.兩兩組間距離的F值。要求顯示兩兩類之間的兩兩F值矩陣。

這里我們選擇建立全模型,所以不用對方法進行設置。

如圖-7所示【statistics】選項:可以選擇的輸出統計量分為以下3 類:

(1) 描述性

1.平均值。可以輸出各類中各自變數的均值、標准差和各自變數總樣本的均值和標准差。

2.單變數ANOVA復選項。對各類中同一自變數均值都相等的假設進行檢驗,輸出單變數的方差分析結果。

3.Box』s M 復選項。對各組的協方差矩陣相等的假設進行檢驗。如果樣本足夠大,差異不顯著的p值表明矩陣差異不明顯。

(2)函數系數欄:選擇判別函數系數的輸出形式

1.Fisherh』s。給出Bayes判別函數的系數。對每一類給出一組系數,並給出該組中判別分數最大的觀測量。(注意:這個選項不是要給出Fisher判別函數的系數。這個復選框的名字之所以為Fisher』s,是因為按判別函數值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請注意辨別。)

2.未標准化。給出未標准化的判別函數(即典型判別函數)的系數(SPSS默認給出標准化的判別函數信息)。

(3)矩陣

1.組內相關。即類內相關矩陣,它是根據在計算相關矩陣之前將各組(類)協方差矩陣平均後計算類內相關矩陣。

2.組內協方差。即計算並顯示合並類內協方差矩陣,是將各組(類)協方差矩陣平均後計算的。區別於總協方差陣。

3.分組協方差。對每類輸出顯示一個協方差矩陣。

4.總體協方差。計算並顯示總樣本的協方差矩陣。

如圖-8所示【分類】選項:

(1) 先驗概率:兩者選其一

1.所有組相等。各類先驗概率相等。若分為m類,則各類先驗概率均為1/m。系統默認

2.根據組大小計算。由各類的樣本量計算決定,即各類的先驗概率與其樣本量成正比。

(2) 使用協方差矩陣 :選擇分類使用的協方差矩陣

1.在組內。指定使用合並組內協方差矩陣進行分類。系統默認

2.分組。指定使用各組協方差矩陣進行分類。

由於分類是根據判別函數,而不是根據原始變數,因此該選擇項不是總等價於二次判別。

(3) 圖:選擇要求輸出的統計圖

1.合並組。生成一張包括各類的散點圖。該散點圖是根據前兩個判別函數值作的散點圖。如果只有一個判別函數就輸出直方圖。

2.分組。根據前兩個判別函數值對每一類生成一張激點圖,共分為幾類就生成幾張散點圖。如果只有一個判別函數就輸出直方圖。

3.區域圖。生成用於根據函數值把觀測量分到各組中去的邊界圖。此種統計圖把一張圖的平面劃分出與類數相同的區域。每一類占據一個區各類的均值在各區中用*號標出。如果僅有一個判別函數,則不作此圖。

(4) 輸出欄:選擇生成到輸出窗中的分類結果

1.個案摘要。要求輸出每個觀測量包括判別分數、實際類、預測類(根據判別函數求得的分類結果)和後驗概率等。選擇此項還可以選擇其附屬選擇項:將個案限制在前,並在後面的小矩形框中輸入觀測量數n選擇。此項則僅對前n個觀測量輸出分類結果。觀測數量大時可以選擇此項。

2.摘要表。要求輸出分類的小結,給出正確分類觀測量數(原始類和根據判別函數計算的預測類相同)和錯分觀測量數和錯分率。

3.不考慮該個案時的分類(留一分類)。輸出對每個觀測量進行分類的結果,所依據的判別是由除該觀測量以外的其他觀測量導出的,也稱為交互校驗結果。建議勾選

(5)使用均值替換缺失值:即用該類變數的均值代替缺失值。缺失值缺失大於10%,不介意勾選

本例中如圖-8中勾選。

如圖-9所示【保存】選項:指定生成並保存在數據文件中的新變數

1.預測組成員。要求建立一個新變數,預測觀測量的分類。是根據判別分數把觀測量按後驗概率最大指派所屬的類。每運行一次Discriminant過程,就建立一個表明使用判別函數預測各觀測量屬於哪一類的新變數。第1 次運行建立新變數的變數名為dis_l,如果在工作數據文件中不把前一次建立的新變數刪除,第n次運行Descriminant 過程建立的新變數默認的變數名為dis_n。

2.判別分數。要求建立fisher判別分數的新變數。該分數是由未標准化的判別系數乘自變數的值,將這些乘積求和後加上常數得來。每次運行Discriminant過程都給出一組表明判別分數的新變數,建立幾個判別函數就有幾個判別分數變數。

3. 組成員概率。Bayes後驗概率值。有m類,對一個觀測量就會給出m個概率值,因此建立m個新變數。

本例不勾選。

下面為最重要的結果,可在撰寫結論使用。

B. 常用的多元分析方法

包括3類:①多元方差分析、多元回歸分析和協方差分析,稱為線性模型方法,用以研究確定的自變數與因變數之間的關系;②判別函數分析和聚類分析,用以研究對事物的分類;③主成分分析、典型相關和因素分析,研究如何用較少的綜合因素代替為數較多的原始變數。
多元方差分析
是把總變異按照其來源(或實驗設計)分為多個部分,從而檢驗各個因素對因變數的影響以及各因素間交互作用的統計方法。例如,在分析2×2析因設計資料時,總變異可分為分屬兩個因素的兩個組間變異、兩因素間的交互作用及誤差(即組內變異)等四部分,然後對組間變異和交互作用的顯著性進行F檢驗。
多元方差分析的優點
是可以在一次研究中同時檢驗具有多個水平的多個因素各自對因變數的影響以及各因素間的交互作用。其應用的限制條件是,各個因素每一水平的樣本必須是獨立的隨機樣本,其重復觀測的數據服從正態分布,且各總體方差相等。
多元回歸分析
用以評估和分析一個因變數與多個自變數之間線性函數關系的統計方法。一個因變數y與自變數x1、x2、…xm有線性回歸關系是指: 其中α、β1…βm是待估參數,ε是表示誤差的隨機變數。通過實驗可獲得x1、x2…xm的若干組數據以及對應的y值,利用這些數據和最小二乘法就能對方程中的參數作出估計,記為╋、勮…叧,它們稱為偏回歸系數。
多元回歸分析的優點
是可以定量地描述某一現象和某些因素間的線性函數關系。將各變數的已知值代入回歸方程便可求得因變數的估計值(預測值),從而可以有效地預測某種現象的發生和發展。它既可以用於連續變數,也可用於二分變數(0,1回歸)。多元回歸的應用有嚴格的限制。首先要用方差分析法檢驗自變數y與m個自變數之間的線性回歸關系有無顯著性,其次,如果y與m個自變數總的來說有線性關系,也並不意味著所有自變數都與因變數有線性關系,還需對每個自變數的偏回歸系數進行t檢驗,以剔除在方程中不起作用的自變數。也可以用逐步回歸的方法建立回歸方程,逐步選取自變數,從而保證引入方程的自變數都是重要的。
協方差分析
把線性回歸與方差分析結合起來檢驗多個修正均數間有無差別的統計方法。例如,一個實驗包含兩個多元自變數,一個是離散變數(具有多個水平),一個是連續變數,實驗目的是分析離散變數的各個水平的優劣,此變數是方差變數;而連續變數是由於無法加以控制而進入實驗的,稱為協變數。在運用協方差分析時,可先求出該連續變數與因變數的線性回歸函數,然後根據這個函數扣除該變數的影響,即求出該連續變數取等值情況時因變數的修正均數,最後用方差分析檢驗各修正均數間的差異顯著性,即檢驗離散變數對因變數的影響。
協方差分析兼具方差分析和回歸分析的優點
可以在考慮連續變數影響的條件下檢驗離散變數對因變數的影響,有助於排除非實驗因素的干擾作用。其限制條件是,理論上要求各組資料(樣本)都來自方差相同的正態總體,各組的總體直線回歸系數相等且都不為0。因此應用協方差分析前應先進行方差齊性檢驗和回歸系數的假設檢驗,若符合或經變換後符合上述條件,方可作協方差分析。
判別函數分析
判定個體所屬類別的統計方法。其基本原理是:根據兩個或多個已知類別的樣本觀測資料確定一個或幾個線性判別函數和判別指標,然後用該判別函數依據判別指標來判定另一個個體屬於哪一類。 判別分析不僅用於連續變數,而且藉助於數量化理論亦可用於定性資料。它有助於客觀地確定歸類標准。然而,判別分析僅可用於類別已確定的情況。當類別本身未定時,預用聚類分析先分出類別,然後再進行判別分析。
聚類分析
解決分類問題的一種統計方法。若給定n個觀測對象,每個觀察對象有p個特徵(變數),如何將它們聚成若干可定義的類?若對觀測對象進行聚類,稱為Q型分析;若對變數進行聚類,稱為R型分析。聚類的基本原則是,使同類的內部差別較小,而類別間的差別較大。最常用的聚類方案有兩種。一種是系統聚類方法。例如,要將n個對象分為k類,先將n個對象各自分成一類,共n類。然後計算兩兩之間的某種「距離」,找出距離最近的兩個類、合並為一個新類。然後逐步重復這一過程,直到並為k類為止。另一種為逐步聚類或稱動態聚類方法。當樣本數很大時,先將n個樣本大致分為k類,然後按照某種最優原則逐步修改,直到分類比較合理為止。 聚類分析是依據個體或變數的數量關系來分類,客觀性較強,但各種聚類方法都只能在某種條件下達到局部最優,聚類的最終結果是否成立,尚需專家的鑒定。必要時可以比較幾種不同的方法,選擇一種比較符合專業要求的分類結果。
主成分分析
把原來多個指標化為少數幾個互不相關的綜合指標的一種統計方法。例如,用p個指標觀測樣本,如何從這p個指標的數據出發分析樣本或總體的主要性質呢?如果p個指標互不相關,則可把問題化為p個單指標來處理。但大多時候p個指標之間存在著相關。此時可運用主成分分析尋求這些指標的互不相關的線性函數,使原有的多個指標的變化能由這些線性函數的變化來解釋。這些線性函數稱為原有指標的主成分,或稱主分量。 主成分分析有助於分辨出影響因變數的主要因素,也可應用於其他多元分析方法,例如在分辨出主成分之後再對這些主成分進行回歸分析、判別分析和典型相關分析。主成分分析還可以作為因素分析的第一步,向前推進就是因素分析。其缺點是只涉及一組變數之間的相互依賴關系,若要討論兩組變數之間的相互關系則須運用典型相關。
典型相關分析
先將較多變數轉化為少數幾個典型變數,再通過其間的典型相關系數來綜合描述兩組多元隨機變數之間關系的統計方法。設x是p元隨機變數,y是q元隨機變數,如何描述它們之間的相關程度?當然可逐一計算x的p個分量和y的q個分量之間的相關系數(p×q個), 但這樣既繁瑣又不能反映事物的本質。如果運用典型相關分析,其基本程序是,從兩組變數各自的線性函數中各抽取一個組成一對,它們應是相關系數達到最大值的一對,稱為第1對典型變數,類似地還可以求出第2對、第3對、……,這些成對變數之間互不相關,各對典型變數的相關系數稱為典型相關系數。所得到的典型相關系數的數目不超過原兩組變數中任何一組變數的數目。 典型相關分析有助於綜合地描述兩組變數之間的典型的相關關系。其條件是,兩組變數都是連續變數,其資料都必須服從多元正態分布。 以上幾種多元分析方法各有優點和局限性。每一種方法都有它特定的假設、條件和數據要求,例如正態性、線性和同方差等。因此在應用多元分析方法時,應在研究計劃階段確定理論框架,以決定收集何種數據、怎樣收集和如何分析數據資料。

C. 數學建模-方法合集

線性規劃(Linear programming,簡稱LP)是運籌學中研究較早、發展較快、應用廣泛、方法較成熟的一個重要分支,它是輔助人們進行科學管理的一種數學方法。研究線性約束條件下線性目標函數的極值問題的數學理論和方法。英文縮寫LP。它是運籌學的一個重要分支,廣泛應用於軍事作戰、經濟分析、經營管理和工程技術等方面。為合理地利用有限的人力、物力、財力等資源作出的最優決策,提供科學的依據。

0-1規劃是決策變數僅取值0或1的一類特殊的整數規劃。在處理經濟管理中某些規劃問題時,若決策變數採用 0-1變數即邏輯變數,可把本來需要分別各種情況加以討論的問題統一在一個問題中討論。

蒙特卡羅法(Monte Carlo method)是以概率與統計的理論、方法為基礎的一種計算方法,蒙特卡羅法將所需求解的問題同某個概率模型聯系在一起,在電子計算機上進行隨機模擬,以獲得問題的近似解。因此,蒙特卡羅法又稱隨機模擬法或統計試驗法。

在生活中經常遇到這樣的問題,某單位需完成n項任務,恰好有n個人可承擔這些任務。由於每人的專長不同,各人完成任務不同(或所費時間),效率也不同。於是產生應指派哪個人去完成哪項任務,使完成n項任務的總效率最高(或所需總時間最小)。這類問題稱為指派問題或分派問題。

無約束最優化方法是求解無約束最優化問題的方法,有解析法和直接法兩類。

解析法

解析法就是利用無約束最優化問題中目標函數 f(x) 的解析表達式和它的解析性質(如函數的一階導數和二階導數),給出一種求它的最優解 x 的方法,或一種求 x 的近似解的迭代方法。

直接法

直接法就是在求最優解 x*的過程中,只用到函數的函數值,而不必利用函數的解析性質,直接法也是一種迭代法,迭代步驟簡單,當目標函數 f(x) 的表達式十分復雜,或寫不出具體表達式時,它就成了重要的方法。

可用來解決管路鋪設、線路安裝、廠區布局和設備更新等實際問題。基本內容是:若網路中的每條邊都有一個數值(長度、成本、時間等),則找出兩節點(通常是源節點和阱節點)之間總權和最小的路徑就是最短路問題。 [1]

例如:要在n個城市之間鋪設光纜,主要目標是要使這 n 個城市的任意兩個之間都可以通信,但鋪設光纜的費用很高,且各個城市之間鋪設光纜的費用不同,因此另一個目標是要使鋪設光纜的總費用最低。這就需要找到帶權的最小生成樹

管道網路中每條邊的最大通過能力(容量)是有限的,實際流量不超過容量。

最大流問題(maximum flow problem),一種組合最優化問題,就是要討論如何充分利用裝置的能力,使得運輸的流量最大,以取得最好的效果。求最大流的標號演算法最早由福特和福克遜與與1956年提出,20世紀50年代福特(Ford)、(Fulkerson)建立的「網路流理論」,是網路應用的重要組成成分。

最小費用最大流問題是經濟學和管理學中的一類典型問題。在一個網路中每段路徑都有「容量」和「費用」兩個限制的條件下,此類問題的研究試圖尋找出:流量從A到B,如何選擇路徑、分配經過路徑的流量,可以在流量最大的前提下,達到所用的費用最小的要求。如n輛卡車要運送物品,從A地到B地。由於每條路段都有不同的路費要繳納,每條路能容納的車的數量有限制,最小費用最大流問題指如何分配卡車的出發路徑可以達到費用最低,物品又能全部送到。

旅行推銷員問題(英語:Travelling salesman problem, TSP)是這樣一個問題:給定一系列城市和每對城市之間的距離,求解訪問每一座城市一次並回到起始城市的最短迴路。它是組合優化中的一個NP困難問題,在運籌學和理論計算機科學中非常重要。

最早的旅行商問題的數學規劃是由Dantzig(1959)等人提出,並且是在最優化領域中進行了深入研究。許多優化方法都用它作為一個測試基準。盡管問題在計算上很困難,但已經有了大量的啟發式演算法和精確方法來求解數量上萬的實例,並且能將誤差控制在1%內

計劃評審法(Program Evaluation and Review Technique,簡稱PERT),是指利用網路分析制訂計劃以及對計劃予以評價的技術。它能協調整個計劃的各道工序,合理安排人力、物力、時間、資金,加速計劃的完成。在現代計劃的編制和分析手段上,PERT被廣泛使用,是現代化管理的重要手段和方法。

關鍵路線法(Critical Path Method,CPM),又稱關鍵線路法。一種計劃管理方法。它是通過分析項目過程中哪個活動序列進度安排的總時差最少來預測項目工期的網路分析。

人口系統數學模型,用來描述人口系統中人的出生、死亡和遷移隨時間變化的情況,以及它們之間定量關系的數學方程式或方程組,又稱人口模型。

初值問題是指在自變數的某值給出適當個數的附加條件,用來確定微分方程的特解的這類問題。

如果在自變數的某值給出適當個數的附加條件,用來確定微分方程的特解,則這類問題稱為初值問題。

邊值問題是定解問題之一,只有邊界條件的定解問題稱為邊值問題。二階偏微分方程(組)一般有三種邊值問題:第一邊值問題又稱狄利克雷問題,它的邊界條件是給出未知函數本身在邊界上的值;第二邊值問題又稱諾伊曼邊值問題或斜微商問題,它的邊界條件是給出未知函數關於區域邊界的法向導數或非切向導數;第三邊值問題又稱魯賓問題,它的邊界條件是給出未知函數及其非切向導數的組合

目標規劃是一種用來進行含有單目標和多目標的決策分析的數學規劃方法。線性規劃的一種特殊類型。它是在線性規劃基礎上發展起來的,多用來解決線性規劃所解決不了的經濟、軍事等實際問題。它的基本原理、數學模型結構與線性規劃相同,也使用線性規劃的單純形法作為計算的基礎。所不同之處在於,它從試圖使目標離規定值的偏差為最小入手解題,並將這種目標和為了代表與目標的偏差而引進的變數規定在表達式的約束條件之中。

時間序列(或稱動態數列)是指將同一統計指標的數值按其發生的時間先後順序排列而成的數列。時間序列分析的主要目的是根據已有的歷史數據對未來進行預測。

支持向量機(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等於1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中。

在機器學習中,支持向量機(SVM,還支持矢量網路)是與相關的學習演算法有關的監督學習模型,可以分析數據,識別模式,用於分類和回歸分析。

聚類分析法是理想的多變數統計技術,主要有分層聚類法和迭代聚類法。 聚類分析也稱群分析、點群分析,是研究分類的一種多元統計方法。

例如,我們可以根據各個銀行網點的儲蓄量、人力資源狀況、營業面積、特色功能、網點級別、所處功能區域等因素情況,將網點分為幾個等級,再比較各銀行之間不同等級網點數量對比狀況。

成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。

在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

因子分析是指研究從變數群中提取共性因子的統計技術。最早由英國心理學家C.E.斯皮爾曼提出。他發現學生的各科成績之間存在著一定的相關性,一科成績好的學生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學生的學習成績。因子分析可在許多變數中找出隱藏的具有代表性的因子。將相同本質的變數歸入一個因子,可減少變數的數目,還可檢驗變數間關系的假設。

判別分析又稱「分辨法」,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變數統計分析方法。

其基本原理是按照一定的判別准則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定系數,並計算判別指標。據此即可確定某一樣本屬於何類。

當得到一個新的樣品數據,要確定該樣品屬於已知類型中哪一類,這類問題屬於判別分析問題。

對互協方差矩陣的一種理解,是利用綜合變數對之間的相關關系來反映兩組指標之間的整體相關性的多元統計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關關系,分別在兩組變數中提取有代表性的兩個綜合變數U1和V1(分別為兩個變數組中各變數的線性組合),利用這兩個綜合變數之間的相關關系來反映兩組指標之間的整體相關性。

對應分析也稱關聯分析、R-Q型因子分析,是近年新發展起來的一種多元相依變數統計分析技術,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。

對應分析主要應用在市場細分、產品定位、地質研究以及計算機工程等領域中。原因在於,它是一種視覺化的數據分析方法,它能夠將幾組看不出任何聯系的數據,通過視覺上可以接受的定點陣圖展現出來。

多維標度法是一種將多維空間的研究對象(樣本或變數)簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關系的數據分析方法。

在市場營銷調研中,多維標度法的用途十分廣泛。被用於確定空間的級數(變數、指標),以反映消費者對不同品牌的認知,並且在由這些維構築的空間中,標明某關注品牌和消費者心目中理想品牌的位置。

偏最小二乘法是一種數學優化技術,它通過最小化誤差的平方和找到一組數據的最佳函數匹配。 用最簡的方法求得一些絕對不可知的真值,而令誤差平方之和為最小。 很多其他的優化問題也可通過最小化能量或最大化熵用最小二乘形式表達。

系統介紹了禁忌搜索演算法、模擬退火演算法、遺傳演算法、蟻群優化演算法、人工神經網路演算法和拉格朗日鬆弛演算法等現代優化計算方法的模型與理論、應用技術和應用案例。

禁忌(Tabu Search)演算法是一種元啟發式(meta-heuristic)隨機搜索演算法,它從一個初始可行解出發,選擇一系列的特定搜索方向(移動)作為試探,選擇實現讓特定的目標函數值變化最多的移動。為了避免陷入局部最優解,TS搜索中採用了一種靈活的「記憶」技術,對已經進行的優化過程進行記錄和選擇,指導下一步的搜索方向,這就是Tabu表的建立。

模擬退火演算法來源於固體退火原理,是一種基於概率的演算法,將固體加溫至充分高,再讓其徐徐冷卻,加溫時,固體內部粒子隨溫升變為無序狀,內能增大,而徐徐冷卻時粒子漸趨有序,在每個溫度都達到平衡態,最後在常溫時達到基態,內能減為最小。

傳演算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。遺傳演算法是從代表問題可能潛在的解集的一個種群(population)開始的,而一個種群則由經過基因(gene)編碼的一定數目的個體(indivial)組成。每個個體實際上是染色體(chromosome)帶有特徵的實體。染色體作為遺傳物質的主要載體,即多個基因的集合,其內部表現(即基因型)是某種基因組合,它決定了個體的形狀的外部表現,如黑頭發的特徵是由染色體中控制這一特徵的某種基因組合決定的。因此,在一開始需要實現從表現型到基因型的映射即編碼工作。由於仿照基因編碼的工作很復雜,我們往往進行簡化,如二進制編碼,初代種群產生之後,按照適者生存和優勝劣汰的原理,逐代(generation)演化產生出越來越好的近似解,在每一代,根據問題域中個體的適應度(fitness)大小選擇(selection)個體,並藉助於自然遺傳學的遺傳運算元(genetic operators)進行組合交叉(crossover)和變異(mutation),產生出代表新的解集的種群。這個過程將導致種群像自然進化一樣的後生代種群比前代更加適應於環境,末代種群中的最優個體經過解碼(decoding),可以作為問題近似最優解。

The Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) is a multi-criteria decision analysis method, which was originally developed by Hwang and Yoon in 1981[1] with further developments by Yoon in 1987,[2] and Hwang, Lai and Liu in 1993.[3] TOPSIS is based on the concept that the chosen alternative should have the shortest geometric distance from the positive ideal solution (PIS)[4] and the longest geometric distance from the negative ideal solution (NIS).[4]

TOPSIS是一種多准則決策分析方法,最初由Hwang和Yoon於1981年開發[1],1987年由Yoon進一步開發,[2]和Hwang, 1993年賴和劉。[3] TOPSIS是基於這樣一個概念,即所選擇的方案應該具有離正理想解(PIS)最短的幾何距離[4]和距負理想解(NIS)最遠的幾何距離[4]。

模糊綜合評價法是一種基於模糊數學的綜合評價方法。該綜合評價法根據模糊數學的隸屬度理論把定性評價轉化為定量評價,即用模糊數學對受到多種因素制約的事物或對象做出一個總體的評價。它具有結果清晰,系統性強的特點,能較好地解決模糊的、難以量化的問題,適合各種非確定性問題的解決。

數據包絡分析方法(Data Envelopment Analysis,DEA)是運籌學、管理科學與數理經濟學交叉研究的一個新領域。它是根據多項投入指標和多項產出指標,利用線性規劃的方法,對具有可比性的同類型單位進行相對有效性評價的一種數量分析方法。DEA方法及其模型自1978年由美國著名運籌學家A.Charnes和W.W.Cooper提出以來,已廣泛應用於不同行業及部門,並且在處理多指標投入和多指標產出方面,體現了其得天獨厚的優勢。

對於兩個系統之間的因素,其隨時間或不同對象而變化的關聯性大小的量度,稱為關聯度。在系統發展過程中,若兩個因素變化的趨勢具有一致性,即同步變化程度較高,即可謂二者關聯程度較高;反之,則較低。因此,灰色關聯分析方法,是根據因素之間發展趨勢的相似或相異程度,亦即「灰色關聯度」,作為衡量因素間關聯程度的一種方法。

主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標(即主成分),其中每個主成分都能夠反映原始變數的大部分信息,且所含信息互不重復。這種方法在引進多方面變數的同時將復雜因素歸結為幾個主成分,使問題簡單化,同時得到的結果更加科學有效的數據信息。在實際問題研究中,為了全面、系統地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在多元統計分析中也稱為變數。因為每個變數都在不同程度上反映了所研究問題的某些信息,並且指標之間彼此有一定的相關性,因而所得的統計數據反映的信息在一定程度上有重疊。主要方法有特徵值分解,SVD,NMF等。

秩和比法(Rank-sum ratio,簡稱RSR法),是我國學者、原中國預防醫學科學院田鳳調教授於1988年提出的,集古典參數統計與近代非參數統計各自優點於一體的統計分析方法,它不僅適用於四格表資料的綜合評價,也適用於行×列表資料的綜合評價,同時也適用於計量資料和分類資料的綜合評價。

灰色預測是就灰色系統所做的預測

灰色預測是一種對含有不確定因素的系統進行預測的方法。灰色預測通過鑒別系統因素之間發展趨勢的相異程度,即進行關聯分析,並對原始數據進行生成處理來尋找系統變動的規律,生成有較強規律性的數據序列,然後建立相應的微分方程模型,從而預測事物未來發展趨勢的狀況。其用等時距觀測到的反應預測對象特徵的一系列數量值構造灰色預測模型,預測未來某一時刻的特徵量,或達到某一特徵量的時間。

回歸分析預測法,是在分析市場現象自變數和因變數之間相關關系的基礎上,建立變數之間的回歸方程,並將回歸方程作為預測模型,根據自變數在預測期的數量變化來預測因變數關系大多表現為相關關系,因此,回歸分析預測法是一種重要的市場預測方法,當我們在對市場現象未來發展狀況和水平進行預測時,如果能將影響市場預測對象的主要因素找到,並且能夠取得其數量資料,就可以採用回歸分析預測法進行預測。它是一種具體的、行之有效的、實用價值很高的常用市場預測方法,常用於中短期預測。

包含未知函數的差分及自變數的方程。在求微分方程 的數值解時,常把其中的微分用相應的差分來近似,所導出的方程就是差分方程。通過解差分方程來求微分方程的近似解,是連續問題離散化 的一個例子。

馬爾可夫預測法主要用於市場佔有率的預測和銷售期望利潤的預測。就是一種預測事件發生的概率的方法。馬爾科夫預測講述了有關隨機變數 、 隨機函數與隨機過程。

邏輯性的思維是指根據邏輯規則進行推理的過程;它先將信息化成概念,並用符號表示,然後,根據符號運算按串列模式進行邏輯推理;這一過程可以寫成串列的指令,讓計算機執行。然而,直觀性的思維是將分布式存儲的信息綜合起來,結果是忽然間產生想法或解決問題的辦法。這種思維方式的根本之點在於以下兩點:1.信息是通過神經元上的興奮模式分布儲在網路上;2.信息處理是通過神經元之間同時相互作用的動態過程來完成的。

中文名 神經網路演算法 外文名 Neural network algorithm

D. 16種常用的數據分析方法匯總

一、描述統計

描述性統計是指運用製表和分類,圖形以及計筠概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。

1、缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法。

2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。

二、假設檢驗

1、參數檢驗

參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。

1)U驗  使用條件:當樣本含量n較大時,樣本值符合正態分布

2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布

A  單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;

B  配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;

C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。

2、非參數檢驗

非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。

適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。

A 雖然是連續數據,但總體分布形態未知或者非正態;

B 體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;

主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。

三、信度分析

檢査測量的可信度,例如調查問卷的真實性。

分類:

1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度

2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。

四、列聯表分析

用於分析離散變數或定型變數之間是否存在相關。

對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。

列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。

五、相關分析

研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。

1、單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;

2、復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;

3、偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。

六、方差分析

使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。

分類

1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系

2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系

3、多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系

4、協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,

七、回歸分析

分類:

1、一元線性回歸分析:只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布。

2、多元線性回歸分析

使用條件:分析多個自變數與因變數Y的關系,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布 。

1)變呈篩選方式:選擇最優回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向後剔除法

2)橫型診斷方法:

A 殘差檢驗: 觀測值與估計值的差值要艱從正態分布

B 強影響點判斷:尋找方式一般分為標准誤差法、Mahalanobis距離法

C 共線性診斷:

診斷方式:容忍度、方差擴大因子法(又稱膨脹系數VIF)、特徵根判定法、條件指針CI、方差比例

處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等

3、Logistic回歸分析

線性回歸模型要求因變數是連續的正態分布變里,且自變數和因變數呈線性關系,而Logistic回歸模型對因變數的分布沒有要求,一般用於因變數是離散時的情況

分類:

Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。

4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等

八、聚類分析

樣本個體或指標變數按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。

1、性質分類:

Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈 使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等

R型聚類分析:對指標進行分類處理,又稱指標聚類分析 使用相似系數作為統計量衡量相似度,相關系數、列聯系數等

2、方法分類:

1)系統聚類法: 適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類

2)逐步聚類法 :適用於大樣本的樣本聚類

3)其他聚類法 :兩步聚類、K均值聚類等

九、判別分析

1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體

2、與聚類分析區別

1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本

2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類

3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類

3、進行分類 :

1)Fisher判別分析法 :

以距離為判別准則來分類,即樣本與哪個類的距離最短就分到哪一類, 適用於兩類判別;

以概率為判別准則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於

適用於多類判別。

2)BAYES判別分析法 :

BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用;

十、主成分分析

將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變數,並用其中較少的幾個新指標變數就能綜合反應原多個指標變數中所包含的主要信息 。

十一、因子分析

一種旨在尋找隱藏在多變數數據中、無法直接觀察到卻影響或支配可測變數的潛在因子、並估計潛在因子對可測變數的影響程度以及潛在因子之間的相關性的一種多元統計分析方法

與主成分分析比較:

相同:都能夠起到済理多個原始變數內在結構關系的作用

不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變數間的關系,是比主成分分析更深入的一種多元統計方法

用途:

1)減少分析變數個數

2)通過對變數間相關關系探測,將原始變數進行分類

十二、時間序列分析

動態數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。

主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型

十三、生存分析

用來研究生存時間的分布規律以及生存時間和相關因索之間關系的一種統計分析方法

1、包含內容:

1)描述生存過程,即研究生存時間的分布規律

2)比較生存過程,即研究兩組或多組生存時間的分布規律,並進行比較

3)分析危險因素,即研究危險因素對生存過程的影響

4)建立數學模型,即將生存時間與相關危險因素的依存關系用一個數學式子表示出來。

2、方法:

1)統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論

2)非參數檢驗:檢驗分組變數各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,並且檢驗危險因素對生存時間的影響。

A 乘積極限法(PL法)

B 壽命表法(LT法)

3)半參數橫型回歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法

4)參數模型回歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更准確地分析確定變數之間的變化規律

十四、典型相關分析

相關分析一般分析兩個變里之間的關系,而典型相關分析是分析兩組變里(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。

典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變數與另一組變數之間單變數的多重線性相關性研究轉化為對少數幾對綜合變數之間的簡單線性相關性的研究,並且這少數幾對變數所包含的線性相關性的信息幾乎覆蓋了原變數組所包含的全部相應信息。

十五、R0C分析

R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線

用途:

1、R0C曲線能很容易地査出任意界限值時的對疾病的識別能力

用途

2、選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的准確性就越高;

3、兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的准確性。

十六、其他分析方法

多重響應分析、距離分祈、項目分祈、對應分祈、決策樹分析、神經網路、系統方程、蒙特卡洛模擬等。

E. 多元統計!!!急求!

1. 因子分析模型

因子分析法是從研究變數內部相關的依賴關系出發,把一些具有錯綜復雜關系的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。它的基本思想是將觀測變數進行分類,將相關性較高,即聯系比較緊密的分在同一類中,而不同類變數之間的相關性則較低,那麼每一類變數實際上就代表了一個基本結構,即公共因子。對於所研究的問題就是試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。

因子分析的基本思想:
把每個研究變數分解為幾個影響因素變數,將每個原始變數分解成兩部分因素,一部分是由所有變數共同具有的少數幾個公共因子組成的,另一部分是每個變數獨自具有的因素,即特殊因子

因子分析模型描述如下:

(1)X = (x1,x2,…,xp)¢是可觀測隨機向量,均值向量E(X)=0,協方差陣Cov(X)=∑,且協方差陣∑與相關矩陣R相等(只要將變數標准化即可實現)。

(2)F = (F1,F2,…,Fm)¢ (m<p)是不可測的向量,其均值向量E(F)=0,協方差矩陣Cov(F) =I,即向量的各分量是相互獨立的。

(3)e = (e1,e2,…,ep)¢與F相互獨立,且E(e)=0, e的協方差陣∑是對角陣,即各分量e之間是相互獨立的,則模型:

x1 = a11F1+ a12F2 +…+a1mFm + e1

x2 = a21F1+a22F2 +…+a2mFm + e2

………

xp = ap1F1+ ap2F2 +…+apmFm + ep

稱為因子分析模型,由於該模型是針對變數進行的,各因子又是正交的,所以也稱為R型正交因子模型。

其矩陣形式為: x =AF + e .

其中:

x=,A=,F=,e=

這里,

(1)m £ p;

(2)Cov(F,e)=0,即F和e是不相關的;

(3)D(F) = Im ,即F1,F2,…,Fm不相關且方差均為1;

D(e)=,即e1,e2,…,ep不相關,且方差不同。

我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e 稱為X的特殊因子。

A = (aij),aij為因子載荷。數學上可以證明,因子載荷aij就是第i變數與第j因子的相關系數,反映了第i變數在第j因子上的重要性。

2. 模型的統計意義

模型中F1,F2,…,Fm叫做主因子或公共因子,它們是在各個原觀測變數的表達式中都共同出現的因子,是相互獨立的不可觀測的理論變數。公共因子的含義,必須結合具體問題的實際意義而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨立的。模型中載荷矩陣A中的元素(aij)是為因子載荷。因子載荷aij是xi與Fj的協方差,也是xi與Fj的相關系數,它表示xi依賴Fj的程度。可將aij看作第i個變數在第j公共因子上的權,aij的絕對值越大(|aij|£1),表明xi與Fj的相依程度越大,或稱公共因子Fj對於xi的載荷量越大。為了得到因子分析結果的經濟解釋,因子載荷矩陣A中有兩個統計量十分重要,即變數共同度和公共因子的方差貢獻。

因子載荷矩陣A中第i行元素之平方和記為hi2,稱為變數xi的共同度。它是全部公共因子對xi的方差所做出的貢獻,反映了全部公共因子對變數xi的影響。hi2大表明x的第i個分量xi對於F的每一分量F1,F2,…,Fm的共同依賴程度大。

將因子載荷矩陣A的第j列( j =1,2,…,m)的各元素的平方和記為gj2,稱為公共因子Fj對x的方差貢獻。gj2就表示第j個公共因子Fj對於x的每一分量xi(i= 1,2,…,p)所提供方差的總和,它是衡量公共因子相對重要性的指標。gj2越大,表明公共因子Fj對x的貢獻越大,或者說對x的影響和作用就越大。如果將因子載荷矩陣A的所有gj2 ( j =1,2,…,m)都計算出來,使其按照大小排序,就可以依此提煉出最有影響力的公共因子。

3. 因子旋轉

建立因子分析模型的目的不僅是找出主因子,更重要的是知道每個主因子的意義,以便對實際問題進行分析。如果求出主因子解後,各個主因子的典型代表變數不很突出,還需要進行因子旋轉,通過適當的旋轉得到比較滿意的主因子。

旋轉的方法有很多,正交旋轉(orthogonal rotation)和斜交旋轉(oblique rotation)是因子旋轉的兩類方法。最常用的方法是最大方差正交旋轉法(Varimax)。進行因子旋轉,就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個方向分化,使大的載荷更大,小的載荷更小。因子旋轉過程中,如果因子對應軸相互正交,則稱為正交旋轉;如果因子對應軸相互間不是正交的,則稱為斜交旋轉。常用的斜交旋轉方法有Promax法等。

4.因子得分

因子分析模型建立後,還有一個重要的作用是應用因子分析模型去評價每個樣品在整個模型中的地位,即進行綜合評價。例如地區經濟發展的因子分析模型建立後,我們希望知道每個地區經濟發展的情況,把區域經濟劃分歸類,哪些地區發展較快,哪些中等發達,哪些較慢等。這時需要將公共因子用變數的線性組合來表示,也即由地區經濟的各項指標值來估計它的因子得分。

設公共因子F由變數x表示的線性組合為:

Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m

該式稱為因子得分函數,由它來計算每個樣品的公共因子得分。若取m=2,則將每個樣品的p個變數代入上式即可算出每個樣品的因子得分F1和F2,並將其在平面上做因子得分散點圖,進而對樣品進行分類或對原始數據進行更深入的研究。

但因子得分函數中方程的個數m小於變數的個數p,所以並不能精確計算出因子得分,只能對因子得分進行估計。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。

(1)回歸估計法

F = X b = X (X ¢X)-1A¢ = XR-1A¢ (這里R為相關陣,且R = X ¢X )。

(2)Bartlett估計法

Bartlett估計因子得分可由最小二乘法或極大似然法導出。

F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X = (A¢W-1A)-1A¢W-1X

(3)Thomson估計法

在回歸估計法中,實際上是忽略特殊因子的作用,取R = X ¢X,若考慮特殊因子的作用,此時R = X ¢X+W,於是有:

F = XR-1A¢ = X (X ¢X+W)-1A¢

這就是Thomson估計的因子得分,使用矩陣求逆演算法(參考線性代數文獻)可以將其轉換為:

F = XR-1A¢ = X (I+A¢W-1A)-1W-1A¢

5. 因子分析的步驟

因子分析的核心問題有兩個:一是如何構造因子變數;二是如何對因子變數進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。

(i)因子分析常常有以下四個基本步驟:

(1)確認待分析的原變數是否適合作因子分析。

(2)構造因子變數。

(3)利用旋轉方法使因子變數更具有可解釋性。

(4)計算因子變數得分。

(ii)因子分析的計算過程:

(1)將原始數據標准化,以消除變數間在數量級和量綱上的不同。

(2)求標准化數據的相關矩陣;

(3)求相關矩陣的特徵值和特徵向量;

(4)計算方差貢獻率與累積方差貢獻率;

(5)確定因子:

設F1,F2,…, Fp為p個因子,其中前m個因子包含的數據信息總量(即其累積貢獻率)不低於80%時,可取前m個因子來反映原評價指標;

(6)因子旋轉:

若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。

(7)用原指標的線性組合來求各因子得分:

採用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。

(8)綜合得分

以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數。

F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )

此處wi為旋轉前或旋轉後因子的方差貢獻率。

(9)得分排序:利用綜合得分可以得到得分名次。

在採用多元統計分析技術進行數據處理、建立宏觀或微觀系統模型時,需要研究以下幾個方面的問題:

· 簡化系統結構,探討系統內核。可採用主成分分析、因子分析、對應分析等方法,在眾多因素中找出各個變數最佳的子集合,從子集合所包含的信息描述多變數的系統結果及各個因子對系統的影響。「從樹木看森林」,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統的結構,認識系統的內核。

· 構造預測模型,進行預報控制。在自然和社會科學領域的科研與生產中,探索多變數系統運動的客觀規律及其與外部環境的關系,進行預測預報,以實現對系統的最優控制,是應用多元統計分析技術的主要目的。在多元分析中,用於預報控制的模型有兩大類。一類是預測預報模型,通常採用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術。另一類是描述性模型,通常採用聚類分析的建模技術。

· 進行數值分類,構造分類模式。在多變數系統的分析中,往往需要將系統性質相似的事物或現象歸為一類。以便找出它們之間的聯系和內在規律性。過去許多研究多是按單因素進行定性處理,以致處理結果反映不出系統的總的特徵。進行數值分類,構造分類模式一般採用聚類分析和判別分析技術。

如何選擇適當的方法來解決實際問題,需要對問題進行綜合考慮。對一個問題可以綜合運用多種統計方法進行分析。例如一個預報模型的建立,可先根據有關生物學、生態學原理,確定理論模型和試驗設計;根據試驗結果,收集試驗資料;對資料進行初步提煉;然後應用統計分析方法(如相關分析、逐步回歸分析、主成分分析等)研究各個變數之間的相關性,選擇最佳的變數子集合;在此基礎上構造預報模型,最後對模型進行診斷和優化處理,並應用於生產實際。
Rotated Component Matrix,就是經轉軸後的因子負荷矩陣,
當你設置了因子轉軸後,便會產生這結果。
轉軸的是要得到清晰的負荷形式,以便研究者進行因子解釋及命名。

SPSS的Factor Analysis對話框中,有個Rotation鈕,點擊便會彈出Rotation對話框,
其中有5種因子旋轉方法可選擇:

1.最大變異法(Varimax):使負荷量的變異數在因子內最大,亦即,使每個因子上具有最高載荷的變數數最少。

2.四次方最大值法(Quartimax):使負荷量的變異數在變項內最大,亦即,使每個變數中需要解釋的因子數最少。

3.相等最大值法(Equamax):綜合前兩者,使負荷量的變異數在因素內與變項內同時最大。

4.直接斜交轉軸法(Direct Oblimin):使因素負荷量的差積(cross-procts)最小化。

5.Promax 轉軸法:將直交轉軸(varimax)的結果再進行有相關的斜交轉軸。因子負荷量取2,4,6次方以產生接近0但不為0的值,藉以找出因子間的相關,但仍保有最簡化因素的特性。

上述前三者屬於「直交(正交)轉軸法」(Orthogonal Rotations),在直交轉軸法中,因子與因子之間沒有相關,因子軸之間的夾角等於90 度。後兩者屬於「斜交轉軸」(oblique rotations),表示因子與因子之間彼此有某種程度的相關,因素軸之間的夾角不是90度。

直交轉軸法的優點是因子之間提供的訊息不會重疊,受訪者在某一個因子的分數與在其他因子的分數,彼此獨立互不相關;缺點是研究迫使因素之間不相關,但這種情況在實際的情境中往往並不常存在。至於使用何種轉軸方式,須視乎研究題材、研究目的及相關理論,由研究者自行設定。

在根據結果解釋因子時,除了要看因子負荷矩陣中,因子對哪些變數呈高負荷,對哪些變數呈低負荷,還須留意之前所用的轉軸法代表的意義。

2,主成分分析(principal component analysis)

將多個變數通過線性變換以選出較少個數重要變數的一種多元統計分析方法。又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。但是,在用統計分析方法研究這個多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
(1)主成分分析的原理及基本思想。
原理:設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。
基本思想:主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現再F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
(2)步驟
Fp=a1mZX1+a2mZX2+……+apmZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣∑的特徵值多對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變數經過標准化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標准化,本文所採用的數據就存在量綱影響[註:本文指的數據標准化是指Z標准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R為相關系數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1≥λ2≥…≥λp≥0 。
進行主成分分析主要步驟如下:
1. 指標數據標准化(SPSS軟體自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分Fi表達式;
5. 主成分Fi命名;

選用以上兩種方法時的注意事項如下:
1、因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變數的線性組合。

2、主成分分析的重點在於解釋個變數的總方差,而因子分析則把重點放在解釋各變數之間的協方差。

3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。

4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,的主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。

5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且藉助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的信息)來進入後續的分析,則可以使用主成分分析。當然,這中情況也可以使用因子得分做到。所以這中區分不是絕對的。

總得來說,主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用:a,了解數據。(screening the data),b,和cluster analysis一起使用,c,和判別分析一起使用,比如當變數很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份發對變數簡化。(rece dimensionality)d,在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。

在演算法上,主成分分析和因子分析很類似,不過,在因子分析中所採用的協方差矩陣的對角元素不在是變數的方差,而是和變數對應的共同度(變數方差中被各因子所解釋的部分)。

(1)了解如何通過SPSS因子分析得出主成分分析結果。首先,選擇SPSS中Analyze-Data Rection-Factor…,在Extraction…對話框中選擇主成分方法提取因子,選擇好因子提取個數標准後點確定完成因子分析。打開輸出結果窗口後找到Total Variance Explained表和Component Matrix表。將Component Matrix表中第一列數據分別除以Total Variance Explained表中第一特徵根值的開方得到第一主成分表達式系數,用類似方法得到其它主成分表達式。打開數據窗口,點擊菜單項的Analyze-Descriptive Statistics-Descriptives…,在打開的新窗口下方構選Save standardized values as variables,選定左邊要分析的變數。點擊Options,只構選Means,點確定後既得待分析變數的標准化新變數。

選擇菜單項Transform-Compute…,在Target Variable中輸入:Z1(主成分變數名,可以自己定義),在Numeric Expression中輸入例如:0.412(剛才主成分表達式中的系數)*Z人口數(標准化過的新變數名)+0.212*Z第一產業產值+…,點確定即得到主成分得分。通過對主成分得分的排序即可進行各個個案的綜合評價。很顯然,這里的過程分為四個步驟:

Ⅰ.選主成分方法提取因子進行因子分析。

Ⅱ.計算主成分表達式系數。

Ⅲ.標准化數據。

Ⅳ.計算主成分得分。

我們的程序也將依該思路展開開發。

(2)對為何要將Component Matrix表數據除以特徵根開方的解釋

我們學過主成分分析和因子分析後不難發現,原來因子分析時的因子載荷矩陣就是主成分分析特徵向量矩陣乘以對應特徵根開方值的對角陣。而Component Matrix表輸出的恰是因子載荷矩陣,所以求主成分特徵向量自然是上面描述的逆運算。

成功啟動程序後選定分析變數和主成分提取方法即可在數據窗口輸出得分和在OUTPUT窗口輸出主成分表達式。

3,聚類分析(Cluster Analysis)

聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術 。

在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,並且可以描述出各細分市場的人群特徵,以便於客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。

4.判別分析(Discriminatory Analysis)

判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;採用不同的判別准則,又有費歇、貝葉斯、距離等判別方法。

費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。貝葉斯(BAYES)判別思想是根據先驗概率求出後驗概率,並依據後驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂後驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正後的結果。

距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關於各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬於距離值最小的那個母體。

5.對應分析(Correspondence Analysis)

對應分析是一種用來研究變數與變數之間聯系緊密程度的研究技術。

運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。

這種研究技術還可以用於檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出後或市場推廣活動後消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。

F. 統計分析方法有哪些


統計分析方法有以下:
1、描述性統計分析方法。描述性統計分析方法是指運用製表和分類和圖形概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
2、相關分析方法。相關分析方法是研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
3、方差分析方法。方差分析是用來分析一項實驗的影響因素與相應變數的關系,同時考慮多個影響因素之間的關系。
4、列聯表分析方法。列聯表分析是用於分析離散變數或定型變數之間是否存在相關。
5、主成分分析方法。主成分分析方法是將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變數,並用其中較少的幾個新指標變數就能綜合反應原多個指標變數中所包含的主要信息。
閱讀全文

與下列屬於多變數統計分析的方法是相關的資料

熱點內容
甜瓜成熟度鑒別方法 瀏覽:957
女性用產卵器的使用方法 瀏覽:119
打8折怎麼算計算方法 瀏覽:243
修水管後太陽能不上水解決方法 瀏覽:920
球星後撤步訓練方法 瀏覽:662
本草綱目中治療白癜風方法 瀏覽:966
無人機飛行高度解決方法 瀏覽:79
心理格板分析方法 瀏覽:36
流派研究的方法 瀏覽:430
襯衣短了如何加長改大的方法 瀏覽:654
藍螃蟹的裁剪方法視頻 瀏覽:192
正能量啞鈴鍛煉方法 瀏覽:661
飛機膨脹螺絲使用方法 瀏覽:58
蘋果ipad耗電太快怎麼解決方法 瀏覽:314
鋼筋量計算方法 瀏覽:822
什麼方法不能為圖層添加圖層蒙版 瀏覽:936
棱鏡基座使用方法 瀏覽:496
變速桿安裝方法 瀏覽:845
科目三靠邊停車最簡單的方法對點 瀏覽:986
s7變速箱頓挫解決方法 瀏覽:591