A. 16種常用的數據分析方法匯總
一、描述統計
描述性統計是指運用製表和分類,圖形以及計筠概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
1、缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、假設檢驗
1、參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。
1)U驗 使用條件:當樣本含量n較大時,樣本值符合正態分布
2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布
A 單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;
B 配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;
C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
2、非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。
適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。
A 雖然是連續數據,但總體分布形態未知或者非正態;
B 體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
三、信度分析
檢査測量的可信度,例如調查問卷的真實性。
分類:
1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
四、列聯表分析
用於分析離散變數或定型變數之間是否存在相關。
對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。
列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。
五、相關分析
研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
1、單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;
2、復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;
3、偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。
六、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
分類
1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系
2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系
3、多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系
4、協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
七、回歸分析
分類:
1、一元線性回歸分析:只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布。
2、多元線性回歸分析
使用條件:分析多個自變數與因變數Y的關系,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布 。
1)變呈篩選方式:選擇最優回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向後剔除法
2)橫型診斷方法:
A 殘差檢驗: 觀測值與估計值的差值要艱從正態分布
B 強影響點判斷:尋找方式一般分為標准誤差法、Mahalanobis距離法
C 共線性診斷:
診斷方式:容忍度、方差擴大因子法(又稱膨脹系數VIF)、特徵根判定法、條件指針CI、方差比例
處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3、Logistic回歸分析
線性回歸模型要求因變數是連續的正態分布變里,且自變數和因變數呈線性關系,而Logistic回歸模型對因變數的分布沒有要求,一般用於因變數是離散時的情況
分類:
Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。
4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等
八、聚類分析
樣本個體或指標變數按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。
1、性質分類:
Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈 使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等
R型聚類分析:對指標進行分類處理,又稱指標聚類分析 使用相似系數作為統計量衡量相似度,相關系數、列聯系數等
2、方法分類:
1)系統聚類法: 適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類
2)逐步聚類法 :適用於大樣本的樣本聚類
3)其他聚類法 :兩步聚類、K均值聚類等
九、判別分析
1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體
2、與聚類分析區別
1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本
2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類
3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類
3、進行分類 :
1)Fisher判別分析法 :
以距離為判別准則來分類,即樣本與哪個類的距離最短就分到哪一類, 適用於兩類判別;
以概率為判別准則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於
適用於多類判別。
2)BAYES判別分析法 :
BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用;
十、主成分分析
將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變數,並用其中較少的幾個新指標變數就能綜合反應原多個指標變數中所包含的主要信息 。
十一、因子分析
一種旨在尋找隱藏在多變數數據中、無法直接觀察到卻影響或支配可測變數的潛在因子、並估計潛在因子對可測變數的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
與主成分分析比較:
相同:都能夠起到済理多個原始變數內在結構關系的作用
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變數間的關系,是比主成分分析更深入的一種多元統計方法
用途:
1)減少分析變數個數
2)通過對變數間相關關系探測,將原始變數進行分類
十二、時間序列分析
動態數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。
主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
十三、生存分析
用來研究生存時間的分布規律以及生存時間和相關因索之間關系的一種統計分析方法
1、包含內容:
1)描述生存過程,即研究生存時間的分布規律
2)比較生存過程,即研究兩組或多組生存時間的分布規律,並進行比較
3)分析危險因素,即研究危險因素對生存過程的影響
4)建立數學模型,即將生存時間與相關危險因素的依存關系用一個數學式子表示出來。
2、方法:
1)統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論
2)非參數檢驗:檢驗分組變數各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,並且檢驗危險因素對生存時間的影響。
A 乘積極限法(PL法)
B 壽命表法(LT法)
3)半參數橫型回歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法
4)參數模型回歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更准確地分析確定變數之間的變化規律
十四、典型相關分析
相關分析一般分析兩個變里之間的關系,而典型相關分析是分析兩組變里(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。
典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變數與另一組變數之間單變數的多重線性相關性研究轉化為對少數幾對綜合變數之間的簡單線性相關性的研究,並且這少數幾對變數所包含的線性相關性的信息幾乎覆蓋了原變數組所包含的全部相應信息。
十五、R0C分析
R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線
用途:
1、R0C曲線能很容易地査出任意界限值時的對疾病的識別能力
用途
2、選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的准確性就越高;
3、兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的准確性。
十六、其他分析方法
多重響應分析、距離分祈、項目分祈、對應分祈、決策樹分析、神經網路、系統方程、蒙特卡洛模擬等。
B. spss分析方法-判別分析(轉載)
判別分析是在分組已知的情況下,根據已經確定分類的對象的某些觀測指標和所屬類別來判斷未知對象所屬類別的一種統計學方法。 下面我們主要從下面四個方面來解說:
[if !supportLineBreakNewLine]
[endif]
實際應用
理論思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析結果
[if !supportLineBreakNewLine]
[endif]
一、實際應用
判別分析最初應用於考古學, 例如要根據挖掘出來的人頭蓋骨的各種指標來判別其性別年齡等.。慢慢的成為一種常用的分類分析方法,其通過已知的分類情況,根據數據的特徵對其他研究對象進行預測歸類。
在實際生活中,判別分析也被廣泛用於預測事物的類別歸屬。
[if !supportLineBreakNewLine]
[endif]
企業營銷中,營銷人員可通過已有的客戶特徵數據(如消費金額、消費頻次、購物時長、購買產品種類等),預測當前的消費者屬於哪種類型的顧客(款式偏好型、偏重質量型、價格敏感型...),並根據其特點有針對性的採取有效的營銷手段。或是根據各成分含量指標,判斷白酒的品牌或水果的產地等。
除此以外,判別分析還可與聚類分析結合使用。比如,銀行的貸款部門想要在發放貸款之前,可通過此方法判斷申請人是否具有良好的信用風險。
[if !supportLineBreakNewLine]
[endif]
二、理論思想
判別分析首先需要對研究的對象進行分類,然後選擇若干對觀測對象能夠較全面描述的變數,接著按照一定的判別標准建立一個或多個判別函數,使用研究對象的大量資料確定判別函數中的待定系數來計算判別指標。對一個未確定類別的個案只要將其代入判別函數就可以判斷它屬於哪一類總體。
[if !supportLineBreakNewLine]
[endif]
常用的判別分析方法有距離判別法、費舍爾判別法和貝葉斯判別法。
[if !supportLineBreakNewLine]
[endif]
費舍爾判別法:
費舍爾判別法利用投影的方法使多維問題簡化為一維問題來處理。其通過建立線性判別函數計算出各個觀測量在各典型變數維度上的坐標並得出樣本距離各個類中心的距離,以此作為分類依據。
[if !supportLineBreakNewLine]
[endif]
貝葉斯判別法:
貝葉斯判別法通過計算待判定樣品屬於每個總體的條件概率並將樣本歸為條件概率最大的組。其主要思想如下:首先利用樣本所屬分類的先驗概率通過貝葉斯法則求出樣本所屬分類後驗概率,並依據該後驗概率分布作出統計推斷。
[if !supportLineBreakNewLine]
[endif]
距離判別法:
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別的。其通過建立關於各母體的距離判別函數式,得出各樣品與各母體之間的距離值,判別樣品屬於距離值最小的那個母體。
[if !supportLineBreakNewLine]
[endif]
[if !supportLineBreakNewLine]
[endif]
三、建立模型
[if !supportLineBreakNewLine]
[endif]
一般判別分析法的思路:
首先建立判別函數;
然後通過已知所屬分類的觀測量確定判別函數中的待定系數;
最後通過該判別函數對未知分類的觀測量進行歸類。
逐步判別分析法的思路: 逐步判別分析分為兩步
首先根據自變數和因變數的相關性對自變數進行篩選,
然後使用選定的變數進行判別分析。
逐步判別分析是在判別分析的基礎上採用有進有出的辦法,把判別能力強的變數引入判別式的同時,將判別能力最差的變數別除。最終在判別式中只保留數量不多而判別能力強的變數。
數據條件:
[if !supportLists]§ [endif]用戶使用的分組變數必須含有有限數目的不同類別,且編碼為整數。名義自變數必須被重新編碼為啞元變數或對比變數。
[if !supportLists]§ [endif]個案獨立的
[if !supportLists]§ [endif]預測變數應有多變數正態分布,組內方差-協方差矩陣在組中應等同。
[if !supportLists]§ [endif]組成員身份假設為互斥的(不存在屬於多個組的個案),且全體為窮舉的(所有個案均是組成員)。如果組成員身份為真正的分類變數時,則此過程最有效;如果組成員身份基於連續變數的值(如高智商與低智商),則用戶需要考慮使用線性回歸以利用由連續變數本身提供的更為豐富的信息。
一般判別分析案例:
[if !supportLineBreakNewLine]
[endif]
題目:以下3種不同種類豇豆豆莢的質量、寬度和長度的統計表,每種類型都為20個樣本,共60個樣本。根據不同種類豇豆豆莢的特徵,建立鑒別不同種類豇豆的判別方程。
一、數據輸入
[if !vml]
[endif]
二、操作步驟 1、進入SPSS,打開相關數據文件,選擇「分析」|「分類 」|「判別式」命令2、選擇進行判別分析的變數。在「判別分析」對話框的左側列表框中,選擇「類型」進入「分組變數」列表框。單擊「定義范圍」按鈕,在「最小值」和「最大值」中分別輸入1和3,單擊「繼續」按鈕返回「判別分析」對話框。分別選擇「質量」「寬度」「長度」3個變數進入「自變數」列表框,選中「使用步進法」單選按鈕。
[if !vml]
[endif]
3、設置判別分析的統計輸出結果。
單擊「判別分析」對話框中的「統計」按鈕。在「函數系數」選項組中,選中「費希爾」和「未標准化」復選框;在「矩陣」選項組中,選中「組內協方差」復選框。設置完畢後,單擊「繼續」按鈕返回「判別分析」對話框。
[if !vml]
[endif]
4、設置輸出到數據編輯窗口的結果。單擊「保存」按鈕,選中「預測組成員」復選框。
[if !vml]
[endif]
5、其餘設置採用系統默認值即可。單擊「確定」按鈕,等待輸出結果。
[if !supportLineBreakNewLine]
[endif]
四、結果分析
1、組統計量表可以看出,每一種豇豆豆莢的質量、寬度和長度的均值和標准差,也可以知道總樣本的均值和標准差。
[if !vml]
[endif]2、匯聚的組內矩陣表可以知道,各因素之間的協方差和相關系數。可以發現,各因素之間的相關性都較小,因此在判別方程中不需要剔除變數。
[if !vml]
[endif]
3
、輸入和刪除變數情況統計表可以知道,第一步納入的變數是質量,到第三步所有變數全部納入,且從顯著性值均為0可以看出,逐步判別沒有剔除變數。
[if !vml]
[endif]
4、典型判別方程的特徵值可以知道,特徵根數為2,其中第一個特徵根為77.318,能夠解釋所有變異的89.4%。
[if !vml]
[endif]
5、判別方程的有效性檢驗可以看出,顯著性均為0,因此兩個典型方程的判別能力都是顯著的。
[if !vml]
[endif]
6、標准化的典型判別方程可以知道,本例中的兩個標准化的典型判別方程表達式分別為:Y1=0.681*質量-0.674*寬度+0.612*長度Y2=0.363*質量+0.777*寬度+0.302*長度
[if !vml]
[endif]
7、未標准化的典型判別方程可以知道,本例中的兩個未標准化的典型判別方程表達式為:Y1=-11.528+0.210*質量-1.950*寬度+0.186*長度Y2=-15.935+0.112*質量+2.246*寬度+0.092*長度
[if !vml]
[endif]
8、貝葉斯的費希爾線性判別方程可以得到3個分類方程。在這里我們只寫出第一個分類方程。Y1=-90.708+2.557*質量+18.166*寬度+1.922*長度[if !vml]
[endif]9、判別分析在數據編輯窗口的輸出結果新產生的變數記錄是每一樣品的判別分類結果,可以看出,樣品判別分類結果與實際類別是一致的。
[if !vml]
[endif]
分析結論:
[if !supportLineBreakNewLine]
[endif]
通過判別分析可以知道,在本案例中,3種豇豆豆莢的樣品判別分類結果與實際類別是一致的。另外,我們可以得到不同的判別方程,分別包括標准化的典型判別方程、未標准化的典型判別方程和貝葉斯的費希爾線性判別方程,方程的表達式見上面的結果分析。
[if !supportLineBreakNewLine]
[endif]
參考案例數據:
[if !supportLineBreakNewLine]
[endif]
【1】spss統計分析與行業應用案例詳解(第四版) 楊維忠,張甜,王國平 清華大學出版社
(獲取更多知識,前往gz號程式解說)
原文來自https://mp.weixin.qq.com/s/Yapg-5jwMK6cITG_FZsfVA
C. 常用的數據分時方法中判別分析根據判別標准不同可以分為什麼
1、聚類分析
又稱群分析、點群分析。根據研究對象特徵對研究對象進行分類的一種多元分析技術, 把性質相近的個體歸為一類, 使得同一類中的個體都具有高度的同質性, 不同類之間的個體具有高度的異質性。根據分類對象的不同分為樣品聚類和變數聚類。
2、判別分析
是一種進行統計判別和分組的技術手段。根據一定量案例的一個分組變數和相應的其他多元變數的已知信息, 確定分組與其他多元變數之間的數量關系, 建立判別函數, 然後便可以利用這一數量關系對其他未知分組類型所屬的案例進行判別分組。
判別分析中的因變數或判別准則是定類變數, 而自變數或預測變數基本上是定距變數。依據判別類型的多少與方法不同, 分為多類判別和逐級判別。判別分析的過程是通過建立自變數的線性組合(或其他非線性函數), 使之能最佳地區分因變數的各個類別。
二、聚類分析與判別分析的區別
1、基本思想不同
( 1) 聚類分析的基本思想
我們所研究的樣品或指標( 變數) 之間存在程度不同的相似性( 親疏關系) , 於是根據一批樣品的多個觀測指標, 具體找出一些能夠度量樣品或指標之間相似程度的統計量, 以這些統計量作為劃分類型的依據。把一些相似程度較大的樣品( 或指標) 聚合為一類, 把另外一些相似程度較大的樣品( 或指標) 又聚合為另一類; 關系密切的聚合到一個小的分類單位, 關系疏遠的聚合到一個大的分類單位, 直到把所有的樣品(或指標)聚合完畢。
( 2) 判別分析的基本思想
對已知分類的數據建立由數值指標構成的分類規則即判別函數, 然後把這樣的規則應用到未知分類的樣本去分類。由基本思想可知, 在聚類分析中, 所有樣品或個體所屬類別是未知的, 類別的個數一般也是未知的, 分析的依據就是原始數據, 沒有任何事先的有關類別的信息可參考。
D. 利用測井資料判別油水層時幾種判別分析方法的判別效果比較
目前測井解釋中多採用線性判別分析方法(貝葉斯意義下的線性判別或費歇意義下的線性判別)判別油氣水層,並取得了一些好的效果,但同時也發現線性判別在不少情況下判別效果不夠理想。因此,選擇適當的判別方法以提高判別的准確率,仍是一個需要繼續探索的問題。 在江漢油田測井站關唯同志的大力協助下,我們收集了鍾市地區一批資料作樣品,分別用貝葉斯二次判別及貝葉斯與費歇線性判別進行了油水層判別歸類,考查和分析了兒種判別分析的判別效果,取得了一些初步認識。一、貝葉斯線性判別和二次到別效果的分析比較 1、原理和方法簡述 設有G個類(總體)x,,xZ,……x。;第L類(L二1,2,……G)有NL個樣品,每個樣品有P個觀測指標。現以xj、L(L=1,2,…,G,K=1,2一,N:;j二l,2,…,P)表示第L類第K個樣品第j個指標觀測值。又設各樣品都是相互獨立的正態隨機向量,於是有第L個總體(L=1,2,…,G)XL服從均向量為卜『、協方差矩陣為三L的多元正態分布N(卜L,藝L),即 xL~N(協L,萬L)(IJ=1,2,…,G) 若有一來自某類的新樣品X二(x,,xZ,…xp)產,則可以根據貝葉斯公式算出X歸於第(本文共計10頁)
E. 判別分析的應用
在氣候分類、農業區劃、土地類型劃分中有著廣泛的應用。
在市場調研中,一般根據事先確定的因變數(例如產品的主要用戶、普通用戶和非用戶、自有房屋或租賃、電視觀眾和非電視觀眾)找出相應處理的區別特性。在判別分析中,因變數為類別數據,有多少類別就有多少類別處理組;自變數通常為可度量數據。通過判別分析,可以建立能夠最大限度的區分因變數類別的函數,考查自變數的組間差異是否顯著,判斷那些自變數對組間差異貢獻最大,評估分類的程度,根據自變數的值將樣本歸類。
應用范圍
1)信息丟失
2)直接的信息得不到
3)預報
4)破壞性實驗
假設條件
1)分組類型在兩種以上,且組間樣本在判別值上差別明顯。
2)組內樣本數不得少於兩個,並且樣本數量比變數起碼多兩個。
3)所確定的判別變數不能是其他判別變數的線性組合。
4)各組樣本的協方差矩陣相等。
5)各判別變數之間具有多元正態分布。
6)樣品量應在所使用的自變數個數的10~20倍以上時,建立的判別函數才比較穩定;而自變數個數在8~10之間時,函數的判別效果才能比較理想。當然,在實際工作中判別函數的自變數個數往往會超過10個,但應該注意的是,自變數的個數多並不代表效果好
spss操作:「分析」~「分類」~「判別」~進入判別分析主對話框。
這里有容易引起歧義的二個變數,最上面的為分組變數。對分組變數的了解需要聯系判別分析的原理以及適用范圍。因為判別分析是已知分類數目的情況下,進行分析,這個已知的分類數目就是這個分組變數。其實,一般分析步驟中,都是先進行聚類分析,聚類之後得到的分類結果就是這個分組變數,然後再選擇這個分組變數,進行分析。也就是,聚類分析是母親,母親的孩子就是判別分析。得到的判別函數就是預測想要知道的個案究竟屬於哪一類。另一個變數就是選擇變數,它位於主對話框的最下面。這個選擇變數在回歸分析相應的對話框中也有,意思就是選擇你需要的變數,這個變數可以為數據窗口的一個整個變數,也可以利用子設置「值」進行選擇,所以,它的名字叫做選擇變數。
「統計量」子對話框:「描述性」欄,包括「均值」「單變數ANOVA」「BoxsM」
需要特別說明,以後只要見到ANOVA這個單詞,它的意思就是方差分析,也就是進一步輸出方差分析表,其中最重要的就是P值也就是Sig值。
BoxsM復選框:指的是輸出對組協方差矩陣的等同性檢驗的檢驗結果。也就是對各類協方差矩陣相等的假設進行檢驗。
「函數系數」欄:其實就是將判別函數系數進行設置。包括「費雪」和「未標准化」。費雪指的是對每一類給出一組系數,並且給出該組中判別分數最大的觀測量。
「矩陣」欄:都是復選框,對應相應的矩陣也就是在結果表中的四種數陣。「組內相關」「組內協方差」「分組協方差」「總體協方差」這個都是計算機自動計算,人工計算是不可能完成的任務。
「分類」子對話框:本文也提到過先驗概率,先驗概率就是已知一部分信息,來了解未知信息也就是後驗概率。
「所有組相等」也就是如果分為幾類,這所有的類中的先驗概率都相等。
「根據組大小計算」各類先驗概率按照和各類樣本量呈正比。
「使用協方差矩陣」欄:是二個單選框。「在組內」指使用合並組內協方差矩陣進行分析
「分組」指使用各組協方差矩陣進行分析。
「輸出」欄~「個案結果」:對每一個觀測量輸出判別分數,也就是選定變數的個案的分進哪個組的資格得分。實際類,預測類,也就是根據判別得分計算的古今對比。實際類就是目前實際上分為幾類,預測類就是過去對未來預測,它們一對比,就可以知道過去和現在差別在哪裡。附屬選項「將個案限制在」在後面的小矩形框中輸入觀測量數,含義為僅輸出設置的觀測量結果,當個案也就是觀測量太多,可以用此法。
「摘要表」輸出分類小結,給出正確和錯分的觀測量數,和錯判率。
「不考慮該個案時的分類」這個根據字面就可以理解,不贅述。
「圖」欄:「合並組」生成一張包括各類的散點圖,該散點圖根據前兩個判別函數得到,如果只有一個判別函數,則生成直方圖。
「分組」復選框:有幾類就有幾張散點圖,和上面一樣,如果只有一個判別函數,就生成直方圖。
「區域圖」復選框:將觀測量分到各組中去的區域圖。此圖將一張圖的平面劃分出類數,相同的區域,每一類占據一個區,各類的均值在各區中用星號標出,如果僅有一個判別函數,即沒有此圖。
「保存」子對話框:這個設置是非常重要的,並且特別直觀,只要選擇,就可以在數據窗口生成相應的新變數。這個新變數分別是:「預測組成員」這個預測組成員是根據判別分數,以及後驗概率最大的預測分類。也就是,每個個案的預測分類。
「判別得分」這個根據名字就可以理解。該分數=沒有標准化的判別系數×自變數的值+一個常數。每次運行判別過程都給出一組表明判別分數的新變數。有幾個判別函數就建立幾個判別函數減1的新變數。新變數名稱詞頭為dis-。
舉例:1 醫學實踐中根據各種化驗結果,疾病症狀等判斷病人患有什麼疾病。
2 體育人才選拔根據運動員的體形,運動成績,生理指標,心理素質指標判斷是否繼續培養。
3 動植物分類
判別分析最主要的分析目的:得到判別函數,對未知個案進行預測分類。
「組成員概率」表示觀測量屬於哪一類的概率,有幾類,就給出幾類概率值,新變數默認名為dis預測分類數-判別概率,例如有三類,二個判別函數,則新變數名稱可以為dis1-1,dis2-1,dis3-1,dis3-2以此類推。
逐步判別分析:只要在主對話框中選擇「使用步進式方法」,就可以篩選變數,同時,方法對話框將激活。
「方法」對話框中「標准」欄的設置和線性回歸的一樣,不贅述。
「方法」欄:原則就是,負面指標越小越好,正面指標越大越好。負面指標是wilks lambda和未解釋方差,正面指標是馬氏距離,最小F值,Raos V。馬氏距離在回歸中越大代表這個個案為影響點可能越大,也就是,只有這個個案為影響點,它越重要,越對判別函數影響越大,把它挑出來,也就是馬氏距離最大。
結果:1 sig值小於0.05,說明可以繼續分析,函數具有判別作用,也就是有統計學意義。
2 數據窗口對話框,將在「保存」子對話框設置的新變數和在主對話框的分組變數進行對比,每個個案被分到哪類,以及判別得分,都一目瞭然。
3 根據輸出表中的系數,可以寫出判別函數,進行以後的預測。
F. 判別分析方法
判別分析又稱「分辨法」,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變數統計分析方法。其基本原理是按照一定的判別准則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定系數,並計算判別指標。據此即可確定某一樣本屬於何類。當得到一個新的樣品數據,要確定該樣品屬於已知類型中哪一類,這類問題屬於判別分析問題。
G. 判別分析(Fisher判別方法)
20210308 未完更新中
為了克服「維數災難」,人們將高維數據投影到低維空間上來,並保持必要的特徵,這樣,一方面數據點變得比較密集一些,另一方面,可以在低維空間上進行研究。
Fisher判別分析的基本思想 :選取適當的投影方向,將樣本數據進行投影,使得投影後各樣本點盡可能分離開來,即:使得投影後各樣本 類內 離差平方和盡可能小,而使各樣本 類間 的離差平方和盡可能大。
①設已知有兩個類 和 ,在已知的數據中, 類有 個個體, 類有 個個體,即:
注意:個體 為列向量,列向量的元素為不同特徵的具體數值。如,小明身高180,體重70,可以設小明這個個體為
②計算兩個類的 均值 :
③計算兩個類的 類內離差平方和 矩陣:
總的離差陣為
類間離差陣為
④設需要找的投影向量為 ,將所有的個體 投影到 方向上,則可以得到投影後的結果為 ,即:
第一類個體在 方向上的投影結果為: ;
第二類個體在 方向上的投影結果為: ;
⑤計算投影後兩類的均值與類內離差平方和矩陣
總離差:
類間方差:
⑥要使得在新的(投影後)數據空間中,數據的分離性能最好,即要使得兩個類的類內距離最小,類間距離最大,建立目標函數 ,希望找到合適的投影向量 ,使得目標函數 達到最大。
採用Lagrange乘數法求解。令分母等於非零常數,即:
定義lagrange函數為
對 求偏導得
又矩陣 與 是對稱矩陣,因此,上式可化簡為
令 ,有
記上式得解為 ,則
繼續化簡有:
兩邊同時左乘 得:
因此, 即為矩陣 的最大特徵值對應的特徵向量
又
故
又 為一標量,因此
記
則
而標量 並不會影響 的投影方向。
綜上所述, 的解為
H. 判別分析的建立方法
建立判別函數的方法一般由四種:全模型法、向前選擇法、向後選擇法和逐步選擇法。
1)全模型法是指將用戶指定的全部變數作為判別函數的自變數,而不管該變數是否對研究對象顯著或對判別函數的貢獻大小。此方法適用於對研究對象的各變數有全面認識的情況。如果未加選擇的使用全變數進行分析,則可能產生較大的偏差。
2)向前選擇法是從判別模型中沒有變數開始,每一步把一個隊判別模型的判斷能力貢獻最大的變數引入模型,直到沒有被引入模型的變數都不符合進入模型的條件時,變數引入過程結束。當希望較多變數留在判別函數中時,使用向前選擇法。
3)向後選擇法與向前選擇法完全相反。它是把用戶所有指定的變數建立一個全模型。每一步把一個對模型的判斷能力貢獻最小的變數剔除模型,知道模型中的所用變數都不符合留在模型中的條件時,剔除工作結束。在希望較少的變數留在判別函數中時,使用向後選擇法。
4)逐步選擇法是一種選擇最能反映類間差異的變數子集,建立判別函數的方法。它是從模型中沒有任何變數開始,每一步都對模型進行檢驗,將模型外對模型的判別貢獻最大的變數加入到模型中,同時也檢查在模型中是否存在「由於新變數的引入而對判別貢獻變得不太顯著」的 變數,如果有,則將其從模型中出,以此類推,直到模型中的所有變數都符合引入模型的條件,而模型外所有變數都不符合引入模型的條件為之,則整個過程結束。
I. 常用的判別分析方法有哪些
按照習慣大類分成化學分析法,電化學分析法和儀器分析法
1.化學分析裡麵包括滴定法(氧化還原滴定,酸鹼滴定,絡合滴定等),重量分析法等等
2.電化學分析裡麵包括循環伏安,極譜,電解等等方法
3.儀器分析就更多了,紫外可見分光光度法(UV-Vis),原子發射光譜法,色譜法(包括氣相色譜GC,高效液相色譜HPLC),毛細管電泳(CE),核磁共振(NMR),X粉末多晶衍射(XRD),質譜(MS)等等
J. 常用的主流數據統計分析方法:2.判別分析
a. 目的 :識別一個個體所屬類別
b. 適用 :被解釋對象是非度量變數(nonmetric),解釋變數是度量變數;分組類型2組以上,每組樣品>1。
c. 應用 :歸類、預測
d. 判別分析與聚類分析 :
i. 聚類分析前,我們並不知道應該分幾類,分類工作;
ii. 判別分析時,樣品的分類已事先確定,需要利用訓練樣 本建立判別准則,對新樣品所屬類別進行判定,歸類工作。
a. 假設1:每一個判別變數(解釋變數)不能是其他判別變數的線性組合。避免多重共線性問題。
b. 假設2:如果採用線性判別函數,還要求各組變數協方差矩陣相等----線性判別函數使用起來最方便、在實際 中使用最廣。
c. 假設3:各判別變數遵從多元正態分布,可精確的計算 顯著性檢驗值和歸屬概率,不然計算概率不準。
協方差相等/協方差不等
協方差相等/協方差不等
優點 :
i. 距離判別只要求知道總體的特徵量(即參數)---均值和協差陣,不涉及總體的分布類型.
ii. 當參數未知時,就用樣本均值和 樣本協差陣來估計.
iii. 距離判別方法簡單,結論明確,是很實用的方法.
ii. 缺點
i. 該判別法與各總體出現的機會大小(先驗概率)完全無關
ii. 判別方法沒有考慮錯判造成的損失,這是不合理的.
v. 貝葉斯判別 的基本思想
i. 假定對研究對象已經有了一定的認識,這種認識可以用 先驗概率 來描述,當取得樣本後,就可以利用 樣本來修正 已有的 先驗概率分布,得到 後驗概率 分布,再通過後驗概率分布進 行各種統計推斷。
ii. 貝葉斯判別屬於 概率判別法。
iii. 判別准則:
i. 個體歸屬某類的概率(後驗概率)最大
ii. 錯判總平均損失最小為標准。
vi. 貝葉斯判別的後驗概率最大
i. 貝葉斯(Bayes)判別要變數服從 正態分布 類型。
ii. 、貝葉斯(Bayes)判別的判別准則是以個體歸屬某類的概率最大或 錯判總平均損失 最小為標准。彌補了 距離判別和費歇(Fisher)判別的缺點。
5.1費歇(Fisher)判別核心思想 :
i. 通過多維數據投影到一維度直線上,將k組m維數據投影到 某一個方向,使得投影後組與組之間盡可能地分開。而衡量組 與組之間是否分開的方法藉助於一元方差分析的思想
ii. 費歇(Fisher)判別是一種確定性判別。
5.2費歇(Fisher)判別小結 :
i. 費歇(Fisher)判別對判別變數的分布類型並無要求, 而貝葉斯(Bayes)判別要變數服從正態分布類型。因此, Fisher類判別較Bayes類判別簡單一些。
ii. 當兩個總體時,若它們的協方差矩陣相同,則距離判 別和Fisher判別等價。 當變數服從正態分布時,它們還 和Bayes判別等價。
iii. 與距離判別一樣,費歇判別與各總體出現的機會大小 (先驗概率)完全無關;也沒有考慮錯判造成的損失。
如何從m個變數中挑選出對區分k個總體有顯 著判別能力的變數,來建立判別函數,用以判別歸類。
1.忽略主要的指標;
凡是具有篩選變數能力的判別方法統稱為逐步判別法。
i. 保留判別能力顯著的變數
ii. 剔除判別能力不顯著的變數
i. 逐步篩選變數
i. 根據各變數對區分k個總體的判別能力的大小,利用向 前選入、向後剔除或逐步篩選的方法來選擇區分k個總體的 最佳變數子集。
ii. 判別歸類
i. 對已選出變數子集,使用三大判別方法(距離判別、 Bayes判別、Fisher判別)對樣品進行判別歸類。