A. 常用的數據分時方法中判別分析根據判別標准不同可以分為什麼
1、聚類分析
又稱群分析、點群分析。根據研究對象特徵對研究對象進行分類的一種多元分析技術, 把性質相近的個體歸為一類, 使得同一類中的個體都具有高度的同質性, 不同類之間的個體具有高度的異質性。根據分類對象的不同分為樣品聚類和變數聚類。
2、判別分析
是一種進行統計判別和分組的技術手段。根據一定量案例的一個分組變數和相應的其他多元變數的已知信息, 確定分組與其他多元變數之間的數量關系, 建立判別函數, 然後便可以利用這一數量關系對其他未知分組類型所屬的案例進行判別分組。
判別分析中的因變數或判別准則是定類變數, 而自變數或預測變數基本上是定距變數。依據判別類型的多少與方法不同, 分為多類判別和逐級判別。判別分析的過程是通過建立自變數的線性組合(或其他非線性函數), 使之能最佳地區分因變數的各個類別。
二、聚類分析與判別分析的區別
1、基本思想不同
( 1) 聚類分析的基本思想
我們所研究的樣品或指標( 變數) 之間存在程度不同的相似性( 親疏關系) , 於是根據一批樣品的多個觀測指標, 具體找出一些能夠度量樣品或指標之間相似程度的統計量, 以這些統計量作為劃分類型的依據。把一些相似程度較大的樣品( 或指標) 聚合為一類, 把另外一些相似程度較大的樣品( 或指標) 又聚合為另一類; 關系密切的聚合到一個小的分類單位, 關系疏遠的聚合到一個大的分類單位, 直到把所有的樣品(或指標)聚合完畢。
( 2) 判別分析的基本思想
對已知分類的數據建立由數值指標構成的分類規則即判別函數, 然後把這樣的規則應用到未知分類的樣本去分類。由基本思想可知, 在聚類分析中, 所有樣品或個體所屬類別是未知的, 類別的個數一般也是未知的, 分析的依據就是原始數據, 沒有任何事先的有關類別的信息可參考。
B. 判別分析的判別方法
判別方法是確定待判樣品歸屬於哪一組的方法,可分為參數法和非參數法,也可以根據資料的性質分為定性資料的判別分析和定量資料的判別分析。此處給出的分類主要是根據採用的判別准則分出幾種常用方法。除最大似然法外,其餘幾種均適用於連續性資料。
1)最大似然法:用於自變數均為分類變數的情況,該方法建立在獨立事件概率乘法定理的基礎上,根據訓練樣品信息求得自變數各種組合情況下樣品被封為任何一類的概率。當新樣品進入是,則計算它被分到每一類中去的條件概率(似然值),概率最大的那一類就是最終評定的歸類。
2)距離判別:其基本思想是有訓練樣品得出每個分類的重心坐標,然後對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的類。也就是根據個案離母體遠近進行判別。最常用的距離是馬氏距離,偶爾也採用歐式距離。距離判別的特點是直觀、簡單,適合於對自變數均為連續變數的情況下進行分類,且它對變數的分布類型無嚴格要求,特別是並不嚴格要求總體協方差陣相等。
3)Fisher判別:亦稱典則判別,是根據線性Fisher函數值進行判別,通常用於梁祝判別問題,使用此准則要求各組變數的均值有顯著性差異。該方法的基本思想是投影,即將原來在R維空間的自變數組合投影到維度較低的D維空間去,然後在D維空間中再進行分類。投影的原則是使得每一類的差異盡可能小,而不同類間投影的離差盡可能大。Fisher判別的優勢在於對分布、方差等都沒有任何限制,應用范圍比較廣。另外,用該判別方法建立的判別方差可以直接用手工計算的方法進行新樣品的判別,這在許多時候是非常方便的。
4)Bayes判別:許多時候用戶對各類別的比例分布情況有一定的先驗信息,也就是用樣本所屬分類的先驗概率進行分析。比如客戶對投遞廣告的反應絕大多數都是無迴音,如果進行判別,自然也應當是無迴音的居多。此時,Bayes判別恰好適用。Bayes判別就是根據總體的先驗概率,使誤判的平均損失達到最小而進行的判別。其最大優勢是可以用於多組判別問題。但是適用此方法必須滿足三個假設條件,即各種變數必須服從多元正態分布、各組協方差矩陣必須相等、各組變數均值均有顯著性差異。
C. 判別分析的應用
在氣候分類、農業區劃、土地類型劃分中有著廣泛的應用。
在市場調研中,一般根據事先確定的因變數(例如產品的主要用戶、普通用戶和非用戶、自有房屋或租賃、電視觀眾和非電視觀眾)找出相應處理的區別特性。在判別分析中,因變數為類別數據,有多少類別就有多少類別處理組;自變數通常為可度量數據。通過判別分析,可以建立能夠最大限度的區分因變數類別的函數,考查自變數的組間差異是否顯著,判斷那些自變數對組間差異貢獻最大,評估分類的程度,根據自變數的值將樣本歸類。
應用范圍
1)信息丟失
2)直接的信息得不到
3)預報
4)破壞性實驗
假設條件
1)分組類型在兩種以上,且組間樣本在判別值上差別明顯。
2)組內樣本數不得少於兩個,並且樣本數量比變數起碼多兩個。
3)所確定的判別變數不能是其他判別變數的線性組合。
4)各組樣本的協方差矩陣相等。
5)各判別變數之間具有多元正態分布。
6)樣品量應在所使用的自變數個數的10~20倍以上時,建立的判別函數才比較穩定;而自變數個數在8~10之間時,函數的判別效果才能比較理想。當然,在實際工作中判別函數的自變數個數往往會超過10個,但應該注意的是,自變數的個數多並不代表效果好
spss操作:「分析」~「分類」~「判別」~進入判別分析主對話框。
這里有容易引起歧義的二個變數,最上面的為分組變數。對分組變數的了解需要聯系判別分析的原理以及適用范圍。因為判別分析是已知分類數目的情況下,進行分析,這個已知的分類數目就是這個分組變數。其實,一般分析步驟中,都是先進行聚類分析,聚類之後得到的分類結果就是這個分組變數,然後再選擇這個分組變數,進行分析。也就是,聚類分析是母親,母親的孩子就是判別分析。得到的判別函數就是預測想要知道的個案究竟屬於哪一類。另一個變數就是選擇變數,它位於主對話框的最下面。這個選擇變數在回歸分析相應的對話框中也有,意思就是選擇你需要的變數,這個變數可以為數據窗口的一個整個變數,也可以利用子設置「值」進行選擇,所以,它的名字叫做選擇變數。
「統計量」子對話框:「描述性」欄,包括「均值」「單變數ANOVA」「BoxsM」
需要特別說明,以後只要見到ANOVA這個單詞,它的意思就是方差分析,也就是進一步輸出方差分析表,其中最重要的就是P值也就是Sig值。
BoxsM復選框:指的是輸出對組協方差矩陣的等同性檢驗的檢驗結果。也就是對各類協方差矩陣相等的假設進行檢驗。
「函數系數」欄:其實就是將判別函數系數進行設置。包括「費雪」和「未標准化」。費雪指的是對每一類給出一組系數,並且給出該組中判別分數最大的觀測量。
「矩陣」欄:都是復選框,對應相應的矩陣也就是在結果表中的四種數陣。「組內相關」「組內協方差」「分組協方差」「總體協方差」這個都是計算機自動計算,人工計算是不可能完成的任務。
「分類」子對話框:本文也提到過先驗概率,先驗概率就是已知一部分信息,來了解未知信息也就是後驗概率。
「所有組相等」也就是如果分為幾類,這所有的類中的先驗概率都相等。
「根據組大小計算」各類先驗概率按照和各類樣本量呈正比。
「使用協方差矩陣」欄:是二個單選框。「在組內」指使用合並組內協方差矩陣進行分析
「分組」指使用各組協方差矩陣進行分析。
「輸出」欄~「個案結果」:對每一個觀測量輸出判別分數,也就是選定變數的個案的分進哪個組的資格得分。實際類,預測類,也就是根據判別得分計算的古今對比。實際類就是目前實際上分為幾類,預測類就是過去對未來預測,它們一對比,就可以知道過去和現在差別在哪裡。附屬選項「將個案限制在」在後面的小矩形框中輸入觀測量數,含義為僅輸出設置的觀測量結果,當個案也就是觀測量太多,可以用此法。
「摘要表」輸出分類小結,給出正確和錯分的觀測量數,和錯判率。
「不考慮該個案時的分類」這個根據字面就可以理解,不贅述。
「圖」欄:「合並組」生成一張包括各類的散點圖,該散點圖根據前兩個判別函數得到,如果只有一個判別函數,則生成直方圖。
「分組」復選框:有幾類就有幾張散點圖,和上面一樣,如果只有一個判別函數,就生成直方圖。
「區域圖」復選框:將觀測量分到各組中去的區域圖。此圖將一張圖的平面劃分出類數,相同的區域,每一類占據一個區,各類的均值在各區中用星號標出,如果僅有一個判別函數,即沒有此圖。
「保存」子對話框:這個設置是非常重要的,並且特別直觀,只要選擇,就可以在數據窗口生成相應的新變數。這個新變數分別是:「預測組成員」這個預測組成員是根據判別分數,以及後驗概率最大的預測分類。也就是,每個個案的預測分類。
「判別得分」這個根據名字就可以理解。該分數=沒有標准化的判別系數×自變數的值+一個常數。每次運行判別過程都給出一組表明判別分數的新變數。有幾個判別函數就建立幾個判別函數減1的新變數。新變數名稱詞頭為dis-。
舉例:1 醫學實踐中根據各種化驗結果,疾病症狀等判斷病人患有什麼疾病。
2 體育人才選拔根據運動員的體形,運動成績,生理指標,心理素質指標判斷是否繼續培養。
3 動植物分類
判別分析最主要的分析目的:得到判別函數,對未知個案進行預測分類。
「組成員概率」表示觀測量屬於哪一類的概率,有幾類,就給出幾類概率值,新變數默認名為dis預測分類數-判別概率,例如有三類,二個判別函數,則新變數名稱可以為dis1-1,dis2-1,dis3-1,dis3-2以此類推。
逐步判別分析:只要在主對話框中選擇「使用步進式方法」,就可以篩選變數,同時,方法對話框將激活。
「方法」對話框中「標准」欄的設置和線性回歸的一樣,不贅述。
「方法」欄:原則就是,負面指標越小越好,正面指標越大越好。負面指標是wilks lambda和未解釋方差,正面指標是馬氏距離,最小F值,Raos V。馬氏距離在回歸中越大代表這個個案為影響點可能越大,也就是,只有這個個案為影響點,它越重要,越對判別函數影響越大,把它挑出來,也就是馬氏距離最大。
結果:1 sig值小於0.05,說明可以繼續分析,函數具有判別作用,也就是有統計學意義。
2 數據窗口對話框,將在「保存」子對話框設置的新變數和在主對話框的分組變數進行對比,每個個案被分到哪類,以及判別得分,都一目瞭然。
3 根據輸出表中的系數,可以寫出判別函數,進行以後的預測。
D. 判別分析的基本原理
是用於判別樣品所屬類型的一種統計分析方法,是根據表明事物特點的變數值和他們所屬的類,求出判別函數,根據判別函數對未知所屬類別的食物進行分類的一種分析方法。
E. 判別分析的建立方法
建立判別函數的方法一般由四種:全模型法、向前選擇法、向後選擇法和逐步選擇法。
1)全模型法是指將用戶指定的全部變數作為判別函數的自變數,而不管該變數是否對研究對象顯著或對判別函數的貢獻大小。此方法適用於對研究對象的各變數有全面認識的情況。如果未加選擇的使用全變數進行分析,則可能產生較大的偏差。
2)向前選擇法是從判別模型中沒有變數開始,每一步把一個隊判別模型的判斷能力貢獻最大的變數引入模型,直到沒有被引入模型的變數都不符合進入模型的條件時,變數引入過程結束。當希望較多變數留在判別函數中時,使用向前選擇法。
3)向後選擇法與向前選擇法完全相反。它是把用戶所有指定的變數建立一個全模型。每一步把一個對模型的判斷能力貢獻最小的變數剔除模型,知道模型中的所用變數都不符合留在模型中的條件時,剔除工作結束。在希望較少的變數留在判別函數中時,使用向後選擇法。
4)逐步選擇法是一種選擇最能反映類間差異的變數子集,建立判別函數的方法。它是從模型中沒有任何變數開始,每一步都對模型進行檢驗,將模型外對模型的判別貢獻最大的變數加入到模型中,同時也檢查在模型中是否存在「由於新變數的引入而對判別貢獻變得不太顯著」的 變數,如果有,則將其從模型中出,以此類推,直到模型中的所有變數都符合引入模型的條件,而模型外所有變數都不符合引入模型的條件為之,則整個過程結束。
F. 判別分析的驗證方法
對於判別分析,用戶往往很關心建立的判別函數用於判別分析時的准確度如何。通常的效果驗證方法如自身驗證、外部數據驗證、樣品二分法、交互驗證、Bootstrap法。
G. 什麼是逐步判別分析
逐步判別法:按照所指定的納入/排除標准,依次引入和剔除變數,直到方程穩定為止。該方法實質和多元回歸分析中的逐步法等價。
H. 簡述判別分析的核心問題是什麼fisher判別法的判別函數的特點是什麼
你說的對,這兩種方法都是將求解域劃分成有限個網格進行近似求解。其最根本的區別在於:有限差分法是利用級數的概念將連續函數離散化,正如高等數學上所學的連續函數用泰勒級數表達一樣,網格上的結點就是級數中的一個取值點,這樣以級數和的形式求得最終的解,這個解是近似解,其餘項就是誤差。有限元法是利用插值原理對求域進行近似求解,將求解域劃分網格,每個網格看作一個單元進行求解,這樣可以得到若干有限個單元的解,這些解的集和構成整體函數的解。就是說每個單元一個解,這些解分布在整個求解域上,構成不同區域解的變化,如力的變化,溫度的變化,這樣就可以宏觀上看到在不同點上不同的值了。
I. 判別分析法用邏輯判斷,屬於定型分析是對還是錯
判別分析又稱「分辨法」,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變數統計分析方法。
其基本原理是按照一定的判別准則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定系數,並計算判別指標。據此即可確定某一樣本屬於何類。
當得到一個新的樣品數據,要確定該樣品屬於已知類型中哪一類,這類問題屬於判別分析問題。
J. 如何用spss進行判別分析預測
spss進行判別分析步驟
1.Discriminant Analysis判別分析主對話框如圖 1-1 所示
圖 1-8 Save 對話框
6.選擇好各選擇項之後,點擊「OK」按鈕,提交運行Discriminant過程。