⑴ 判別分析(Fisher判別方法)
20210308 未完更新中
為了克服「維數災難」,人們將高維數據投影到低維空間上來,並保持必要的特徵,這樣,一方面數據點變得比較密集一些,另一方面,可以在低維空間上進行研究。
Fisher判別分析的基本思想 :選取適當的投影方向,將樣本數據進行投影,使得投影後各樣本點盡可能分離開來,即:使得投影後各樣本 類內 離差平方和盡可能小,而使各樣本 類間 的離差平方和盡可能大。
①設已知有兩個類 和 ,在已知的數據中, 類有 個個體, 類有 個個體,即:
注意:個體 為列向量,列向量的元素為不同特徵的具體數值。如,小明身高180,體重70,可以設小明這個個體為
②計算兩個類的 均值 :
③計算兩個類的 類內離差平方和 矩陣:
總的離差陣為
類間離差陣為
④設需要找的投影向量為 ,將所有的個體 投影到 方向上,則可以得到投影後的結果為 ,即:
第一類個體在 方向上的投影結果為: ;
第二類個體在 方向上的投影結果為: ;
⑤計算投影後兩類的均值與類內離差平方和矩陣
總離差:
類間方差:
⑥要使得在新的(投影後)數據空間中,數據的分離性能最好,即要使得兩個類的類內距離最小,類間距離最大,建立目標函數 ,希望找到合適的投影向量 ,使得目標函數 達到最大。
採用Lagrange乘數法求解。令分母等於非零常數,即:
定義lagrange函數為
對 求偏導得
又矩陣 與 是對稱矩陣,因此,上式可化簡為
令 ,有
記上式得解為 ,則
繼續化簡有:
兩邊同時左乘 得:
因此, 即為矩陣 的最大特徵值對應的特徵向量
又
故
又 為一標量,因此
記
則
而標量 並不會影響 的投影方向。
綜上所述, 的解為
1、信用評分模型是什麼?
信用評分模型是近年來興起的一種為了保障銀行和其他金融部門的金融安全而設立的一種關於人身金融許可權的劃定模型。該模型指根據客戶的信用歷史資料,利用一定的信用評分模型,得到不同等級的信用分數,根據客戶的信用分數,來決定客戶所可以持有的金額許可權,從而保證還款等業務的安全性。而隨著在現代社會和公司中,貸款,信用卡的作用日漸突出,信用評分模型的發展前景不可估量。
2、分為哪些?
(1)判別分析模型
判別分析法是對研究對象所屬類別進行判別的一種統計分析方法。進行判別分析必須已知觀測對象的分類和若干表明觀測對象特徵的變數值。判別分析就是要從中篩選出能提供較多信息變數並建立判別函數,使推導出的判別函數對觀測樣本分類時的錯判率最小。這種方法的理論基礎是樣本由兩個分布有顯著差異的子樣本組成,並且它們擁有共同的屬性。它起源於1936年Fisher引進的線性判別函數,這個函數的目的是尋找一個變數的組合,把兩個擁有一些共同特徵的組區分開來。
判別分析方法的優點適用於二元或多元性目標變數,能夠判斷,區分個體應該屬於多個不同小組中的哪一組。自身也存在不可避免的缺點:該模型假設前提是自變數的分布都是正態分布的而實踐中的數據往往不是完全的正態分布,從而導致統計結果的不可靠性。
(2)決策樹方法
決策樹模型是對總體進行連續的分割,以預測一定目標變數的結果的統計技術。決策樹構造的輸入是一組帶有類別標記的例子構造的結果是一棵二叉或多叉樹。構造決策樹的方法是採用自上而下的遞歸構造。在實際中為進行個人信用分析選取個人信用作為目標屬性,其他屬性作為獨立變數。所有客戶被劃分為兩類,即好客戶的和壞客戶,將客戶信用狀況轉換為是否好客戶」(值為1或0而後利用數據集合來生成一個完整的決策樹。在生成的決策樹中可以建立一個規則基。一個規則基包含一組規則每一條規則對應決策樹的一條不同路徑,這條路徑代表它經過節點所表示的條件的一條鏈接。通過創立一個對原始祥本進行最佳分類判別的決策樹,採用遞歸分割方法使期望誤判損失達到最小。
決策樹模型的優點:淺層的決策樹視覺上非常直觀,容易解釋;對數據的結構和分布不需做任何假設:可以容易地轉化成商業規則。它的缺點在干:深層的決策樹視覺上和解釋上都比較困難;決策樹對樣本量的需求比較大;決策樹容易過分微調於樣本數據而失去穩定性和抗震盪性。
(3)回歸分析法
回歸分析法是目前為止應用最為廣泛的一種信用評分模型這其中以著名的logistic回歸為代表。除此之外,線性回歸分析、probit回歸等方法亦屬於此類。最早使用回歸分析的Orgler他採用線性回歸模型制定了一個類似於信用卡的評分卡,他的研究表明消費者行為特徵比申請表資料更能夠預測未來違約可能性的大小。同數學規劃方法中一樣假設已經通過一定的方法從樣本變數中提取出了若干指標作為特徵向量回歸分析的思想就是將這些指標變數擬合成為一個可以預測申請者違約率的被解釋變數自然就是違約率p回歸分析中應用最廣泛的模型當屬線性回歸模型它是對大量的數據點中表現出來的數量關系模擬出一條直線,回日分析的目標就是使目標變數值和實際的目標變數值之間的誤差最小。因此最早將回歸方法應用於信用評分研究的模型,就是簡單的線性回歸模型,目前基於logistic回歸的信用評分系統應用最為普遍。
⑶ spss分析方法-判別分析(轉載)
判別分析是在分組已知的情況下,根據已經確定分類的對象的某些觀測指標和所屬類別來判斷未知對象所屬類別的一種統計學方法。 下面我們主要從下面四個方面來解說:
[if !supportLineBreakNewLine]
[endif]
實際應用
理論思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析結果
[if !supportLineBreakNewLine]
[endif]
一、實際應用
判別分析最初應用於考古學, 例如要根據挖掘出來的人頭蓋骨的各種指標來判別其性別年齡等.。慢慢的成為一種常用的分類分析方法,其通過已知的分類情況,根據數據的特徵對其他研究對象進行預測歸類。
在實際生活中,判別分析也被廣泛用於預測事物的類別歸屬。
[if !supportLineBreakNewLine]
[endif]
企業營銷中,營銷人員可通過已有的客戶特徵數據(如消費金額、消費頻次、購物時長、購買產品種類等),預測當前的消費者屬於哪種類型的顧客(款式偏好型、偏重質量型、價格敏感型...),並根據其特點有針對性的採取有效的營銷手段。或是根據各成分含量指標,判斷白酒的品牌或水果的產地等。
除此以外,判別分析還可與聚類分析結合使用。比如,銀行的貸款部門想要在發放貸款之前,可通過此方法判斷申請人是否具有良好的信用風險。
[if !supportLineBreakNewLine]
[endif]
二、理論思想
判別分析首先需要對研究的對象進行分類,然後選擇若干對觀測對象能夠較全面描述的變數,接著按照一定的判別標准建立一個或多個判別函數,使用研究對象的大量資料確定判別函數中的待定系數來計算判別指標。對一個未確定類別的個案只要將其代入判別函數就可以判斷它屬於哪一類總體。
[if !supportLineBreakNewLine]
[endif]
常用的判別分析方法有距離判別法、費舍爾判別法和貝葉斯判別法。
[if !supportLineBreakNewLine]
[endif]
費舍爾判別法:
費舍爾判別法利用投影的方法使多維問題簡化為一維問題來處理。其通過建立線性判別函數計算出各個觀測量在各典型變數維度上的坐標並得出樣本距離各個類中心的距離,以此作為分類依據。
[if !supportLineBreakNewLine]
[endif]
貝葉斯判別法:
貝葉斯判別法通過計算待判定樣品屬於每個總體的條件概率並將樣本歸為條件概率最大的組。其主要思想如下:首先利用樣本所屬分類的先驗概率通過貝葉斯法則求出樣本所屬分類後驗概率,並依據該後驗概率分布作出統計推斷。
[if !supportLineBreakNewLine]
[endif]
距離判別法:
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別的。其通過建立關於各母體的距離判別函數式,得出各樣品與各母體之間的距離值,判別樣品屬於距離值最小的那個母體。
[if !supportLineBreakNewLine]
[endif]
[if !supportLineBreakNewLine]
[endif]
三、建立模型
[if !supportLineBreakNewLine]
[endif]
一般判別分析法的思路:
首先建立判別函數;
然後通過已知所屬分類的觀測量確定判別函數中的待定系數;
最後通過該判別函數對未知分類的觀測量進行歸類。
逐步判別分析法的思路: 逐步判別分析分為兩步
首先根據自變數和因變數的相關性對自變數進行篩選,
然後使用選定的變數進行判別分析。
逐步判別分析是在判別分析的基礎上採用有進有出的辦法,把判別能力強的變數引入判別式的同時,將判別能力最差的變數別除。最終在判別式中只保留數量不多而判別能力強的變數。
數據條件:
[if !supportLists]§ [endif]用戶使用的分組變數必須含有有限數目的不同類別,且編碼為整數。名義自變數必須被重新編碼為啞元變數或對比變數。
[if !supportLists]§ [endif]個案獨立的
[if !supportLists]§ [endif]預測變數應有多變數正態分布,組內方差-協方差矩陣在組中應等同。
[if !supportLists]§ [endif]組成員身份假設為互斥的(不存在屬於多個組的個案),且全體為窮舉的(所有個案均是組成員)。如果組成員身份為真正的分類變數時,則此過程最有效;如果組成員身份基於連續變數的值(如高智商與低智商),則用戶需要考慮使用線性回歸以利用由連續變數本身提供的更為豐富的信息。
一般判別分析案例:
[if !supportLineBreakNewLine]
[endif]
題目:以下3種不同種類豇豆豆莢的質量、寬度和長度的統計表,每種類型都為20個樣本,共60個樣本。根據不同種類豇豆豆莢的特徵,建立鑒別不同種類豇豆的判別方程。
一、數據輸入
[if !vml]
[endif]
二、操作步驟 1、進入SPSS,打開相關數據文件,選擇「分析」|「分類 」|「判別式」命令2、選擇進行判別分析的變數。在「判別分析」對話框的左側列表框中,選擇「類型」進入「分組變數」列表框。單擊「定義范圍」按鈕,在「最小值」和「最大值」中分別輸入1和3,單擊「繼續」按鈕返回「判別分析」對話框。分別選擇「質量」「寬度」「長度」3個變數進入「自變數」列表框,選中「使用步進法」單選按鈕。
[if !vml]
[endif]
3、設置判別分析的統計輸出結果。
單擊「判別分析」對話框中的「統計」按鈕。在「函數系數」選項組中,選中「費希爾」和「未標准化」復選框;在「矩陣」選項組中,選中「組內協方差」復選框。設置完畢後,單擊「繼續」按鈕返回「判別分析」對話框。
[if !vml]
[endif]
4、設置輸出到數據編輯窗口的結果。單擊「保存」按鈕,選中「預測組成員」復選框。
[if !vml]
[endif]
5、其餘設置採用系統默認值即可。單擊「確定」按鈕,等待輸出結果。
[if !supportLineBreakNewLine]
[endif]
四、結果分析
1、組統計量表可以看出,每一種豇豆豆莢的質量、寬度和長度的均值和標准差,也可以知道總樣本的均值和標准差。
[if !vml]
[endif]2、匯聚的組內矩陣表可以知道,各因素之間的協方差和相關系數。可以發現,各因素之間的相關性都較小,因此在判別方程中不需要剔除變數。
[if !vml]
[endif]
3
、輸入和刪除變數情況統計表可以知道,第一步納入的變數是質量,到第三步所有變數全部納入,且從顯著性值均為0可以看出,逐步判別沒有剔除變數。
[if !vml]
[endif]
4、典型判別方程的特徵值可以知道,特徵根數為2,其中第一個特徵根為77.318,能夠解釋所有變異的89.4%。
[if !vml]
[endif]
5、判別方程的有效性檢驗可以看出,顯著性均為0,因此兩個典型方程的判別能力都是顯著的。
[if !vml]
[endif]
6、標准化的典型判別方程可以知道,本例中的兩個標准化的典型判別方程表達式分別為:Y1=0.681*質量-0.674*寬度+0.612*長度Y2=0.363*質量+0.777*寬度+0.302*長度
[if !vml]
[endif]
7、未標准化的典型判別方程可以知道,本例中的兩個未標准化的典型判別方程表達式為:Y1=-11.528+0.210*質量-1.950*寬度+0.186*長度Y2=-15.935+0.112*質量+2.246*寬度+0.092*長度
[if !vml]
[endif]
8、貝葉斯的費希爾線性判別方程可以得到3個分類方程。在這里我們只寫出第一個分類方程。Y1=-90.708+2.557*質量+18.166*寬度+1.922*長度[if !vml]
[endif]9、判別分析在數據編輯窗口的輸出結果新產生的變數記錄是每一樣品的判別分類結果,可以看出,樣品判別分類結果與實際類別是一致的。
[if !vml]
[endif]
分析結論:
[if !supportLineBreakNewLine]
[endif]
通過判別分析可以知道,在本案例中,3種豇豆豆莢的樣品判別分類結果與實際類別是一致的。另外,我們可以得到不同的判別方程,分別包括標准化的典型判別方程、未標准化的典型判別方程和貝葉斯的費希爾線性判別方程,方程的表達式見上面的結果分析。
[if !supportLineBreakNewLine]
[endif]
參考案例數據:
[if !supportLineBreakNewLine]
[endif]
【1】spss統計分析與行業應用案例詳解(第四版) 楊維忠,張甜,王國平 清華大學出版社
(獲取更多知識,前往gz號程式解說)
原文來自https://mp.weixin.qq.com/s/Yapg-5jwMK6cITG_FZsfVA
⑷ 利用測井資料判別油水層時幾種判別分析方法的判別效果比較
目前測井解釋中多採用線性判別分析方法(貝葉斯意義下的線性判別或費歇意義下的線性判別)判別油氣水層,並取得了一些好的效果,但同時也發現線性判別在不少情況下判別效果不夠理想。因此,選擇適當的判別方法以提高判別的准確率,仍是一個需要繼續探索的問題。 在江漢油田測井站關唯同志的大力協助下,我們收集了鍾市地區一批資料作樣品,分別用貝葉斯二次判別及貝葉斯與費歇線性判別進行了油水層判別歸類,考查和分析了兒種判別分析的判別效果,取得了一些初步認識。一、貝葉斯線性判別和二次到別效果的分析比較 1、原理和方法簡述 設有G個類(總體)x,,xZ,……x。;第L類(L二1,2,……G)有NL個樣品,每個樣品有P個觀測指標。現以xj、L(L=1,2,…,G,K=1,2一,N:;j二l,2,…,P)表示第L類第K個樣品第j個指標觀測值。又設各樣品都是相互獨立的正態隨機向量,於是有第L個總體(L=1,2,…,G)XL服從均向量為卜『、協方差矩陣為三L的多元正態分布N(卜L,藝L),即 xL~N(協L,萬L)(IJ=1,2,…,G) 若有一來自某類的新樣品X二(x,,xZ,…xp)產,則可以根據貝葉斯公式算出X歸於第(本文共計10頁)
⑸ 常用的判別分析方法有哪些
按照習慣大類分成化學分析法,電化學分析法和儀器分析法
1.化學分析裡麵包括滴定法(氧化還原滴定,酸鹼滴定,絡合滴定等),重量分析法等等
2.電化學分析裡麵包括循環伏安,極譜,電解等等方法
3.儀器分析就更多了,紫外可見分光光度法(UV-Vis),原子發射光譜法,色譜法(包括氣相色譜GC,高效液相色譜HPLC),毛細管電泳(CE),核磁共振(NMR),X粉末多晶衍射(XRD),質譜(MS)等等
⑹ 判別分析的建立方法
建立判別函數的方法一般由四種:全模型法、向前選擇法、向後選擇法和逐步選擇法。
1)全模型法是指將用戶指定的全部變數作為判別函數的自變數,而不管該變數是否對研究對象顯著或對判別函數的貢獻大小。此方法適用於對研究對象的各變數有全面認識的情況。如果未加選擇的使用全變數進行分析,則可能產生較大的偏差。
2)向前選擇法是從判別模型中沒有變數開始,每一步把一個隊判別模型的判斷能力貢獻最大的變數引入模型,直到沒有被引入模型的變數都不符合進入模型的條件時,變數引入過程結束。當希望較多變數留在判別函數中時,使用向前選擇法。
3)向後選擇法與向前選擇法完全相反。它是把用戶所有指定的變數建立一個全模型。每一步把一個對模型的判斷能力貢獻最小的變數剔除模型,知道模型中的所用變數都不符合留在模型中的條件時,剔除工作結束。在希望較少的變數留在判別函數中時,使用向後選擇法。
4)逐步選擇法是一種選擇最能反映類間差異的變數子集,建立判別函數的方法。它是從模型中沒有任何變數開始,每一步都對模型進行檢驗,將模型外對模型的判別貢獻最大的變數加入到模型中,同時也檢查在模型中是否存在「由於新變數的引入而對判別貢獻變得不太顯著」的 變數,如果有,則將其從模型中出,以此類推,直到模型中的所有變數都符合引入模型的條件,而模型外所有變數都不符合引入模型的條件為之,則整個過程結束。
⑺ 常用的多元分析方法
多元分析方法包括3類:
多元方差分析、多元回歸分析和協方差分析,稱為線性模型方法,用以研究確定的自變數與因變數之間的關系;判別函數分析和聚類分析,用以研究對事物的分類;主成分分析、典型相關和因素分析,研究如何用較少的綜合因素代替為數較多的原始變數。
多元方差是把總變異按照其來源分為多個部分,從而檢驗各個因素對因變數的影響以及各因素間交互作用的統計方法。
判別函數是判定個體所屬類別的統計方法。其基本原理是:根據兩個或多個已知類別的樣本觀測資料確定一個或幾個線性判別函數和判別指標,然後用該判別函數依據判別指標來判定另一個個體屬於哪一類。
(7)幾種判別分析方法優缺點擴展閱讀
多元分析方法的歷史:
首先涉足多元分析方法是F.高爾頓,他於1889年把雙變數的正態分布方法運用於傳統的統計學,創立了相關系數和線性回歸。
其後的幾十年中,斯皮爾曼提出因素分析法,費希爾提出方差分析和判別分析,威爾克斯發展了多元方差分析,霍特林確定了主成分分析和典型相關。到20世紀前半葉,多元分析理論大多已經確立。
60年代以後,隨著計算機科學的發展,多元分析方法在心理學以及其他許多學科的研究中得到了越來越廣泛的應用。