『壹』 判別分析的建立方法
建立判別函數的方法一般由四種:全模型法、向前選擇法、向後選擇法和逐步選擇法。
1)全模型法是指將用戶指定的全部變數作為判別函數的自變數,而不管該變數是否對研究對象顯著或對判別函數的貢獻大小。此方法適用於對研究對象的各變數有全面認識的情況。如果未加選擇的使用全變數進行分析,則可能產生較大的偏差。
2)向前選擇法是從判別模型中沒有變數開始,每一步把一個隊判別模型的判斷能力貢獻最大的變數引入模型,直到沒有被引入模型的變數都不符合進入模型的條件時,變數引入過程結束。當希望較多變數留在判別函數中時,使用向前選擇法。
3)向後選擇法與向前選擇法完全相反。它是把用戶所有指定的變數建立一個全模型。每一步把一個對模型的判斷能力貢獻最小的變數剔除模型,知道模型中的所用變數都不符合留在模型中的條件時,剔除工作結束。在希望較少的變數留在判別函數中時,使用向後選擇法。
4)逐步選擇法是一種選擇最能反映類間差異的變數子集,建立判別函數的方法。它是從模型中沒有任何變數開始,每一步都對模型進行檢驗,將模型外對模型的判別貢獻最大的變數加入到模型中,同時也檢查在模型中是否存在「由於新變數的引入而對判別貢獻變得不太顯著」的 變數,如果有,則將其從模型中出,以此類推,直到模型中的所有變數都符合引入模型的條件,而模型外所有變數都不符合引入模型的條件為之,則整個過程結束。
『貳』 什麼是逐步判別分析
逐步判別法:按照所指定的納入/排除標准,依次引入和剔除變數,直到方程穩定為止。該方法實質和多元回歸分析中的逐步法等價。
『叄』 判別分析屬於多元分析方法嗎
屬於。判別分析是多元統計中用於判別樣品所屬類型的一種統計分析方法。
『肆』 聚類分析與判別分析有什麼區別與聯系
1.聚類分析與判別分析的區別與聯系 都是研究分類的,在進行聚類分析前,對總體到底有幾種類型不知道(研究分幾類較為合適需從計算中加以調整)。判別分析則是在總體類型劃分已知,對當前新樣本判斷它們屬於哪個總體。如我們對研究的多元數據的特徵不熟悉,當然要進行聚類分析,才能考慮判別分析問題。2.聚類分析分兩種:Q型聚類(對樣本的聚類),P型聚類(對變數的聚類) 聚類分析需要注意的是,一般小樣本數據可以用系統聚類法,大樣本數據一般用快速聚類法(K均值聚類法)。需要根據統計量判斷分幾類比較合適,一般用R平方統計、偽F統計量等。如用前者時,可以從R平方的變換看n個樣品分成幾類比較合適,如分為5類時,R平方為0.9,當分為四類時,其值減小較快,如R平方為0.4,則認為分五類比較合適。另外,不同的分類方法產生的分類結果可能不同,要結合實際情況選出最優的分類方法。3.判別分析 有Fisher判別,Bayes判別和逐步判別。一般用Fisher判別即可,要考慮概率及誤判損失最小的用Bayes判別,但變數較多時,一般先進行逐步判別篩選出有統計意義的變數,再結合實際情況選擇用哪種判別方法。
『伍』 信用評分模型是什麼分為哪些
1、信用評分模型是什麼?
信用評分模型是近年來興起的一種為了保障銀行和其他金融部門的金融安全而設立的一種關於人身金融許可權的劃定模型。該模型指根據客戶的信用歷史資料,利用一定的信用評分模型,得到不同等級的信用分數,根據客戶的信用分數,來決定客戶所可以持有的金額許可權,從而保證還款等業務的安全性。而隨著在現代社會和公司中,貸款,信用卡的作用日漸突出,信用評分模型的發展前景不可估量。
2、分為哪些?
(1)判別分析模型
判別分析法是對研究對象所屬類別進行判別的一種統計分析方法。進行判別分析必須已知觀測對象的分類和若干表明觀測對象特徵的變數值。判別分析就是要從中篩選出能提供較多信息變數並建立判別函數,使推導出的判別函數對觀測樣本分類時的錯判率最小。這種方法的理論基礎是樣本由兩個分布有顯著差異的子樣本組成,並且它們擁有共同的屬性。它起源於1936年Fisher引進的線性判別函數,這個函數的目的是尋找一個變數的組合,把兩個擁有一些共同特徵的組區分開來。
判別分析方法的優點適用於二元或多元性目標變數,能夠判斷,區分個體應該屬於多個不同小組中的哪一組。自身也存在不可避免的缺點:該模型假設前提是自變數的分布都是正態分布的而實踐中的數據往往不是完全的正態分布,從而導致統計結果的不可靠性。
(2)決策樹方法
決策樹模型是對總體進行連續的分割,以預測一定目標變數的結果的統計技術。決策樹構造的輸入是一組帶有類別標記的例子構造的結果是一棵二叉或多叉樹。構造決策樹的方法是採用自上而下的遞歸構造。在實際中為進行個人信用分析選取個人信用作為目標屬性,其他屬性作為獨立變數。所有客戶被劃分為兩類,即好客戶的和壞客戶,將客戶信用狀況轉換為是否好客戶」(值為1或0而後利用數據集合來生成一個完整的決策樹。在生成的決策樹中可以建立一個規則基。一個規則基包含一組規則每一條規則對應決策樹的一條不同路徑,這條路徑代表它經過節點所表示的條件的一條鏈接。通過創立一個對原始祥本進行最佳分類判別的決策樹,採用遞歸分割方法使期望誤判損失達到最小。
決策樹模型的優點:淺層的決策樹視覺上非常直觀,容易解釋;對數據的結構和分布不需做任何假設:可以容易地轉化成商業規則。它的缺點在干:深層的決策樹視覺上和解釋上都比較困難;決策樹對樣本量的需求比較大;決策樹容易過分微調於樣本數據而失去穩定性和抗震盪性。
(3)回歸分析法
回歸分析法是目前為止應用最為廣泛的一種信用評分模型這其中以著名的logistic回歸為代表。除此之外,線性回歸分析、probit回歸等方法亦屬於此類。最早使用回歸分析的Orgler他採用線性回歸模型制定了一個類似於信用卡的評分卡,他的研究表明消費者行為特徵比申請表資料更能夠預測未來違約可能性的大小。同數學規劃方法中一樣假設已經通過一定的方法從樣本變數中提取出了若干指標作為特徵向量回歸分析的思想就是將這些指標變數擬合成為一個可以預測申請者違約率的被解釋變數自然就是違約率p回歸分析中應用最廣泛的模型當屬線性回歸模型它是對大量的數據點中表現出來的數量關系模擬出一條直線,回日分析的目標就是使目標變數值和實際的目標變數值之間的誤差最小。因此最早將回歸方法應用於信用評分研究的模型,就是簡單的線性回歸模型,目前基於logistic回歸的信用評分系統應用最為普遍。
『陸』 判別分析的判別方法
判別方法是確定待判樣品歸屬於哪一組的方法,可分為參數法和非參數法,也可以根據資料的性質分為定性資料的判別分析和定量資料的判別分析。此處給出的分類主要是根據採用的判別准則分出幾種常用方法。除最大似然法外,其餘幾種均適用於連續性資料。
1)最大似然法:用於自變數均為分類變數的情況,該方法建立在獨立事件概率乘法定理的基礎上,根據訓練樣品信息求得自變數各種組合情況下樣品被封為任何一類的概率。當新樣品進入是,則計算它被分到每一類中去的條件概率(似然值),概率最大的那一類就是最終評定的歸類。
2)距離判別:其基本思想是有訓練樣品得出每個分類的重心坐標,然後對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的類。也就是根據個案離母體遠近進行判別。最常用的距離是馬氏距離,偶爾也採用歐式距離。距離判別的特點是直觀、簡單,適合於對自變數均為連續變數的情況下進行分類,且它對變數的分布類型無嚴格要求,特別是並不嚴格要求總體協方差陣相等。
3)Fisher判別:亦稱典則判別,是根據線性Fisher函數值進行判別,通常用於梁祝判別問題,使用此准則要求各組變數的均值有顯著性差異。該方法的基本思想是投影,即將原來在R維空間的自變數組合投影到維度較低的D維空間去,然後在D維空間中再進行分類。投影的原則是使得每一類的差異盡可能小,而不同類間投影的離差盡可能大。Fisher判別的優勢在於對分布、方差等都沒有任何限制,應用范圍比較廣。另外,用該判別方法建立的判別方差可以直接用手工計算的方法進行新樣品的判別,這在許多時候是非常方便的。
4)Bayes判別:許多時候用戶對各類別的比例分布情況有一定的先驗信息,也就是用樣本所屬分類的先驗概率進行分析。比如客戶對投遞廣告的反應絕大多數都是無迴音,如果進行判別,自然也應當是無迴音的居多。此時,Bayes判別恰好適用。Bayes判別就是根據總體的先驗概率,使誤判的平均損失達到最小而進行的判別。其最大優勢是可以用於多組判別問題。但是適用此方法必須滿足三個假設條件,即各種變數必須服從多元正態分布、各組協方差矩陣必須相等、各組變數均值均有顯著性差異。
『柒』 判別分析
化探工作中常要判斷地質體的屬性,如是礦致異常還是非礦致異常;是含礦岩體還是不含礦岩體;是含礦鐵帽還是不含礦鐵帽,等等。而區分它們只考慮一個變數,數據的重疊往往很難區分。用判別分析的方法建立起一個多變數的函數(判別函數),使兩類地質體得到最大的分離,對於未知屬性的地質體也算出這個函數值從而判斷其歸屬。化探中常用的是兩類線性判別分析,其具體做法如下。
1.求判別函數
(1)首先將已知的A地質體(如礦致異常)和B地質體(如非礦致異常)中各變數(如元素含量)換為對數值(因為化探中的微量元素多為對數正態分布)。
(2)建立求判別函數系數的線性方程組。
判別函數的一般表達式為:
地球化學找礦
式中:R為判別函數;λK為判別系數(K=1,2,…,P);P為變數數;xK為判別變數。
根據數學推導,判別系數λK應滿足下列線性方程組:
地球化學找礦
為簡化計算,可將dK前(NA+NB-2)系數取為1。
則有
地球化學找礦
地球化學找礦
式中:
地球化學找礦
地球化學找礦
NA與NB分別為A母體與B母體的樣品數。
根據A,B兩類地質體的各變數(對數值)代入上述公式即可求得σKK,σKL,dK各項值。於是線性方程組(6-6)或(6-7)即可得到。用適當方法求出線性方程組的解,即可求得判別系數λK(K=1,2,…,P),判別系數λK求得後代入(6-6)式,則判別函數R即已求得。注意判別系數λK有正有負。
2.判別效果的顯著性檢驗
建立的判別函數判別是否有效主要看不同地質體中變數平均值的差異是否顯著,即(K=1,2,…,P)是否足夠大。通常採用馬氏距離D2統計量作F檢驗。首先計算出D2和F值:
地球化學找礦
地球化學找礦
注意:若線性方程組(6-6)中dK前系數為(NA+NB-2)則:
地球化學找礦
然後給定信度α=0.1,α=0.05,α=0.01查F分布表得出
3.計算各變數的貢獻值
判別有效時還應考慮各變數參加判別的貢獻。變數的貢獻值可以衡量一個變數對組成判別函數的作用大小。第K個變數的貢獻值按下式計算:
地球化學找礦
對於貢獻值很小的可捨去,用其餘變數進行判別可得同樣效果。
4.對未知屬性樣品進行判別
當判別函數判別有效時,則可對未知屬性樣品進行判別。
(1)計算判別函數臨界值(R0)
地球化學找礦
若NA=NB,則
地球化學找礦
式中:
(2)與R0進行比較
將未知屬性樣品的諸變數值(對數值)代入判別函數,即可求得各未知屬性樣品的判別函數值,與R0比較則可判斷其歸屬。
(3)計算實例
某區發現原生地球化學異常15個,其中7個為礦致異常,7個為非礦致異常,一個異常性質不明。每個異常分析了Cu,Ag,Bi3個元素,數據見表6-2。未知屬性異常含量(10-6)Cu 880,Ag 1.41,Bi 34.4,換算成對數值(Ag乘以100後換算成對數)分別為2.945,2.147,1.537。
現運用判別分析的方法對未知屬性異常判斷其歸屬。
表6-2 某區Cu,Ag,Bi 元素含量及對數值
1)求判別函數
①根據礦致異常(A),非礦致異常(B)中各變數的對數值計算(表6-2)表中所列各項值(表6-3)。
②建立求判別函數系數的線性方程組,對於只有三個判別變數時,判別函數:
R =λ1x1+ λ2x2+ λ3x3 (6-12)
求判別系數λK(K=1,2,3)的線性方程組為:
地球化學找礦
式中:
地球化學找礦
地球化學找礦
表6-3 由表6-2導出的各參數值
於是(6-13)式變為:
地球化學找礦
對於上述方程組可用行列式求解:
令
地球化學找礦
地球化學找礦
則
地球化學找礦
將λ1,λ2,λ3的值代入(6-12)式,則得
地球化學找礦
上式即為所求的判別函數。
2)判別效果的顯著性檢驗
計算D2值和
地球化學找礦
由
地球化學找礦
於是得
3)計算各變數的貢獻值
由
地球化學找礦
於是得
地球化學找礦
地球化學找礦
可見Ag的貢獻很小,可捨去,只用作變數建立判別函數,可得同樣效果。
4)對未知屬性的樣品進行判別
①計算判別臨界值:
因NA=NB,故
地球化學找礦
所以
由上計算結果得:
R(A)>R0>R(B)故大於R0者屬礦致異常;小於R0者屬非礦致異常。
②計算未知屬性異常的判別函數值:
將未知屬性異常(C),Cu,Ag,Bi的對數含量值代入判別函數得:R(C)=0.2898×2.945-0.0646×2.147-0.4612×1.537=0.006
因為R(C)=0.006<R0=0.1982,故未知屬性異常屬非礦致異常。
『捌』 常用的判別分析方法有哪些
按照習慣大類分成化學分析法,電化學分析法和儀器分析法
1.化學分析裡麵包括滴定法(氧化還原滴定,酸鹼滴定,絡合滴定等),重量分析法等等
2.電化學分析裡麵包括循環伏安,極譜,電解等等方法
3.儀器分析就更多了,紫外可見分光光度法(UV-Vis),原子發射光譜法,色譜法(包括氣相色譜GC,高效液相色譜HPLC),毛細管電泳(CE),核磁共振(NMR),X粉末多晶衍射(XRD),質譜(MS)等等
『玖』 線性判別分析是一種什麼方法
線性判別分析是對費舍爾的線性鑒別方法的歸納,這種方法使用統計學,模式識別和機器學習方法,試圖找到兩類物體或事件的特徵的一個線性組合,以能夠特徵化或區分它們。
線性判別的思想非常樸素,給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近,異樣樣例的投影點盡可能遠離;在對新樣本進行分類時,將其投影到同樣的直線上,再根據投影點的位置來確定新樣本的類別。
線性判別與方差分析和回歸分析緊密相關,這兩種分析方法也試圖通過一些特徵或測量值的線性組合來表示一個因變數。然而,方差分析使用類別自變數和連續數因變數,而判別分析連續自變數和類別因變數(即類標簽)。邏輯回歸和概率回歸比方差分析更類似於LDA,因為他們也是用連續自變數來解釋類別因變數的。
『拾』 判別分析的基本原理
是用於判別樣品所屬類型的一種統計分析方法,是根據表明事物特點的變數值和他們所屬的類,求出判別函數,根據判別函數對未知所屬類別的食物進行分類的一種分析方法。