❶ 如果線性回歸模型檢驗出來有序列相關性,怎樣用R處理
一、圖示法 圖示法是一種很直觀的檢驗方法,它是通過對殘差散點圖的分析來判斷隨機誤差項的序列相關性。把給定的回歸模型直接用普通最小二乘法估計參數,求出殘差項,並把作為隨機誤差項的估計值,畫出的散點圖。由於把殘差項作為隨機誤差項的估計值,隨機誤差項的性質也應能在殘差中反映出來。
(一)按時間順序繪制殘差圖 如果殘差,,隨著時間的變化而呈現有規律的變動,則存在相關性,進而可以推斷隨機誤差項之間存在序列相關性。如果隨著時間的變化,並不頻繁地改變符號,而是取幾個正值後又連續地取幾個負值(或者,與之相反,幾個連續的負值後面緊跟著幾個正值),則表明隨機誤差項存在正的序列相關,(見圖6-1);如果隨著時間的變化,不斷地改變符號(見圖6-2),那麼隨機誤差項之間存在負的序列相關。 圖6-2 負序列相關
(二)繪制,的散點圖 計算和,以為縱軸,為橫軸,繪制(,),的散點圖。如果大部分點落在第Ⅰ,Ⅲ象限,表明隨機誤差項存在正的序列相關(見圖6-3);如果大部分點落在第Ⅱ,Ⅳ象限,表明隨機誤差項存在負的序列相關(見圖6-4)。 圖6-3 正序列相關 圖6-4 負序列相關二、杜賓——瓦特森(D-W)檢驗 1、適用條件杜賓——瓦特森檢驗,簡稱D—W檢驗,是J.Durbin(杜賓)和G.S.Watson(瓦特森)於1951年提出的一種適用於小樣本的檢驗序列相關性的方法。D-W檢驗是目前檢驗序列相關性最為常用的方法,但它只適用於檢驗隨機誤差項具有一階自回歸形式的序列相關問題。在使用該方法時前,必須注意該方法的適用條件。回歸模型含有截距項,即截距項不為零;解釋變數是非隨機的;隨機誤差項為一階自相關,即;回歸模型中不應含有滯後內生變數作為解釋變數,即不應出現下列形式: 其中,為的滯後一期變數;無缺失數據。當上述條件得到滿足時,我們可以利用D-W方法檢驗序列相關問題。2、具體過程(1)提出假設,即不存在序列相關,,即存在序列相關性(2)定義D-W檢驗統計量為了檢驗上述假設,構造D-W檢驗統計量首先要求出回歸估計式的殘差,定義D-W統計量為: (6-11)其中,。由(6-11)式有 (6-12)由於與只有一次觀測之差,故可認為近似相等,則由(6-12)式得 (6-13)隨機誤差序列的自相關系數定義為: (6-14)在實際應用中,隨機誤差序列的真實值是未知的,需要用估計值代替,得到自相關系數的估計值為: (6-15)在認為與近似相等的假定下,則(6-15)式可化簡為: (6-16)所以,(6-13)式可以寫成 (6-17)(3)檢驗序列相關性因為自相關系數的值介於-1和1之間,所以:,而且有值與的對應關系如表6-1所示。表6-1 值與的對應關系表值DW值隨機誤差項的序列相關性-1(-1,0) 0(0,1)1 4(2,4) 2(0,2)0 完全負序列相關 負序列相關 無序列相關 正序列相關 完全正序列相關從表6-1中,我們可以知道當值顯著地接近於0或者4時,則存在序列相關性;而接近於2時,則不存在序列相關性。這樣只要知道統計量的概率分布,在給定的顯著性水平下,根據臨界值的位置就可以對原假設進行檢驗。但是統計量的概率分布很難確定,作為一種變通的處理方法,杜賓和瓦特森在5%和1%的顯著水平下,找到了上限臨界值和下限臨界值,並編制了D-W檢驗的上、下限表。這兩個上下限只與樣本的大小和解釋變數的個數有關,而與解釋變數的取值無關。具體的判別規則為:(1) ,拒絕,表明隨機誤差項之間存在正的序列相關;(2) ,拒絕,表明隨機誤差項之間存在正的序列相關;(3) ,接受,即認為隨機誤差項之間不存在序列相關性;(4) 或,不能判定是否存在序列相關性。上述四條判別規則可用圖6-5表示: 3.D-W檢驗特點D-W檢驗法的優點在於其計算簡單、應用方便,目前已成為最常用的序列相關性檢驗的方法。EViews軟體在輸出回歸分析結果中直接給出了DW值,並且人們也習慣將DW值作為常規的檢驗統計量,連同值等一起在報告回歸分析的計算結果時表明。但D-W檢驗也存在很大的局限性,在應用時應予以重視。D-W檢驗不適應隨機誤差項具有高階序列相關的檢驗; D-W檢驗有兩個無法判別的區域,一旦DW值落入這兩個區域,必須調整樣本容量或採取其他的檢驗方法;這一方法不適用於對聯立方程模型中各單一方程隨機誤差項序列相關性的檢驗;D-W檢驗不適用於模型中含有滯後的被解釋變數的情況。
二、回歸檢驗法 1、定義回歸檢驗法適用於任一隨機變數序列相關性的檢驗,並能提供序列相關的具體形式及相關系數的估計值。2、應用步驟分三步進行:第一步,依據模型變數的樣本觀測數據,應用普通最小二乘法求出模型的樣本估計式,並計算出隨機誤差項的估計值;第二步,建立與、的相互關系模型,由於它們相互關系的形式和類型是未知的,需要用多種函數形式進行試驗,常用的函數形式主要有: 第三步,對於不同形式的與、的相互關系模型,用普通最小二乘法進行參數估計,得出回歸估計式,再對估計式進行統計檢驗。如果檢驗的結果是每一種估計式都不顯著的,就表明與、是不相關的,隨機誤差項之間不存在序列相關性。如果通過檢驗發現某一個估計式是顯著的(若有多個估計式顯著就選擇最為顯著的),就表明與、是相關的,隨機誤差項之間存在序列相關性,相關的形式就是統計檢驗顯著的回歸估計式,相關系數就是該估計式的參數估計值。回歸檢驗法需要用多種形式的回歸模型對與、的相關性進行試驗分析,工作量大、計算復雜,顯得極為繁瑣。線性回歸模型中隨機誤差項序列相關性的檢驗,在計量經濟學的研究中是一個很重要的問題。但目前應用的檢驗方法都存在一些缺限和局限,還不能對這一問題進行完全有效的檢驗,更為完善的檢驗方法有待於進一步研究。有關於高階序列相關性的檢驗,可以參考其它相關教科書。第三節 序列相關的處理 如果檢驗發現隨機誤差項之間存在序列相關性,應當首先分析序列相關產生的原因,引起序列相關的原因不同,修正序列相關的方法也不同。如果是回歸模型變數選用不當,則應對模型中包含的解釋變數進行調整,去掉無關的以及非重要的變數,引入重要的變數;如果是模型的形式選擇不當,則應重新確定正確的模型形式;如果以上兩種方法都不能消除序列相關性,則需要採用其他數學方法進行處理以消除序列相關性,然後再對模型中的未知參數進行估計。
三、差分法 差分法將原模型變換為差分模型,用增量數據代替原來的樣本數據。差分法分為一階差分法和廣義差分法。
(一)一階差分法 假設原模型為: (6-18)一階差分法變換後的模型為: (6-19)其中, 如果,原模型存在完全一階正相關,即 ,其中不存在序列相關性,那麼差分模型滿足應用普通最小二乘法的基本假設。用普通最小二乘法估計差分模型得到的參數估計值,即為原模型參數的無偏、有效估計值。
(二)廣義差分法 一階差分法僅適用於隨機誤差項的自相關系數等於1的情形。但在一般情況下,完全一階正相關的情況並不多見,在這種情況下,隨機誤差項的序列相關性就要用廣義差分法進行修正。對於模型(6-18)如果隨機誤差項存在一階自相關,即,其中,為隨機誤差項的自相關系數,且有,不存在序列相關性。將(6-18)式滯後一期,並左右兩邊同乘,可得 (6-20)將(6-18)式減去(6-20)式,得 (6-21)在為已知的情況下,我們可以對(6-21)式進行如下變換 (6-22)將變換後的新變數代入(6-21)式,便可得到一個新的模型表示式: (6-23) 我們把上述變換過程稱為廣義差分變換,把通過廣義差分變換得到的模型稱為廣義差分模型。我們應該注意到這一變換過程所構建的新變數,,由於差分變換要損失一個觀測值,樣本個數由個減少到個。為了避免損失自由度,可以將第一個觀測值作如下變換:,通過對原模型進行廣義差分變換,我們可以得到廣義差分模型,廣義差分模型中的隨機誤差項滿足線性回歸的經典假設,對廣義差分模型進行OLS估計,得到的參數估計值仍然是最佳估計量。
四、杜賓兩步法 進行廣義差分變換的前提是已知的值。但是隨機誤差項的自相關系數,的值不可觀測,使得的值也是未知的。所以利用廣義差分法處理序列相關性時,首先需要估計出的值。這可以用杜賓(Durbin)兩步估計法。我們以一元線性回歸模型為例,對於模型 (6-24)如果隨機誤差項存在階自回歸形式的序列相關,即 (6-25)當、、時,便可利用杜賓兩步法對的相關系數進行估計。第一步,對(6-24)式進行差分變換,可得 (6-26)整理(6-26)式,可得 (6-27)第二步:應用普通最小二乘法對包含被解釋變數及解釋變數的滯後變數在內的模型(6-27)式進行估計,求出隨機誤差項的自相關系數,,…, 的估計值,,…, 。再將,,…, 代入(6-26)式,可得 (6-28)(6-28)式的隨機誤差項具有零均值、方差齊性、不存在序列相關性的特點。在,,…, 已知的情況下,可以用普通最小乘法對(6-28)式進行估計,求出參數、的估計值、。此方法也適用於多元線性回歸模型。杜賓兩步法不但求出了自相關系數的估計值,而且也得出了模型參數的估計值。
五、迭代法 迭代估計法或科克倫-奧克特(Cochrane-Orcutt)估計法,是用逐步逼近的辦法求的估計值。仍以(6-24)式為例,假設隨機誤差項存在一階自回歸形式的序列相關,即,,其中滿足零均值、方差齊性、無序列相關性。迭代估計的具體步驟為:第一步,利用OLS法估計模型,計算殘差出;第二步,根據上一步計算出的殘差計算的估計值: 第三步,利用上一步求得的值對(6-24)式進行廣義差分變換: 並得到廣義差分模型:;第四步,再利用OLS法估計,計算出殘差,根據殘差計算的第二次逼近值: 第五步,重復執行第三、四步,直到的前後兩次估計值比較接近,即估計誤差小於事先給定的精度:。此時,以 作為的估計值,並用廣義差分法進行變換,得到回歸系數
❷ 相關性分析有哪幾種方法
在做數據分析時,為了提煉觀點,相關性分析是必不可少,而且尤為重要的一個環節。但是,對於不同類型的數據,相關性分析的方法都各不相同。本文,主要按照不同的數據類型,來對各種相關性分析方法進行梳理總結。
相關性分析是指對兩個或多個具備相關性的變數元素進行分析,相關性不等於因果性。
一、離散與離散變數之間的相關性
1、卡方檢驗
卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。
它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
(1)假設,多個變數之間不相關
(2)根據假設計算得出每種情況的理論值,根據理論值與實際值的差別,計算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,變數相關的可能性越大,當P<=0.05,否定原假設,認為變數相關。
2、信息增益 和 信息增益率
在介紹信息增益之前,先來介紹兩個基礎概念,信息熵和條件熵。
信息熵,就是一個隨機變數的不確定性程度。
條件熵,就是在一個條件下,隨機變數的不確定性。
(1)信息增益:熵 - 條件熵
在一個條件下,信息不確定性減少的程度。
Gain(Y,X)=H(Y)-H(Y|X)
信息增益越大,表示引入條件X之後,不純度減少得越多。信息增益越大,則兩個變數之間的相關性越大。
(2)信息增益率
假設,某個變數存在大量的不同值,例如ID,引入ID後,每個子節點的不純度都為0,則信息增益減少程度達到最大。所以,當不同變數的取值數量差別很大時,引入取值多的變數,信息增益更大。因此,使用信息增益率,考慮到分支個數的影響。
Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)
二、連續與連續變數之間的相關性
1、協方差
協方差,表達了兩個隨機變數的協同變化關系。如果兩個變數不相關,則協方差為0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
當 cov(X, Y)>0時,表明 X與Y 正相關;
當 cov(X, Y)<0時,表明X與Y負相關;
當 cov(X, Y)=0時,表明X與Y不相關。
協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。
協方差通過數字衡量變數間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變數時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。
2、線性相關系數
也叫Pearson相關系數, 主要衡量兩個變數線性相關的程度。
r=cov(X,Y)/(D(X)D(Y))
相關系數是用協方差除以兩個隨機變數的標准差。相關系數的大小在-1和1之間變化。再也不會出現因為計量單位變化,而數值暴漲的情況了。
線性相關系數必須建立在因變數與自變數是線性的關系基礎上,否則線性相關系數是無意義的。
三、連續與離散變數之間的相關性
1、連續變數離散化
將連續變數離散化,然後,使用離散與離散變數相關性分析的方法來分析相關性。
2、箱形圖
使用畫箱形圖的方法,看離散變數取不同值,連續變數的均值與方差及取值分布情況。
如果,離散變數取不同值,對應的連續變數的箱形圖差別不大,則說明,離散變數取不同值對連續變數的影響不大,相關性不高;反之,相關性高。
❸ 11 - PLS,PCA-LDA, DT, ANN簡要介紹
此本來自自己碩士論文的綜述部分。
偏最小二乘法可以分為偏最小二乘回歸法(Partial least square regression, PLSR)與偏最小二乘法判別分析(Partial least square discriminate analysis, PLS-DA)。PLSR實現的主要思想是將自變數和因變數分別進行線性組合分析,再將求得的數據進行關聯分析,所以其為主成分分析、典型相關性分析與多元線性回歸建模的組合。PLS-DA是有監督的判別分析法,Gottfries等首先報道了PLS-DA使用,而後Barker與Rayens明確了其用於判別分析的理論基礎,並且對於其應用的優缺點由Brereton與Lloyd進一步闡釋(Gottfries et al 1995, Barker and Rayens 2003, Brereton and Lloyd 2014 )。其與PLSR區別是因變數是類別,而不是連續的變數,一般是在PLSR分析後加入一個邏輯判別函數如Sigmoid函數(在邏輯回歸判別中將詳述)。因為兩者前面分析部分相似,故這里主要介紹PLSR演算法。PLSR中自變數與因變數的基礎結構公式為:
X = TPT + E
Y = UQT + F
PLSR一般基於非線性迭代最小二乘演算法(NIPALS)建立。其步驟為(1)對自變數X和因變數Y同時提取各自的主成分t1(x1、x2...xn的線性組合)與u1(y1、y2...yn的線性組合),並且要求這兩個主成分相關性最大;(2)再進行X與Y分別對t1與u1的回歸,若方程達到了設置的滿意度,則停止計算;(3)否則,再利用t1對X解釋後剩餘的信息和u1對Y解釋後剩餘的信息重新按照(1)進行,再次循環,直到符合設定的閾值。最終X可能會提取到t1、t2...tn個主成分,Y提取到u1、u2…un,使Y的u組合對t1、t2...tn進行回歸,進而轉化成Y對x1、x2...xn的回歸方程(Wold et al 2001)。
PLSR是基於FT-MIR建立模型研究中使用最為廣泛和經典的演算法,上述關於基於FT-MIR檢測牛奶脂肪酸、蛋白質及氨基酸和抗生素殘留的定量模型研究中均使用了PLSR演算法,可見其應用之普遍。PLS-DA已在食品分析中的產品認證、醫學診斷中的疾病分類和代謝組分析中進行廣泛應用,並且Gromski等在綜述代謝組的分析中,將其和隨機森林與支持向量機進行了比較(Gromski et al 2015, Lee et al 2018)。
PLS的優點:(1)能處理樣本量遠小於特徵屬性數量的數據;(2)能處理特徵屬性間存在多重共線性的問題;(3)建立的模型時包含自變數與因變數的信息。其缺點有:(1)不能很好的處理非線性問題;(2)容易過擬合,需注意主成分數的選擇。
主成分分析(Principal Component Analysis,PCA)是一種無監督的降維分析方法。PCA降維的基本原則是使降維後方差最大與損失最小,如圖1-2。其實現的基本過程:(1)對所有樣本進行中心化處理;(2)計算樣本的協方差矩陣;(3)對協方差矩陣進行特徵值分解;(4)對得到的特徵值進行排序,取前n個組成新矩陣;(5)以新矩陣來代替原來樣本的特徵(Abdi and Williams 2010, Jolliffe and Cadima 2016)。
線性判別分析(Linear discriminat analysis,LDA)是一種有監督的降維與判別分析方法。LDA降維原則是類別內方差最小,類別間方差最大,這樣的特點更有利於進行判別分析(Anandkumar et al 2015)。其實現的基本過程為(1)計算樣本各類別內的類內散度矩陣Sw;(2)計算樣本各類別間的散度矩陣Sb;(3)對Sw做奇異分解,得到Sw -1 ;(4)對Sw -1 Sb做特徵分解;(5)取上一步得到的前n特徵向量以最大似然法求得各類別的均值和方差做後續的判別分析。
LDA不適用自變數遠遠大於樣本的情況,而PCA可以,故這里將兩個演算法進行聯用,先以PCA進行降維,再以LDA進行判別分析(Yang and Yang 2003)。
PCA-LDA的優點:(1)兩個演算法的聯用可以同時對原數據進行降維和判別分析;(2)LDA採用的是各類均值,演算法較優。其缺點有(1)只適合符合高斯分布的樣本數據分析;(2)可能會有過擬合的風險。
決策樹是基礎的分類和回歸方法,本研究主要集中在其用於分類上。決策樹是通過樹狀結構對具有特徵屬性的樣本進行分類。每一個決策樹都包括根節點(第一個特徵屬性),內部節點(其他特徵屬性)以及葉子節點(類別),通用的為每個內部節點有兩個分支(Kaminski et al 2018)。其實現的基本步驟:(1)在所有屬性中選擇最優屬性,通過其將樣本分類;(2)將分類的樣本再通過另一個特徵屬性再次分類,一直循環直到將樣本分到各葉子節點;(3)對生成的樹進行剪枝(包含預剪枝與後剪枝)。決策樹選擇特徵屬性的演算法不同會有不同結果,典型演算法包括:CART演算法(Breiman et al 1984)、ID3演算法(Quinlan 1986)、C4.5演算法(Quinlan 1992)等,但這些方法生成的過程相似。
CART採用基尼指數最小化原則,進行特徵選擇,遞歸地生成二叉樹,該演算法只能對特徵進行二分。ID3演算法在各個節點上採用信息增益來選擇特徵,每一次選擇的特徵均使信息增益最大,逐步構建決策樹,但缺點是其會選擇取值較多的特徵,而C4.5演算法採用信息增益比選擇特徵,解決了ID3的缺點。
DT的優點:(1)運行速度相對較快;(2)可同時處理不同類型的數據,基本不需要預處理;(3)結果容易解釋,並可進行可視化。其缺點:(1)容易過擬合,導致泛化能力不強;(2)不支持在線學習,若有新樣本,DT需要全部重建;(3)當各類別數據樣本不平衡時,結果會偏向有更多數值的特徵;(4)不能處理樣本特徵屬性之間的相關性(James et al 2013, Painsky and Rosset 2015)。
人工神經網路是以神經元為單位模仿生物神經網路的結構與功能的數學演算法模型(Marcel and Sander 2018)。其可以進行線性與非線性的判別分析,屬於有監督的學習分類法,主要分為前饋型神經網路、反饋型神經網路與自組織神經網路。
單位神經元如圖1-3中A,一般有多個輸入的「樹突」,再分別給予不同的權重求和,與閾值比較,達到閾值的通過激活函數求出輸出數據,最後進行輸出。激活函數f通常分為三類:閾值函數、分段函數、雙極性連續函數。
這里以經典的單隱層神經網路為例進行講解,如圖1-3中B。其輸入層包含三個神經元,隱含層有四個神經元,輸出層有兩個神經元。其運算過程為由輸入層輸入數據,隨機設定權重和閾值,通過隱藏層計算再傳遞到輸出層,輸出層會根據設定的期望進行判斷,如果不符合,則返回重新改變權重和閾值,進入循環,直到符合設定的期望再停止運算,這樣就能得到模型的權重和閾值,可對新數據進行判別,這種運演算法即為常見的反饋型神經網路(Tu 1996)。多層神經網路屬於深度學習,以卷積神經網路為基礎進行構建。
ANN的優點:(1)能夠自主學習;(2)能解決線性與非線性的問題;(3)可處理因變數之間的相互作用。其缺點:(1)需要設置大量的參數進行約束;(2)結果解釋性差,為黑箱演算法;(3)計算學習時間長;(4)容易過擬合(Tu 1996)。