㈠ 數據分析師必須掌握的7種回歸分析方法
1、線性回歸
線性回歸是數據分析法中最為人熟知的建模技術之一。它一般是人們在學習預測模型時首選的技術之一。在這種數據分析法中,由於變數是連續的,因此自變數可以是連續的也可以是離散的,回歸線的性質是線性的。
線性回歸使用最佳的擬合直線(也就是回歸線)在因變數(Y)和一個或多個自變數(X)之間建立一種關系。
2、邏輯回歸
邏輯回歸是用來計算“事件=Success”和“事件=Failure”的概率。當因變數的類型屬於二元(1 /0,真/假,是/否)變數時,我們就應該使用邏輯回歸.
邏輯回歸不要求自變數和因變數是線性關系。它可以處理各種類型的關系,因為它對預測的相對風險指數OR使用了一個非線性的log轉換。
為了避免過擬合和欠擬合,我們應該包括所有重要的變數。有一個很好的方法來確保這種情況,就是使用逐步篩選方法來估計邏輯回歸。它需要大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差。
3、多項式回歸
對於一個回歸方程,如果自變數的指數大於1,那麼它就是多項式回歸方程。雖然會有一個誘導可以擬合一個高次多項式並得到較低的錯誤,但這可能會導致過擬合。你需要經常畫出關系圖來查看擬合情況,並且專注於保證擬合合理,既沒有過擬合又沒有欠擬合。下面是一個圖例,可以幫助理解:
明顯地向兩端尋找曲線點,看看這些形狀和趨勢是否有意義。更高次的多項式最後可能產生怪異的推斷結果。
4、逐步回歸
在處理多個自變數時,我們可以使用這種形式的回歸。在這種技術中,自變數的選擇是在一個自動的過程中完成的,其中包括非人為操作。
這一壯舉是通過觀察統計的值,如R-square,t-stats和AIC指標,來識別重要的變數。逐步回歸通過同時添加/刪除基於指定標準的協變數來擬合模型。
5、嶺回歸
嶺回歸分析是一種用於存在多重共線性(自變數高度相關)數據的技術。在多重共線性情況下,盡管最小二乘法(OLS)對每個變數很公平,但它們的差異很大,使得觀測值偏移並遠離真實值。嶺回歸通過給回歸估計上增加一個偏差度,來降低標准誤差。
除常數項以外,這種回歸的假設與最小二乘回歸類似;它收縮了相關系數的值,但沒有達到零,這表明它沒有特徵選擇功能,這是一個正則化方法,並且使用的是L2正則化。
6、套索回歸
它類似於嶺回歸。除常數項以外,這種回歸的假設與最小二乘回歸類似;它收縮系數接近零(等於零),確實有助於特徵選擇;這是一個正則化方法,使用的是L1正則化;如果預測的一組變數是高度相關的,Lasso 會選出其中一個變數並且將其它的收縮為零。
7、回歸
ElasticNet是Lasso和Ridge回歸技術的混合體。它使用L1來訓練並且L2優先作為正則化矩陣。當有多個相關的特徵時,ElasticNet是很有用的。Lasso會隨機挑選他們其中的一個,而ElasticNet則會選擇兩個。Lasso和Ridge之間的實際的優點是,它允許ElasticNet繼承循環狀態下Ridge的一些穩定性。
通常在高度相關變數的情況下,它會產生群體效應;選擇變數的數目沒有限制;並且可以承受雙重收縮。
關於數據分析師必須掌握的7種回歸分析方法,青藤小編就和您分享到這里了,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的職業前景及就業內容,可以點擊本站的其他文章進行學習。
㈡ 實證研究需要掌握的幾種「回歸方法」
回歸分析是一種預測性的建模技術,主要研究因變數和自變數之間的關系。本文將介紹回歸分析的優勢,並重點介紹七種常用的回歸技術:線性回歸、邏輯回歸、多項式回歸、逐步回歸、嶺回歸、套索回歸和ElasticNet回歸,最後討論選擇正確回歸模型的關鍵因素。
回歸分析能夠揭示自變數和因變數之間的顯著關系,並比較不同自變數對因變數的影響強度。這種方法在預測分析、時間序列模型以及發現變數之間的因果關系中非常有用。例如,通過回歸分析可以研究司機魯莽駕駛與道路交通事故數量之間的關系。
回歸分析有三種主要度量:自變數的個數、因變數的類型以及回歸線的形狀。以下是最常用的回歸技術:
1. 線性回歸:使用最佳擬合直線在因變數和自變數之間建立線性關系。
2. 邏輯回歸:用於計算二元事件發生的概率,適用於因變數為二元變數的情況。
3. 多項式回歸:使用曲線擬合數據點,自變數的指數大於1時採用。
4. 逐步回歸:通過觀察統計值來識別重要變數,使用最少的預測變數數來最大化預測能力。
5. 嶺回歸:用於存在多重共線性數據的技術,通過增加偏差度降低標准誤差。
6. 套索回歸:類似於嶺回歸,懲罰回歸系數的絕對值大小,有助於特徵選擇。
7. ElasticNet回歸:Lasso和Ridge回歸技術的混合體,適用於高度相關特徵的情況。
選擇正確的回歸模型需要考慮以下關鍵因素:
1. 數據探索:識別變數的關系和影響,為選擇合適的模型提供依據。
2. 模型比較:分析不同模型的優點,如統計意義參數、R-square、Adjusted R-square等。
3. 交叉驗證:將數據集分成訓練集和驗證集,使用均方差衡量預測精度。
4. 數據集特徵:避免在同一模型中將所有變數放入,考慮數據集的混合變數情況。
5. 目的性:根據實際目的選擇模型,如易於實現或具有高度統計學意義。
6. 正則化方法:在數據集變數之間多重共線性情況下,Lasso、Ridge和ElasticNet等正則化方法表現良好。