Ⅰ 什麼是回歸分析回歸分析有什麼用主要解決什麼問題
1、「回歸分析」是指分析因變數和自變數之間關系,回歸分析的基本思想是: 雖然自變數和因變數之間沒有嚴格的、確定性的函數關系,但可以設法找出最能代表它們之間關系的數學表達形式。
2、回歸分析有很廣泛的應用,例如實驗數據的一般處理,經驗公式的求得,因素分析,產品質量的控制,氣象及地震預報,自動控制中數學模型的制定等等。
3、回歸分析主要處理變數的統計相關關系。
Ⅱ 什麼是回歸分析回歸分析有什麼用主要解決什麼問題
1、「回歸分析」是指分析因變數和自變數之間關系,回歸分析的基本思想是: 雖然自變數和因變數之間沒有嚴格的、確定性的函數關系,但可以設法找出最能代表它們之間關系的數學表達形式。
2、回歸分析有很廣泛的應用,例如實驗數據的一般處理,經驗公式的求得,因素分析,產品質量的控制,氣象及地震預報,自動控制中數學模型的制定等等。
3、回歸分析主要處理變數的統計相關關系。
Ⅲ 回歸分析方法用於放射性數據處理
放射性勘探獲得的多參數之間往往是相互關聯的,具有一定相關關系,所以使用回歸分析可較好地反映變數之間關系,可解決研究對象的許多問題。例:①圈定異常和成礦「靶區」進行礦產統計預測。②確定找礦標志或用一種或幾種元素的含量預測另一種難於分析的元素含量。③放射性場暈進行分類以便對其進行綜合評價,綜合解釋。④研究礦體產生的場暈(例如氡及其子體產生的暈)幅度與取樣地點距離礦體遠近的相關關系。如在垂直方向上滑笑悄,它有助於推斷礦體的埋深;研究礦體剝蝕深度;內生礦床分散暈的垂直分帶序列等。在水平方向上,它能為評價異常或進行勘探設計提供依據。⑤解決控制問題。即在一定信度下控制自變數的取值范圍,使因變數在指定的范同內取值。⑥可用來建立各種找礦模式,發現新的找礦線索等。概括起來說,回歸分析可以解決預測問題和控制問題。
(一)多元線性回歸分析的基本原理
1.回歸方程的建立
回歸分析的基本思想是,設有k個自變數xi(i=1,2,…,k)和一個因變數y,根據一批實測數據x1t,x2t,…,xkt;yt(t=1,2,…,k),可建立y對xi的回歸關系。回歸分析的數學模型表示為
放射性勘探方法
式中:b0為常數項;bi為偏回歸系數;εt為隨機因素產生的誤差;
並稱為y對xi的回歸,若函數
回歸分析的基本思想是選擇合適的函數
由於常見的變數大多數是正態變數或通過數學變換能化為近似正態變數;再者,變數間的非線性關系又可以化為線性關系。下面僅討論線性情況下正態變數間的回歸關系。
如果
放射性勘探方法
稱多元線性回歸方程。
對於(6-81)式,為了獲得一個符合實際的最佳預測方程,也就要使每個實際觀測值yt與預測值
放射性勘探方法
為最小。為此,只要將Q分別對b0、bi(i=1,2,…,k)求偏導數,並令其為零,就可得到k個線性方程,稱為正規方程組,即
放射性勘探方法
由(6-84)式的第一方程得
放射性勘探方法
式中:
放射性勘探方法
將b0代入(6-84)式後面的k個方程中得
放射性勘探方法
對(6-83)式中第一方程的兩邊乘以x,再代入b,得
放射性勘探方法
於是由上述兩式相減後得
放射性勘探方法
記
放射性勘探方法
此時,(6-85)式信渣簡寫為
b1li1+b2li2+…+bklik=li0
寫成矩陣的形式,有
放射性勘探方法
若 [lij]為非奇異矩陣,則 [lij]的逆矩陣 [lij]-1存在,故 (6 86)式兩邊同乘[lij]-1,則得
[lij]-1[lij][bj]=[li0][lij]-1
[bj]=[lij]-1[li0]
再由(6-85)式求出
放射性勘探方法
這樣,就求出了系數b0,b1,b2,…,bk的一組解;
放射性勘探方法
用這個方程進行預測或控制時,結果就與實測數據偏差最小。
2.回歸方程的顯著性檢驗
在假設因變數與自變數間存在線性關系的前提下,應用上述方法可以得到與實測數據擬合誤差最小的回歸方程。但是,因變數與自變數之間是不是真正為線性關系?回歸方程的代表性究竟如何?以及各個自變數在回歸方程中貢獻大小如何?要回答這些問題,必須進行顯著性檢驗。為此,把總離差平方和分解成回歸平方和與偏差平方和兩部分。
放射性勘探方法
式中:
放射性勘探方法
放射性勘探方法
放射性勘探方法
三者間關系示於圖6-24,若注意到:
放射性勘探方法
圖6-24 s總分解示意圖
實際計算時採用下式:
放射性勘探方法
由上述分析可知,偏升畝差平方和越小,回歸平方和越大,則y與xi(i=1,2,…,k)的線性關系越密切,回歸效果越好;即回歸方程從實測數據中提取的線性部分就越多。當提取的線性部分達到一定程度時,即s總相對s偏的比值大到一定程度時,則認為y與xj間線性關系是顯著的。否則,認為是不顯著的,回歸方程也就無實用價值。為此,構造統計量
放射性勘探方法
來檢驗回歸方程是否有顯著意義。
F統計量服從F(k,n-k-1)分布。若給定信度α,可由F分布臨界值表查得臨界值Fα(k,n-k-1),若統計量F>Fα,那麼在信度為α的條件下,認為線性回歸方程是有顯著意義的。反之,當F<Fα時,則認為線性回歸方程沒有意義。
以上用的是方差分析的辦法,還可以用復相關系數做檢驗。復相關系數由下式定義:
放射性勘探方法
復相關系數是描述因變數y與自變數xi之間的線性相關程度的。R越大,則y與xi線性相關越密切。反之,越不密切。由相關系數檢驗表查Rα(n-k-1)後,若R>Rα值時,則線性回歸方程顯著,否則不顯著。
(二)應用實例
天然放射性元素中,鈾、釷、鉀的含量是岩石的一個重要地球化學特徵密切相關性使我們有可能用這一性質來研究岩石化學類型。
研究的岩樣是新鮮的未經蝕變的火成岩共150塊,分為12個岩石化學類型:
1)花崗岩和花崗閃長岩;
2)鹼性花崗岩和花崗閃長岩;
3)閃長岩和安山岩;
4)輝長-閃長岩和安山玄武岩;
5)輝長-玄武岩;
6)含有長石的輝長岩類(霞斜岩)和玄武岩類;
7)無長石的玄武岩類;
8)超基性的灰質-鹼性岩;
9)超基性鹼性岩;
10)正長岩和二長岩;
11)霞石正長岩;
12)超鹼性岩。
γ能譜測量結果表明:岩樣中鈾、釷、鉀的含量近於對數正態分布;用三個元素的含量與岩石的化學成分之間的相關性可為鑒別岩樣的一種典型方法。為此,按每個岩樣的化學成分的分析結果,計算了代表其富餘硅Q、鹼金屬性α值和各元素間的相關系數。
把150個岩樣按Q和α值分成17組。同一組中岩樣的Q值與其平均值之差大於10,而α值與其平均值之差不大於5。有些岩樣可以同時進入兩個組內,對每一組都計算元素平均含量,元素含量變異系數和鈾、釷、鉀含量的相關系數(組成相關矩陣)如表6-7所示。在Q-α坐標系中,用這些數據繪制了17組的三個元素間的相關系數等值線示於圖6-25。
表6-7 岩樣按相近Q、α值分組平均Q、α值,平均鈾、釷、鉀含量,元素含量變異系數和相關系數表
圖6-25 按Q、α值劃分不同岩性組的岩樣中鉀和鈾(1)、鈾和釷(2)和鉀和釷(3)含量的二維相關關系曲線圖
Г—花崗岩;Д—純橄欖岩;Ч—磷霞岩
數字表示相關系數的等值線的值(量綱為一)
這種兩維的相關場表示了鈾、釷、鉀含量的相關性與Q、α這兩個參數之間的關系。在Q-α坐標系中,所有岩石類型都位於三個頂點:①Q=-30,α=0,為純橄欖岩頂點;②Q=30,α=15為花崗岩頂點;③Q=-45,α=25為磷霞岩頂點的三角形范圍之中。鈾含量變異系數在純橄欖岩-花崗岩線上最大,在純橄欖岩至磷霞岩線中段最小,釷含量變異系數在純橄欖岩至花崗岩線上最大,離開它稍有降低。鉀含量的變異系數隨著α值的增高而減小。
三個元素間的最大相關系數(約0.9)位於Q=-10,α=10的坐標點。當α<10時,相關系數的某些降低可以解釋為含量測量誤差的影響(在低含量的情況下相對誤差增高)。在三角形的其他頂角內相關系數的變化反映了研究岩石的特徵,在Q>20(花崗岩)時,只存在鉀和釷的相關性(RU,K≈RU,Th≈0.2)。在α>20(磷霞石)時,鈾和釷的相關性保持在RU,Th=0.8左右,這時,鉀與鈾和釷的相關性不存在,甚至為負值。也就是說,相關系數的大小明顯地表明了酸性岩石中鈾含量的變化與釷、鉀含量的變化無關。而對超鹼性岩石來說,鉀含量的變化與鈾、釷含量的變化無關。在任何其他岩石中,鈾、釷和鉀都有緊密的相關性。
Ⅳ 常見的回歸分析方法有哪些
1/6分步閱讀
1.線性回歸方法:通常因變數和一個(或者多個)自變數之間擬合出來是一條直線(回歸線),通常可以用一個普遍的公式來表示:Y(因變數)=a*X(自變數)+b+c,其中b表示截距,a表示直線的斜率,c是誤差項。如下圖所示。
2/6
2.邏輯回歸方法:通常是用來計算「一個事件成功或者失敗」的概率,此時的因變數一般是屬於二元型的(1 或0,真或假,有或無等)變數。以樣本極大似然估計值來選取參數,而不採用最小化平方和誤差來選擇參數,所以通常要用log等對數函數去擬合。如下圖。
3/6
3.多項式回歸方法:通常指自變數的指數存在超過1的項,這時候最佳擬合的結果不再是一條直線而是一條曲線。比如:拋物線擬合函數Y=a+b*X^2,如下圖所示。
4/6
4.嶺回歸方法:通常用於自變數數據具有高度相關性的擬合中,這種回歸方法可以在原來的偏差基礎上再增加一個偏差度來減小總體的標准偏差。如下圖是其收縮參數的最小誤差公式。
5/6
5.套索回歸方法:通常也是用來二次修正回歸系數的大小,能夠減小參量變化程度以提高線性回歸模型的精度。如下圖是其懲罰函數,注意這里的懲罰函數用的是絕對值,而不是絕對值的平方。
6/6
6.ElasticNet回歸方法:是Lasso和Ridge回歸方法的融合體,使用L1來訓練,使用L2優先作為正則化矩陣。當相關的特徵有很多個時,ElasticNet不同於Lasso,會選擇兩個。如下圖是其常用的理論公式。
Ⅳ 回歸分析是什麼意思
回歸分析是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的變數的多少,分為一元回歸和多元回歸分析。
在大數據分析中,回歸分析是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關系。這種技術通常用於預測分析,時間序列模型以及發現變數之間的因果關系。例如,司機的魯莽駕駛與道路交通事故數量之間的關系,最好的研究方法就是回歸。
回歸分析注意問題:
1、定性分析是前提
在應用相關和回歸分析時,一般分為定性分析和定量分析兩個階段,其中定性分析雖然並不復雜,但也及其重要。通過定性分析,可以判明分析的變數之間是否存在相互依存關系,而後才能轉入定量分析。
需要指出的是,不能不加分析地,將兩個變數湊合在一起進行定量分析,這樣往往會得出虛假相關的結論。
2、確定變數是關鍵
回歸分析是用於分析一個事物如何隨其他事物的變化而變化,因此在進行回歸分析時,十分關鍵的一步就是,確定哪個事物是需要解釋的,即哪個變數是被解釋變數(記為y),哪些事物是用於解釋其他變數的,即哪些變數是解釋變數(記為x)。
3、選用函數有講究
為了反映解釋變數和被解釋變數之間的有機聯系,在回歸分析中有多種可供選擇的函數,即定量分析數學表達式。這里就涉及到如何根據變數之間的客觀聯系來選用正確的函數這個問題。
通常在專業知識和理論以及實踐經驗的基礎上,還需藉助相關圖法(比如觀察散點圖),來判明相關和回歸的性質,尋找合適的回歸線,然後選用正確的數學表達式。
Ⅵ 回歸分析法是什麼
回歸分析法指利用數據統計原理,對大量統計數據進行數學處理,並確定因變數與某些自變數的相關關系,建立一個相關性較好的回歸方程(函數表達式),並加以外推,用於預測今後因變數變化的分析方法。
回歸分析搭告法中,根據因變數和自變數的個數來分類,可分為一元回歸分析和多元回歸分析;根據因變數和自變數的函數表毀枝搜達式來分類,可分為線性回纖歷歸分析和非線性回歸分析。
回歸分析法是一種結果較為精確的方法,有利於幫助市場研究人員,數據分析人員以及數據科學家排除並估計出一組最佳的變數,用來構建預測模型。但其計算則較為復雜。
Ⅶ 數據分析師必須掌握的7種回歸分析方法
1、線性回歸
線性回歸是數據分析法中最為人熟知的建模技術之一。它一般是人們在學習預測模型時首選的技術之一。在這種數據分析法中,由於變數是連續的,因此自變數可以是連續的也可以是離散的,回歸線的性質是線性的。
線性回歸使用最佳的擬合直線(也就是回歸線)在因變數(Y)和一個或多個自變數(X)之間建立一種關系。
2、邏輯回歸
邏輯回歸是用來計算“事件=Success”和“事件=Failure”的概率。當因變數的類型屬於二元(1 /0,真/假,是/否)變數時,我們就應該使用邏輯回歸.
邏輯回歸不要求自變數和因變數是線性關系。它可以處理各種類型的關系,因為它對預測的相對風險指數OR使用了一個非線性的log轉換。
為了避免過擬合和欠擬合,我們應該包括所有重要的變數。有一個很好的方法來確保這種情況,就是使用逐步篩選方法來估計邏輯回歸。它需要大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差。
3、多項式回歸
對於一個回歸方程,如果自變數的指數大於1,那麼它就是多項式回歸方程。雖然會有一個誘導可以擬合一個高次多項式並得到較低的錯誤,但這可能會導致過擬合。你需要經常畫出關系圖來查看擬合情況,並且專注於保證擬合合理,既沒有過擬合又沒有欠擬合。下面是一個圖例,可以幫助理解:
明顯地向兩端尋找曲線點,看看這些形狀和趨勢是否有意義。更高次的多項式最後可能產生怪異的推斷結果。
4、逐步回歸
在處理多個自變數時,我們可以使用這種形式的回歸。在這種技術中,自變數的選擇是在一個自動的過程中完成的,其中包括非人為操作。
這一壯舉是通過觀察統計的值,如R-square,t-stats和AIC指標,來識別重要的變數。逐步回歸通過同時添加/刪除基於指定標準的協變數來擬合模型。
5、嶺回歸
嶺回歸分析是一種用於存在多重共線性(自變數高度相關)數據的技術。在多重共線性情況下,盡管最小二乘法(OLS)對每個變數很公平,但它們的差異很大,使得觀測值偏移並遠離真實值。嶺回歸通過給回歸估計上增加一個偏差度,來降低標准誤差。
除常數項以外,這種回歸的假設與最小二乘回歸類似;它收縮了相關系數的值,但沒有達到零,這表明它沒有特徵選擇功能,這是一個正則化方法,並且使用的是L2正則化。
6、套索回歸
它類似於嶺回歸。除常數項以外,這種回歸的假設與最小二乘回歸類似;它收縮系數接近零(等於零),確實有助於特徵選擇;這是一個正則化方法,使用的是L1正則化;如果預測的一組變數是高度相關的,Lasso 會選出其中一個變數並且將其它的收縮為零。
7、回歸
ElasticNet是Lasso和Ridge回歸技術的混合體。它使用L1來訓練並且L2優先作為正則化矩陣。當有多個相關的特徵時,ElasticNet是很有用的。Lasso會隨機挑選他們其中的一個,而ElasticNet則會選擇兩個。Lasso和Ridge之間的實際的優點是,它允許ElasticNet繼承循環狀態下Ridge的一些穩定性。
通常在高度相關變數的情況下,它會產生群體效應;選擇變數的數目沒有限制;並且可以承受雙重收縮。
關於數據分析師必須掌握的7種回歸分析方法,青藤小編就和您分享到這里了,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的職業前景及就業內容,可以點擊本站的其他文章進行學習。
Ⅷ 回歸分析的基本步驟是什麼
回歸分析:
1、確定變數:明確預測的具體目標,也就確定了因變數。如預測具體目標是下一年度的銷售量,那麼銷售量Y就是因變數。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變數,並從中選出主要的影響因素。
2、建立預測模型:依據自變數和因變數的歷史統計資料進行計算,在此基礎上建立回歸分析方程,即回歸分析預測模型。
3、進行相關分析:回歸分析是對具有因果關系的影響因素(自變數)和預測對象(因變數)所進行的數理統計分析處理。只有當自變數與因變數確實存在某種關系時,建立的回歸方程才有意義。
因此,作為自變數的因素與作為因變數的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變數和因變數的相關的程度。
4、計算預測誤差:回歸預測模型是否可用於實際預測,取決於對回歸預測模型的檢驗和對預測誤差的計算。回歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。
5、確定預測值:利用回歸預測模型計算預測值,並對預測值進行綜合分析,確定最後的預測值。
Logistic Regression邏輯回歸
邏輯回歸是用來計算「事件=Success」和「事件=Failure」的概率。當因變數的類型屬於二元(1 / 0,真/假,是/否)變數時,應該使用邏輯回歸。這里,Y的值為0或1,它可以用下方程表示。
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk
在這里使用的是的二項分布(因變數),需要選擇一個對於這個分布最佳的連結函數。它就是Logit函數。在上述方程中,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。
以上內容參考:網路-回歸分析
Ⅸ 什麼是回歸分析原理與方法
從純數據運算的角度解釋線性回歸分析運算的原理不太容易懂,因此我考慮用圖解的方法解釋回歸分析的運算原理,如下圖:
對於圖中那些散點,想探尋一根直線,使得所有點到該直線的距離的總和是最小,這就是回歸分析。
換句話說,以上圖為例,回歸分析的本質就是探尋height和weight之間最准確的關系,這個「最准確」就是指所有點到該直線的距離的總和是最小,即偏差最小。
你們常聽說的「最小二乘估計」就是探尋究竟是哪一根線與所有點的距離總和最小。以上圖為例,圖中的虛線(表達式為weight=0.926+0.425*height)就是所求直線,也就是我們常說的線性回歸方程。
更多數據分析答疑、文章、視頻教程,請到謙瑞數據官方網站觀看。
Ⅹ 回歸分析的認識及簡單運用
回歸分析的認識及簡單運用
回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變數的多少,分為回歸和多重回歸分析;按照自變數的多少,可分為一元回歸分析和多元回歸分析;按照自變數和因變數之間的關系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變數和一個因變數,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關系,則稱為多重線性回歸分析。
定義
回歸分析是應用極其廣泛的數據分析方法之一。它基於觀測數據建立變數間適當的依賴關系,以分析數據內在規律,並可用於預報、控制等問題。
方差齊性
線性關系
效應累加
變數無測量誤差
變數服從多元正態分布
觀察獨立
模型完整(沒有包含不該進入的變數、也沒有漏掉應該進入的變數)
誤差項獨立且服從(0,1)正態分布。
現實數據常常不能完全符合上述假定。因此,統計學家研究出許多的回歸模型來解決線性回歸模型假定過程的約束。
研究一個或多個隨機變數Y1 ,Y2 ,…,Yi與另一些變數X1、X2,…,Xk之間的關系的統計方法,又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變數,X1、X2,…,Xk為自變數。回歸分析是一類數學模型,特別當因變數和自變數為線性關系時,它是一種特殊的線性模型。最簡單的情形是一個自變數和一個因變數,且它們大體上有線性關系,這叫一元線性回歸,即模型為Y=a+bX+ε,這里X是自變數,Y是因變數,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大於0)σ^2與X的值無關。若進一步假定隨機誤差遵從正態分布,就叫做正態線性模型。一般的情形,它有k個自變數和一個因變數,因變數的值可以分解為兩部分:一部分是由於自變數的影響,即表示為自變數的函數,其中函數形式已知,但含一些未知參數;另一部分是由於其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數形式為未知參數的線性函數時,稱線性回歸分析模型;當函數形式為未知參數的非線性函數時,稱為非線性回歸分析模型。當自變數的個數大於1時稱為多元回歸,當因變數個數大於1時稱為多重回歸。
回歸分析的主要內容為:
①從一組數據出發,確定某些變數之間的定量關系式,即建立數學模型並估計其中的未知參數。估計參數的常用方法是最小二乘法。
②對這些關系式的可信程度進行檢驗。
③在許多自變數共同影響著一個因變數的關系中,判斷哪個(或哪些)自變數的影響是顯著的,哪些自變數的影響是不顯著的,將影響顯著的自變數入模型中,而剔除影響不顯著的變數,通常用逐步回歸、向前回歸和向後回歸等方法。
④利用所求的關系式對某一生產過程進行預測或控制。回歸分析的應用是非常廣泛的,統計軟體包使各種回歸方法計算十分方便。
在回歸分析中,把變數分為兩類。一類是因變數,它們通常是實際問題中所關心的一類指標,通常用Y表示;而影響因變數取值的的另一類變數稱為自變數,用X來表示。
回歸分析研究的主要問題是:
(1)確定Y與X間的定量關系表達式,這種表達式稱為回歸方程;
(2)對求得的回歸方程的可信度進行檢驗;
(3)判斷自變數X對因變數Y有無影響;
(4)利用所求得的回歸方程進行預測和控制。
回歸分析可以說是統計學中內容最豐富、應用最廣泛的分支。這一點幾乎不帶誇張。包括最簡單的t檢驗、方差分析也都可以歸到線性回歸的類別。而卡方檢驗也完全可以用logistic回歸代替。
眾多回歸的名稱張口即來的就有一大片,線性回歸、logistic回歸、cox回歸、poission回歸、probit回歸等等等等,可以一直說的你頭暈。為了讓大家對眾多回歸有一個清醒的認識,這里簡單地做一下總結:
1、線性回歸,這是我們學習統計學時最早接觸的回歸,就算其它的你都不明白,最起碼你一定要知道,線性回歸的因變數是連續變數,自變數可以是連續變數,也可以是分類變數。如果只有一個自變數,且只有兩類,那這個回歸就等同於t檢驗。如果只有一個自變數,且有三類或更多類,那這個回歸就等同於方差分析。如果有2個自變數,一個是連續變數,一個是分類變數,那這個回歸就等同於協方差分析。所以線性回歸一定要認准一點,因變數一定要是連續變數。
2、logistic回歸,與線性回歸並成為兩大回歸,應用范圍一點不亞於線性回歸,甚至有青出於藍之勢。因為logistic回歸太好用了,而且太有實際意義了。解釋起來直接就可以說,如果具有某個危險因素,發病風險增加2.3倍,聽起來多麼地讓人通俗易懂。線性回歸相比之下其實際意義就弱了。logistic回歸與線性回歸恰好相反,因變數一定要是分類變數,不可能是連續變數。分類變數既可以是二分類,也可以是多分類,多分類中既可以是有序,也可以是無序。二分類logistic回歸有時候根據研究目的又分為條件logistic回歸和非條件logistic回歸。條件logistic回歸用於配對資料的分析,非條件logistic回歸用於非配對資料的分析,也就是直接隨機抽樣的資料。無序多分類logistic回歸有時候也成為多項logit模型,有序logistic回歸有時也稱為累積比數logit模型。
3、cox回歸,cox回歸的因變數就有些特殊,因為他的因變數必須同時有2個,一個代表狀態,必須是分類變數,一個代表時間,應該是連續變數。只有同時具有這兩個變數,才能用cox回歸分析。cox回歸主要用於生存資料的分析,生存資料至少有兩個結局變數,一是死亡狀態,是活著還是死亡?二是死亡時間,如果死亡,什麼時間死亡?如果活著,從開始觀察到結束時有多久了?所以有了這兩個變數,就可以考慮用cox回歸分析。
4、poisson回歸,poisson回歸相比就不如前三個用的廣泛了。但實際上,如果你能用logistic回歸,通常也可以用poission回歸,poisson回歸的因變數是個數,也就是觀察一段時間後,發病了多少人?或者死亡了多少人?等等。其實跟logistic回歸差不多,因為logistic回歸的結局是是否發病,是否死亡,也需要用到發病例數、死亡例數。大家仔細想想,其實跟發病多少人,死亡多少人一個道理。只是poission回歸名氣不如logistic回歸大,所以用的人也不如logistic回歸多。但不要因此就覺得poisson回歸沒有用。
5、probit回歸,在醫學里真的是不大用,最關鍵的問題就是probit這個詞太難理解了,通常翻譯為概率單位。probit函數其實跟logistic函數十分接近,二者分析結果也十分接近。可惜的是,probit回歸的實際含義真的不如logistic回歸容易理解,由此導致了它的默默無名,但據說在社會學領域用的似乎更多一些。
6、負二項回歸。所謂負二項指的是一種分布,其實跟poission回歸、logistic回歸有點類似,poission回歸用於服從poission分布的資料,logistic回歸用於服從二項分布的資料,負二項回歸用於服從負二項分布的資料。說起這些分布,大家就不願意聽了,多麼抽象的名詞,我也很頭疼。如果簡單點理解,二項分布你可以認為就是二分類數據,poission分布你可以認為是計數資料,也就是個數,而不是像身高等可能有小數點,個數是不可能有小數點的。負二項分布呢,也是個數,只不過比poission分布更苛刻,如果你的結局是個數,而且結局可能具有聚集性,那可能就是負二項分布。簡單舉例,如果調查流感的影響因素,結局當然是流感的例數,如果調查的人有的在同一個家庭里,由於流感具有傳染性,那麼同一個家裡如果一個人得流感,那其他人可能也被傳染,因此也得了流感,那這就是具有聚集性,這樣的數據盡管結果是個數,但由於具有聚集性,因此用poission回歸不一定合適,就可以考慮用負二項回歸。既然提到這個例子,用於logistic回歸的數據通常也能用poission回歸,就像上面案例,我們可以把結局作為二分類,每個人都有兩個狀態,得流感或者不得流感,這是個二分類結局,那就可以用logistic回歸。但是這里的數據存在聚集性怎麼辦呢,幸虧logistic回歸之外又有了更多的擴展,你可以用多水平logistic回歸模型,也可以考慮廣義估計方程。這兩種方法都可以處理具有層次性或重復測量資料的二分類因變數。
7、weibull回歸,有時中文音譯為威布爾回歸。weibull回歸估計你可能就沒大聽說過了,其實這個名字只不過是個噱頭,嚇唬人而已。上一篇說過了,生存資料的分析常用的是cox回歸,這種回歸幾乎統治了整個生存分析。但其實夾縫中還有幾個方法在頑強生存著,而且其實很有生命力,只是國內大多不願用而已。weibull回歸就是其中之一。cox回歸為什麼受歡迎呢,因為它簡單,用的時候不用考慮條件(除了等比例條件之外),大多數生存數據都可以用。而weibull回歸則有條件限制,用的時候數據必須符合weibull分布。怎麼,又是分布?!估計大家頭又大了,是不是想直接不往下看了,還是用cox回歸吧。不過我還是建議看下去。為什麼呢?相信大家都知道參數檢驗和非參數檢驗,而且可能更喜歡用參數檢驗,如t檢驗,而不喜歡用非參數檢驗,如秩和檢驗。那這里的weibull回歸和cox回歸基本上可以說是分別對應參數檢驗和非參數檢驗。參數檢驗和非參數檢驗的優缺點我也在前面文章里通俗介紹了,如果數據符合weibull分布,那麼直接套用weibull回歸當然是最理想的選擇,他可以給出你最合理的估計。如果數據不符合weibull分布,那如果還用weibull回歸,那就套用錯誤,肯定結果也不會真實到哪兒去。所以說,如果你能判斷出你的數據是否符合weibull分布,那當然最好的使用參數回歸,也就是weibull回歸。但是如果你實在沒什麼信心去判斷數據分布,那也可以老老實實地用cox回歸。cox回歸可以看作是非參數的,無論數據什麼分布都能用,但正因為它什麼數據都能用,所以不可避免地有個缺點,每個數據用的都不是恰到好處。weibull回歸就像是量體裁衣,把體形看做數據,衣服看做模型,weibull回歸就是根據你的體形做衣服,做出來的肯定對你正合身,對別人就不一定合身了。cox回歸呢,就像是到商場去買衣服,衣服對很多人都合適,但是對每個人都不是正合適,只能說是大致合適。至於到底是選擇麻煩的方式量體裁衣,還是圖簡單到商場直接去買現成的,那就根據你的喜好了,也根據你對自己體形的了解程度,如果非常熟悉,當然就量體裁衣了。如果不大了解,那就直接去商場買大眾化衣服吧。
8、主成分回歸。主成分回歸是一種合成的方法,相當於主成分分析與線性回歸的合成。主要用於解決自變數之間存在高度相關的情況。這在現實中不算少見。比如你要分析的自變數中同時有血壓值和血糖值,這兩個指標可能有一定的相關性,如果同時放入模型,會影響模型的穩定,有時也會造成嚴重後果,比如結果跟實際嚴重不符。當然解決方法很多,最簡單的就是剔除掉其中一個,但如果你實在捨不得,畢竟這是辛辛苦苦調查上來的,刪了太可惜了。如果捨不得,那就可以考慮用主成分回歸,相當於把這兩個變數所包含的信息用一個變數來表示,這個變數我們稱它叫主成分,所以就叫主成分回歸。當然,用一個變數代替兩個變數,肯定不可能完全包含他們的信息,能包含80%或90%就不錯了。但有時候我們必須做出抉擇,你是要100%的信息,但是變數非常多的模型?還是要90%的信息,但是只有1個或2個變數的模型?打個比方,你要診斷感冒,是不是必須把所有跟感冒有關的症狀以及檢查結果都做完?還是簡單根據幾個症狀就大致判斷呢?我想根據幾個症狀大致能能確定90%是感冒了。不用非得100%的信息不是嗎?模型也是一樣,模型是用於實際的,不是空中樓閣。既然要用於實際,那就要做到簡單。對於一種疾病,如果30個指標能夠100%確診,而3個指標可以診斷80%,我想大家會選擇3個指標的模型。這就是主成分回歸存在的基礎,用幾個簡單的變數把多個指標的信息綜合一下,這樣幾個簡單的主成分可能就包含了原來很多自變數的大部分信息。這就是主成分回歸的原理。
9、嶺回歸。嶺回歸的名稱由來我也沒有查過,可能是因為它的圖形有點像嶺。不要糾結於名稱。嶺回歸也是用於處理自變數之間高度相關的情形。只是跟主成分回歸的具體估計方法不同。線性回歸的計算用的是最小二乘估計法,當自變數之間高度相關時,最小二乘回歸估計的參數估計值會不穩定,這時如果在公式里加點東西,讓它變得穩定,那就解決了這一問題了。嶺回歸就是這個思想,把最小二乘估計里加個k,改變它的估計值,使估計結果變穩定。至於k應該多大呢?可以根據嶺跡圖來判斷,估計這就是嶺回歸名稱的由來。你可以選非常多的k值,可以做出一個嶺跡圖,看看這個圖在取哪個值的時候變穩定了,那就確定k值了,然後整個參數估計不穩定的問題就解決了。
10、偏最小二乘回歸。偏最小二乘回歸也可以用於解決自變數之間高度相關的問題。但比主成分回歸和嶺回歸更好的一個優點是,偏最小二乘回歸可以用於例數很少的情形,甚至例數比自變數個數還少的情形。聽起來有點不可思議,不是說例數最好是自變數個數的10倍以上嗎?怎麼可能例數比自變數還少,這還怎麼計算?可惜的是,偏最小二乘回歸真的就有這么令人發指的優點。所以,如果你的自變數之間高度相關、例數又特別少、而自變數又很多(這么多無奈的毛病),那就現在不用發愁了,用偏最小二乘回歸就可以了。它的原理其實跟主成分回歸有點像,也是提取自變數的部分信息,損失一定的精度,但保證模型更符合實際。因此這種方法不是直接用因變數和自變數分析,而是用反映因變數和自變數部分信息的新的綜合變數來分析,所以它不需要例數一定比自變數多。偏最小二乘回歸還有一個很大的優點,那就是可以用於多個因變數的情形,普通的線性回歸都是只有一個因變數,而偏最小二乘回歸可用於多個因變數和多個自變數之間的分析。因為它的原理就是同時提取多個因變數和多個自變數的信息重新組成新的變數重新分析,所以多個因變數對它來說無所謂。
看了以上的講解,希望能對大家理解回歸分析的運用有些幫助。
以上是小編為大家分享的關於回歸分析的認識及簡單運用的相關內容,更多信息可以關注環球青藤分享更多干貨