① 回歸分析法
回歸分析法,是在研究礦坑涌水量與其影響因素存在一定相關關系後,提出的一種數理統計方法。礦坑涌水量是在各種自然和人為因素綜合作用下有規律地變化著。影響礦坑涌水量變化的因素極其復雜繁多,甚至有些因素我們目前還沒有發現,有些因素雖被發現但也無力調控和測定。因此,大量事實告訴我們,礦坑涌水量(稱為因變數)與某些影響因素(稱為自變數)的關系也存在數學中稱之為相關的關系。回歸分析法就是利用數學統計的方法,找出礦坑涌水量與影響因素之間的相關關系的數學表達式——回歸方程,用求得的回歸方程來預測礦坑涌水量。
回歸分析法與水文地質比擬法的原理基本相同,都是尋求礦坑涌水量與其主要影響因素之間的關系表達式,並以這種尋找到的數學關系式來預測新的礦坑涌水量。所不同的是數學表達式的來源不同。水文地質比擬法,多數是根據經驗提出,用起來方便靈活,缺點是缺乏嚴密性;回歸分析法,是以已經有的實測數據為基礎,通過數理統計的方法建立回歸方程,其優點是可靠性較水文地質比擬法大一些,但計算較復雜。
應該注意的是,回歸方程是一種非確定性的變數關系,嚴格地講,它不允許外推。但具體工作中往往又需要外推,因此,回歸方程外推的范圍不宜過大。當回歸方程為直線時,外推深度一般不應超過試驗降深的1.5~1.75倍;當回歸方程為曲線相關時,雖可適當增大外推范圍,但一般也不宜超過2倍。同時,必須根據礦床具體的水文地質條件,檢驗外推結果是否合理。
幾種常用的回歸方程如下:
(一)二元直線相關
當礦坑涌水量與主要影響因素之間為直線相關關系時,其數學表達式為
Q=a+bs (4-5)
式中:Q為試驗時的涌水量;S為當抽水量為Q時相對應的水位降深;a為常數;b為回歸系數,它表示當S每增加1m時涌水量平均增加的水量數值。
a,b可根據試驗數據利用最小二乘法求得
雙層水位礦床地下水深層局部疏干方法的理論與實踐
式中:
根據求得的a,b系數值,便可寫出回歸方程。
(二)三元直線相關
如果礦坑涌水量與兩個影響因素存在直線相關時,其數學表達式便為三元直線相關(比如降深S和時間t):
Q=b0+b1S+b2t (4-8)
式中:b0為常數;b1,b2分別為水量Q對自變數S和t的回歸系數;S,t為當礦坑涌水量為Q時的兩個因素自變數;b0,b1,b2可用最小二乘法確定;
雙層水位礦床地下水深層局部疏干方法的理論與實踐
根據求得的b0,b1,b2可以寫出三元直線方程。
(三)涌水量-降深曲線法(Q-S曲線法)
涌水量-降深曲線法也稱涌水量曲線法,其實質就是利用抽(放)水的試驗資料,建立涌水量(Q)和降深(S)之間的關系曲線方程,根據試驗階段和未來開采階段水文地質條件的相似性,合理地把Q-S曲線外推,來預測礦坑涌水量。
大量試驗資料證明,涌水量曲線一般有4種類型(圖4-1)。
圖4-1 涌水量-降深曲線圖
(1)直線型
Q=bs
式中:
這種類型的曲線方程,一般表現為地下水流呈層流狀態,抽水時水位降深與含水層厚度相比很小。
(2)拋物線型
S=aQ+bQ2 (4-11)
雙層水位礦床地下水深層局部疏干方法的理論與實踐
(3)冪函數曲線型
雙層水位礦床地下水深層局部疏干方法的理論與實踐
(4)對數曲線型
Q=a+blgS (4-17)
式中:
雙層水位礦床地下水深層局部疏干方法的理論與實踐
上述各式中a,b均為待定系數,求出a,b後便可寫出涌水量曲線方程。
一般情況下,圖4-1中的2號曲線代表的是拋物線型曲線,它表示強富水性含水層在抽水強烈時,地下水抽水井附近出現三維流的情況下的曲線形態;第3,4兩種類型曲線一般表示含水層規模較小,補給條件比較差情況下出現的曲線類型。
涌水量曲線方程的形態不但與含水層的規模、性質以及補給徑流條件有關,而且與抽水強度的大小和抽水時間長短也有關系。因此,採用Q-S曲線方程法預測礦坑涌水量時,一般要求抽(放)水試驗的規模盡量大一些,常採取大口徑、大降深群孔抽(放)水試驗,以求盡量符合未來的開采狀態,充分揭露和顯示其盡量多的水文地質條件,盡量波及礦床的各種邊界,從而求取最大可能符合實際條件的礦坑涌水量。
② 如何運用Matlab進行地理加權回歸分析
地理加權回歸,由英國Newcastle大學地理統計學家A.S Fortheringham及其同事基於空間變系數回歸模型並利用局部多項式光滑的思想提出的模型。模型公式如下:
其中(yi;xi1,xi2,…,xip)為在地理位置(ui,vi)處的因變數y和自變數x1,x2,…,xp的觀測值(i=1,2,…,n).βj(ui,vi)(j=0,1,…,p)為觀測點(ui,vi)處的未知參數,它是(ui,vi)的未知函,εi(i=1,2,…,n)為獨立同分布的隨機誤差,通常假定其服從N(0,σ2).
③ 回歸分析方法
§3.2 回歸分析方法
回歸分析方法,是研究要素之間具體的數量關系的一種強有力的工具,能夠建立反映地理要素之間具體的數量關系的數學模型,即回歸模型。
1. 一元線性回歸模型
1) 一元線性回歸模型的基本結構形式
假設有兩個地理要素(變數)x和y,x為自變數,y為因變數。則一元線性回歸模型的基本結構形式:
a和b為待定參數;α=1,2,…,n為各組觀測數據的下標; εa為隨機變數。如果記a^和b^ 分別為參數a與b的擬合值,則得到一元線性回歸模型
ÿ 是y 的估計值,亦稱回歸值。回歸直線——代表x與y之間相關關系的擬合直線
2) 參數a、b的最小二ÿ乘估計
參數a與b的擬合值:
,
建立一元線性回歸模型的過程,就是用變數 和 的實際觀測數據確定參數a和b的最小二乘估計值α^和β^ 的過程。
3) 一元線性回歸模型的顯著性檢驗
線性回歸方程的顯著性檢驗是藉助於F檢驗來完成的。
檢驗統計量F:
誤差平方和:
回歸平方和:
F≈F(1,n-2)。在顯著水平a下,若 ,則認為回歸方程效果在此水平下顯著;當 時,則認為方程效果不明顯。
[舉例說明]
例1:在表3.1.1中,將國內生產總值(x1)看作因變數y,將農業總產值(x2)看作自變數x,試建立它們之間的一元線性回歸模型並對其進行顯著性檢驗。
解:
(1) 回歸模型
將y和x的樣本數據代入參數a與b的擬合公式,計算得:
故,國內生產總值與農業總產值之間的回歸方程為
(2) 顯著性檢驗
在置信水平α=0.01下查F分布表得:F0.01(1,46)=7.22。由於F=4951.098 >> F0.01(1,46)=7.22,所以回歸方程(3.2.7)式在置信水平a=0.01下是顯著的。
2. 多元線性回歸模型
在多要素的地理系統中,多個(多於兩個)要素之間也存在著相關影響、相互關聯的情況。因此,多元地理回歸模型更帶有普遍性的意義。
1) 多元線性回歸模型的建立
(1) 多元線性回歸模型的結構形式
假設某一因變數y受k 個自變數 的影響,其n組觀測值為 。則多元線性回歸模型的結構形式:
為待定參數, 為隨機變數。如果 分別為 的擬合值,則回歸方程為
b0為常數, 稱為偏回歸系數。
偏回歸系數 ——當其它自變數都固定時,自變數 每變化一個單位而使因變數xi平均改變的數值。
(2) 求解偏回歸系數
,
2) 多元線性回歸模型的顯著性檢驗
用F檢驗法。
F統計量:
當統計量F計算出來之後,就可以查F分布表對模型進行顯著性檢驗。
[舉例說明]
例2:某地區各城市的公共交通營運總額(y)與城市人口總數(x1 )以及工農業總產值(x2)的年平均統計數據如表3.2.1(點擊展開顯示該表)所示。試建立y與x1及x2之間的線性回歸模型並對其進行顯著性檢驗。
表3.2.1 某地區城市公共交通營運額、人口數及工農業總產值的年平均數據
城市序號
公共交通營運額y/103人公里 人口數x1/103人 工農業總產值x2
/107元
1 6825.99 1298.00 437.26
2 512.00 119.80 1286.48
... ... ... ...
14 192.00 12.47 1072.27
註:本表數據詳見書本P54。
解:
(1) 計算線性回歸模型
由表3.2.1中的數據,有
計算可得:
故y與x1 及y2之間的線性回歸方程
(2) 顯著性檢驗
故:
在置信水平a=0.01下查F分布表知:F0.01(2,11)=7.21。由於F=38.722> F0.01(2,11)=7.21,所以在置信水平a=0.01下,回歸方程式是顯著的。
3. 非線性回歸模型的建立方法
1) 非線性關系的線性化
(1) 非線性關系模型的線性化
對於要素之間的非線性關系通過變數替換就可以將原來的非線性關系轉化為新變數下的線性關系。
[幾種非線性關系模型的線性化]
① 於指數曲線 ,令 , ,將其轉化為直線形式:
,其中, ;
② 對於對數曲線 ,令 , ,將其轉化為直線形式:
;
③ 對於冪函數曲線 ,令 , ,將其轉化為直線形式:
,其中,
④ 對於雙曲線 ,令 ,將其轉化為直線形式:
;
⑤ 對於S型曲線 ,將其轉化為直線形式:
;
⑥ 對於冪函數乘積:
令 將其轉化為直線形式:
其中, ;
⑦ 對於對數函數和:
令 ,將其化為線性形式:
(2) 建立非線性回歸模型的一般方法
① 通過適當的變數替換將非線性關系線性化;
② 用線性回歸分析方法建立新變數下的線性回歸模型:
③ 通過新變數之間的線性相關關系反映原來變數之間的非線性相關關系。
3) 非線性回歸模型建立的實例
非線性回歸模型建立的實例
景觀是地理學的重要研究內容之一。有關研究表明(Li,2000;徐建華等,2001),任何一種景觀類型的斑塊,其面積(Area)與周長(Perimeter)之間的數量關系可以用雙對數曲線來描述,即
例3:表3.2.2給出了某地區林地景觀斑塊面積(Area)與周長(Perimeter)的數據。試建立林地景觀斑塊面積A與周長P之間的雙對數相關關系模型。
表3.2.2某地區各個林地景觀斑塊面積(m2)與周長(m)
序號 面積A 周長P 序號 面積A 周長P
1 10447.370 625.392 42 232844.300 4282.043
2 15974.730 612.286 43 4054.660 289.307
... ... ... ... ... ...
41 1608.625 225.842 82 564370.800 12212.410
註:本表數據詳見書本57和58頁。
解:因為林地景觀斑塊面積(A)與周長(P)之間的數量關系是雙對數曲線形式,即
所以對表3.2.2中的原始數據進行對數變換,變換後得到的各新變數對應的觀測數據如表3.2.3所示。
④ 回歸分析的基本步驟是什麼
回歸分析:
1、確定變數:明確預測的具體目標,也就確定了因變數。如預測具體目標是下一年度的銷售量,那麼銷售量Y就是因變數。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變數,並從中選出主要的影響因素。
2、建立預測模型:依據自變數和因變數的歷史統計資料進行計算,在此基礎上建立回歸分析方程,即回歸分析預測模型。
3、進行相關分析:回歸分析是對具有因果關系的影響因素(自變數)和預測對象(因變數)所進行的數理統計分析處理。只有當自變數與因變數確實存在某種關系時,建立的回歸方程才有意義。
因此,作為自變數的因素與作為因變數的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變數和因變數的相關的程度。
4、計算預測誤差:回歸預測模型是否可用於實際預測,取決於對回歸預測模型的檢驗和對預測誤差的計算。回歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。
5、確定預測值:利用回歸預測模型計算預測值,並對預測值進行綜合分析,確定最後的預測值。
Logistic Regression邏輯回歸
邏輯回歸是用來計算「事件=Success」和「事件=Failure」的概率。當因變數的類型屬於二元(1 / 0,真/假,是/否)變數時,應該使用邏輯回歸。這里,Y的值為0或1,它可以用下方程表示。
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk
在這里使用的是的二項分布(因變數),需要選擇一個對於這個分布最佳的連結函數。它就是Logit函數。在上述方程中,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。
以上內容參考:網路-回歸分析
⑤ 常見的回歸分析方法有哪些
1/6分步閱讀
1.線性回歸方法:通常因變數和一個(或者多個)自變數之間擬合出來是一條直線(回歸線),通常可以用一個普遍的公式來表示:Y(因變數)=a*X(自變數)+b+c,其中b表示截距,a表示直線的斜率,c是誤差項。如下圖所示。
2/6
2.邏輯回歸方法:通常是用來計算「一個事件成功或者失敗」的概率,此時的因變數一般是屬於二元型的(1 或0,真或假,有或無等)變數。以樣本極大似然估計值來選取參數,而不採用最小化平方和誤差來選擇參數,所以通常要用log等對數函數去擬合。如下圖。
3/6
3.多項式回歸方法:通常指自變數的指數存在超過1的項,這時候最佳擬合的結果不再是一條直線而是一條曲線。比如:拋物線擬合函數Y=a+b*X^2,如下圖所示。
4/6
4.嶺回歸方法:通常用於自變數數據具有高度相關性的擬合中,這種回歸方法可以在原來的偏差基礎上再增加一個偏差度來減小總體的標准偏差。如下圖是其收縮參數的最小誤差公式。
5/6
5.套索回歸方法:通常也是用來二次修正回歸系數的大小,能夠減小參量變化程度以提高線性回歸模型的精度。如下圖是其懲罰函數,注意這里的懲罰函數用的是絕對值,而不是絕對值的平方。
6/6
6.ElasticNet回歸方法:是Lasso和Ridge回歸方法的融合體,使用L1來訓練,使用L2優先作為正則化矩陣。當相關的特徵有很多個時,ElasticNet不同於Lasso,會選擇兩個。如下圖是其常用的理論公式。