❶ 基於回歸分析的海洋地質調查研究及實例應用
梁廣1,2邵長高1,2
(1.廣州海洋地質調查局 廣州 510760;2.國土資源部海底礦產資源重點實驗室 廣州 510760)
第一作者簡介:梁廣(1972—),男,工程師,主要從事網路管理和數據管理工作,E-mail:[email protected]。
摘要 近年來資源勘探已經覆蓋大部分陸地區域,越來越多的國家把目光投向海洋。海洋作為一個巨大的能源和資源寶庫在國民經濟、軍事戰略等的重要性也日益顯現。各個國家競相制定海洋科技開發規劃、戰略計劃,優先發展海洋新技術[1]。如何有效的從海量海洋地質調查數據中獲取有用信息是海洋新技術研究中的重要研究內容。論文針對海洋地質調查數據研究技術應用需求,引入了回歸分析模型到海洋地質調查資料庫中,詳細介紹了回歸分析的技術方法和在海洋地質調查資料庫研究中的應用優勢,為海洋科學研究提供了技術支持。
關鍵詞 海洋地質 回歸分析 資料庫
1 前言
隨著陸地資源的消耗和人類對能源越來越強烈的需求,海洋作為一個尚待大規模開發的能源和資源寶庫引起各國越來越多的關注。我國作為世界上最大的發展中國家對能源的需求也在大幅增加,近年來我國石油進口數量急劇增長,據估計到2020年我國石油進口依存度將達到60%。黨和國家領導人多次提出「資源、能源、特別是油氣資源,已成為我國經濟和社會發展的重要因素,解決後備能源問題是保證國家經濟安全的大事」。隨著我國國土資源大調查和海洋地質專項調查的開展,大量的海洋地質數據被收集和積累,並建立了多個滿足各自業務需求的信息系統和數據源[2]。如何有效的從海量海洋地質調查數據中獲取有用信息是海洋新技術研究中的重要研究內容。論文針對海洋地質調查數據研究技術應用手段的需求,引入了回歸分析技術到海洋地質調查資料庫中,詳細介紹了回歸分析的技術方法和在海洋地質調查資料庫研究中的應用優勢,為海洋科學研究提供了技術支持。
2 回歸分析概述
2.1 概述
回歸分析是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。回歸分析按照涉及的自變數的多少,可分為一元回歸分析和多元回歸分析;按照自變數和因變數之間的關系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變數和一個因變數,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關系,則稱為多元線性回歸分析[3]。回歸分析預測法可以從各數據之間的相互關系出發,通過對與預測對象有聯系的現象變動趨勢的分析,推算預測對象未來狀態數量表現的一種預測方法,通過對與預測對象(y)有聯系的多個因素X1,X2,……,Xk建立回歸模型。求出的回歸模型是否合理,是否符合變數之間的客觀規律性,引入相關因素是否有效,變數之間是否存在線性相關關系,模型能否付諸應用,這要通過檢驗決定。本文給出了兩方面的檢驗:一方面為實際意義檢驗。即利用理論所擬定的期望值與實際結果相比較是否相符。另一方面為統計檢驗:分別為擬合優度檢驗(R平方檢驗)、方程顯著性檢驗(F檢驗)、變數顯著性檢驗(t檢驗)[4]。論文主要介紹一元線性回歸分析在海洋地質調查資料庫中的應用。
2.2 一元線形回歸分析模型
線性回歸分析可以描述兩個要素之間的回歸關系。線性回歸分析公式為:yi=a+bxi+εi.其中a和b為參數.εi是誤差.我們定義Q(a,b)a為總誤差。則:
南海地質研究(2014)
對公式兩邊的a和b求導得:
南海地質研究(2014)
南海地質研究(2014)
x表示x的平均值.y表示y的平均值.
關系系數R2求值方法為[5]:
南海地質研究(2014)
2.3 多元線形回歸分析模型
研究對象y受多個因素x1,x2,x3,…xn的影響,假定各個影響因素與y的關系是線性的,則可建立多元線性回歸模型:
y=β0+β1x1+β2x2+…+βkxk+ε
式中:x1,x2,……,xk代表影響因子;ε 為隨機誤差;y 代表所研究的對象,即預測目標[3]。
2.4 統計檢驗
統計檢驗是運用數理統計的方法,對方程進行檢驗、對模型參數估計值的可靠性進行檢驗。這主要包括擬合優度檢驗、方程顯著性檢驗、變數顯著性檢驗,即常用的R2檢驗、F檢驗和t檢驗。
2.4.1 擬合優度檢驗(檢驗):
擬合優度檢驗就是檢驗回歸方程對樣本觀測值的擬合程度。又稱為復相關系數檢驗法,它是通過對總變差(總離差)的分解得到。
南海地質研究(2014)
其中
南海地質研究(2014)
總變差平方和S總是各個觀察值與樣本均值之差的平方和,反映了全部數據之間的差異;殘差平方和S殘是總變差平方和中未被回歸方程解釋的部分,由解釋變數x1,x2……,xk中未包含的一切因素對被解釋變數y的影響而造成的;回歸平方和S回是總變差平方和中由回歸方程解釋的部分。對於一個好的回歸模型,它應該較好地擬合樣本觀測值,S總中S殘越小越好。於是可以用:
南海地質研究(2014)
求得[4]。
2.4.2 方程顯著性檢驗(F 檢驗):
對於多元線性回歸方程,方程顯著性檢驗就是對總體的線性關系是否顯著成立作出推斷,即檢驗被解釋變數y與所有解釋變數X1,X2,……,Xk之間的線性關系是否顯著,
南海地質研究(2014)
即F統計量服從以(k,n-k-1)為自由度的F分布。首先根據樣本觀測值及回歸值計算出統計量F,於是在給定的顯著性水平a下,若F>Fa(k,n-k-1),則拒絕H0,判定被解釋變數y與所有解釋變數x1,x2,……,xk之間的回歸效果顯著,即確實存在線性關系;反之,則不顯著[4]。
2.4.3 變數顯著性檢驗(t檢驗):
對於多元回歸模型,方程的顯著性並不意味每個解釋變數對被解釋變數y的影響都是重要的。如果某個解釋變數並不重要,則應該從方程中把它剔除,重新建立更為簡單的方程。所以必須對每個解釋變數進行顯著性檢驗。
在給定的顯著性水平a下,若|ti|>ta/2(n-k-1),則拒絕H0,說明解釋變數xi對被解釋變數y有顯著影響,即xi是影響y的主要因素;反之,接受H0,說明解釋變數xi對被解釋變數y無顯著影響,則應刪除該因素[4]。
3 應用實例
論文利用線形回歸分析模型對南海海域海洋沉積物溫度進行了分析,其中散點圖顯示如圖1所示,回歸分析結果見表1。
圖1 水深與沉積物溫度散點圖
Fig.1 Water depth vs.sediment temperature
表1 水深沉積物溫度回歸分析結果Tab.1 The regression analysis result for Water depth vs.sediment temperature
讀取回歸結果如下:
截距:a=17.56;斜率:b=-0.0014;相關系數:R=0.276;測定系數:R2=0.076;F值:F=89.54。
建立回歸模型,並對結果進行檢驗
模型為:
F值的計算公式和結果為:
南海地質研究(2014)
其中P<0.0001。回歸結果證明,沉積物溫度與海水深度有著密切的關系,但是通過散點圖顯示,並不是溫度越深沉積物溫度越低。而是受到其他例如海底熱流,海洋環流等因素的影響。
4 結語
本文介紹了回歸分析在海洋地質調查研究中的應用,同時提供了回歸分析的技術原理及實現方法,並通過對南海沉積物與海水深度關系模型進行了應用分析,回歸結果顯示了兩者具有密切但是存在不確定性的關系。實驗結果得到有效的應用。
參考文獻
[1]單寶強,毛永強.2005.GIS中的坐標系定義與轉換[J].黑龍江國土資源,11,38-39
[2]蘇國輝,孫記紅,等.2011.海洋地質數據集成中的關鍵問題和方案[J].海洋地質前沿,11(27):51
[3]網路.回歸分析.http://ke..com/view/145440.htm
[4]沈聰.2009.基於EXCEL的回歸分析在足跡分析上的應用[M].遼寧警官高等專科學校本科畢業論文
[5]Cottrell A.Regression Analysis:Basic Concepts.http://www.wfu.e/~cottrell/ecn215/regress.pdf
The Marine Geological Survey Based on Regression Analysis
Liang Guang1,2,Shao Changgao1,2
(1.Guangzhou Marine Geological Survey,Guangzhou,510760;2.Key Laboratory of Marine Mineral Reasources,MLR,Guangzhou,510760)
Abstract:The new resources survey had covered most of the continental area at present.So,the ocean resources have attracted more and more attention now as it is a huge resource and energy reservoir that had a profound meaning to national economy and military strategy.The energy competition made manly countries developed new technology project and put the new ocean technology as the primary study area.However,how to abstract useful information from marine geological survey data is one of the most important study technologies.This paper focuses on the study of the deficit of marine database technology and introces regression analysis model and the application advantage of it.The purpose of this paper is to provide the technology support for marine study.Key word:Marine geology;Regression analysis model;Database
❷ 什麼是回歸分析,運用回歸分析有什麼作用
回歸分析(regressionanalysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。
運用十分廣泛,回歸分析按照涉及的變數的多少,分為一元回歸和多元回歸分析;按照因變數的多少,可分為簡單回歸分析和多重回歸分析;按照自變數和因變數之間的關系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變數和一個因變數,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且自變數之間存在線性相關,則稱為多重線性回歸分析。
(2)應用回歸分析方法進行數據統計分析的研究擴展閱讀:
回歸分析步驟
1、確定變數
明確預測的具體目標,也就確定了因變數。如預測具體目標是下一年度的銷售量,那麼銷售量Y就是因變數。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變數,並從中選出主要的影響因素。
2、建立預測模型
依據自變數和因變數的歷史統計資料進行計算,在此基礎上建立回歸分析方程,即回歸分析預測模型。
3、進行相關分析
回歸分析是對具有因果關系的影響因素(自變數)和預測對象(因變數)所進行的數理統計分析處理。只有當自變數與因變數確實存在某種關系時,建立的回歸方程才有意義。因此,作為自變數的因素與作為因變數的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變數和因變數的相關的程度。
4、計算預測誤差
回歸預測模型是否可用於實際預測,取決於對回歸預測模型的檢驗和對預測誤差的計算。回歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。
5、確定預測值
利用回歸預測模型計算預測值,並對預測值進行綜合分析,確定最後的預測值。
❸ 緇熻″︿負浠涔堣佽繘琛屽洖褰掑垎鏋鍥炲綊鍒嗘瀽鍒嗙殑縐嶇被鏈夊摢浜
緇熻″︿腑榪涜屽洖褰掑垎鏋愭湁浠ヤ笅鍑犱釜涓昏佺洰鐨勶細
1銆佹帰絀跺彉閲忎箣闂寸殑鍏崇郴錛氬洖褰掑垎鏋愮敤浜庢帰絀惰嚜鍙橀噺涓庡洜鍙橀噺涔嬮棿鐨勫叧緋匯傚畠鍙浠ュ府鍔╂垜浠浜嗚В鍙橀噺涔嬮棿鐨勭浉浜掍綔鐢ㄥ拰褰卞搷紼嬪害錛屼互鍙婂畠浠濡備綍闅忕潃鍏朵粬鍙橀噺鐨勫彉鍖栬屽彉鍖栥
2銆侀勬祴鍜岄勬祴寤烘ā錛氶氳繃寤虹珛鍥炲綊妯″瀷錛屾垜浠鍙浠ヤ嬌鐢ㄥ凡鐭ョ殑鑷鍙橀噺鍊兼潵棰勬祴鏈鐭ョ殑鍥犲彉閲忓箋傝繖瀵逛簬棰勬祴鍜屽埗瀹氬喅絳栭潪甯告湁鐢錛屼緥濡傛牴鎹騫垮憡鎶曞叆鏉ラ勬祴閿鍞棰濄
3銆佹帶鍒舵販鏉傚洜緔狅細鍦ㄨ傚療鏁版嵁鏃訛紝鍙鑳藉瓨鍦ㄥ叾浠栨湭鑰冭檻鐨勫洜緔犲瑰彉閲忎箣闂村叧緋葷殑褰卞搷銆傚洖褰掑垎鏋愬彲浠ュ府鍔╂垜浠灝嗚繖浜涙販鏉傚洜緔犳帶鍒跺湪妯″瀷涓錛屼互鏇村噯紜鍦拌瘎浼拌嚜鍙橀噺涓庡洜鍙橀噺涔嬮棿鐨勫叧緋匯
4銆佸亣璁炬楠岋細鍥炲綊鍒嗘瀽鍙浠ョ敤浜庢楠岀爺絀朵腑鐨勫亣璁俱傞氳繃姣旇緝鑷鍙橀噺鐨勭郴鏁頒笌闆剁殑鍋囪懼礆紝鎴戜滑鍙浠ョ『瀹氳嚜鍙橀噺鏄鍚﹀瑰洜鍙橀噺鏈夋樉钁楀獎鍝嶃
鍥炲綊鍒嗘瀽鏈夊氱嶇被鍨嬶紝鍏朵腑涓浜涘父瑙佺殑鍖呮嫭錛
1銆佺畝鍗曠嚎鎬у洖褰掞細鐢ㄤ簬鐮旂┒涓涓鑷鍙橀噺鍜屼竴涓鍥犲彉閲忎箣闂寸殑鍏崇郴銆
2銆佸氬厓綰挎у洖褰掞細鐢ㄤ簬鐮旂┒澶氫釜鑷鍙橀噺涓庝竴涓鍥犲彉閲忎箣闂寸殑鍏崇郴銆
3銆侀昏緫鍥炲綊錛氱敤浜庣爺絀惰嚜鍙橀噺瀵逛簩鍒嗙被鎴栧氬垎綾葷殑褰卞搷銆
4銆佸氶」寮忓洖褰掞細鐢ㄤ簬鐮旂┒闈炵嚎鎬у叧緋葷殑鍥炲綊妯″瀷銆
5銆侀潪鍙傛暟鍥炲綊錛氱敤浜庣爺絀惰嚜鍙橀噺鍜屽洜鍙橀噺涔嬮棿鐨勫叧緋伙紝鑰屼笉渚濊禆浜庣壒瀹氱殑鍑芥暟褰㈠紡銆
榪欏彧鏄鍥炲綊鍒嗘瀽鐨勪竴灝忛儴鍒嗭紝榪樻湁鍏朵粬綾誨瀷鐨勫洖褰掓柟娉曞拰鎶鏈錛屾牴鎹鍏蜂綋闂棰樺拰鏁版嵁綾誨瀷鐨勪笉鍚岋紝鍙浠ラ夋嫨閫傚悎鐨勫洖褰掓ā鍨嬫潵榪涜屽垎鏋愩
❹ 鏁版嵁鍒嗘瀽錛氳В璇諱竴鍏冪嚎鎬у洖褰掑垎鏋
鍥炲綊鍒嗘瀽鏄涓縐嶉噸瑕佺殑緇熻″︽暟鎹鍒嗘瀽鏂規硶錛屽瑰叿鏈夊洜鏋滃叧緋葷殑褰卞搷鍥犵礌錛堣嚜鍙橀噺錛夊拰棰勬祴瀵硅薄錛堝洜鍙橀噺錛夋墍榪涜岀殑鏁扮悊緇熻″垎鏋愬勭悊銆
鍥炲綊鍒嗘瀽鐨勭洰鐨勶細
1.棰勬祴鈥斺旈勬祴鏈鏉ョ殑璧板娍瓚嬪娍
2.鍥犲瓙鍒嗘瀽鈥斺旂爺絀跺摢涓鍥犵礌鏄鏈涓哄獎鍝嶈蛋鍚戠殑鍥犲瓙
浠涔堟槸涓鍏冪嚎鎬у洖褰掞細
鍦ㄥ洖褰掑垎鏋愪腑錛屽彧鍖呮嫭涓涓鑷鍙橀噺鍜屼竴涓鍥犲彉閲忥紝涓斾簩鑰呯殑鍏崇郴鍙鐢ㄤ竴鏉$洿綰胯繎浼艱〃紺猴紝榪欑嶅洖褰掑垎鏋愮О涓轟竴鍏冪嚎鎬у洖褰掑垎鏋愩
涓句緥璇存槑錛
濡傚浘鎵紺猴紝鏈変竴涓鍏鍙革紝浠栦滑姣忎釜鏈堢殑鎶曞叆騫垮憡璐圭敤鍜屼駭鍑虹殑閿鍞棰濆備笅鍥炬墍紺猴紝鎶婃暟鎹緇樺埗鍦ㄨ薄闄愪笂錛屽彲浠ュ緱鍒頒竴涓鏁g偣鍥撅紝鍒╃敤excel鍙浠ュ埗浣滀竴鏉℃嫙鍚堢洿綰褲
濡備綍璇勪環鍥炲綊綰挎嫙鍚堢▼搴︾殑濂藉潖錛
鐢誨嚭鐨勬嫙鍚堢洿綰垮彧鏄涓涓榪戜技錛屽洜涓鴻偗瀹氬緢澶氱殑鐐歸兘娌℃湁钀藉湪鐩寸嚎涓婏紝R鐨勫鉤鏂癸紝涔熺О浣滃垽瀹氱郴鏁幫紝鐢ㄦ潵鍒ゆ柇鍥炲綊鏂圭▼鐨勬嫙鍚堢▼搴︺
R鐨勫鉤鏂瑰彇鍊煎湪0-1涔嬮棿錛岃秺鎺ヨ繎1璇存槑鎷熷悎紼嬪害瓚婇珮錛屾暟鎹鍏寵仈緋昏秺濂姐
鐩稿叧緋繪暟璇存槑錛
褰揜=1錛岃存槑X鍜孻瀹屽叏姝g浉鍏籌紝鍗沖彲浠ョ敤涓鏉$洿綰匡紝鎶婃墍鏈夋牱鏈鐐癸紙x,y錛夐兘涓茶搗鏉ワ紝涓旀枩鐜囦負姝o紱
褰揜=-1錛岃存槑瀹屽叏璐熺浉鍏籌紝鍙婂彲浠ョ敤涓鏉℃枩鐜囦負璐熺殑鐩寸嚎鎶婃墍鏈夌偣涓茶搗鏉ワ紱
EXCEL鎿嶄綔鏂規硶
褰曞叆涓ゅ垪鏁板礆紝妗嗛夋暟鍊礆紝閫夋嫨鍒朵綔鍥捐〃鈥斺旈夋嫨鏁g偣鍥撅紝鐐瑰嚮鍥捐〃鍐呯殑鍦嗙偣錛屽彸閿娣誨姞鎷熷悎鐩寸嚎錛屽嵆鍙緇樺埗錛岃繕鍙浠ユ坊鍔燫鐨勫鉤鏂瑰拰鏂滅巼錛
❺ 浠涔堟槸鏁版嵁鍥炲綊鍒嗘瀽錛
鏁版嵁鍥炲綊鍒嗘瀽鐨勭洰鐨勫拰鎰忎箟鏄灝嗕竴緋誨垪褰卞搷鍥犵礌鍜岀粨鏋滆繘琛屼竴涓鎷熷悎錛屾嫙鍚堝嚭涓涓鏂圭▼錛岀劧鍚庨氳繃灝嗚繖涓鏂圭▼搴旂敤鍒板叾浠栧悓綾諱簨浠朵腑錛屽彲浠ヨ繘琛岄勬祴銆
鍦ㄧ粺璁″︿腑錛屽洖褰掑垎鏋愭寚鐨勬槸紜瀹氫袱縐嶆垨涓ょ嶄互涓婂彉閲忛棿鐩鎬簰渚濊禆鐨勫畾閲忓叧緋葷殑涓縐嶇粺璁″垎鏋愭柟娉曘傚洖褰掑垎鏋愭寜鐓ф秹鍙婄殑鍙橀噺鐨勫氬皯錛屽垎涓轟竴鍏冨洖褰掑拰澶氬厓鍥炲綊鍒嗘瀽錛涙寜鐓у洜鍙橀噺鐨勫氬皯錛屽彲鍒嗕負綆鍗曞洖褰掑垎鏋愬拰澶氶噸鍥炲綊鍒嗘瀽錛涙寜鐓ц嚜鍙橀噺鍜屽洜鍙橀噺涔嬮棿鐨勫叧緋葷被鍨嬶紝鍙鍒嗕負綰挎у洖褰掑垎鏋愬拰闈炵嚎鎬у洖褰掑垎鏋愩
鎵╁睍璧勬枡錛
鍥炲綊鍒嗘瀽鐮旂┒鐨勪富瑕侀棶棰樻槸錛
錛1錛夌『瀹歒涓嶺闂寸殑瀹氶噺鍏崇郴琛ㄨ揪寮忥紝榪欑嶈〃杈懼紡縐頒負鍥炲綊鏂圭▼錛
錛2錛夊規眰寰楃殑鍥炲綊鏂圭▼鐨勫彲淇″害榪涜屾楠岋紱
錛3錛夊垽鏂鑷鍙橀噺X瀵瑰洜鍙橀噺Y鏈夋棤褰卞搷錛
錛4錛夊埄鐢ㄦ墍奼傚緱鐨勫洖褰掓柟紼嬭繘琛岄勬祴鍜屾帶鍒躲