① 回归分析法的分类
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。回归分析法预测是利用回归分析方法,根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。进行回归分析需要建立描述变量间相关关系的回归方程。根据自变量的个数,可以是一元回归,也可以是多元回归。根据所研究问题的性质,可以是线性回归,也可以是非线性回归。非线性回归方程一般可以通过数学方法为线性回归方程进行处理。
② 回归分析法
回归分析法,是在研究矿坑涌水量与其影响因素存在一定相关关系后,提出的一种数理统计方法。矿坑涌水量是在各种自然和人为因素综合作用下有规律地变化着。影响矿坑涌水量变化的因素极其复杂繁多,甚至有些因素我们目前还没有发现,有些因素虽被发现但也无力调控和测定。因此,大量事实告诉我们,矿坑涌水量(称为因变量)与某些影响因素(称为自变量)的关系也存在数学中称之为相关的关系。回归分析法就是利用数学统计的方法,找出矿坑涌水量与影响因素之间的相关关系的数学表达式——回归方程,用求得的回归方程来预测矿坑涌水量。
回归分析法与水文地质比拟法的原理基本相同,都是寻求矿坑涌水量与其主要影响因素之间的关系表达式,并以这种寻找到的数学关系式来预测新的矿坑涌水量。所不同的是数学表达式的来源不同。水文地质比拟法,多数是根据经验提出,用起来方便灵活,缺点是缺乏严密性;回归分析法,是以已经有的实测数据为基础,通过数理统计的方法建立回归方程,其优点是可靠性较水文地质比拟法大一些,但计算较复杂。
应该注意的是,回归方程是一种非确定性的变量关系,严格地讲,它不允许外推。但具体工作中往往又需要外推,因此,回归方程外推的范围不宜过大。当回归方程为直线时,外推深度一般不应超过试验降深的1.5~1.75倍;当回归方程为曲线相关时,虽可适当增大外推范围,但一般也不宜超过2倍。同时,必须根据矿床具体的水文地质条件,检验外推结果是否合理。
几种常用的回归方程如下:
(一)二元直线相关
当矿坑涌水量与主要影响因素之间为直线相关关系时,其数学表达式为
Q=a+bs (4-5)
式中:Q为试验时的涌水量;S为当抽水量为Q时相对应的水位降深;a为常数;b为回归系数,它表示当S每增加1m时涌水量平均增加的水量数值。
a,b可根据试验数据利用最小二乘法求得
双层水位矿床地下水深层局部疏干方法的理论与实践
式中:
根据求得的a,b系数值,便可写出回归方程。
(二)三元直线相关
如果矿坑涌水量与两个影响因素存在直线相关时,其数学表达式便为三元直线相关(比如降深S和时间t):
Q=b0+b1S+b2t (4-8)
式中:b0为常数;b1,b2分别为水量Q对自变量S和t的回归系数;S,t为当矿坑涌水量为Q时的两个因素自变量;b0,b1,b2可用最小二乘法确定;
双层水位矿床地下水深层局部疏干方法的理论与实践
根据求得的b0,b1,b2可以写出三元直线方程。
(三)涌水量-降深曲线法(Q-S曲线法)
涌水量-降深曲线法也称涌水量曲线法,其实质就是利用抽(放)水的试验资料,建立涌水量(Q)和降深(S)之间的关系曲线方程,根据试验阶段和未来开采阶段水文地质条件的相似性,合理地把Q-S曲线外推,来预测矿坑涌水量。
大量试验资料证明,涌水量曲线一般有4种类型(图4-1)。
图4-1 涌水量-降深曲线图
(1)直线型
Q=bs
式中:
这种类型的曲线方程,一般表现为地下水流呈层流状态,抽水时水位降深与含水层厚度相比很小。
(2)抛物线型
S=aQ+bQ2 (4-11)
双层水位矿床地下水深层局部疏干方法的理论与实践
(3)幂函数曲线型
双层水位矿床地下水深层局部疏干方法的理论与实践
(4)对数曲线型
Q=a+blgS (4-17)
式中:
双层水位矿床地下水深层局部疏干方法的理论与实践
上述各式中a,b均为待定系数,求出a,b后便可写出涌水量曲线方程。
一般情况下,图4-1中的2号曲线代表的是抛物线型曲线,它表示强富水性含水层在抽水强烈时,地下水抽水井附近出现三维流的情况下的曲线形态;第3,4两种类型曲线一般表示含水层规模较小,补给条件比较差情况下出现的曲线类型。
涌水量曲线方程的形态不但与含水层的规模、性质以及补给径流条件有关,而且与抽水强度的大小和抽水时间长短也有关系。因此,采用Q-S曲线方程法预测矿坑涌水量时,一般要求抽(放)水试验的规模尽量大一些,常采取大口径、大降深群孔抽(放)水试验,以求尽量符合未来的开采状态,充分揭露和显示其尽量多的水文地质条件,尽量波及矿床的各种边界,从而求取最大可能符合实际条件的矿坑涌水量。
③ 什么是回归分析法
回归分析(英语:Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。回归分析法预测是利用回归分析方法,根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。进行回归分析需要建立描述变量间相关关系的回归方程。根据自变量的个数,可以是一元回归,也可以是多元回归。根据所研究问题的性质,可以是线性回归,也可以是非线性回归。非线性回归方程一般可以通过数学方法为线性回归方程进行处理。
④ 回归分析法计算公式是什么
相关计算公式为:a=[∑Xi2∑Yi-∑Xi∑XiYi]/[n∑Xi2-(∑Xi)2],b=[n∑XiYi-∑Xi∑Yi]/[n∑Xi2-(∑Xi)2]。
回归直线法是根据若干期业务量和资金占用的历史资料,运用最小平方法原理计算不变资金和单位产销量所需变动资金的一种资金习性分析方法。
回归分析法主要解决的问题:
1、确定变量之间是否存在相关关系,若存在,则找出数学表达式。
2、根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度。
⑤ 回归分析方法
§3.2 回归分析方法
回归分析方法,是研究要素之间具体的数量关系的一种强有力的工具,能够建立反映地理要素之间具体的数量关系的数学模型,即回归模型。
1. 一元线性回归模型
1) 一元线性回归模型的基本结构形式
假设有两个地理要素(变量)x和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式:
a和b为待定参数;α=1,2,…,n为各组观测数据的下标; εa为随机变量。如果记a^和b^ 分别为参数a与b的拟合值,则得到一元线性回归模型
ÿ 是y 的估计值,亦称回归值。回归直线——代表x与y之间相关关系的拟合直线
2) 参数a、b的最小二ÿ乘估计
参数a与b的拟合值:
,
建立一元线性回归模型的过程,就是用变量 和 的实际观测数据确定参数a和b的最小二乘估计值α^和β^ 的过程。
3) 一元线性回归模型的显着性检验
线性回归方程的显着性检验是借助于F检验来完成的。
检验统计量F:
误差平方和:
回归平方和:
F≈F(1,n-2)。在显着水平a下,若 ,则认为回归方程效果在此水平下显着;当 时,则认为方程效果不明显。
[举例说明]
例1:在表3.1.1中,将国内生产总值(x1)看作因变量y,将农业总产值(x2)看作自变量x,试建立它们之间的一元线性回归模型并对其进行显着性检验。
解:
(1) 回归模型
将y和x的样本数据代入参数a与b的拟合公式,计算得:
故,国内生产总值与农业总产值之间的回归方程为
(2) 显着性检验
在置信水平α=0.01下查F分布表得:F0.01(1,46)=7.22。由于F=4951.098 >> F0.01(1,46)=7.22,所以回归方程(3.2.7)式在置信水平a=0.01下是显着的。
2. 多元线性回归模型
在多要素的地理系统中,多个(多于两个)要素之间也存在着相关影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。
1) 多元线性回归模型的建立
(1) 多元线性回归模型的结构形式
假设某一因变量y受k 个自变量 的影响,其n组观测值为 。则多元线性回归模型的结构形式:
为待定参数, 为随机变量。如果 分别为 的拟合值,则回归方程为
b0为常数, 称为偏回归系数。
偏回归系数 ——当其它自变量都固定时,自变量 每变化一个单位而使因变量xi平均改变的数值。
(2) 求解偏回归系数
,
2) 多元线性回归模型的显着性检验
用F检验法。
F统计量:
当统计量F计算出来之后,就可以查F分布表对模型进行显着性检验。
[举例说明]
例2:某地区各城市的公共交通营运总额(y)与城市人口总数(x1 )以及工农业总产值(x2)的年平均统计数据如表3.2.1(点击展开显示该表)所示。试建立y与x1及x2之间的线性回归模型并对其进行显着性检验。
表3.2.1 某地区城市公共交通营运额、人口数及工农业总产值的年平均数据
城市序号
公共交通营运额y/103人公里 人口数x1/103人 工农业总产值x2
/107元
1 6825.99 1298.00 437.26
2 512.00 119.80 1286.48
... ... ... ...
14 192.00 12.47 1072.27
注:本表数据详见书本P54。
解:
(1) 计算线性回归模型
由表3.2.1中的数据,有
计算可得:
故y与x1 及y2之间的线性回归方程
(2) 显着性检验
故:
在置信水平a=0.01下查F分布表知:F0.01(2,11)=7.21。由于F=38.722> F0.01(2,11)=7.21,所以在置信水平a=0.01下,回归方程式是显着的。
3. 非线性回归模型的建立方法
1) 非线性关系的线性化
(1) 非线性关系模型的线性化
对于要素之间的非线性关系通过变量替换就可以将原来的非线性关系转化为新变量下的线性关系。
[几种非线性关系模型的线性化]
① 于指数曲线 ,令 , ,将其转化为直线形式:
,其中, ;
② 对于对数曲线 ,令 , ,将其转化为直线形式:
;
③ 对于幂函数曲线 ,令 , ,将其转化为直线形式:
,其中,
④ 对于双曲线 ,令 ,将其转化为直线形式:
;
⑤ 对于S型曲线 ,将其转化为直线形式:
;
⑥ 对于幂函数乘积:
令 将其转化为直线形式:
其中, ;
⑦ 对于对数函数和:
令 ,将其化为线性形式:
(2) 建立非线性回归模型的一般方法
① 通过适当的变量替换将非线性关系线性化;
② 用线性回归分析方法建立新变量下的线性回归模型:
③ 通过新变量之间的线性相关关系反映原来变量之间的非线性相关关系。
3) 非线性回归模型建立的实例
非线性回归模型建立的实例
景观是地理学的重要研究内容之一。有关研究表明(Li,2000;徐建华等,2001),任何一种景观类型的斑块,其面积(Area)与周长(Perimeter)之间的数量关系可以用双对数曲线来描述,即
例3:表3.2.2给出了某地区林地景观斑块面积(Area)与周长(Perimeter)的数据。试建立林地景观斑块面积A与周长P之间的双对数相关关系模型。
表3.2.2某地区各个林地景观斑块面积(m2)与周长(m)
序号 面积A 周长P 序号 面积A 周长P
1 10447.370 625.392 42 232844.300 4282.043
2 15974.730 612.286 43 4054.660 289.307
... ... ... ... ... ...
41 1608.625 225.842 82 564370.800 12212.410
注:本表数据详见书本57和58页。
解:因为林地景观斑块面积(A)与周长(P)之间的数量关系是双对数曲线形式,即
所以对表3.2.2中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.3所示。
⑥ 回归分析的内容和步骤是什么
1、确定变量:
明确定义了预测的具体目标,并确定了因变量。 如果预测目标是下一年的销售量,则销售量Y是因变量。 通过市场调查和数据访问,找出与预测目标相关的相关影响因素,即自变量,并选择主要影响因素。
2、建立预测模型:
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3、进行相关分析:
回归分析是因果因素(自变量)和预测因子(因变量)的数学统计分析。 只有当自变量和因变量之间存在某种关系时,建立的回归方程才有意义。 因此,作为自变量的因子是否与作为因变量的预测对象相关,程度的相关程度以及判断相关程度的程度是在回归分析中必须解决的问题。 相关分析通常需要相关性,并且相关度系数用于判断自变量和因变量之间的相关程度。
4、计算预测误差:
回归预测模型是否可用于实际预测取决于回归预测模型的测试和预测误差的计算。 回归方程只能通过回归方程作为预测模型来预测,只有当它通过各种测试且预测误差很小时才能预测。
5、确定预测值:
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
(6)回归分析方法扩展阅读:
回归分析的应用:
1、相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
2、一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
⑦ 什么是回归分析主要内容是什么
在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
拓展资料
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
方法
有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
1. Linear Regression线性回归
它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
多元线性回归可表示为Y=a+b1*X +b2*X2+ e,其中a表示截距,b表示直线的斜率,e是误差项。多元线性回归可以根据给定的预测变量(s)来预测目标变量的值。
2.Logistic Regression逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,应该使用逻辑回归。这里,Y的值为0或1,它可以用下方程表示。
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk
上述式子中,p表述具有某个特征的概率。你应该会问这样一个问题:“为什么要在公式中使用对数log呢?”。
因为在这里使用的是的二项分布(因变量),需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。
3. Polynomial Regression多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。如下方程所示:
y=a+b*x^2
在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。
4. Stepwise Regression逐步回归
在处理多个自变量时,可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
⑧ 如何确定应该使用哪种回归分析方法
回归有很多种,回归研究X对于Y的影响,至于回归方法的选择上,关键在于因变量Y的数据类型,如果Y是离散数据,则统一应该使用logistic回归,但具体logistic回归又分成三种类型。
⑨ 回归分析的种类
如果因变量是(非时间的)连续变量(即一般定量资料),设自变量的个数为k,当k=1时,回归分析的种类有:①直线回归分析;②通过直线化实现的简单曲线回归分析(以下简称为曲线拟合);③非线性曲线拟合;④一般多项式曲线拟合;⑤正交多项式曲线拟合。当k≥2时,称为多元回归分析(注:前面的④、⑤2种情况实质上是用多元回归分析仅只含1个自变量时较复杂的曲线拟合问题)。当同时对多个因变量进行回归分析时,称之为多重回归分析。在多元回归分析中,简单而又实用的则是多元线性回归分析(其中某些自变量可以是原观测指标经过某种初等变换的结果,如对数变换、开平根变换等,因为这里所说的线性是指∶函数f(x)相对于回归参数是线性的,并非相对于自变量而言)。这是本篇中要论述的问题。
如果因变量是与时间有关的连续变量且未被离散化(如:生存时间、复发时间、死亡时间等),而自变量可以是定量的,也可以是定性的。此时需用生存分析中的半参数或参数回归分析方法,将在本书第5篇中论述。
如果因变量是名义或有序变量,无论它取二个离散值(如:死与活、复发与未复发等)还是多个离散值(自变量可以是定性和定量的)时,都可选用logistic回归分析;如果把列联表中每个格内的理论频数的对数当作因变量,把分组变量(包含影响因素和观测结果变量2类)当作自变量,可用对数线性模性分析。这部分内容请参见本书第3篇中有关章节。在自变量代表时间的情况下,通常不假定因变量y的各次观察值独立,而具有某种非独立的结构,例如构成一平稳序列。这种回归模型的研究被划入统计学的另一个重要分支──时间序列统计分析的范围