导航:首页 > 研究方法 > 回归分析思想方法

回归分析思想方法

发布时间:2023-05-17 22:50:10

什么是回归分析回归分析有什么用主要解决什么问题

1、“回归分析”是指分析因变量和自变量之间关系,回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。

2、回归分析有很广泛的应用,例如实验数据的一般处理,经验公式的求得,因素分析,产品质量的控制,气象及地震预报,自动控制中数学模型的制定等等。

3、回归分析主要处理变量的统计相关关系。

Ⅱ 什么是回归分析回归分析有什么用主要解决什么问题

1、“回归分析”是指分析因变量和自变量之间关系,回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。

2、回归分析有很广泛的应用,例如实验数据的一般处理,经验公式的求得,因素分析,产品质量的控制,气象及地震预报,自动控制中数学模型的制定等等。

3、回归分析主要处理变量的统计相关关系。

Ⅲ 回归分析方法用于放射性数据处理

放射性勘探获得的多参数之间往往是相互关联的,具有一定相关关系,所以使用回归分析可较好地反映变量之间关系,可解决研究对象的许多问题。例:①圈定异常和成矿“靶区”进行矿产统计预测。②确定找矿标志或用一种或几种元素的含量预测另一种难于分析的元素含量。③放射性场晕进行分类以便对其进行综合评价,综合解释。④研究矿体产生的场晕(例如氡及其子体产生的晕)幅度与取样地点距离矿体远近的相关关系。如在垂直方向上滑笑悄,它有助于推断矿体的埋深;研究矿体剥蚀深度;内生矿床分散晕的垂直分带序列等。在水平方向上,它能为评价异常或进行勘探设计提供依据。⑤解决控制问题。即在一定信度下控制自变量的取值范围,使因变量在指定的范同内取值。⑥可用来建立各种找矿模式,发现新的找矿线索等。概括起来说,回归分析可以解决预测问题和控制问题。

(一)多元线性回归分析的基本原理

1.回归方程的建立

回归分析的基本思想是,设有k个自变量xi(i=1,2,…,k)和一个因变量y,根据一批实测数据x1t,x2t,…,xkt;yt(t=1,2,…,k),可建立y对xi的回归关系。回归分析的数学模型表示为

放射性勘探方法

式中:b0为常数项;bi为偏回归系数;εt为随机因素产生的误差;

为yt的函数部分,

并称为y对xi的回归,若函数

中只有一个自变量,即i=1时,称一元回归;i>2时,称多元回归。

回归分析的基本思想是选择合适的函数

,使得偏差平方和

为最小。

由于常见的变量大多数是正态变量或通过数学变换能化为近似正态变量;再者,变量间的非线性关系又可以化为线性关系。下面仅讨论线性情况下正态变量间的回归关系。

如果

与xi是线性关系,则

可表示为

放射性勘探方法

称多元线性回归方程。

对于(6-81)式,为了获得一个符合实际的最佳预测方程,也就要使每个实际观测值yt与预测值

之间的偏差平方和最小,即

放射性勘探方法

为最小。为此,只要将Q分别对b0、bi(i=1,2,…,k)求偏导数,并令其为零,就可得到k个线性方程,称为正规方程组,即

放射性勘探方法

由(6-84)式的第一方程得

放射性勘探方法

式中:

放射性勘探方法

将b0代入(6-84)式后面的k个方程中得

放射性勘探方法

对(6-83)式中第一方程的两边乘以x,再代入b,得

放射性勘探方法

于是由上述两式相减后得

放射性勘探方法

放射性勘探方法

此时,(6-85)式信渣简写为

b1li1+b2li2+…+bklik=li0

写成矩阵的形式,有

放射性勘探方法

若 [lij]为非奇异矩阵,则 [lij]的逆矩阵 [lij]-1存在,故 (6 86)式两边同乘[lij]-1,则得

[lij]-1[lij][bj]=[li0][lij]-1

[bj]=[lij]-1[li0]

再由(6-85)式求出

放射性勘探方法

这样,就求出了系数b0,b1,b2,…,bk的一组解;

,于是得到回归方程

放射性勘探方法

用这个方程进行预测或控制时,结果就与实测数据偏差最小。

2.回归方程的显着性检验

在假设因变量与自变量间存在线性关系的前提下,应用上述方法可以得到与实测数据拟合误差最小的回归方程。但是,因变量与自变量之间是不是真正为线性关系?回归方程的代表性究竟如何?以及各个自变量在回归方程中贡献大小如何?要回答这些问题,必须进行显着性检验。为此,把总离差平方和分解成回归平方和与偏差平方和两部分。

放射性勘探方法

式中:

放射性勘探方法

放射性勘探方法

放射性勘探方法

三者间关系示于图6-24,若注意到:

放射性勘探方法

图6-24 s分解示意图

实际计算时采用下式:

放射性勘探方法

由上述分析可知,偏升亩差平方和越小,回归平方和越大,则y与xi(i=1,2,…,k)的线性关系越密切,回归效果越好;即回归方程从实测数据中提取的线性部分就越多。当提取的线性部分达到一定程度时,即s相对s的比值大到一定程度时,则认为y与xj间线性关系是显着的。否则,认为是不显着的,回归方程也就无实用价值。为此,构造统计量

放射性勘探方法

来检验回归方程是否有显着意义。

F统计量服从F(k,n-k-1)分布。若给定信度α,可由F分布临界值表查得临界值Fα(k,n-k-1),若统计量F>Fα,那么在信度为α的条件下,认为线性回归方程是有显着意义的。反之,当F<Fα时,则认为线性回归方程没有意义。

以上用的是方差分析的办法,还可以用复相关系数做检验。复相关系数由下式定义:

放射性勘探方法

复相关系数是描述因变量y与自变量xi之间的线性相关程度的。R越大,则y与xi线性相关越密切。反之,越不密切。由相关系数检验表查Rα(n-k-1)后,若R>Rα值时,则线性回归方程显着,否则不显着。

(二)应用实例

天然放射性元素中,铀、钍、钾的含量是岩石的一个重要地球化学特征密切相关性使我们有可能用这一性质来研究岩石化学类型。

研究的岩样是新鲜的未经蚀变的火成岩共150块,分为12个岩石化学类型:

1)花岗岩和花岗闪长岩;

2)碱性花岗岩和花岗闪长岩;

3)闪长岩和安山岩;

4)辉长-闪长岩和安山玄武岩;

5)辉长-玄武岩;

6)含有长石的辉长岩类(霞斜岩)和玄武岩类;

7)无长石的玄武岩类;

8)超基性的灰质-碱性岩;

9)超基性碱性岩;

10)正长岩和二长岩;

11)霞石正长岩;

12)超碱性岩。

γ能谱测量结果表明:岩样中铀、钍、钾的含量近于对数正态分布;用三个元素的含量与岩石的化学成分之间的相关性可为鉴别岩样的一种典型方法。为此,按每个岩样的化学成分的分析结果,计算了代表其富余硅Q、碱金属性α值和各元素间的相关系数。

把150个岩样按Q和α值分成17组。同一组中岩样的Q值与其平均值之差大于10,而α值与其平均值之差不大于5。有些岩样可以同时进入两个组内,对每一组都计算元素平均含量,元素含量变异系数和铀、钍、钾含量的相关系数(组成相关矩阵)如表6-7所示。在Q-α坐标系中,用这些数据绘制了17组的三个元素间的相关系数等值线示于图6-25。

表6-7 岩样按相近Q、α值分组平均Q、α值,平均铀、钍、钾含量,元素含量变异系数和相关系数表

图6-25 按Q、α值划分不同岩性组的岩样中钾和铀(1)、铀和钍(2)和钾和钍(3)含量的二维相关关系曲线图

Г—花岗岩;Д—纯橄榄岩;Ч—磷霞岩

数字表示相关系数的等值线的值(量纲为一)

这种两维的相关场表示了铀、钍、钾含量的相关性与Q、α这两个参数之间的关系。在Q-α坐标系中,所有岩石类型都位于三个顶点:①Q=-30,α=0,为纯橄榄岩顶点;②Q=30,α=15为花岗岩顶点;③Q=-45,α=25为磷霞岩顶点的三角形范围之中。铀含量变异系数在纯橄榄岩-花岗岩线上最大,在纯橄榄岩至磷霞岩线中段最小,钍含量变异系数在纯橄榄岩至花岗岩线上最大,离开它稍有降低。钾含量的变异系数随着α值的增高而减小。

三个元素间的最大相关系数(约0.9)位于Q=-10,α=10的坐标点。当α<10时,相关系数的某些降低可以解释为含量测量误差的影响(在低含量的情况下相对误差增高)。在三角形的其他顶角内相关系数的变化反映了研究岩石的特征,在Q>20(花岗岩)时,只存在钾和钍的相关性(RU,K≈RU,Th≈0.2)。在α>20(磷霞石)时,铀和钍的相关性保持在RU,Th=0.8左右,这时,钾与铀和钍的相关性不存在,甚至为负值。也就是说,相关系数的大小明显地表明了酸性岩石中铀含量的变化与钍、钾含量的变化无关。而对超碱性岩石来说,钾含量的变化与铀、钍含量的变化无关。在任何其他岩石中,铀、钍和钾都有紧密的相关性。

Ⅳ 常见的回归分析方法有哪些

1/6分步阅读
1.线性回归方法:通常因变量和一个(或者多个)自变量之间拟合出来是一条直线(回归线),通常可以用一个普遍的公式来表示:Y(因变量)=a*X(自变量)+b+c,其中b表示截距,a表示直线的斜率,c是误差项。如下图所示。

2/6
2.逻辑回归方法:通常是用来计算“一个事件成功或者失败”的概率,此时的因变量一般是属于二元型的(1 或0,真或假,有或无等)变量。以样本极大似然估计值来选取参数,而不采用最小化平方和误差来选择参数,所以通常要用log等对数函数去拟合。如下图。

3/6
3.多项式回归方法:通常指自变量的指数存在超过1的项,这时候最佳拟合的结果不再是一条直线而是一条曲线。比如:抛物线拟合函数Y=a+b*X^2,如下图所示。

4/6
4.岭回归方法:通常用于自变量数据具有高度相关性的拟合中,这种回归方法可以在原来的偏差基础上再增加一个偏差度来减小总体的标准偏差。如下图是其收缩参数的最小误差公式。

5/6
5.套索回归方法:通常也是用来二次修正回归系数的大小,能够减小参量变化程度以提高线性回归模型的精度。如下图是其惩罚函数,注意这里的惩罚函数用的是绝对值,而不是绝对值的平方。

6/6
6.ElasticNet回归方法:是Lasso和Ridge回归方法的融合体,使用L1来训练,使用L2优先作为正则化矩阵。当相关的特征有很多个时,ElasticNet不同于Lasso,会选择两个。如下图是其常用的理论公式。

Ⅳ 回归分析是什么意思

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析。

在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。



回归分析注意问题:

1、定性分析是前提

在应用相关和回归分析时,一般分为定性分析和定量分析两个阶段,其中定性分析虽然并不复杂,但也及其重要。通过定性分析,可以判明分析的变量之间是否存在相互依存关系,而后才能转入定量分析。

需要指出的是,不能不加分析地,将两个变量凑合在一起进行定量分析,这样往往会得出虚假相关的结论。

2、确定变量是关键

回归分析是用于分析一个事物如何随其他事物的变化而变化,因此在进行回归分析时,十分关键的一步就是,确定哪个事物是需要解释的,即哪个变量是被解释变量(记为y),哪些事物是用于解释其他变量的,即哪些变量是解释变量(记为x)。

3、选用函数有讲究

为了反映解释变量和被解释变量之间的有机联系,在回归分析中有多种可供选择的函数,即定量分析数学表达式。这里就涉及到如何根据变量之间的客观联系来选用正确的函数这个问题。

通常在专业知识和理论以及实践经验的基础上,还需借助相关图法(比如观察散点图),来判明相关和回归的性质,寻找合适的回归线,然后选用正确的数学表达式。

Ⅵ 回归分析法是什么


回归分析法指利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后因变量变化的分析方法。
回归分析搭告法中,根据因变量和自变量的个数来分类,可分为一元回归分析和多元回归分析;根据因变量和自变量的函数表毁枝搜达式来分类,可分为线性回纤历归分析和非线性回归分析。
回归分析法是一种结果较为精确的方法,有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。但其计算则较为复杂。

Ⅶ 数据分析师必须掌握的7种回归分析方法

1、线性回归


线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中,由于变量是连续的,因此自变量可以是连续的也可以是离散的,回归线的性质是线性的。


线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。


2、逻辑回归


逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 /0,真/假,是/否)变量时,我们就应该使用逻辑回归.


逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。


为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。


3、多项式回归


对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。下面是一个图例,可以帮助理解:


明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。


4、逐步回归


在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。


这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。


5、岭回归


岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。


除常数项以外,这种回归的假设与最小二乘回归类似;它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。


6、套索回归


它类似于岭回归。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),确实有助于特征选择;这是一个正则化方法,使用的是L1正则化;如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。


7、回归


ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。


通常在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。


关于数据分析师必须掌握的7种回归分析方法,青藤小编就和您分享到这里了,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容,可以点击本站的其他文章进行学习。

Ⅷ 回归分析的基本步骤是什么

回归分析:

1、确定变量:明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。

2、建立预测模型:依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。

3、进行相关分析:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义。

因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。

4、计算预测误差:回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。

5、确定预测值:利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。

Logistic Regression逻辑回归

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,应该使用逻辑回归。这里,Y的值为0或1,它可以用下方程表示。

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence

ln(odds) = ln(p/(1-p))

logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk

在这里使用的是的二项分布(因变量),需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。

以上内容参考:网络-回归分析

Ⅸ 什么是回归分析原理与方法

从纯数据运算的角度解释线性回归分析运算的原理不太容易懂,因此我考虑用图解的方法解释回归分析的运算原理,如下图:

对于图中那些散点,想探寻一根直线,使得所有点到该直线的距离的总和是最小,这就是回归分析。

换句话说,以上图为例,回归分析的本质就是探寻height和weight之间最准确的关系,这个“最准确”就是指所有点到该直线的距离的总和是最小,即偏差最小。

你们常听说的“最小二乘估计”就是探寻究竟是哪一根线与所有点的距离总和最小。以上图为例,图中的虚线(表达式为weight=0.926+0.425*height)就是所求直线,也就是我们常说的线性回归方程。

更多数据分析答疑、文章、视频教程,请到谦瑞数据官方网站观看。

Ⅹ 回归分析的认识及简单运用

回归分析的认识及简单运用

回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,分为回归和多重回归分析;按照自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多重线性回归分析。

定义

回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。

方差齐性

线性关系

效应累加

变量无测量误差

变量服从多元正态分布

观察独立

模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)

误差项独立且服从(0,1)正态分布。

现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。

研究一个或多个随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法,又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ^2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,它有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由于自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

回归分析的主要内容为:

①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。

②对这些关系式的可信程度进行检验。

③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显着的,哪些自变量的影响是不显着的,将影响显着的自变量入模型中,而剔除影响不显着的变量,通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。

回归分析研究的主要问题是:

(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;

(2)对求得的回归方程的可信度进行检验;

(3)判断自变量X对因变量Y有无影响;

(4)利用所求得的回归方程进行预测和控制。

回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的t检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用logistic回归代替。

众多回归的名称张口即来的就有一大片,线性回归、logistic回归、cox回归、poission回归、probit回归等等等等,可以一直说的你头晕。为了让大家对众多回归有一个清醒的认识,这里简单地做一下总结:

1、线性回归,这是我们学习统计学时最早接触的回归,就算其它的你都不明白,最起码你一定要知道,线性回归的因变量是连续变量,自变量可以是连续变量,也可以是分类变量。如果只有一个自变量,且只有两类,那这个回归就等同于t检验。如果只有一个自变量,且有三类或更多类,那这个回归就等同于方差分析。如果有2个自变量,一个是连续变量,一个是分类变量,那这个回归就等同于协方差分析。所以线性回归一定要认准一点,因变量一定要是连续变量。

2、logistic回归,与线性回归并成为两大回归,应用范围一点不亚于线性回归,甚至有青出于蓝之势。因为logistic回归太好用了,而且太有实际意义了。解释起来直接就可以说,如果具有某个危险因素,发病风险增加2.3倍,听起来多么地让人通俗易懂。线性回归相比之下其实际意义就弱了。logistic回归与线性回归恰好相反,因变量一定要是分类变量,不可能是连续变量。分类变量既可以是二分类,也可以是多分类,多分类中既可以是有序,也可以是无序。二分类logistic回归有时候根据研究目的又分为条件logistic回归和非条件logistic回归。条件logistic回归用于配对资料的分析,非条件logistic回归用于非配对资料的分析,也就是直接随机抽样的资料。无序多分类logistic回归有时候也成为多项logit模型,有序logistic回归有时也称为累积比数logit模型。

3、cox回归,cox回归的因变量就有些特殊,因为他的因变量必须同时有2个,一个代表状态,必须是分类变量,一个代表时间,应该是连续变量。只有同时具有这两个变量,才能用cox回归分析。cox回归主要用于生存资料的分析,生存资料至少有两个结局变量,一是死亡状态,是活着还是死亡?二是死亡时间,如果死亡,什么时间死亡?如果活着,从开始观察到结束时有多久了?所以有了这两个变量,就可以考虑用cox回归分析。

4、poisson回归,poisson回归相比就不如前三个用的广泛了。但实际上,如果你能用logistic回归,通常也可以用poission回归,poisson回归的因变量是个数,也就是观察一段时间后,发病了多少人?或者死亡了多少人?等等。其实跟logistic回归差不多,因为logistic回归的结局是是否发病,是否死亡,也需要用到发病例数、死亡例数。大家仔细想想,其实跟发病多少人,死亡多少人一个道理。只是poission回归名气不如logistic回归大,所以用的人也不如logistic回归多。但不要因此就觉得poisson回归没有用。

5、probit回归,在医学里真的是不大用,最关键的问题就是probit这个词太难理解了,通常翻译为概率单位。probit函数其实跟logistic函数十分接近,二者分析结果也十分接近。可惜的是,probit回归的实际含义真的不如logistic回归容易理解,由此导致了它的默默无名,但据说在社会学领域用的似乎更多一些。

6、负二项回归。所谓负二项指的是一种分布,其实跟poission回归、logistic回归有点类似,poission回归用于服从poission分布的资料,logistic回归用于服从二项分布的资料,负二项回归用于服从负二项分布的资料。说起这些分布,大家就不愿意听了,多么抽象的名词,我也很头疼。如果简单点理解,二项分布你可以认为就是二分类数据,poission分布你可以认为是计数资料,也就是个数,而不是像身高等可能有小数点,个数是不可能有小数点的。负二项分布呢,也是个数,只不过比poission分布更苛刻,如果你的结局是个数,而且结局可能具有聚集性,那可能就是负二项分布。简单举例,如果调查流感的影响因素,结局当然是流感的例数,如果调查的人有的在同一个家庭里,由于流感具有传染性,那么同一个家里如果一个人得流感,那其他人可能也被传染,因此也得了流感,那这就是具有聚集性,这样的数据尽管结果是个数,但由于具有聚集性,因此用poission回归不一定合适,就可以考虑用负二项回归。既然提到这个例子,用于logistic回归的数据通常也能用poission回归,就像上面案例,我们可以把结局作为二分类,每个人都有两个状态,得流感或者不得流感,这是个二分类结局,那就可以用logistic回归。但是这里的数据存在聚集性怎么办呢,幸亏logistic回归之外又有了更多的扩展,你可以用多水平logistic回归模型,也可以考虑广义估计方程。这两种方法都可以处理具有层次性或重复测量资料的二分类因变量。

7、weibull回归,有时中文音译为威布尔回归。weibull回归估计你可能就没大听说过了,其实这个名字只不过是个噱头,吓唬人而已。上一篇说过了,生存资料的分析常用的是cox回归,这种回归几乎统治了整个生存分析。但其实夹缝中还有几个方法在顽强生存着,而且其实很有生命力,只是国内大多不愿用而已。weibull回归就是其中之一。cox回归为什么受欢迎呢,因为它简单,用的时候不用考虑条件(除了等比例条件之外),大多数生存数据都可以用。而weibull回归则有条件限制,用的时候数据必须符合weibull分布。怎么,又是分布?!估计大家头又大了,是不是想直接不往下看了,还是用cox回归吧。不过我还是建议看下去。为什么呢?相信大家都知道参数检验和非参数检验,而且可能更喜欢用参数检验,如t检验,而不喜欢用非参数检验,如秩和检验。那这里的weibull回归和cox回归基本上可以说是分别对应参数检验和非参数检验。参数检验和非参数检验的优缺点我也在前面文章里通俗介绍了,如果数据符合weibull分布,那么直接套用weibull回归当然是最理想的选择,他可以给出你最合理的估计。如果数据不符合weibull分布,那如果还用weibull回归,那就套用错误,肯定结果也不会真实到哪儿去。所以说,如果你能判断出你的数据是否符合weibull分布,那当然最好的使用参数回归,也就是weibull回归。但是如果你实在没什么信心去判断数据分布,那也可以老老实实地用cox回归。cox回归可以看作是非参数的,无论数据什么分布都能用,但正因为它什么数据都能用,所以不可避免地有个缺点,每个数据用的都不是恰到好处。weibull回归就像是量体裁衣,把体形看做数据,衣服看做模型,weibull回归就是根据你的体形做衣服,做出来的肯定对你正合身,对别人就不一定合身了。cox回归呢,就像是到商场去买衣服,衣服对很多人都合适,但是对每个人都不是正合适,只能说是大致合适。至于到底是选择麻烦的方式量体裁衣,还是图简单到商场直接去买现成的,那就根据你的喜好了,也根据你对自己体形的了解程度,如果非常熟悉,当然就量体裁衣了。如果不大了解,那就直接去商场买大众化衣服吧。

8、主成分回归。主成分回归是一种合成的方法,相当于主成分分析与线性回归的合成。主要用于解决自变量之间存在高度相关的情况。这在现实中不算少见。比如你要分析的自变量中同时有血压值和血糖值,这两个指标可能有一定的相关性,如果同时放入模型,会影响模型的稳定,有时也会造成严重后果,比如结果跟实际严重不符。当然解决方法很多,最简单的就是剔除掉其中一个,但如果你实在舍不得,毕竟这是辛辛苦苦调查上来的,删了太可惜了。如果舍不得,那就可以考虑用主成分回归,相当于把这两个变量所包含的信息用一个变量来表示,这个变量我们称它叫主成分,所以就叫主成分回归。当然,用一个变量代替两个变量,肯定不可能完全包含他们的信息,能包含80%或90%就不错了。但有时候我们必须做出抉择,你是要100%的信息,但是变量非常多的模型?还是要90%的信息,但是只有1个或2个变量的模型?打个比方,你要诊断感冒,是不是必须把所有跟感冒有关的症状以及检查结果都做完?还是简单根据几个症状就大致判断呢?我想根据几个症状大致能能确定90%是感冒了。不用非得100%的信息不是吗?模型也是一样,模型是用于实际的,不是空中楼阁。既然要用于实际,那就要做到简单。对于一种疾病,如果30个指标能够100%确诊,而3个指标可以诊断80%,我想大家会选择3个指标的模型。这就是主成分回归存在的基础,用几个简单的变量把多个指标的信息综合一下,这样几个简单的主成分可能就包含了原来很多自变量的大部分信息。这就是主成分回归的原理。

9、岭回归。岭回归的名称由来我也没有查过,可能是因为它的图形有点像岭。不要纠结于名称。岭回归也是用于处理自变量之间高度相关的情形。只是跟主成分回归的具体估计方法不同。线性回归的计算用的是最小二乘估计法,当自变量之间高度相关时,最小二乘回归估计的参数估计值会不稳定,这时如果在公式里加点东西,让它变得稳定,那就解决了这一问题了。岭回归就是这个思想,把最小二乘估计里加个k,改变它的估计值,使估计结果变稳定。至于k应该多大呢?可以根据岭迹图来判断,估计这就是岭回归名称的由来。你可以选非常多的k值,可以做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定k值了,然后整个参数估计不稳定的问题就解决了。

10、偏最小二乘回归。偏最小二乘回归也可以用于解决自变量之间高度相关的问题。但比主成分回归和岭回归更好的一个优点是,偏最小二乘回归可以用于例数很少的情形,甚至例数比自变量个数还少的情形。听起来有点不可思议,不是说例数最好是自变量个数的10倍以上吗?怎么可能例数比自变量还少,这还怎么计算?可惜的是,偏最小二乘回归真的就有这么令人发指的优点。所以,如果你的自变量之间高度相关、例数又特别少、而自变量又很多(这么多无奈的毛病),那就现在不用发愁了,用偏最小二乘回归就可以了。它的原理其实跟主成分回归有点像,也是提取自变量的部分信息,损失一定的精度,但保证模型更符合实际。因此这种方法不是直接用因变量和自变量分析,而是用反映因变量和自变量部分信息的新的综合变量来分析,所以它不需要例数一定比自变量多。偏最小二乘回归还有一个很大的优点,那就是可以用于多个因变量的情形,普通的线性回归都是只有一个因变量,而偏最小二乘回归可用于多个因变量和多个自变量之间的分析。因为它的原理就是同时提取多个因变量和多个自变量的信息重新组成新的变量重新分析,所以多个因变量对它来说无所谓。

看了以上的讲解,希望能对大家理解回归分析的运用有些帮助。

以上是小编为大家分享的关于回归分析的认识及简单运用的相关内容,更多信息可以关注环球青藤分享更多干货

阅读全文

与回归分析思想方法相关的资料

热点内容
正确的站姿腿部锻炼方法 浏览:470
养生鸡蛋的食用方法 浏览:430
小鸡搬砖新方法视频 浏览:220
线稿设计图起稿方法研究 浏览:466
v20手机卡顿解决方法 浏览:790
湖南国珍松花钙奶粉食用方法 浏览:6
土星环的质量计算方法 浏览:603
宝宝简单收惊方法 浏览:396
政府预算的编制方法有哪些 浏览:899
哈尔滨高三核酸检测方法 浏览:51
一次性口腔通气道使用方法视频 浏览:157
单杠背阔肌的锻炼方法 浏览:38
木糖醇的功效及食用方法 浏览:933
读懂课文的方法有哪些 浏览:529
4d的改善方法报告怎么写 浏览:464
预制楼板安装灌注的施工方法 浏览:953
高分复习方法视频 浏览:640
猪皮冻用什么方法熬最好 浏览:670
小孩抑郁症的治疗方法 浏览:223
硬度的测定方法有哪些如何选择 浏览:126