㈠ 数据分析师必须掌握的7种回归分析方法
1、线性回归
线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中,由于变量是连续的,因此自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
2、逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 /0,真/假,是/否)变量时,我们就应该使用逻辑回归.
逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。
为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
3、多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。下面是一个图例,可以帮助理解:
明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。
4、逐步回归
在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。
5、岭回归
岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
除常数项以外,这种回归的假设与最小二乘回归类似;它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。
6、套索回归
它类似于岭回归。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),确实有助于特征选择;这是一个正则化方法,使用的是L1正则化;如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。
7、回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
通常在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。
关于数据分析师必须掌握的7种回归分析方法,青藤小编就和您分享到这里了,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容,可以点击本站的其他文章进行学习。
㈡ 实证研究需要掌握的几种“回归方法”
回归分析是一种预测性的建模技术,主要研究因变量和自变量之间的关系。本文将介绍回归分析的优势,并重点介绍七种常用的回归技术:线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归和ElasticNet回归,最后讨论选择正确回归模型的关键因素。
回归分析能够揭示自变量和因变量之间的显着关系,并比较不同自变量对因变量的影响强度。这种方法在预测分析、时间序列模型以及发现变量之间的因果关系中非常有用。例如,通过回归分析可以研究司机鲁莽驾驶与道路交通事故数量之间的关系。
回归分析有三种主要度量:自变量的个数、因变量的类型以及回归线的形状。以下是最常用的回归技术:
1. 线性回归:使用最佳拟合直线在因变量和自变量之间建立线性关系。
2. 逻辑回归:用于计算二元事件发生的概率,适用于因变量为二元变量的情况。
3. 多项式回归:使用曲线拟合数据点,自变量的指数大于1时采用。
4. 逐步回归:通过观察统计值来识别重要变量,使用最少的预测变量数来最大化预测能力。
5. 岭回归:用于存在多重共线性数据的技术,通过增加偏差度降低标准误差。
6. 套索回归:类似于岭回归,惩罚回归系数的绝对值大小,有助于特征选择。
7. ElasticNet回归:Lasso和Ridge回归技术的混合体,适用于高度相关特征的情况。
选择正确的回归模型需要考虑以下关键因素:
1. 数据探索:识别变量的关系和影响,为选择合适的模型提供依据。
2. 模型比较:分析不同模型的优点,如统计意义参数、R-square、Adjusted R-square等。
3. 交叉验证:将数据集分成训练集和验证集,使用均方差衡量预测精度。
4. 数据集特征:避免在同一模型中将所有变量放入,考虑数据集的混合变量情况。
5. 目的性:根据实际目的选择模型,如易于实现或具有高度统计学意义。
6. 正则化方法:在数据集变量之间多重共线性情况下,Lasso、Ridge和ElasticNet等正则化方法表现良好。