A. 评价回归模型是否合适的方法
当你只知道一两种技巧时,生活通常是简单的。如果结果是连续的,使用线性回归;如果结果是二值的,使用逻辑回归!然而,可供选择的选项越多,选择合适的答案就越困难。类似的情况也发生在回归模型选择中。
1、在多种类型的回归模型中,基于自变量和因变量的类型、数据维数和数据的其它本质特征,选择最合适的技术是很重要的。以下是如何选择合适的回归模型的几点建议:
(1)数据挖掘是建立预测模型不可缺少的环节。这应该是选择正确的模型的第一步,比如确定各变量的关系和影响。
(2)比较适合于不同模型的拟合程度,我们可以分析它们不同的指标参数,例如统计意义的参数,R-square,Adjusted R-square,AIC,BIC 以及误差项,另一个是 Mallows’ Cp 准则。通过将模型与所有可能的子模型进行对比(或小心地选择他们),检查模型可能的偏差。
(3)交叉验证是评价预测模型的最佳方法。你可以将数据集分成两组(训练集和验证集)。通过衡量观测值和预测值之间简单的均方差就能给出预测精度的度量。
(4)如果数据集有多个混合变量,则不应使用自动模型选择方法,因为不希望同时将这些混合变量放入模型中。
(5)这也取决于你的目标。与高度统计学意义的模型相比,简单的模型更容易实现。
(6)回归正则化方法(LasSo、Ridge 和 ElasticNet)在数据集是高维和自变量是多重共线性的情况下工作良好。
2、什么是回归分析?回归分析是一种预测建模技术的方法,研究因变量(目标)和自变量(预测器)之前的关系。这一技术被用在预测、时间序列模型和寻找变量之间因果关系。
3、有哪些回归类型呢?
(1) 线性回归(Linear Regression)
线性回归是最为人熟知的建模技术,是人们学习如何预测模型时的首选之一。在此技术中,因变量是连续的,自变量可以是连续的也可以是离散的。回归的本质是线性的。
线性回归通过使用最佳的拟合直线(又被称为回归线),建立因变量(Y)和一个或多个自变量(X)之间的关系。
它的表达式为:Y=a+b*X+e,其中 a 为直线截距,b 为直线斜率,e 为误差项。如果给出了自变量 X,就能通过这个线性回归表达式计算出预测值,即因变量 Y。
(2)逻辑回归用来计算事件成功(Success)或者失败(Failure)的概率。当因变量是二进制(0/1,True/False,Yes/No)时,应该使用逻辑回归。这里,Y 的取值范围为 [0,1],它可以由下列等式来表示。
其中,p 是事件发生的概率。你可能会有这样的疑问“为什么在等式中使用对数 log 呢?”
因为我们这里使用的二项分布(因变量),所以需要选择一个合适的激活函数能够将输出映射到 [0,1] 之间,Logit 函数满足要求。在上面的等式中,通过使用最大似然估计来得到最佳的参数,而不是使用线性回归最小化平方误差的方法。
B. 曲线拟合一般有哪些方法
曲线拟合一般方法包括:
1、用解析表达式逼近离散数据的方法
2、最小二乘法
拓展资料:
实际工作中,变量间未必都有线性关系,如服药后血药浓度与时间的关系;疾病疗效与疗程长短的关系;毒物剂量与致死率的关系等常呈曲线关系。曲线拟合(curve fitting)是指选择适当的曲线类型来拟合观测数据,并用拟合的曲线方程分析两变量间的关系。
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。