❶ 如果线性回归模型检验出来有序列相关性,怎样用R处理
一、图示法 图示法是一种很直观的检验方法,它是通过对残差散点图的分析来判断随机误差项的序列相关性。把给定的回归模型直接用普通最小二乘法估计参数,求出残差项,并把作为随机误差项的估计值,画出的散点图。由于把残差项作为随机误差项的估计值,随机误差项的性质也应能在残差中反映出来。
(一)按时间顺序绘制残差图 如果残差,,随着时间的变化而呈现有规律的变动,则存在相关性,进而可以推断随机误差项之间存在序列相关性。如果随着时间的变化,并不频繁地改变符号,而是取几个正值后又连续地取几个负值(或者,与之相反,几个连续的负值后面紧跟着几个正值),则表明随机误差项存在正的序列相关,(见图6-1);如果随着时间的变化,不断地改变符号(见图6-2),那么随机误差项之间存在负的序列相关。 图6-2 负序列相关
(二)绘制,的散点图 计算和,以为纵轴,为横轴,绘制(,),的散点图。如果大部分点落在第Ⅰ,Ⅲ象限,表明随机误差项存在正的序列相关(见图6-3);如果大部分点落在第Ⅱ,Ⅳ象限,表明随机误差项存在负的序列相关(见图6-4)。 图6-3 正序列相关 图6-4 负序列相关二、杜宾——瓦特森(D-W)检验 1、适用条件杜宾——瓦特森检验,简称D—W检验,是J.Durbin(杜宾)和G.S.Watson(瓦特森)于1951年提出的一种适用于小样本的检验序列相关性的方法。D-W检验是目前检验序列相关性最为常用的方法,但它只适用于检验随机误差项具有一阶自回归形式的序列相关问题。在使用该方法时前,必须注意该方法的适用条件。回归模型含有截距项,即截距项不为零;解释变量是非随机的;随机误差项为一阶自相关,即;回归模型中不应含有滞后内生变量作为解释变量,即不应出现下列形式: 其中,为的滞后一期变量;无缺失数据。当上述条件得到满足时,我们可以利用D-W方法检验序列相关问题。2、具体过程(1)提出假设,即不存在序列相关,,即存在序列相关性(2)定义D-W检验统计量为了检验上述假设,构造D-W检验统计量首先要求出回归估计式的残差,定义D-W统计量为: (6-11)其中,。由(6-11)式有 (6-12)由于与只有一次观测之差,故可认为近似相等,则由(6-12)式得 (6-13)随机误差序列的自相关系数定义为: (6-14)在实际应用中,随机误差序列的真实值是未知的,需要用估计值代替,得到自相关系数的估计值为: (6-15)在认为与近似相等的假定下,则(6-15)式可化简为: (6-16)所以,(6-13)式可以写成 (6-17)(3)检验序列相关性因为自相关系数的值介于-1和1之间,所以:,而且有值与的对应关系如表6-1所示。表6-1 值与的对应关系表值DW值随机误差项的序列相关性-1(-1,0) 0(0,1)1 4(2,4) 2(0,2)0 完全负序列相关 负序列相关 无序列相关 正序列相关 完全正序列相关从表6-1中,我们可以知道当值显着地接近于0或者4时,则存在序列相关性;而接近于2时,则不存在序列相关性。这样只要知道统计量的概率分布,在给定的显着性水平下,根据临界值的位置就可以对原假设进行检验。但是统计量的概率分布很难确定,作为一种变通的处理方法,杜宾和瓦特森在5%和1%的显着水平下,找到了上限临界值和下限临界值,并编制了D-W检验的上、下限表。这两个上下限只与样本的大小和解释变量的个数有关,而与解释变量的取值无关。具体的判别规则为:(1) ,拒绝,表明随机误差项之间存在正的序列相关;(2) ,拒绝,表明随机误差项之间存在正的序列相关;(3) ,接受,即认为随机误差项之间不存在序列相关性;(4) 或,不能判定是否存在序列相关性。上述四条判别规则可用图6-5表示: 3.D-W检验特点D-W检验法的优点在于其计算简单、应用方便,目前已成为最常用的序列相关性检验的方法。EViews软件在输出回归分析结果中直接给出了DW值,并且人们也习惯将DW值作为常规的检验统计量,连同值等一起在报告回归分析的计算结果时表明。但D-W检验也存在很大的局限性,在应用时应予以重视。D-W检验不适应随机误差项具有高阶序列相关的检验; D-W检验有两个无法判别的区域,一旦DW值落入这两个区域,必须调整样本容量或采取其他的检验方法;这一方法不适用于对联立方程模型中各单一方程随机误差项序列相关性的检验;D-W检验不适用于模型中含有滞后的被解释变量的情况。
二、回归检验法 1、定义回归检验法适用于任一随机变量序列相关性的检验,并能提供序列相关的具体形式及相关系数的估计值。2、应用步骤分三步进行:第一步,依据模型变量的样本观测数据,应用普通最小二乘法求出模型的样本估计式,并计算出随机误差项的估计值;第二步,建立与、的相互关系模型,由于它们相互关系的形式和类型是未知的,需要用多种函数形式进行试验,常用的函数形式主要有: 第三步,对于不同形式的与、的相互关系模型,用普通最小二乘法进行参数估计,得出回归估计式,再对估计式进行统计检验。如果检验的结果是每一种估计式都不显着的,就表明与、是不相关的,随机误差项之间不存在序列相关性。如果通过检验发现某一个估计式是显着的(若有多个估计式显着就选择最为显着的),就表明与、是相关的,随机误差项之间存在序列相关性,相关的形式就是统计检验显着的回归估计式,相关系数就是该估计式的参数估计值。回归检验法需要用多种形式的回归模型对与、的相关性进行试验分析,工作量大、计算复杂,显得极为繁琐。线性回归模型中随机误差项序列相关性的检验,在计量经济学的研究中是一个很重要的问题。但目前应用的检验方法都存在一些缺限和局限,还不能对这一问题进行完全有效的检验,更为完善的检验方法有待于进一步研究。有关于高阶序列相关性的检验,可以参考其它相关教科书。第三节 序列相关的处理 如果检验发现随机误差项之间存在序列相关性,应当首先分析序列相关产生的原因,引起序列相关的原因不同,修正序列相关的方法也不同。如果是回归模型变量选用不当,则应对模型中包含的解释变量进行调整,去掉无关的以及非重要的变量,引入重要的变量;如果是模型的形式选择不当,则应重新确定正确的模型形式;如果以上两种方法都不能消除序列相关性,则需要采用其他数学方法进行处理以消除序列相关性,然后再对模型中的未知参数进行估计。
三、差分法 差分法将原模型变换为差分模型,用增量数据代替原来的样本数据。差分法分为一阶差分法和广义差分法。
(一)一阶差分法 假设原模型为: (6-18)一阶差分法变换后的模型为: (6-19)其中, 如果,原模型存在完全一阶正相关,即 ,其中不存在序列相关性,那么差分模型满足应用普通最小二乘法的基本假设。用普通最小二乘法估计差分模型得到的参数估计值,即为原模型参数的无偏、有效估计值。
(二)广义差分法 一阶差分法仅适用于随机误差项的自相关系数等于1的情形。但在一般情况下,完全一阶正相关的情况并不多见,在这种情况下,随机误差项的序列相关性就要用广义差分法进行修正。对于模型(6-18)如果随机误差项存在一阶自相关,即,其中,为随机误差项的自相关系数,且有,不存在序列相关性。将(6-18)式滞后一期,并左右两边同乘,可得 (6-20)将(6-18)式减去(6-20)式,得 (6-21)在为已知的情况下,我们可以对(6-21)式进行如下变换 (6-22)将变换后的新变量代入(6-21)式,便可得到一个新的模型表示式: (6-23) 我们把上述变换过程称为广义差分变换,把通过广义差分变换得到的模型称为广义差分模型。我们应该注意到这一变换过程所构建的新变量,,由于差分变换要损失一个观测值,样本个数由个减少到个。为了避免损失自由度,可以将第一个观测值作如下变换:,通过对原模型进行广义差分变换,我们可以得到广义差分模型,广义差分模型中的随机误差项满足线性回归的经典假设,对广义差分模型进行OLS估计,得到的参数估计值仍然是最佳估计量。
四、杜宾两步法 进行广义差分变换的前提是已知的值。但是随机误差项的自相关系数,的值不可观测,使得的值也是未知的。所以利用广义差分法处理序列相关性时,首先需要估计出的值。这可以用杜宾(Durbin)两步估计法。我们以一元线性回归模型为例,对于模型 (6-24)如果随机误差项存在阶自回归形式的序列相关,即 (6-25)当、、时,便可利用杜宾两步法对的相关系数进行估计。第一步,对(6-24)式进行差分变换,可得 (6-26)整理(6-26)式,可得 (6-27)第二步:应用普通最小二乘法对包含被解释变量及解释变量的滞后变量在内的模型(6-27)式进行估计,求出随机误差项的自相关系数,,…, 的估计值,,…, 。再将,,…, 代入(6-26)式,可得 (6-28)(6-28)式的随机误差项具有零均值、方差齐性、不存在序列相关性的特点。在,,…, 已知的情况下,可以用普通最小乘法对(6-28)式进行估计,求出参数、的估计值、。此方法也适用于多元线性回归模型。杜宾两步法不但求出了自相关系数的估计值,而且也得出了模型参数的估计值。
五、迭代法 迭代估计法或科克伦-奥克特(Cochrane-Orcutt)估计法,是用逐步逼近的办法求的估计值。仍以(6-24)式为例,假设随机误差项存在一阶自回归形式的序列相关,即,,其中满足零均值、方差齐性、无序列相关性。迭代估计的具体步骤为:第一步,利用OLS法估计模型,计算残差出;第二步,根据上一步计算出的残差计算的估计值: 第三步,利用上一步求得的值对(6-24)式进行广义差分变换: 并得到广义差分模型:;第四步,再利用OLS法估计,计算出残差,根据残差计算的第二次逼近值: 第五步,重复执行第三、四步,直到的前后两次估计值比较接近,即估计误差小于事先给定的精度:。此时,以 作为的估计值,并用广义差分法进行变换,得到回归系数
❷ 相关性分析有哪几种方法
在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,相关性不等于因果性。
一、离散与离散变量之间的相关性
1、卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
(1)假设,多个变量之间不相关
(2)根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,变量相关的可能性越大,当P<=0.05,否定原假设,认为变量相关。
2、信息增益 和 信息增益率
在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。
信息熵,就是一个随机变量的不确定性程度。
条件熵,就是在一个条件下,随机变量的不确定性。
(1)信息增益:熵 - 条件熵
在一个条件下,信息不确定性减少的程度。
Gain(Y,X)=H(Y)-H(Y|X)
信息增益越大,表示引入条件X之后,不纯度减少得越多。信息增益越大,则两个变量之间的相关性越大。
(2)信息增益率
假设,某个变量存在大量的不同值,例如ID,引入ID后,每个子节点的不纯度都为0,则信息增益减少程度达到最大。所以,当不同变量的取值数量差别很大时,引入取值多的变量,信息增益更大。因此,使用信息增益率,考虑到分支个数的影响。
Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)
二、连续与连续变量之间的相关性
1、协方差
协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
当 cov(X, Y)>0时,表明 X与Y 正相关;
当 cov(X, Y)<0时,表明X与Y负相关;
当 cov(X, Y)=0时,表明X与Y不相关。
协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。
协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。
2、线性相关系数
也叫Pearson相关系数, 主要衡量两个变量线性相关的程度。
r=cov(X,Y)/(D(X)D(Y))
相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。
三、连续与离散变量之间的相关性
1、连续变量离散化
将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。
2、箱形图
使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。
如果,离散变量取不同值,对应的连续变量的箱形图差别不大,则说明,离散变量取不同值对连续变量的影响不大,相关性不高;反之,相关性高。
❸ 11 - PLS,PCA-LDA, DT, ANN简要介绍
此本来自自己硕士论文的综述部分。
偏最小二乘法可以分为偏最小二乘回归法(Partial least square regression, PLSR)与偏最小二乘法判别分析(Partial least square discriminate analysis, PLS-DA)。PLSR实现的主要思想是将自变量和因变量分别进行线性组合分析,再将求得的数据进行关联分析,所以其为主成分分析、典型相关性分析与多元线性回归建模的组合。PLS-DA是有监督的判别分析法,Gottfries等首先报道了PLS-DA使用,而后Barker与Rayens明确了其用于判别分析的理论基础,并且对于其应用的优缺点由Brereton与Lloyd进一步阐释(Gottfries et al 1995, Barker and Rayens 2003, Brereton and Lloyd 2014 )。其与PLSR区别是因变量是类别,而不是连续的变量,一般是在PLSR分析后加入一个逻辑判别函数如Sigmoid函数(在逻辑回归判别中将详述)。因为两者前面分析部分相似,故这里主要介绍PLSR算法。PLSR中自变量与因变量的基础结构公式为:
X = TPT + E
Y = UQT + F
PLSR一般基于非线性迭代最小二乘算法(NIPALS)建立。其步骤为(1)对自变量X和因变量Y同时提取各自的主成分t1(x1、x2...xn的线性组合)与u1(y1、y2...yn的线性组合),并且要求这两个主成分相关性最大;(2)再进行X与Y分别对t1与u1的回归,若方程达到了设置的满意度,则停止计算;(3)否则,再利用t1对X解释后剩余的信息和u1对Y解释后剩余的信息重新按照(1)进行,再次循环,直到符合设定的阈值。最终X可能会提取到t1、t2...tn个主成分,Y提取到u1、u2…un,使Y的u组合对t1、t2...tn进行回归,进而转化成Y对x1、x2...xn的回归方程(Wold et al 2001)。
PLSR是基于FT-MIR建立模型研究中使用最为广泛和经典的算法,上述关于基于FT-MIR检测牛奶脂肪酸、蛋白质及氨基酸和抗生素残留的定量模型研究中均使用了PLSR算法,可见其应用之普遍。PLS-DA已在食品分析中的产品认证、医学诊断中的疾病分类和代谢组分析中进行广泛应用,并且Gromski等在综述代谢组的分析中,将其和随机森林与支持向量机进行了比较(Gromski et al 2015, Lee et al 2018)。
PLS的优点:(1)能处理样本量远小于特征属性数量的数据;(2)能处理特征属性间存在多重共线性的问题;(3)建立的模型时包含自变量与因变量的信息。其缺点有:(1)不能很好的处理非线性问题;(2)容易过拟合,需注意主成分数的选择。
主成分分析(Principal Component Analysis,PCA)是一种无监督的降维分析方法。PCA降维的基本原则是使降维后方差最大与损失最小,如图1-2。其实现的基本过程:(1)对所有样本进行中心化处理;(2)计算样本的协方差矩阵;(3)对协方差矩阵进行特征值分解;(4)对得到的特征值进行排序,取前n个组成新矩阵;(5)以新矩阵来代替原来样本的特征(Abdi and Williams 2010, Jolliffe and Cadima 2016)。
线性判别分析(Linear discriminat analysis,LDA)是一种有监督的降维与判别分析方法。LDA降维原则是类别内方差最小,类别间方差最大,这样的特点更有利于进行判别分析(Anandkumar et al 2015)。其实现的基本过程为(1)计算样本各类别内的类内散度矩阵Sw;(2)计算样本各类别间的散度矩阵Sb;(3)对Sw做奇异分解,得到Sw -1 ;(4)对Sw -1 Sb做特征分解;(5)取上一步得到的前n特征向量以最大似然法求得各类别的均值和方差做后续的判别分析。
LDA不适用自变量远远大于样本的情况,而PCA可以,故这里将两个算法进行联用,先以PCA进行降维,再以LDA进行判别分析(Yang and Yang 2003)。
PCA-LDA的优点:(1)两个算法的联用可以同时对原数据进行降维和判别分析;(2)LDA采用的是各类均值,算法较优。其缺点有(1)只适合符合高斯分布的样本数据分析;(2)可能会有过拟合的风险。
决策树是基础的分类和回归方法,本研究主要集中在其用于分类上。决策树是通过树状结构对具有特征属性的样本进行分类。每一个决策树都包括根节点(第一个特征属性),内部节点(其他特征属性)以及叶子节点(类别),通用的为每个内部节点有两个分支(Kaminski et al 2018)。其实现的基本步骤:(1)在所有属性中选择最优属性,通过其将样本分类;(2)将分类的样本再通过另一个特征属性再次分类,一直循环直到将样本分到各叶子节点;(3)对生成的树进行剪枝(包含预剪枝与后剪枝)。决策树选择特征属性的算法不同会有不同结果,典型算法包括:CART算法(Breiman et al 1984)、ID3算法(Quinlan 1986)、C4.5算法(Quinlan 1992)等,但这些方法生成的过程相似。
CART采用基尼指数最小化原则,进行特征选择,递归地生成二叉树,该算法只能对特征进行二分。ID3算法在各个节点上采用信息增益来选择特征,每一次选择的特征均使信息增益最大,逐步构建决策树,但缺点是其会选择取值较多的特征,而C4.5算法采用信息增益比选择特征,解决了ID3的缺点。
DT的优点:(1)运行速度相对较快;(2)可同时处理不同类型的数据,基本不需要预处理;(3)结果容易解释,并可进行可视化。其缺点:(1)容易过拟合,导致泛化能力不强;(2)不支持在线学习,若有新样本,DT需要全部重建;(3)当各类别数据样本不平衡时,结果会偏向有更多数值的特征;(4)不能处理样本特征属性之间的相关性(James et al 2013, Painsky and Rosset 2015)。
人工神经网络是以神经元为单位模仿生物神经网络的结构与功能的数学算法模型(Marcel and Sander 2018)。其可以进行线性与非线性的判别分析,属于有监督的学习分类法,主要分为前馈型神经网络、反馈型神经网络与自组织神经网络。
单位神经元如图1-3中A,一般有多个输入的“树突”,再分别给予不同的权重求和,与阈值比较,达到阈值的通过激活函数求出输出数据,最后进行输出。激活函数f通常分为三类:阈值函数、分段函数、双极性连续函数。
这里以经典的单隐层神经网络为例进行讲解,如图1-3中B。其输入层包含三个神经元,隐含层有四个神经元,输出层有两个神经元。其运算过程为由输入层输入数据,随机设定权重和阈值,通过隐藏层计算再传递到输出层,输出层会根据设定的期望进行判断,如果不符合,则返回重新改变权重和阈值,进入循环,直到符合设定的期望再停止运算,这样就能得到模型的权重和阈值,可对新数据进行判别,这种运算法即为常见的反馈型神经网络(Tu 1996)。多层神经网络属于深度学习,以卷积神经网络为基础进行构建。
ANN的优点:(1)能够自主学习;(2)能解决线性与非线性的问题;(3)可处理因变量之间的相互作用。其缺点:(1)需要设置大量的参数进行约束;(2)结果解释性差,为黑箱算法;(3)计算学习时间长;(4)容易过拟合(Tu 1996)。