1. 方差分析的分类举例
1、单因素方差分析:
是用来研究一个控制变量的不同水平是否对观测变量产生了显着影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。
例如,分析不同施肥量是否给农作物产量带来显着影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。
单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。
单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值的变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。
单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显着影响。
单因素方差分析基本步骤:
提出原假设;选择检验统计量;计算检验统计量的观测值和概率P值;给定显着性水平,并作出决策。
2、双因素方差分析
双因素方差分析(Double factor variance analysis) 有两种类型:一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析,它假定因素A和因素B的结合会产生出一种新的效应。
例如,若假定不同地区的消费者对某种品牌有与其他地区消费者不同的特殊偏爱,这就是两个因素结合后产生的新效应,属于有交互作用的背景;否则,就是无交互作用的背景。这里介绍无交互作用的双因素方差分析。
双因素方差分析的基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
3、多因素方差分析
多因素方差分析实质也采用了统计推断的方法,其基本步骤与假设检验完全一致 。
(1)提出原假设
多因素方差分析的第一步是明确观测变量和若干个控制变量,并在此基础上提出原假设。
多因素方差分析的原假设是:各控制变量不同水平下观测变量各总体的均值无显着性差异,控制变量各效应和交互作用效应同时为0,即控制变量和它们的交互作用没有对观测变量产生显着影响。
(2)观测变量方差的分解
在多因素方差分析中,观测变量取值的变动会受到三个方面的影响:第一,控制变量独立作用的影响,指单个控制变量独立作用对观测变量的影响;第二,控制变量交互作用的影响,指多个控制变量相互搭配后对观测变量产生的影响;
第三,随机因素的影响,主要指抽样误差带来的影响。基于上述原则,多因素方差分析将观测变量的总变差分解为(以两个控制变量为例):SST=SSA+SSB+SSAB+SSE。
其中,SST为观测变量的总变差;SSA、SSB分别为控制变量A、B独立作用引起的变差;SSAB为控制变量A、B两两交互作用引起的变差;SSE为随机因素引起的变差。通常称SSA+SSB+SSAB为主效应,SSAB为N向(N-WAY)交互效应,SSE为剩余。
(3)比较观测变量总离差平方和各部分所占的比例,计算检验统计量的观测值和相伴概率P值
多因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量以及控制变量的交互作用是否给观测变量带来了显着影响。
容易理解,在观测变量总离差平方和中,如果SSA所占比例较大,则说明控制变量A是引起观测变量变动的主要因素之一,观测变量的变动可以部分地由控制变量A来解释;反之,如果SSA所占比例较小,则说明控制变量A不是引起观测变量变动的主要因素,观测变量的变动无法通过控制变量A来解释。对SSB和SSAB同理。
在多因素方差分析中,控制变量可以进一步划分为固定效应和随机效应两种类型。其中,固定效应通常指控制变量的各个水平是可以严格控制的,它们给观测变量带来的影响是固定的;随机效应是指控制变量的各个水平无法作严格的控制,它们给观测变量带来的影响是随机的。一般来说,区分固定效应和随机效应比较困难。
由于这两种效应的存在,多因素方差分析模型也有固定效应模型和随机效应模型之分。这两种模型分解观测变量变差的方式是完全相同的,主要差别体现在检验统计量的构造方面。多因素方差分析采用的检验统计量仍为F统计量。如果有A、B两个控制变量,通常对应三个F检验统计量。
4.给定显着性水平,并做出决策
给定显着性水平,与检验统计量的相伴概率P值作比较。在固定效应模式中,如果FA的相伴概率P值小于或等于给定的显着性水平,则应拒绝原假设,认为控制变量A不同水平下观测变量各总体均值有显着差异,控制变量A的各个效应不同时为0,控制变量A的不同水平对观测变量产生了显着影响;
相反,如果FA的相伴概率P值大于给定的显着性水平,则不应拒绝原假设,认为控制变量A不同水平下观测变量各总体均值无显着差异,控制变量A的各个效应同时为0,控制变量A的不同水平对观测变量没有产生显着影响。对控制变量B和A、B交互作用的推断同理。在随机模型中,应首先对A、B的交互作用是否显着进行推断,然后再分别依次对A、B的效应进行检验。
2. 方差分析中方差齐性时常用的多重比较检验方法有哪些
1、图基法(Tukey's Method)又称T多重比较法,是用来比较均值 和 (g≠h)的所有可能的两两差异的一种联立检验( a simultaneous test) ( Tukey,1953)。目标是为所有两两比较构建100(1-α)%的置信区间。
这种方法的基础是学生化的极差分布( studentized range distribution)。令r为从均值为μ、方差为σ2的正态分布中得到的一些独立观察的极差(即最大值减最小值),令v为误差的自由度数目(多重比较中为N-G)。
2、谢弗法( Scheffé's method) 又称S多重比较法,也为多重比较构建一个100(1 -α) %的联立置信区间( Scheffé,1953,1959)。区间由下式给出:
表示自由度为G-1和N-G的F分布的100(1 -α)百分数点。
谢弗法更具有普适性,因为所有可能的对比都可用它来检验统计显着性,
而且可为参数的相应线性函数构建置信区间
(2)五种方差分析方法扩展阅读
图基法和谢弗法的比较
作为两种主要的多重比较方法,图基法和谢弗法各有其优缺点,总结如下:
1、谢弗法可应用于样本量不等时的多重比较,而原始的图基法只适用于样本量相同时的比较。
2、在比较简单成对差异( simple pairwise differences)时,图基法最具效力,给出更窄的置信区间,虽然它对于广义比对( general contrasts) 也可适用。
3、与此相比,对于涉及广义比对的比较,谢弗法更具效力,给出更窄的置信区间。
4、如果F检验显着,那么谢弗法将从所有可能的比对(contrasts)中至少检测出一对比对是统计显着的。
5、谢弗法应用起来更为方便,因为F分布表比图基法中使用的学生化极差分布更容易得到。
6、正态性假定和同方差性假定对于图基法比对于谢弗法更加重要
3. 单因素方差分析多重比较是指什么
单因素方差分析多重比较是指:用来测试某一个控制变量的不同水平是否给观察变量造成显着差异和变动。
通过不同水平下,各总体均值服从方差相同的正态分布。所以方差分析就是研究不同水平下各个总体的均值是否有显着的差异。
统计推断方法是计算F统计量,进行F检验,总的变异平方和 SST,控制变量引起的离差SSA(Between Group离差平方和),另一部分随机变量引起的SSE(组内Within Group离差平方和),SST=SSA+SSE。
多重比较检验:单因素方差分析只能够判断控制变量是否对观察变量产生了显着影响,多重比较检验可以进一步确定控制变量的不同水平对观察变量的影响程度如何,那个水平显着,哪个不显着。
单因素方差分析多重比较有两两比较方法:
1、LSD法:实际上就是t检验的变形,只是在变异和自由度的计算上利用了整个样本信息,因此仍然存在放大一类错误的问题。
2、Scheffe法:当各组人数不相等,或者想进行复杂的比较时,用此法较为稳妥。但它相对比较保守。
3、S-N-K法:是运用最广泛的一种两两比较方法。它采用Student Range 分布进行所有各组均值间的配对比较。该方法保证在H0真正成立时总的α水准等于实际设定值,即控制了一类错误。
4、Tukey法:对一、二类问题控制得很好,首选。
5、Bonferroni法:LSD法的改进,有效控制假阳性。
4. 16种常用的数据分析方法-方差分析
方差分析(Analysis ofVariance,简称ANOVA),又称“变异数分析”,又叫F检验。是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显着性检验。
方差波动来源
由于各种因素的影响,研究所得的数据呈现波动状,而方差分析的基本原理认为不同处理组的均数间的差别基本来源有两个:一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb +SSw。
方差分析应用场景
方差分析在工作场景中如何应用呢?看案例:
假如产品针对用户提出了三种提高客单价的策略A、B、C,现在要评估3种策略对提高客单价的效果差异。
如何知道3种策略效果有什么不同?最简单的方法就是做一个实验。
如:随机挑选一部分用户,然后把这些用户分成三组A、B、C组,A组用户使用A策略、B组用户使用B策略、C组用户使用C策略,
策略实施一段时间以后,分析3组分别的客单价水平。哪组平均客单价高,就说明哪组策略有效。
可是,这样得出的结论是否有偏差呢?
当然有,出现偏差的来源:
其一是实验的用户是随机挑选的,有可能客单价高的那部分用户(如高价值用户)集中出现在某一组中,造成这组的策略效果更好。
当然,按照方差原理的差别基本来源,还有可能由于策略执行过程中,实验条件造成的策略结果差异。
为了排除实验结果中,上述两种来源造成的结果偏差,就需要使用方差分析去证做进一步证实。最终获得更严谨、更有说服力的策略结论。
方差分析中的名词解释
方差:又叫均方,是标准差的平方,是表示变异的量。
因素:方差分析的研究变量;例如,研究裁判打分的差异,裁判就被称为因素;
水平:因素中的内容称为水平;例如,总共有3个裁判打分,则裁判因素的水平就是3;
观测因素:又称观测变量,指对影响总体的因素;
控制因素:又称控制变量,指影响观测变量的因素;
方差分析的3 个假定基础
1.每组样本数据对应的总体应该服从正态分布;
正态检验主要有两种大的方法,一种是统计检验的方法:主要有基于峰度和偏度的SW检验、基于拟合度的KS、CVM、AD检验;另一种是用描述的方法:Q-Q图和P-P图、茎叶图,利用四分位数间距和标准差来判断。
2.每组样本数据对应的总体方差要相等,方差相等又叫方差齐性;
方差齐性的主要判断方法有:方差比、Hartley检验、Levene检验、BF法。
3.每组之间的值是相互独立的,就是A、B、C组的值不会相互影响。
单因素方差分析-F 检验
方差分析把总的变异分为组间变异和组内变异:
组间变异:各组的均数与总均数间的差异;
组内变异:每组的每个测量值与该组均数的差异
离差平方和为:SS总=SS组间+SS组内
F统计量可表述为:F=MS组间/MS组内。
F值结论理解:通过计算得到的F值就可以查到P值,P值小于0.05,则拒绝原假设,认为其是有统计学意义的。
案例:
某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。
这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同,先从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况
表中20个数据各不相同,原因可能有两个方面:
一、销售地点影响。相同颜色的饮料在不同超市的销售量不同。案例中五个超市地理位置相似、经营规模相仿,因此把不同地点的销售量差异做为随机因素影响。
二、饮料颜色不同的影响。在同一超市不同颜色的饮料销售量不同。即使营养成分、味道、价格、包装等方面因素都相同,销售量也不相同。
这种不同虽然有类似抽样随机性造成,但更可能是人们对不同颜色的偏爱造成的。
根据上述分析,把案例分析问题归结为:检验饮料颜色对销售量是否有影响。
分析过程
一、建立假设:原假设“颜色对销售量没有影响”
二、计算不同颜色饮料销售量水平均值
无色饮料销售量均值=136.6÷5=27.32箱
粉色饮料销售量均值=147.8÷5=29.56箱
桔黄色饮料销售量均值=132.2÷5=26.44箱
绿色饮料销售量均值=157.3÷5=31.46箱
三、计算各种颜色饮料销售量的总均值
各种颜色饮料销售量总的样本平均数=(136.6+147.8+132.2+157.3)÷20=28.695箱
四、计算离差平方和、F值
F值=组间方差/组内方差=76.8455/(4-1)/ 39.0840/(20-4)=10.486
五、算出P值,做出结论
P值=根据F值算出P值=0.000466
结论解读:
P-值=0.000466<显着水平标准=0.05,假设不成立,说明饮料的颜色对销售量有显着影响。