‘壹’ 统计学的假设检验方法
统计学假设检验主要有T检验、Z检验两种方法,具体内容是:
1、T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
2、z检验(U检验),是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显着。
除以上两种主要方法外,还有F检验和卡方检验。
‘贰’ 假设检验方法有几种
假设检验是不可能做到完全正确的,它只能保证假设在最大概率上的成立。
一般双侧U-检验的做法就是你列出的检验法1。
利用检验法2或3,表面上结果是检验水平a下进行的,但实际内在的结果是:假设是在检验水平为b时成立;其中b可能大于a,也可能小于a。也就是说
(1)(当假设值与真实值差别非常小时) b≥a,即在比a更高的检验水平下也能成立,若使用这种检验法,则“弃真”的概率就更大;
(2)(当假设值与真实值差别比较大时) b≤a,即只有在比a低的检验水平下才能成立,若使用这种检验法,则“纳伪”的概率就更大。
所以一般不采用检验法2和3。
可以想象,检验法1中,u2和u1的大小关系是由契比学夫不等式确定的,只有成立与不成立的情况,没有程度关系。
而在检验法2和3中,u0或xx落在置信区间内的具体位置对其概率的影响是很大的,所以检验的结果也不一定准确,至少检验的结果不是对应于检验水平a的。
如果是通过矩估计法得到的u0,那么你列出的检验法2和检验法3就是一回事,u0=xx。
‘叁’ 请简述两总体均数作独立样本假设检验可以采用的统计方法及适用条件
当两样本满足正态独立方差齐条件时,可以t检验比较两样本均数;当仅方差齐不满足时可以使用t'检验比较两样本均数。当样本量较大时可进行z近似。虽可使用方差分析处理满足t检验条件的两样本,但结果与t检验一致。如不满足上述t检验前提条件,可使用wilcoxon秩和检验或曼尼惠特U检验。
‘肆’ 假设检验
(一)假设检验的基本思想
统计假设检验就是为了推断某个问题,事先做出一种假设。然后用一个实测样本数据计算出某一个适合的、已知其分布的统计量,并通过查表得出其相应的临界值。再用实测样本数据计算出来的关于统计量与其临界值进行比较,从而得出肯定(接受)原假设或否定(拒绝)原假设的结论,达到统计推断之目的,下面举例说明。
[例8-4]在某测区的海西期第二阶段中粗粒黑云母花岗岩(
解:假定这批γ照射量率数据都服从正态分布。此例中,300个数据是很大的样本,可以把它看成总体,故可用300个数据的平均数与标准差当作总体的均值与标准差,即μ=35γ,σ=8γ,80个观测数据仍看成是样本。由于样本标准差s=8.2γ与总体标准差相差甚小。因此,只需检验样本平均数
(1)假设H0
放射性勘探技术
其中:μ=35(γ),σ=8(γ),
(2)构造一个统计量u
先将样本平均数标准化,即
放射性勘探技术
式(8-21)中的统计量u服从标准正态分布,即u~N(0,1)。
(3)确定临界值
给定信度α=0.05,则由附录一查出F(u)=1-α/2=0.975所对应的uα=1.96,故有
P{-1.96<u<1.96}=1-α=0.95
即
放射性勘探技术
或
放射性勘探技术
其中33.26γ与36.74γ是临界值,而区间(33.26,36.74)是肯定域。区间以外为否定域。这就是说,样本平均数
(4)计算实测样本平均数
由于实测样本平均数
(二)差异的显着性与信度(显着性水平)
上例的统计推断性结论是在信度(显着性水平)α=0.05的条件下做出的。如果将信度α定得小一些,那么做出的统计性结论就有可能改变。比如α=0.01,由附录一可查出F(u)=1-α/2=0.995所对应的u临界值uα=2.58,故有
放射性勘探技术
或
放射性勘探技术
在这种情况下,临界值为32.7γ与37.3γ,故区间(32.7,37.3)为肯定域。而实测样本
显而易见,信度α如何选择,直接影响到差异是否显着的结论。可见,任何差异是否显着的推断都是在一定的信度(显着性水平)α下做出的。α定得越大,肯定域就小,但推断的可靠性差(即置信概率小)。反之,α定得愈小,肯定域就愈大,推断的可靠性强(置信概率大)。放射性物探工作中所要进行的统计假设检验,一般将信度α定为0.05或0.01较为恰当,此时置信概率分别为95%与99%。
(三)统计假设检验的分类
统计假设检验可分为两大类,即参数性方法与非参数性方法,就是假定总体的分布型式已知(经常假定为正态分布),只要对参数进行检验即可。非参数性方法,则不管总体的分布如何,都能应用。
参数性方法又可分为大样本与小样本推断两种。一般当n>30~50时,可称为大样本,凡属大样本一律可按正态分布处理。
(四)分布型式的检验
放射性物探工作中经常要统计各种底数。进行底数统计之前,就要对观测数据进行分布型式的检验,以确定观测数据服从何种概率分布,并采用相应的底数与标准差的计算方法。当然根据频率分布直方图的形状也大致可以看出其分布型式,但这是不严格的,需要进行检验。检验的方法很多,下面介绍几种方法:
1.偏度、峰度检验法
这是一种检验概率分布是否属于正态分布的参数性方法,要求有大样本(n>100)。此种检验方法中要用的两个统计量CS(偏度)与CE(峰度),其计算公式已在本项目学习任务一中给出。
当总体服从正态分布时,若样本为大样本(n>100),则统计量CS、CE近似服从正态分布,即CS~N(0,6/n),CE~N(0,24/n)。
现以本项目学习任务一某花岗岩体的228个γ测量数据为例,说明如何用偏度系数和峰度系数法检验分布型式的方法。
[例8-5]用偏度系数和峰度系数法检验表8-1中某地区γ普查数据是否服从正态分布,给定信度α=0.05。
(1)假设H0
该地区γ照射量率数据服从正态分布。又因样本容量n=228,为大样本,故
CS~N(0,6/228),CE~N(0,24/228)
将这两个参数标准化,有
放射性勘探技术
经过标准化变换以后,公式(8-22)和公式(8-23)都服从标准正态分布N(0,1)。
(2)计算标准化后的概率区间
在α=0.05下,查得F(u)=1-α/2=0.975所对应的uα=1.96,故有
放射性勘探技术
即
P{-0.32<CS<0.32}=0.95
故CS的临界值为-0.32和0.32,即区间(-0.32,0.32)为肯定域,其外为否定域。
同样对于CE,有
放射性勘探技术
即
P{-0.64<CE<0.64}
故CE的临界值为-0.64和0.64,即区间(-0.64,0.64)为肯定域,其外为否定域。
(3)计算样本的CS和CE
根据实测数据可用列表法求取偏度系数CS和峰度系数CE,见表8-5。
表8-5 某地区放射性测量γ射线照射量率(γ)偏度系数和峰度系数计算表
续表
根据表8-5计算CS和CE,步骤如下:
放射性勘探技术
三阶中心矩(M3)和四阶中心矩M4计算如下:
放射性勘探技术
于是
放射性勘探技术
(4)比较
将由实测样本计算的CS和CE与其临界值进行比较,可见样本的CS=0.0903和CE=-0.5921都落在肯定域内,故肯定原假设,认为该地区的γ射线照射量率符合正态分布。
2.正态概率格纸检验法
显然上述检验方法比较麻烦,计算工作量较大,而且要求是大样本。在本项目学习任务二曾指出,在正态概率格纸上做出的正态分布的累积概率曲线为一条直线。因此便可根据画在正态概率格纸上的实测样本数据的诸(xi,Fi)点是否基本在一条直线上,来检验该批数据是否符合正态分布。其中xi为实测样本分组数据的组上限,Fi为其累积频率。这种检验方法称为正态概率格纸检验法。
下面仍然以某地区花岗岩228个γ照射量率数据为例,说明其检验方法。
[例8-6]使用表8-1的数据,用正态概率纸法检验某地区γ普查数据是否符合正态分布。
解:以表8-1中的累积频率为纵坐标,将数据分组值(组上限)为横坐标,在正态概率格纸上打点,即A(21.5,1.32)、B(25.5,7.46)、C(29.5,20.64)、D(33.5,41.23)、E(37.5,64.64)、F(41.5,82.64)、G(45.5,94.74)、H(49.5,98.25);然后用直尺画一条直线,尽可能将各点联结起来,如图8-9所示,其做法与用累积频率展直线法求正常值的做法相同。
由图8-9可见,这些点基本落在一条直线上,因此该批数据服从正态分布,这与用偏度、峰度检验法得出的结论相同。由图8-9还可见到,有些点与直线有些偏差,这是允许的,但是偏差不能太大。偏差太大,则不一定属于正态分布。一般说来,中间的点(即靠近累积频率为50%横线附近的点)偏差不能太大,两端的点偏差可以适当大一点。究竟偏离多远可认为是允许的,需绘制一定信度α下的临界曲线,见图5-5所示,以此作为衡量的标准。临界值曲线的画法请参阅有关书籍。
3.χ2检验法
χ2检验不但可以检验正态分布,还可以检验泊松分布、二项分布、负二项分布、指数分布等的分布型式。
(1)理论原理
这是在总体x为未知时,根据它的n个观测值x1,x2,…,xn来检验关于总体分布的假设
H0:总体x的分布函数为F(x)(8-24)
的一种方法。
注意,若总体分布为离散型,则假设式(8-24)相当于
H0:总体x的分布律为P{x=ti}=pi(i=1,2,…)(8-25)
若总体分布函数为连续型,则假设式(8-24)相当于
H0:总体x的概率密度为f(x)(8-26)
式(8-24)~式(8-26)是χ2检验的理论模型表达式。
在用下述χ2检验法检验假设H0时,要求在假设H0下F(x)的分布型式及其参数都是已知的。但实际上参数往往是未知的,这时,需要先用极大似然法估计参数,然后做检验。
χ2检验法的基本思想是:把随机实验结果的全体S分为k个互不相容事件A1,A2,…,Ak(A1∪A2∪…∪Ak=S,AiAj=ϕ,i≠j;i,j=1,2,…,k)。于是,在假设H0下,我们可以计算理论频率pi=P(Ai)(i=1,2,…,k)。显然,在n次试验中,事件Ai出现的频率
放射性勘探技术
作为检验理论(即假设H0)与实际符合的尺度。并证明了如下的定理:若n充分大(n≥50),则不论总体属于什么分布,统计量式(8-27)总是近似地服从自由度为k-r-1的χ2分布。其中,r是被估计参数的个数。
于是,若在假设H0下算得皮尔逊统计量的值,即式(8-27),有
放射性勘探技术
则在显着性水平α下拒绝H0;若式(8-28)中不等号反向,就接受H0。
χ2检验的具体步骤是:
把实轴分为k个互不相容的区间[αi,αi+1](i=1,2,…,k),其中αi,αi+1可分别取-∞,+∞。区间的划分方法视具体情况而定。
其次,计算概率
pi=F(αi+1)-F(αi)=P{αi<x≤αi+1}(8-29)
此处,F(x)由式(8-29)确定。然后算出pi与样本容量n的乘积npi称为理论频数。
同时,计算样本观察值x1,x2,…,xn在区间(αi,αi+1]中的个数
然后,将
χ2检验法是在n无限增大时推导出来的,所以在使用时必须注意n要足够大,以及npi不太小这两个条件。根据经验,要求样本容量n不小于50,当n刚刚大于50附近时,npi最好在5以上,在n大于100时npi最好取10以上,否则应当适当的合并区间(或Ai),使npi满足这个要求。特别是在边部小概率事件下要进行适当地并组,这样可以有效的压低边部“干扰”,突出数据中部的“有用信号”。
下面通过实例来说明检验的过程。
(2)应用实例
[例8-7]试用χ2检验的办法检验某地区闪长岩钍含量是否服从对数正态分布(取α=0.05)。原始数据单位为10-6,取常用对数以后的统计结果见表8-6。
表8-6 某地区闪长岩钍含量对数值统计表
解:为方便起见,根据表8-6所整理的结果来做检验。因参数都是未知的,故应用极大似然估计法估计μ、
放射性勘探技术
注意:这里的
估计
放射性勘探技术
注意,公式中的n=110,为样品容量;k为分组数,表示并组后的组数。这里对第1~3和13~15组进行了并组,故k=11。对于分组时两头的小组实行并组是为了有效地减小偶然误差。
所以,我们要检验的假设为
H0:x~N(0.7509,0.24842)
为便于计算npi,应先做变换u=(x-0.7509)/0.2484。化x为标准正态变量u,与正态分布概率纸检验法一样,查出各个u之下的累积频率,算出区间频率、频数,这些都是理论值。如表8-7所示。
表8-7 某区闪长岩钍含量对数正态分布χ2检验表
标准正态分布表中查出的是累积频率F(u);每一个区间频率为该区间累积频率与上一个区间累计频率之差;n=110,为样品容量,而非分组组数,故npi表示理论频数;
由于并组后组数k=11,估计了两个参数(
放射性勘探技术
故在水平α=0.05下接受H0,认为该地区岩石钍含量符合对数正态分布,并且钍含量对数
通过上例可见,用χ2检验法(或其他检验方法)得到的结果往往较概率纸精确。特别是,有的检验法(如χ2检验法)能控制犯第一类错误的概率α,这是概率纸所做不到的。但概率纸使用方便,无须太多的计算,因此,概率纸常用来初步估计总体的分布类型及参数的一次近似之用。然后用χ2检验法(或距离计算法、偏度系数和峰度系数检验法等)进一步做精确的检验。
(五)平均数的对比(U检验和t检验)
由本项目学习任务二正态分布的介绍,可知正态分布有两个重要参数,一个是均值μ,另一个是标准差σ。当μ与σ确定后,正态分布N(μ,σ)就完全确定了;且在一般情况下,标准差σ比较稳定。要检验两个正态分布是否相同,或者说,两个正态分布的样本是否属于同一总体,只要对均值μ做检验,这就是平均数对比的实质。放射性物探工作中要经常遇到某些元素的含量,放射性γ照射量率等的对比问题,仪器的“三性”检查工作中也要碰到类似的问题。
设从两个正态总体N(μ1,
1.大样本平均数的对比——U检验
当两个样本为大样本,即n1>30,n2>30时,由本任务可知,两样本的平均数
U检验的步骤如下:
(1)假设H0
μ1=μ2,于是
放射性勘探技术
将
放射性勘探技术
那么新变量U服从标准正态分布,即U~N(0,1),U就是检验中要用的统计量,可查F(u)表(见附录一),故称为U检验。
(2)确定临界值
若选定信度α=0.05,则从F(u)反查u值表中根据F(u)=1-
(3)比较
计算实测样本的U值,与临界值uα进行比较。若|U|>uα,则否定原假设;若|U|<uα,就肯定原假设。
为了计算实测样本的U值,必须知道总体的标准差σ。若σ已知,则无论大、小样本都可用U检验进行假设检验。若σ未知,则要用两样本标准差s1、s2的加权平均值来估计总体标准差σ,即用
放射性勘探技术
代替σ,于是
放射性勘探技术
式(8-31)就是计算的U值,下面举例说明。
[例8-8]在某一斑状黑云母花岗岩地段进行放射性γ照射量率测量。测得169个数据(n1),平均照射量率
解:经过分布型式检验,两样本γ照射量率数据均服从正态分布,两样本标准差又近似相等,且都是大样本。显然可用U检验对两地段的平均数进行对比。将数据代入公式(8-31),可算出实测样本U值,即
放射性勘探技术
取信度α=0.05,查附录一,得U的临界值uα=1.96。而实测样本U=9.034>uα=1.96,故否定原假设H0,认为斑状黑云母花岗岩地段与其相邻地段不是同一总体,或者说,不是属于同一岩性。后经地质调查证实岩性为细粒二云母花岗岩,这两种花岗岩的结构不同,成分不同,侵入时代也不相同。
2.小样本平均数的对比——t检验
当两个样本中,只要有一个为小样本时,即n1与n2中有一个小于30,用样本方差s2去估计总体方差时,要用无偏估计量,即
放射性勘探技术
在这种情况下得不出新变量u服从标准正态分布的结论。因此也就不能用上述U检验的方法进行检验。用两个样本方差
放射性勘探技术
来代替σ,这时要构造一个新的统计量t。t不像两个大样本的情况下要服从标准正态分布,而服从自由度f=n1+n2-2的t分布,或称学生(Student)分布。
当给定了信度α,如α=0.05,且自由度f=n1+n2-2为已知时,可在t分布临界值tα表中(见附录三)查出临界值tα。其否定域为|t|≥tα。
[例8-9]在同一地点、相同条件下用两台γ能谱仪进行测量。第一台仪器测量10次,测得铀含量(10-6)x1分别为3.5、3.2、3.0、3.1、3.2、3.3、3.3、3.2、3.1、3.2,平均铀含量
解:因为
1)假设H0,两台仪器读数的均值相等,即
μ1=μ2
2)计算实测样本统计量t:
放射性勘探技术
3)比较:
若取信度α=0.05,查t分布表(见附录三),其自由度f=n1+n2-2=20时,查得t的临界值tα/2=2.08。因为|t|=2.285>tα/2=2.08,所以否定原假设H0,μ1≠μ2,认为两台仪器读数的平均值差异显着,故两台仪器的一致性不好。
(六)方差对比——F检验
在平均数对比中,检验两个总体均值是否相同(无论大样本或小样本)之前,都应先假定被检验的两个总体服从正态分布,且方差相等。如果不能肯定方差基本相等则需先进行方差检验。只有当方差无显着性差异后,方可进行平均数的对比;否则,就不必进行平均数对比了,因为方差差异显着,已可认为两者不是同一总体了。
假设从两个正态总体N(μ1,
放射性勘探技术
通过对比两样本方差
放射性勘探技术
统计量F服从第一自由度f1=n1-1、第二自由度f2=n2-1的F分布。当给定信度α后。且第一自由度f1与第二自由度f2为已知时,可从F分布临界值表中(见附录四)查出临界值Fα。本来当信度为α时,F检验的否定域为左右两边各取面积为α/2的两部分(图8-10)。但为了制表省略起见,F分布临界值表中,往往只给出F>l的右边临界值。因此,当给定了信度α,并已知第一自由度f1与第二自由度f2的情况下,查附录四时实际得出的是Fα/2值,这样在计算样本方差比F值时,就要使得F永远大于1。为此总是把两方差
图8-10 F分布概率密度曲线图
[例8-10]用例8-9中两台仪器在同一地点观测的数据为准,用F检验的办法检验这两台能谱仪的方差有无显着差异。已知α=0.10。
解:设
1)假设H0:
2)计算方差比:
第一台仪器10次测量和第二台仪器12次测量的均方差分别是s1=0.137×10-6和s2=0.162×10-6,直接代入公式(8-33)中,得
放射性勘探技术
3)确定临界值Fα:
已知α=0.10,第一自由度f1=10-1=9,第二自由度f2=12-1=11,查附录四,得Fα/2=F(0.05)=2.27。
4)比较:
由于两个样本的方差比F=1.398<Fα=2.27,落在肯定域内,故肯定原假设H0:
‘伍’ 总结!14个常用的统计假设检验的方法
本文分享利用SPSSAU进行14个常用的统计假设检验的方法,分为以下五个部分:
一、正态性检验
正态性特质是很多分析方法的基础前提,如果不满足正态性特质,则应该选择其它的分析方法,因此在做某些分析时,需要先进行正态性检验。如果样本量大于50,则应该使用Kolmogorov-Smirnov检验结果,反之则使用Shapro-Wilk检验的结果。
常见的分析方法正态性特质要求归纳如下表(包括分析方法,以及需要满足正态性的分析项,如果不满足时应该使用的分析方法)。
如果p 值大于0.05,则说明具有正态性特质,反之则说明数据没有正态性特质。
如果是问卷研究,数据很难满足正态性特质,而实际研究中却也很少使用不满足正态性分析时的分析方法。
SPSSAU认为有以下三点原因:
① 参数检验的检验效能高于非参数检验,比如方差分析为参数检验,所以很多时候即使数据不满足正态性要求也使用方差分析
② 如果使用非参数检验,呈现出差异性,则需要对比具体对比差异性(但是非参数检验的差异性不能直接用平均值描述,这与实际分析需求相悖,因此有时即使数据不正态,也不使用非参数检验,或者Spearman相关系数等)
③ 理想状态下数据会呈现出正态性特质,但这仅会出现在理想状态,现实中的数据很难出现正态性特质(尤其是比如问卷数据)【可直接使用“直方图”直观展示数据正态性情况】。
二、方差齐检验
如果要进行方差分析,需要满足方差齐性的前提条件,需要进行方差齐检验,其用于分析不同定类数据组别对定量数据时的波动情况是否一致。例如研究人员想知道三组学生的智商 波动情况是否一致(通常情况希望波动一致,即方差齐)。
判断p 值是否呈现出显着性(p <0.05),如果呈现出显着性,则说明不同组别数据波动不一致,即说明方差不齐;反之p 值没有呈现出显着性(p >0.05)则说明方差齐。
提示: 方差不齐时可使用‘非参数检验’,或者还可使用welch 方差,或者Brown-Forsythe方差。
三、相关性检验
(1)相关分析
相关分析是一种简单易行的测量定量数据之间的关系情况的分析方法。可以分析包括变量间的关系情况以及关系强弱程度等。相关系数常见有三类,分别是:
1.Pearson相关系数
2.Spearman等级相关系数
3.Kendall相关系数
三种相关系数最常使用的是Pearson相关系数;当数据不满足正态性时,则使用Spearman相关系数,Kendall相关系数用于判断数据一致性,比如裁判打分。下图是详细使用场景:
如果呈现出显着性(结果右上角有*号,此时说明有关系;反之则没有关系)。
有了关系之后,关系的紧密程度直接看相关系数大小即可。(一般0.7以上说明关系非常紧密;0.4~0.7之间说明关系紧密;0.2~0.4说明关系一般。)
如果说相关系数值小于0.2,但是依然呈现出显着性(右上角有*号,1个*号叫0.05水平显着,2个*号叫0.01水平显着;显着是指相关系数的出现具有统计学意义普遍存在的,而不是偶然出现),说明关系较弱,但依然是有相关关系。
(2)卡方检验
卡方检验主要用于研究定类与定类数据之间的差异关系。卡方检验要求X、Y项均为定类数据,即数字大小代表分类。并且卡方检验需要使用卡方值和对应p 值去判断X与Y之间是否有差异。通常情况下,共有三种卡方值,分别是Pearson卡方,yates校正卡方,Fisher卡方;优先使用Pearson卡方,其次为yates校正卡方,最后为Fisher卡方。
具体应该使用Pearson卡方,yates校正卡方,也或者Fisher卡方;需要结合X和Y的类别个数,校本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。SPSSAU已经智能化处理这一选择过程。
第一:分析X分别与Y之间是否呈现出显着性(p值小于0.05或0.01);
第二:如果呈现出显着性;具体对比选择百分比(括号内值),描述具体差异所在;
第三:对分析进行总结。
卡方检验,SPSSAU提供两个按钮,二者的区别是,后者输出更多的统计量过程值以及深入指标表格,满足需要更多分析指标的研究人员,如下各图。
进行卡方检验,上传数据时需要特别注意数据格式,有两种格式:常规格式和加权格式。
① 常规格式数据 ,如下图。则通用方法中的【交叉(卡方)】和实验/医学研究中的【卡方检验】都可以使用。
② 加权数据: 但在某些情况下,我们得到的不是原始数据,而是经过整理的汇总统计数据。比如下面这样格式的数据:
类似这样的格式,不能直接使用的,需要整理成加权数据格式,只能使用实验/医学研究中的【卡方检验】
这时候点击实验/医学研究面板中的【卡方检验】-拖拽三个【分析变量】分别到对应分析框-【开始分析】即可。
四、参数检验
(1) 单样本t检验
单样本T检验用于比较样本数据与一个特定数值之间是否存在差异情况。
首先判断p 值是否呈现出显着性,如果呈现出显着性,则分析项明显不等于设定数字,具体差异可通过平均值进行对比判断。
(2)独立样本T检验(T检验)
独立样本T检验用于分析定类数据(X)与定量数据(Y)之间的差异情况。
独立样本T检验除了需要服从正态分布、还要求两组样本的总体方差相等。当数据不服从正态分布或方差不齐时,则考虑使用非参数检验。
首先判断p 值是否呈现出显着性,如果呈现出显着性,则说明两组数据具有显着性差异,具体差异可通过平均值进行对比判断。
(3)配对样本T检验
用于分析配对定量数据之间的差异对比关系。与独立样本t检验相比,配对样本T检验要求样本是配对的。两个样本的样本量要相同;样本先后的顺序是一一对应的。
常见的配对研究包括几种情况:
判断p 值是否呈现出显着性,如果呈现出显着性,,则说明配对数据具有显着性差异,具体差异可通过平均值进行对比判断。
(4)方差分析
方差分析(单因素方差分析),用于分析定类数据与定量数据之间的关系情况.例如研究人员想知道三组学生的智商平均值是否有显着差异。
进行方差分析需要数据满足以下两个基本前提:
理论上讲,数据必须满足以上两个条件才能进行方差分析,如不满足,则使用非参数检验。但现实研究中,数据多数情况下无法到达理想状态。正态性检验要求严格通常无法满足,实际研究中,若峰度绝对值小于10并且偏度绝对值小于3,或正态图基本上呈现出 钟形 ,则说明数据虽然不是绝对正态,但基本可接受为正态分布,此时也可使用方差分析进行分析。
第一:分析X与Y之间是否呈现出显着性(p值小于0.05或0.01)。
第二:如果呈现出显着性;通过具体对比平均值大小,描述具体差异所在。
第三:如果没有呈现出显着性;说明X不同组别下,Y没有差异。
(5)重复测量方差
在某些实验研究中,常常需要考虑时间因素对实验的影响,当需要对同一观察单位在不同时间重复进行多次测量,每个样本的测量数据之间存在相关性,因而不能简单的使用方差分析进行研究,而需要使用重复测量方差分析。
第一、首先进行球形度检验,p <0.05说明没有通过球形度检验,p >0.05说明通过球形度检验;
第二、如果没有通过球形度检验,并且球形度W值大于0.75,则使用HF校正结果;
第三、如果没有通过球形度检验,并且球形度W值小于0.75,则使用GG校正结果;
第四、如果通过球形度检验,组内效应分析结果时使用“满足球形度检验”结果即可;
将数据上传至SPSSAU分析,选择【实验/医学研究】--【重复测量方差】。
五、非参数检验
凡是在分析过程中不涉及总体分布参数的检验方法,都可以称为“非参数检验”。因而,与参数检验一样,非参数检验包括许多方法。以下是最常见的非参数检验及其对应的参数检验对应方法:
非参数秩和检验研究X不同组别时Y的差异性,针对方差不齐,或者非正态性数据(Y)进行差异性对比(X为两组时使用mannWhitney检验,X超过两组时使用Kruskal-Wallis检验,系统默认进行判断);
(1)单样本Wilcoxon检验
单样本Wilcoxon检验是单样本t检验的代替方法。该检验用于检验数据是否与某数字有明显的区别,如对比调查对象整体态度与满意程度之间的差异。首先需要判断数据是否呈现出正态性分析特质,如果数据呈现出正态性特质,此时应该使用单样本t检验进行检验;如果数据没有呈现出正态性特质,此时应该使用单样本Wilcoxon检验
首先判断p 值是否呈现出显着性,如果呈现出显着性,则分析项明显不等于设定数字,具体差异可通过中位数进行对比判断。
(2)Mann-Whitney检验
Mann-Whitney检验是独立样本t检验的非参数版本。该检验主要处理包含等级数据的两个独立样本,SPSSAU中称为非参数检验。
第一:分析X与Y之间是否呈现出显着性(p值小于0.05或0.01)。
第二:如果呈现出显着性;通过具体对比中位数大小,描述具体差异情况。
(3)Kruskal-Wallis检验
Kruskal-Wallis检验是单因素方差分析的非参数替代方法。Kruskal-Wallis检验用于比较两个以上独立组的等级数据。
在SPSSAU中,与Mann-Whitney检验统称为“非参数检验”,分析时SPSSAU会根据自变量组别数自动选择使用Kruskal-Wallis检验或Mann-Whitney检验。
(4)配对Wilcoxon检验
Wilcoxon符号秩检验是配对样本t检验的非参数对应方法。该检验将两个相关样本与等级数据进行比较。
第一:分析每组配对项之间是否呈现出显着性差异(p值小于0.05或0.01)。
第二:如果呈现出显着性;具体对比中位数(或差值)大小,描述具体差异所在。
‘陆’ 假设检验有哪三种不同的方法各自的基本思想是什么
假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。
‘柒’ 对一个正态总体均值进行假设检验,可以选择什么检验统计量
单个样本:u检验或t检验。
两个样本:t检验、或卡方检验。
3个以上样本:方差分析、或卡方检验。
描述随机变量取值平均状况的数字特征。包括离散型随机变量的总体均值:和连续型随机变量的总体均值。
n个随机变量和的均值等于均值的和;n个随机变量若相互独立,则乘积的均值等于均值的乘积。这时n为有限整数且大于2。
(7)总体均值的假设检验方法有哪些扩展阅读:
根据一定的理论或经验,认为某一假设h0成立,例如,通常有理由认为特定的一群人的身高服从正态分布。
当收集了一定数据后,可以评价实际数据与理论假设h0之间的偏离,如果偏离达到了“显着”的程度就拒绝h0,这样的检验方法称为显着性检验。偏离达到显着的程度通常是指定一个很小的正数α(如0.05,0.01),使当h0正确时,它被拒绝的概率不超过α。
要求检验在备择假设h1成立时作出正确判断的概率不小于检验水平α,这就是说在h0不成立时拒绝h0的概率要不小于在h0成立时拒绝h0的概率,这种性质称为无偏性,具有这种性质的检验称为无偏检验。显然,如果在无偏检验中存在一致最大功效检验就称为一致最大功效无偏检验。
‘捌’ 在对单个正态总体均值的假设检验中,当总体方差已知时,选用 检验法
Z检验法。
Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显着。适用于正态分布的总体,方差齐,独立性。
Z检验是T检验的特殊形式,T检验主要是针对样本数小于30例的统计分析,适用条件:正态分布,方差齐,独立性。当样本量n无穷大时,T检验和Z检验结果是一样的。
Z检验和T检验的区别:
Z检验-方差已知的均值检验,考虑一个因素的影响,原假设H0:X1=X0(单样本检验)或 H0:X1=X2(双样本检验)。
T检验-方差未知的均值检验,考虑一个因素的影响,原假设X1=X0(单样本检验)或H0:X1=X2。
T检验和Z检验用于单因素双样本均值检验,T检验用于方差未知的情况,Z检验用于方差已知的情况。
‘玖’ 第九章 假设检验
假设检验中,我们首先对总体参数做一个尝试性地假设,称为 原假设 ,记作 ;定义另一个和原假设对立地假设,称为 备择假设 ,记作
例如测试新型燃油系统的燃油效率是否更好,原效率均值24英里/加仑,令新的燃油效率为
我们希望得到的结论为 ,新型的效率更高。
如果样本拒绝 的结论,那么就可以作出 的推断。
如检测饮料净含量是否达标,比如一瓶标注67.6盎司的饮料。
我们将受到挑战的假说(质量达标)作为原假设 ,如果样本不能拒绝原假设,我们则认为商家的产品是达标的。
对于总体均值的假设检验,我们令 为假定值,并采用下面三种形式之一进行假设检验。
简单来说,
在原假设为等式形式出现时,如 ,犯第一类错误的概率称为检验的 显着水平
显着水平 :当作为一个等式的原假设为真时,反第一类错误的概率称为检验的显着水平。用 来表示,一般取0.05或0.01。
应用中:只空值第一类错误的假设检验称为显着性检验(一般也是用这种类型的检)。
由于显着性检验中第二类错误的发生具有不确定性,所以我们只能说不能拒绝 ,而不说接受 。因为接受了可能犯第二类错误。
当总体不服从正态分布时得样本足够大,下面的方法才奏效。
总体均值的 单侧检验 有以下两种形式:
举例:咖啡每听3磅重
假设:
只要拒绝了 就可以处罚制造商,如果不能拒绝那就不惩罚。
我们选取36听作为样本,且总体标准差 ,且样本和总体都服从正态分布。
则
由于 服从正态分布,则
总体均值假设检验的检验统计量: 已知
当z值达到多小我们才能拒绝 ,两种方法来解决
第一种:P-值法
P-值是一个概率值,它度量样本所提供的证据对原假设的支持程度。P-值越小说明反对原假设的证据越多。
例如刚刚的咖啡例子:
我们根据标准正态概率表查的z=-2.67下侧的面积为0.0038。则P-值为0.0038(也称为实际显着水平)
P-值法的拒绝法则 :如果p-值 ,则拒绝
第二种:临界值法
临界值 是确定检验统计量的值是否小到足以拒绝原假设的一个基准。换句话,临界值是使我们拒绝原假设的检验统计量的最大值。
下侧检验的拒绝法则:临界值法
如果 ,则拒绝
例子:咖啡(书上可能写错,根据查表z应该是-2.33)
临界值时标准正态概率分布中,下侧面积 相对应的检验统计量的值。利用查表法,我们发现z=-2.23时下侧面积为0.01。 对应 则我们拒绝
小结 :
p-值法相较于临界值法,优点在于可以知道有多么显着(实际显着水平)
单侧检验的p-值:
可以根据excel的函数快速进行p和z的转化:
双侧检验 的一般形式:
举例:高尔夫球的发球距离必须为295码,多了或少了都不行。
假设:
如果 没有明显偏离295则不会拒绝
选择 作为检验的显着性水平,样本量为50, ,
p-值法 :
如果检验统计量的值位于抽样分布的两侧尾部,则支持拒绝原假设。
上述高尔夫例子:
p-值
由于p-值 ,所以不能拒绝
双侧检验p-值得计算步骤 :
临界值法
例如取显着水平 ,左右两侧得临界值对应得面积就为 根据查表法,求得检验统计量的临界值 当
当 或者 则拒绝
区间估计所构造的区间有 %概率包含总体均值,
针对 未知的情况,检验统计量服从自由度为n-1的t分布。
总体均值假设检验的检验统计量: 未知
第八章讲了t分布是在假设抽样总体服从正态分布下得到的,当然如果样本容量n足够大也可以用。
例子:给希斯罗机场评分,n为60,评分从0-10分, 分,样本标准差 ,因为高于7认定机场提供了优质服务,所以假设如下:
我们取显着性水平
根据查询t分布表,查得自由度59,t=1.84的情况下p-值为
使用excel来对t和p进行转换:
同样可以使用临界值法:
在自由度为59的t分布中上侧面积 对应的临界值为 只要 我们就可以拒绝 。
举例:玩具生产商有近千家分销零售商,预计每个分销零售商需要的订货量为40个玩具,现抽样25个商家,令 表示订货量的总体均值,做出假设(定置信水平 ):
如果我们不能拒绝 那我们就认为总体需求的均值为40(虽然可能犯二类错误)
样本均值
检验统计量的值:
当然也可以用 临界值法 :
先求检验统计量的临界值 (书上是-2.604有点离谱,我还是以excel为准)
则用计算出来的检验统计量t值来比较,如果在-2.06-2.06之间,我们不能拒绝
我们令 代表总体比率的假设值,下面是关于总体比率的假设检验的三种形式:
举例:高尔夫球场,女性少 %。经过运营后,看下是否上升。
假设: 如果能拒绝 就可以支持女性占比上升的结论。取显着水平
前面提到过, 且 ,则 服从正态分布。
总体比率假设检验的检验统计量 :
回到刚刚的例子,我们选取样本n=400,其中100个为女性,则 。
检验统计量
我们将z转换为p(此时为下侧面积),根据查表此时下侧面积=0.9938,那么对应的上侧面积p-值=1-0.9938=0.0062<0.05,则我们可以拒绝 认为女性上升了。
也可以用 临界值法 :
我们求出 ,由于计算出来的 所以我们认为可以拒绝
和总体均值的检验一样,不过需要 且 ,这样 才符合正态分布。
我们知道:
对于决策者来说,总是需要做出决策,哪怕不能拒绝 。所以后续的章节我们会讨论如何控制第二类错误。
举例:测试电池寿命,我们假设 ,要求显着水平
已知n=36, ,我们使用临界值法
则看检验统计量是否满足不等式
满足,则拒绝 ,我们对不等式进行处理 相当于
为了计算第二类错误的发生概率,我们需要选择一个小于120小时的 值,比如选取 ,我们可能从这批均值为112的货物中选出了 的样本
对于其他小于120的 值,我们可以重复计算该过程,求出不同 值下犯第二类错误的概率。
当 为假,我们作出拒绝 的正确结论的概率称作检验的 功效(power) ,根据不同的 对应的功效 ,我们可以绘制曲线称作为功效曲线。
总结计算第二类错误的概率流程:
发生第一类错误的概率为 ,发生第二类错误的概率为
这里 为满足 的 值
我们对上式进行转换可得 总体均值单侧假设检验中的样本容量
备注:双侧检验中使用 来代替
在决定样本容量之前,需要明确能接受两类错误的概率大小。再计算即可获得样本容量的大小。
对于 , , 之间的关系如下:
这里可以知道,我们不能同时减小第一类错误和第二类错误,不可兼得。
链接: https://pan..com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开网络网盘手机App,操作更方便哦
‘拾’ 简述假设检验的步骤
一、假设检验的基本思想与步骤
如何被统计学家费舍尔提出:奶茶先加茶和先加奶的口味是不同的。于是科学家有一个原假设:该女士不具备区分奶茶与茶奶的能力。假设检验的基本思想就是小概率事件不会发生,当小概率事件发生时,我们更倾向认为原假设是错误。引入问题:某牛奶生产商在其一份研究报告中声称“中国人的平均身高不高于160 厘米,因而必须喝牛奶”假设所有国人的平均身高服从正态分布N(μ,),如何检验牛奶商关于身高的声称是否成立?
(一) 估计与假设检验的区别
上面不是一个参数估计的问题,必须采用假设检验的方法。假设检验(hypothesis testing)与参数估计(estimation)的思想是不同的。参数估计是指利用抽样数据对总体参数进行直接估计,并得出总体参数的具体估计值;而假设检验则分为假设与检验两步,先形成一个对总体参数的假设,然后再利用抽样数据判断这个假设是否成立。
上题中,参数估计是通过抽样调查部分中国人身高,计算出样本均值,并以此估计全国人的平均身高μ;而假设检验则是先形成一个命题如:“中国人的平均身高μ不高于160 厘米”,然后通过抽样数据判断该命题是否成立。
(二) 假设检验的基本思想
基本思想是“小概率事件不会发生”。假设抽样了一万人发现平均身高是180,,基本可以判断前述是错误的命题。然而如果发现均值是161时那么结论就没那么显然了,就必须利用到概率分布与显着性相关的信息。
(三) 假设检验的步骤
(1) 建立需检验的假设
(2) 选择合适的检验统计量,并确定其服从的概率分布
(3) 选择判断假设是否成立的显着性水平
(4) 给出决策准则(decision rule),即拒绝域的形式
(5) 收集数据,并计算检验统计量
(6) 做出判断
(7) 根据判断进行投资决策
二、假设检验的相关概念
(一)原假设(Null Hypothesis)与备择假设(Alternative Hypothesis)
假设检验的第一步就是建立假设。通常将被检验的假设称为原假设(null hypothesis),记为;当被拒绝时而接受的假设称为备择假设,记为或.原假设与备择假设通常成对出现。身高问题中原假设与备择假设可以用如下方式表示:
假设检验一般有两种结果:第一种是原假设“不正确”,称为拒绝(reject)原假设;第二种是原假设“正确”,称为无法拒绝(can not reject)原假设。
在建立原假设与备择假设时,有几个细节要注意:
(1) 当原假设“正确”时,一般称“无法拒绝原假设”而不是“接受原假设”,这是因为此时原假设并不是数学意义上的恒成立,而只是统计意义上的成立。
(2) 如果假设涉及不等式时,习惯将等号放在原假设
(3) 在构建原假设备择假设时,习惯将想要得到的结论放在备择假设
(二)检验统计量(Test Statistic)及其分布
在抽样样本检验原假设通常是通过一个统计量来完成的,这个统计量称为检验统计量(test statistic)。检验统计量通常服从某个概率分布,于是可以通过计算检验统计量是否超过某一关键值来判断是否拒绝原假设。在本书中,检验统计量通常以公式的形式出现:
(11.1)
如身高问题中,检验统计量就可以通过样本均值来构建。由中心极限定理,服从正态分布N(μ,/n),按照(11.1)标准化后就服从标准正态分布。
(三)显着性水平(Significance Level)与关键值(Critical Value)
有了检验统计量后,结合显着性水平就可以计算出关键值(Critical Value)及其拒绝域(rejection region)。关键值是判断是否拒绝原假设的临界值。拒绝域是由原假设被拒绝的样本观测值所组成的区域。
在例题中,假设显着性水平为5%,的标准化后服从标准正态分布,那么检验统计量的关键值就是1.65?
根据正态分布95%置信区间对应的标准差不是1.96倍标准差吗?为啥是1.65而不是1.96,是正数而不是负数?需要涉及单尾检验与双尾检验。
(四) 双尾检验(Two-Tailed Test)与单尾检验(One-Tailed Test)
假设检验通常有三种基本形式:
其中,θ表示总体参数,θ0表示当成立时总体参数的取值。
第一种形式称为双尾检验,第二种与第三种形式称为单尾检验。无论是单尾还是双尾检验所采用的检验统计量都是相同的,差别主要体现在拒绝域上。因此,区分单尾检验与双尾检验对确定关键值(critical value)以及拒绝域(rejection region)至关重要。
(五) p值(p-value)
除了比较检验统计量与关键值,另一种判断是否拒绝原假设的方法就是p值(p-value)。p值指拒绝原假设的最小显着水平。根据p值定义,在给定显着水平α的情况下,如果p<=α,则拒绝原假设;如果p>α,则无法拒绝原假设。
例如,我们要进行显着性水平为5%的双尾检验,已知p值=2.14%,这就意味着,左侧对应的尾部面积为1.07%,即统计量绝对值大于,应该要拒绝原假设。当然,也可以利用p值进行判断,p值=2.14%<5%,因此应该要拒绝原假设。画个图:
(六) 第一类错误(Type I Error)与第二类错误(Type II Error)
虽然假设检验的基本思想是“小概率事件不会发生”,但在真实世界中小概率事件是有可能发生的。因而,我们在判断假设检验是否成立时就有可能犯错误。检验时可能犯的错误可归为两类:一是当原假设H0真实成立时,我们却拒绝了原假设,称为第一类错误,也称为“拒真概率”;二是当原假设H0不成立时,我们却接受了原假设,称为第二类错误,也称为“受伪概率”。
假设检验的两种错误:
决策
真实情形
H0正确
H0错误
没有拒绝H0
正确决策
第二类错误
(犯错概率=β)
拒绝H0接受Ha
第一类错误
(犯错概率=α)
正确决策
(概率power of test:1-β)
上表有几个关于概率的标识:通常我们将犯第一类错误的概率记为α,这里的α实际上就是假设检验中的显着性水平;犯第二类错误的概率记为β。此外,当原假设正确时接受原假设,当错误时拒绝原假设都表明决策者做出了正确的抉择没有犯错,特别的,我们将决策者不犯第二类错误的概率称为统计检验力(power of test),记为1-β
(七) 统计显着(Statistical significance)与经济显着(Economic Significance)
在利用假设检验进行金融分析时注意区别两者,许多投资策略在假设检验上能够获得正收益,然而在扣除交易费用、税收并考虑风险后就无法经济显着获得正收益。