‘壹’ 关于卡方检验P值的意义,P值恰好等于0.05,请问这样可以说明有统计学意义吗
如果确实是这样,应该是接受原假设(也就是没有统计学意义),因为不管那本参考书或统计软件都是说小于a (不包括等于a ,例如a=0.05)就拒绝原假设。不过,如果你是使用统计软件的话,应该不存在这个问题,因为统计软件计算的P值可以高达十几位小数点,不可能出现你说的情况。
原因很简单,在统计学领域,P小于a(不包括等于a )就拒绝原假设是一直以来的通用约定。也就是说,对于包不包括等于a这一点,并不存在一个科学的定义,仅仅是依据统计学领域的约定俗成。就像a值到底应该是多少才算小概率事件,这也没有一个科学的绝对定义,也只是根据各专业领域的约定俗成(也是有科学依据的,不能随意确定,但也不存在绝对的界限),大多数定为0.05,而有些定为0.1,0.01也是可以的。
如果你的领域制定的规则是在等于a 时也拒绝原假设,这也是完全没有问题的,只要规则是预先订好的,而不是得出结果后临时定的,就不会违反随机原则,也是有道理的。
‘贰’ 怎么用spss软件的卡方检验分析不同年龄组的患病率差异有无统计学意义求大神指教
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
卡方检验是以 χ2 分布为基础的一种常用假设检验方法,它的假设检验为:
H0:观察频数与期望频数没有差别。H1:观察频数与期望频数有差别。
卡方检验的基本思想是:首先假设 H0 成立,基于此前提计算出 χ2 值,它表示观察值与理论值之间的偏离程度。根据 χ2 分布及自由度可以确定在H0 假设成立的情况下获得当前统计量及更极端情况的概率P。
如果 P 值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显着差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
适用于四格表应用条件:
两个独立样本比较可以分以下3种情况:(1) 所有的理论数 T≥5 并且总样本量 n≥40,用 Pearson 卡方进行检验。(2) 如果理论数 T<5 但 T≥1,并且 n≥40,用连续性校正的卡方进行检验。(3) 如果有理论数 T<1 或 n<40,则用 Fisher’s 检验。
R×C表卡方检验应用条件:
(1) R×C表中理论数小于5的格子不能超过1/5;(2) 不能有小于1的理论数;不满足 (1) 或 (2) 时,均采用 Fisher’s 检验。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。
列联表的资料大致分为以下 10 类:
成组设计横断面研究四格表资料统计分析
成组设计队列研究四格表资料统计分析
成组设计病例对照研究四格表资料统计分析
成组设计结果变量为多值有序变量的2XC表资料统计分析
‘叁’ 卡方检验研究的方法
1、处理四格表数据时不考虑样本量和最小理论频数而直接采用卡方检验
处理四格表数据是卡方检验最为常见的用途之一,其目的在于分析“构成比”或者“率”上的差异是否具有统计学意义。对于四格表数据,使用卡方检验的条件为样本量大于 40,且最小理论频数应大于 5。对于某些小样本的、或者指标阳性率较低的研究,总样本量可能小于 40,最小理论频数也可能小于 5,此时应该采用 Fisher 确切概率法进行分析。
比如某研究需比较小细胞肺癌和非小细胞肺癌内某个基因的表达情况的差异是否有统计学意义,得出如下四格表:
该研究的样本量仅为 30 个,且最小理论频数为(12×9)/30=3.6,所以应该采用 Fisher 确切概率法进行分析。实际上,从理论上讲,若要分析四格表数据中的构成比或者率之间的差异是否有统计学意义,Fisher 确切概率法的结果是最可靠的。若是使用软件对数据进行分析,不论样本量和最小理论频数,均可采用 Fisher 确切概率法。
2、不考虑分析目的、设计类型而盲目套用卡方检验
有的四格表资料本身是配对的,且研究的目的主要是回答“一致性”或者“不一致性”的问题,此时就不应该用卡方检验对数据进行分析。比如:某研究者发明了一种新的 HIV 检测法,并且用该法和免疫印迹法(检测 HIV 感染的“金标准”)同时检测了 100 份血清,得到如下四格表数据:
该研究在设计上与表 1 中的研究最大的区别在于“配对”,即同一样本分别接受了新方法检测和免疫印迹法(金标准)的检测。研究者最关心的问题应该是“新方法和金标准之间的一致性”问题,若采用卡方检验进行分析,得出的结论是“免疫印迹法检测结果的频数分布在新方法阳性组和阴性组中是不同的”,这一结论显然并无多大专业价值。
对于此类研究,可以采用两种方法进行统计,一是采用 Mcnemar χ2 检验公式计算两种方法不一致的部分是否具有统计学意义;二是采用 Kappa 检验分析两种结果之间的一致性。
需要说明的是,此类研究中的一种方法必须是金标准,否则研究可能没有价值。以表 2 中的数据为例,若免疫印迹法并非检测 HIV 感染的金标准,两种方法的一致性即使好得一塌糊涂,也可能无济于事。
因为一个显而易见的问题是:这两种方法可能都是错误的检测方法。比如:采用金标准对 100 份血清进行检测后,其中 90 例为阳性,而不论是新方法还是免疫印迹法,均仅仅检测出了 55 个阳性样本,漏检率显然太高。
3、误用卡方检验处理等级资料
等级资料的表示方法与分类资料相似,因此受“定式思维”的影响,部分同行“习惯性”地采用卡方检验对等级资料进行处理,这也是医学期刊上最常见的滥(乱)用卡方检验的行为。卡方检验回答的问题仅仅是“构成比”或者“率”上的差异是否具有统计学意义,而不能回答效应指标的强度高低问题。比如某研究比较了两类人群胰腺癌分期的分布状况,如下表所示:
此类数据的一个显着特点是胰腺癌的分期(Ⅰ、Ⅱ、Ⅲ、Ⅳ期)是一个等级资料,研究者的研究目的是分析甲乙两群人胰腺癌的分期是否有差别,是一个强度“分期早晚”的问题,而不是“构成比”的差异。若用卡方检验处理此类数据,得出的结论就是“甲乙两类人群胰腺癌分期构成比上的差异是否具有统计学意义”,而无法明确“孰高孰低”的问题。
以上述表格为例,卡方检验结果显示有统计学意义,但问题在于:根据表中数据,人群甲以Ⅰ期和Ⅳ期为主,人群乙以Ⅱ期和Ⅲ期为主,让人完全无法判断两类人群的疾病分期“孰早孰晚”的问题。
处理此类数据的一般方法是将分期进行秩转换,然后以秩和检验进行统计分析,也可以直接采用 Riddit 分析进行统计。
4、对于多组资料反复使用卡方检验进行比较
又是研究者面对的数据可能有多行或者多列(R×C 资料),研究者需要逐一比较各组数据的差异是否有统计学意义。比如某研究者对不同血型的个体患乙型肝炎的情况进行了调查,得出如下数据:
这是一个率的比较问题,研究目的主要在于分析各个血型的人群 HBV 感染的发病率是否相同。处理此类数据,一般是直接采用卡方检验从整体上分析各组人群率(构成比)上的差异是否具有统计学意义;若具有统计学意义,则根据研究目的进一步觉得是否进行组间的比较。
以本研究为例,研究者可能还需要逐一比较各组 HBV 感染的发病率之间的差异是否具有统计学意义。处理此类数据时,最容易犯的一类错误就是将表格进行拆分成六个四格表反复采用卡方检验进行统计分析。实际上,这种错误的统计学方法类似于“反复使用 t 检验比较多组资料”,会增大Ⅰ类误差的概率。正确的做法应该是采用卡方分割法,通过改校正验水准的方式来进行两两比较。
需要说明的是,在整体比较之后是否需要进行两两比较,如何进行两两比较在很大程度上取决于专业需要,或者说研究目的,特别是分组因素的“属性”是否相同。比如某研究欲分析了基因 A 在类风湿性关节炎中的表达情况(基因表达情况以阳性和阴性进行描述),除了健康对照外,研究者还设立了疾病对照组,包括系统性红斑狼疮和干燥综合症。
‘肆’ 卡方检验中卡方值代表什么,意义上什么
是卡方检验的 统计量,用来计算P
‘伍’ 卡方检验具体怎么计算
卡方检验计算方法:
(1)提出原假设:
H0:总体X的分布函数为F(x).
如果总体分布为离散型,则假设具体为
H0:总体X的分布律为P{X=xi}=pi, i=1,2,...
(2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取
A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),
其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。
(3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。
(4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。
(5)当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。基于这种思想,皮尔逊引进如下检验统计量
(5)卡方检测计算方法意义扩展阅读
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
基本原理:
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意:卡方检验针对分类变量。
‘陆’ 卡方检验的应用条件是什么
卡方检验的应用条件:
1、一是随机样本数据。
2、二是卡方检验的理论频数不能太小,要求每个格子中的理论频数T均大于5或1。
卡方检验用于推断两个及两个以上总体率或构成比是否有差别,两个分类变量间有无相关关系,多个率的趋势检验,以及两个率的等效检验等。此外,也用于频数分布的拟合优度检验。
卡方检验的特点
卡方检验的实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
卡方检验在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
多个样本率(或构成比)比较的检验时,结论为拒绝无效假设时,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。若想进一步了解哪两者的差别有统计学意义,可用分割法。
‘柒’ 卡方分析的目的是什么
卡方分析检验的目的就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。
如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
卡方检验使用场景:
卡方检验可是一位重量级选手,凡是涉及到计数资料分布的比较都需要他的帮忙。其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显着关系。
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
‘捌’ 卡方检验中的t代表什么,如何计算
T代表每个格子中的理论频数。
计算方法:
卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。
每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*(91/113)=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
卡方检验要求:
最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。
利用统计学软件分析结果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
(8)卡方检测计算方法意义扩展阅读
一、卡方检验的基本思想
卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显着差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
二、卡方值的计算与意义
χ2值表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。
1、设A代表某个类别的观察频数,E代表基于解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): H_0 计算出的期望频数,A与E之差称为残差。
2、显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
3、另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
‘玖’ 卡方检验p值意义
卡方值仅仅只是一个中间过程,通过卡方值计算出p值,p值才是我们最重要需要的。p小于0.05意味着存在显着差异。