导航:首页 > 研究方法 > 选择统计分析方法时

选择统计分析方法时

发布时间:2023-05-11 04:36:14

1. 如何根据变量类型选择数据分析方法

把握两个关键

1、抓住业务问题不放松。您费大力气收集数据的动机是什么?你想解决什么问题?这是核心,是方向,这是业务把握层面。

2、全面理解数据。哪些变量,什么类型?适合或者可以用什么统计方法,这是数据分析技术层面。须把握三大关键:变量、数据分析方法、变量和方法的关联。
认识数据分析方法

选择合适的数据分析方法是非常重要的。选择数据分析(统计分析)方法时,必须考虑许多因素,主要有:

1、数据分析的目的,

2、所用变量的特征,

3、对变量所作的假定,

4、数据的收集方法。选择统计分析方法时一般考虑前两个因素就足够了。

将变量与分析方法关联、对应起来

2. 在选择统计分析方法时,需要考虑的因素包括

在选择统计分析方法时,需要考虑的因素包括:
看资料中的反应变量是单变量、双变量、多变量。
看属于这三种资扰轿料里的悉燃哪一种,计量资料、计数资料、等级资料。
看是单因素还是多因素。
看是单样本、两样本、还是多样本。
看是否是配对或者配伍设计。
看睁李虚是否满足检验方法所需要的前提条件。

3. 差异性分析时选择统计分析方法的思维是什么

其实上面的问题,主要是想要研究定类数据和定类数据之间的差异关系,而不是相关性的分析,我们进行数据研究,就是想要挖掘数据间的信息和价值,看清数据间的关系。数据间的关系可以分为三类关系,差异关系、相关关系、其它关系。
其中差异关系和相关关系有时候会被搞混,它们是不同的,区别是:
差异研究的目的在于比较两组数据或多组数据之间的差异。差异关系中的差异是指不同样本组的某个指标的差异,例如男生和女生的智力差异,涉及到了变量的分组;相关分析是两个变量之间的关系,和样本分组无关,例如智力和学习成绩是否相关。
今天这篇文章总结几个常用的差异性分析的方法,分享怎么简单选择出合适的分析方法。
一、
实际研究中有三种常见的差异性分析方法:T检验、方差分析、卡方检验。三个方法的区别如下表:

其实核心的区别在于:数据类型不一样。如果是定类和定类,此时应该使用卡方分析;如果是定类和定量,此时应该使用方差或者T检验。
方差和T检验的区别在于,对于T检验的X来讲,其只能为2个类别比如男和女。如果X为3个类别比如本科以下,本科,本科以上;此时只能使用方差分析。
二、
上面三种方法还可以细分:

01 T检验
T检验共分为三种方法,分别是独立样本T检验,配对样本T检验和单样本T检验。
独立样本T检验和单因素方差分析功能上基本一致,但是独立样本T检验只能比较两组选项的差异,比如男性和女性。
相对来讲,独立样本T检验在实验比较时使用频率更高,尤其是生物、医学相关领域。针对问卷研究,如果比较的类别为两组,独立样本T检验和单因素方差分析均可实现,研究者自行选择使用即可。
独立样本T检验和配对样本T检验功能上都是比较差异,而且均是比较两个组别差异。但二者有着实质性区别,如果是比较不同性别,婚姻状况(已婚和未婚)样本对某变量的差异时,应该使用独立样本T检验。如果比较组别之间有配对关系时,只能使用配对样本T检验,配对关系是指类似实验组和对照组的这类关系。另外独立样本T检验两组样本个数可以不相等,而配对样本T检验的两组样本量需要完全相等。
T检验的第三种分析方法为单样本T检验。单样本T检验是比较某个题项的平均得分是否与某数字(例子是与3进行对比)有着明显的差异,如果呈现出显着性差异,即说明明显该题项平均打分明显不等于3分。此分析方法在问卷研究中较少使用,平均得分是否明显不为3分可以很直观的看出,而不需要单独进行检验分析。
02 方差分析
根据X的不同,方差分析又可以进行细分。X的个数为一个时,我们称之为单因素方差;X为2个时则为双因素方差;X为3个时则称作三因素方差,依次下去。当X超过1个时,统称为多因素方差。
03卡方检验
卡方检验用于分析定类数据与定类数据之间的关系情况。例如研究人员想知道两组学生对于手机品牌的偏好差异情况,则应该使用卡方分析。卡方是通过分析不同类别数据的相对选择频数和占比情况,进而进行差异判断,单选题或多选题均可以使用卡方分析进行对比差异分析。
卡方拟合优度检验用于研究实际比例情况,是否与预期比例表现一致,它只针对于类别数据。比如总共收集100份数据,其中男性为48个,女性为52个;在收集数据之前预期男女比例应该是4:6 (40%为男性,60%为女性),分析预期的比例是否与实际的比例有着明显的差异性,则可以使用卡方拟合优度检验。
三、
SPSSAU进行差异性分析的操作也很容易,具体怎么用?这里以卡方检验的一个例子作为说明:
研究者希望研究化妆情况(全妆,淡妆,不化妆)与外出情况(出,不出)之间的差异性,调查了100个样本。化妆情况和外出情况都是定类变量,这里使用卡方检验分析方法。
首先,整理数据为加权格式上传到SPSSAU中:

接着,简单三步完成分析操作:

得出分析结果表格:

同时提供智能文字分析:

可视化:

便于研究者深入分析还提供卡方检验统计量过程值表格和效应量指标表格:

自动生成卡方检验的多重比较结果:

4. 统计方法有哪些在什么情况下用什么方法

1.计量资料的统计方法

分析计量资料的统计分析方法可分为参数检验法和非参数检验法。

参数检验法主要为t检验和方差分析(ANOVN,即F检验)等,两组间均数比较时常用t检验和u检验,两组以上均数比较时常用方差分析;非参数检验法主要包括秩和检验等。t检验可分为单组设计资料的t检验、配对设计资料的t检验和成组设计资料的t检验;当两个小样本比较时要求两总体分布为正态分布且方差齐性,若不能满足以上要求,宜用t 检验或非参数方法(秩和检验)。方差分析可用于两个以上样本均数的比较,应用该方法时,要求各个样本是相互独立的随机样本,各样本来自正态总体且各处理组总体方差齐性。根据设计类型不同,方差分析中又包含了多种不同的方法。对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析。

2.计数资料的统计方法

计数资料的统计方法主要针对四格表和R×C表利用检验进行分析。 四格表资料:组间比较用

检验或u检验,若不能满足 检验:当计数资料呈配对设计时,获得的四格表为配对四格表,其用到的检验公式和校正公式可参考书籍。 R×C表可以分为双向无序,单向有序、双向有序属性相同和双向有序属性不同四类,不同类的行列表根据其研究目的,其选择的方法也不一样。

3.等级资料的统计方法

等级资料(有序变量)是对性质和类别的等级进行分组,再清点每组观察单位个数所得到的资料。在临床医学资料中,常遇到一些定性指标,如临床疗效的评价、疾病的临床分期、病症严重程度的临床分级等,对这些指标常采用分成若干个等级然后分类计数的办法来解决它的量化问题,这样的资料统计上称为等级资料。

5. 如何正确选择统计方法(to be continued)

资料类型设计方案实验分组检验条件

单变量资料差异比较的分析方法小结

11种形式的列联表

双变量(多变量)资料的关联性分析方法小结

二、计量资料分析常见的统计问题

2.1 忽视t检验的前提条件

文题:重症急性胰腺炎并发肝功能不全的临床研究。实验数据见表5。原文作者用t检验分析此资料。请问:这样做正确吗?

辨析:

1.对表5数据进行方差齐性检验,可发现两组患者的血清淀粉酶和肌酐指标不能满足方差齐性的要求,故不能采用t检验进行分析。

正确的做法:采用变量变换使数据服从正态分布且方差齐,然后进行t检验,否则,采用非参数检验。

2.给出确切的统计量和P值。

2.2 误用成组设计资料的t检验分析配对设计资料

辩析: 1.考虑到对数据进行变换是正确的。但是如果采用成组t检验,还需要两总体方差齐性。 但本研究是配对设计,如果采用成组t检验,会降低检验效率。应该采用配对t检验进行分析。注意配对t检验的条件:要对每对数据的差值(d)进行正态性检验。如果不满足,改用Wilcoxon符号秩检验。2.应给出确切的统计量和P值。

2.3 忽视方差分析的前提条件

文题:姜黄素抑制晶状体上皮细胞增殖的信号转导机制。

问题:作者取健康小牛眼晶状体的混合消化液消化后,收集细胞,进行传代培养,取第三代细胞进行实验。

实验分3组:空白对照组、模型组、姜黄素组,每组设6个样本。

请问:采用方差分析正确吗?

辨析:此实验分3组,应为单因素三水平设计定量资料,应首先进行“独立性”、“正态性”和“方差齐性”检验,如果满足方差分析的3个前提条件则用方差分析;如果不满足,则采用变量变换或秩和检验。如果P<0.05,则进行多组均数间的多重比较。

给出确切的统计量和P值。

2.4 误用t检验分析等级资料

文题:止痛如神汤保留灌肠治疗CNUP:双盲随机安慰剂对照试验

表4 两组临床主要症状和结肠镜肠粘膜病变评分

※:与对照组(G2)比较,P>0.05,组间差异无统计学意义;△:与治疗前比较,P<0.05,组内差异有统计学意义;▲:与对照组(G2)比较,P<0.05,组间差异有统计学意义。

辨析:

对于腹痛、腹泻、脓血便、下坠感、充血、水肿、粘膜糜烂、粘膜溃疡的单项评分组间比较,不宜用t检验。因为每项评分为1、2、3等不连续的赋值,数据资料不服从正态分布。应将数据整理成分组无序指标有序的等级资料,宜采用秩和检验。

分析“总评分”时,应对数据进行正态性和方差齐性检验后,决定选用t检验或秩和检验。

与对照组(G2)比较,P>0.05,组间差异无统计学意义,不必在备注中表示。

应写出确切的统计量和P值

2.5 误用t检验处理重复测量的两因素试验设计

文题:益气活血法预防老年患者髋部术后下肢深静脉血栓形成

统计学处理:采用SPSS10.0统计软件,两组间计量资料比较用t检验。

辨析:本研究设计类型为:两因素(处理和时间)重复测量设计资料。

在资料满足“独立性”、“正态性”和“方差齐性”的前提条件下,及进行球对称检验,应选用两因素设计的重复测量的方差分析,选用t检验分析该资料是不妥的。

文题:复方苦参注射液对恶性肿瘤患者伽玛刀放射治疗后T淋巴细胞亚群的影响。

设计:作者选取60例恶性肿瘤患者,随机分成2组。试验组在伽玛刀放射治疗的同时给予复方苦参注射液20ml加入生理盐水500ml,静脉滴注,1次/d,10d为1个疗程;对照组仅给予伽玛刀放射治疗。试验结果见表7。

请问:统计分析方法选用t检验正确吗?

辨析:

1.统计分析错误

      本试验中,每位受试者在试验前、后两个不同的时间点上被重复测量了同一个指标的数值,试验前与试验后的数据并不相互独立,这种试验设计类型属于具有重复测量的试验设计,时间是一个与重复测量有关的试验因素。原作者用t检验进行两两比较,则割裂了整体设计,不能准确地估计和控制误差,因而不能得到可靠的结论。

正确的做法:应将表7的形式改成重复测量试验设计的标准形式,采用与之对应的方差分析进行数据处理。

2.6 误用配对设计资料的t检验处理单因素k(k>3)水平设计的资料

原文题目:“莪术对大鼠在体子宫肌电活动的影响及其机制研究”,文章为观察莪术水煎剂对未孕大鼠子宫肌电活动的影响,40只大鼠被随机分成4组,对照组:按10ml/kg鼠重灌服生理盐水,莪术组:按10ml/kg鼠重分别灌服25% 、50% 、100%莪术水煎液分成3组。观察每个大鼠子宫肌电爆发波的峰面积、持续时间和个数。原作者应用配对设计定量资料的t检验进行统计处理,资料见表4。

表 莪术水煎剂对大鼠子宫肌电活动的影响(均数±标准差)

辨析:

没有交待将大鼠按体重等重要的非实验因素作为配伍条件进行随机区组。

本资料有四个剂量,属于单因素四水平设计的定量资料,不可以用成组设计或配对设计的t检验。

措施:如果满足正态性和方差齐性两个前提条件,应用单因素四水平设计定量资料的方差分析,在得出有统计学意义的结论后,还可进一步采用Dunnett t检验或LSD检验。

如果在专业上有必要对3项指标同时进行考察,还应选用该设计的定量资料的三元方差分析对资料进行处理。

三、计数资料分析方法的常见问题

3.1 计算相对数时分母太小

文题:疏肝利胆中药防治胆固醇结石形成的实验研究。实验数据见表4。请问:在表达资料方面有何不妥之处?

辨析:

计算相对数时,分母过小,相对数很不稳定,易失真,不但不能正确反映事实真相,还往往会造成错觉。

在表4中,各组样本例数都小于20,样本例数偏小,不宜计算率,直接给出例数就可以。

3.2 误用χ2 检验分析结果变量为有序变量的资料

某医生用A、B两药治疗某病各240例,其疗效分为四个等级:痊愈、显效、好转、无效,见表4。经R×C表χ2检验,χ2=53.33 ,P <0.01 ,认为两组疗效之间的差异有统计学意义。

辨析:

本资料属于单项有序的R×C表,临床疗效有等级之分,对于等级资料可采用Ridit分析或秩和检验。而不应用R×C的χ2检验,R×C表χ2 检验只能检验两组内部构成是否相同或频数的分布是否相同,不能检验疗效有无差别。不难看出,若对表4资料任意两列数字进行对换,可以清楚地发现,χ2值仍为53.33,不会有改变。

3.3 误用χ2检验回答相关性问题

表 不同年龄冠状动脉粥样硬化程度的分布

上述资料用χ2检验得:χ2 =163.01,P<0.005,结论为:可认为冠状动脉硬化的程度与年龄有关,结合本资料可见冠状动脉硬化等级有随年龄增高而增加的趋势。

问:处理此资料所用的统计分析方法以及所得出的结论有何不妥之处?

辨析1:

本资料为“双向有序且属性不同的二维列联表资料”,处理这种资料有3个目的,因此,就对应着3套不同的统计分析方法。

分析不同年龄组患者冠状动脉硬化等级之间有无差别:看作单向有序资料,选用秩和检验。

分析年龄与冠脉硬化等级间有无相关关系:选用等级相关。

分析两者间是否存在线性变化趋势则应用线性趋势检验。

作者欲考察“两个有序变量之间是否呈相关关系”,而χ2检验结果是P<0.05,说明冠状动脉硬化患者在不同年龄组的人数分布是不同的。

事实上,若将表中任何两行的频数互换或将任何两列的频数互换,所得的χ2检验的统计量数值是不会变化的,说明χ2检验用于处理有序变量形成的二维列联表资料是不合适的。

辨析2:

欲考察“两个有序变量之间是否呈相关关系”,应选用分析定性资料的相关分析方法,如:Spearman秩相关分析,Kendall秩相关分析或典型相关分析。

本例采用Spearman秩相关分析,得:rs=0.53215,P<0.0001。

结论为:表中两个有序变量之间呈正相关关系,即随着年龄的增加冠状动脉硬化等级也逐渐增大,两者之间的相关关系具有统计学意义。

3.4 多值有序变量的高维列联表资料

3.5 不满足连续性χ2检验条件时未做校正

3.6 十一种形式的列联表

3.7 误用χ2检验取代Fisher精确检验

3.8 对R×C表直接分割进行两两比较

四、统计分析方法表述问题

(1)在统计学方法中注明“采用SPSS软件进行统计学处理”。此表述正确吗?

辨析:

      从该表述中只能得知原作者采用了什么统计分析软件处理数据,没有交代清楚软件的版本和序列号;更未体现出文中资料所对应的实验设计类型和所采用的具体统计分析方法。

(2)在统计学方法中注明“计量资料采用方差分析”。请问:此表述正确吗?

辨析:

从该表述中只能得知作者处理定量资料用了方差分析,至于这些统计分析方法的选用是否正确,则不得而知。

通常情况下,比较各平均值之间的差别是否具有统计学意义,可能会用到的t检验有3种,方差分析有10种之多,他们之间的本质区别体现在定量资料所对应的“实验设计类型”上。

在表述统计学方法时,应将所用方法写完整,即在统计分析方法前冠以实验设计名称,如配对设计定量资料的t检验、成组(或单因素两水平)设计定量资料的t检验或两因素析因设计定量资料的方差分析。

(3)定性资料一律采用χ2检验,对吗?

辨析:

      事实上,定性资料通常可以编制成11种形式的列联表。在进行统计分析时,应针对不同形式的列联表、统计分析目的和资料实际具备的前提条件,选用相应的统计分析方法,不可随意盲目选用,更不应将χ2检验视为处理定性资料的万能工具。

(4)许多论文中,当统计数据经假设检验后,P值仅仅列出P >0.05或P<0.05 、P<0.01便称结果无显着差异,或结果非常显着。

假设检验结果正确的表达方法是:

      应写出描述性统计量,如样本均数、率、相关系数、回归系数、相对危险度、半数效量等,及其可信区间、检验统计量,如χ2、t、u、F 值等)、P值;然后根据P值大小作出统计学推断,并作出相应的医学专业结论。

举例:

SPSS实现多组率的两两比较

pearson卡方

SPSS对原始数据是频数表的,需进行加权处理(让软件横着看数据)后卡方检验。

条件:(1)pearson卡方要求总例数大于40;(2)0 个单元格 (0.0%) 的期望计数小于 5。最小期望计数为 15.25。

资料收集整理来自网络文库

6. 当研究者在分析数据阶段进行统计学方法的选择时,应该从哪几个角度进行考虑

王见定教授挑战“生命科学突破奖”

(三)申报“生命科学突破奖”的理由 作为统计学突破的又一最大受益者(它与经济学并列),非生命科学莫属。生命科学简单地可以定义为:它是系统阐述与生命特征有关的重大课题的科学。医学是针对人进行生命特征研究的科学,从这点意义上讲,医学是生命科学的一个最主要的组成部分。每一个学习生物或医学的人都会发现统计学贯串了生物学与医学的整个过程。
一般认为最早的记录是1348年欧洲一半人死于黑死病(鼠疫);第一世界大战时爆发的西班牙流行性感冒,几个月内带走2000万人的生命,一年时间内,全球范围内5000万到一亿人死于此疫(HINI禽流感)......到1859年达尔文完成昌野腊了《物种起源》,1865年孟德尔完成的《植物杂交试验》,1889年高尔顿完成的《自然遗传》,1916年皮尔逊完成的《数学对进化论的贡献》,1925年费希尔完成的《研究人员用统计方法》,......这些都是早、中期运用统计学进行生命科学研究的典范。到了20世纪50年代,遗传物质DNA螺旋结构的发现,整个试验过程处处使用了现代统计学方法,开创了从分子水平研究生命活动的新纪元。进一步对基因的检验以及基因检测结果能告诉你有多高耐滑的风险患上某种疾病,而且正确指导你合理用药,均应用了现代统计学的基本方法。最后,我们注意到各种病毒、病菌的发现,生存原理、控制方法以及相应的各种药物的研发、各种疾病相关指标的测定无一不是采用了各种统计学方法......
一句话,统计学是生命科学的生命线,离开了统计学,生命科学不得生存和发展。“社会统计学与数理统计学统一理论”作为统计学脊洞的最新理论,必将全面提升生命科学的水平,当然完全达到了挑战“生命科学突破奖”的水准。

7. 统计分析方法的选择

在基本的统计分析过程中,选择合适的统计学方法,已经是成功了一半。那么面对得到数据,我们该如何去选择合适的统计方法呢?

最简单而重要的方法,首先是对数据的属性进行判断,是计量资料(年龄多少岁,血压多少帕斯卡,身高多少cm);还是计数资料(有多少个人,多少个国家,多少个民族)。

A 计量资料

对于计量资料,是采用非参数检验还是参数检验呢?如果数据不满足正态性、方差齐性等,可以用非参数检验;当不在乎数据是否符合正态分布,也可以直接利用非参数检验,只是非参数检验的效能相比于参数检验低,犯I类错误的概率可能会高。

当档宏计量资料为单独一组时,采用单样本t检验或单样本秩和检验(Wilcoxon);

当两组样本为独立样本进行比较时,采用两组独立样本t检验或两组独立样本秩和检验(Mann-Whitney);

当两组样本为相关样本时,采用配对样本t检验或配对样本秩和检行高册验(Wilcoxon);

当计量资料超过2组(3组或3组以上),采用方差分析或多组独立样本秩和检验(Kruskal-Wallis)。

B 计数资料

计数资料主要以列联表形式存在,所以对计数资料的分析,首要任务是对行、列变量属性的判断。

当行变量、列变量均为无序变量时,采用卡方检验;

当行变量或列变量为有序变量时,采用秩和检验;

当行变量、列变量均为有序变量时,可采用Spearman相关性分析量变量之间的秩相关;若是评判两种方法或处理手段的一致性,可采用Kappa分析。

将上面的长篇废话转化成图念猛表,思路是不是更清晰了呢?

转自’ 医学统计园 ’。

8. 医学统计方法该如何选择

医学统计方法该如何选择

基本的医学统计方法有很多,如样本均数与已知样本均数比较、两样本均数比较、多个样本均数的比较、两个样本率的比较、多个样本率的比较、两组或多组构成比的比较、非参数检验、多因素桐困轿资料的方差分析等。如果对于统计方法没有一个整体的把握和认识,可能就会局肆出现误用滥用统计方法的情况。下面是我为大家带来的.关于医学统计方法该如何选择的知识,欢迎阅读。

统计学的基本概念

1、小概率事件

如果事先假定发生概率最多为0.05的事件为小概率事件,那么根据小概率事件原理,即“小概率事件在一次随机试验中几乎不可能发生”。假设检验就是根据小概率事件原理对该假设进行推断。

2、非参数统计

统计学上,对总体的分布不做假设或仅作非常一般性假设条件下的统计推断方法称为“非参数统计”。非参数统计方法很多,应用较多的包括

配对设计资料的Wilcoxon符号秩和检验、单样本的Wilcoxon符号秩和检验、完全随机设计两独立样本的Wilcoxon符号秩和检验、完全随机设计多个独立样本的Kruskal-Wallis秩和检验和随机化区组设计资料的Friedman秩和检验。

3、实验研究三要素

实验研究三要素包括:处理因素、实验对象、实验效应。处理因素有单因素、多因素;实验对象的设计方式有完全随机、配对或随机区组;实验效应通过观察指标来表达,而观察指标又可分为计量、计数或等级资料。这三者的不同组合决定了选用不同的统计方法。

单变量统计方法选择的一般原则

1.影响因素是单因素还是多因素

2.判断拟分析的资料属尺竖于哪种类型:计量、计数还是等级资料

3.资料是单一样本、两组样本还是多组样本

4.判断资料所属的设计方式,是完全随机、配对还是随机区组

5.判断资料是否符合拟采用的统计分析方法的应用条件,必要时可考虑变量变换

多变量统计方法的选择

在医学研究中,特别是在临床研究中,每个观察对象记录的观察指标往往不止1个,即有多个反应变量。分析变量间的相互关系是探索疾病病因的重要途径,多参数统计方法常用于这类研究问题的分析。

在医学科研中,常用的多参数统计方法有3种:多元线性回归、Logistic回归分析和生存分析。

多元线性回归要求应变量是连续型变量,但是在医学研究中经常遇到的应变量为非连续的分类变量,如某种疾病的患病与否,器官移植之后是生存还是死亡。

研究分类应变量与诸多自变量间的相互关系,进行疾病的病因分析常选用Logistic回归分析。

在医学随访研究中,不仅要看是否出现了某种结局(如器官移植后是否死亡),还要考虑出现这些结局所经历的时间长短。生存分析就是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。

;

9. 统计方法如何选择

统计资料丰富且错综复杂,要想做到合理选用统计分析方法并非易事。对于同一个资料,若选择不同的统计分析方法处理,有时其结论是截然不同的。
正确选择统计方法的依据是:
①根据研究的目的,明确研究试验设计类型、研究因素与水平数;
②确定数据特征(是否正态分布等)和样本量大小;
③ 正确判断统计资料所对应的类型(计量、计数和等级资料),同时应根据统计方法的适宜条件进行正确的统计量值计算;
最后,还要根据专业知识与资料的实际情况,结合统计学原则,灵活地选择统计分析方法。

10. 如何在临床科研中选用正确的统计分析方法

统计学方法的正确抉择
一。
统计方法抉择的条件
在临床科研工作中,正确地抉择统计分析方法,应充分考虑科研工作者的分析目的、临床科研设计方法、搜集到的数据资料类型、数据资料的分布特征与所涉及的数理统计条件等。
其中任何一个问题没考虑到或考虑有误,都有可能导致统计分析方法的抉择失误。
此外,统计分析方法的抉择应在科研的设计阶段来完成,而不应该在临床试验结束或在数据的收集工作已完成之后。
对临床科研数据进行统计分析和进行统计方法抉择时,应考虑下列因素:
1.分析目的
对于临床医生及临床流行病医生来说,在进行统计分析前,一定要明确利用统计方法达到研究者的什么目的。
一般来说,统计方法可分为描述与推断两类方法。
一是统计描述(descriptivestatistics),二是统计推断(inferentialstatistics)。
统计描述,即利用统计指标、统计或统计表,对数据资料所进行的最基本的统计分析,使其能反映数据资料的基本特征,有利于研究者能准确、全面地了解数据资料所包涵的信息,以便做出科学的推断。
统计表,如频数表、四格表、列联表等;
统计,如直方、饼,散点等;
统计指标,如均数、标准差、率及构成比等。
统计推断,即利用样本所提供的信息对总体进行推断(估计或比较),其中包括参数估计和假设检验,如可信区间、t检验、方差分析、c2检验等,如要分析甲药治疗与乙药治疗两组的疗效是否不相同、不同地区某病的患病率有无差异等。
还有些统计方法,既包含了统计描述也包含了统计推断的内容,如不同变量间的关系分析。
相关分析,可用于研究某些因素间的相互联系,以相关系数来衡量各因素间相关的密切程度和方向,如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析;
回归分析,可用于研究某个因素与另一因素(变量)的依存关系,即以一个变量去推测另一变量,如利用回归分析建立起来的回归方程,可由儿童的年龄推算其体重。
2.资料类型
资料类型的划分现多采用国际通用的分类方法,将其分为两类:数值变量(numericalvariable)资料和分类变量(categoricalvariable)资料。
数值变量是指其值是可以定量或准确测量的变量,其表现为数值大小的不同;
而分类变量是指其值是无法定量或不能测量的变量,其表现没有数值的大小而只有互不相容的类别或属性。
分类变量又可分为无序分类变量和有序分类变量两小类,无序分类变量表现为没有大小之分的属性或类别,如:性别是两类无序分类变量,血型是四类无序分类变量;
有序分类变量表现为各属性或类别间有程度之分,如:临床上某种疾病的“轻、中、重”,治疗结果的“无效、显效、好转、治愈”。
由此可见,数值变量资料、无序分类变量资料和有序分类变量资料又可叫做计量资料、计数资料和等级资料。
资料类型的划分与统计方法的抉择有关,在多数情况下不同的资料类型,选择的统计方法不一样。
如数值变量资料的比较可选用t检验、u检验等统计方法;
而率的比较多用c2检验。
值得注意的是,有些临床科研工作者,常常人为地将数值变量的结果转化为分类变量的临床指标,然后参与统计分析,如患者的血红蛋白含量,研究者常用正常、轻度贫血、中度贫血和重度贫血来表示,这样虽然照顾了临床工作的习惯,却损失了资料所提供的信息量。
换言之,在多数情况下,数值变量资料提供的信息量最为充分,可进行统计分析的手段也较为丰富、经典和可靠,与之相比,分类变量在这些方面都不如数值变量资料。
因此,在临床实验中要尽可能选择量化的指标反映实验效应,若确实无法定量时,才选用分类数据,通常不宜将定量数据转变成分类数据。
3.设计方法
在众多的临床科研设计方法中,每一种设计方法都有与之相适应的统计方法。
在统计方法的抉择时,必须根据不同的临床科研设计方法来选择相应的统计分析方法。
如果统计方法的抉择与设计方法不一致,统计分析得到的任何结论都是错误的。
在常用的科研设计方法中,有成组设计(完全随机设计)的t检验、配对t检验、成组设计(完全随机设计)的方差分析、配伍设计(随机区组设计)的方差分析等,都是统计方法与科研设计方法有关的佐证。
因此,应注意区分成组设计(完全随机设计)与配对和配伍设计(随机区组设计),在成组设计中又要注意区别两组与多组设计。
最常见的错误是将配对或配伍设计(随机区组设计)的资料当做成组设计(完全随机设计)来处理,如配对设计的资料使用成组t检验、配伍设计(随机区组设计)使用成组资料的方差分析;
或将三组及三组以上的成组设计(完全随机设计)资料的比较采用多个t检验、三个或多个率的比较采用四格表的卡方检验来进行比较,都是典型的错误。
如下表:
表1常见与设计方法有关的统计方法抉择错误
设计方法错误的统计方法正确统计方法
两个均数的比较(成组设计、完全随机设计)成组设计的t检验、成组设计的秩和检验
多个均数的比较(成组设计、完全随机设计)多个成组设计的t检验完全随机设计的方差分析及q检验、完全随机设计的秩和检验及两两比较
数值变量的配对设计成组设计的t检验配对t检验、配对秩和检验
随机区组设计(配伍设计)多个成组设计的t检验、完全随机设计的方差分析随机区组设计的方差分析及q检验、随机区组设计的秩和检验及两两比较
交叉设计成组设计的t检验、配对t检验、配对秩和检验交叉设计的方差分析、交叉设计的秩和检验
4.分布特征及数理统计条件
数理统计和概率论是统计的理论基础。
每种统计方法都要涉及数理统计公式,而这些数理统计公式都是在一定条件下推导和建立的。
也就是说,只有当某个或某些条件满足时,某个数理统计公式才成立,反之若不满足条件时,就不能使用某个数理统计公式。
在数理统计公式推导和建立的条件中,涉及最多的是数据的分布特征。
数据的分布特征是指数据的数理统计规律,许多数理统计公式都是在特定的分布下推导和建立的。
若实际资料服从(符合)某种分布,即可使用该分布所具有的数理统计规律来分析和处理该实际资料,反之则不能。
在临床资料的统计分析过程中,涉及得最多的分布有正态分布、偏态分布、二项分布等。
许多统计方法对资料的分布有要求,如:均数和标准差、t和u检验;
方差分析都要求资料服从正态分布,而中位数和四分位数间距、秩和检验等,可用于不服从正态分布的资料。
所以,临床资料的统计分析过程中,应考虑资料的分布特征,最起码的要求是熟悉正态分布与偏态分布。
例如:在临床科研中,许多资料的描述不考虑资料的分布特征,而多选择均数与标准差。
如某妇科肿瘤化疗前的血象值,资料如下表:
某妇科肿瘤化疗前的血象值
指标名例数均数标准差偏度系数P值峰度系数P值
血红蛋白(g/L)98111.9918.820.1800.4590.0250.958
血小板(×109/L)98173.5887.111.3530.0001.8430.000
白细胞(×109/L)986.79302.7671.2070.0001.2020.013
从上结果可见,若只看三项指标的均数和标准差,临床医生也许不会怀疑有什么问题。
但是经正态性检验,病人的血红蛋白服从正态分布,而血小板和白细胞两项指标的偏度和峰度系数均不服从正态分布(P<0.05)。
因此,描述病人的血小板和白细胞平均水平正确的指标是中位数,而其变异程度应使用四分位数间距。
除了数据的分布特征外,有些数理统计公式还有其它一些的条件,如t检验和方差分析的方差齐性、卡方检验的理论数(T)大小等。
总之,对于临床科研工作者来说,为正确地进行统计方法的抉择,首先要掌握或熟悉上述影响统计方法抉择因素;
其次,还应熟悉和了解常用统计方法的应用条件。
二。
数据资料的描述
统计描述的内容包括了统计指标、统计和表,其目的是使数据资料的基本特征更加清晰地表达。
本节只讨论统计指标的正确选用,而统计表的正确使用请参阅其他书籍。
1.数值变量资料的描述
描述数值变量资料的基本特征有两类指标,一是描述集中趋势的指标,用以反映一组数据的平均水平;
二是描述离散程度的指标,用以反映一组数据的变异大小。
各指标的名称及适用范围等见表2。
表2描述数值变量资料的常用指标
指标名称用途适用的资料
均数(X——)
描述一组数据的平均水平,集中位置正态分布或近似正态分布
中位数(M)与均数相同偏态分布、分布未知、两端无界
几何均数(G)与均数相同对数正态分布,等比资料
标准差(S)
描述一组数据的变异大小,离散程度
正态分布或近似正态分布
四分位数间距
(QU-QL)与标准差相同偏态分布、分布未知、两端无界
极差(R)与标准差相同观察例数相近的数值变量
变异系数(CV)与标准差相同比较几组资料间的变异大小
从表中可看出,均数与标准差联合使用描述正态分布或近似正态分布资料的基本特征;
中位数与四分位数间距联合使用描述偏态分布或未知分布资料的基本特征。
这些描述指标应用时,最常见的错误是不考虑其应用条件的随意使用,如:用均数和标准差描述偏态分布、分布未知或两端无界的资料,这是目前在临床研究文献中较为普遍和典型的错误。

阅读全文

与选择统计分析方法时相关的资料

热点内容
干扰素用什么方法打 浏览:353
打不着火的最佳方法 浏览:665
蒙氏教育研究方法 浏览:222
腰椎间盘脱出检测方法 浏览:335
检查手机中病毒的方法 浏览:425
如何才能不劳而获的一百种方法书 浏览:280
最简便易行的方法 浏览:656
住友挖机空调不凉快的原因及解决方法 浏览:777
外语教学常用方法教资 浏览:729
1x98用简便方法计算 浏览:974
怎么学拼音最快的方法 浏览:22
教学方法框图 浏览:576
谈判表演技巧和方法 浏览:258
细胞纤维化检测方法 浏览:144
你知道哪些便方法 浏览:940
大半夜便秘睡不着快速解决方法 浏览:165
性功能勃起障碍的治疗方法 浏览:391
马常见的病和治疗方法 浏览:45
如何有效防困的方法 浏览:227
100斤山药种植方法 浏览:405