导航:首页 > 研究方法 > 统计学森林图分析方法

统计学森林图分析方法

发布时间:2024-03-19 17:20:00

① 常用统计学方法

感知机 二分类

二分类的线性分类模型,也是判别模型。
目的是求出把训练数据进行线性划分的分离超平面。
感知机是神经网络和支持向量机的基础。
学习策略:极小化损失函数。损失函数对应于误分类点到分离超平面的总距离。
基于随机梯度下降法对损失函数的最优化算法,有原始形式和对偶形式。

K近邻法 K-nearest neighbor, K-NN 多分类和回归

是一种分类和回归方法,有监督学习。在训练数据集中找到和新的输入实例最接近的K个实例,这k个实例的多数类别就是这个新实例的类别。
三要素:K的选择,距离度量,分类决策规则。
实现方法:kd树(二叉树)快速搜索K个最近邻的点。
K值选择:反映了对近似误差和估计误差的权衡。交叉验证选择最优的K值,K小,模型复杂,K大,模型简答。

朴素贝叶斯法 多分类 用于NLP

朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。首先学习输入输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
后验概率最大等价于0-1损失函数的期望风险最小化。
是典型的生成学习方法,由训练数据求出联合概率分布,再求出条件概率分布(后验概率)。
概率估计方法是:极大似然估计或者贝叶斯估计。
基本假设是条件独立性

决策树 decision tree 多分类,回归

是一种分类和回归算法。包括三个步骤:特征选择,决策树生成和决策树的修剪,常用算法:ID3,C4.5,CART

逻辑斯地回归和最大熵模型 多分类

本质就是给线性回归添加了对数函数
它的核心思想是,如果线性回归的结果输出是一个连续值,而值的范围是无法限定的,那我们有没有办法把这个结果值映射为可以帮助我们判断的结果呢。
而如果输出结果是 (0,1) 的一个概率值,这个问题就很清楚了。我们在数学上找了一圈,还真就找着这样一个简单的函数了,就是很神奇的sigmoid函数(如下):
逻辑回归用于二分类和多分类
逻辑斯地分布是S型曲线
最大熵模型:熵最大的模型是最好的模型。
X服从均匀分布时候,熵最大
最大熵模型的学习等价于约束最优化问题。
对偶函数的极大化等价于最大熵模型的极大似然估计。
模型学习的最优化算法有:改进的迭代尺度法IIS,梯度下降法,牛顿法,或者拟牛顿法

支持向量机 二分类

线性可分支持向量机利用间隔最大化求最优分离超平面。
函数间隔

如何做meta-analysisi

在信息爆炸的时代,对数据的二次加工显得尤为重要。那么多健康类的App和网站,或多或少都在做信息二次加工的事情。在临床科研中,meta分析则是最符合当今时代节奏的,相信所有医生都对其有所了解,想要通过meta分析发表文章,指导临床行为。Meta分析就是对已发表的他人文献进行二次加工,并根据经验和分析标准对数据进行定性和定量的合成,在不做实验的情况下得出质量很高的科学结论。本期,小编通过解读一篇文章,来给大家介绍下如何才能做一篇高质量的meta分析。
这篇文章于2004年发表在JAMA上,是关于维生素D和跌倒之间关系的一项研究。原文如下:
Bischoff-Ferrari, HA et.al “Effect of vitamin D on falls: a meta-analysis”.JAMA (2004).
Meta分析总体可分为三个阶段:选题和立题阶段、施行阶段、分析结果和报告阶段。
第一阶段:选题和立题
第一步:确定评价问题的创新性和必要性
(务必搜索已发表或正在进行的系统评价,以避免重复工作)
搜索常用的数据库,包括:Medline、EMBASE等;
Cochrane 数据库整合了Cochrane Database of Systematic Reviews,Database of Abstracts of Reviews of Effectiveness (DARE),Health Technology Assessment Database。
在例文中,作者阐述了做这篇meta的原因如下:
1)老年人中跌倒频发,后果严重;
2)维生素D可能有效,但是之前的各RCT结果不明确;
3)之前没有做过系统评价。
如何衡量meta分析文章的质量呢?可以从以下几个角度入手:
1. 所评价的问题是否明确,比如研究人群、干预(暴露因素)、比较组、结果和研究设计(PICOS)?
2. 搜索战略是否合适?有没有任何语言限制、发布状态限制、或出版日期限制?
3. 在试验选择中是否采取了预防性措施以尽量减少偏差和错误?
4. 评估标准是否适当?
5. 在数据提取过程中是否采取了预防性措施减少偏差和错误?
6. 所选试验是否有足够的细节?
7. 数据整合方法是否恰当?各文献间差异性是否评估?
8. 作者的结论和结果是否匹配?
9. 这个评价是否是最新的?
只有知己知彼,才能创作出高质量的meta分析的文章。
第二步:制定评价方案
先确定方法。这对降低偏倚风险非常重要(比如:不能通过结果挑选文献等)。
在进行meta分析过程中,常规需要经历以下步骤,且每一步都要有明确的方法:
-锁定评价问题
-纳入/排除标准
-文献检索策略
-对检索到的研究进行选择
-数据提取
-质量评估
-数据整合
-计划传播
锁定评价问题已经在第一点中提及,接下去会对每一步进行分析,考虑到步骤间的交叉,所以在顺序和分点上有所改变。小编也推荐参看******* 2015年11月20日的文章“在这里,学会最全的PICOS原则”。
例文根据PICOS原则,可以归纳如下:
1. 所探究的问题是:维生素D是否可以阻止老年人跌倒?
2. 研究人群:老年人;
3. 干预/暴露因素:维生素D;
4. 结果:摔倒在地;
5. 研究设计:仅包括之前发表的各RCT。
第二阶段:施行阶段
第一步:文献检索
在制定文献检索策略时,总体的要求就是查全和查准。
需要考虑如下几个方面:
1. 圈定搜索数据库(外文有:MEDLINE、the Cochrane library、医学文摘、TOXLINE、OVID、EMBASE、ISI Web of Science、EBSCO等;国内有:维普全文VIP、CNKI、万方数据库)
2. 确定语言类型:包括所有英语和非英语的文献;
3. 明确需要包含的研究类型:仅包含RCT,还是病例对照试验,队列研究等。
4. 明确暴露因素/治疗方法
5. 筛选关键词:这将直接影响文献检索的准确性和敏感性,也关系到指定检索策略。
- 关键词需要根据研究问题本身来确定;
- 对于每一个关键词尽量包含所有可能的表述形式;
- 可以尝试几种关键词组合以搜最合适的文献。
6. 检索获取摘要和全文:其中联系专家是一种很好的方式,不仅可以获取全文,甚至可以询问文献中的细节帮助后续使用文献。建议搜索文献引用名单,可以增加文献搜索的全面性。
在例文中,作者搜索了所有英语和非英语的文章,包括:Medline、Cochrane对照试验注册、Embase、专家、搜索文献引用名单、在美国骨骼和矿物质研究协会中的摘要。在搜索的过程中,主要使用的医学关键词包括“vitamin D” OR “vitD”, “falls” OR “accidental falls”、“human”等。
第二步:根据纳入/排除标准完成文献选择
总体来说,首先在计划书中需要描述纳入/排除标准,且这些标准不应该是看了搜索的文献后制定的,而是应从评价问题出发直接得出。
在文献筛选过程中,首先,需要由两位研究者独立通过对文献的题目和摘要进行初筛,初筛后的文献通过阅读全文进行二次筛选,然后交叉核对筛选结果,如果有分歧则通过共同讨论决定是否纳入,必要时可有第三位研究者协助解决。如果文中信息不全或信息不清楚,与原始研究作者联系获取信息。在筛选过程中,需要记录你每个步骤的选择和排除原因。至于被排除的文章,则需要在灵敏度分析中进行分析。
如例文,在这个文献中,已提前确定了纳入和排除标准,包括:仅包含RCT研究,参加人群平均年龄≥60岁,排除酗酒人群、健康不稳定人群等,而所排除的研究在灵敏度分析中进行了分析。
下面的这个流程表描述了整个meta分析纳入和排除的过程,这个流程表在meta分析中一般都是必要的。

第三步:资料选择和提取
资料提取是从符合纳入要求的文献中摘录用于系统评价的数据信息,所提取信息必须是可靠、有效、无偏的。
总体来说,在进行数据提取时必须使用数据提取表对每个研究进行数据提取,时刻记住所评价的问题以及以后的分析。有时可能需要主观决定提取的信息,所以必须由2人独立进行,核查过程中遇到不同之处应该通过讨论解决。对于无法获取必要信息的文献,则应予以排除。
从提取的数据角度,需要提取相关研究的特点、结果和质量数据。
下表给出了常需要提取的一些数据类型,非常适合各位看官收藏下来在需要时进行查看。
一般信息 文献研究特点
进行数据提取的研究员
数据提取日期
文献识别特点
- 各文献特有编号
- 第一作者
- 文章标题
- 引用
- 出版物类型、名称、发表年限
- 国家
- 资金来源
宗旨/目标
研究设计
纳入和排除标准
分组数
样本量
招募过程(如:随机方法、盲法)
随机干预的单位(如:个人还是
一组人,或者左右眼)
研究场所
研究对象的基本特点 干预措施/暴露因素
研究对象在研究开始的特点,
包括:年龄、性别、种族、社会
经济状况、疾病特点、并发症、
诊断标准、疾病分期、病例来源
等;
各对比组的研究对象数量或平均
特点(记录下是入组人数还是可
行人数或者随机人数)
干预措施进行的环境
对干预/暴露因素/或者对照组
的描述(如:剂量、应用方法、
干预时间、执行者、干预方法、
理论依据等)
对co-intervention/co-exposure
的描述
健康结局或结果(outcomes)
分析或评估单位
所用统计方法
对每一个提前确定要研究的结果
o 是否在文中有报道
o 研究中对该结果的定义
o 对该结果的测量工具和方法
o 随访的时长以及测量
对于所有干预/暴露组以及对照组
o 每组开始参加者人数(enrolled)
o 每组在分析中包括的参加者
o 每组退出者,排除,lost to FU 人数
o 总结结果数据
> 二分法:时间和/或参加者人数
> 连续:平均值和SD
在研究中所用方法(如:intention to treat, per protocol)
研究方法结果(如:odds ratio,risk ratio, confidential interval, p-value,mean difference,CI)
如果计划做亚组分析,则需要对每一组都提取以上信息
其他结果及任何与结果相关的详细信息
花费
使用的资源
不良反应事件
在最后加入“备注”一栏,可以用于输入不能填入其他栏的信息
拿例文说,就有如下图对目标文章所提取的数据进行了总结:

第四步:纳入研究的质量评价和特征描述
完成数据提取后,就需要对所选择的文献进行质量评估。常常通过评价一个研究在设计、实施和分析中防止和减少系统误差(偏倚)和随机误差的程度,来评价其研究质量,并以此为依据在敏感性分析、亚组分析中给以不同的权重。
评估的角度有很多,常需要包含以下领域条目:
研究设计是否与研究目的相匹配
偏倚风险
结果选择
统计问题
报告方式
干预/暴露测量
下面,陈列一下常用的文献质量评价工具:
1. 随机对照试验的质量评价工具:
Cochrane风险偏倚评估工具(最常用)、PEDro量表、Delphi清单、CASP清单、Jadad量表、Chalmers量表、CONSORT声明(不专用,但可以用)。
2. 观察性研究的质量评价工具:
(1)NOS量表(最常用):病例对照研究和队列研究;
(2)CASP清单:病例对照研究和队列研究;
(3)JBI标准:横断面研究;经验总结、案例分析及专家意见;
(4)AHRQ;
(5)Combie横断面研究评价工具;
(6)STROBE声明;
(7)STREGA声明。
3. 非随机对照实验性研究的质量评价工具:
MINORS条目、Reisch评价工具、TREND声明。
4. 诊断性研究:
QUADAS工具、CASP清单、STARD声明。
5. 动物试验:
STAIR清单、CAMARADES清单、ARRIV指南。
在该例文中,共有三名作者独立进行数据提取,使用已经设计好的数据领域,包括研究质量指数,评估了以下方法:随机方法、随机分配、双盲等。此外,还做了灵敏度分析。
第五步:数据整合
系统评价过程中,对上述数据进行定量统计合并的流行病学方法称为Meta分析(Meta analysis)。Meta意思是more comprehensive,即更加全面综合。
对数据的整合分为描述性整合和定量整合:
对于描述性整合,应考虑:
• 建立干预/暴露因素是如何导致结果的假说,包括原因和适用人群;
• 初步综合纳入的研究,以文本形式或者制表和/或图形显示;
• 探讨各研究内或各研究间的关系;
• 评估证据的稳定性;
• 评估meta分析的重要性。
对于定量整合,则可以:
1. 提高了统计检验的power和精度;
2. 统计结合各研究结果给出一个“平均”干预效果的合并估计值,改进对作用效应的估计;
3. 评价结果一致性,解决单个研究间的矛盾;
4. 解决以往单个研究未明确的新问题。
那么如何进行meta分析呢?
a.异质性检验(齐性检验)
由于纳入文献存在临床异质性、方法学异质性和统计学异质性,所以在对结果数据进行统计合并之前,首先应该进行异质性检验,保证现有的各独立研究间的结果的不同仅仅是由于抽样误差造成的。否则,就要进入亚组分析,或取消合并。
异质性评估(Heterogeneity assessment)
异质性:除抽样误差外的不同性
Chi-square test for interaction (Q = x2 statistic, df =degrees of freedom)
也可以比较各亚组的点估计是否相同
若同时如何I2<50%和P≥0.1时,纳入文献被认为是同质的,采用固定效应模型(fixed effect model)分析;反之说明研究间存在实际异质性,需要查找一致性的来源,之后采用随机效应模型(random effect model)。
如果存在较大的临床异质性,那将无法进行meta分析,只能进行描述性整合。
在JAMA这篇文章中,用Q值来评估异质性。当p值小于0.1时,存在显着异质性。此外,在forest plots中所有研究的95%置信区间相互之间重叠可支持不存在异质性。
b.统计合并效应量(加权合并,计算效应尺度及95%的置信区间)并进行统计推断
通常在考虑采用哪些效应指标(effect size)时需要考虑结局指标的类型,通常两组间比较时,如果是连续性变量用加权均数差(weighted mean difference, WMD)、标准化均数差值(standardized mean differences, SMD)表示效应大小;二分类变量则用率差(rate difference, RD)、比数比(odds ratio, OR)、相对危险度(relative risk, RR)、相对危险度降低值(relative risk rection, RRR)等来表示效应的大小。
c.图示单个试验的结果和合并后的结果
-森林图(Forrest plot)

分别展示了纳入的每一篇文献的结果和合并后的结果。
-Meta-regression (Goodman et al, 2009)

d.敏感性分析:用来评估meta分析结果的稳定性
1)按研究质量评价标准从纳入文献中去除尚有争议的研究、排除低质量的研究、早期研究、根据研究结果的分布去掉extreme10%其他已知因素不同的研究;
2)采用不同统计方法/模型;
3)根据样本量大小进行分层分析;
4)改变纳入/排除标准时,重新对同一资料进行分析时,如果观察到合并指标点估计和区间估计的变化存在较大差异,则说明meta分析的结果不稳定。比如,当排除一篇低质量文献时,合并指标变化很大,说明该文献对合并指标敏感。
敏感性分析是必要的,无论是采用不同的统计模型或进行亚组分析,都可以帮助我们找到可能的偏倚来源,更加正确的理解获得的结论。
e.通过“失安全数”的计算或采用“倒漏斗图”对入选文献进行潜在的发表偏倚(publication bias)的评估。
可以用stata软件进行Begg test和 Egger test以及funnel plot进行评估。
第三阶段:报告和分析结果
第一步:报告和建议
• 总结主要结果
• 判断结果的有效性
• 判断结果概括性
• 确定进一步研究的意义
• 确定临床实践和公共卫生的意义
根据Centre for Reviews and Dissemination(CRD)指南,meta分析报告的结构一般包括以下内容:
• 标题
• 内容列表
• 缩写/术语表
• 内容提要或结构式摘要
- 背景
- 目标
- 方法(数据来源、研究的选择、数据提取,
质量评估、数据合成)
- 结果
- 结论
• 正文
- 背景/介绍
- 研究问题
- 研究方法
o 确定研究
o 研究选择(纳入/排除标准,方法)
o 数据提取
o 质量评估
o 数据整合
- 结果
o 纳入和排除研究的详细信息
o 研究结果
o 次要分析(例如:异质性、灵敏度)
- 讨论
o 主要发现的讨论
o 评价的优点和弱点
o 结果的意义
> 评价中证据的长处和短处
> 影响的方向和力度
> 结果的实用性
o 启示
- 结论
o 实践/策略/政策/未来影响
• 致谢
• 资金来源
• 利益冲突
• 参考文献
• 附录
第二步:应用到实践
让研究更易理解
推广到临床实践:诊断、预后、预防、治疗
风险评估
- 评估一般或特定的因果关系
- 与其他种类的数据使用证据权重分析(例如:毒理学、模式-的动作)
- 限制法规
附Meta分析常所使用的软件:
1. 付费软件:CMA(ComprehensiveMeta Analysis)、Meta Win、EasyEA;
2. 免费软件:RevMan(Review Manager)、Meta-Disc、EpiMeta、R;
3. 通用统计软件中有Metaanalysis的程序:STATA、SAS、NCSS、WinBUGS。

阅读全文

与统计学森林图分析方法相关的资料

热点内容
要用什么方法写字才快 浏览:553
原神中找封神童简单的方法 浏览:662
识字教学第六课画教学方法 浏览:767
浙江防雷检测技术和方法 浏览:327
wpsexcelif函数的使用方法 浏览:51
怎么剥柚子最简单方法妙招姐 浏览:669
天圆地方的圆角什么方法下料简便 浏览:787
三星4521f使用方法 浏览:495
后背风湿痛的治疗方法 浏览:469
3种超级简单下载视频的方法 浏览:763
列表框有哪三种常用方法 浏览:784
三科通用矢量变频器安装方法 浏览:347
八爪椅图解使用方法 浏览:343
矿物鉴别方法调查 浏览:495
男性有什么避孕的方法 浏览:113
治疗尖锐湿效果好的方法 浏览:831
你使用方法 浏览:794
什么方法可以让阴道变紧 浏览:503
剪红藤的正确方法视频 浏览:734
进行自我评价制定锻炼方法 浏览:124