⑴ 贝叶斯分析的拟准分析
(五)拟(准)贝叶斯分析(quasi Bayesian analysis )
有一种目前不断在文献中出现的贝叶斯分析类型,它既不属于“纯”贝叶斯分析,也不同于非贝叶斯分析。在这种类型中,各种各样的先验分布的选取具有许多特别的形式,包括选择不完全确定的先验分布(vague proper priors);选择先验分布似然函数的范围进行“扩展”(span);对参数不断进行调整,从而选择合适的先验分布使得结论看起来非常完美。伯杰称之为拟(准)贝叶斯分析,因为虽然它包含了贝叶斯的思想,但它并没有完全遵守主观贝叶斯或客观贝叶斯在论证过程中的规范要求。
拟(准)贝叶斯方法,伴随着MCMC方法的发展,已经被证明是一种非常有效的方法,这种方法可以在使用过程中,不断产生新的数据和知识。虽然拟(准)贝叶斯方法还存在许多不足,但拟(准)贝叶斯方法非常容易创造出一些全新的分析过程,这种分析过程可以非常灵活地对数据进行分析,这种分析过程应该加以鼓励。对这种分析方法的评判,不必要按照贝叶斯内在的标准去衡量,而应使用其他外在的标准去判别(例如敏感性、模拟精度等)。
-----------学文
⑵ 贝叶斯统计方法
英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到 20世纪 30 年代。到50~60年代,已发展为一个有影响的学派。时至今日,其影响日益扩大。
贝叶斯统计中的两个基本概念是先验分布和后验分布 。①先验分布。总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于总体分布参数θ的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素。他们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念。②后验分布。根据样本分布和未知参数的先验分布,用概率论中求条件概率分布的方法,求出的在样本已知下,未知参数的条件分布。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布,而不能再涉及样本分布。
⑶ 贝叶斯分析基础——可信度、模型和参数
Doing Bayesian Data Analysis 学习笔记
假设某一天我们出门之后发现外面路面是湿的,并且我们想知道是什么原因导致这样的现象。导致路面湿的可能性有很多,比如之前下过雨,有洒水车路过,有人把自己喝的水撒掉了等等。如果到这个时候除了路面湿这个现象,其他的所有信息我们都不知道,那么我们就会基于先前的知识来给各种可能性分配一个可信度。比如说这个地区几十年没有下过雨,我们就知道这个地方下雨的可能性不太大;或者我们知道每天这个时间点之前一段时间洒水车会经过,洒水车导致路面湿的可能性就相对较大。这种基于先前知识产生的对各种可能性的认识就是先验信念。
我们继续在路边走,突然发现了一些新的证据:路面上只有洒水车能够洒到的地方是湿的,其他地方比如人行道是干的,这个时候我们就会重新调整我们的信念,我们会给各种可能的原因重新分配可信度,比如说下雨导致路面湿的概率会更低,而洒水车导致路面湿的概率会增加。
贝叶斯推论就是在各种可能性之间重新分配 可信度 ( 概率 )的过程,我们基于先验信念,结合我们获得的证据调整我们的信念,并获得我们对各种可能性的概率的新的信念,也叫后验分布。如果我们又收集到了新的证据,那么先前的后验分布就会变成先验,我们再基于这个新的先验调整我们的信念。
科学研究中所有测试都是带有随机性的,即使我们非常严格的控制各种无关变量的影响,但是依旧存在很多无关因素干扰测量结果。因此,数据和潜在的原因之间的关系具有概率性质,有可能是由于某种潜在的原因导致我们观测到这样的数据,但是也有可能是由于随机因素导致我们观察到这样的数据结果。
以一个新药药效测试为例,假设我们想要检测一种新药能否有效降低血压,所以我们将被试随机分为两组,实验组服用药品,控制组服用安慰剂,并且采用双盲程序。每天我们都会在固定时间点测试被试的血压水平,我们可以想象到,一个被试的血压水平在一天中也会受到很多因素的影响, 比如说运动、焦虑、饮食等。更何况,血压是通过测量佩戴一个加压的血压仪之后的血流的声音来计算得到的,这个测量过程本身就存在误差。血压值也存在比较大的个体差异,所以我们最终得到的数据可能会比较混乱,控制组和实验组的测量结果均存在较大的变异(方差较大);两个组的结果分布也可能会存在重叠部分,实验组的某些个体血压可能会高于控制组。基于这两组分散的且相互重叠的数据结果,我们想要推论控制组和实验组有多大的差异,并且我们能否确定这个差异是真实存在的。 但问题的关键在于,控制组和实验组的差异测量结果是带有随机性的,也就是说我们的数据是有噪音的。
所有的科学数据都带有某种程度的噪音,而数据分析就是根据携带噪音的数据推断潜在的趋势。贝叶斯推论不能完全排除其他可能性,但是我们可以 通过数据逐渐调整不同可能性的可信度 。可信度的分布最初反映的是关于可能性的先验知识,这个分布是一个比较模糊的分布;但是当获得一批数据后,不同可能性的可信度重新分配,与数据一致的可能性的可信度增加,与数据不匹配的可能性的可信度降低。
贝叶斯统计推论是一个在各种可能性间不断分配可信度的过程,这里所说的可能性实际上就是描述性模型的参数值。
在降压药的例子中,我们想要确定降压药是否能够有效地降低血压水平,就要对比实验组和控制组的血压差异。最终我们可能会选择两个组在操作前后血压变化的平均值的差值作为这组数据的描述性模型:
上式中 代表A情况下所有被试血压的平均值, 能够有效反映降压药是否有效,如果 比较大(大于零),则说明降压药确实能够有效降低血压。
但是由于各种无关因素的影响,导致我们并没有100%的把握说我们最后的测量结果就恰好等于实际的 ,所以我们就只能基于我们的测量结果进行推断,给每一个可能的 分配一个可信度。
一般情况下,数据分析都是从数据的某个或某些描述性统计量出发的,这些描述性统计量(比如平均值)是能够描述数据特征的数学公式。这些公式是能够计算出具体数值的,比如说平均值为3,这个值就叫做参数值。例如我们用一个正态分布来描述数据,则平均值和标准差两个参数就能够确定数据的特征,平均值决定正态分布的位置,而标准差决定正态分布的宽度。
在选择描述数据的数学模型的时候,首先要满足两个要求:
数据的数学模型并不等同于数据的产生过程。 比如说一个服从均值为10、标准差为5的正态分布的数据,只能说数据的表现形式为该正态分布,但是数据的一个物理产生过程却不一定与正态分布有关。
实例:
假设我们现在想要探究人们身高和体重之间的关联,基于日常经验我们猜想人的身高越高,体重也越大,但是我们想知道体重随着身高的具体数量变化关系是怎样的,并且当身高增加时,我们有多大的把握确定体重的确按照这样的数量关系增加?
第一步是确定研究相关的数据 。假设我们现在能够收集到57个成年人的身高和体重数据,57个成人年从研究总体中随机抽样。身高的单位为英寸,体重为磅,均为连续变量。在这个例子中我们想要用身高来预测体重。
第二步是确定数据的描述性模型 ,这个模型与我们的研究目的相对应。在这个例子中,我们假设身高和体重成正比,记体重为 ,身高的预测值为 ,则有:
系数 代表身高增加1英寸时的体重增加量,基线 代表人的身高为0时的体重量,事实上由于人的身高下限高于0,所以不必严格限制 。
这个模型还并不完整,我们哈需要描述真实体重的随机误差,为了简便,我们假设体重真实值 服从以预测值 为均值、以 为标准差的正态分布:
整个模型有三个参数:斜率 、截距 、噪音的标准差 。三个参数都是具有意义的,斜率参数代表高度增长一英寸对应的体重增长值,标准差参数反映体重围绕着预测值的分散程度(变异程度)。
第三步是确定参数的先验分布。 我们可以依据先前的研究结果来生成参数的先验分布,或者我们可以依据一些得到较多人认可的实践经验来生成先验分布。在这个例子中,我们采用比较模糊的、不蕴含信息量的先验,斜率和截距的所有可能取值的先验可信度相同,且可能取值的范围均以0为中心,噪音参数的先验分布为0到一个比较大的值的均匀分布。这种模糊的先验分布暗示其对后验分布并没有任何有方向的影响。
第四步是得到后验分布。 贝叶斯推论会针对众多的参数值重新分配可信度,最终得到的后验分布与实验数据具有一致性。下图展示了参数 的后验分布,注意下图展示的并不是实验数据的分布,而是参数的分布。可以看出,可信度最高的斜率参数大约为4.1。下图同样展示了估计的参数值的不确定性,一种描述不确定性的方法是计算置信度最高的、包含分布95%的参数值的跨度,即下图中的黑色横线所表示的区间。这个区间称为最大密度区间( highest density interval , HDI)。95%HDI里面的参数值比之外的参数值具有更高的可信度,基于57对数据的95%HDI为 ,如果样本量增加,斜率的估计将会更加准确,即HDI会更窄。
第五步是对模型进行检验, 即检验可信度最高的一些参数能够足够好地描述数据。这一项工作也叫后验预测检验(posterior predictive check)。由于系统误差的定义方法有很多,所以用来检验模型是否系统性的偏离数据的方法也有很多。
如果检验结果发现真实数据系统性的偏离模型的预测,那么我们就应该考虑其他模型。在这个例子中,如果数据表现出非线性趋势,那么就应该选择非线性模型来描述数据。
⑷ 贝叶斯的理论分析
(1)如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合,那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法)
(2)如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。(如已知判别式函数为线性或二次的,那么就要根据训练样本来估计判别式的参数,常见的是线性判别式和神经网络)
(3)如果我们既不知道任何有关被分类类别概率分布的知识,也不知道判别式函数的形式,只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。(如首先要估计是什么分布,再估计参数。常见的是非参数估计)
(4)只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类,从而估计它们概率分布的参数。(这是无监督的学习)
(5)如果我们已知被分类类别的概率分布,那么,我们不需要训练样本集合,利用贝叶斯决策理论就可以设计最优分类器。但是,在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。 结论:对于任何给定问题,可以通过似然率测试决策规则得到最小的错误概率。此错误概率称为贝叶斯错误率,且是所有分类器中可以得到的最好结果。最小化错误概率的决策规则就是最大化后验概率判据。
⑸ 什么是贝叶斯分析法金融方面的
贝叶斯分析方法(Bayesian Analysis)提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法。