⑴ 貝葉斯分析的擬准分析
(五)擬(准)貝葉斯分析(quasi Bayesian analysis )
有一種目前不斷在文獻中出現的貝葉斯分析類型,它既不屬於「純」貝葉斯分析,也不同於非貝葉斯分析。在這種類型中,各種各樣的先驗分布的選取具有許多特別的形式,包括選擇不完全確定的先驗分布(vague proper priors);選擇先驗分布似然函數的范圍進行「擴展」(span);對參數不斷進行調整,從而選擇合適的先驗分布使得結論看起來非常完美。伯傑稱之為擬(准)貝葉斯分析,因為雖然它包含了貝葉斯的思想,但它並沒有完全遵守主觀貝葉斯或客觀貝葉斯在論證過程中的規范要求。
擬(准)貝葉斯方法,伴隨著MCMC方法的發展,已經被證明是一種非常有效的方法,這種方法可以在使用過程中,不斷產生新的數據和知識。雖然擬(准)貝葉斯方法還存在許多不足,但擬(准)貝葉斯方法非常容易創造出一些全新的分析過程,這種分析過程可以非常靈活地對數據進行分析,這種分析過程應該加以鼓勵。對這種分析方法的評判,不必要按照貝葉斯內在的標准去衡量,而應使用其他外在的標准去判別(例如敏感性、模擬精度等)。
-----------學文
⑵ 貝葉斯統計方法
英國學者T.貝葉斯1763年在《論有關機遇問題的求解》中提出一種歸納推理的理論,後被一些統計學者發展為一種系統的統計推斷方法,稱為貝葉斯方法。採用這種方法作統計推斷所得的全部結果,構成貝葉斯統計的內容。認為貝葉斯方法是唯一合理的統計推斷方法的統計學者,組成數理統計學中的貝葉斯學派,其形成可追溯到 20世紀 30 年代。到50~60年代,已發展為一個有影響的學派。時至今日,其影響日益擴大。
貝葉斯統計中的兩個基本概念是先驗分布和後驗分布 。①先驗分布。總體分布參數θ的一個概率分布。貝葉斯學派的根本觀點,是認為在關於總體分布參數θ的任何統計推斷問題中,除了使用樣本所提供的信息外,還必須規定一個先驗分布,它是在進行統計推斷時不可缺少的一個要素。他們認為先驗分布不必有客觀的依據,可以部分地或完全地基於主觀信念。②後驗分布。根據樣本分布和未知參數的先驗分布,用概率論中求條件概率分布的方法,求出的在樣本已知下,未知參數的條件分布。因為這個分布是在抽樣以後才得到的,故稱為後驗分布。貝葉斯推斷方法的關鍵是任何推斷都必須且只須根據後驗分布,而不能再涉及樣本分布。
⑶ 貝葉斯分析基礎——可信度、模型和參數
Doing Bayesian Data Analysis 學習筆記
假設某一天我們出門之後發現外面路面是濕的,並且我們想知道是什麼原因導致這樣的現象。導致路面濕的可能性有很多,比如之前下過雨,有灑水車路過,有人把自己喝的水撒掉了等等。如果到這個時候除了路面濕這個現象,其他的所有信息我們都不知道,那麼我們就會基於先前的知識來給各種可能性分配一個可信度。比如說這個地區幾十年沒有下過雨,我們就知道這個地方下雨的可能性不太大;或者我們知道每天這個時間點之前一段時間灑水車會經過,灑水車導致路面濕的可能性就相對較大。這種基於先前知識產生的對各種可能性的認識就是先驗信念。
我們繼續在路邊走,突然發現了一些新的證據:路面上只有灑水車能夠灑到的地方是濕的,其他地方比如人行道是乾的,這個時候我們就會重新調整我們的信念,我們會給各種可能的原因重新分配可信度,比如說下雨導致路面濕的概率會更低,而灑水車導致路面濕的概率會增加。
貝葉斯推論就是在各種可能性之間重新分配 可信度 ( 概率 )的過程,我們基於先驗信念,結合我們獲得的證據調整我們的信念,並獲得我們對各種可能性的概率的新的信念,也叫後驗分布。如果我們又收集到了新的證據,那麼先前的後驗分布就會變成先驗,我們再基於這個新的先驗調整我們的信念。
科學研究中所有測試都是帶有隨機性的,即使我們非常嚴格的控制各種無關變數的影響,但是依舊存在很多無關因素干擾測量結果。因此,數據和潛在的原因之間的關系具有概率性質,有可能是由於某種潛在的原因導致我們觀測到這樣的數據,但是也有可能是由於隨機因素導致我們觀察到這樣的數據結果。
以一個新葯葯效測試為例,假設我們想要檢測一種新葯能否有效降低血壓,所以我們將被試隨機分為兩組,實驗組服用葯品,控制組服用安慰劑,並且採用雙盲程序。每天我們都會在固定時間點測試被試的血壓水平,我們可以想像到,一個被試的血壓水平在一天中也會受到很多因素的影響, 比如說運動、焦慮、飲食等。更何況,血壓是通過測量佩戴一個加壓的血壓儀之後的血流的聲音來計算得到的,這個測量過程本身就存在誤差。血壓值也存在比較大的個體差異,所以我們最終得到的數據可能會比較混亂,控制組和實驗組的測量結果均存在較大的變異(方差較大);兩個組的結果分布也可能會存在重疊部分,實驗組的某些個體血壓可能會高於控制組。基於這兩組分散的且相互重疊的數據結果,我們想要推論控制組和實驗組有多大的差異,並且我們能否確定這個差異是真實存在的。 但問題的關鍵在於,控制組和實驗組的差異測量結果是帶有隨機性的,也就是說我們的數據是有噪音的。
所有的科學數據都帶有某種程度的噪音,而數據分析就是根據攜帶噪音的數據推斷潛在的趨勢。貝葉斯推論不能完全排除其他可能性,但是我們可以 通過數據逐漸調整不同可能性的可信度 。可信度的分布最初反映的是關於可能性的先驗知識,這個分布是一個比較模糊的分布;但是當獲得一批數據後,不同可能性的可信度重新分配,與數據一致的可能性的可信度增加,與數據不匹配的可能性的可信度降低。
貝葉斯統計推論是一個在各種可能性間不斷分配可信度的過程,這里所說的可能性實際上就是描述性模型的參數值。
在降壓葯的例子中,我們想要確定降壓葯是否能夠有效地降低血壓水平,就要對比實驗組和控制組的血壓差異。最終我們可能會選擇兩個組在操作前後血壓變化的平均值的差值作為這組數據的描述性模型:
上式中 代表A情況下所有被試血壓的平均值, 能夠有效反映降壓葯是否有效,如果 比較大(大於零),則說明降壓葯確實能夠有效降低血壓。
但是由於各種無關因素的影響,導致我們並沒有100%的把握說我們最後的測量結果就恰好等於實際的 ,所以我們就只能基於我們的測量結果進行推斷,給每一個可能的 分配一個可信度。
一般情況下,數據分析都是從數據的某個或某些描述性統計量出發的,這些描述性統計量(比如平均值)是能夠描述數據特徵的數學公式。這些公式是能夠計算出具體數值的,比如說平均值為3,這個值就叫做參數值。例如我們用一個正態分布來描述數據,則平均值和標准差兩個參數就能夠確定數據的特徵,平均值決定正態分布的位置,而標准差決定正態分布的寬度。
在選擇描述數據的數學模型的時候,首先要滿足兩個要求:
數據的數學模型並不等同於數據的產生過程。 比如說一個服從均值為10、標准差為5的正態分布的數據,只能說數據的表現形式為該正態分布,但是數據的一個物理產生過程卻不一定與正態分布有關。
實例:
假設我們現在想要探究人們身高和體重之間的關聯,基於日常經驗我們猜想人的身高越高,體重也越大,但是我們想知道體重隨著身高的具體數量變化關系是怎樣的,並且當身高增加時,我們有多大的把握確定體重的確按照這樣的數量關系增加?
第一步是確定研究相關的數據 。假設我們現在能夠收集到57個成年人的身高和體重數據,57個成人年從研究總體中隨機抽樣。身高的單位為英寸,體重為磅,均為連續變數。在這個例子中我們想要用身高來預測體重。
第二步是確定數據的描述性模型 ,這個模型與我們的研究目的相對應。在這個例子中,我們假設身高和體重成正比,記體重為 ,身高的預測值為 ,則有:
系數 代表身高增加1英寸時的體重增加量,基線 代表人的身高為0時的體重量,事實上由於人的身高下限高於0,所以不必嚴格限制 。
這個模型還並不完整,我們哈需要描述真實體重的隨機誤差,為了簡便,我們假設體重真實值 服從以預測值 為均值、以 為標准差的正態分布:
整個模型有三個參數:斜率 、截距 、噪音的標准差 。三個參數都是具有意義的,斜率參數代表高度增長一英寸對應的體重增長值,標准差參數反映體重圍繞著預測值的分散程度(變異程度)。
第三步是確定參數的先驗分布。 我們可以依據先前的研究結果來生成參數的先驗分布,或者我們可以依據一些得到較多人認可的實踐經驗來生成先驗分布。在這個例子中,我們採用比較模糊的、不蘊含信息量的先驗,斜率和截距的所有可能取值的先驗可信度相同,且可能取值的范圍均以0為中心,噪音參數的先驗分布為0到一個比較大的值的均勻分布。這種模糊的先驗分布暗示其對後驗分布並沒有任何有方向的影響。
第四步是得到後驗分布。 貝葉斯推論會針對眾多的參數值重新分配可信度,最終得到的後驗分布與實驗數據具有一致性。下圖展示了參數 的後驗分布,注意下圖展示的並不是實驗數據的分布,而是參數的分布。可以看出,可信度最高的斜率參數大約為4.1。下圖同樣展示了估計的參數值的不確定性,一種描述不確定性的方法是計算置信度最高的、包含分布95%的參數值的跨度,即下圖中的黑色橫線所表示的區間。這個區間稱為最大密度區間( highest density interval , HDI)。95%HDI裡面的參數值比之外的參數值具有更高的可信度,基於57對數據的95%HDI為 ,如果樣本量增加,斜率的估計將會更加准確,即HDI會更窄。
第五步是對模型進行檢驗, 即檢驗可信度最高的一些參數能夠足夠好地描述數據。這一項工作也叫後驗預測檢驗(posterior predictive check)。由於系統誤差的定義方法有很多,所以用來檢驗模型是否系統性的偏離數據的方法也有很多。
如果檢驗結果發現真實數據系統性的偏離模型的預測,那麼我們就應該考慮其他模型。在這個例子中,如果數據表現出非線性趨勢,那麼就應該選擇非線性模型來描述數據。
⑷ 貝葉斯的理論分析
(1)如果我們已知被分類類別概率分布的形式和已經標記類別的訓練樣本集合,那我們就需要從訓練樣本集合中來估計概率分布的參數。在現實世界中有時會出現這種情況。(如已知為正態分布了,根據標記好類別的樣本來估計參數,常見的是極大似然率和貝葉斯參數估計方法)
(2)如果我們不知道任何有關被分類類別概率分布的知識,已知已經標記類別的訓練樣本集合和判別式函數的形式,那我們就需要從訓練樣本集合中來估計判別式函數的參數。在現實世界中有時會出現這種情況。(如已知判別式函數為線性或二次的,那麼就要根據訓練樣本來估計判別式的參數,常見的是線性判別式和神經網路)
(3)如果我們既不知道任何有關被分類類別概率分布的知識,也不知道判別式函數的形式,只有已經標記類別的訓練樣本集合。那我們就需要從訓練樣本集合中來估計概率分布函數的參數。在現實世界中經常出現這種情況。(如首先要估計是什麼分布,再估計參數。常見的是非參數估計)
(4)只有沒有標記類別的訓練樣本集合。這是經常發生的情形。我們需要對訓練樣本集合進行聚類,從而估計它們概率分布的參數。(這是無監督的學習)
(5)如果我們已知被分類類別的概率分布,那麼,我們不需要訓練樣本集合,利用貝葉斯決策理論就可以設計最優分類器。但是,在現實世界中從沒有出現過這種情況。這里是貝葉斯決策理論常用的地方。 結論:對於任何給定問題,可以通過似然率測試決策規則得到最小的錯誤概率。此錯誤概率稱為貝葉斯錯誤率,且是所有分類器中可以得到的最好結果。最小化錯誤概率的決策規則就是最大化後驗概率判據。
⑸ 什麼是貝葉斯分析法金融方面的
貝葉斯分析方法(Bayesian Analysis)提供了一種計算假設概率的方法,這種方法是基於假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身而得出的。其方法為,將關於未知參數的先驗信息與樣本信息綜合,再根據貝葉斯公式,得出後驗信息,然後根據後驗信息去推斷未知參數的方法。