『壹』 統計學在醫學領域如何應用
統計學在醫學領域的應用非常廣泛,它為醫學研究提供了科學的方法和技術手段。以下是一些主要的應用領域:
臨床試驗設計:統計學在臨床試驗的設計和實施中起著關鍵作用。通過合理的試驗設計,可以確保研究結果的可靠性和有效性。例如,隨機分組、雙盲對照等方法可以減少偏倚,提高研究質量。
數據分析:統計學方法可以幫助醫學研究者分析收集到的數據,從而得出有關疾病發生、發展和預防的科學結論。例如,描述性統計分析可以揭示疾病的流行病學特徵,推斷性統計分析可以評估干預措施的療效和安全性。
診斷試驗評價:統計學在診斷試驗的評價中發揮著重要作用。通過計算敏感性、特異性、陽性預測值和陰性預測值等指標,可以評估診斷試驗的准確性和可靠性。
預後模型建立:統計學方法可以幫助醫學研究者建立疾病預後模型,預測患者的疾病進展和生存情況。例如,Cox比例風險模型可以分析多種因素對患者預後的影響。
醫學經濟學評價:統計學在醫學經濟學評價中的應用包括成本效益分析、成本效果分析和成本效用分析等。這些方法可以幫助決策者評估不同醫療干預措施的經濟性和可行性。
流行病學研究:統計學在流行病學研究中的作用主要體現在病例對照研究、隊列研究和橫斷面研究等方面。這些研究方法可以幫助我們了解疾病的分布規律、危險因素和預防策略。
生物信息學:統計學在生物信息學中的應用包括基因表達譜分析、蛋白質組學分析和代謝組學分析等。這些方法可以幫助我們深入了解疾病的分子機制,為疾病的診斷和治療提供新的思路。
醫學教育與培訓:統計學在醫學教育和培訓中的應用主要體現在醫學考試的命題、評分和質量控制等方面。通過合理的統計分析,可以確保醫學考試的公平性和有效性。
總之,統計學在醫學領域的應用具有廣泛的前景和重要的意義。隨著醫學研究的不斷深入和統計學方法的不斷發展,統計學在醫學領域的作用將越來越重要。
『貳』 臨床研究中統計方法的選擇
目錄
例子1:假設檢驗及臨床優效性檢驗
一研究者宣布找到一種治療某病的新葯,試驗結果如下,問:該新葯是否值得推廣?
例子2:分析中混雜因素的控制
英國某年全人口統計資料如下,矛盾:移民組的發病率在各個年齡組均高於英格蘭和威爾士組,為什麼它的合計發病率反而低?
例子3:假設檢驗及判別診斷
為鑒別胃癌、胃炎、非胃病患者,各測定了50名患者的銅蘭蛋白等指標,其中銅蘭蛋白的觀察結果如下,問:三種人的銅蘭蛋白有無不同?能否根據測定的銅蘭蛋白數據對患者進行初步診斷?
例子4:影響因素篩選-回歸分析
研究心肌梗死患者預後的的影響因素,以是否發生心性死亡作為觀察結果指標,對116名心梗患者的22個可能影響預後的因素進行觀察和記錄。
結局指標:心性死亡
預後因素:年齡、性別、高血壓病、心梗位置、心梗分級、傳導阻滯、溶栓治療,……等
問:哪些預後因素與發生心性死亡有關系?關系的強度如何?
【瑞麟】研究目的(4)+設計類型(4)+數據類型(3)+數據特徵(4)→統計方法
——↑瑞麟總結——
醫學統計分析方法選擇的核心三要素(3-5-3)
"方法看變數、設計看類型、目的定乾坤"
「大怕踢、二怕鏢、老三怕剪刀」
老大指數值型變數、老二指等級變數、老三指無序分類變數
大怕踢:T(腳踢)、F(旋風腿)
數值型變數一般選用t檢驗(兩組變數)、方差分析(3組及以上資料)
二怕鏢:非參數(飛鏢)
等級變數一般選用非參數檢驗
老三怕剪刀:卡方(剪刀)
無序分類變數一般選用卡方檢驗
統計指標、統計圖或統計表
如,均數、中位數、標准差、百分比、頻數分布等
參數估計、假設檢驗
估計總體參數、95%可信區間
對幾組資料進行差異性檢驗
假設檢驗方法,如,t檢驗、卡方檢驗、方差分析、秩和檢驗等
研究某因素與另一因素的依存關系
探討變數之間的關系及影響大小
具體說,探討自變數(影響因素)對應變數(結果變數)的影響大小
多變數分析方法
如,線性相關、線性回歸、Logistic回歸、Cox回歸、生存分析等。
最常見,最易實施的實驗設計方案
將研究對象隨機分配到幾個組,然後做實驗
將具有相似特徵的研究對象配成對子,然後再將每個對子的對象隨機分配到兩個組進行實驗
常見形式:同源配對(如樣品一分為二);異源配對(按性別、體重、年齡進行配對);自身前後配對(試驗前後的對比)
同時研究多個實驗因素對結果的影響
例如,研究葯物劑量(3mg、6mg)及給葯方式(口服、肌注)對結果的影響,每種組合均需要做試驗(3mg+口服,3mg+肌注,6mg+口服,6mg+肌注)
同一對象在不同時間點上進行某個指標的觀測,以分析該指標在時間上的變化。
【瑞麟疑問】如只進行兩個時間點上的測量,是否與自身前後配對的設計相同?
每一個觀察對象都有一個數值,且大小差異有意義。
例如,血紅蛋白(g/L)、住院天數、產前檢查次數、住院費用等。
數值變數資料的描述
論文中最常用的組合
以比代率,即誤將構成比(proportion)當作率(rate)來描述某病發生的強度和頻率。
把各種不同的率相混淆,如把患病率與發病率、死亡率與病死率等概念混同。
指類別或屬性間無順序、程度之分。
例如,性別(男、女)為二分類、血型(A、B、AB、O)為多分類。
指類別間存在著次序,或程度上的差異。
例如,治療效果(無效、好轉、顯效、治癒)、實驗室檢驗(-、+、++、+++)
分類變數資料的描述:通常需要描述各個類別的頻數及頻率(百分比)
任何統計方法都有自己的適用條件,只有當某個或某些條件滿足時,統計計算公式才成立。
適用條件可根據 數據特徵 來判斷
數值變數資料的描述:通過繪制直方圖可以直觀了解數據的分布
研究中,右偏態分布更常見,如住院時間、住院費用、病程等;左偏態分布較少見,如考生成績有時呈左偏態分布。
R語言中如何進行頻數分布直方圖
得到的圖表如下
方差是否齊同(相等)
粗略判斷:兩組標准差之比在2.5倍以上,就得警惕方差不齊
假設檢驗是反證法原理的統計應用
假設兩個樣本均數可能來源於同一總體,然後計算出在此假設下的某個統計量的大小,當這個統計量在其分布中的概率較小時(如p≤0.05)我們就拒絕其假設,而接受其對立假設,認為兩樣本分別來自不同的總體。
1)當p≤α時,做出「拒絕其無差別的假設,可認為各總體間有差別」的結論時就有可能犯錯誤,這類錯誤稱為第一類錯誤(type I error)。其犯錯誤的概率用α表示,若α取0.05,此時犯I型錯誤的概率≤0.05,若假設檢驗的p值比0.05越小,犯第一類錯誤的概率就越小。
2)當p>α時,做出「不拒絕其無差別的假設,還不能認為各總體間有差別」的結論時就有可能犯第二類錯誤(type II error)。其犯錯誤的概念用β表示,通常β為未知數,但假設檢驗p值越大,犯第二類錯誤的概率就越小。
計量資料 的假設檢驗:t檢驗、F檢驗(方差分析)、Z檢驗、秩和檢驗(Wilcoxon秩和檢驗、H檢驗、Friedman檢驗)等。
計數資料 的假設檢驗:卡方檢驗、Z檢驗(瑞麟疑問:z檢驗即u檢驗?)
等級資料 的假設檢驗:秩和檢驗(Wilcoxon秩和檢驗、H檢驗、Friedman檢驗)
單個自變數資料
兩個或以上自變數資料
兩組比較:t檢驗、u檢驗、兩組秩和檢驗、四格表和較正四格表的卡方檢驗等
多組比較:方差分析、多組秩和檢驗、行×列卡方檢驗等。
差異分析/數據資料的比較,是同一指標在不同處理間的比較。
臨床研究中,經常需要分析某些因素與疾病之間的關系,探討疾病的危險因素。
注意,相關關系並不等於因果關系。
前瞻性研究:相對危險度(RR)、歸因危險度(AR)
回顧性研究:比值比(OR)
參數檢驗:積矩相關系數(Pearson's sγ)
非參數檢驗:Spearman等級相關系數
1)確定金標准
診斷性試驗的金標准(gold standard)是指當前臨床醫師公認的診斷疾病最可靠的方法,也稱為標准診斷。應用金標准可以正確區分「有病」和「無病」。
擬評價的診斷性試驗對疾病的診斷,必須有金標准為依據,所謂金標准包括活檢、手術發現、細菌培養、屍檢、特殊檢查和影像診斷,以及長期隨訪的結果。
2)選擇研究對象
診斷性試驗的研究對象,應當包括兩組:一組是用金標准確診「有病」的病例組,另一組是用金標准證實為「無病」的患者,稱為對照組。所謂「無病」的患者,是指沒有金標准診斷的目標疾病,而不是完全無病的正常人。
病例組應包括各型病例:如典型和不典型的,早、中與晚期病例,輕、中與重型的,有和無並發症者等,以便使診斷性試驗的結果更具有臨床實用價值。
對照組可選用金標准證實沒有目標疾病的其他病例,特別是與該病容易混淆的病例,以期明確其鑒別診斷價值。正常人一般不宜納入對照組。
3)盲法比較診斷性試驗與金標準的結果
評價診斷性試驗時,採用盲法具有十分重要的意義,即要求判斷試驗結果的人,不能預先知道該病例用金標准劃分為「有病」還是「無病」,以免發生疑診偏倚。
新的診斷性試驗,對疾病的診斷結果應當與金標准診斷的結果進行同步對比,並且列出格表,以便進一步評估,其方法如下:
①用金標准診斷為「有病」的病例數為a+c;
②上述「有病」的病例經診斷性試驗檢測,結果陽性者為a,陰性者為c;
③金標准診斷「無病」的倒數為b+d,其中經診斷性試驗檢測陽性者為b,陰性者為d;
④列出四格表,將a,b,c,d的倒數分別填入下列四格表。
敏感度(sensitivity, SN)是正確診斷的真陽性病例在中風組中所佔的百分率,計算公式為為:SN=a/(a+c)×100%
特異度(specificity, SP)是正確診斷的真陰性部分所佔百分率,計算公式為:SP=d/(b+d)×100%
准確性(accuracy,AC)反映了診斷試驗結果與金標准試驗結果的符合或一致程度,計算公式為:AC = (a+d)/N
陽性預測值(positive predictive value,PPV)是診斷試驗為陽性結果中金標准證實患中風者所佔的百分率,計算公式為: PPV = a/(a+b)×100%
陰性預測值(negative predictive value,NPV)是診斷試驗為陰性結果中金標准證實未患中風者所佔的百分率,計算公式為:NPV = d/(c+d)×100% .
陽性似然比(positive likelihood ratio, LR+)為患中風組真陽性率和未患中風組假陽性率的比值,計算公式為:LR+ =SN/(1-SP) ,表明診斷性試驗為陽性時患病於不患病的比值,比值越大則患病的概率越大.
陰性似然比(negative likelihood ratio, LR-)為患中風組假陰性率與未患中風真陰性率的比值,計算公式為:LR- =(1-SN)/SP,表明診斷試驗為陰性時,患病與不患病時機會的比值.
1)ROC曲線
ROC曲線(receiver operator characteeristic curve)又稱受試者工作特徵曲線,在診斷性試驗中,用於正常值臨界點的選擇,對臨床實驗室工作尤為重要.
診斷資料可以按資料的等級或性質歸納成2X2表(四格表)或行列表。一般地說,如果診斷資料本身為二值變數,即診斷的結果為陽性和陰性,則歸納成四格表最合理。如果診斷資料為等級或連續變數,歸納成四格表就會造成信息的浪費,所以,最好將資料歸納成行列表,這樣可以最大限度地利用信息。
如果診斷實驗的資料為連續變數,可以將資料按一定的等級分級,歸納成行列表進行分析。
像這樣的行列表,我們可以將其分割成表3形式的四格表,分別計算各指標,計算的結果見表3。
由表3可見,靈敏度和假陽性率隨界值的降低而生高,但特異度則隨界值的降低而降低。根據這樣的關系,我們可以用假陽性率為橫坐標,靈敏度為縱坐標做ROC曲線,見下圖。
曲線左上角靈敏度是1.0(100%),假陽性率是0,即所有的病人全部被確診,所有無病者都不會誤診。距左上角距離越近的曲線實驗效果越好;
在ROC曲線上,靠坐上角距離最近的界點作為界值最好。(Q:為什麼?)
在左上角處(靈敏度+特異度)/2的值最大,可以根據此及實際工作的需要來確定具體診斷實驗的界值。
用ROC曲線可以比較不同診斷實驗的優劣(Q:解釋理由)。
2)似然比的臨床應用
似然比(likelihood ratio)是診斷試驗綜合評價的理想指標,它綜合了敏感度與特異度的臨床意義,而且可依據試驗結果的陽性或陰性,計算患病的概率,便於在診斷試驗檢測後,更確切地對患者作出診斷.
真陽性率越高,則陽性似然比越大.
參考文獻:
1. 《臨床研究中統計方法的選擇》 ,(微信公眾號)臨床科研與meta分析,2015-12-18
2.武松 《SPSS中級統計實戰教程》之《醫學統計方法選擇秘籍(5秒判讀法)》 (丁香園公開課),2018-3-6
3.雞小販. 臨床科研中如何選擇統計學方法(PPT) . 網路文庫.2014-3-13