導航:首頁 > 研究方法 > 選擇統計分析方法時

選擇統計分析方法時

發布時間:2023-05-11 04:36:14

1. 如何根據變數類型選擇數據分析方法

把握兩個關鍵

1、抓住業務問題不放鬆。您費大力氣收集數據的動機是什麼?你想解決什麼問題?這是核心,是方向,這是業務把握層面。

2、全面理解數據。哪些變數,什麼類型?適合或者可以用什麼統計方法,這是數據分析技術層面。須把握三大關鍵:變數、數據分析方法、變數和方法的關聯。
認識數據分析方法

選擇合適的數據分析方法是非常重要的。選擇數據分析(統計分析)方法時,必須考慮許多因素,主要有:

1、數據分析的目的,

2、所用變數的特徵,

3、對變數所作的假定,

4、數據的收集方法。選擇統計分析方法時一般考慮前兩個因素就足夠了。

將變數與分析方法關聯、對應起來

2. 在選擇統計分析方法時,需要考慮的因素包括

在選擇統計分析方法時,需要考慮的因素包括:
看資料中的反應變數是單變數、雙變數、多變數。
看屬於這三種資擾轎料里的悉燃哪一種,計量資料、計數資料、等級資料。
看是單因素還是多因素。
看是單樣本、兩樣本、還是多樣本。
看是否是配對或者配伍設計。
看睜李虛是否滿足檢驗方法所需要的前提條件。

3. 差異性分析時選擇統計分析方法的思維是什麼

其實上面的問題,主要是想要研究定類數據和定類數據之間的差異關系,而不是相關性的分析,我們進行數據研究,就是想要挖掘數據間的信息和價值,看清數據間的關系。數據間的關系可以分為三類關系,差異關系、相關關系、其它關系。
其中差異關系和相關關系有時候會被搞混,它們是不同的,區別是:
差異研究的目的在於比較兩組數據或多組數據之間的差異。差異關系中的差異是指不同樣本組的某個指標的差異,例如男生和女生的智力差異,涉及到了變數的分組;相關分析是兩個變數之間的關系,和樣本分組無關,例如智力和學習成績是否相關。
今天這篇文章總結幾個常用的差異性分析的方法,分享怎麼簡單選擇出合適的分析方法。
一、
實際研究中有三種常見的差異性分析方法:T檢驗、方差分析、卡方檢驗。三個方法的區別如下表:

其實核心的區別在於:數據類型不一樣。如果是定類和定類,此時應該使用卡方分析;如果是定類和定量,此時應該使用方差或者T檢驗。
方差和T檢驗的區別在於,對於T檢驗的X來講,其只能為2個類別比如男和女。如果X為3個類別比如本科以下,本科,本科以上;此時只能使用方差分析。
二、
上面三種方法還可以細分:

01 T檢驗
T檢驗共分為三種方法,分別是獨立樣本T檢驗,配對樣本T檢驗和單樣本T檢驗。
獨立樣本T檢驗和單因素方差分析功能上基本一致,但是獨立樣本T檢驗只能比較兩組選項的差異,比如男性和女性。
相對來講,獨立樣本T檢驗在實驗比較時使用頻率更高,尤其是生物、醫學相關領域。針對問卷研究,如果比較的類別為兩組,獨立樣本T檢驗和單因素方差分析均可實現,研究者自行選擇使用即可。
獨立樣本T檢驗和配對樣本T檢驗功能上都是比較差異,而且均是比較兩個組別差異。但二者有著實質性區別,如果是比較不同性別,婚姻狀況(已婚和未婚)樣本對某變數的差異時,應該使用獨立樣本T檢驗。如果比較組別之間有配對關系時,只能使用配對樣本T檢驗,配對關系是指類似實驗組和對照組的這類關系。另外獨立樣本T檢驗兩組樣本個數可以不相等,而配對樣本T檢驗的兩組樣本量需要完全相等。
T檢驗的第三種分析方法為單樣本T檢驗。單樣本T檢驗是比較某個題項的平均得分是否與某數字(例子是與3進行對比)有著明顯的差異,如果呈現出顯著性差異,即說明明顯該題項平均打分明顯不等於3分。此分析方法在問卷研究中較少使用,平均得分是否明顯不為3分可以很直觀的看出,而不需要單獨進行檢驗分析。
02 方差分析
根據X的不同,方差分析又可以進行細分。X的個數為一個時,我們稱之為單因素方差;X為2個時則為雙因素方差;X為3個時則稱作三因素方差,依次下去。當X超過1個時,統稱為多因素方差。
03卡方檢驗
卡方檢驗用於分析定類數據與定類數據之間的關系情況。例如研究人員想知道兩組學生對於手機品牌的偏好差異情況,則應該使用卡方分析。卡方是通過分析不同類別數據的相對選擇頻數和佔比情況,進而進行差異判斷,單選題或多選題均可以使用卡方分析進行對比差異分析。
卡方擬合優度檢驗用於研究實際比例情況,是否與預期比例表現一致,它只針對於類別數據。比如總共收集100份數據,其中男性為48個,女性為52個;在收集數據之前預期男女比例應該是4:6 (40%為男性,60%為女性),分析預期的比例是否與實際的比例有著明顯的差異性,則可以使用卡方擬合優度檢驗。
三、
SPSSAU進行差異性分析的操作也很容易,具體怎麼用?這里以卡方檢驗的一個例子作為說明:
研究者希望研究化妝情況(全妝,淡妝,不化妝)與外出情況(出,不出)之間的差異性,調查了100個樣本。化妝情況和外出情況都是定類變數,這里使用卡方檢驗分析方法。
首先,整理數據為加權格式上傳到SPSSAU中:

接著,簡單三步完成分析操作:

得出分析結果表格:

同時提供智能文字分析:

可視化:

便於研究者深入分析還提供卡方檢驗統計量過程值表格和效應量指標表格:

自動生成卡方檢驗的多重比較結果:

4. 統計方法有哪些在什麼情況下用什麼方法

1.計量資料的統計方法

分析計量資料的統計分析方法可分為參數檢驗法和非參數檢驗法。

參數檢驗法主要為t檢驗和方差分析(ANOVN,即F檢驗)等,兩組間均數比較時常用t檢驗和u檢驗,兩組以上均數比較時常用方差分析;非參數檢驗法主要包括秩和檢驗等。t檢驗可分為單組設計資料的t檢驗、配對設計資料的t檢驗和成組設計資料的t檢驗;當兩個小樣本比較時要求兩總體分布為正態分布且方差齊性,若不能滿足以上要求,宜用t 檢驗或非參數方法(秩和檢驗)。方差分析可用於兩個以上樣本均數的比較,應用該方法時,要求各個樣本是相互獨立的隨機樣本,各樣本來自正態總體且各處理組總體方差齊性。根據設計類型不同,方差分析中又包含了多種不同的方法。對於定量資料,應根據所採用的設計類型、資料所具備的條件和分析目的,選用合適的統計分析方法,不應盲目套用t檢驗和單因素方差分析。

2.計數資料的統計方法

計數資料的統計方法主要針對四格表和R×C表利用檢驗進行分析。 四格表資料:組間比較用

檢驗或u檢驗,若不能滿足 檢驗:當計數資料呈配對設計時,獲得的四格表為配對四格表,其用到的檢驗公式和校正公式可參考書籍。 R×C表可以分為雙向無序,單向有序、雙向有序屬性相同和雙向有序屬性不同四類,不同類的行列表根據其研究目的,其選擇的方法也不一樣。

3.等級資料的統計方法

等級資料(有序變數)是對性質和類別的等級進行分組,再清點每組觀察單位個數所得到的資料。在臨床醫學資料中,常遇到一些定性指標,如臨床療效的評價、疾病的臨床分期、病症嚴重程度的臨床分級等,對這些指標常採用分成若干個等級然後分類計數的辦法來解決它的量化問題,這樣的資料統計上稱為等級資料。

5. 如何正確選擇統計方法(to be continued)

資料類型設計方案實驗分組檢驗條件

單變數資料差異比較的分析方法小結

11種形式的列聯表

雙變數(多變數)資料的關聯性分析方法小結

二、計量資料分析常見的統計問題

2.1 忽視t檢驗的前提條件

文題:重症急性胰腺炎並發肝功能不全的臨床研究。實驗數據見表5。原文作者用t檢驗分析此資料。請問:這樣做正確嗎?

辨析:

1.對表5數據進行方差齊性檢驗,可發現兩組患者的血清澱粉酶和肌酐指標不能滿足方差齊性的要求,故不能採用t檢驗進行分析。

正確的做法:採用變數變換使數據服從正態分布且方差齊,然後進行t檢驗,否則,採用非參數檢驗。

2.給出確切的統計量和P值。

2.2 誤用成組設計資料的t檢驗分析配對設計資料

辯析: 1.考慮到對數據進行變換是正確的。但是如果採用成組t檢驗,還需要兩總體方差齊性。 但本研究是配對設計,如果採用成組t檢驗,會降低檢驗效率。應該採用配對t檢驗進行分析。注意配對t檢驗的條件:要對每對數據的差值(d)進行正態性檢驗。如果不滿足,改用Wilcoxon符號秩檢驗。2.應給出確切的統計量和P值。

2.3 忽視方差分析的前提條件

文題:姜黃素抑制晶狀體上皮細胞增殖的信號轉導機制。

問題:作者取健康小牛眼晶狀體的混合消化液消化後,收集細胞,進行傳代培養,取第三代細胞進行實驗。

實驗分3組:空白對照組、模型組、姜黃素組,每組設6個樣本。

請問:採用方差分析正確嗎?

辨析:此實驗分3組,應為單因素三水平設計定量資料,應首先進行「獨立性」、「正態性」和「方差齊性」檢驗,如果滿足方差分析的3個前提條件則用方差分析;如果不滿足,則採用變數變換或秩和檢驗。如果P<0.05,則進行多組均數間的多重比較。

給出確切的統計量和P值。

2.4 誤用t檢驗分析等級資料

文題:止痛如神湯保留灌腸治療CNUP:雙盲隨機安慰劑對照試驗

表4 兩組臨床主要症狀和結腸鏡腸粘膜病變評分

※:與對照組(G2)比較,P>0.05,組間差異無統計學意義;△:與治療前比較,P<0.05,組內差異有統計學意義;▲:與對照組(G2)比較,P<0.05,組間差異有統計學意義。

辨析:

對於腹痛、腹瀉、膿血便、下墜感、充血、水腫、粘膜糜爛、粘膜潰瘍的單項評分組間比較,不宜用t檢驗。因為每項評分為1、2、3等不連續的賦值,數據資料不服從正態分布。應將數據整理成分組無序指標有序的等級資料,宜採用秩和檢驗。

分析「總評分」時,應對數據進行正態性和方差齊性檢驗後,決定選用t檢驗或秩和檢驗。

與對照組(G2)比較,P>0.05,組間差異無統計學意義,不必在備注中表示。

應寫出確切的統計量和P值

2.5 誤用t檢驗處理重復測量的兩因素試驗設計

文題:益氣活血法預防老年患者髖部術後下肢深靜脈血栓形成

統計學處理:採用SPSS10.0統計軟體,兩組間計量資料比較用t檢驗。

辨析:本研究設計類型為:兩因素(處理和時間)重復測量設計資料。

在資料滿足「獨立性」、「正態性」和「方差齊性」的前提條件下,及進行球對稱檢驗,應選用兩因素設計的重復測量的方差分析,選用t檢驗分析該資料是不妥的。

文題:復方苦參注射液對惡性腫瘤患者伽瑪刀放射治療後T淋巴細胞亞群的影響。

設計:作者選取60例惡性腫瘤患者,隨機分成2組。試驗組在伽瑪刀放射治療的同時給予復方苦參注射液20ml加入生理鹽水500ml,靜脈滴注,1次/d,10d為1個療程;對照組僅給予伽瑪刀放射治療。試驗結果見表7。

請問:統計分析方法選用t檢驗正確嗎?

辨析:

1.統計分析錯誤

      本試驗中,每位受試者在試驗前、後兩個不同的時間點上被重復測量了同一個指標的數值,試驗前與試驗後的數據並不相互獨立,這種試驗設計類型屬於具有重復測量的試驗設計,時間是一個與重復測量有關的試驗因素。原作者用t檢驗進行兩兩比較,則割裂了整體設計,不能准確地估計和控制誤差,因而不能得到可靠的結論。

正確的做法:應將表7的形式改成重復測量試驗設計的標准形式,採用與之對應的方差分析進行數據處理。

2.6 誤用配對設計資料的t檢驗處理單因素k(k>3)水平設計的資料

原文題目:「莪術對大鼠在體子宮肌電活動的影響及其機制研究」,文章為觀察莪術水煎劑對未孕大鼠子宮肌電活動的影響,40隻大鼠被隨機分成4組,對照組:按10ml/kg鼠重灌服生理鹽水,莪術組:按10ml/kg鼠重分別灌服25% 、50% 、100%莪術水煎液分成3組。觀察每個大鼠子宮肌電爆發波的峰面積、持續時間和個數。原作者應用配對設計定量資料的t檢驗進行統計處理,資料見表4。

表 莪術水煎劑對大鼠子宮肌電活動的影響(均數±標准差)

辨析:

沒有交待將大鼠按體重等重要的非實驗因素作為配伍條件進行隨機區組。

本資料有四個劑量,屬於單因素四水平設計的定量資料,不可以用成組設計或配對設計的t檢驗。

措施:如果滿足正態性和方差齊性兩個前提條件,應用單因素四水平設計定量資料的方差分析,在得出有統計學意義的結論後,還可進一步採用Dunnett t檢驗或LSD檢驗。

如果在專業上有必要對3項指標同時進行考察,還應選用該設計的定量資料的三元方差分析對資料進行處理。

三、計數資料分析方法的常見問題

3.1 計算相對數時分母太小

文題:疏肝利膽中葯防治膽固醇結石形成的實驗研究。實驗數據見表4。請問:在表達資料方面有何不妥之處?

辨析:

計算相對數時,分母過小,相對數很不穩定,易失真,不但不能正確反映事實真相,還往往會造成錯覺。

在表4中,各組樣本例數都小於20,樣本例數偏小,不宜計算率,直接給出例數就可以。

3.2 誤用χ2 檢驗分析結果變數為有序變數的資料

某醫生用A、B兩葯治療某病各240例,其療效分為四個等級:痊癒、顯效、好轉、無效,見表4。經R×C表χ2檢驗,χ2=53.33 ,P <0.01 ,認為兩組療效之間的差異有統計學意義。

辨析:

本資料屬於單項有序的R×C表,臨床療效有等級之分,對於等級資料可採用Ridit分析或秩和檢驗。而不應用R×C的χ2檢驗,R×C表χ2 檢驗只能檢驗兩組內部構成是否相同或頻數的分布是否相同,不能檢驗療效有無差別。不難看出,若對表4資料任意兩列數字進行對換,可以清楚地發現,χ2值仍為53.33,不會有改變。

3.3 誤用χ2檢驗回答相關性問題

表 不同年齡冠狀動脈粥樣硬化程度的分布

上述資料用χ2檢驗得:χ2 =163.01,P<0.005,結論為:可認為冠狀動脈硬化的程度與年齡有關,結合本資料可見冠狀動脈硬化等級有隨年齡增高而增加的趨勢。

問:處理此資料所用的統計分析方法以及所得出的結論有何不妥之處?

辨析1:

本資料為「雙向有序且屬性不同的二維列聯表資料」,處理這種資料有3個目的,因此,就對應著3套不同的統計分析方法。

分析不同年齡組患者冠狀動脈硬化等級之間有無差別:看作單向有序資料,選用秩和檢驗。

分析年齡與冠脈硬化等級間有無相關關系:選用等級相關。

分析兩者間是否存在線性變化趨勢則應用線性趨勢檢驗。

作者欲考察「兩個有序變數之間是否呈相關關系」,而χ2檢驗結果是P<0.05,說明冠狀動脈硬化患者在不同年齡組的人數分布是不同的。

事實上,若將表中任何兩行的頻數互換或將任何兩列的頻數互換,所得的χ2檢驗的統計量數值是不會變化的,說明χ2檢驗用於處理有序變數形成的二維列聯表資料是不合適的。

辨析2:

欲考察「兩個有序變數之間是否呈相關關系」,應選用分析定性資料的相關分析方法,如:Spearman秩相關分析,Kendall秩相關分析或典型相關分析。

本例採用Spearman秩相關分析,得:rs=0.53215,P<0.0001。

結論為:表中兩個有序變數之間呈正相關關系,即隨著年齡的增加冠狀動脈硬化等級也逐漸增大,兩者之間的相關關系具有統計學意義。

3.4 多值有序變數的高維列聯表資料

3.5 不滿足連續性χ2檢驗條件時未做校正

3.6 十一種形式的列聯表

3.7 誤用χ2檢驗取代Fisher精確檢驗

3.8 對R×C表直接分割進行兩兩比較

四、統計分析方法表述問題

(1)在統計學方法中註明「採用SPSS軟體進行統計學處理」。此表述正確嗎?

辨析:

      從該表述中只能得知原作者採用了什麼統計分析軟體處理數據,沒有交代清楚軟體的版本和序列號;更未體現出文中資料所對應的實驗設計類型和所採用的具體統計分析方法。

(2)在統計學方法中註明「計量資料採用方差分析」。請問:此表述正確嗎?

辨析:

從該表述中只能得知作者處理定量資料用了方差分析,至於這些統計分析方法的選用是否正確,則不得而知。

通常情況下,比較各平均值之間的差別是否具有統計學意義,可能會用到的t檢驗有3種,方差分析有10種之多,他們之間的本質區別體現在定量資料所對應的「實驗設計類型」上。

在表述統計學方法時,應將所用方法寫完整,即在統計分析方法前冠以實驗設計名稱,如配對設計定量資料的t檢驗、成組(或單因素兩水平)設計定量資料的t檢驗或兩因素析因設計定量資料的方差分析。

(3)定性資料一律採用χ2檢驗,對嗎?

辨析:

      事實上,定性資料通常可以編製成11種形式的列聯表。在進行統計分析時,應針對不同形式的列聯表、統計分析目的和資料實際具備的前提條件,選用相應的統計分析方法,不可隨意盲目選用,更不應將χ2檢驗視為處理定性資料的萬能工具。

(4)許多論文中,當統計數據經假設檢驗後,P值僅僅列出P >0.05或P<0.05 、P<0.01便稱結果無顯著差異,或結果非常顯著。

假設檢驗結果正確的表達方法是:

      應寫出描述性統計量,如樣本均數、率、相關系數、回歸系數、相對危險度、半數效量等,及其可信區間、檢驗統計量,如χ2、t、u、F 值等)、P值;然後根據P值大小作出統計學推斷,並作出相應的醫學專業結論。

舉例:

SPSS實現多組率的兩兩比較

pearson卡方

SPSS對原始數據是頻數表的,需進行加權處理(讓軟體橫著看數據)後卡方檢驗。

條件:(1)pearson卡方要求總例數大於40;(2)0 個單元格 (0.0%) 的期望計數小於 5。最小期望計數為 15.25。

資料收集整理來自網路文庫

6. 當研究者在分析數據階段進行統計學方法的選擇時,應該從哪幾個角度進行考慮

王見定教授挑戰「生命科學突破獎」

(三)申報「生命科學突破獎」的理由 作為統計學突破的又一最大受益者(它與經濟學並列),非生命科學莫屬。生命科學簡單地可以定義為:它是系統闡述與生命特徵有關的重大課題的科學。醫學是針對人進行生命特徵研究的科學,從這點意義上講,醫學是生命科學的一個最主要的組成部分。每一個學習生物或醫學的人都會發現統計學貫串了生物學與醫學的整個過程。
一般認為最早的記錄是1348年歐洲一半人死於黑死病(鼠疫);第一世界大戰時爆發的西班牙流行性感冒,幾個月內帶走2000萬人的生命,一年時間內,全球范圍內5000萬到一億人死於此疫(HINI禽流感)......到1859年達爾文完成昌野臘了《物種起源》,1865年孟德爾完成的《植物雜交試驗》,1889年高爾頓完成的《自然遺傳》,1916年皮爾遜完成的《數學對進化論的貢獻》,1925年費希爾完成的《研究人員用統計方法》,......這些都是早、中期運用統計學進行生命科學研究的典範。到了20世紀50年代,遺傳物質DNA螺旋結構的發現,整個試驗過程處處使用了現代統計學方法,開創了從分子水平研究生命活動的新紀元。進一步對基因的檢驗以及基因檢測結果能告訴你有多高耐滑的風險患上某種疾病,而且正確指導你合理用葯,均應用了現代統計學的基本方法。最後,我們注意到各種病毒、病菌的發現,生存原理、控制方法以及相應的各種葯物的研發、各種疾病相關指標的測定無一不是採用了各種統計學方法......
一句話,統計學是生命科學的生命線,離開了統計學,生命科學不得生存和發展。「社會統計學與數理統計學統一理論」作為統計學脊洞的最新理論,必將全面提升生命科學的水平,當然完全達到了挑戰「生命科學突破獎」的水準。

7. 統計分析方法的選擇

在基本的統計分析過程中,選擇合適的統計學方法,已經是成功了一半。那麼面對得到數據,我們該如何去選擇合適的統計方法呢?

最簡單而重要的方法,首先是對數據的屬性進行判斷,是計量資料(年齡多少歲,血壓多少帕斯卡,身高多少cm);還是計數資料(有多少個人,多少個國家,多少個民族)。

A 計量資料

對於計量資料,是採用非參數檢驗還是參數檢驗呢?如果數據不滿足正態性、方差齊性等,可以用非參數檢驗;當不在乎數據是否符合正態分布,也可以直接利用非參數檢驗,只是非參數檢驗的效能相比於參數檢驗低,犯I類錯誤的概率可能會高。

當檔宏計量資料為單獨一組時,採用單樣本t檢驗或單樣本秩和檢驗(Wilcoxon);

當兩組樣本為獨立樣本進行比較時,採用兩組獨立樣本t檢驗或兩組獨立樣本秩和檢驗(Mann-Whitney);

當兩組樣本為相關樣本時,採用配對樣本t檢驗或配對樣本秩和檢行高冊驗(Wilcoxon);

當計量資料超過2組(3組或3組以上),採用方差分析或多組獨立樣本秩和檢驗(Kruskal-Wallis)。

B 計數資料

計數資料主要以列聯表形式存在,所以對計數資料的分析,首要任務是對行、列變數屬性的判斷。

當行變數、列變數均為無序變數時,採用卡方檢驗;

當行變數或列變數為有序變數時,採用秩和檢驗;

當行變數、列變數均為有序變數時,可採用Spearman相關性分析量變數之間的秩相關;若是評判兩種方法或處理手段的一致性,可採用Kappa分析。

將上面的長篇廢話轉化成圖念猛表,思路是不是更清晰了呢?

轉自』 醫學統計園 』。

8. 醫學統計方法該如何選擇

醫學統計方法該如何選擇

基本的醫學統計方法有很多,如樣本均數與已知樣本均數比較、兩樣本均數比較、多個樣本均數的比較、兩個樣本率的比較、多個樣本率的比較、兩組或多組構成比的比較、非參數檢驗、多因素桐困轎資料的方差分析等。如果對於統計方法沒有一個整體的把握和認識,可能就會局肆出現誤用濫用統計方法的情況。下面是我為大家帶來的.關於醫學統計方法該如何選擇的知識,歡迎閱讀。

統計學的基本概念

1、小概率事件

如果事先假定發生概率最多為0.05的事件為小概率事件,那麼根據小概率事件原理,即“小概率事件在一次隨機試驗中幾乎不可能發生”。假設檢驗就是根據小概率事件原理對該假設進行推斷。

2、非參數統計

統計學上,對總體的分布不做假設或僅作非常一般性假設條件下的統計推斷方法稱為“非參數統計”。非參數統計方法很多,應用較多的包括

配對設計資料的Wilcoxon符號秩和檢驗、單樣本的Wilcoxon符號秩和檢驗、完全隨機設計兩獨立樣本的Wilcoxon符號秩和檢驗、完全隨機設計多個獨立樣本的Kruskal-Wallis秩和檢驗和隨機化區組設計資料的Friedman秩和檢驗。

3、實驗研究三要素

實驗研究三要素包括:處理因素、實驗對象、實驗效應。處理因素有單因素、多因素;實驗對象的設計方式有完全隨機、配對或隨機區組;實驗效應通過觀察指標來表達,而觀察指標又可分為計量、計數或等級資料。這三者的不同組合決定了選用不同的統計方法。

單變數統計方法選擇的一般原則

1.影響因素是單因素還是多因素

2.判斷擬分析的資料屬尺豎於哪種類型:計量、計數還是等級資料

3.資料是單一樣本、兩組樣本還是多組樣本

4.判斷資料所屬的設計方式,是完全隨機、配對還是隨機區組

5.判斷資料是否符合擬採用的統計分析方法的應用條件,必要時可考慮變數變換

多變數統計方法的選擇

在醫學研究中,特別是在臨床研究中,每個觀察對象記錄的觀察指標往往不止1個,即有多個反應變數。分析變數間的相互關系是探索疾病病因的重要途徑,多參數統計方法常用於這類研究問題的分析。

在醫學科研中,常用的多參數統計方法有3種:多元線性回歸、Logistic回歸分析和生存分析。

多元線性回歸要求應變數是連續型變數,但是在醫學研究中經常遇到的應變數為非連續的分類變數,如某種疾病的患病與否,器官移植之後是生存還是死亡。

研究分類應變數與諸多自變數間的相互關系,進行疾病的病因分析常選用Logistic回歸分析。

在醫學隨訪研究中,不僅要看是否出現了某種結局(如器官移植後是否死亡),還要考慮出現這些結局所經歷的時間長短。生存分析就是將觀察結局和出現這一結局所經歷的時間結合起來分析的一種統計分析方法。

;

9. 統計方法如何選擇

統計資料豐富且錯綜復雜,要想做到合理選用統計分析方法並非易事。對於同一個資料,若選擇不同的統計分析方法處理,有時其結論是截然不同的。
正確選擇統計方法的依據是:
①根據研究的目的,明確研究試驗設計類型、研究因素與水平數;
②確定數據特徵(是否正態分布等)和樣本量大小;
③ 正確判斷統計資料所對應的類型(計量、計數和等級資料),同時應根據統計方法的適宜條件進行正確的統計量值計算;
最後,還要根據專業知識與資料的實際情況,結合統計學原則,靈活地選擇統計分析方法。

10. 如何在臨床科研中選用正確的統計分析方法

統計學方法的正確抉擇
一。
統計方法抉擇的條件
在臨床科研工作中,正確地抉擇統計分析方法,應充分考慮科研工作者的分析目的、臨床科研設計方法、搜集到的數據資料類型、數據資料的分布特徵與所涉及的數理統計條件等。
其中任何一個問題沒考慮到或考慮有誤,都有可能導致統計分析方法的抉擇失誤。
此外,統計分析方法的抉擇應在科研的設計階段來完成,而不應該在臨床試驗結束或在數據的收集工作已完成之後。
對臨床科研數據進行統計分析和進行統計方法抉擇時,應考慮下列因素:
1.分析目的
對於臨床醫生及臨床流行病醫生來說,在進行統計分析前,一定要明確利用統計方法達到研究者的什麼目的。
一般來說,統計方法可分為描述與推斷兩類方法。
一是統計描述(descriptivestatistics),二是統計推斷(inferentialstatistics)。
統計描述,即利用統計指標、統計或統計表,對數據資料所進行的最基本的統計分析,使其能反映數據資料的基本特徵,有利於研究者能准確、全面地了解數據資料所包涵的信息,以便做出科學的推斷。
統計表,如頻數表、四格表、列聯表等;
統計,如直方、餅,散點等;
統計指標,如均數、標准差、率及構成比等。
統計推斷,即利用樣本所提供的信息對總體進行推斷(估計或比較),其中包括參數估計和假設檢驗,如可信區間、t檢驗、方差分析、c2檢驗等,如要分析甲葯治療與乙葯治療兩組的療效是否不相同、不同地區某病的患病率有無差異等。
還有些統計方法,既包含了統計描述也包含了統計推斷的內容,如不同變數間的關系分析。
相關分析,可用於研究某些因素間的相互聯系,以相關系數來衡量各因素間相關的密切程度和方向,如高血脂與冠心病、慢性宮頸炎與宮頸癌等的相關分析;
回歸分析,可用於研究某個因素與另一因素(變數)的依存關系,即以一個變數去推測另一變數,如利用回歸分析建立起來的回歸方程,可由兒童的年齡推算其體重。
2.資料類型
資料類型的劃分現多採用國際通用的分類方法,將其分為兩類:數值變數(numericalvariable)資料和分類變數(categoricalvariable)資料。
數值變數是指其值是可以定量或准確測量的變數,其表現為數值大小的不同;
而分類變數是指其值是無法定量或不能測量的變數,其表現沒有數值的大小而只有互不相容的類別或屬性。
分類變數又可分為無序分類變數和有序分類變數兩小類,無序分類變數表現為沒有大小之分的屬性或類別,如:性別是兩類無序分類變數,血型是四類無序分類變數;
有序分類變數表現為各屬性或類別間有程度之分,如:臨床上某種疾病的「輕、中、重」,治療結果的「無效、顯效、好轉、治癒」。
由此可見,數值變數資料、無序分類變數資料和有序分類變數資料又可叫做計量資料、計數資料和等級資料。
資料類型的劃分與統計方法的抉擇有關,在多數情況下不同的資料類型,選擇的統計方法不一樣。
如數值變數資料的比較可選用t檢驗、u檢驗等統計方法;
而率的比較多用c2檢驗。
值得注意的是,有些臨床科研工作者,常常人為地將數值變數的結果轉化為分類變數的臨床指標,然後參與統計分析,如患者的血紅蛋白含量,研究者常用正常、輕度貧血、中度貧血和重度貧血來表示,這樣雖然照顧了臨床工作的習慣,卻損失了資料所提供的信息量。
換言之,在多數情況下,數值變數資料提供的信息量最為充分,可進行統計分析的手段也較為豐富、經典和可靠,與之相比,分類變數在這些方面都不如數值變數資料。
因此,在臨床實驗中要盡可能選擇量化的指標反映實驗效應,若確實無法定量時,才選用分類數據,通常不宜將定量數據轉變成分類數據。
3.設計方法
在眾多的臨床科研設計方法中,每一種設計方法都有與之相適應的統計方法。
在統計方法的抉擇時,必須根據不同的臨床科研設計方法來選擇相應的統計分析方法。
如果統計方法的抉擇與設計方法不一致,統計分析得到的任何結論都是錯誤的。
在常用的科研設計方法中,有成組設計(完全隨機設計)的t檢驗、配對t檢驗、成組設計(完全隨機設計)的方差分析、配伍設計(隨機區組設計)的方差分析等,都是統計方法與科研設計方法有關的佐證。
因此,應注意區分成組設計(完全隨機設計)與配對和配伍設計(隨機區組設計),在成組設計中又要注意區別兩組與多組設計。
最常見的錯誤是將配對或配伍設計(隨機區組設計)的資料當做成組設計(完全隨機設計)來處理,如配對設計的資料使用成組t檢驗、配伍設計(隨機區組設計)使用成組資料的方差分析;
或將三組及三組以上的成組設計(完全隨機設計)資料的比較採用多個t檢驗、三個或多個率的比較採用四格表的卡方檢驗來進行比較,都是典型的錯誤。
如下表:
表1常見與設計方法有關的統計方法抉擇錯誤
設計方法錯誤的統計方法正確統計方法
兩個均數的比較(成組設計、完全隨機設計)成組設計的t檢驗、成組設計的秩和檢驗
多個均數的比較(成組設計、完全隨機設計)多個成組設計的t檢驗完全隨機設計的方差分析及q檢驗、完全隨機設計的秩和檢驗及兩兩比較
數值變數的配對設計成組設計的t檢驗配對t檢驗、配對秩和檢驗
隨機區組設計(配伍設計)多個成組設計的t檢驗、完全隨機設計的方差分析隨機區組設計的方差分析及q檢驗、隨機區組設計的秩和檢驗及兩兩比較
交叉設計成組設計的t檢驗、配對t檢驗、配對秩和檢驗交叉設計的方差分析、交叉設計的秩和檢驗
4.分布特徵及數理統計條件
數理統計和概率論是統計的理論基礎。
每種統計方法都要涉及數理統計公式,而這些數理統計公式都是在一定條件下推導和建立的。
也就是說,只有當某個或某些條件滿足時,某個數理統計公式才成立,反之若不滿足條件時,就不能使用某個數理統計公式。
在數理統計公式推導和建立的條件中,涉及最多的是數據的分布特徵。
數據的分布特徵是指數據的數理統計規律,許多數理統計公式都是在特定的分布下推導和建立的。
若實際資料服從(符合)某種分布,即可使用該分布所具有的數理統計規律來分析和處理該實際資料,反之則不能。
在臨床資料的統計分析過程中,涉及得最多的分布有正態分布、偏態分布、二項分布等。
許多統計方法對資料的分布有要求,如:均數和標准差、t和u檢驗;
方差分析都要求資料服從正態分布,而中位數和四分位數間距、秩和檢驗等,可用於不服從正態分布的資料。
所以,臨床資料的統計分析過程中,應考慮資料的分布特徵,最起碼的要求是熟悉正態分布與偏態分布。
例如:在臨床科研中,許多資料的描述不考慮資料的分布特徵,而多選擇均數與標准差。
如某婦科腫瘤化療前的血象值,資料如下表:
某婦科腫瘤化療前的血象值
指標名例數均數標准差偏度系數P值峰度系數P值
血紅蛋白(g/L)98111.9918.820.1800.4590.0250.958
血小板(×109/L)98173.5887.111.3530.0001.8430.000
白細胞(×109/L)986.79302.7671.2070.0001.2020.013
從上結果可見,若只看三項指標的均數和標准差,臨床醫生也許不會懷疑有什麼問題。
但是經正態性檢驗,病人的血紅蛋白服從正態分布,而血小板和白細胞兩項指標的偏度和峰度系數均不服從正態分布(P<0.05)。
因此,描述病人的血小板和白細胞平均水平正確的指標是中位數,而其變異程度應使用四分位數間距。
除了數據的分布特徵外,有些數理統計公式還有其它一些的條件,如t檢驗和方差分析的方差齊性、卡方檢驗的理論數(T)大小等。
總之,對於臨床科研工作者來說,為正確地進行統計方法的抉擇,首先要掌握或熟悉上述影響統計方法抉擇因素;
其次,還應熟悉和了解常用統計方法的應用條件。
二。
數據資料的描述
統計描述的內容包括了統計指標、統計和表,其目的是使數據資料的基本特徵更加清晰地表達。
本節只討論統計指標的正確選用,而統計表的正確使用請參閱其他書籍。
1.數值變數資料的描述
描述數值變數資料的基本特徵有兩類指標,一是描述集中趨勢的指標,用以反映一組數據的平均水平;
二是描述離散程度的指標,用以反映一組數據的變異大小。
各指標的名稱及適用范圍等見表2。
表2描述數值變數資料的常用指標
指標名稱用途適用的資料
均數(X——)
描述一組數據的平均水平,集中位置正態分布或近似正態分布
中位數(M)與均數相同偏態分布、分布未知、兩端無界
幾何均數(G)與均數相同對數正態分布,等比資料
標准差(S)
描述一組數據的變異大小,離散程度
正態分布或近似正態分布
四分位數間距
(QU-QL)與標准差相同偏態分布、分布未知、兩端無界
極差(R)與標准差相同觀察例數相近的數值變數
變異系數(CV)與標准差相同比較幾組資料間的變異大小
從表中可看出,均數與標准差聯合使用描述正態分布或近似正態分布資料的基本特徵;
中位數與四分位數間距聯合使用描述偏態分布或未知分布資料的基本特徵。
這些描述指標應用時,最常見的錯誤是不考慮其應用條件的隨意使用,如:用均數和標准差描述偏態分布、分布未知或兩端無界的資料,這是目前在臨床研究文獻中較為普遍和典型的錯誤。

閱讀全文

與選擇統計分析方法時相關的資料

熱點內容
水晶頭兩件安裝方法 瀏覽:239
鑒別好壞毛筆的方法 瀏覽:174
便秘肛裂的治療方法 瀏覽:142
外圈軸承取出方法視頻 瀏覽:968
精密度的表示方法通常用 瀏覽:760
社會調查研究方法第二章 瀏覽:91
海蟹黃咸鴨蛋黃的食用方法 瀏覽:601
小孩胯骨滑膜炎的最佳按摩方法 瀏覽:644
三噸電子磅的正確校正方法 瀏覽:902
蔓薇西梅使用方法 瀏覽:227
排煙風口與短管連接方法 瀏覽:705
姚桐斌研究的方法 瀏覽:739
引伸計安裝方法 瀏覽:618
吉娃娃手機使用方法 瀏覽:849
安卓系統通訊錄設置在哪裡設置方法 瀏覽:816
怎麼備孕最好方法 瀏覽:812
頸椎病治療方法用什麼中葯治 瀏覽:248
水鑽打空調眼兒使用方法視頻 瀏覽:820
口腔頜面腫瘤治療方法 瀏覽:960
沖成人奶粉的正確方法 瀏覽:194