統計檢驗亦稱「假設檢驗」。根據抽樣結果,在一定可靠性程度上對一個或多個總體分布的原假設作出拒絕還是不拒絕(予以接受)結論的程序。決定常取決於樣本統計量的數值與所假設的總體參數是否有顯著差異。這時稱差異顯著性檢驗。檢驗的推理邏輯為具有概率性質的反證法。
選擇
顯著性水平和否定域
有了與問題相關的抽樣分布,我們便可以把所有可能的結果分成兩類:一類是不大可能的結果;另一類人們預料這些結果很可能發生。既然如此,如果我們在一次實際抽樣中得到的結果恰好屬於第一類,我們就有理由對概率分布的前提假設產生懷疑。
在統計檢驗中,這些不大可能的結果稱為否定域。如果這類結果真的發生了,我們將否定假設;反之就不否定假設。概率分布的具體形式是由假設決定的,假設肯定不止一個。在統計檢驗中,通常把被檢驗的那個假設稱為零假設(或稱原假設,用符號H0表示),並用它和其他備擇假設(用符號H1表示)相對比。
值得注意的是,假設只能被檢驗,從來不能加以證明。統計檢驗可以幫助我們否定一個假設,卻不能幫助我們肯定一個假設。為了使檢驗更嚴格、更科學,還需要更多的東西。首先,我們必須確定冒犯第一類和第二類錯誤的風險的程度;其次,要確定否定域是否要包含抽樣分布的兩端。
第一類錯誤是,零假設H0實際上是正確的,卻被否定了。第二類錯誤則是,H0實際上是錯的,卻沒有被否定。第二類錯誤是,零假設H0實際上是錯誤的,卻沒有被否定。遺憾的是,不管我們如何選擇否定域,都不可能完全避免第一類錯誤和第二類錯誤,也不可能同時把犯兩類錯誤的危險壓縮到最小。
對任何一個給定的檢驗而言,第一類錯誤的危險越小,第二類錯誤的概率就越大;反之亦然。一般來講,不可能具體估計出第二類錯誤的概率值。第一類錯誤則不然,犯第一類錯誤的概率是否定域內各種結果的概率之和。
由於犯第一類錯誤的危險和犯第二類錯誤的危險呈相背趨向,所以統計檢驗時,我們必須事先在冒多大第一類錯誤的風險和多大第二類錯誤的風險之間作出權衡。被我們事先選定的可以犯第一類錯誤的概率,叫做檢驗的顯著性水平(用α表示),它決定了否定域的大小。
如果抽樣分布是連續的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和顯著性水平的要求一致起來(後面的正態檢驗就如此)。如果抽樣分布是非連續的,就要用累計概率的方法找出一組構成否定域的結果。
即在已知概率分布表上,從兩端可能性最小的概率開始向中心累計,直至概率之和略小於選定的顯著性水平為止。在許多場合,我們能預測偏差的方向,或只對一個方向的偏差感興趣。每當方向能被預測的時候,在同樣顯著性水平的條件下,單側檢驗比雙側檢驗更合適。
因為否定域被集中到抽樣分布更合適的一側,可以得到一個比較大的尾端。這樣做,可以在犯第一類錯誤的危險不變的情況下,減少了犯第二類錯誤的危險。
(1)如何選擇統計分析的檢驗方法擴展閱讀
選擇統計檢驗程序的方法時需考慮以下條件:
1、看總體分布是否已知。如果已知,看是不是正態分布。如果已知樣本分布為常態分布就可以選擇參數檢驗法,如果總體分布未知就用非參數檢驗法。
2、在參數檢驗中,如果總體分布為正態,總體方差已知,兩樣本獨立或相關都可以採用Z檢驗;如果總體方差未知,根據樣本方差,採取不同的t檢驗。如果總體分布非正態,總體方差已知,根據樣本獨立或相關採取Z』檢驗;如果總體方差未知,根據獨立和相關採取不同的Z『檢驗。
3、根據題目考慮用單側還是雙側檢驗。
4、在非參數檢驗中,按照兩個樣本相關和不相關、精度與容量等,可以採用符號檢驗、秩和檢驗等方法。
⑵ 統計方法如何選擇
統計資料豐富且錯綜復雜,要想做到合理選用統計分析方法並非易事。對於同一個資料,若選擇不同的統計分析方法處理,有時其結論是截然不同的。
正確選擇統計方法的依據是:
①根據研究的目的,明確研究試驗設計類型、研究因素與水平數;
②確定數據特徵(是否正態分布等)和樣本量大小;
③ 正確判斷統計資料所對應的類型(計量、計數和等級資料),同時應根據統計方法的適宜條件進行正確的統計量值計算;
最後,還要根據專業知識與資料的實際情況,結合統計學原則,靈活地選擇統計分析方法。
⑶ 統計學檢驗方法有哪些
統計學 各種應用條件、校正條件
應用檢驗方法必須符合其適用條件,不同設計的數據應選用不同檢驗方法。 一、第五章 參數估計 P74 總體均數的置信區間 1.正態近似法:
總體標准差σ已知,或σ未知但n>50時 2. t分布法
總體標准差σ未知,且n≤50時
二、第六章 計量資料兩組均數t檢驗P93、P99 (一)t 檢驗的應用條件
適用於計量資料(單樣本、兩配對樣本、兩獨立樣本),並要求: 1. 樣本來自正態分布的總體。W檢驗(n≤50時),H0:樣本來自正態總體,P>0.05時尚不能認為兩組資料的分布非正態;
2. 兩獨立樣本均數比較時,兩總體方差齊性。Levene檢驗,H0:方差相等。P>0.05時尚不能認為兩組資料方差不齊。
(二)方差不齊或非正態時,兩計量資料均數的比較方法 方法1. 僅方差不齊時,可採用近似t檢驗,即 t′檢驗。 方法2. 變數變換:對數變換、平方根變換、倒數變換等
方法3. 非參數檢驗:Wilcoxon符號秩檢驗(兩相關樣本P142);Wilcoxon秩和檢驗、Mann-Whiney-U檢驗(兩獨立樣本 P145)等
三、第七章 計量資料多組均數的比較-方差分析 (一)方差分析流程 P109
1、多個樣本均數比較。若P<0.05,均數不全相等,則進行第2步;
2、作多重比較:LSD-t檢驗、Dunnett-t檢驗(多個實驗組與一個對照組比較)、SNK-q檢驗(多個均數間全面比較)
(二)方差分析的應用條件 P114
1、各樣本相互獨立,服從正態分布;W檢驗 2、各樣本方差齊性。Levene檢驗
四、分類資料(計數資料)的比較-
⑷ 什麼是統計檢驗怎麼選擇統計檢驗方法
統計檢驗的真核應該就是選取有代表性的樣本,然後去節省人力、物力的前提下,去推斷總體的一些性質、是否有差異的等。其餘別的什麼分布的,樓上回答的不錯。其實重難點基礎備考統計這部分寫的很好。注意是正態分布,而不是Z分布。
⑸ SPSS軟體進行數據分析時,如何選擇檢驗方法
方法/步驟
1、首先,打開或者是新建一組數據,這里是打開一組案例分析中的數據進行分析。
⑹ 統計分析方法 有哪些統計分析方法
1、描述統計。描述性統計是指運用製表和分類,圖形以及計筠概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
(1)缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法。
(2)正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
2、假設檢驗
(1)參數檢驗。參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。U驗 使用條件:當樣本含量n較大時,樣本值符合正態分布。T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布。單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
(2)非參數檢驗。非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。雖然是連續數據,但總體分布形態未知或者非正態;體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
3、信度分析
檢査測量的可信度,例如調查問卷的真實性。分類:
(1)外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
(2)內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
4、列聯表分析。用於分析離散變數或定型變數之間是否存在相關。
對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。
5、相關分析
研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
(1)單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;
(2)復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;
(3)偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。
6、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
(1)單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系
(2)多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系
(3)多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系
(4)協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
⑺ 如何正確選擇統計方法(to be continued)
資料類型設計方案實驗分組檢驗條件
單變數資料差異比較的分析方法小結
11種形式的列聯表
雙變數(多變數)資料的關聯性分析方法小結
二、計量資料分析常見的統計問題
2.1 忽視t檢驗的前提條件
文題:重症急性胰腺炎並發肝功能不全的臨床研究。實驗數據見表5。原文作者用t檢驗分析此資料。請問:這樣做正確嗎?
辨析:
1.對表5數據進行方差齊性檢驗,可發現兩組患者的血清澱粉酶和肌酐指標不能滿足方差齊性的要求,故不能採用t檢驗進行分析。
正確的做法:採用變數變換使數據服從正態分布且方差齊,然後進行t檢驗,否則,採用非參數檢驗。
2.給出確切的統計量和P值。
2.2 誤用成組設計資料的t檢驗分析配對設計資料
辯析: 1.考慮到對數據進行變換是正確的。但是如果採用成組t檢驗,還需要兩總體方差齊性。 但本研究是配對設計,如果採用成組t檢驗,會降低檢驗效率。應該採用配對t檢驗進行分析。注意配對t檢驗的條件:要對每對數據的差值(d)進行正態性檢驗。如果不滿足,改用Wilcoxon符號秩檢驗。2.應給出確切的統計量和P值。
2.3 忽視方差分析的前提條件
文題:姜黃素抑制晶狀體上皮細胞增殖的信號轉導機制。
問題:作者取健康小牛眼晶狀體的混合消化液消化後,收集細胞,進行傳代培養,取第三代細胞進行實驗。
實驗分3組:空白對照組、模型組、姜黃素組,每組設6個樣本。
請問:採用方差分析正確嗎?
辨析:此實驗分3組,應為單因素三水平設計定量資料,應首先進行「獨立性」、「正態性」和「方差齊性」檢驗,如果滿足方差分析的3個前提條件則用方差分析;如果不滿足,則採用變數變換或秩和檢驗。如果P<0.05,則進行多組均數間的多重比較。
給出確切的統計量和P值。
2.4 誤用t檢驗分析等級資料
文題:止痛如神湯保留灌腸治療CNUP:雙盲隨機安慰劑對照試驗
表4 兩組臨床主要症狀和結腸鏡腸粘膜病變評分
※:與對照組(G2)比較,P>0.05,組間差異無統計學意義;△:與治療前比較,P<0.05,組內差異有統計學意義;▲:與對照組(G2)比較,P<0.05,組間差異有統計學意義。
辨析:
對於腹痛、腹瀉、膿血便、下墜感、充血、水腫、粘膜糜爛、粘膜潰瘍的單項評分組間比較,不宜用t檢驗。因為每項評分為1、2、3等不連續的賦值,數據資料不服從正態分布。應將數據整理成分組無序指標有序的等級資料,宜採用秩和檢驗。
分析「總評分」時,應對數據進行正態性和方差齊性檢驗後,決定選用t檢驗或秩和檢驗。
與對照組(G2)比較,P>0.05,組間差異無統計學意義,不必在備注中表示。
應寫出確切的統計量和P值
2.5 誤用t檢驗處理重復測量的兩因素試驗設計
文題:益氣活血法預防老年患者髖部術後下肢深靜脈血栓形成
統計學處理:採用SPSS10.0統計軟體,兩組間計量資料比較用t檢驗。
辨析:本研究設計類型為:兩因素(處理和時間)重復測量設計資料。
在資料滿足「獨立性」、「正態性」和「方差齊性」的前提條件下,及進行球對稱檢驗,應選用兩因素設計的重復測量的方差分析,選用t檢驗分析該資料是不妥的。
文題:復方苦參注射液對惡性腫瘤患者伽瑪刀放射治療後T淋巴細胞亞群的影響。
設計:作者選取60例惡性腫瘤患者,隨機分成2組。試驗組在伽瑪刀放射治療的同時給予復方苦參注射液20ml加入生理鹽水500ml,靜脈滴注,1次/d,10d為1個療程;對照組僅給予伽瑪刀放射治療。試驗結果見表7。
請問:統計分析方法選用t檢驗正確嗎?
辨析:
1.統計分析錯誤
本試驗中,每位受試者在試驗前、後兩個不同的時間點上被重復測量了同一個指標的數值,試驗前與試驗後的數據並不相互獨立,這種試驗設計類型屬於具有重復測量的試驗設計,時間是一個與重復測量有關的試驗因素。原作者用t檢驗進行兩兩比較,則割裂了整體設計,不能准確地估計和控制誤差,因而不能得到可靠的結論。
正確的做法:應將表7的形式改成重復測量試驗設計的標准形式,採用與之對應的方差分析進行數據處理。
2.6 誤用配對設計資料的t檢驗處理單因素k(k>3)水平設計的資料
原文題目:「莪術對大鼠在體子宮肌電活動的影響及其機制研究」,文章為觀察莪術水煎劑對未孕大鼠子宮肌電活動的影響,40隻大鼠被隨機分成4組,對照組:按10ml/kg鼠重灌服生理鹽水,莪術組:按10ml/kg鼠重分別灌服25% 、50% 、100%莪術水煎液分成3組。觀察每個大鼠子宮肌電爆發波的峰面積、持續時間和個數。原作者應用配對設計定量資料的t檢驗進行統計處理,資料見表4。
表 莪術水煎劑對大鼠子宮肌電活動的影響(均數±標准差)
辨析:
沒有交待將大鼠按體重等重要的非實驗因素作為配伍條件進行隨機區組。
本資料有四個劑量,屬於單因素四水平設計的定量資料,不可以用成組設計或配對設計的t檢驗。
措施:如果滿足正態性和方差齊性兩個前提條件,應用單因素四水平設計定量資料的方差分析,在得出有統計學意義的結論後,還可進一步採用Dunnett t檢驗或LSD檢驗。
如果在專業上有必要對3項指標同時進行考察,還應選用該設計的定量資料的三元方差分析對資料進行處理。
三、計數資料分析方法的常見問題
3.1 計算相對數時分母太小
文題:疏肝利膽中葯防治膽固醇結石形成的實驗研究。實驗數據見表4。請問:在表達資料方面有何不妥之處?
辨析:
計算相對數時,分母過小,相對數很不穩定,易失真,不但不能正確反映事實真相,還往往會造成錯覺。
在表4中,各組樣本例數都小於20,樣本例數偏小,不宜計算率,直接給出例數就可以。
3.2 誤用χ2 檢驗分析結果變數為有序變數的資料
某醫生用A、B兩葯治療某病各240例,其療效分為四個等級:痊癒、顯效、好轉、無效,見表4。經R×C表χ2檢驗,χ2=53.33 ,P <0.01 ,認為兩組療效之間的差異有統計學意義。
辨析:
本資料屬於單項有序的R×C表,臨床療效有等級之分,對於等級資料可採用Ridit分析或秩和檢驗。而不應用R×C的χ2檢驗,R×C表χ2 檢驗只能檢驗兩組內部構成是否相同或頻數的分布是否相同,不能檢驗療效有無差別。不難看出,若對表4資料任意兩列數字進行對換,可以清楚地發現,χ2值仍為53.33,不會有改變。
3.3 誤用χ2檢驗回答相關性問題
表 不同年齡冠狀動脈粥樣硬化程度的分布
上述資料用χ2檢驗得:χ2 =163.01,P<0.005,結論為:可認為冠狀動脈硬化的程度與年齡有關,結合本資料可見冠狀動脈硬化等級有隨年齡增高而增加的趨勢。
問:處理此資料所用的統計分析方法以及所得出的結論有何不妥之處?
辨析1:
本資料為「雙向有序且屬性不同的二維列聯表資料」,處理這種資料有3個目的,因此,就對應著3套不同的統計分析方法。
分析不同年齡組患者冠狀動脈硬化等級之間有無差別:看作單向有序資料,選用秩和檢驗。
分析年齡與冠脈硬化等級間有無相關關系:選用等級相關。
分析兩者間是否存在線性變化趨勢則應用線性趨勢檢驗。
作者欲考察「兩個有序變數之間是否呈相關關系」,而χ2檢驗結果是P<0.05,說明冠狀動脈硬化患者在不同年齡組的人數分布是不同的。
事實上,若將表中任何兩行的頻數互換或將任何兩列的頻數互換,所得的χ2檢驗的統計量數值是不會變化的,說明χ2檢驗用於處理有序變數形成的二維列聯表資料是不合適的。
辨析2:
欲考察「兩個有序變數之間是否呈相關關系」,應選用分析定性資料的相關分析方法,如:Spearman秩相關分析,Kendall秩相關分析或典型相關分析。
本例採用Spearman秩相關分析,得:rs=0.53215,P<0.0001。
結論為:表中兩個有序變數之間呈正相關關系,即隨著年齡的增加冠狀動脈硬化等級也逐漸增大,兩者之間的相關關系具有統計學意義。
3.4 多值有序變數的高維列聯表資料
3.5 不滿足連續性χ2檢驗條件時未做校正
3.6 十一種形式的列聯表
3.7 誤用χ2檢驗取代Fisher精確檢驗
3.8 對R×C表直接分割進行兩兩比較
四、統計分析方法表述問題
(1)在統計學方法中註明「採用SPSS軟體進行統計學處理」。此表述正確嗎?
辨析:
從該表述中只能得知原作者採用了什麼統計分析軟體處理數據,沒有交代清楚軟體的版本和序列號;更未體現出文中資料所對應的實驗設計類型和所採用的具體統計分析方法。
(2)在統計學方法中註明「計量資料採用方差分析」。請問:此表述正確嗎?
辨析:
從該表述中只能得知作者處理定量資料用了方差分析,至於這些統計分析方法的選用是否正確,則不得而知。
通常情況下,比較各平均值之間的差別是否具有統計學意義,可能會用到的t檢驗有3種,方差分析有10種之多,他們之間的本質區別體現在定量資料所對應的「實驗設計類型」上。
在表述統計學方法時,應將所用方法寫完整,即在統計分析方法前冠以實驗設計名稱,如配對設計定量資料的t檢驗、成組(或單因素兩水平)設計定量資料的t檢驗或兩因素析因設計定量資料的方差分析。
(3)定性資料一律採用χ2檢驗,對嗎?
辨析:
事實上,定性資料通常可以編製成11種形式的列聯表。在進行統計分析時,應針對不同形式的列聯表、統計分析目的和資料實際具備的前提條件,選用相應的統計分析方法,不可隨意盲目選用,更不應將χ2檢驗視為處理定性資料的萬能工具。
(4)許多論文中,當統計數據經假設檢驗後,P值僅僅列出P >0.05或P<0.05 、P<0.01便稱結果無顯著差異,或結果非常顯著。
假設檢驗結果正確的表達方法是:
應寫出描述性統計量,如樣本均數、率、相關系數、回歸系數、相對危險度、半數效量等,及其可信區間、檢驗統計量,如χ2、t、u、F 值等)、P值;然後根據P值大小作出統計學推斷,並作出相應的醫學專業結論。
舉例:
SPSS實現多組率的兩兩比較
pearson卡方
SPSS對原始數據是頻數表的,需進行加權處理(讓軟體橫著看數據)後卡方檢驗。
條件:(1)pearson卡方要求總例數大於40;(2)0 個單元格 (0.0%) 的期望計數小於 5。最小期望計數為 15.25。
資料收集整理來自網路文庫