Ⅰ 假設檢驗
(一)假設檢驗的基本思想
統計假設檢驗就是為了推斷某個問題,事先做出一種假設。然後用一個實測樣本數據計算出某一個適合的、已知其分布的統計量,並通過查表得出其相應的臨界值。再用實測樣本數據計算出來的關於統計量與其臨界值進行比較,從而得出肯定(接受)原假設或否定(拒絕)原假設的結論,達到統計推斷之目的,下面舉例說明。
[例8-4]在某測區的海西期第二階段中粗粒黑雲母花崗岩(
解:假定這批γ照射量率數據都服從正態分布。此例中,300個數據是很大的樣本,可以把它看成總體,故可用300個數據的平均數與標准差當作總體的均值與標准差,即μ=35γ,σ=8γ,80個觀測數據仍看成是樣本。由於樣本標准差s=8.2γ與總體標准差相差甚小。因此,只需檢驗樣本平均數
(1)假設H0
放射性勘探技術
其中:μ=35(γ),σ=8(γ),
(2)構造一個統計量u
先將樣本平均數標准化,即
放射性勘探技術
式(8-21)中的統計量u服從標准正態分布,即u~N(0,1)。
(3)確定臨界值
給定信度α=0.05,則由附錄一查出F(u)=1-α/2=0.975所對應的uα=1.96,故有
P{-1.96<u<1.96}=1-α=0.95
即
放射性勘探技術
或
放射性勘探技術
其中33.26γ與36.74γ是臨界值,而區間(33.26,36.74)是肯定域。區間以外為否定域。這就是說,樣本平均數
(4)計算實測樣本平均數
由於實測樣本平均數
(二)差異的顯著性與信度(顯著性水平)
上例的統計推斷性結論是在信度(顯著性水平)α=0.05的條件下做出的。如果將信度α定得小一些,那麼做出的統計性結論就有可能改變。比如α=0.01,由附錄一可查出F(u)=1-α/2=0.995所對應的u臨界值uα=2.58,故有
放射性勘探技術
或
放射性勘探技術
在這種情況下,臨界值為32.7γ與37.3γ,故區間(32.7,37.3)為肯定域。而實測樣本
顯而易見,信度α如何選擇,直接影響到差異是否顯著的結論。可見,任何差異是否顯著的推斷都是在一定的信度(顯著性水平)α下做出的。α定得越大,肯定域就小,但推斷的可靠性差(即置信概率小)。反之,α定得愈小,肯定域就愈大,推斷的可靠性強(置信概率大)。放射性物探工作中所要進行的統計假設檢驗,一般將信度α定為0.05或0.01較為恰當,此時置信概率分別為95%與99%。
(三)統計假設檢驗的分類
統計假設檢驗可分為兩大類,即參數性方法與非參數性方法,就是假定總體的分布型式已知(經常假定為正態分布),只要對參數進行檢驗即可。非參數性方法,則不管總體的分布如何,都能應用。
參數性方法又可分為大樣本與小樣本推斷兩種。一般當n>30~50時,可稱為大樣本,凡屬大樣本一律可按正態分布處理。
(四)分布型式的檢驗
放射性物探工作中經常要統計各種底數。進行底數統計之前,就要對觀測數據進行分布型式的檢驗,以確定觀測數據服從何種概率分布,並採用相應的底數與標准差的計算方法。當然根據頻率分布直方圖的形狀也大致可以看出其分布型式,但這是不嚴格的,需要進行檢驗。檢驗的方法很多,下面介紹幾種方法:
1.偏度、峰度檢驗法
這是一種檢驗概率分布是否屬於正態分布的參數性方法,要求有大樣本(n>100)。此種檢驗方法中要用的兩個統計量CS(偏度)與CE(峰度),其計算公式已在本項目學習任務一中給出。
當總體服從正態分布時,若樣本為大樣本(n>100),則統計量CS、CE近似服從正態分布,即CS~N(0,6/n),CE~N(0,24/n)。
現以本項目學習任務一某花崗岩體的228個γ測量數據為例,說明如何用偏度系數和峰度系數法檢驗分布型式的方法。
[例8-5]用偏度系數和峰度系數法檢驗表8-1中某地區γ普查數據是否服從正態分布,給定信度α=0.05。
(1)假設H0
該地區γ照射量率數據服從正態分布。又因樣本容量n=228,為大樣本,故
CS~N(0,6/228),CE~N(0,24/228)
將這兩個參數標准化,有
放射性勘探技術
經過標准化變換以後,公式(8-22)和公式(8-23)都服從標准正態分布N(0,1)。
(2)計算標准化後的概率區間
在α=0.05下,查得F(u)=1-α/2=0.975所對應的uα=1.96,故有
放射性勘探技術
即
P{-0.32<CS<0.32}=0.95
故CS的臨界值為-0.32和0.32,即區間(-0.32,0.32)為肯定域,其外為否定域。
同樣對於CE,有
放射性勘探技術
即
P{-0.64<CE<0.64}
故CE的臨界值為-0.64和0.64,即區間(-0.64,0.64)為肯定域,其外為否定域。
(3)計算樣本的CS和CE
根據實測數據可用列表法求取偏度系數CS和峰度系數CE,見表8-5。
表8-5 某地區放射性測量γ射線照射量率(γ)偏度系數和峰度系數計算表
續表
根據表8-5計算CS和CE,步驟如下:
放射性勘探技術
三階中心矩(M3)和四階中心矩M4計算如下:
放射性勘探技術
於是
放射性勘探技術
(4)比較
將由實測樣本計算的CS和CE與其臨界值進行比較,可見樣本的CS=0.0903和CE=-0.5921都落在肯定域內,故肯定原假設,認為該地區的γ射線照射量率符合正態分布。
2.正態概率格紙檢驗法
顯然上述檢驗方法比較麻煩,計算工作量較大,而且要求是大樣本。在本項目學習任務二曾指出,在正態概率格紙上做出的正態分布的累積概率曲線為一條直線。因此便可根據畫在正態概率格紙上的實測樣本數據的諸(xi,Fi)點是否基本在一條直線上,來檢驗該批數據是否符合正態分布。其中xi為實測樣本分組數據的組上限,Fi為其累積頻率。這種檢驗方法稱為正態概率格紙檢驗法。
下面仍然以某地區花崗岩228個γ照射量率數據為例,說明其檢驗方法。
[例8-6]使用表8-1的數據,用正態概率紙法檢驗某地區γ普查數據是否符合正態分布。
解:以表8-1中的累積頻率為縱坐標,將數據分組值(組上限)為橫坐標,在正態概率格紙上打點,即A(21.5,1.32)、B(25.5,7.46)、C(29.5,20.64)、D(33.5,41.23)、E(37.5,64.64)、F(41.5,82.64)、G(45.5,94.74)、H(49.5,98.25);然後用直尺畫一條直線,盡可能將各點聯結起來,如圖8-9所示,其做法與用累積頻率展直線法求正常值的做法相同。
由圖8-9可見,這些點基本落在一條直線上,因此該批數據服從正態分布,這與用偏度、峰度檢驗法得出的結論相同。由圖8-9還可見到,有些點與直線有些偏差,這是允許的,但是偏差不能太大。偏差太大,則不一定屬於正態分布。一般說來,中間的點(即靠近累積頻率為50%橫線附近的點)偏差不能太大,兩端的點偏差可以適當大一點。究竟偏離多遠可認為是允許的,需繪制一定信度α下的臨界曲線,見圖5-5所示,以此作為衡量的標准。臨界值曲線的畫法請參閱有關書籍。
3.χ2檢驗法
χ2檢驗不但可以檢驗正態分布,還可以檢驗泊松分布、二項分布、負二項分布、指數分布等的分布型式。
(1)理論原理
這是在總體x為未知時,根據它的n個觀測值x1,x2,…,xn來檢驗關於總體分布的假設
H0:總體x的分布函數為F(x)(8-24)
的一種方法。
注意,若總體分布為離散型,則假設式(8-24)相當於
H0:總體x的分布律為P{x=ti}=pi(i=1,2,…)(8-25)
若總體分布函數為連續型,則假設式(8-24)相當於
H0:總體x的概率密度為f(x)(8-26)
式(8-24)~式(8-26)是χ2檢驗的理論模型表達式。
在用下述χ2檢驗法檢驗假設H0時,要求在假設H0下F(x)的分布型式及其參數都是已知的。但實際上參數往往是未知的,這時,需要先用極大似然法估計參數,然後做檢驗。
χ2檢驗法的基本思想是:把隨機實驗結果的全體S分為k個互不相容事件A1,A2,…,Ak(A1∪A2∪…∪Ak=S,AiAj=ϕ,i≠j;i,j=1,2,…,k)。於是,在假設H0下,我們可以計算理論頻率pi=P(Ai)(i=1,2,…,k)。顯然,在n次試驗中,事件Ai出現的頻率
放射性勘探技術
作為檢驗理論(即假設H0)與實際符合的尺度。並證明了如下的定理:若n充分大(n≥50),則不論總體屬於什麼分布,統計量式(8-27)總是近似地服從自由度為k-r-1的χ2分布。其中,r是被估計參數的個數。
於是,若在假設H0下算得皮爾遜統計量的值,即式(8-27),有
放射性勘探技術
則在顯著性水平α下拒絕H0;若式(8-28)中不等號反向,就接受H0。
χ2檢驗的具體步驟是:
把實軸分為k個互不相容的區間[αi,αi+1](i=1,2,…,k),其中αi,αi+1可分別取-∞,+∞。區間的劃分方法視具體情況而定。
其次,計算概率
pi=F(αi+1)-F(αi)=P{αi<x≤αi+1}(8-29)
此處,F(x)由式(8-29)確定。然後算出pi與樣本容量n的乘積npi稱為理論頻數。
同時,計算樣本觀察值x1,x2,…,xn在區間(αi,αi+1]中的個數
然後,將
χ2檢驗法是在n無限增大時推導出來的,所以在使用時必須注意n要足夠大,以及npi不太小這兩個條件。根據經驗,要求樣本容量n不小於50,當n剛剛大於50附近時,npi最好在5以上,在n大於100時npi最好取10以上,否則應當適當的合並區間(或Ai),使npi滿足這個要求。特別是在邊部小概率事件下要進行適當地並組,這樣可以有效的壓低邊部「干擾」,突出數據中部的「有用信號」。
下面通過實例來說明檢驗的過程。
(2)應用實例
[例8-7]試用χ2檢驗的辦法檢驗某地區閃長岩釷含量是否服從對數正態分布(取α=0.05)。原始數據單位為10-6,取常用對數以後的統計結果見表8-6。
表8-6 某地區閃長岩釷含量對數值統計表
解:為方便起見,根據表8-6所整理的結果來做檢驗。因參數都是未知的,故應用極大似然估計法估計μ、
放射性勘探技術
注意:這里的
估計
放射性勘探技術
注意,公式中的n=110,為樣品容量;k為分組數,表示並組後的組數。這里對第1~3和13~15組進行了並組,故k=11。對於分組時兩頭的小組實行並組是為了有效地減小偶然誤差。
所以,我們要檢驗的假設為
H0:x~N(0.7509,0.24842)
為便於計算npi,應先做變換u=(x-0.7509)/0.2484。化x為標准正態變數u,與正態分布概率紙檢驗法一樣,查出各個u之下的累積頻率,算出區間頻率、頻數,這些都是理論值。如表8-7所示。
表8-7 某區閃長岩釷含量對數正態分布χ2檢驗表
標准正態分布表中查出的是累積頻率F(u);每一個區間頻率為該區間累積頻率與上一個區間累計頻率之差;n=110,為樣品容量,而非分組組數,故npi表示理論頻數;
由於並組後組數k=11,估計了兩個參數(
放射性勘探技術
故在水平α=0.05下接受H0,認為該地區岩石釷含量符合對數正態分布,並且釷含量對數
通過上例可見,用χ2檢驗法(或其他檢驗方法)得到的結果往往較概率紙精確。特別是,有的檢驗法(如χ2檢驗法)能控制犯第一類錯誤的概率α,這是概率紙所做不到的。但概率紙使用方便,無須太多的計算,因此,概率紙常用來初步估計總體的分布類型及參數的一次近似之用。然後用χ2檢驗法(或距離計演算法、偏度系數和峰度系數檢驗法等)進一步做精確的檢驗。
(五)平均數的對比(U檢驗和t檢驗)
由本項目學習任務二正態分布的介紹,可知正態分布有兩個重要參數,一個是均值μ,另一個是標准差σ。當μ與σ確定後,正態分布N(μ,σ)就完全確定了;且在一般情況下,標准差σ比較穩定。要檢驗兩個正態分布是否相同,或者說,兩個正態分布的樣本是否屬於同一總體,只要對均值μ做檢驗,這就是平均數對比的實質。放射性物探工作中要經常遇到某些元素的含量,放射性γ照射量率等的對比問題,儀器的「三性」檢查工作中也要碰到類似的問題。
設從兩個正態總體N(μ1,
1.大樣本平均數的對比——U檢驗
當兩個樣本為大樣本,即n1>30,n2>30時,由本任務可知,兩樣本的平均數
U檢驗的步驟如下:
(1)假設H0
μ1=μ2,於是
放射性勘探技術
將
放射性勘探技術
那麼新變數U服從標准正態分布,即U~N(0,1),U就是檢驗中要用的統計量,可查F(u)表(見附錄一),故稱為U檢驗。
(2)確定臨界值
若選定信度α=0.05,則從F(u)反查u值表中根據F(u)=1-
(3)比較
計算實測樣本的U值,與臨界值uα進行比較。若|U|>uα,則否定原假設;若|U|<uα,就肯定原假設。
為了計算實測樣本的U值,必須知道總體的標准差σ。若σ已知,則無論大、小樣本都可用U檢驗進行假設檢驗。若σ未知,則要用兩樣本標准差s1、s2的加權平均值來估計總體標准差σ,即用
放射性勘探技術
代替σ,於是
放射性勘探技術
式(8-31)就是計算的U值,下面舉例說明。
[例8-8]在某一斑狀黑雲母花崗岩地段進行放射性γ照射量率測量。測得169個數據(n1),平均照射量率
解:經過分布型式檢驗,兩樣本γ照射量率數據均服從正態分布,兩樣本標准差又近似相等,且都是大樣本。顯然可用U檢驗對兩地段的平均數進行對比。將數據代入公式(8-31),可算出實測樣本U值,即
放射性勘探技術
取信度α=0.05,查附錄一,得U的臨界值uα=1.96。而實測樣本U=9.034>uα=1.96,故否定原假設H0,認為斑狀黑雲母花崗岩地段與其相鄰地段不是同一總體,或者說,不是屬於同一岩性。後經地質調查證實岩性為細粒二雲母花崗岩,這兩種花崗岩的結構不同,成分不同,侵入時代也不相同。
2.小樣本平均數的對比——t檢驗
當兩個樣本中,只要有一個為小樣本時,即n1與n2中有一個小於30,用樣本方差s2去估計總體方差時,要用無偏估計量,即
放射性勘探技術
在這種情況下得不出新變數u服從標准正態分布的結論。因此也就不能用上述U檢驗的方法進行檢驗。用兩個樣本方差
放射性勘探技術
來代替σ,這時要構造一個新的統計量t。t不像兩個大樣本的情況下要服從標准正態分布,而服從自由度f=n1+n2-2的t分布,或稱學生(Student)分布。
當給定了信度α,如α=0.05,且自由度f=n1+n2-2為已知時,可在t分布臨界值tα表中(見附錄三)查出臨界值tα。其否定域為|t|≥tα。
[例8-9]在同一地點、相同條件下用兩台γ能譜儀進行測量。第一台儀器測量10次,測得鈾含量(10-6)x1分別為3.5、3.2、3.0、3.1、3.2、3.3、3.3、3.2、3.1、3.2,平均鈾含量
解:因為
1)假設H0,兩台儀器讀數的均值相等,即
μ1=μ2
2)計算實測樣本統計量t:
放射性勘探技術
3)比較:
若取信度α=0.05,查t分布表(見附錄三),其自由度f=n1+n2-2=20時,查得t的臨界值tα/2=2.08。因為|t|=2.285>tα/2=2.08,所以否定原假設H0,μ1≠μ2,認為兩台儀器讀數的平均值差異顯著,故兩台儀器的一致性不好。
(六)方差對比——F檢驗
在平均數對比中,檢驗兩個總體均值是否相同(無論大樣本或小樣本)之前,都應先假定被檢驗的兩個總體服從正態分布,且方差相等。如果不能肯定方差基本相等則需先進行方差檢驗。只有當方差無顯著性差異後,方可進行平均數的對比;否則,就不必進行平均數對比了,因為方差差異顯著,已可認為兩者不是同一總體了。
假設從兩個正態總體N(μ1,
放射性勘探技術
通過對比兩樣本方差
放射性勘探技術
統計量F服從第一自由度f1=n1-1、第二自由度f2=n2-1的F分布。當給定信度α後。且第一自由度f1與第二自由度f2為已知時,可從F分布臨界值表中(見附錄四)查出臨界值Fα。本來當信度為α時,F檢驗的否定域為左右兩邊各取面積為α/2的兩部分(圖8-10)。但為了製表省略起見,F分布臨界值表中,往往只給出F>l的右邊臨界值。因此,當給定了信度α,並已知第一自由度f1與第二自由度f2的情況下,查附錄四時實際得出的是Fα/2值,這樣在計算樣本方差比F值時,就要使得F永遠大於1。為此總是把兩方差
圖8-10 F分布概率密度曲線圖
[例8-10]用例8-9中兩台儀器在同一地點觀測的數據為准,用F檢驗的辦法檢驗這兩台能譜儀的方差有無顯著差異。已知α=0.10。
解:設
1)假設H0:
2)計算方差比:
第一台儀器10次測量和第二台儀器12次測量的均方差分別是s1=0.137×10-6和s2=0.162×10-6,直接代入公式(8-33)中,得
放射性勘探技術
3)確定臨界值Fα:
已知α=0.10,第一自由度f1=10-1=9,第二自由度f2=12-1=11,查附錄四,得Fα/2=F(0.05)=2.27。
4)比較:
由於兩個樣本的方差比F=1.398<Fα=2.27,落在肯定域內,故肯定原假設H0:
Ⅱ 假設檢驗的三種類型
假設檢驗分為三種類型:左邊檢驗、右邊檢驗、雙邊檢驗。
基本方法:
顯著性檢燃清驗有時,根據一定的理論或經驗,認為某一假設h0成立,例如,通常有理由認為特定的一群人的身高服從正態分布。當收集了一定數據後,可以評價實際數據與理論假設h0之間的偏離,如果偏離達到了「顯著」的程度就拒絕h0,這樣的檢驗方法稱為顯著性檢驗。
偏離達到顯著的程度通常是指定一個很小的正皮游前數α(如0.05,0.01),使當h0正確時,它被拒絕的概率不超過α,稱α為顯著性水平。這種假設檢驗問題的特點是不考慮備擇假設,考慮實驗數據與理論之間擬合的程度如何,故此時又稱為擬合優度檢驗。擬合優度檢驗是一類重要的顯著性檢驗。
Ⅲ 檢驗假設的方法
常用的假設檢驗的方法有以下四種: (1)Z檢驗。Z檢驗常用於總體正態分布、方差已知或獨立大樣本的平均數的顯著性和差異的顯著性檢驗,非正態分布的皮爾森積差相關系數和二列相關系數的顯著性檢驗以及兩個相關系數分別由兩組被試得到的相關系數差異性檢驗等情況。 (2)t檢驗。t檢驗常用於總體正態分布、總體方差未知或獨立小樣本的平均數的顯著性檢驗,平均數差異顯著性檢驗,相關系數由同一組被試取得的相關系數差異顯著性檢驗,非正態分布的皮爾森相關系數的顯著性檢驗等情況。
Ⅳ 假設檢驗的基本步驟是什麼
什麼是假設檢驗:假設檢驗(Hypothesis Testing)是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。具體作法是:根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統計量,這個統計量的選取要使得在假設H0成立時,其分布為已知;由實測的樣本,計算出統計量的值,並根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。常用的假設檢驗方法有u—檢驗法、t檢驗法、χ2檢驗法(卡方檢驗)、F—檢驗法,秩和檢驗等。
假設檢驗的基本步驟如下:
1、提出檢驗假設又稱無效假設,符號是H0;備擇假設的符號是H1。
H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;
H1:樣本與總體或樣本與樣本間存在本質差異;
預先設定的檢驗水準為0.05;當檢驗假設為真,但被錯誤地拒絕的概率,記作α,通常取α=0.05或α=0.01。
2、選定統計方法,由樣本觀察值按相應的公式計算出統計量的大小,如X2值、t值等。根據資料的類型和特點,可分別選用Z檢驗,T檢驗,秩和檢驗和卡方檢驗等。
3、根據統計量的大小及其分布確定檢驗假設成立的可能性P的大小並判斷結果。若P>α,結論為按α所取水準不顯著,不拒絕H0,即認為差別很可能是由於抽樣誤差造成的,在統計上不成立;如果P≤α,結論為按所取α水準顯著,拒絕H0,接受H1,則認為此差別不大可能僅由抽樣誤差所致,很可能是實驗因素不同造成的,故在統計上成立。P值的大小一般可通過查閱相應的界值表得到。
教學中的做法:
1.根據實際情況提出原假設和備擇假設;
2.根據假設的特徵,選擇合適的檢驗統計量;
3.根據樣本觀察值,計算檢驗統計量的觀察值(obs);
4.選擇許容顯著性水平,並根據相應的統計量的統計分布表查出相應的臨界值(ctrit);
5.根據檢驗統計量觀察值的位置決定原假設取捨。
Ⅳ 總體平均數的假設檢驗方法通常有
總體平均數的假設檢驗方法通常有:描述統計和推斷統計。
前者能夠應用在所有數據集合,包括樣本和總體,而後者則是從樣本出發推斷總體性質。用樣本的均值來估計總體的均值,必須進行樣本均值的T檢驗。
均值的假設檢驗攜啟包括三種類型:單樣本T檢驗,這是用樣本的均值與某個常數進行比較,該常數是假設的總體均值;獨立樣本T檢驗,這是用兩個樣本的均值之差的大遲虧小來檢驗對應的兩個總體的均值是否相等的方法;配對樣本T檢驗,這是用配對樣本的兩次測量結果差異的大小來檢驗兩個總體的差異是否顯著的方法。
原假設就是假設變數之間沒有差異或不相關,備擇假設是與原假設相反的假設,在統計學中,我們無法對備擇假設進行直接檢驗,只能對原假設進行直接檢驗。根據是否強調檢驗方向性,假設檢驗可分為單尾假設檢驗和雙尾假設檢驗。單尾檢驗強關心研究對象高於還是低於某一水平,而雙尾檢驗值關心兩個總體參數之間是否有差異。
Ⅵ 簡述假設檢驗的步驟
簡述假設沒漏檢驗的步驟:
(1)建立假設(。
2)確定顯著性水平。
(3)計算統計量。
(4)確定概率值p(。
5)做出推斷結論,
假設檢驗(hypothesistesting),又稱統計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。
顯著性檢驗是假設檢驗中最常用的跡核一種方法,也是一種最基本的統計推斷形式,其基本原理是先對總體的特徵做出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受做出推斷。
常姿察掘用的假設檢驗方法有Z檢驗、t檢驗、卡方檢驗、F檢驗等
Ⅶ 總結!14個常用的統計假設檢驗的方法
本文分享利用SPSSAU進行14個常用的統計假設檢驗的方法,分為以下五個部分:
一、正態性檢驗
正態性特質是很多分析方法的基礎前提,如果不滿足正態性特質,則應該選擇其它的分析方法,因此在做某些分析時,需要先進行正態性檢驗。如果樣本量大於50,則應該使用Kolmogorov-Smirnov檢驗結果,反之則使用Shapro-Wilk檢驗的結果。
常見的分析方法正態性特質要求歸納如下表(包括分析方法,以及需要滿足正態性的分析項,如果不滿足時應該使用的分析方法)。
如果p 值大於0.05,則說明具有正態性特質,反之則說明數據沒有正態性特質。
如果是問卷研究,數據很難滿足正態性特質,而實際研究中卻也很少使用不滿足正態性分析時的分析方法。
SPSSAU認為有以下三點原因:
① 參數檢驗的檢驗效能高於非參數檢驗,比如方差分析為參數檢驗,所以很多時候即使數據不滿足正態性要求也使用方差分析
② 如果使用非參數檢驗,呈現出差異性,則需要對比具體對比差異性(但是非參數檢驗的差異性不能直接用平均值描述,這與實際分析需求相悖,因此有時即使數據不正態,也不使用非參數檢驗,或者Spearman相關系數等)
③ 理想狀態下數據會呈現出正態性特質,但這僅會出現在理想狀態,現實中的數據很難出現正態性特質(尤其是比如問卷數據)【可直接使用「直方圖」直觀展示數據正態性情況】。
二、方差齊檢驗
如果要進行方差分析,需要滿足方差齊性的前提條件,需要進行方差齊檢驗,其用於分析不同定類數據組別對定量數據時的波動情況是否一致。例如研究人員想知道三組學生的智商 波動情況是否一致(通常情況希望波動一致,即方差齊)。
判斷p 值是否呈現出顯著性(p <0.05),如果呈現出顯著性,則說明不同組別數據波動不一致,即說明方差不齊;反之p 值沒有呈現出顯著性(p >0.05)則說明方差齊。
提示: 方差不齊時可使用『非參數檢驗』,或者還可使用welch 方差,或者Brown-Forsythe方差。
三、相關性檢驗
(1)相關分析
相關分析是一種簡單易行的測量定量數據之間的關系情況的分析方法。可以分析包括變數間的關系情況以及關系強弱程度等。相關系數常見有三類,分別是:
1.Pearson相關系數
2.Spearman等級相關系數
3.Kendall相關系數
三種相關系數最常使用的是Pearson相關系數;當數據不滿足正態性時,則使用Spearman相關系數,Kendall相關系數用於判斷數據一致性,比如裁判打分。下圖是詳細使用場景:
如果呈現出顯著性(結果右上角有*號,此時說明有關系;反之則沒有關系)。
有了關系之後,關系的緊密程度直接看相關系數大小即可。(一般0.7以上說明關系非常緊密;0.4~0.7之間說明關系緊密;0.2~0.4說明關系一般。)
如果說相關系數值小於0.2,但是依然呈現出顯著性(右上角有*號,1個*號叫0.05水平顯著,2個*號叫0.01水平顯著;顯著是指相關系數的出現具有統計學意義普遍存在的,而不是偶然出現),說明關系較弱,但依然是有相關關系。
(2)卡方檢驗
卡方檢驗主要用於研究定類與定類數據之間的差異關系。卡方檢驗要求X、Y項均為定類數據,即數字大小代表分類。並且卡方檢驗需要使用卡方值和對應p 值去判斷X與Y之間是否有差異。通常情況下,共有三種卡方值,分別是Pearson卡方,yates校正卡方,Fisher卡方;優先使用Pearson卡方,其次為yates校正卡方,最後為Fisher卡方。
具體應該使用Pearson卡方,yates校正卡方,也或者Fisher卡方;需要結合X和Y的類別個數,校本量,以及期望頻數格子分布情況等,選擇最終應該使用的卡方值。SPSSAU已經智能化處理這一選擇過程。
第一:分析X分別與Y之間是否呈現出顯著性(p值小於0.05或0.01);
第二:如果呈現出顯著性;具體對比選擇百分比(括弧內值),描述具體差異所在;
第三:對分析進行總結。
卡方檢驗,SPSSAU提供兩個按鈕,二者的區別是,後者輸出更多的統計量過程值以及深入指標表格,滿足需要更多分析指標的研究人員,如下各圖。
進行卡方檢驗,上傳數據時需要特別注意數據格式,有兩種格式:常規格式和加權格式。
① 常規格式數據 ,如下圖。則通用方法中的【交叉(卡方)】和實驗/醫學研究中的【卡方檢驗】都可以使用。
② 加權數據: 但在某些情況下,我們得到的不是原始數據,而是經過整理的匯總統計數據。比如下面這樣格式的數據:
類似這樣的格式,不能直接使用的,需要整理成加權數據格式,只能使用實驗/醫學研究中的【卡方檢驗】
這時候點擊實驗/醫學研究面板中的【卡方檢驗】-拖拽三個【分析變數】分別到對應分析框-【開始分析】即可。
四、參數檢驗
(1) 單樣本t檢驗
單樣本T檢驗用於比較樣本數據與一個特定數值之間是否存在差異情況。
首先判斷p 值是否呈現出顯著性,如果呈現出顯著性,則分析項明顯不等於設定數字,具體差異可通過平均值進行對比判斷。
(2)獨立樣本T檢驗(T檢驗)
獨立樣本T檢驗用於分析定類數據(X)與定量數據(Y)之間的差異情況。
獨立樣本T檢驗除了需要服從正態分布、還要求兩組樣本的總體方差相等。當數據不服從正態分布或方差不齊時,則考慮使用非參數檢驗。
首先判斷p 值是否呈現出顯著性,如果呈現出顯著性,則說明兩組數據具有顯著性差異,具體差異可通過平均值進行對比判斷。
(3)配對樣本T檢驗
用於分析配對定量數據之間的差異對比關系。與獨立樣本t檢驗相比,配對樣本T檢驗要求樣本是配對的。兩個樣本的樣本量要相同;樣本先後的順序是一一對應的。
常見的配對研究包括幾種情況:
判斷p 值是否呈現出顯著性,如果呈現出顯著性,,則說明配對數據具有顯著性差異,具體差異可通過平均值進行對比判斷。
(4)方差分析
方差分析(單因素方差分析),用於分析定類數據與定量數據之間的關系情況.例如研究人員想知道三組學生的智商平均值是否有顯著差異。
進行方差分析需要數據滿足以下兩個基本前提:
理論上講,數據必須滿足以上兩個條件才能進行方差分析,如不滿足,則使用非參數檢驗。但現實研究中,數據多數情況下無法到達理想狀態。正態性檢驗要求嚴格通常無法滿足,實際研究中,若峰度絕對值小於10並且偏度絕對值小於3,或正態圖基本上呈現出 鍾形 ,則說明數據雖然不是絕對正態,但基本可接受為正態分布,此時也可使用方差分析進行分析。
第一:分析X與Y之間是否呈現出顯著性(p值小於0.05或0.01)。
第二:如果呈現出顯著性;通過具體對比平均值大小,描述具體差異所在。
第三:如果沒有呈現出顯著性;說明X不同組別下,Y沒有差異。
(5)重復測量方差
在某些實驗研究中,常常需要考慮時間因素對實驗的影響,當需要對同一觀察單位在不同時間重復進行多次測量,每個樣本的測量數據之間存在相關性,因而不能簡單的使用方差分析進行研究,而需要使用重復測量方差分析。
第一、首先進行球形度檢驗,p <0.05說明沒有通過球形度檢驗,p >0.05說明通過球形度檢驗;
第二、如果沒有通過球形度檢驗,並且球形度W值大於0.75,則使用HF校正結果;
第三、如果沒有通過球形度檢驗,並且球形度W值小於0.75,則使用GG校正結果;
第四、如果通過球形度檢驗,組內效應分析結果時使用「滿足球形度檢驗」結果即可;
將數據上傳至SPSSAU分析,選擇【實驗/醫學研究】--【重復測量方差】。
五、非參數檢驗
凡是在分析過程中不涉及總體分布參數的檢驗方法,都可以稱為「非參數檢驗」。因而,與參數檢驗一樣,非參數檢驗包括許多方法。以下是最常見的非參數檢驗及其對應的參數檢驗對應方法:
非參數秩和檢驗研究X不同組別時Y的差異性,針對方差不齊,或者非正態性數據(Y)進行差異性對比(X為兩組時使用mannWhitney檢驗,X超過兩組時使用Kruskal-Wallis檢驗,系統默認進行判斷);
(1)單樣本Wilcoxon檢驗
單樣本Wilcoxon檢驗是單樣本t檢驗的代替方法。該檢驗用於檢驗數據是否與某數字有明顯的區別,如對比調查對象整體態度與滿意程度之間的差異。首先需要判斷數據是否呈現出正態性分析特質,如果數據呈現出正態性特質,此時應該使用單樣本t檢驗進行檢驗;如果數據沒有呈現出正態性特質,此時應該使用單樣本Wilcoxon檢驗
首先判斷p 值是否呈現出顯著性,如果呈現出顯著性,則分析項明顯不等於設定數字,具體差異可通過中位數進行對比判斷。
(2)Mann-Whitney檢驗
Mann-Whitney檢驗是獨立樣本t檢驗的非參數版本。該檢驗主要處理包含等級數據的兩個獨立樣本,SPSSAU中稱為非參數檢驗。
第一:分析X與Y之間是否呈現出顯著性(p值小於0.05或0.01)。
第二:如果呈現出顯著性;通過具體對比中位數大小,描述具體差異情況。
(3)Kruskal-Wallis檢驗
Kruskal-Wallis檢驗是單因素方差分析的非參數替代方法。Kruskal-Wallis檢驗用於比較兩個以上獨立組的等級數據。
在SPSSAU中,與Mann-Whitney檢驗統稱為「非參數檢驗」,分析時SPSSAU會根據自變數組別數自動選擇使用Kruskal-Wallis檢驗或Mann-Whitney檢驗。
(4)配對Wilcoxon檢驗
Wilcoxon符號秩檢驗是配對樣本t檢驗的非參數對應方法。該檢驗將兩個相關樣本與等級數據進行比較。
第一:分析每組配對項之間是否呈現出顯著性差異(p值小於0.05或0.01)。
第二:如果呈現出顯著性;具體對比中位數(或差值)大小,描述具體差異所在。