『壹』 統計學的假設檢驗方法
統計學假設檢驗主要有T檢驗、Z檢驗兩種方法,具體內容是:
1、T檢驗,亦稱student t檢驗(Student's t test),主要用於樣本含量較小(例如n<30),總體標准差σ未知的正態分布資料。
2、z檢驗(U檢驗),是一般用於大樣本(即樣本容量大於30)平均值差異性檢驗的方法。它是用標准正態分布的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否顯著。
除以上兩種主要方法外,還有F檢驗和卡方檢驗。
『貳』 假設檢驗方法有幾種
假設檢驗是不可能做到完全正確的,它只能保證假設在最大概率上的成立。
一般雙側U-檢驗的做法就是你列出的檢驗法1。
利用檢驗法2或3,表面上結果是檢驗水平a下進行的,但實際內在的結果是:假設是在檢驗水平為b時成立;其中b可能大於a,也可能小於a。也就是說
(1)(當假設值與真實值差別非常小時) b≥a,即在比a更高的檢驗水平下也能成立,若使用這種檢驗法,則「棄真」的概率就更大;
(2)(當假設值與真實值差別比較大時) b≤a,即只有在比a低的檢驗水平下才能成立,若使用這種檢驗法,則「納偽」的概率就更大。
所以一般不採用檢驗法2和3。
可以想像,檢驗法1中,u2和u1的大小關系是由契比學夫不等式確定的,只有成立與不成立的情況,沒有程度關系。
而在檢驗法2和3中,u0或xx落在置信區間內的具體位置對其概率的影響是很大的,所以檢驗的結果也不一定準確,至少檢驗的結果不是對應於檢驗水平a的。
如果是通過矩估計法得到的u0,那麼你列出的檢驗法2和檢驗法3就是一回事,u0=xx。
『叄』 請簡述兩總體均數作獨立樣本假設檢驗可以採用的統計方法及適用條件
當兩樣本滿足正態獨立方差齊條件時,可以t檢驗比較兩樣本均數;當僅方差齊不滿足時可以使用t'檢驗比較兩樣本均數。當樣本量較大時可進行z近似。雖可使用方差分析處理滿足t檢驗條件的兩樣本,但結果與t檢驗一致。如不滿足上述t檢驗前提條件,可使用wilcoxon秩和檢驗或曼尼惠特U檢驗。
『肆』 假設檢驗
(一)假設檢驗的基本思想
統計假設檢驗就是為了推斷某個問題,事先做出一種假設。然後用一個實測樣本數據計算出某一個適合的、已知其分布的統計量,並通過查表得出其相應的臨界值。再用實測樣本數據計算出來的關於統計量與其臨界值進行比較,從而得出肯定(接受)原假設或否定(拒絕)原假設的結論,達到統計推斷之目的,下面舉例說明。
[例8-4]在某測區的海西期第二階段中粗粒黑雲母花崗岩(
解:假定這批γ照射量率數據都服從正態分布。此例中,300個數據是很大的樣本,可以把它看成總體,故可用300個數據的平均數與標准差當作總體的均值與標准差,即μ=35γ,σ=8γ,80個觀測數據仍看成是樣本。由於樣本標准差s=8.2γ與總體標准差相差甚小。因此,只需檢驗樣本平均數
(1)假設H0
放射性勘探技術
其中:μ=35(γ),σ=8(γ),
(2)構造一個統計量u
先將樣本平均數標准化,即
放射性勘探技術
式(8-21)中的統計量u服從標准正態分布,即u~N(0,1)。
(3)確定臨界值
給定信度α=0.05,則由附錄一查出F(u)=1-α/2=0.975所對應的uα=1.96,故有
P{-1.96<u<1.96}=1-α=0.95
即
放射性勘探技術
或
放射性勘探技術
其中33.26γ與36.74γ是臨界值,而區間(33.26,36.74)是肯定域。區間以外為否定域。這就是說,樣本平均數
(4)計算實測樣本平均數
由於實測樣本平均數
(二)差異的顯著性與信度(顯著性水平)
上例的統計推斷性結論是在信度(顯著性水平)α=0.05的條件下做出的。如果將信度α定得小一些,那麼做出的統計性結論就有可能改變。比如α=0.01,由附錄一可查出F(u)=1-α/2=0.995所對應的u臨界值uα=2.58,故有
放射性勘探技術
或
放射性勘探技術
在這種情況下,臨界值為32.7γ與37.3γ,故區間(32.7,37.3)為肯定域。而實測樣本
顯而易見,信度α如何選擇,直接影響到差異是否顯著的結論。可見,任何差異是否顯著的推斷都是在一定的信度(顯著性水平)α下做出的。α定得越大,肯定域就小,但推斷的可靠性差(即置信概率小)。反之,α定得愈小,肯定域就愈大,推斷的可靠性強(置信概率大)。放射性物探工作中所要進行的統計假設檢驗,一般將信度α定為0.05或0.01較為恰當,此時置信概率分別為95%與99%。
(三)統計假設檢驗的分類
統計假設檢驗可分為兩大類,即參數性方法與非參數性方法,就是假定總體的分布型式已知(經常假定為正態分布),只要對參數進行檢驗即可。非參數性方法,則不管總體的分布如何,都能應用。
參數性方法又可分為大樣本與小樣本推斷兩種。一般當n>30~50時,可稱為大樣本,凡屬大樣本一律可按正態分布處理。
(四)分布型式的檢驗
放射性物探工作中經常要統計各種底數。進行底數統計之前,就要對觀測數據進行分布型式的檢驗,以確定觀測數據服從何種概率分布,並採用相應的底數與標准差的計算方法。當然根據頻率分布直方圖的形狀也大致可以看出其分布型式,但這是不嚴格的,需要進行檢驗。檢驗的方法很多,下面介紹幾種方法:
1.偏度、峰度檢驗法
這是一種檢驗概率分布是否屬於正態分布的參數性方法,要求有大樣本(n>100)。此種檢驗方法中要用的兩個統計量CS(偏度)與CE(峰度),其計算公式已在本項目學習任務一中給出。
當總體服從正態分布時,若樣本為大樣本(n>100),則統計量CS、CE近似服從正態分布,即CS~N(0,6/n),CE~N(0,24/n)。
現以本項目學習任務一某花崗岩體的228個γ測量數據為例,說明如何用偏度系數和峰度系數法檢驗分布型式的方法。
[例8-5]用偏度系數和峰度系數法檢驗表8-1中某地區γ普查數據是否服從正態分布,給定信度α=0.05。
(1)假設H0
該地區γ照射量率數據服從正態分布。又因樣本容量n=228,為大樣本,故
CS~N(0,6/228),CE~N(0,24/228)
將這兩個參數標准化,有
放射性勘探技術
經過標准化變換以後,公式(8-22)和公式(8-23)都服從標准正態分布N(0,1)。
(2)計算標准化後的概率區間
在α=0.05下,查得F(u)=1-α/2=0.975所對應的uα=1.96,故有
放射性勘探技術
即
P{-0.32<CS<0.32}=0.95
故CS的臨界值為-0.32和0.32,即區間(-0.32,0.32)為肯定域,其外為否定域。
同樣對於CE,有
放射性勘探技術
即
P{-0.64<CE<0.64}
故CE的臨界值為-0.64和0.64,即區間(-0.64,0.64)為肯定域,其外為否定域。
(3)計算樣本的CS和CE
根據實測數據可用列表法求取偏度系數CS和峰度系數CE,見表8-5。
表8-5 某地區放射性測量γ射線照射量率(γ)偏度系數和峰度系數計算表
續表
根據表8-5計算CS和CE,步驟如下:
放射性勘探技術
三階中心矩(M3)和四階中心矩M4計算如下:
放射性勘探技術
於是
放射性勘探技術
(4)比較
將由實測樣本計算的CS和CE與其臨界值進行比較,可見樣本的CS=0.0903和CE=-0.5921都落在肯定域內,故肯定原假設,認為該地區的γ射線照射量率符合正態分布。
2.正態概率格紙檢驗法
顯然上述檢驗方法比較麻煩,計算工作量較大,而且要求是大樣本。在本項目學習任務二曾指出,在正態概率格紙上做出的正態分布的累積概率曲線為一條直線。因此便可根據畫在正態概率格紙上的實測樣本數據的諸(xi,Fi)點是否基本在一條直線上,來檢驗該批數據是否符合正態分布。其中xi為實測樣本分組數據的組上限,Fi為其累積頻率。這種檢驗方法稱為正態概率格紙檢驗法。
下面仍然以某地區花崗岩228個γ照射量率數據為例,說明其檢驗方法。
[例8-6]使用表8-1的數據,用正態概率紙法檢驗某地區γ普查數據是否符合正態分布。
解:以表8-1中的累積頻率為縱坐標,將數據分組值(組上限)為橫坐標,在正態概率格紙上打點,即A(21.5,1.32)、B(25.5,7.46)、C(29.5,20.64)、D(33.5,41.23)、E(37.5,64.64)、F(41.5,82.64)、G(45.5,94.74)、H(49.5,98.25);然後用直尺畫一條直線,盡可能將各點聯結起來,如圖8-9所示,其做法與用累積頻率展直線法求正常值的做法相同。
由圖8-9可見,這些點基本落在一條直線上,因此該批數據服從正態分布,這與用偏度、峰度檢驗法得出的結論相同。由圖8-9還可見到,有些點與直線有些偏差,這是允許的,但是偏差不能太大。偏差太大,則不一定屬於正態分布。一般說來,中間的點(即靠近累積頻率為50%橫線附近的點)偏差不能太大,兩端的點偏差可以適當大一點。究竟偏離多遠可認為是允許的,需繪制一定信度α下的臨界曲線,見圖5-5所示,以此作為衡量的標准。臨界值曲線的畫法請參閱有關書籍。
3.χ2檢驗法
χ2檢驗不但可以檢驗正態分布,還可以檢驗泊松分布、二項分布、負二項分布、指數分布等的分布型式。
(1)理論原理
這是在總體x為未知時,根據它的n個觀測值x1,x2,…,xn來檢驗關於總體分布的假設
H0:總體x的分布函數為F(x)(8-24)
的一種方法。
注意,若總體分布為離散型,則假設式(8-24)相當於
H0:總體x的分布律為P{x=ti}=pi(i=1,2,…)(8-25)
若總體分布函數為連續型,則假設式(8-24)相當於
H0:總體x的概率密度為f(x)(8-26)
式(8-24)~式(8-26)是χ2檢驗的理論模型表達式。
在用下述χ2檢驗法檢驗假設H0時,要求在假設H0下F(x)的分布型式及其參數都是已知的。但實際上參數往往是未知的,這時,需要先用極大似然法估計參數,然後做檢驗。
χ2檢驗法的基本思想是:把隨機實驗結果的全體S分為k個互不相容事件A1,A2,…,Ak(A1∪A2∪…∪Ak=S,AiAj=ϕ,i≠j;i,j=1,2,…,k)。於是,在假設H0下,我們可以計算理論頻率pi=P(Ai)(i=1,2,…,k)。顯然,在n次試驗中,事件Ai出現的頻率
放射性勘探技術
作為檢驗理論(即假設H0)與實際符合的尺度。並證明了如下的定理:若n充分大(n≥50),則不論總體屬於什麼分布,統計量式(8-27)總是近似地服從自由度為k-r-1的χ2分布。其中,r是被估計參數的個數。
於是,若在假設H0下算得皮爾遜統計量的值,即式(8-27),有
放射性勘探技術
則在顯著性水平α下拒絕H0;若式(8-28)中不等號反向,就接受H0。
χ2檢驗的具體步驟是:
把實軸分為k個互不相容的區間[αi,αi+1](i=1,2,…,k),其中αi,αi+1可分別取-∞,+∞。區間的劃分方法視具體情況而定。
其次,計算概率
pi=F(αi+1)-F(αi)=P{αi<x≤αi+1}(8-29)
此處,F(x)由式(8-29)確定。然後算出pi與樣本容量n的乘積npi稱為理論頻數。
同時,計算樣本觀察值x1,x2,…,xn在區間(αi,αi+1]中的個數
然後,將
χ2檢驗法是在n無限增大時推導出來的,所以在使用時必須注意n要足夠大,以及npi不太小這兩個條件。根據經驗,要求樣本容量n不小於50,當n剛剛大於50附近時,npi最好在5以上,在n大於100時npi最好取10以上,否則應當適當的合並區間(或Ai),使npi滿足這個要求。特別是在邊部小概率事件下要進行適當地並組,這樣可以有效的壓低邊部「干擾」,突出數據中部的「有用信號」。
下面通過實例來說明檢驗的過程。
(2)應用實例
[例8-7]試用χ2檢驗的辦法檢驗某地區閃長岩釷含量是否服從對數正態分布(取α=0.05)。原始數據單位為10-6,取常用對數以後的統計結果見表8-6。
表8-6 某地區閃長岩釷含量對數值統計表
解:為方便起見,根據表8-6所整理的結果來做檢驗。因參數都是未知的,故應用極大似然估計法估計μ、
放射性勘探技術
注意:這里的
估計
放射性勘探技術
注意,公式中的n=110,為樣品容量;k為分組數,表示並組後的組數。這里對第1~3和13~15組進行了並組,故k=11。對於分組時兩頭的小組實行並組是為了有效地減小偶然誤差。
所以,我們要檢驗的假設為
H0:x~N(0.7509,0.24842)
為便於計算npi,應先做變換u=(x-0.7509)/0.2484。化x為標准正態變數u,與正態分布概率紙檢驗法一樣,查出各個u之下的累積頻率,算出區間頻率、頻數,這些都是理論值。如表8-7所示。
表8-7 某區閃長岩釷含量對數正態分布χ2檢驗表
標准正態分布表中查出的是累積頻率F(u);每一個區間頻率為該區間累積頻率與上一個區間累計頻率之差;n=110,為樣品容量,而非分組組數,故npi表示理論頻數;
由於並組後組數k=11,估計了兩個參數(
放射性勘探技術
故在水平α=0.05下接受H0,認為該地區岩石釷含量符合對數正態分布,並且釷含量對數
通過上例可見,用χ2檢驗法(或其他檢驗方法)得到的結果往往較概率紙精確。特別是,有的檢驗法(如χ2檢驗法)能控制犯第一類錯誤的概率α,這是概率紙所做不到的。但概率紙使用方便,無須太多的計算,因此,概率紙常用來初步估計總體的分布類型及參數的一次近似之用。然後用χ2檢驗法(或距離計演算法、偏度系數和峰度系數檢驗法等)進一步做精確的檢驗。
(五)平均數的對比(U檢驗和t檢驗)
由本項目學習任務二正態分布的介紹,可知正態分布有兩個重要參數,一個是均值μ,另一個是標准差σ。當μ與σ確定後,正態分布N(μ,σ)就完全確定了;且在一般情況下,標准差σ比較穩定。要檢驗兩個正態分布是否相同,或者說,兩個正態分布的樣本是否屬於同一總體,只要對均值μ做檢驗,這就是平均數對比的實質。放射性物探工作中要經常遇到某些元素的含量,放射性γ照射量率等的對比問題,儀器的「三性」檢查工作中也要碰到類似的問題。
設從兩個正態總體N(μ1,
1.大樣本平均數的對比——U檢驗
當兩個樣本為大樣本,即n1>30,n2>30時,由本任務可知,兩樣本的平均數
U檢驗的步驟如下:
(1)假設H0
μ1=μ2,於是
放射性勘探技術
將
放射性勘探技術
那麼新變數U服從標准正態分布,即U~N(0,1),U就是檢驗中要用的統計量,可查F(u)表(見附錄一),故稱為U檢驗。
(2)確定臨界值
若選定信度α=0.05,則從F(u)反查u值表中根據F(u)=1-
(3)比較
計算實測樣本的U值,與臨界值uα進行比較。若|U|>uα,則否定原假設;若|U|<uα,就肯定原假設。
為了計算實測樣本的U值,必須知道總體的標准差σ。若σ已知,則無論大、小樣本都可用U檢驗進行假設檢驗。若σ未知,則要用兩樣本標准差s1、s2的加權平均值來估計總體標准差σ,即用
放射性勘探技術
代替σ,於是
放射性勘探技術
式(8-31)就是計算的U值,下面舉例說明。
[例8-8]在某一斑狀黑雲母花崗岩地段進行放射性γ照射量率測量。測得169個數據(n1),平均照射量率
解:經過分布型式檢驗,兩樣本γ照射量率數據均服從正態分布,兩樣本標准差又近似相等,且都是大樣本。顯然可用U檢驗對兩地段的平均數進行對比。將數據代入公式(8-31),可算出實測樣本U值,即
放射性勘探技術
取信度α=0.05,查附錄一,得U的臨界值uα=1.96。而實測樣本U=9.034>uα=1.96,故否定原假設H0,認為斑狀黑雲母花崗岩地段與其相鄰地段不是同一總體,或者說,不是屬於同一岩性。後經地質調查證實岩性為細粒二雲母花崗岩,這兩種花崗岩的結構不同,成分不同,侵入時代也不相同。
2.小樣本平均數的對比——t檢驗
當兩個樣本中,只要有一個為小樣本時,即n1與n2中有一個小於30,用樣本方差s2去估計總體方差時,要用無偏估計量,即
放射性勘探技術
在這種情況下得不出新變數u服從標准正態分布的結論。因此也就不能用上述U檢驗的方法進行檢驗。用兩個樣本方差
放射性勘探技術
來代替σ,這時要構造一個新的統計量t。t不像兩個大樣本的情況下要服從標准正態分布,而服從自由度f=n1+n2-2的t分布,或稱學生(Student)分布。
當給定了信度α,如α=0.05,且自由度f=n1+n2-2為已知時,可在t分布臨界值tα表中(見附錄三)查出臨界值tα。其否定域為|t|≥tα。
[例8-9]在同一地點、相同條件下用兩台γ能譜儀進行測量。第一台儀器測量10次,測得鈾含量(10-6)x1分別為3.5、3.2、3.0、3.1、3.2、3.3、3.3、3.2、3.1、3.2,平均鈾含量
解:因為
1)假設H0,兩台儀器讀數的均值相等,即
μ1=μ2
2)計算實測樣本統計量t:
放射性勘探技術
3)比較:
若取信度α=0.05,查t分布表(見附錄三),其自由度f=n1+n2-2=20時,查得t的臨界值tα/2=2.08。因為|t|=2.285>tα/2=2.08,所以否定原假設H0,μ1≠μ2,認為兩台儀器讀數的平均值差異顯著,故兩台儀器的一致性不好。
(六)方差對比——F檢驗
在平均數對比中,檢驗兩個總體均值是否相同(無論大樣本或小樣本)之前,都應先假定被檢驗的兩個總體服從正態分布,且方差相等。如果不能肯定方差基本相等則需先進行方差檢驗。只有當方差無顯著性差異後,方可進行平均數的對比;否則,就不必進行平均數對比了,因為方差差異顯著,已可認為兩者不是同一總體了。
假設從兩個正態總體N(μ1,
放射性勘探技術
通過對比兩樣本方差
放射性勘探技術
統計量F服從第一自由度f1=n1-1、第二自由度f2=n2-1的F分布。當給定信度α後。且第一自由度f1與第二自由度f2為已知時,可從F分布臨界值表中(見附錄四)查出臨界值Fα。本來當信度為α時,F檢驗的否定域為左右兩邊各取面積為α/2的兩部分(圖8-10)。但為了製表省略起見,F分布臨界值表中,往往只給出F>l的右邊臨界值。因此,當給定了信度α,並已知第一自由度f1與第二自由度f2的情況下,查附錄四時實際得出的是Fα/2值,這樣在計算樣本方差比F值時,就要使得F永遠大於1。為此總是把兩方差
圖8-10 F分布概率密度曲線圖
[例8-10]用例8-9中兩台儀器在同一地點觀測的數據為准,用F檢驗的辦法檢驗這兩台能譜儀的方差有無顯著差異。已知α=0.10。
解:設
1)假設H0:
2)計算方差比:
第一台儀器10次測量和第二台儀器12次測量的均方差分別是s1=0.137×10-6和s2=0.162×10-6,直接代入公式(8-33)中,得
放射性勘探技術
3)確定臨界值Fα:
已知α=0.10,第一自由度f1=10-1=9,第二自由度f2=12-1=11,查附錄四,得Fα/2=F(0.05)=2.27。
4)比較:
由於兩個樣本的方差比F=1.398<Fα=2.27,落在肯定域內,故肯定原假設H0:
『伍』 總結!14個常用的統計假設檢驗的方法
本文分享利用SPSSAU進行14個常用的統計假設檢驗的方法,分為以下五個部分:
一、正態性檢驗
正態性特質是很多分析方法的基礎前提,如果不滿足正態性特質,則應該選擇其它的分析方法,因此在做某些分析時,需要先進行正態性檢驗。如果樣本量大於50,則應該使用Kolmogorov-Smirnov檢驗結果,反之則使用Shapro-Wilk檢驗的結果。
常見的分析方法正態性特質要求歸納如下表(包括分析方法,以及需要滿足正態性的分析項,如果不滿足時應該使用的分析方法)。
如果p 值大於0.05,則說明具有正態性特質,反之則說明數據沒有正態性特質。
如果是問卷研究,數據很難滿足正態性特質,而實際研究中卻也很少使用不滿足正態性分析時的分析方法。
SPSSAU認為有以下三點原因:
① 參數檢驗的檢驗效能高於非參數檢驗,比如方差分析為參數檢驗,所以很多時候即使數據不滿足正態性要求也使用方差分析
② 如果使用非參數檢驗,呈現出差異性,則需要對比具體對比差異性(但是非參數檢驗的差異性不能直接用平均值描述,這與實際分析需求相悖,因此有時即使數據不正態,也不使用非參數檢驗,或者Spearman相關系數等)
③ 理想狀態下數據會呈現出正態性特質,但這僅會出現在理想狀態,現實中的數據很難出現正態性特質(尤其是比如問卷數據)【可直接使用「直方圖」直觀展示數據正態性情況】。
二、方差齊檢驗
如果要進行方差分析,需要滿足方差齊性的前提條件,需要進行方差齊檢驗,其用於分析不同定類數據組別對定量數據時的波動情況是否一致。例如研究人員想知道三組學生的智商 波動情況是否一致(通常情況希望波動一致,即方差齊)。
判斷p 值是否呈現出顯著性(p <0.05),如果呈現出顯著性,則說明不同組別數據波動不一致,即說明方差不齊;反之p 值沒有呈現出顯著性(p >0.05)則說明方差齊。
提示: 方差不齊時可使用『非參數檢驗』,或者還可使用welch 方差,或者Brown-Forsythe方差。
三、相關性檢驗
(1)相關分析
相關分析是一種簡單易行的測量定量數據之間的關系情況的分析方法。可以分析包括變數間的關系情況以及關系強弱程度等。相關系數常見有三類,分別是:
1.Pearson相關系數
2.Spearman等級相關系數
3.Kendall相關系數
三種相關系數最常使用的是Pearson相關系數;當數據不滿足正態性時,則使用Spearman相關系數,Kendall相關系數用於判斷數據一致性,比如裁判打分。下圖是詳細使用場景:
如果呈現出顯著性(結果右上角有*號,此時說明有關系;反之則沒有關系)。
有了關系之後,關系的緊密程度直接看相關系數大小即可。(一般0.7以上說明關系非常緊密;0.4~0.7之間說明關系緊密;0.2~0.4說明關系一般。)
如果說相關系數值小於0.2,但是依然呈現出顯著性(右上角有*號,1個*號叫0.05水平顯著,2個*號叫0.01水平顯著;顯著是指相關系數的出現具有統計學意義普遍存在的,而不是偶然出現),說明關系較弱,但依然是有相關關系。
(2)卡方檢驗
卡方檢驗主要用於研究定類與定類數據之間的差異關系。卡方檢驗要求X、Y項均為定類數據,即數字大小代表分類。並且卡方檢驗需要使用卡方值和對應p 值去判斷X與Y之間是否有差異。通常情況下,共有三種卡方值,分別是Pearson卡方,yates校正卡方,Fisher卡方;優先使用Pearson卡方,其次為yates校正卡方,最後為Fisher卡方。
具體應該使用Pearson卡方,yates校正卡方,也或者Fisher卡方;需要結合X和Y的類別個數,校本量,以及期望頻數格子分布情況等,選擇最終應該使用的卡方值。SPSSAU已經智能化處理這一選擇過程。
第一:分析X分別與Y之間是否呈現出顯著性(p值小於0.05或0.01);
第二:如果呈現出顯著性;具體對比選擇百分比(括弧內值),描述具體差異所在;
第三:對分析進行總結。
卡方檢驗,SPSSAU提供兩個按鈕,二者的區別是,後者輸出更多的統計量過程值以及深入指標表格,滿足需要更多分析指標的研究人員,如下各圖。
進行卡方檢驗,上傳數據時需要特別注意數據格式,有兩種格式:常規格式和加權格式。
① 常規格式數據 ,如下圖。則通用方法中的【交叉(卡方)】和實驗/醫學研究中的【卡方檢驗】都可以使用。
② 加權數據: 但在某些情況下,我們得到的不是原始數據,而是經過整理的匯總統計數據。比如下面這樣格式的數據:
類似這樣的格式,不能直接使用的,需要整理成加權數據格式,只能使用實驗/醫學研究中的【卡方檢驗】
這時候點擊實驗/醫學研究面板中的【卡方檢驗】-拖拽三個【分析變數】分別到對應分析框-【開始分析】即可。
四、參數檢驗
(1) 單樣本t檢驗
單樣本T檢驗用於比較樣本數據與一個特定數值之間是否存在差異情況。
首先判斷p 值是否呈現出顯著性,如果呈現出顯著性,則分析項明顯不等於設定數字,具體差異可通過平均值進行對比判斷。
(2)獨立樣本T檢驗(T檢驗)
獨立樣本T檢驗用於分析定類數據(X)與定量數據(Y)之間的差異情況。
獨立樣本T檢驗除了需要服從正態分布、還要求兩組樣本的總體方差相等。當數據不服從正態分布或方差不齊時,則考慮使用非參數檢驗。
首先判斷p 值是否呈現出顯著性,如果呈現出顯著性,則說明兩組數據具有顯著性差異,具體差異可通過平均值進行對比判斷。
(3)配對樣本T檢驗
用於分析配對定量數據之間的差異對比關系。與獨立樣本t檢驗相比,配對樣本T檢驗要求樣本是配對的。兩個樣本的樣本量要相同;樣本先後的順序是一一對應的。
常見的配對研究包括幾種情況:
判斷p 值是否呈現出顯著性,如果呈現出顯著性,,則說明配對數據具有顯著性差異,具體差異可通過平均值進行對比判斷。
(4)方差分析
方差分析(單因素方差分析),用於分析定類數據與定量數據之間的關系情況.例如研究人員想知道三組學生的智商平均值是否有顯著差異。
進行方差分析需要數據滿足以下兩個基本前提:
理論上講,數據必須滿足以上兩個條件才能進行方差分析,如不滿足,則使用非參數檢驗。但現實研究中,數據多數情況下無法到達理想狀態。正態性檢驗要求嚴格通常無法滿足,實際研究中,若峰度絕對值小於10並且偏度絕對值小於3,或正態圖基本上呈現出 鍾形 ,則說明數據雖然不是絕對正態,但基本可接受為正態分布,此時也可使用方差分析進行分析。
第一:分析X與Y之間是否呈現出顯著性(p值小於0.05或0.01)。
第二:如果呈現出顯著性;通過具體對比平均值大小,描述具體差異所在。
第三:如果沒有呈現出顯著性;說明X不同組別下,Y沒有差異。
(5)重復測量方差
在某些實驗研究中,常常需要考慮時間因素對實驗的影響,當需要對同一觀察單位在不同時間重復進行多次測量,每個樣本的測量數據之間存在相關性,因而不能簡單的使用方差分析進行研究,而需要使用重復測量方差分析。
第一、首先進行球形度檢驗,p <0.05說明沒有通過球形度檢驗,p >0.05說明通過球形度檢驗;
第二、如果沒有通過球形度檢驗,並且球形度W值大於0.75,則使用HF校正結果;
第三、如果沒有通過球形度檢驗,並且球形度W值小於0.75,則使用GG校正結果;
第四、如果通過球形度檢驗,組內效應分析結果時使用「滿足球形度檢驗」結果即可;
將數據上傳至SPSSAU分析,選擇【實驗/醫學研究】--【重復測量方差】。
五、非參數檢驗
凡是在分析過程中不涉及總體分布參數的檢驗方法,都可以稱為「非參數檢驗」。因而,與參數檢驗一樣,非參數檢驗包括許多方法。以下是最常見的非參數檢驗及其對應的參數檢驗對應方法:
非參數秩和檢驗研究X不同組別時Y的差異性,針對方差不齊,或者非正態性數據(Y)進行差異性對比(X為兩組時使用mannWhitney檢驗,X超過兩組時使用Kruskal-Wallis檢驗,系統默認進行判斷);
(1)單樣本Wilcoxon檢驗
單樣本Wilcoxon檢驗是單樣本t檢驗的代替方法。該檢驗用於檢驗數據是否與某數字有明顯的區別,如對比調查對象整體態度與滿意程度之間的差異。首先需要判斷數據是否呈現出正態性分析特質,如果數據呈現出正態性特質,此時應該使用單樣本t檢驗進行檢驗;如果數據沒有呈現出正態性特質,此時應該使用單樣本Wilcoxon檢驗
首先判斷p 值是否呈現出顯著性,如果呈現出顯著性,則分析項明顯不等於設定數字,具體差異可通過中位數進行對比判斷。
(2)Mann-Whitney檢驗
Mann-Whitney檢驗是獨立樣本t檢驗的非參數版本。該檢驗主要處理包含等級數據的兩個獨立樣本,SPSSAU中稱為非參數檢驗。
第一:分析X與Y之間是否呈現出顯著性(p值小於0.05或0.01)。
第二:如果呈現出顯著性;通過具體對比中位數大小,描述具體差異情況。
(3)Kruskal-Wallis檢驗
Kruskal-Wallis檢驗是單因素方差分析的非參數替代方法。Kruskal-Wallis檢驗用於比較兩個以上獨立組的等級數據。
在SPSSAU中,與Mann-Whitney檢驗統稱為「非參數檢驗」,分析時SPSSAU會根據自變數組別數自動選擇使用Kruskal-Wallis檢驗或Mann-Whitney檢驗。
(4)配對Wilcoxon檢驗
Wilcoxon符號秩檢驗是配對樣本t檢驗的非參數對應方法。該檢驗將兩個相關樣本與等級數據進行比較。
第一:分析每組配對項之間是否呈現出顯著性差異(p值小於0.05或0.01)。
第二:如果呈現出顯著性;具體對比中位數(或差值)大小,描述具體差異所在。
『陸』 假設檢驗有哪三種不同的方法各自的基本思想是什麼
假設檢驗的基本思想是小概率反證法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次試驗中基本上不會發生。反證法思想是先提出假設(檢驗假設H0),再用適當的統計方法確定假設成立的可能性大小,如可能性小,則認為假設不成立,若可能性大,則還不能認為假設不成立。
『柒』 對一個正態總體均值進行假設檢驗,可以選擇什麼檢驗統計量
單個樣本:u檢驗或t檢驗。
兩個樣本:t檢驗、或卡方檢驗。
3個以上樣本:方差分析、或卡方檢驗。
描述隨機變數取值平均狀況的數字特徵。包括離散型隨機變數的總體均值:和連續型隨機變數的總體均值。
n個隨機變數和的均值等於均值的和;n個隨機變數若相互獨立,則乘積的均值等於均值的乘積。這時n為有限整數且大於2。
(7)總體均值的假設檢驗方法有哪些擴展閱讀:
根據一定的理論或經驗,認為某一假設h0成立,例如,通常有理由認為特定的一群人的身高服從正態分布。
當收集了一定數據後,可以評價實際數據與理論假設h0之間的偏離,如果偏離達到了「顯著」的程度就拒絕h0,這樣的檢驗方法稱為顯著性檢驗。偏離達到顯著的程度通常是指定一個很小的正數α(如0.05,0.01),使當h0正確時,它被拒絕的概率不超過α。
要求檢驗在備擇假設h1成立時作出正確判斷的概率不小於檢驗水平α,這就是說在h0不成立時拒絕h0的概率要不小於在h0成立時拒絕h0的概率,這種性質稱為無偏性,具有這種性質的檢驗稱為無偏檢驗。顯然,如果在無偏檢驗中存在一致最大功效檢驗就稱為一致最大功效無偏檢驗。
『捌』 在對單個正態總體均值的假設檢驗中,當總體方差已知時,選用 檢驗法
Z檢驗法。
Z檢驗是一般用於大樣本(即樣本容量大於30)平均值差異性檢驗的方法。它是用標准正態分布的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否顯著。適用於正態分布的總體,方差齊,獨立性。
Z檢驗是T檢驗的特殊形式,T檢驗主要是針對樣本數小於30例的統計分析,適用條件:正態分布,方差齊,獨立性。當樣本量n無窮大時,T檢驗和Z檢驗結果是一樣的。
Z檢驗和T檢驗的區別:
Z檢驗-方差已知的均值檢驗,考慮一個因素的影響,原假設H0:X1=X0(單樣本檢驗)或 H0:X1=X2(雙樣本檢驗)。
T檢驗-方差未知的均值檢驗,考慮一個因素的影響,原假設X1=X0(單樣本檢驗)或H0:X1=X2。
T檢驗和Z檢驗用於單因素雙樣本均值檢驗,T檢驗用於方差未知的情況,Z檢驗用於方差已知的情況。
『玖』 第九章 假設檢驗
假設檢驗中,我們首先對總體參數做一個嘗試性地假設,稱為 原假設 ,記作 ;定義另一個和原假設對立地假設,稱為 備擇假設 ,記作
例如測試新型燃油系統的燃油效率是否更好,原效率均值24英里/加侖,令新的燃油效率為
我們希望得到的結論為 ,新型的效率更高。
如果樣本拒絕 的結論,那麼就可以作出 的推斷。
如檢測飲料凈含量是否達標,比如一瓶標注67.6盎司的飲料。
我們將受到挑戰的假說(質量達標)作為原假設 ,如果樣本不能拒絕原假設,我們則認為商家的產品是達標的。
對於總體均值的假設檢驗,我們令 為假定值,並採用下面三種形式之一進行假設檢驗。
簡單來說,
在原假設為等式形式出現時,如 ,犯第一類錯誤的概率稱為檢驗的 顯著水平
顯著水平 :當作為一個等式的原假設為真時,反第一類錯誤的概率稱為檢驗的顯著水平。用 來表示,一般取0.05或0.01。
應用中:只空值第一類錯誤的假設檢驗稱為顯著性檢驗(一般也是用這種類型的檢)。
由於顯著性檢驗中第二類錯誤的發生具有不確定性,所以我們只能說不能拒絕 ,而不說接受 。因為接受了可能犯第二類錯誤。
當總體不服從正態分布時得樣本足夠大,下面的方法才奏效。
總體均值的 單側檢驗 有以下兩種形式:
舉例:咖啡每聽3磅重
假設:
只要拒絕了 就可以處罰製造商,如果不能拒絕那就不懲罰。
我們選取36聽作為樣本,且總體標准差 ,且樣本和總體都服從正態分布。
則
由於 服從正態分布,則
總體均值假設檢驗的檢驗統計量: 已知
當z值達到多小我們才能拒絕 ,兩種方法來解決
第一種:P-值法
P-值是一個概率值,它度量樣本所提供的證據對原假設的支持程度。P-值越小說明反對原假設的證據越多。
例如剛剛的咖啡例子:
我們根據標准正態概率表查的z=-2.67下側的面積為0.0038。則P-值為0.0038(也稱為實際顯著水平)
P-值法的拒絕法則 :如果p-值 ,則拒絕
第二種:臨界值法
臨界值 是確定檢驗統計量的值是否小到足以拒絕原假設的一個基準。換句話,臨界值是使我們拒絕原假設的檢驗統計量的最大值。
下側檢驗的拒絕法則:臨界值法
如果 ,則拒絕
例子:咖啡(書上可能寫錯,根據查表z應該是-2.33)
臨界值時標准正態概率分布中,下側面積 相對應的檢驗統計量的值。利用查表法,我們發現z=-2.23時下側面積為0.01。 對應 則我們拒絕
小結 :
p-值法相較於臨界值法,優點在於可以知道有多麼顯著(實際顯著水平)
單側檢驗的p-值:
可以根據excel的函數快速進行p和z的轉化:
雙側檢驗 的一般形式:
舉例:高爾夫球的發球距離必須為295碼,多了或少了都不行。
假設:
如果 沒有明顯偏離295則不會拒絕
選擇 作為檢驗的顯著性水平,樣本量為50, ,
p-值法 :
如果檢驗統計量的值位於抽樣分布的兩側尾部,則支持拒絕原假設。
上述高爾夫例子:
p-值
由於p-值 ,所以不能拒絕
雙側檢驗p-值得計算步驟 :
臨界值法
例如取顯著水平 ,左右兩側得臨界值對應得面積就為 根據查表法,求得檢驗統計量的臨界值 當
當 或者 則拒絕
區間估計所構造的區間有 %概率包含總體均值,
針對 未知的情況,檢驗統計量服從自由度為n-1的t分布。
總體均值假設檢驗的檢驗統計量: 未知
第八章講了t分布是在假設抽樣總體服從正態分布下得到的,當然如果樣本容量n足夠大也可以用。
例子:給希斯羅機場評分,n為60,評分從0-10分, 分,樣本標准差 ,因為高於7認定機場提供了優質服務,所以假設如下:
我們取顯著性水平
根據查詢t分布表,查得自由度59,t=1.84的情況下p-值為
使用excel來對t和p進行轉換:
同樣可以使用臨界值法:
在自由度為59的t分布中上側面積 對應的臨界值為 只要 我們就可以拒絕 。
舉例:玩具生產商有近千家分銷零售商,預計每個分銷零售商需要的訂貨量為40個玩具,現抽樣25個商家,令 表示訂貨量的總體均值,做出假設(定置信水平 ):
如果我們不能拒絕 那我們就認為總體需求的均值為40(雖然可能犯二類錯誤)
樣本均值
檢驗統計量的值:
當然也可以用 臨界值法 :
先求檢驗統計量的臨界值 (書上是-2.604有點離譜,我還是以excel為准)
則用計算出來的檢驗統計量t值來比較,如果在-2.06-2.06之間,我們不能拒絕
我們令 代表總體比率的假設值,下面是關於總體比率的假設檢驗的三種形式:
舉例:高爾夫球場,女性少 %。經過運營後,看下是否上升。
假設: 如果能拒絕 就可以支持女性佔比上升的結論。取顯著水平
前面提到過, 且 ,則 服從正態分布。
總體比率假設檢驗的檢驗統計量 :
回到剛剛的例子,我們選取樣本n=400,其中100個為女性,則 。
檢驗統計量
我們將z轉換為p(此時為下側面積),根據查表此時下側面積=0.9938,那麼對應的上側面積p-值=1-0.9938=0.0062<0.05,則我們可以拒絕 認為女性上升了。
也可以用 臨界值法 :
我們求出 ,由於計算出來的 所以我們認為可以拒絕
和總體均值的檢驗一樣,不過需要 且 ,這樣 才符合正態分布。
我們知道:
對於決策者來說,總是需要做出決策,哪怕不能拒絕 。所以後續的章節我們會討論如何控制第二類錯誤。
舉例:測試電池壽命,我們假設 ,要求顯著水平
已知n=36, ,我們使用臨界值法
則看檢驗統計量是否滿足不等式
滿足,則拒絕 ,我們對不等式進行處理 相當於
為了計算第二類錯誤的發生概率,我們需要選擇一個小於120小時的 值,比如選取 ,我們可能從這批均值為112的貨物中選出了 的樣本
對於其他小於120的 值,我們可以重復計算該過程,求出不同 值下犯第二類錯誤的概率。
當 為假,我們作出拒絕 的正確結論的概率稱作檢驗的 功效(power) ,根據不同的 對應的功效 ,我們可以繪制曲線稱作為功效曲線。
總結計算第二類錯誤的概率流程:
發生第一類錯誤的概率為 ,發生第二類錯誤的概率為
這里 為滿足 的 值
我們對上式進行轉換可得 總體均值單側假設檢驗中的樣本容量
備註:雙側檢驗中使用 來代替
在決定樣本容量之前,需要明確能接受兩類錯誤的概率大小。再計算即可獲得樣本容量的大小。
對於 , , 之間的關系如下:
這里可以知道,我們不能同時減小第一類錯誤和第二類錯誤,不可兼得。
鏈接: https://pan..com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取碼: 333c 復制這段內容後打開網路網盤手機App,操作更方便哦
『拾』 簡述假設檢驗的步驟
一、假設檢驗的基本思想與步驟
如何被統計學家費舍爾提出:奶茶先加茶和先加奶的口味是不同的。於是科學家有一個原假設:該女士不具備區分奶茶與茶奶的能力。假設檢驗的基本思想就是小概率事件不會發生,當小概率事件發生時,我們更傾向認為原假設是錯誤。引入問題:某牛奶生產商在其一份研究報告中聲稱「中國人的平均身高不高於160 厘米,因而必須喝牛奶」假設所有國人的平均身高服從正態分布N(μ,),如何檢驗牛奶商關於身高的聲稱是否成立?
(一) 估計與假設檢驗的區別
上面不是一個參數估計的問題,必須採用假設檢驗的方法。假設檢驗(hypothesis testing)與參數估計(estimation)的思想是不同的。參數估計是指利用抽樣數據對總體參數進行直接估計,並得出總體參數的具體估計值;而假設檢驗則分為假設與檢驗兩步,先形成一個對總體參數的假設,然後再利用抽樣數據判斷這個假設是否成立。
上題中,參數估計是通過抽樣調查部分中國人身高,計算出樣本均值,並以此估計全國人的平均身高μ;而假設檢驗則是先形成一個命題如:「中國人的平均身高μ不高於160 厘米」,然後通過抽樣數據判斷該命題是否成立。
(二) 假設檢驗的基本思想
基本思想是「小概率事件不會發生」。假設抽樣了一萬人發現平均身高是180,,基本可以判斷前述是錯誤的命題。然而如果發現均值是161時那麼結論就沒那麼顯然了,就必須利用到概率分布與顯著性相關的信息。
(三) 假設檢驗的步驟
(1) 建立需檢驗的假設
(2) 選擇合適的檢驗統計量,並確定其服從的概率分布
(3) 選擇判斷假設是否成立的顯著性水平
(4) 給出決策准則(decision rule),即拒絕域的形式
(5) 收集數據,並計算檢驗統計量
(6) 做出判斷
(7) 根據判斷進行投資決策
二、假設檢驗的相關概念
(一)原假設(Null Hypothesis)與備擇假設(Alternative Hypothesis)
假設檢驗的第一步就是建立假設。通常將被檢驗的假設稱為原假設(null hypothesis),記為;當被拒絕時而接受的假設稱為備擇假設,記為或.原假設與備擇假設通常成對出現。身高問題中原假設與備擇假設可以用如下方式表示:
假設檢驗一般有兩種結果:第一種是原假設「不正確」,稱為拒絕(reject)原假設;第二種是原假設「正確」,稱為無法拒絕(can not reject)原假設。
在建立原假設與備擇假設時,有幾個細節要注意:
(1) 當原假設「正確」時,一般稱「無法拒絕原假設」而不是「接受原假設」,這是因為此時原假設並不是數學意義上的恆成立,而只是統計意義上的成立。
(2) 如果假設涉及不等式時,習慣將等號放在原假設
(3) 在構建原假設備擇假設時,習慣將想要得到的結論放在備擇假設
(二)檢驗統計量(Test Statistic)及其分布
在抽樣樣本檢驗原假設通常是通過一個統計量來完成的,這個統計量稱為檢驗統計量(test statistic)。檢驗統計量通常服從某個概率分布,於是可以通過計算檢驗統計量是否超過某一關鍵值來判斷是否拒絕原假設。在本書中,檢驗統計量通常以公式的形式出現:
(11.1)
如身高問題中,檢驗統計量就可以通過樣本均值來構建。由中心極限定理,服從正態分布N(μ,/n),按照(11.1)標准化後就服從標准正態分布。
(三)顯著性水平(Significance Level)與關鍵值(Critical Value)
有了檢驗統計量後,結合顯著性水平就可以計算出關鍵值(Critical Value)及其拒絕域(rejection region)。關鍵值是判斷是否拒絕原假設的臨界值。拒絕域是由原假設被拒絕的樣本觀測值所組成的區域。
在例題中,假設顯著性水平為5%,的標准化後服從標准正態分布,那麼檢驗統計量的關鍵值就是1.65?
根據正態分布95%置信區間對應的標准差不是1.96倍標准差嗎?為啥是1.65而不是1.96,是正數而不是負數?需要涉及單尾檢驗與雙尾檢驗。
(四) 雙尾檢驗(Two-Tailed Test)與單尾檢驗(One-Tailed Test)
假設檢驗通常有三種基本形式:
其中,θ表示總體參數,θ0表示當成立時總體參數的取值。
第一種形式稱為雙尾檢驗,第二種與第三種形式稱為單尾檢驗。無論是單尾還是雙尾檢驗所採用的檢驗統計量都是相同的,差別主要體現在拒絕域上。因此,區分單尾檢驗與雙尾檢驗對確定關鍵值(critical value)以及拒絕域(rejection region)至關重要。
(五) p值(p-value)
除了比較檢驗統計量與關鍵值,另一種判斷是否拒絕原假設的方法就是p值(p-value)。p值指拒絕原假設的最小顯著水平。根據p值定義,在給定顯著水平α的情況下,如果p<=α,則拒絕原假設;如果p>α,則無法拒絕原假設。
例如,我們要進行顯著性水平為5%的雙尾檢驗,已知p值=2.14%,這就意味著,左側對應的尾部面積為1.07%,即統計量絕對值大於,應該要拒絕原假設。當然,也可以利用p值進行判斷,p值=2.14%<5%,因此應該要拒絕原假設。畫個圖:
(六) 第一類錯誤(Type I Error)與第二類錯誤(Type II Error)
雖然假設檢驗的基本思想是「小概率事件不會發生」,但在真實世界中小概率事件是有可能發生的。因而,我們在判斷假設檢驗是否成立時就有可能犯錯誤。檢驗時可能犯的錯誤可歸為兩類:一是當原假設H0真實成立時,我們卻拒絕了原假設,稱為第一類錯誤,也稱為「拒真概率」;二是當原假設H0不成立時,我們卻接受了原假設,稱為第二類錯誤,也稱為「受偽概率」。
假設檢驗的兩種錯誤:
決策
真實情形
H0正確
H0錯誤
沒有拒絕H0
正確決策
第二類錯誤
(犯錯概率=β)
拒絕H0接受Ha
第一類錯誤
(犯錯概率=α)
正確決策
(概率power of test:1-β)
上表有幾個關於概率的標識:通常我們將犯第一類錯誤的概率記為α,這里的α實際上就是假設檢驗中的顯著性水平;犯第二類錯誤的概率記為β。此外,當原假設正確時接受原假設,當錯誤時拒絕原假設都表明決策者做出了正確的抉擇沒有犯錯,特別的,我們將決策者不犯第二類錯誤的概率稱為統計檢驗力(power of test),記為1-β
(七) 統計顯著(Statistical significance)與經濟顯著(Economic Significance)
在利用假設檢驗進行金融分析時注意區別兩者,許多投資策略在假設檢驗上能夠獲得正收益,然而在扣除交易費用、稅收並考慮風險後就無法經濟顯著獲得正收益。