T代表每個格子中的理論頻數。
計算方法:
卡方檢驗的統計量是卡方值,它是每個格子實際頻數A與理論頻數T差值平方與理論頻數之比的累計和。
每個格子中的理論頻數T是在假定兩組的發癌率相等(均等於兩組合計的發癌率)的情況下計算出來的,如第一行第一列的理論頻數為71*(91/113)=57.18,故卡方值越大,說明實際頻數與理論頻數的差別越明顯,兩組發癌率不同的可能性越大。
卡方檢驗要求:
最好是大樣本數據。一般每個個案最好出現一次,四分之一的個案至少出現五次。如果數據不符合要求,就要應用校正卡方。
利用統計學軟體分析結果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
(1)計算方法的t擴展閱讀
一、卡方檢驗的基本思想
卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,它的無效假設H0是:觀察頻數與期望頻數沒有差別。
該檢驗的基本思想是:首先假設H0成立,基於此前提計算出χ2值,它表示觀察值與理論值之間的偏離程度。根據χ2分布及自由度可以確定在H0假設成立的情況下獲得當前統計量及更極端情況的概率P。
如果P值很小,說明觀察值與理論值偏離程度太大,應當拒絕無效假設,表示比較資料之間有顯著差異;否則就不能拒絕無效假設,尚不能認為樣本所代表的實際情況和理論假設有差別。
二、卡方值的計算與意義
χ2值表示觀察值與理論值之問的偏離程度。計算這種偏離程度的基本思路如下。
1、設A代表某個類別的觀察頻數,E代表基於解析失敗 (PNG 轉換失敗; 請檢查是否正確安裝了 latex, dvips, gs 和 convert): H_0 計算出的期望頻數,A與E之差稱為殘差。
2、顯然,殘差可以表示某一個類別觀察值和理論值的偏離程度,但如果將殘差簡單相加以表示各類別觀察頻數與期望頻數的差別,則有一定的不足之處。因為殘差有正有負,相加後會彼此抵消,總和仍然為0,為此可以將殘差平方後求和。
3、另一方面,殘差大小是一個相對的概念,相對於期望頻數為10時,期望頻數為20的殘差非常大,但相對於期望頻數為1 000時20的殘差就很小了。考慮到這一點,人們又將殘差平方除以期望頻數再求和,以估計觀察頻數與期望頻數的差別。