1、描述統計。描述性統計是指運用製表和分類,圖形以及計筠概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
(1)缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法。
(2)正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
2、假設檢驗
(1)參數檢驗。參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。U驗 使用條件:當樣本含量n較大時,樣本值符合正態分布。T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布。單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
(2)非參數檢驗。非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。雖然是連續數據,但總體分布形態未知或者非正態;體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
3、信度分析
檢査測量的可信度,例如調查問卷的真實性。分類:
(1)外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
(2)內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
4、列聯表分析。用於分析離散變數或定型變數之間是否存在相關。
對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。
5、相關分析
研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
(1)單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;
(2)復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;
(3)偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。
6、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
(1)單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系
(2)多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系
(3)多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系
(4)協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
㈡ 統計學檢驗方法有哪些
統計學 各種應用條件、校正條件
應用檢驗方法必須符合其適用條件,不同設計的數據應選用不同檢驗方法。 一、第五章 參數估計 P74 總體均數的置信區間 1.正態近似法:
總體標准差σ已知,或σ未知但n>50時 2. t分布法
總體標准差σ未知,且n≤50時
二、第六章 計量資料兩組均數t檢驗P93、P99 (一)t 檢驗的應用條件
適用於計量資料(單樣本、兩配對樣本、兩獨立樣本),並要求: 1. 樣本來自正態分布的總體。W檢驗(n≤50時),H0:樣本來自正態總體,P>0.05時尚不能認為兩組資料的分布非正態;
2. 兩獨立樣本均數比較時,兩總體方差齊性。Levene檢驗,H0:方差相等。P>0.05時尚不能認為兩組資料方差不齊。
(二)方差不齊或非正態時,兩計量資料均數的比較方法 方法1. 僅方差不齊時,可採用近似t檢驗,即 t′檢驗。 方法2. 變數變換:對數變換、平方根變換、倒數變換等
方法3. 非參數檢驗:Wilcoxon符號秩檢驗(兩相關樣本P142);Wilcoxon秩和檢驗、Mann-Whiney-U檢驗(兩獨立樣本 P145)等
三、第七章 計量資料多組均數的比較-方差分析 (一)方差分析流程 P109
1、多個樣本均數比較。若P<0.05,均數不全相等,則進行第2步;
2、作多重比較:LSD-t檢驗、Dunnett-t檢驗(多個實驗組與一個對照組比較)、SNK-q檢驗(多個均數間全面比較)
(二)方差分析的應用條件 P114
1、各樣本相互獨立,服從正態分布;W檢驗 2、各樣本方差齊性。Levene檢驗
四、分類資料(計數資料)的比較-
㈢ 統計推斷常用的方法有
(1)簡單隨機抽樣:
簡單隨機抽樣,是指抽樣過程應獨立進行並且總體中每個個體被抽到的機會均等。隨機抽樣不是隨便抽取,隨便抽取容易受到個人好惡的影響。為實現隨機化,可採取抽簽、擲隨機數骰子或查隨機數值表等辦法。如從100件產品中隨機抽取l0件組成樣本,可以把這100件產品從l開始編號直到100號,然後用抓鬮的辦法任意抽出l0個編號,由這l0個編號代表的產品組成樣本。此種抽樣方法的優點是抽樣誤差小,缺點是手續繁雜。在實踐中真正做到每個個體被抽到的機會相等是不容易的。
(2)周期系統抽樣:
周期系統抽樣,又叫等距抽樣或機械抽樣,即將總體按順序編號,用抽簽或查隨機數值表的方法確定首件,進而按等距原則依次抽取樣本。如從120個零件中取五個做樣本,先按生產順序給產品編號,用簡單隨機抽樣法確定首件,然後按每隔24(由120÷5=24得)個號碼抽取一個,共抽取五個組成樣本。這種方法特別適用於流水線上取樣,操作簡便,實施起來不易出現差錯。但抽樣起點一經確定,整個樣本就完全固定。對總體質量特性含有某種周期性變化,而當抽樣間隔恰好與質量特性變化周期吻合時,就可能得到一個偏差很大的樣本。
(3)分層抽樣法:
分層抽樣法,即從一個可以分成不同子總體的總體中,按規定比例從不同層中隨機抽取個體的方法。當不同設備、不同環境生產同一種產品時,由於條件差別產品質量可能有較大差異,為了使所抽取的樣本具有代表性,可以將不同條件下生產的產品組成組,使同一組內產品質量均勻,然後在各組內按比例隨機抽取樣品合成一個樣本。這種抽樣方法得到的樣本代表性比較好,抽樣誤差較小,缺點是抽樣手續較繁,常用於產品質量檢驗。
(4)整群抽樣法:
這種方法是先將總體按一定方式分成多個群,然後隨機地抽取若干群並由這些群中的所有個體組成樣本。如按照生產過程將1000個零件分別裝入20個箱中,每箱50個,然後隨機抽取一箱,此箱中50個零件組成樣本。這種抽樣方法實施方便,但樣本來自個別群體而不能均勻分布在總體中,因而代表性差,抽樣誤差較大。