導航:首頁 > 方法技巧 > 樣本量少如何用統計學方法彌補

樣本量少如何用統計學方法彌補

發布時間：2022-07-26 09:54:41

A. 樣本量太小無顯著差異怎麼辦

增加樣本的數量
改善樣本的選取方式
改變事先確定的前提

B. 樣本數量少，需要哪些統計量來證明結果的正確性

1、根據數理統計學的最少樣本法則可以得出 n》k+1 （k為解釋變數的個數，n為樣本數）。
2、如果要有效估計參數可以根據有效樣本得出 n》30或者n》3*（k+1）。
只看你要多大的精度如果精度隨著樣本數的增加而增加

C. 如何使用統計學方法降低樣本抽樣數量以及如何抽樣

兩個樣方的比較試驗，採用配對試驗設計。
多個樣方的比較試驗，可採用卡丁方試驗設計或正交試驗設計。

D. 幾種常見的缺失數據插補方法

（一）個案剔除法(Listwise Deletion)
最常見、最簡單的處理缺失數據的方法是用個案剔除法(listwise
deletion)，也是很多統計軟體（如SPSS和SAS）默認的缺失值處理方法。在這種方法中如果任何一個變數含有缺失數據的話，就把相對應的個案從分析中剔除。如果缺失值所佔比例比較小的話，這一方法十分有效。至於具體多大的缺失比例算是「小」比例，專家們意見也存在較大的差距。有學者認為應在5%以下，也有學者認為20%以下即可。然而，這種方法卻有很大的局限性。它是以減少樣本量來換取信息的完備，會造成資源的大量浪費，丟棄了大量隱藏在這些對象中的信息。在樣本量較小的情況下，刪除少量對象就足以嚴重影響到數據的客觀性和結果的正確性。因此，當缺失數據所佔比例較大，特別是當缺數據非隨機分布時，這種方法可能導致數據發生偏離，從而得出錯誤的結論。
（二）均值替換法(Mean Imputation)
在變數十分重要而所缺失的數據量又較為龐大的時候，個案剔除法就遇到了困難，因為許多有用的數據也同時被剔除。圍繞著這一問題，研究者嘗試了各種各樣的辦法。其中的一個方法是均值替換法(mean
imputation)。我們將變數的屬性分為數值型和非數值型來分別進行處理。如果缺失值是數值型的，就根據該變數在其他所有對象的取值的平均值來填充該缺失的變數值；如果缺失值是非數值型的，就根據統計學中的眾數原理，用該變數在其他所有對象的取值次數最多的值來補齊該缺失的變數值。但這種方法會產生有偏估計，所以並不被推崇。均值替換法也是一種簡便、快速的缺失數據處理方法。使用均值替換法插補缺失數據，對該變數的均值估計不會產生影響。但這種方法是建立在完全隨機缺失（MCAR）的假設之上的，而且會造成變數的方差和標准差變小。
（三）熱卡填充法（Hotdecking）
對於一個包含缺失值的變數，熱卡填充法在資料庫中找到一個與它最相似的對象，然後用這個相似對象的值來進行填充。不同的問題可能會選用不同的標准來對相似進行判定。最常見的是使用相關系數矩陣來確定哪個變數（如變數Y）與缺失值所在變數（如變數X）最相關。然後把所有個案按Y的取值大小進行排序。那麼變數X的缺失值就可以用排在缺失值前的那個個案的數據來代替了。與均值替換法相比，利用熱卡填充法插補數據後，其變數的標准差與插補前比較接近。但在回歸方程中，使用熱卡填充法容易使得回歸方程的誤差增大，參數估計變得不穩定，而且這種方法使用不便，比較耗時。
（四）回歸替換法(Regression Imputation)
回歸替換法首先需要選擇若干個預測缺失值的自變數，然後建立回歸方程估計缺失值，即用缺失數據的條件期望值對缺失值進行替換。與前述幾種插補方法比較，該方法利用了資料庫中盡量多的信息，而且一些統計軟體（如Stata）也已經能夠直接執行該功能。但該方法也有諸多弊端，第一，這雖然是一個無偏估計，但是卻容易忽視隨機誤差，低估標准差和其他未知性質的測量值，而且這一問題會隨著缺失信息的增多而變得更加嚴重。第二，研究者必須假設存在缺失值所在的變數與其他變數存在線性關系，很多時候這種關系是不存在的。
（五）多重替代法(Multiple Imputation)
多重估算是由Rubin等人於1987年建立起來的一種數據擴充和統計分析方法，作為簡單估算的改進產物。首先，多重估算技術用一系列可能的值來替換每一個缺失值，以反映被替換的缺失數據的不確定性。然後，用標準的統計分析過程對多次替換後產生的若干個數據集進行分析。最後，把來自於各個數據集的統計結果進行綜合，得到總體參數的估計值。由於多重估算技術並不是用單一的值來替換缺失值，而是試圖產生缺失值的一個隨機樣本，這種方法反映出了由於數據缺失而導致的不確定性，能夠產生更加有效的統計推斷。結合這種方法，研究者可以比較容易地，在不舍棄任何數據的情況下對缺失數據的未知性質進行推斷。NORM統計軟體可以較為簡便地操作該方法

E. 數據比較少時候用什麼統計方法比較好

統計數據比較多的時候可用普通的數學上的平均法，次數比較少的時候可用首尾折半法！
anova 有多種anova , One-way ANOVA , 兩組數據 Factorial ANOVA, 測試不同的方法對數據的影響 Repeated measures ANOVA, 測試數據的環境是否相同 Multivariate analysis of variance (MANOVA 多因子變數數據的分布形態是正態分布，
具體看書

F. spss統計中類別的樣本量少怎麼辦

用spss計算樣本量的步驟如下：

1、一般來說，樣本數據是水平排列的，spss軟體要求數據垂直排列，所以可以直接粘貼原始水平數據，在excel中可以快速轉換成垂直數據，避免了繁瑣和錯誤的手工數據輸入。

2、復制excel垂直數據粘貼到spss軟體數據輸入區的第一列。之後選擇，雙擊「變數視圖」更改數據格式。

3、設置數據後，在工具欄中選擇「分析-描述統計-探索」。調用explore對話框。

4、然後，將區間估計值選擇到「因變數列表」（本例中為權重），點擊「統計」按鈕，調出「探索：統計」對話框。再次選中「說明」以設置置信區間。

5、最後，完成之後單擊繼續後點擊確定按鈕，即可以得到結果。

G. 病例對照研究中，如果很難獲得足夠多的病例組樣本，如何提高統計學效率

病例對照研究的功效也叫做把握度，可以解釋為拒絕無效假設的能力，一般認為一項研究中其應在75％以上。樣本量如果過小就會降低把握度，即功效降低，如果達不到標准結果也就不可信。因此樣本量是進行病例對照研究設計中必須考慮的問題。當然樣本量也不是越大越好，樣本量過大常會影響調查工作的質量，增加負擔、費用。

病例對照研究中的配比主要出於研究效率的考慮，配比不能直接控制混雜因素，但提高了控制混雜因素的效率，即使得分層分析更有效率。然而，如果配比因素與暴露有聯系，配比不僅沒有控制混雜作用，還能引入新的混雜。配比因素若與暴露無關，則會導致配比過頭，降低研究效率。

樓主之所以會產生這樣的困惑，是因為他認為必須對某些因素進行配比，僅僅覺得應當如此，即使知道配比可能損傷研究效率（例如有些病例找不到合適的配比對照不得不舍棄掉；配比帶來的每個研究對象統計效率的提高有時可能抵不過實施配比設計所需的花費），但是還是怕沒有配比會削弱研究的可信度。其實，有偏倚的或嚴重無效率的設計還談得上什麼可信度呢。
1、可比性問題，是流行病學研究中的重要問題。
在病例－對照研究中,確實對照的選擇往往比病歷的選擇更復雜、更困難，可以考慮選用同一或多個醫療機構中診斷的其他病歷，或社區人口中的非病例或健康人群，或病例的配偶、同胞、親戚、同學或同事等。這樣就可擴大對照的入選范圍，控制非研究因素的影響，增強兩組的可比性。

H. 如何處理統計過程中的數據缺失

處理不完備數據集的方法主要有以下三大類：（一）刪除元組
也就是將存在遺漏信息屬性值的對象（元組，記錄）刪除，從而得到一個完備的信息表。這種方法簡單易行，在對象有多個
屬性缺失值、被刪除的含缺失值的對象與信息表中的數據量相比非常小的情況下是非常有效的，類標號（假設是分類任務）缺少時
通常使用。然而，這種方法卻有很大的局限性。它是以減少歷史數據來換取信息的完備，會造成資源的大量浪費，丟棄了大量隱藏
在這些對象中的信息。在信息表中本來包含的對象很少的情況下，刪除少量對象就足以嚴重影響到信息表信息的客觀性和結果的正
確性；當每個屬性空值的百分比變化很大時，它的性能非常差。因此，當遺漏數據所佔比例較大，特別當遺漏數據非隨機分布時，這種方法可能導致數據發生偏離，從而引出錯誤的結論。（二）數據補齊
這類方法是用一定的值去填充空值，從而使信息表完備化。通常基於統計學原理，根據決策表中其餘對象取值的分布情況來
對一個空值進行填充，譬如用其餘屬性的平均值來進行補充等。數據挖掘中常用的有以下幾種補齊方法：
(1)人工填寫（filling manually）
由於最了解數據的還是用戶自己，因此這個方法產生數據偏離最小，可能是填充效果最好的一種。然而一般來說，該方法很費時，當數據規模很大、空值很多的時候，該方法是不可行的。
(2)特殊值填充（Treating Missing Attribute values as Special values）將空值作為一種特殊的屬性值來處理，它不同於其他的任何屬性值。如所有的空值都用「unknown」填充。這樣將形成另一個有趣的

概念，可能導致嚴重的數據偏離，一般不推薦使用。 (3)平均值填充（Mean/Mode Completer）
將信息表中的屬性分為數值屬性和非數值屬性來分別進行處理。如果空值是數值型的，就根據該屬性在其他所有對象的取值
的平均值來填充該缺失的屬性值；如果空值是非數值型的，就根據統計學中的眾數原理，用該屬性在其他所有對象的取值次數最多
的值(即出現頻率最高的值)來補齊該缺失的屬性值。另外有一種與其相似的方法叫條件平均值填充法（Conditional Mean
Completer）。在該方法中，缺失屬性值的補齊同樣是靠該屬性在其他對象中的取值求平均得到，但不同的是用於求平均的值並不是
從信息表所有對象中取，而是從與該對象具有相同決策屬性值的對象中取得。這兩種數據的補齊方法，其基本的出發點都是一樣的
，以最大概率可能的取值來補充缺失的屬性值，只是在具體方法上有一點不同。與其他方法相比，它是用現存數據的多數信息來推測缺失值。
(4)熱卡填充（Hot deck imputation，或就近補齊）
對於一個包含空值的對象，熱卡填充法在完整數據中找到一個與它最相似的對象，然後用這個相似對象的值來進行填充。不
同的問題可能會選用不同的標准來對相似進行判定。該方法概念上很簡單，且利用了數據間的關系來進行空值估計。這個方法的缺點在於難以定義相似標准，主觀因素較多。 (5)K最近距離鄰法（K-means clustering）
先根據歐式距離或相關分析來確定距離具有缺失數據樣本最近的K個樣本，將這K個值加權平均來估計該樣本的缺失數據。
(6)使用所有可能的值填充（Assigning All Possible values of the Attribute）這種方法是用空缺屬性值的所有可能的屬性取值來填充，能夠得到較好的補齊效果。但是，當數據量很大或者遺漏的屬性值
較多時，其計算的代價很大，可能的測試方案很多。另有一種方法，填補遺漏屬性值的原則是一樣的，不同的只是從決策相同的對

象中嘗試所有的屬性值的可能情況，而不是根據信息表中所有對象進行嘗試，這樣能夠在一定程度上減小原方法的代價。 (7)組合完整化方法（Combinatorial Completer）
這種方法是用空缺屬性值的所有可能的屬性取值來試，並從最終屬性的約簡結果中選擇最好的一個作為填補的屬性值。這是
以約簡為目的的數據補齊方法，能夠得到好的約簡結果；但是，當數據量很大或者遺漏的屬性值較多時，其計算的代價很大。另一
種稱為條件組合完整化方法（Conditional Combinatorial Complete），填補遺漏屬性值的原則是一樣的，不同的只是從決策相同
的對象中嘗試所有的屬性值的可能情況，而不是根據信息表中所有對象進行嘗試。條件組合完整化方法能夠在一定程度上減小組合
完整化方法的代價。在信息表包含不完整數據較多的情況下，可能的測試方案將巨增。
(8)回歸（Regression）
基於完整的數據集，建立回歸方程（模型）。對於包含空值的對象，將已知屬性值代入方程來估計未知屬性值，以此估計值
來進行填充。當變數不是線性相關或預測變數高度相關時會導致有偏差的估計。 (9)期望值最大化方法（Expectation maximization，EM）
EM演算法是一種在不完全數據情況下計算極大似然估計或者後驗分布的迭代演算法[43]。在每一迭代循環過程中交替執行兩個步
驟：E步（Excepctaion step,期望步），在給定完全數據和前一次迭代所得到的參數估計的情況下計算完全數據對應的對數似然函
數的條件期望；M步（Maximzation step，極大化步），用極大化對數似然函數以確定參數的值，並用於下步的迭代。演算法在E步和M
步之間不斷迭代直至收斂，即兩次迭代之間的參數變化小於一個預先給定的閾值時結束。該方法可能會陷入局部極值，收斂速度也不是很快，並且計算很復雜。
(10)多重填補（Multiple Imputation，MI）

多重填補方法分為三個步驟：①為每個空值產生一套可能的填補值，這些值反映了無響應模型的不確定性；每個值都被用來
填補數據集中的缺失值，產生若干個完整數據集合。②每個填補數據集合都用針對完整數據集的統計方法進行統計分析。③對來自
各個填補數據集的結果進行綜合，產生最終的統計推斷，這一推斷考慮到了由於數據填補而產生的不確定性。該方法將空缺值視為
隨機樣本，這樣計算出來的統計推斷可能受到空缺值的不確定性的影響。該方法的計算也很復雜。 (11)C4.5方法
通過尋找屬性間的關系來對遺失值填充。它尋找之間具有最大相關性的兩個屬性，其中沒有遺失值的一個稱為代理屬性，另
一個稱為原始屬性，用代理屬性決定原始屬性中的遺失值。這種基於規則歸納的方法只能處理基數較小的名詞型屬性。
就幾種基於統計的方法而言，刪除元組法和平均值法差於hot deck、EM和MI；回歸是比較好的一種方法，但仍比不上hot
deck和EM；EM缺少MI包含的不確定成分。值得注意的是，這些方法直接處理的是模型參數的估計而不是空缺值預測本身。它們合適
於處理無監督學習的問題，而對有監督學習來說，情況就不盡相同了。譬如，你可以刪除包含空值的對象用完整的數據集來進行訓
練，但預測時你卻不能忽略包含空值的對象。另外，C4.5和使用所有可能的值填充方法也有較好的補齊效果，人工填寫和特殊值填充則是一般不推薦使用的。
補齊處理只是將未知值補以我們的主觀估計值，不一定完全符合客觀事實，在對不完備信息進行補齊處理的同時，我們或多
或少地改變了原始的信息系統。而且，對空值不正確的填充往往將新的雜訊引入數據中，使挖掘任務產生錯誤的結果。因此，在許
多情況下，我們還是希望在保持原始信息不發生變化的前提下對信息系統進行處理。這就是第三種方法：
混沌論壇希望可以幫助到你~望採納哦～謝謝～

I. 統計學高手請幫忙，樣本數小用什麼統計方法及統計的結果

樣本小的話，就不能用統計方法了吧。
但是也能大概知道下情況吧。 B組的成活較高，
可以再根據猜想進一步收集數據吧。
各樣本數在100以上，可以用mANOVA吧，就是比較各項指標的均值

閱讀全文

與樣本量少如何用統計學方法彌補相關的資料

熱點內容

配電箱控制櫃的安裝方法發布：2025-02-08 10:28:43 瀏覽：2

吸塵器抽真空使用方法發布：2025-02-08 10:22:53 瀏覽：65

做人流方法什麼好發布：2025-02-08 10:22:13 瀏覽：974

說話與溝通的方法有哪些發布：2025-02-08 10:11:23 瀏覽：624

招聘談錢技巧和方法發布：2025-02-08 10:09:53 瀏覽：8

怎麼補色最快的方法發布：2025-02-08 10:00:55 瀏覽：380

痛風解決方法有哪些發布：2025-02-08 09:51:01 瀏覽：363

門牌調換最佳方法發布：2025-02-08 09:47:12 瀏覽：21

什麼方法快速消紅發布：2025-02-08 09:27:38 瀏覽：665

如何運用文學批評方法發布：2025-02-08 09:25:34 瀏覽：497

小米手機5s輸入法在哪裡設置方法發布：2025-02-08 09:20:32 瀏覽：442

通信網路優化的常用方法發布：2025-02-08 09:12:23 瀏覽：774

數據分析包含哪些方法發布：2025-02-08 09:11:52 瀏覽：613

88打六折怎麼計算方法發布：2025-02-08 09:00:56 瀏覽：338

藏香的使用方法發布：2025-02-08 08:54:36 瀏覽：711

41的豎式計算方法發布：2025-02-08 08:28:23 瀏覽：944

如何快速選擇有效的治療方法發布：2025-02-08 08:25:25 瀏覽：919

centos安裝軟體的方法發布：2025-02-08 08:25:20 瀏覽：289

掛衣架安裝方法和步驟發布：2025-02-08 08:24:34 瀏覽：909

乙肝表抗定量檢測方法發布：2025-02-08 08:23:04 瀏覽：605