導航:首頁 > 使用方法 > 離群值的取捨常用什麼方法

離群值的取捨常用什麼方法

發布時間:2022-10-16 12:40:52

A. 離群值的特徵

發現離群值也可以通過觀察值的頻數表或直方圖來初步判斷,也可通過統計軟體作觀察值的箱式圖來判斷,如果觀測值距箱式圖底線Q1(第25百分位數)或頂線Q3(第75百分位數)過遠,如超出箱體高度(四分位數間距)的兩倍以上,則可視該觀測值為離群值。當數據近似正態分布時,有一種較為簡單的方法,可用均數加減2.5s來判斷,如觀測值在此范圍以外,可視為離群值。在統計學上也可用線性回歸的方法來對離群值進行判斷。當出現離群值的時候,要慎重處理,要將專業知識和統計學方法結合起來,首先應認真檢查原始數據,看能否從專業上加以合理的解釋,如數據存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。如果數據間無明顯的邏輯錯誤,則可將離群值刪除前後各做一次統計分析,若前後結果不矛盾,則該例觀測值可予以保留。
離群值處理方法包括:
一、剔除離群值,不追加觀測值;
二、剔除離群值,追加觀測值;或剔除離群值,適宜地插補替代;
三、找到實際原因修正離群值,否則予以保留的; 離群值的取捨 1. 定義在一組平行測定數據中,有時會出現個別值與其他值相差較遠,這種值叫離群值。判斷一個測定值是否是離群值,不是把數據擺在一塊看一看,那個離得遠,那個是離群值,而是要經過計算、比較才能確定,我們用的方法就叫Q檢驗法。2. 檢驗方法(1)求Q:Q= 即:求出離群值與其最鄰近的一個數值的差,再將它與極差相比就得Q值。(2)比較:根據測定次數n和置信度查Q,若Q>Q,則離群值應捨去,反之則保留離群值。

B. 離群值怎麼計算,是做生化實驗的結果做統計要用,具體怎麼計算,還有它的統計學意義,在線等,好的加分

離群值的定義各個行業有可能有不同的標准。國際上比較通用的標準是以低於箱形圖(Boxplot)下箱體的1.5倍個四分位間距(IQR),或是高於箱形圖(Boxplot)上箱體的1.5倍個四分位間距作為離群值的定義,當這個標准提高至3倍個四分位間距時定義為極端值。不過這個演算法使用手算很麻煩,我推薦你使用SPSS軟體。

使用SPSS的頻率(Frequencies)程序就可以了,步驟是Analyze,Descriptive Statistics ,Frequencies,Statistics,在這個對話框中勾選quartils就可以了,以下就是我做的一個結果。

Statistics
數學期中
N Valid 335
Missing 7
Percentiles 25 85.5000
50 92.0000
75 96.0000
因此,(上箱體位置)Q3等於96,(下箱體位置)Q1等於85.5,表明學生25%--75%的分數范圍位於85.5--96.0之間。此時IQR=Q3-Q1=96-85.5=10.5

離群值:
當你的數據低於85.5-1.5X10.5=69.75
或者
當你的數據高於96+1.5X10.5=111.75

極端值:
當你的數據低於85.5-3X10.5=54.0
或者
當你的數據高於96+3X10.5=127.5

以上方法是一個國際通用的方法,不管你的數據是否符合正態分布都可以使用。你的生化數據使用這個方法應該是沒有問題的,順便說一下,我也在生化實驗室工作過。

此外,使用SPSS的Explore可以生成箱形圖(Boxplot),並直接在圖中顯示出離群值和極端值。

C. R如何找熱圖中的離群值

可以通過三個方法找出離群值:
1.單變數檢測法
2.雙變數檢測法
3.多元模型檢測法
離群值 (outliers)是指在一份數據中,與其他觀察值具有明顯不同特徵的那些觀察值。然而,並沒有一個明確的准則來判斷哪些觀察值屬於「離群值」。這主要取決於多種因素。

D. 用spss怎麼找出離群值和異常值

第一步:異常值檢測
異常值的檢驗有很多種方法,最常見的是圖示法,也有使用分析方法進行探索,如下說明。
箱盒圖:實驗研究時經常使用,非常直觀的展示出異常數據;
散點圖:研究X和Y的關系時,可直觀展示查看是否有異常數據;
描述分析:可通過最大最小值等各類指標大致判斷數據是否有異常;
其它:比如結合正態分布圖,頻數分析等判斷是否有異常值。
02
第二步:異常值判定
上述已經說明異常值會帶來嚴重的影響,扭曲數據結論等。那麼首先需要設定異常值的標准,然後再對其進行處理。異常值的判定標准並不統一,更多是通過人為標准進行設定,SPSSAU提供以下幾類判定規則:
缺失數字
小於設定標準的數字
大於設定標準的數字
大於3個標准差

03
第三步:異常值處理
完成異常值的判定之後,接著需要進行處理;SPSSAU提供兩類處理方式,分別為:
1、設置為Null值;此類處理最簡單,而且絕大多數情況下均使用此類處理;直接將異常值「幹掉」,相當於沒有該異常值。如果異常值不多時建議使用此類方法
2、填補;如果異常值非常多時,則可能需要進行填補設置,SPSSAU共提供平均值,中位數,眾數和隨機數共四種填補方式。建議使用平均值填補方式。

E. 請教關於離群值的處理問題

我們在分析數據的時候,經常會碰到某些數據遠遠大於或小於其他數據,這些明顯偏離的數據就是離群值,也叫奇異值、極端值。

離群值產生的原因大致有兩點:
1.總體固有變異的極端表現,這是真實而正常的數據,只是在這次實驗中表現的有些極端,這類離群值與其餘觀測值屬於同一總體。
2.由於試驗條件和實驗方法的偶然性,或觀測、記錄、計算時的失誤所產生的結果,是一種非正常的、錯誤的數據,這些數據與其餘觀測值不屬於同一總體。

由於數據的分布不同,判斷離群值的方法也有所差別,在此只介紹國標GB/T4883-2008對於正態分布情況下的離群值判斷方法,其他分布情況下,我還沒有找到相關資料。
對於離群值,國標也有一些概念定義:
1.檢出水平
為檢驗出離群值而指定的統計檢驗的顯著性水平,和大多數檢驗一樣,α一般為0.05
2.剔除水平
為檢驗出離群值是否為高度離群值而指定的統計檢驗的顯著性水平,剔除水平α*不應超過檢出水平α,通常為0.01,個人認為這個剔除水平就是判斷該離群值是否需要實際剔除,也就是說該離群值有可能是第二類原因產生的非正常樣本數據。
3.統計離群值
在剔除水平下統計檢驗為顯著的離群值
4.歧離值
在檢出水平下顯著,而在剔除水平下不顯著的離群值。
================================================
正態分布情況下的離群值判斷方法,大致可分為兩類:可以檢驗剔除水平和不可檢驗剔除水平
一、可檢驗剔除水平

1.總體標准差已知時,奈爾檢驗法
對樣本數據按從小到大順序排序,
如懷疑最大值X(n)為最大值,則計算統計量Rn

確定檢出水平α,查奈爾系數表(見國標GB/T4883-2008),得出臨界值
當Rn>R1-α(n)時,判定X(n)為離群值,否則不能判定
確定剔除水平α*,查奈爾系數表(見國標GB/T4883-2008),得出臨界值
當Rn>R1-α*(n)時,判定X(n)為統計離群值,否則不能判定

如懷疑最小值X(1)為最大值,則計算統計量Rn'

確定檢出水平α,查奈爾系數表(見國標GB/T4883-2008),得出臨界值
當Rn'>R1-α(n)時,判定X(1)為離群值,否則不能判定
確定剔除水平α*,查奈爾系數表(見國標GB/T4883-2008),得出臨界值
當Rn'>R1-α*(n)時,判定X(1)為統計離群值,否則不能判定

2.總體標准差未知時,格拉布斯檢驗法
對樣本數據按從小到大順序排序,然後計算樣本均值和樣本標准差s

如懷疑最大值X(n)為最大值,計算統計量Gn

確定檢出水平α,查出格拉布斯系數表(見國標GB/T4883-2008),得出臨界值
當Gn>G1-α(n)時,判定X(n)為離群值,否則不能判定
確定剔除水平α*,查出格拉布斯系數表(見國標GB/T4883-2008),得出臨界值
當Gn>G1-α*(n)時,判定X(n)為統計離群值,否則不能判定

如懷疑最小值X(1)為最大值,則計算統計量Gn'

確定檢出水平α,查出格拉布斯系數表(見國標GB/T4883-2008),得出臨界值
當Gn'>G1-α(n)時,判定X(1)為離群值,否則不能判定
確定剔除水平α*,查出格拉布斯系數表(見國標GB/T4883-2008),得出臨界值
當Gn'>G1-α*(n)時,判定X(1)為統計離群值,否則不能判定

3.總體標准差未知時,狄克遜(Dixon)檢驗法
對樣本數據按從小到大順序排序
樣本量n在3-30時
計算統計量

樣本量n在30-100時
計算統計量

確定檢出水平α,查狄克遜系數表(見國標GB/T4883-2008),得出臨界值
當Dn>D1-α(n)時,判定高端值X(n)為離群值,否則不能判定
當Dn'>D1-α*(n)時,判定低端值X(1)為離群值,否則不能判定
4.總體標准差未知時,偏度-峰度檢驗法
我們知道峰度和偏度是判斷數據是否為正態分布的指標,而離群值則明顯偏離樣本主體,因此我們也可以使用偏度-峰度檢驗法來判斷離群值
<1>單側情形——偏度檢驗法
當離群值處於高端或低端一側時,可使用偏度檢驗法判斷,首先構造偏度統計量bs

確定檢出水平α,查偏度檢驗系數表(見國標GB/T4883-2008),得出臨界值
當bs>b1-α(n)時,判定高端值X(n)為離群值,否則不能判定
當bs'>b1-α(n)時,判定低端值X(1)為離群值,否則不能判定
確定剔除水平α*,查偏度系數表(見國標GB/T4883-2008),得出臨界值
當bs>b1-α*(n)時,判定高端值X(n)為統計離群值,否則不能判定
當bs'>b1-α*(n)時,判定低端值X(1)為統計離群值,否則不能判定
<2>雙側情形——峰度檢驗法
當高端、低端兩側都可能出現離群值時,可使用峰度檢驗法判斷,首先構造峰度統計量bk

確定檢出水平α,查峰度檢驗系數表(見國標GB/T4883-2008),得出臨界值
當bk>b'1-α(n)時,判定離均值最遠的觀測值為離群值,否則判定未發現離群值

確定剔除水平α*,查峰度系數表(見國標GB/T4883-2008),得出臨界值
當bk>b'1-α*(n)時,判定離均值最遠的觀測值為統計離群值,否則未發現統計離群值。

二、不可檢驗剔除水平
1.觀察法
根據直方圖或四分點陣圖進行判斷,現在很多統計軟體在繪制這兩種圖時,都會將離群值特殊標記,一般認為在均值±3倍標准差以外都屬於離群值,高出四分位距兩倍以上也屬於離群值。
2.萊伊達法
又稱為3σ准則,在已知總體標准差的情況下使用σ進行判斷,但是實際上總體標准差往往未知,因此常使用樣本標准差s替代σ,以樣本均值替代真值,具體為

Xd是疑似離群值,X為均值
如果疑似離群值與均值的差值大於三倍標准差,則可認為該值為離群值。
3.肖維特法
統計量

如果計算出的ω值大於肖維特系數表中相應測定次數n時的值,則可認為該值為異常值

3.羅曼諾夫斯基檢驗法
又稱t檢驗,首先將疑似離群值剔除,然後計算剔除後的均值和標准差

根據測量次數n和顯著性水平α,進行t檢驗,得出系數k,如果

則認為xj為離群值

4.4d檢驗法

5.中位數與算數平均值比較判斷法
我們知道中位數居於一組數據中間的數,而均值則可認為是一組數字的「重心」或「平衡點」,當二者相等的時候,可認為這組數字是絕對平衡、沒有離群值的,我們可以據此進行判斷,當二者相差較大時,表面該組數據可能存在離群值,將疑似離群值剔除之後,再計算均值和中位數,如果二者相差變小,則可認為被剔除值是離群值。
======================================
判斷離群值方法的選擇與應注意的問題
1.合理選擇離群值的判斷方法
離群值的判斷方法很多,實際中到底選用哪一個,需根據對測量要求的精準度和測量次數多少來綜合確定,一般情況下,測量次數多於30,或大於10次且只做粗略判斷時,使用萊伊達法即可;判斷精度要求不高,但要求快捷方便時,可以選用4d和中位數與算數平均數比較法。實際上,對於不用查表的方法大都比較便捷,但是代價是精度不夠,且無法檢驗剔除水平,相反一些需要藉助查表的方法精度較高但是計算復雜,各有利弊。
2.准確找出離群值
一般情況下,測量列中殘差較大者就是疑似離群值,它也就是樣本數據中的最大值或最小值
3.查找產生離群值的原因
已經判斷為離群值的,即使是統計離群值,也不要簡單剔除了之,應進一步分析產生離群值的原因。

F. 怎麼用excel處理離群值

1.在菜單欄上執行:數據挖掘--清除數據--離群值。

G. 如果調查一組數據的標准差,則檢驗該組數據是否存在離群值的方法有哪些

可以選擇以下方法。用線性回歸的辦法求得某一點到直線最遠,去除這一點即可。異常值也稱離群值,具體地說,判斷標准依據實際情況,根據業務知識及實際需要而定。

要是一般地說,可以用公式計算:

upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。

lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。


H. 定量分析運算中離群值的取捨應遵循什麼原則

摘要 這位顧客您好,我是網路資源庫的百曉通導師,您的問題我已經看到了,現在我正在調取網路資源庫和專家們一起來分析您的問題,從中選取最合適最貼近您實際情況的處理方案來為您解決,請您給我一點時間,我將為您完美的解決這個問題,馬上就好喲

I. 分析化學離群值怎麼算

分析化學離群值,即可疑值的判斷(計算),常用以下兩種方法:
1、Q - 檢驗法:需要計算平均值、統計量Q值、查Q值表,再比對判斷。
2、格魯布斯法:需要計算平均值、標准偏差、統計量T值、查t值表,在
再比對判斷。

J. 分析化學離群值怎麼算

分析化學離群值,即可疑值的判斷(計算),常用以下兩種方法:
1、Q
-
檢驗法:需要計算平均值、統計量Q值、查Q值表,再比對判斷。
2、格魯布斯法:需要計算平均值、標准偏差、統計量T值、查t值表,在
再比對判斷。

閱讀全文

與離群值的取捨常用什麼方法相關的資料

熱點內容
足外翻治療方法如何治療 瀏覽:382
做小扇子的簡單方法 瀏覽:226
醫美洗臉的正確方法 瀏覽:37
腦膜炎引起癱瘓哪裡可以治療方法 瀏覽:632
橋梁搭建方法視頻 瀏覽:344
哮喘的長期治療方法 瀏覽:30
如何處理活的大龍蝦的方法 瀏覽:264
新手機密碼鎖定方法 瀏覽:579
水晶玉器真假鑒別方法 瀏覽:29
如何只用一種方法就能減肥 瀏覽:105
什麼是大學計算方法 瀏覽:703
敏感肌怎樣才能好有哪些方法 瀏覽:745
面對問題要能夠找到解決方法作文 瀏覽:379
毛豆的種植方法和技術視頻 瀏覽:435
全自動免疫熒光分析儀操作方法 瀏覽:974
如何挑選牛仔褲的裁剪方法 瀏覽:361
甲亢的常用診斷方法 瀏覽:360
天固智能門鎖安裝方法 瀏覽:460
pc肌鍛煉方法教學 瀏覽:183
t梁數量計算方法 瀏覽:144