『壹』 可疑測量值的舍棄
在測得的一組數據中,有時會發現個別數值與平均值相差較大。如果保留,對平均值影響較大,對這種偏差較大的數據是否舍棄,需要有確實的根據和可信的判別方法。如果你能確定是由於某個過失引起的當然可以舍棄。如果找不到明確的原因,那就應該按照誤差的分布理論來確定其取捨。過去常用的是chauvenet數據舍棄標准,計算方法比較簡便。有人研究認為應用這一方法發生舍棄合理數據的概率較大,有時可達40%。目前已經很少應用。主要應用Grubbs數據舍棄標准,具體計算如下。
假設測得一組數據為N1、N2…Nk,其平均值為,標准誤差為
核輻射場與放射性勘查
找出其中與平均值偏差絕對值最大的數據,Grubbs導出了統計量g所服從的統計分布。
核輻射場與放射性勘查
在這個理論基礎上,若選定顯著水平概率a為一個較小的數值。如取a=0.05或0.01,對應不同的k值,求出g值的臨界值(表4-8-5)。若根據一組數據中的可疑數據按(4-8-24)式算得的g值。若大於相應的臨界值,則該數據應予舍棄。
表4-8-5 Grubbs gL臨界值
具體步驟是:
1)選取與平均值偏差最大的數,根據(4-8-24)計算g值;
2)根據k和選定的a=0.05或0.01,查表4-8-5得gL臨界值;
3)若g≥gL則該數據異常,應當舍棄。
『貳』 什麼是q檢驗法,f檢驗法和t檢驗法
【Q檢驗法】
Q檢驗法又叫做舍棄商法,是迪克森(W.J.Dixon)在1951年專為分析化學中少量觀測次數(n<10)提出的一種簡易判據式。
按以下步驟來確定可疑值的取捨:
(1)將各數據按遞增順數排列:X1,X2,X3,…,Xn-1,Xn。
(2)求出最大值與最小值的差值(極差)Xmax-Xmin.
(3)求出可疑值與其最相鄰數據之間的差值的絕對值。
(4)求出Q(Q等於(3)中的差值除以(2)中的極差)。
(5)根據測定次數n和要求的置信水平(如95%)查表(見下)得到值
(6)判斷:若計算Q>Q表,則捨去可疑值,否則應予保留。
【F檢驗法】
F檢驗法是英國統計學家Fisher提出的,主要通過比較兩組數據的方差S2,以確定他們的精密度是否有顯著性差異。至於兩組數據之間是否存在系統誤差,則在進行F檢驗並確定它們的精密度沒有顯著性差異之後,再進行t
檢驗。
樣本標准偏差的平方,即:
兩組數據就能得到兩個S²值,
由表中f大和f小(f為自由度n-1),查得F表,
然後計算的F值與查表得到的F表值比較,如果
F
<
F表
表明兩組數據沒有顯著差異;
F
≥
F表
表明兩組數據存在顯著差異。
【T檢驗法】
T檢驗法,亦稱student
t檢驗(Student's
t
test),主要用於樣本含量較小(例如n<30),總體標准差σ未知的正態分布資料。
t檢驗是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著。它與f檢驗、卡方檢驗並列。t檢驗是戈斯特為了觀測釀酒質量而發明的。戈斯特在位於都柏林的健力士釀酒廠擔任統計學家,基於Claude
Guinness聘用從牛津大學和劍橋大學出來的最好的畢業生以將生物化學及統計學應用到健力士工業程序的創新政策。戈斯特於1908年在Biometrika上公布t檢驗,但因其老闆認為其為商業機密而被迫使用筆名(學生)。實際上,跟他合作過的統計學家是知道「學生」的真實身份是戈斯特的。
『叄』 可疑值如何處理
可疑值也叫離群值,處理方法有:
一、剔除離群值,不追加觀測值;
二、剔除離群值,追加觀測值;或剔除離群值,適宜地插補替代;
三、找到實際原因修正離群值,否則予以保留的。
簡介:
離群值(outlier)是指在數據中有一個或幾個數值與其他數值相比差異較大。
特徵:
發現離群值也可以通過觀察值的頻數表或直方圖來初步判斷,也可通過統計軟體作觀察值的箱式圖來判斷,如果觀測值距箱式圖底線Q1(第25百分位數)或頂線Q3(第75百分位數)過遠,如超出箱體高度(四分位數間距)的兩倍以上,則可視該觀測值為離群值。當數據近似正態分布時,有一種較為簡單的方法,可用均數加減2.5s來判斷,如觀測值在此范圍以外,可視為離群值。在統計學上也可用線性回歸的方法來對離群值進行判斷。當出現離群值的時候,要慎重處理,要將專業知識和統計學方法結合起來,首先應認真檢查原始數據,看能否從專業上加以合理的解釋,如數據存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。如果數據間無明顯的邏輯錯誤,則可將離群值刪除前後各做一次統計分析,若前後結果不矛盾,則該例觀測值可予以保留。
『肆』 什麼是四倍法判斷可疑值的概念和步驟
異常值。
用4d法判斷可疑值取捨時,計算所有數據的平均值和平均偏差,再比較可疑值與平均值的差值的絕對值是否大於4倍平均偏差。
『伍』 如何統一Q檢驗法對一個以上可疑值的取捨問題
在定量分析工作中,通常要對同一試樣做幾份平行測定,然後求出平均值。但所測結果總會有大有小,如果數據中出現顯著性差異,即有的數據特大或特小(稱為可疑值或離群值),是否都能參加平均值的計算呢?這就需要用統計學方法進行檢驗,不得隨意棄去或保留可疑值。取捨可疑值的方法很多,其中Q檢驗是一種簡便易行、比較常用的方法。具體怎麼檢驗,與可疑值的分布情況有關。可疑值的分布,一般可分三種情況: (1)在一組由小到大排列的數據中,一個可疑值分布於平均值的一側『。 (2)兩個可疑值分布於平均值的兩側。 (3)兩個可疑值分布於平均值的同側。 對第一類情況,檢驗比較簡單,處理方法比較一致,無需重新提出討論。對第二類型的Q檢驗,在現有分析化學教材資料中,出現了三種不同的處理方法【』一」1,而且影響到檢驗結果的一致性,使讀者無所適從,給統一教學和實際問題的處理帶來了一定困難。本文通過同一實例,運用多種可靠的檢驗方法作比較,試圖從中找出統一的檢驗模式,並提出第三類型的檢驗處理方法,以便統一檢驗結果,統一教學方法。下面討論後兩種分布的檢驗問題。
『陸』 可疑測量值的舍棄
在測得的一組數據中,有時會發現個別數值與平均值相差較大。如果保留,對平均值影響較大,對這種偏差較大的數據是否舍棄,需要有確實的根據和可信的判別方法。如果你能確定是由於某個過失引起的當然可以舍棄。如果找不到明確的原因,那就應該按照誤差的分布理論來確定其取捨。過去常用的是chauvenet數據舍棄標准,計算方法比較簡便。有人研究認為應用這一方法發生舍棄合理數據的概率較大,有時可達40%。目前已經很少應用。主要應用Grubbs數據舍棄標准,具體計算如下。
假設測得一組數據為N1、N2…Nk,其平均值為
核輻射場與放射性勘查
找出其中與平均值偏差絕對值最大的數據,Grubbs導出了統計量g所服從的統計分布。
核輻射場與放射性勘查
在這個理論基礎上,若選定顯著水平概率a為一個較小的數值。如取a=0.05 或0.01,對應不同的k值,求出g值的臨界值(表4-8-1)。若根據一組數據中的可疑數據按(4-8-24)式算得的g值。若大於相應的臨界值,則該數據應予舍棄。
表4-8-5 Grubbs gL臨界值
具體步驟是:
1)選取與平均值偏差最大的數,根據(4-8-24)計算g值;
2)根據k和選定的a=0.05或0.01,查表4-8-5得gL臨界值;
3)若g≥gL則該數據異常,應當舍棄。
『柒』 你知道如何用Excel 對實驗數據進行可疑值的取捨嗎(G檢驗),有沒有現成的公式
用IF或條件格式,要看具體的問題
『捌』 q檢驗是什麼
Q檢驗法(又叫做舍棄商法)是一種由迪克森在1951年專為分析化學中少量觀測次數(n<10)提出的簡易判據式。
按以下步驟來確定可疑值的取捨:
(1)將各數據按遞增順序排列:X1,X2,X3,…,Xn-1,Xn。
(2)求出最大值與最小值的差值(極差)Xmax-Xmin.
(3)求出可疑值與其最相鄰數據之間的差值的絕對值。
(4)求出Q(Q等於(3)中的差值除以(2)中的極差)。
(5)根據測定次數n和要求的置信水平(如95%)。
(6)判斷:若計算Q>Q表,則捨去可疑值,否則應予保留。
(8)可疑值的取捨常用統計方法擴展閱讀:
例如現場儀器測在同一點上4次測出:0.1014,0.1012,0.1025,0.1016,其中0.1025與其他數值差距較大,是否應該捨去。
根據「Q值檢驗法」:
(1)對數據進行從小到大排列:0.1012,0.1014,0.1016,0.1025;
(2)求出最大值與最小值的差值=0.1025-0.1012=0.0013
(3)求出可疑數據與其相鄰數值的差值的絕對值=0.1025-0.1016=0.0009
(4)計算Q1=0.0009/0.0013=0.692
(5)測試次數為4,置信水平為0.9時的Q2=0.76
(6)由於Q1<Q2,所以,0.1025不應舍棄。
『玖』 如何判別測量數據中是否有異常值
一般異常值的檢測方法有基於統計的方法,基於聚類的方法,以及一些專門檢測異常值的方法等,下面對這些方法進行相關的介紹。
1. 簡單統計
如果使用pandas,我們可以直接使用describe()來觀察數據的統計性描述(只是粗略的觀察一些統計量),不過統計數據為連續型的,如下:
df.describe()紅色箭頭所指就是異常值。
以上是常用到的判斷異常值的簡單方法。下面來介紹一些較為復雜的檢測異常值演算法,由於涉及內容較多,僅介紹核心思想,感興趣的朋友可自行深入研究。
4. 基於模型檢測
這種方法一般會構建一個概率分布模型,並計算對象符合該模型的概率,把具有低概率的對象視為異常點。如果模型是簇的集合,則異常是不顯著屬於任何簇的對象;如果模型是回歸時,異常是相對遠離預測值的對象。
離群點的概率定義:離群點是一個對象,關於數據的概率分布模型,它具有低概率。這種情況的前提是必須知道數據集服從什麼分布,如果估計錯誤就造成了重尾分布。
比如特徵工程中的RobustScaler方法,在做數據特徵值縮放的時候,它會利用數據特徵的分位數分布,將數據根據分位數劃分為多段,只取中間段來做縮放,比如只取25%分位數到75%分位數的數據做縮放。這樣減小了異常數據的影響。
優缺點:(1)有堅實的統計學理論基礎,當存在充分的數據和所用的檢驗類型的知識時,這些檢驗可能非常有效;(2)對於多元數據,可用的選擇少一些,並且對於高維數據,這些檢測可能性很差。
5. 基於近鄰度的離群點檢測
統計方法是利用數據的分布來觀察異常值,一些方法甚至需要一些分布條件,而在實際中數據的分布很難達到一些假設條件,在使用上有一定的局限性。
確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。這種方法比統計學方法更一般、更容易使用,因為一個對象的離群點得分由到它的k-最近鄰(KNN)的距離給定。
需要注意的是:離群點得分對k的取值高度敏感。如果k太小,則少量的鄰近離群點可能導致較低的離群點得分;如果K太大,則點數少於k的簇中所有的對象可能都成了離群點。為了使該方案對於k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。
優缺點:(1)簡單;(2)缺點:基於鄰近度的方法需要O(m2)時間,大數據集不適用;(3)該方法對參數的選擇也是敏感的;(4)不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這種密度的變化。
5. 基於密度的離群點檢測
從基於密度的觀點來說,離群點是在低密度區域中的對象。基於密度的離群點檢測與基於鄰近度的離群點檢測密切相關,因為密度通常用鄰近度定義。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數。如果該距離小,則密度高,反之亦然。另一種密度定義是使用DBSCAN聚類演算法使用的密度定義,即一個對象周圍的密度等於該對象指定距離d內對象的個數。
優缺點:(1)給出了對象是離群點的定量度量,並且即使數據具有不同的區域也能夠很好的處理;(2)與基於距離的方法一樣,這些方法必然具有O(m2)的時間復雜度。對於低維數據使用特定的數據結構可以達到O(mlogm);(3)參數選擇是困難的。雖然LOF演算法通過觀察不同的k值,然後取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。
6. 基於聚類的方法來做異常點檢測
基於聚類的離群點:一個對象是基於聚類的離群點,如果該對象不強屬於任何簇,那麼該對象屬於離群點。
離群點對初始聚類的影響:如果通過聚類檢測離群點,則由於離群點影響聚類,存在一個問題:結構是否有效。這也是k-means演算法的缺點,對離群點敏感。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點,對象再次聚類(這個不能保證產生最優結果)。
優缺點:(1)基於線性和接近線性復雜度(k均值)的聚類技術來發現離群點可能是高度有效的;(2)簇的定義通常是離群點的補,因此可能同時發現簇和離群點;(3)產生的離群點集和它們的得分可能非常依賴所用的簇的個數和數據中離群點的存在性;(4)聚類演算法產生的簇的質量對該演算法產生的離群點的質量影響非常大。
7. 專門的離群點檢測
其實以上說到聚類方法的本意是是無監督分類,並不是為了尋找離群點的,只是恰好它的功能可以實現離群點的檢測,算是一個衍生的功能。
『拾』 可疑數據的取捨
在原始數據中,發現個別觀測值與其餘的大多數觀測值相差很大時,它們對平均值或方差等統計量影響就較大,故需要根據誤差理論來決定舍取。即在測得的一組數據中,有時會發現個別數值與平均值相差較大。如果保留,對平均值影響較大,對這種偏差較大的數據是否舍棄,需要有確實的根據和可信的判別方法。如果能確定是由於某個過失引起的當然可以舍棄。如果找不到明確的原因,那就應該按照誤差的分布理論來確定其取捨。應用Grubbs數據舍棄標准,具體計算如下:
假設測得一組數據為N1,N2,…,Nn,其平均值為
放射性勘探方法
找出其中與平均值偏差絕對值最大的數據,Grubbs導出了統計量g所服從的統計分布:
放射性勘探方法
在這個理論基礎上,若選定顯著水平概率a為一個較小的數值。如取a=0.05或0.01,對應不同的k值,求出g值的臨界值(表6-4)。若根據一組數據中的可疑數據按(6-53)式算得的g值,若大於相應的臨界值,則該數據應予舍棄。
具體步驟是:
1)選取與平均值偏差最大的數,根據(6-53)式計算g值;
2)根據k和選定的a=0.05或0.01,查表6-4得gL臨界值;
3)若g≥gL,則該數據異常,應當舍棄。
表6-4 Grubbs gL臨界值
另一種方法是肖維納數值捨去標准化方法,這是一種基於正態分布理論的方法。
設某一觀測值與平均值之差大於某一個差值
放射性勘探方法
上式說明,在n個觀測值中如果存在某一個觀測值,若它與平均值的偏差符合如下條件:凡等於或大於此偏差的所有偏差出現的概率均小於
放射性勘探方法
當某觀測值zi與其平均值
有10個分析值:1.52,1.46,1.61,1.54,1.55,1.49,1.68,1.46,1.83,1.50。計算出平均值為1.5640,均方差為0.1156,則
γ=0.6745×0.1156=0.0780
若從上述數據中抽出1.83,計算出統計量
放射性勘探方法
此值大於表6-5中
表6-5 肖維納數值舍棄標准