① 大學物理實驗數據處理方法
摘要:實驗結果的表示,首先取決於實驗的物理模式,通過被測量之間的相互關系,考慮實驗結果的表示方法。常用到數據處理方法有作圖法,列表法,平均值法,最小二乘法等。在處理數據時可根據需要和方便選擇任何一種方法表示實驗的最後結果。
(1)實驗結果的圖形表示法。把實驗結果用函數圖形表示出來,在實驗工作中也有普遍的實用價值。它有明顯的直觀性,能清楚的反映出實驗過程中變數之間的變化進程和連續變化的趨勢。精確地描制圖線,在具體數學關系式為未知的情況下還可進行圖解,並可藉助圖形來選擇經驗公式的數學模型。因此用圖形來表示實驗的結果是每個中學生必須掌握的。
實驗結果的圖形表示法。,一般可分五步來進行。 ①整理數據,即取合理的有效數字表示測得值,剔除可疑數據,給出相應的測量誤差。 ②選擇坐標紙,坐標紙的選擇應為便於作圖或更能方使地反映變數之間的相互關系為原則。可根據需要和方便選擇不同的坐標紙,原來為曲線關系的兩個變數經過坐標變換利用對數坐標就要能變成直線關系。常用的有直角坐標紙、單對數坐標紙和雙對數坐標紙。 ③坐標分度,在坐標紙選定以後,就要合理的確定圖紙上每一小格的距離所代表的數值,但起碼應注意下 面兩個原則: a.格值的大小應當與測量得值所表達的精確度相適應。 b.為便於制圖和利用圖形查找數據每個格值代表的有效數字盡量採用1、2、4、5避免使用3、6、7、9等數字。 ④作散點圖,根據確定的坐標分度值將數據作為點的坐標在坐標紙中標出,考慮到數據的分類及測量的數據組先後順序等,應採用不同符號標出點的坐標。常用的符號有:×○●△■等,規定標記的中心為數據的坐標。 ⑤擬合曲線,擬合曲線是用圖形表示實驗結果的主要目的,也是培養學生作圖方法和技巧的關鍵一環,擬合曲線時應注意以下幾點: a.轉折點盡量要少,更不能出現人為折曲。 b.曲線走向應盡量靠近各坐標點,而不是通過所有點。 c.除曲線通過的點以外,處於曲線兩側的點數應當相近。 。 (2)列表法:實驗中將數據列成表格,可以簡明地表示出有關物理量之間的關系,便於檢查測量結果和運算是否合理,有助於發現和分析問題,而且列表法還是圖象法的基礎。 列表時應注意:①表格要直接地反映有關物理量之間的關系,一般把自變數寫在前邊,因變數緊接著寫在後面,便於分析。②表格要清楚地反映測量的次數,測得的物理量的名稱及單位,計算的物理量的名稱及單位。物理量的單位可寫在標題欄內,一般不在數值欄內重復出現。③表中所列數據要正確反映測量值的有效數字。 (3)平均值法:取算術平均值是為減小偶然誤差而常用的一種數據處理方法。通常在同樣的測量條件下,對於某一物理量進行多次測量的結果不會完全一樣,用多次測量的算術平均值作為測量結果,是真實值的最好近似。 (4)最小二乘法:最小二乘法的基本原理�
從整體上考慮近似函數同所給數據點(i=0,1,…,m)誤差(i=0,1,…,m)�的大小,常用的方法有以下三種:一是誤差(i=0,1,…,m)絕對值的最大值,即誤差 向量的∞-范數;二是誤差絕對值的和,即誤差向量r的1-范數;三是誤差平方和的算術平方根,即誤差向量r的2-范數;前兩種方法簡單、自然,但不便於微分運算 ,後一種方法相當於考慮 2-范數的平方因此在曲線擬合中常採用誤差平方和來 度量誤差(i=0,1,…,m)的整體大小。�
數據擬合的具體作法是:對給定數據 (i=0,1,…,m),在取定的函數類中,求,使誤差(i=0,1,…,m)的平方和最小,即
=
從幾何意義上講,就是尋求與給定點(i=0,1,…,m)的距離平方和為最小的曲線�(圖6-1)。函數稱為擬合 函數或最小二乘解,求擬合函數的方法稱為曲線擬合的最小二乘法。
�在曲線擬合中,函數類可有不同的選取方法.
② 判斷可疑測量值取捨常用的檢驗方法有哪些
判斷可疑測量值取捨常用的檢驗方法常用的有四倍法、Q檢驗法、迪克遜(Dixon)檢驗法和格魯布斯(Grubbs)檢驗法。
在實際分析工作中,常常會遇到一組平行測量數據中有個別的數據過高或過低這種數據稱為可以數據,也稱異常值或逸出值。
(2)去除可疑測量值的方法擴展閱讀:
在一組分析數據中,往往有個別數據與其他數據相差較大,這種個別數據成為可疑值。對可疑值的處理,應首先回顧和檢查生產可疑值的實驗過程,有無可覺察到的技術上的異常原因。但原因不明時,必須按一定的數理統計方法進行處理,決定保留還是舍棄。
在定量分析化學實驗中,實驗結束後,必須對分析數據進行處理,這樣能拓寬分析化學實驗的應用面,以適應廠礦化驗室實際工作的需要。同時也增強實驗員分析化學的理論和實驗必備素質。
③ 物理實驗中可疑數字指什麼
在物理實驗中,常常會遇到一組平行測量數據中有個別的數據過高或過低,這種數據稱為可以數字,也稱異常值或逸出值。
有效數字的末位是估讀數字,存在不確定性。一般情況下不確定度的有效數字只取一位,其數位即是測量結果的存疑數字的位置;有時不確定度需要取兩位數字,其最後一個數位才與測量結果的存疑數字的位置對應。
由於有效數字的最後一位是不確定度所在的位置,因此有效數字在一定程度上反映了測量值的不確定度(或誤差限值)。測量值的有效數字位數越多,測量的相對不確定度越小;有效數字位數越少,相對不確定度就越大.可見,有效數字可以粗略反映測量結果的不確定度。
例子:d=(10.430±0.3)是不對的,只能寫成d=(10.4±0.3)。
(3)去除可疑測量值的方法擴展閱讀:
物理長度測量注意事項:
1,游標卡尺讀數時,主尺的讀數應從游標的零刻度處讀,而不能從游標的機械末端讀。
2,游標尺使用時,不論多少分度都不用估讀20分度的讀數,末位數一定是0或5;50分度的卡尺,末位數字一定是偶數。
3,若游標尺上任何一格均與主尺線對齊,選擇較近的一條線讀數。
4,螺旋測微器的主尺讀數應注意半毫米線是否露出。
5,螺旋測微器的可動部分讀數時,即使某一線完全對齊,也應估讀零。
④ 測試中的異常數據剔除用什麼方法
統計學中剔除異常數據的方法很多,但在檢測和測試中經常用的方法有2種:
1-拉依達准則(也稱之為3σ准則):
很簡單,就是首先求得n次獨立檢測結果的實驗標准差s和殘差,│殘差│大於3s的測量值即為異常值刪去,然後重新反復計算,將所有異常值剔除。
但這個方法有局限,數據樣本必須大於10,一般要求大於50。所以,這個方法現在不常用了,國標裡面已經剔除該方法!
2-格拉布斯准則(Grubbs):
這個方法比較常用,尤其是我們檢測領域。
方法也很簡單,還是首先求得n次獨立檢測結果的實驗標准差s和殘差,│殘差│/s的值大於g(n)的測量值即為異常值,可刪去;同樣重新反復計算之,將所有異常值剔除。
g(n)指臨界系數,可直接查表獲得. 95%的系數可參見下表:
⑤ 如何判別測量數據中是否有異常值
一般異常值的檢測方法有基於統計的方法,基於聚類的方法,以及一些專門檢測異常值的方法等,下面對這些方法進行相關的介紹。
1. 簡單統計
如果使用pandas,我們可以直接使用describe()來觀察數據的統計性描述(只是粗略的觀察一些統計量),不過統計數據為連續型的,如下:
df.describe()紅色箭頭所指就是異常值。
以上是常用到的判斷異常值的簡單方法。下面來介紹一些較為復雜的檢測異常值演算法,由於涉及內容較多,僅介紹核心思想,感興趣的朋友可自行深入研究。
4. 基於模型檢測
這種方法一般會構建一個概率分布模型,並計算對象符合該模型的概率,把具有低概率的對象視為異常點。如果模型是簇的集合,則異常是不顯著屬於任何簇的對象;如果模型是回歸時,異常是相對遠離預測值的對象。
離群點的概率定義:離群點是一個對象,關於數據的概率分布模型,它具有低概率。這種情況的前提是必須知道數據集服從什麼分布,如果估計錯誤就造成了重尾分布。
比如特徵工程中的RobustScaler方法,在做數據特徵值縮放的時候,它會利用數據特徵的分位數分布,將數據根據分位數劃分為多段,只取中間段來做縮放,比如只取25%分位數到75%分位數的數據做縮放。這樣減小了異常數據的影響。
優缺點:(1)有堅實的統計學理論基礎,當存在充分的數據和所用的檢驗類型的知識時,這些檢驗可能非常有效;(2)對於多元數據,可用的選擇少一些,並且對於高維數據,這些檢測可能性很差。
5. 基於近鄰度的離群點檢測
統計方法是利用數據的分布來觀察異常值,一些方法甚至需要一些分布條件,而在實際中數據的分布很難達到一些假設條件,在使用上有一定的局限性。
確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。這種方法比統計學方法更一般、更容易使用,因為一個對象的離群點得分由到它的k-最近鄰(KNN)的距離給定。
需要注意的是:離群點得分對k的取值高度敏感。如果k太小,則少量的鄰近離群點可能導致較低的離群點得分;如果K太大,則點數少於k的簇中所有的對象可能都成了離群點。為了使該方案對於k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。
優缺點:(1)簡單;(2)缺點:基於鄰近度的方法需要O(m2)時間,大數據集不適用;(3)該方法對參數的選擇也是敏感的;(4)不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這種密度的變化。
5. 基於密度的離群點檢測
從基於密度的觀點來說,離群點是在低密度區域中的對象。基於密度的離群點檢測與基於鄰近度的離群點檢測密切相關,因為密度通常用鄰近度定義。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數。如果該距離小,則密度高,反之亦然。另一種密度定義是使用DBSCAN聚類演算法使用的密度定義,即一個對象周圍的密度等於該對象指定距離d內對象的個數。
優缺點:(1)給出了對象是離群點的定量度量,並且即使數據具有不同的區域也能夠很好的處理;(2)與基於距離的方法一樣,這些方法必然具有O(m2)的時間復雜度。對於低維數據使用特定的數據結構可以達到O(mlogm);(3)參數選擇是困難的。雖然LOF演算法通過觀察不同的k值,然後取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。
6. 基於聚類的方法來做異常點檢測
基於聚類的離群點:一個對象是基於聚類的離群點,如果該對象不強屬於任何簇,那麼該對象屬於離群點。
離群點對初始聚類的影響:如果通過聚類檢測離群點,則由於離群點影響聚類,存在一個問題:結構是否有效。這也是k-means演算法的缺點,對離群點敏感。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點,對象再次聚類(這個不能保證產生最優結果)。
優缺點:(1)基於線性和接近線性復雜度(k均值)的聚類技術來發現離群點可能是高度有效的;(2)簇的定義通常是離群點的補,因此可能同時發現簇和離群點;(3)產生的離群點集和它們的得分可能非常依賴所用的簇的個數和數據中離群點的存在性;(4)聚類演算法產生的簇的質量對該演算法產生的離群點的質量影響非常大。
7. 專門的離群點檢測
其實以上說到聚類方法的本意是是無監督分類,並不是為了尋找離群點的,只是恰好它的功能可以實現離群點的檢測,算是一個衍生的功能。
⑥ 工程測量時,如何用格拉布斯准則剔除異常值
在做測量不確定度的評定時,對於測量結果進行數據處理之前,往往要進行異常值的剔除工作。超出在規定條件下預期的誤差叫做異常值。產生異常值的原因一般是由於疏忽、失誤或突然發生的不該發生的原因造成的,如讀錯、記錯、儀器示值突然跳動、突然震動、操作失誤等。所以必須在計算測量結果及不確定度評定中要考慮異常值的判別和剔除。
異常值的判別方法也叫異常值檢驗法,即:判斷異常值的統計檢驗法。其方法有很多種,例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達法、奈爾法等等。每種方法都有其適用范圍和優缺點。每種統計檢驗法都會犯錯誤1和錯誤2。但是有人做過統計,在所有方法中,格拉布斯法犯這兩種錯誤的概率最小,所以本文介紹如何使用格拉布斯法來剔除異常值,其判別步驟如下:
1、假設現在有一組測量數據為:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
2、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
3、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。
4、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。
5、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。
6、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。
7、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
8、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。
9、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
10、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。
11、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。
⑦ 分析化學 用4d法去可疑值 有兩個懷疑對象 可以計算平均值 和d 時直接把兩個數據除去嗎
不可以。應該分兩次計算、確定。
⑧ 可疑測量值的舍棄
在測得的一組數據中,有時會發現個別數值與平均值相差較大。如果保留,對平均值影響較大,對這種偏差較大的數據是否舍棄,需要有確實的根據和可信的判別方法。如果你能確定是由於某個過失引起的當然可以舍棄。如果找不到明確的原因,那就應該按照誤差的分布理論來確定其取捨。過去常用的是chauvenet數據舍棄標准,計算方法比較簡便。有人研究認為應用這一方法發生舍棄合理數據的概率較大,有時可達40%。目前已經很少應用。主要應用Grubbs數據舍棄標准,具體計算如下。
假設測得一組數據為N1、N2…Nk,其平均值為,標准誤差為
核輻射場與放射性勘查
找出其中與平均值偏差絕對值最大的數據,Grubbs導出了統計量g所服從的統計分布。
核輻射場與放射性勘查
在這個理論基礎上,若選定顯著水平概率a為一個較小的數值。如取a=0.05或0.01,對應不同的k值,求出g值的臨界值(表4-8-5)。若根據一組數據中的可疑數據按(4-8-24)式算得的g值。若大於相應的臨界值,則該數據應予舍棄。
表4-8-5 Grubbs gL臨界值
具體步驟是:
1)選取與平均值偏差最大的數,根據(4-8-24)計算g值;
2)根據k和選定的a=0.05或0.01,查表4-8-5得gL臨界值;
3)若g≥gL則該數據異常,應當舍棄。
⑨ 有一組平行測定所得的分析數據,要判斷其是否有可疑值,應採用哪種方法
可以用每個測定值與該組數據的平均值進行比較,如果有偏差較大且突出的數據,則很可能是可疑值。