导航:首页 > 安装方法 > 去除可疑测量值的方法

去除可疑测量值的方法

发布时间:2022-04-19 20:34:35

① 大学物理实验数据处理方法

摘要:实验结果的表示,首先取决于实验的物理模式,通过被测量之间的相互关系,考虑实验结果的表示方法。常用到数据处理方法有作图法,列表法,平均值法,最小二乘法等。在处理数据时可根据需要和方便选择任何一种方法表示实验的最后结果。
(1)实验结果的图形表示法。把实验结果用函数图形表示出来,在实验工作中也有普遍的实用价值。它有明显的直观性,能清楚的反映出实验过程中变量之间的变化进程和连续变化的趋势。精确地描制图线,在具体数学关系式为未知的情况下还可进行图解,并可借助图形来选择经验公式的数学模型。因此用图形来表示实验的结果是每个中学生必须掌握的。
实验结果的图形表示法。,一般可分五步来进行。 ①整理数据,即取合理的有效数字表示测得值,剔除可疑数据,给出相应的测量误差。 ②选择坐标纸,坐标纸的选择应为便于作图或更能方使地反映变量之间的相互关系为原则。可根据需要和方便选择不同的坐标纸,原来为曲线关系的两个变量经过坐标变换利用对数坐标就要能变成直线关系。常用的有直角坐标纸、单对数坐标纸和双对数坐标纸。 ③坐标分度,在坐标纸选定以后,就要合理的确定图纸上每一小格的距离所代表的数值,但起码应注意下 面两个原则: a.格值的大小应当与测量得值所表达的精确度相适应。 b.为便于制图和利用图形查找数据每个格值代表的有效数字尽量采用1、2、4、5避免使用3、6、7、9等数字。 ④作散点图,根据确定的坐标分度值将数据作为点的坐标在坐标纸中标出,考虑到数据的分类及测量的数据组先后顺序等,应采用不同符号标出点的坐标。常用的符号有:×○●△■等,规定标记的中心为数据的坐标。 ⑤拟合曲线,拟合曲线是用图形表示实验结果的主要目的,也是培养学生作图方法和技巧的关键一环,拟合曲线时应注意以下几点: a.转折点尽量要少,更不能出现人为折曲。 b.曲线走向应尽量靠近各坐标点,而不是通过所有点。 c.除曲线通过的点以外,处于曲线两侧的点数应当相近。 。 (2)列表法:实验中将数据列成表格,可以简明地表示出有关物理量之间的关系,便于检查测量结果和运算是否合理,有助于发现和分析问题,而且列表法还是图象法的基础。 列表时应注意:①表格要直接地反映有关物理量之间的关系,一般把自变量写在前边,因变量紧接着写在后面,便于分析。②表格要清楚地反映测量的次数,测得的物理量的名称及单位,计算的物理量的名称及单位。物理量的单位可写在标题栏内,一般不在数值栏内重复出现。③表中所列数据要正确反映测量值的有效数字。 (3)平均值法:取算术平均值是为减小偶然误差而常用的一种数据处理方法。通常在同样的测量条件下,对于某一物理量进行多次测量的结果不会完全一样,用多次测量的算术平均值作为测量结果,是真实值的最好近似。 (4)最小二乘法:最小二乘法的基本原理�
从整体上考虑近似函数同所给数据点(i=0,1,…,m)误差(i=0,1,…,m)�的大小,常用的方法有以下三种:一是误差(i=0,1,…,m)绝对值的最大值,即误差 向量的∞-范数;二是误差绝对值的和,即误差向量r的1-范数;三是误差平方和的算术平方根,即误差向量r的2-范数;前两种方法简单、自然,但不便于微分运算 ,后一种方法相当于考虑 2-范数的平方因此在曲线拟合中常采用误差平方和来 度量误差(i=0,1,…,m)的整体大小。�
数据拟合的具体作法是:对给定数据 (i=0,1,…,m),在取定的函数类中,求,使误差(i=0,1,…,m)的平方和最小,即
=
从几何意义上讲,就是寻求与给定点(i=0,1,…,m)的距离平方和为最小的曲线�(图6-1)。函数称为拟合 函数或最小二乘解,求拟合函数的方法称为曲线拟合的最小二乘法。
�在曲线拟合中,函数类可有不同的选取方法.

② 判断可疑测量值取舍常用的检验方法有哪些

判断可疑测量值取舍常用的检验方法常用的有四倍法、Q检验法、迪克逊(Dixon)检验法和格鲁布斯(Grubbs)检验法。

在实际分析工作中,常常会遇到一组平行测量数据中有个别的数据过高或过低这种数据称为可以数据,也称异常值或逸出值。

(2)去除可疑测量值的方法扩展阅读:

在一组分析数据中,往往有个别数据与其他数据相差较大,这种个别数据成为可疑值。对可疑值的处理,应首先回顾和检查生产可疑值的实验过程,有无可觉察到的技术上的异常原因。但原因不明时,必须按一定的数理统计方法进行处理,决定保留还是舍弃。

在定量分析化学实验中,实验结束后,必须对分析数据进行处理,这样能拓宽分析化学实验的应用面,以适应厂矿化验室实际工作的需要。同时也增强实验员分析化学的理论和实验必备素质。

③ 物理实验中可疑数字指什么

在物理实验中,常常会遇到一组平行测量数据中有个别的数据过高或过低,这种数据称为可以数字,也称异常值或逸出值。

有效数字的末位是估读数字,存在不确定性。一般情况下不确定度的有效数字只取一位,其数位即是测量结果的存疑数字的位置;有时不确定度需要取两位数字,其最后一个数位才与测量结果的存疑数字的位置对应。

由于有效数字的最后一位是不确定度所在的位置,因此有效数字在一定程度上反映了测量值的不确定度(或误差限值)。测量值的有效数字位数越多,测量的相对不确定度越小;有效数字位数越少,相对不确定度就越大.可见,有效数字可以粗略反映测量结果的不确定度。

例子:d=(10.430±0.3)是不对的,只能写成d=(10.4±0.3)。

(3)去除可疑测量值的方法扩展阅读:

物理长度测量注意事项:

1,游标卡尺读数时,主尺的读数应从游标的零刻度处读,而不能从游标的机械末端读。

2,游标尺使用时,不论多少分度都不用估读20分度的读数,末位数一定是0或5;50分度的卡尺,末位数字一定是偶数。

3,若游标尺上任何一格均与主尺线对齐,选择较近的一条线读数。

4,螺旋测微器的主尺读数应注意半毫米线是否露出。

5,螺旋测微器的可动部分读数时,即使某一线完全对齐,也应估读零。

④ 测试中的异常数据剔除用什么方法

统计学中剔除异常数据的方法很多,但在检测和测试中经常用的方法有2种:

1-拉依达准则(也称之为3σ准则):

很简单,就是首先求得n次独立检测结果的实验标准差s和残差,│残差│大于3s的测量值即为异常值删去,然后重新反复计算,将所有异常值剔除。

但这个方法有局限,数据样本必须大于10,一般要求大于50。所以,这个方法现在不常用了,国标里面已经剔除该方法!

2-格拉布斯准则(Grubbs):

这个方法比较常用,尤其是我们检测领域。

方法也很简单,还是首先求得n次独立检测结果的实验标准差s和残差,│残差│/s的值大于g(n)的测量值即为异常值,可删去;同样重新反复计算之,将所有异常值剔除。

g(n)指临界系数,可直接查表获得. 95%的系数可参见下表:

如何判别测量数据中是否有异常值

一般异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等,下面对这些方法进行相关的介绍。

1. 简单统计

如果使用pandas,我们可以直接使用describe()来观察数据的统计性描述(只是粗略的观察一些统计量),不过统计数据为连续型的,如下:

df.describe()红色箭头所指就是异常值。

以上是常用到的判断异常值的简单方法。下面来介绍一些较为复杂的检测异常值算法,由于涉及内容较多,仅介绍核心思想,感兴趣的朋友可自行深入研究。

4. 基于模型检测

这种方法一般会构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。如果模型是簇的集合,则异常是不显着属于任何簇的对象;如果模型是回归时,异常是相对远离预测值的对象。

离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。这种情况的前提是必须知道数据集服从什么分布,如果估计错误就造成了重尾分布。

比如特征工程中的RobustScaler方法,在做数据特征值缩放的时候,它会利用数据特征的分位数分布,将数据根据分位数划分为多段,只取中间段来做缩放,比如只取25%分位数到75%分位数的数据做缩放。这样减小了异常数据的影响。

优缺点:(1)有坚实的统计学理论基础,当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效;(2)对于多元数据,可用的选择少一些,并且对于高维数据,这些检测可能性很差。

5. 基于近邻度的离群点检测

统计方法是利用数据的分布来观察异常值,一些方法甚至需要一些分布条件,而在实际中数据的分布很难达到一些假设条件,在使用上有一定的局限性。

确定数据集的有意义的邻近性度量比确定它的统计分布更容易。这种方法比统计学方法更一般、更容易使用,因为一个对象的离群点得分由到它的k-最近邻(KNN)的距离给定。

需要注意的是:离群点得分对k的取值高度敏感。如果k太小,则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。

优缺点:(1)简单;(2)缺点:基于邻近度的方法需要O(m2)时间,大数据集不适用;(3)该方法对参数的选择也是敏感的;(4)不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。

5. 基于密度的离群点检测

从基于密度的观点来说,离群点是在低密度区域中的对象。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。一种常用的定义密度的方法是,定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高,反之亦然。另一种密度定义是使用DBSCAN聚类算法使用的密度定义,即一个对象周围的密度等于该对象指定距离d内对象的个数。

优缺点:(1)给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;(2)与基于距离的方法一样,这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm);(3)参数选择是困难的。虽然LOF算法通过观察不同的k值,然后取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。

6. 基于聚类的方法来做异常点检测

基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇,那么该对象属于离群点。

离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。这也是k-means算法的缺点,对离群点敏感。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)。

优缺点:(1)基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的;(2)簇的定义通常是离群点的补,因此可能同时发现簇和离群点;(3)产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性;(4)聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。

7. 专门的离群点检测

其实以上说到聚类方法的本意是是无监督分类,并不是为了寻找离群点的,只是恰好它的功能可以实现离群点的检测,算是一个衍生的功能。

⑥ 工程测量时,如何用格拉布斯准则剔除异常值

在做测量不确定度的评定时,对于测量结果进行数据处理之前,往往要进行异常值的剔除工作。超出在规定条件下预期的误差叫做异常值。产生异常值的原因一般是由于疏忽、失误或突然发生的不该发生的原因造成的,如读错、记错、仪器示值突然跳动、突然震动、操作失误等。所以必须在计算测量结果及不确定度评定中要考虑异常值的判别和剔除。
异常值的判别方法也叫异常值检验法,即:判断异常值的统计检验法。其方法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。每种统计检验法都会犯错误1和错误2。但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以本文介绍如何使用格拉布斯法来剔除异常值,其判别步骤如下:
1、假设现在有一组测量数据为:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
2、排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
3、计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时,必须将所有10个数据全部包含在内。
4、计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
5、确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
6、计算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。下面要把计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。
7、定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
8、查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。
9、比较计算值Gi和临界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
10、判断是否为异常值:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。
11、余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍然是异常值,剔除;如果Gi<G95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。

⑦ 分析化学 用4d法去可疑值 有两个怀疑对象 可以计算平均值 和d 时直接把两个数据除去吗

不可以。应该分两次计算、确定。

⑧ 可疑测量值的舍弃

在测得的一组数据中,有时会发现个别数值与平均值相差较大。如果保留,对平均值影响较大,对这种偏差较大的数据是否舍弃,需要有确实的根据和可信的判别方法。如果你能确定是由于某个过失引起的当然可以舍弃。如果找不到明确的原因,那就应该按照误差的分布理论来确定其取舍。过去常用的是chauvenet数据舍弃标准,计算方法比较简便。有人研究认为应用这一方法发生舍弃合理数据的概率较大,有时可达40%。目前已经很少应用。主要应用Grubbs数据舍弃标准,具体计算如下。

假设测得一组数据为N1、N2…Nk,其平均值为,标准误差为

核辐射场与放射性勘查

找出其中与平均值偏差绝对值最大的数据,Grubbs导出了统计量g所服从的统计分布。

核辐射场与放射性勘查

在这个理论基础上,若选定显着水平概率a为一个较小的数值。如取a=0.05或0.01,对应不同的k值,求出g值的临界值(表4-8-5)。若根据一组数据中的可疑数据按(4-8-24)式算得的g值。若大于相应的临界值,则该数据应予舍弃。

表4-8-5 Grubbs gL临界值

具体步骤是:

1)选取与平均值偏差最大的数,根据(4-8-24)计算g值;

2)根据k和选定的a=0.05或0.01,查表4-8-5得gL临界值;

3)若g≥gL则该数据异常,应当舍弃。

⑨ 有一组平行测定所得的分析数据,要判断其是否有可疑值,应采用哪种方法

可以用每个测定值与该组数据的平均值进行比较,如果有偏差较大且突出的数据,则很可能是可疑值。

阅读全文

与去除可疑测量值的方法相关的资料

热点内容
马原中归纳的方法有什么局限性 浏览:510
灯具遥控安装方法 浏览:987
在家地震预警有哪些方法论 浏览:400
气缸圆柱度的检测方法 浏览:216
东风制动灯故障原因和解决方法 浏览:310
简谐运动研究方法 浏览:125
幼儿异物吸入的抢救方法有哪些 浏览:212
开衫毛衣尺寸的经典计算方法 浏览:356
广电有线连接方法 浏览:828
局解血管的检查常用方法 浏览:989
瑜伽的技巧和方法 浏览:835
写出五种植物的传播方法 浏览:100
治疗脾气差的最佳方法 浏览:816
花卉满天星的种植方法 浏览:968
风控未通检测方法 浏览:768
根管治疗术的步骤和方法 浏览:181
去脚臭的简单的方法 浏览:935
二年级语文教学方法和教学手段 浏览:71
学前教育研究方法课题 浏览:867
瑜伽胳膊锻炼方法 浏览:124