‘壹’ 可疑测量值的舍弃
在测得的一组数据中,有时会发现个别数值与平均值相差较大。如果保留,对平均值影响较大,对这种偏差较大的数据是否舍弃,需要有确实的根据和可信的判别方法。如果你能确定是由于某个过失引起的当然可以舍弃。如果找不到明确的原因,那就应该按照误差的分布理论来确定其取舍。过去常用的是chauvenet数据舍弃标准,计算方法比较简便。有人研究认为应用这一方法发生舍弃合理数据的概率较大,有时可达40%。目前已经很少应用。主要应用Grubbs数据舍弃标准,具体计算如下。
假设测得一组数据为N1、N2…Nk,其平均值为,标准误差为
核辐射场与放射性勘查
找出其中与平均值偏差绝对值最大的数据,Grubbs导出了统计量g所服从的统计分布。
核辐射场与放射性勘查
在这个理论基础上,若选定显着水平概率a为一个较小的数值。如取a=0.05或0.01,对应不同的k值,求出g值的临界值(表4-8-5)。若根据一组数据中的可疑数据按(4-8-24)式算得的g值。若大于相应的临界值,则该数据应予舍弃。
表4-8-5 Grubbs gL临界值
具体步骤是:
1)选取与平均值偏差最大的数,根据(4-8-24)计算g值;
2)根据k和选定的a=0.05或0.01,查表4-8-5得gL临界值;
3)若g≥gL则该数据异常,应当舍弃。
‘贰’ 什么是q检验法,f检验法和t检验法
【Q检验法】
Q检验法又叫做舍弃商法,是迪克森(W.J.Dixon)在1951年专为分析化学中少量观测次数(n<10)提出的一种简易判据式。
按以下步骤来确定可疑值的取舍:
(1)将各数据按递增顺数排列:X1,X2,X3,…,Xn-1,Xn。
(2)求出最大值与最小值的差值(极差)Xmax-Xmin.
(3)求出可疑值与其最相邻数据之间的差值的绝对值。
(4)求出Q(Q等于(3)中的差值除以(2)中的极差)。
(5)根据测定次数n和要求的置信水平(如95%)查表(见下)得到值
(6)判断:若计算Q>Q表,则舍去可疑值,否则应予保留。
【F检验法】
F检验法是英国统计学家Fisher提出的,主要通过比较两组数据的方差S2,以确定他们的精密度是否有显着性差异。至于两组数据之间是否存在系统误差,则在进行F检验并确定它们的精密度没有显着性差异之后,再进行t
检验。
样本标准偏差的平方,即:
两组数据就能得到两个S²值,
由表中f大和f小(f为自由度n-1),查得F表,
然后计算的F值与查表得到的F表值比较,如果
F
<
F表
表明两组数据没有显着差异;
F
≥
F表
表明两组数据存在显着差异。
【T检验法】
T检验法,亦称student
t检验(Student's
t
test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显着。它与f检验、卡方检验并列。t检验是戈斯特为了观测酿酒质量而发明的。戈斯特在位于都柏林的健力士酿酒厂担任统计学家,基于Claude
Guinness聘用从牛津大学和剑桥大学出来的最好的毕业生以将生物化学及统计学应用到健力士工业程序的创新政策。戈斯特于1908年在Biometrika上公布t检验,但因其老板认为其为商业机密而被迫使用笔名(学生)。实际上,跟他合作过的统计学家是知道“学生”的真实身份是戈斯特的。
‘叁’ 可疑值如何处理
可疑值也叫离群值,处理方法有:
一、剔除离群值,不追加观测值;
二、剔除离群值,追加观测值;或剔除离群值,适宜地插补替代;
三、找到实际原因修正离群值,否则予以保留的。
简介:
离群值(outlier)是指在数据中有一个或几个数值与其他数值相比差异较大。
特征:
发现离群值也可以通过观察值的频数表或直方图来初步判断,也可通过统计软件作观察值的箱式图来判断,如果观测值距箱式图底线Q1(第25百分位数)或顶线Q3(第75百分位数)过远,如超出箱体高度(四分位数间距)的两倍以上,则可视该观测值为离群值。当数据近似正态分布时,有一种较为简单的方法,可用均数加减2.5s来判断,如观测值在此范围以外,可视为离群值。在统计学上也可用线性回归的方法来对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该例观测值可予以保留。
‘肆’ 什么是四倍法判断可疑值的概念和步骤
异常值。
用4d法判断可疑值取舍时,计算所有数据的平均值和平均偏差,再比较可疑值与平均值的差值的绝对值是否大于4倍平均偏差。
‘伍’ 如何统一Q检验法对一个以上可疑值的取舍问题
在定量分析工作中,通常要对同一试样做几份平行测定,然后求出平均值。但所测结果总会有大有小,如果数据中出现显着性差异,即有的数据特大或特小(称为可疑值或离群值),是否都能参加平均值的计算呢?这就需要用统计学方法进行检验,不得随意弃去或保留可疑值。取舍可疑值的方法很多,其中Q检验是一种简便易行、比较常用的方法。具体怎么检验,与可疑值的分布情况有关。可疑值的分布,一般可分三种情况: (1)在一组由小到大排列的数据中,一个可疑值分布于平均值的一侧‘。 (2)两个可疑值分布于平均值的两侧。 (3)两个可疑值分布于平均值的同侧。 对第一类情况,检验比较简单,处理方法比较一致,无需重新提出讨论。对第二类型的Q检验,在现有分析化学教材资料中,出现了三种不同的处理方法【’一”1,而且影响到检验结果的一致性,使读者无所适从,给统一教学和实际问题的处理带来了一定困难。本文通过同一实例,运用多种可靠的检验方法作比较,试图从中找出统一的检验模式,并提出第三类型的检验处理方法,以便统一检验结果,统一教学方法。下面讨论后两种分布的检验问题。
‘陆’ 可疑测量值的舍弃
在测得的一组数据中,有时会发现个别数值与平均值相差较大。如果保留,对平均值影响较大,对这种偏差较大的数据是否舍弃,需要有确实的根据和可信的判别方法。如果你能确定是由于某个过失引起的当然可以舍弃。如果找不到明确的原因,那就应该按照误差的分布理论来确定其取舍。过去常用的是chauvenet数据舍弃标准,计算方法比较简便。有人研究认为应用这一方法发生舍弃合理数据的概率较大,有时可达40%。目前已经很少应用。主要应用Grubbs数据舍弃标准,具体计算如下。
假设测得一组数据为N1、N2…Nk,其平均值为
核辐射场与放射性勘查
找出其中与平均值偏差绝对值最大的数据,Grubbs导出了统计量g所服从的统计分布。
核辐射场与放射性勘查
在这个理论基础上,若选定显着水平概率a为一个较小的数值。如取a=0.05 或0.01,对应不同的k值,求出g值的临界值(表4-8-1)。若根据一组数据中的可疑数据按(4-8-24)式算得的g值。若大于相应的临界值,则该数据应予舍弃。
表4-8-5 Grubbs gL临界值
具体步骤是:
1)选取与平均值偏差最大的数,根据(4-8-24)计算g值;
2)根据k和选定的a=0.05或0.01,查表4-8-5得gL临界值;
3)若g≥gL则该数据异常,应当舍弃。
‘柒’ 你知道如何用Excel 对实验数据进行可疑值的取舍吗(G检验),有没有现成的公式
用IF或条件格式,要看具体的问题
‘捌’ q检验是什么
Q检验法(又叫做舍弃商法)是一种由迪克森在1951年专为分析化学中少量观测次数(n<10)提出的简易判据式。
按以下步骤来确定可疑值的取舍:
(1)将各数据按递增顺序排列:X1,X2,X3,…,Xn-1,Xn。
(2)求出最大值与最小值的差值(极差)Xmax-Xmin.
(3)求出可疑值与其最相邻数据之间的差值的绝对值。
(4)求出Q(Q等于(3)中的差值除以(2)中的极差)。
(5)根据测定次数n和要求的置信水平(如95%)。
(6)判断:若计算Q>Q表,则舍去可疑值,否则应予保留。
(8)可疑值的取舍常用统计方法扩展阅读:
例如现场仪器测在同一点上4次测出:0.1014,0.1012,0.1025,0.1016,其中0.1025与其他数值差距较大,是否应该舍去。
根据“Q值检验法”:
(1)对数据进行从小到大排列:0.1012,0.1014,0.1016,0.1025;
(2)求出最大值与最小值的差值=0.1025-0.1012=0.0013
(3)求出可疑数据与其相邻数值的差值的绝对值=0.1025-0.1016=0.0009
(4)计算Q1=0.0009/0.0013=0.692
(5)测试次数为4,置信水平为0.9时的Q2=0.76
(6)由于Q1<Q2,所以,0.1025不应舍弃。
‘玖’ 如何判别测量数据中是否有异常值
一般异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等,下面对这些方法进行相关的介绍。
1. 简单统计
如果使用pandas,我们可以直接使用describe()来观察数据的统计性描述(只是粗略的观察一些统计量),不过统计数据为连续型的,如下:
df.describe()红色箭头所指就是异常值。
以上是常用到的判断异常值的简单方法。下面来介绍一些较为复杂的检测异常值算法,由于涉及内容较多,仅介绍核心思想,感兴趣的朋友可自行深入研究。
4. 基于模型检测
这种方法一般会构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。如果模型是簇的集合,则异常是不显着属于任何簇的对象;如果模型是回归时,异常是相对远离预测值的对象。
离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。这种情况的前提是必须知道数据集服从什么分布,如果估计错误就造成了重尾分布。
比如特征工程中的RobustScaler方法,在做数据特征值缩放的时候,它会利用数据特征的分位数分布,将数据根据分位数划分为多段,只取中间段来做缩放,比如只取25%分位数到75%分位数的数据做缩放。这样减小了异常数据的影响。
优缺点:(1)有坚实的统计学理论基础,当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效;(2)对于多元数据,可用的选择少一些,并且对于高维数据,这些检测可能性很差。
5. 基于近邻度的离群点检测
统计方法是利用数据的分布来观察异常值,一些方法甚至需要一些分布条件,而在实际中数据的分布很难达到一些假设条件,在使用上有一定的局限性。
确定数据集的有意义的邻近性度量比确定它的统计分布更容易。这种方法比统计学方法更一般、更容易使用,因为一个对象的离群点得分由到它的k-最近邻(KNN)的距离给定。
需要注意的是:离群点得分对k的取值高度敏感。如果k太小,则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。
优缺点:(1)简单;(2)缺点:基于邻近度的方法需要O(m2)时间,大数据集不适用;(3)该方法对参数的选择也是敏感的;(4)不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。
5. 基于密度的离群点检测
从基于密度的观点来说,离群点是在低密度区域中的对象。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。一种常用的定义密度的方法是,定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高,反之亦然。另一种密度定义是使用DBSCAN聚类算法使用的密度定义,即一个对象周围的密度等于该对象指定距离d内对象的个数。
优缺点:(1)给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;(2)与基于距离的方法一样,这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm);(3)参数选择是困难的。虽然LOF算法通过观察不同的k值,然后取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。
6. 基于聚类的方法来做异常点检测
基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇,那么该对象属于离群点。
离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。这也是k-means算法的缺点,对离群点敏感。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)。
优缺点:(1)基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的;(2)簇的定义通常是离群点的补,因此可能同时发现簇和离群点;(3)产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性;(4)聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。
7. 专门的离群点检测
其实以上说到聚类方法的本意是是无监督分类,并不是为了寻找离群点的,只是恰好它的功能可以实现离群点的检测,算是一个衍生的功能。
‘拾’ 可疑数据的取舍
在原始数据中,发现个别观测值与其余的大多数观测值相差很大时,它们对平均值或方差等统计量影响就较大,故需要根据误差理论来决定舍取。即在测得的一组数据中,有时会发现个别数值与平均值相差较大。如果保留,对平均值影响较大,对这种偏差较大的数据是否舍弃,需要有确实的根据和可信的判别方法。如果能确定是由于某个过失引起的当然可以舍弃。如果找不到明确的原因,那就应该按照误差的分布理论来确定其取舍。应用Grubbs数据舍弃标准,具体计算如下:
假设测得一组数据为N1,N2,…,Nn,其平均值为
放射性勘探方法
找出其中与平均值偏差绝对值最大的数据,Grubbs导出了统计量g所服从的统计分布:
放射性勘探方法
在这个理论基础上,若选定显着水平概率a为一个较小的数值。如取a=0.05或0.01,对应不同的k值,求出g值的临界值(表6-4)。若根据一组数据中的可疑数据按(6-53)式算得的g值,若大于相应的临界值,则该数据应予舍弃。
具体步骤是:
1)选取与平均值偏差最大的数,根据(6-53)式计算g值;
2)根据k和选定的a=0.05或0.01,查表6-4得gL临界值;
3)若g≥gL,则该数据异常,应当舍弃。
表6-4 Grubbs gL临界值
另一种方法是肖维纳数值舍去标准化方法,这是一种基于正态分布理论的方法。
设某一观测值与平均值之差大于某一个差值
放射性勘探方法
上式说明,在n个观测值中如果存在某一个观测值,若它与平均值的偏差符合如下条件:凡等于或大于此偏差的所有偏差出现的概率均小于
放射性勘探方法
当某观测值zi与其平均值
有10个分析值:1.52,1.46,1.61,1.54,1.55,1.49,1.68,1.46,1.83,1.50。计算出平均值为1.5640,均方差为0.1156,则
γ=0.6745×0.1156=0.0780
若从上述数据中抽出1.83,计算出统计量
放射性勘探方法
此值大于表6-5中
表6-5 肖维纳数值舍弃标准