导航:首页 > 使用方法 > 常用的数据清理方法

常用的数据清理方法

发布时间:2022-01-07 17:49:52

1. 数据清洗的方法

清洗数据有三个方法,分别是分箱法、聚类法、回归法。

1、分箱法

是一个经常使用到方法,所谓的分箱法,就是将需要处理的数据根据一定的规则放进箱子里,然后进行测试每一个箱子里的数据,并根据数据中的各个箱子的实际情况进行采取方法处理数据。

2、回归法

回归法就是利用了函数的数据进行绘制图像,然后对图像进行光滑处理。回归法有两种,一种是单线性回归,一种是多线性回归。单线性回归就是找出两个属性的最佳直线,能够从一个属性预测另一个属性。多线性回归就是找到很多个属性,从而将数据拟合到一个多维面,这样就能够消除噪声。

3、聚类法

聚类法的工作流程是比较简单的,但是操作起来确实复杂的,所谓聚类法就是将抽象的对象进行集合分组,成为不同的集合,找到在集合意外的孤点,这些孤点就是噪声。这样就能够直接发现噪点,然后进行清除即可。

(1)常用的数据清理方法扩展阅读:

数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。

我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成 。

2. 常用的数据处理方法

前面所述的各种放射性测量方法,包括航空γ能谱测量,地面γ能谱测量和氡及其子体的各种测量方法,都已用在石油放射性勘查工作之中。数据处理工作量大的是航空γ能谱测量。

(一)数据的光滑

为了减少测量数据的统计涨落影响及地面偶然因素的影响,对原始测量数据进行光滑处理。消除随机影响。

放射性测量数据光滑,最常用的光滑方法是多项式拟合移动法。在要光滑测量曲线上任取一点,并在该点两边各取m个点,共有2m+1点;用一个以该点为中心的q阶多项式对这一曲线段作最小二乘拟合,则该多项式在中心点的值,即为平滑后该点的值。用此法逐点处理,即得光滑后的曲线,光滑计算公式(公式推导略)为

核辐射场与放射性勘查

式中:yi+j、为第i点光滑前后的值;为系数;为规范化常数。

五点光滑的二次多项式的具体光滑公式为

核辐射场与放射性勘查

如果一次光滑不够理想,可以重复进行1~2次,但不宜过多重复使用。

光滑方法,还有傅里叶变换法,以及多点平均值法,多点加权平均值法等。

使用那种方法选定之后,一般都通过编程存入计算机,进行自动化处理。

图7-2-1是美国东得克萨斯州一个油田上的航空γ放射性异常中的两条剖面图(A-B和B-C)。经过光滑处理后,低值连续,清晰明显,与油田对应的位置较好。说明四个油藏都在铀(w(U))和钾(w(K))的低值位置。

图7-2-1 美国东得克萨斯油田航空γ放射性异常剖面图

(二)趋势面分析方法

趋势分析主要反映测量变量在大范围(区域)连续变化的趋势。在原始数据中常含有许多随机误差和局部点异常,直观反映是测量曲线上下跳动或小范围突变。使用趋势分析处理是为了得到研究区域辐射场的总体分布趋势。

趋势面分析,实质上是利用多元回归分析,进行空间数据拟合。根据计算方法不同,又可分为图解法趋势面分析和数学计算法趋势面分析。图解法趋势面分析的基本思路是对观测数据采用二维方块取平均值法,或滑动平均值法计算趋势值。方块平均值法是对每一方块内的数据取平均值,作为该方块重心点的趋势值。滑动平均值法是设想一个方框,放在测区数据分布的平面图上,把落在方框内的测点数据取平均值,记在方框中心上,最后得到趋势面等值图。一般讲做一次是不够的,需要如此重复3~9次。一般都有专门程序可供使用(不作详述)。如图7-1-14(a)为原始数据等值图,中间有许多呈点状高值或低值分布,经过四次趋势面分析之后可以清楚地看出三个低值异常区。

计算法趋势面分析是选定一个数学函数,对观测数据进行拟合,给出一个曲线。拟合函数常用的有多项式函数,傅里叶级数,三角函数以及指数函数的多项式函数等。目前以二维多项式函数应用最多。

(三)岩性影响及其校正分析

不同岩石、不同土壤中放射性核素含量是有差别,有的相差还比较大,有的相差甚至超过10%~20%。这是油田放射性测量的主要影响因素。

一个测区可能出现不同土壤分布,把不同放射性水平的土壤上测量结果校正到同一水平(叫归一化方法)是非常重要的工作,主要有下面三种方法。

1.确定土壤核素含量的归一化方法

利用γ能谱测量资料,根据测区地质图或土壤分布图,分别统计总道的总计数率和铀、钍、钾含量的平均值。然后进行逐点校正,即逐点减去同类土壤的平均值,其剩余值即为异常值。

核辐射场与放射性勘查

式中:分别为第 i类土壤中测点 j的总计数和铀、钍、钾含量。分别为i类土壤的平均总计数和铀、钍、钾的平均值。分别为扣除各类土壤平均值后的剩余值,即为各测点不同土壤校正后的归一化的油田的放射性异常。根据需要可以用来绘制平面剖面图或等值线图,即为经过不同岩性(土壤)校正后的油田放射性异常图。

这个方法的缺点是计算工作量较大。

2.用钍归一化校正铀、钾含量

对自然界各种岩石中的钍、铀、钾含量的相关性研究(D.F.Saundr,1987),发现它们的含量具有很好的相关性(表7-2-2);而且随岩性不同含量确有相应的增加或减小,据此可以利用钍的含量计算铀和钾的含量。钍有很好的化学稳定性,钍在地表环境条件下基本不流失。因此,利用钍含量计算出来的铀、钾含量,应当是与油藏存在引起的铀、钾

表7-2-2 几种岩石的钍、铀、钾含量

异常无关的正常值。用每点实测的铀、钾,减去计算的正常值,那么每个测点的铀、钾剩余值(差值)应当是油气藏引起的异常值。这样就校正了岩性(土壤)变化的影响。

对于航空γ能谱测量的总道计数率,也同样可以用钍含量(或计数率)归一化校正总道计数率,效果也非常好。

具体方法如下。

1)对铀、钾的归一化校正。

2)根据航空γ能谱测量或地面γ能谱测量数据,按测线计算铀、钍、钾含量。根据岩石(土壤)中钍与铀,钍与钾的相关关系(表7-2-1),认为铀和钍存在线性关系,钾和钍存在对数线性关系,于是建立相应的拟合关系式。

核辐射场与放射性勘查

式中:A、B、A′、B′为回归系数(对每个测区得到一组常数);wi(Th)为测点i实测的钍含量;w点i(U)、w点i(K)为i点由钍含量计算的铀、钾含量。

计算每个测点的铀、钾剩余值:

核辐射场与放射性勘查

式中:wi(U)、wi(K)为测点i的实测值。剩余值Δwi(U)和Δwi(K)为油藏引起的异常值。

南阳-泌阳航空γ能谱测区,测得的钍、铀、钾含量,按钍含量分间隔,计算其平均值,列于表7-2-3。根据此表中数据,由(7-2-7)和(7-2-8)式得:

核辐射场与放射性勘查

表7-2-3 南阳-泌阳航空γ能谱计算的钍、铀、钾

3)对总道γ计数率的归一化校正。钍比较稳定,可以认为与油气藏形成的放射性异常无关。经研究得知,原岩的总道计数率(I点i)与钍含量的对数值存在近似的线性关系,即

核辐射场与放射性勘查

根据γ能谱实测数据求得实测i点的总道计数率(Ii)与I点i的差值:

核辐射场与放射性勘查

即为消除岩性影响的,由油气藏引起的γ总计数率异常值。

图7-2-2 钍归一化校正岩性影响的结果

图7-2-2为任丘双河油田,两条测线(1100线和11010线)。用钍归一化法,消除岩性影响的结果。油田边界高值和油田上方低值,除钾11010线外都比较明显清晰。与已知油田边界基本一致。

3. 数据清理的简介

该进程必须解决不正确的用来自多个联机事务处理(OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据(如对于相同的部分具有两个编号)之类的错误。
编码或把资料录入时的错误,会威胁到测量的效度。数据清理主要解决数据文件建立中的人为误差,以及数据文件中一些对统计分析结果影响较大的特殊数值。常用的数据清理方法包括可编码式清理和联列式清理。
数据清理是一个过程,它包括两步:第一步是偏差检验,第二步是数据变换。同时这两步迭代进行。

4. 《数据挖掘中常用的数据清洗方法有哪些

对于数据挖掘来说,80%的工作都花在数据准备上面,而数据准备,80%的时间又花在数据清洗上,而数据清洗的工作,80%又花在选择若干种适当高效的方法上。

5. 常用的数据净化方法

鼠尾草烟熏净化法

图片来源于网络
鼠尾草的烟熏净化法,实在是我的大爱。鼠尾草是许多仪式中的一种神圣元素。无论是在进行魔法仪式,开牌仪式,塔罗占卜、冥想之前,水晶,日常的空间净化...我几乎都会用到鼠尾草来进行净化。同时鼠尾草也可以用来做茶喝或是用来制作精油。当然还有用鼠尾草、雪松、薰衣草等净化类草药手工制作而成的草药棒。利用点燃后的烟雾把负能量带走空间区域或是物品本身。用鼠尾草的烟熏来净化,是非常快速而有效的方法。

图片来源于网络
鼠尾草烟熏净化使用方法

1、在开始鼠尾草烟熏净化前,把门窗关好,然后点燃鼠尾草,把它放在一个贝壳或防火防烫的容器里(因为在燃烧的过程中会产生灰烬)。

2、让它的明火自然灭火,不要用嘴吹熄,我们主要是利用鼠尾草的烟来进行空间的净化。

3、使用者首先净化自身的能量。

4、然后在从入户门处开始顺时针方向绕着房间净化。注意要关掉风扇或是空调,风扇的风有可能会把灰烬吹得到处都是。

5、把鼠尾草的烟雾带入整个房屋里,特别要注意是一些阴暗的角落可以让烟熏久一点。如果室内空气流通得好,你走动,基本上烟也会跟着流动。某些角落也是可以利用一根羽毛,把烟轻轻扇过去。

个人使用心得:衣柜也是可以烟熏的,不过你的衣服上可能会留下鼠尾草的气味,视情况而定吧,也可以用别的净化方式代替。
6、最后,最重要的一步是,当你把鼠尾草的烟带到房屋的每个角落后,让这股烟停留在室内8-10分钟(视情况而定时长),然后把窗户打开,让烟雾带走这些负能量流出窗外。

7、同时,灰烬的处理,把它们装起来,当天就扔掉或是把它们冲到马桶里。因为灰烬也吸附了负能量了,不要留它们过夜。

图片来源网络
通常你在市面上买到的鼠尾草可以作净化来用。

不过题外话,小知识,墨西哥鼠尾草是有致幻性,被禁止的。

要注意的是,烧鼠尾草也要看看同屋的人能不能闻鼠尾草这个味。因为鼠尾草的味道很特别,有些人是特别喜欢这个味道的,有些人是对这个味不喜欢或是敏感的。所以如果你是居住在大家庭里,也要顾及其他人的情况。

另外,鼠尾草不能烧太多,会上头。第一次使用鼠尾草净化需要用足量,之后减少用量。一般情况20平的空间,20-30g可以了,太多也浪费。当然如果你觉得空间负能量实在太多,可以一把一把的土豪烧。

二、魔法蜡烛火焰净化法

我在使用魔法蜡烛的火焰净化
用带有净化功效的魔法蜡烛来进行能量的净化,也是我的最爱之一。

因为魔法蜡烛自身就具备了土、火、风、水四大元素。另外再有 精神 这个第五元素的注入。让火焰的光和热驱散和燃烧任何积聚的负能量。

通常在进行任何仪式前或者是点燃其他功效的魔法蜡烛,使用带有净化功效的魔法蜡烛,把周围的能量先进行净化,再来开启,效果会大大增加。

进行仪式或是放咒语时,你也可以在你的仪式空间东南西北四个角落里点燃蜡烛,帮助你建立神圣空间。

手工制作的《三倍能量净化&补充能量》灵气魔法蜡烛
对于能量工作者来说,及时清理净化自身及周围的能量太重要了,无论是满月净化仪式还是日常净化,我都超爱点燃这款红色莉莉周手工制作的《三倍能量净化&补充能量》灵气魔法蜡烛。它不仅有净化能量的功效,同时也协助你补充能量。提升你周围的能量空间。同时也可以提升你的直觉力和占卜力。

6. 常用数据分析处理方法有哪些

1、漏斗分析法


漏斗分析法能够科学反映用户行为状态,以及从起点到终点各阶段用户转化率情况,是一种重要的分析模型。漏斗分析模型已经广泛应用于网站和APP的用户行为分析中,例如流量监控、CRM系统、SEO优化、产品营销和销售等日常数据运营与数据分析工作中。


2、留存分析法


留存分析法是一种用来分析用户参与情况和活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。从用户的角度来说,留存率越高就说明这个产品对用户的核心需求也把握的越好,转化成产品的活跃用户也会更多,最终能帮助公司更好的盈利。


3、分组分析法


分组分析法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。


4、矩阵分析法


矩阵分析法是指根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。

7. 常用数据分析与处理方法

一、漏斗分析法:漏斗分析法能够科学反映用户行为状态,以及从起点到终点各阶段用户转化率情况,是一种重要的分析模型。漏斗分析模型已经广泛应用于网站和APP的用户行为分析中,例如流量监控、CRM系统、SEO优化、产品营销和销售等日常数据运营与数据分析工作中
二、留存分析法:留存分析法是一种用来分析用户参与情况和活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。从用户的角度来说,留存率越高就说明这个产品对用户的核心需求也把握的越好,转化成产品的活跃用户也会更多,最终能帮助公司更好的盈利。
三、分组分析法:分组分析法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。
四、矩阵分析法:矩阵分析法是指根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。

8. 数据清理三种方法

相信很多手机用户都知道手机中有一个文件管理APP,是系统自带的一个管理手机存储空间的程序。对于经常用手机存放文件的用户来说,自带的文件管理APP实在是太简陋了,支持的文件太少,很多文件操作都不能完成,不能像电脑上操作文件一样方便。

打开网络APP,查看更多高清图片
经常和手机、电脑打交道的朋友应该都知道,手机储存空间逐年增加,从最初的几百兆、利用外部存储卡,到现在的16G、32G、64G乃至256GB的空间,不仅存储空间增加了,内部存储的读取速度也增加了,很多手机完全可以和U盘相媲美。我们有把手机存储空间利用起来的硬性需求,所以我们也需要一个功能更好、更强大的文件浏览器。
于是,功能强大的ES文件浏览器应时而生。

ES文件浏览器图标

早期版本的ES文件浏览器
初遇
ES文件浏览器很早就出现了。自笔者13年使用智能手机开始,因为当时需要对手机内部存储空间中的文件进行修改,所以需要一个能够方便修改的文件浏览器,当时就在应用商店中找到了ES文件浏览器,那个时候的ES文件浏览器已经很强大了。

ES文件浏览器能干嘛
先来说说笔者最常用的功能。
1解压缩文件
因为和编程打交道,所以需要经常下载一些资料,其中有很多压缩包,电脑不方便的时候,用手机下载,需要能够查看压缩包中的文件,系统自带的文件管理器不能解压,而ES文件浏览器支持多种格式的压缩包,使用起来特别方便,和电脑上的操作差不多。

2获取root权限、修改文件权限、删除系统自带APP
刚开始使用智能手机的时候,安卓系统版本还是4.0左右,手机厂商也没有对安卓系统进行深度定制,那个时候喜欢自己删除系统中卸载不掉的第三方APP,手机获取root权限之后,ES文件浏览器能够请求系统root权限,然后进入到安卓系统的根目录的文件夹中去删除自带的APP。
也可以将第三方APP作为系统应用程序使用,使第三方APP无法被卸载,只需要将第三方APP放到系统安装APP的目录下面,重启手机,第三方APP即可变成手机自带APP,无法卸载。记得当时将喜欢的第三方游戏放了进去。当然,这种操作是有风险的,删除了系统核心应用程序,系统就会坏掉,就要刷机才能修复。

3登录云盘,管理云端文件
ES文件浏览器支持多种云盘账号登录,登录账号之后可以直接在ES文件浏览器中管理云盘中的文件。不知道云盘、网盘是什么的读者可以参考这篇文章:网络网盘是什么?网络网盘为什么不占用手机内存?
ES文件浏览器也可以实现网盘文件的下载和上传,而且速度和下载了网盘APP一样快。

4简单的文件编辑
有时候需要编辑文件夹中的某些文件,而又不想将文件拷贝到电脑上修改,ES文件浏览器可以将文件以文本文件的方式进行编辑,省去了不少麻烦。
5ftp管理
ES文件浏览器支持添加ftp服务器,类似网盘一样,可以在手机上访问ftp服务。
6在电脑上无线管理手机中的文件
有时候没有数据线和网络,却要将手机中的文件拷贝到电脑上,怎么办呢?ES文件浏览器可以解决。在ES文件浏览器“网络”菜单中有一个“从PC访问”,打开功能后,按照提示,就可以在电脑的文件管理中无线访问到手机上的文件。
功能太多,笔者经常用到的就是这些,因篇幅有限,还有很多强大的功能没有说明,有需求的朋友一定要亲自下载试试。
举报/反馈

阅读全文

与常用的数据清理方法相关的资料

热点内容
压缩机拆铜方法视频 浏览:308
国标食品毒理学试验方法有哪些 浏览:820
赶猴子的最佳方法 浏览:846
音乐气息交叉解决方法 浏览:66
阿诗丹顿热水器使用方法 浏览:551
三菱fx27plc指令解决方法 浏览:774
blum五金安装方法 浏览:740
火腿配红酒食用方法 浏览:31
企业前景分析方法 浏览:919
治疗压力强迫症的方法 浏览:56
模仿小罐茶的最佳方法 浏览:916
按部就班的分析方法 浏览:9
中耳炎的治疗方法是怎样的 浏览:759
有效学习方法应该具备什么条件 浏览:443
九阳c91t的使用方法 浏览:645
幼儿手工折衣服衬衫的方法视频 浏览:364
折衣服的方法视频教程 浏览:654
钢筋盖的厚度计算方法 浏览:397
直发剂使用方法 浏览:37
狸窝的使用方法 浏览:778