数据整理的常用方法_数据处理的基本方法有哪些

㈠一般情况下，数据整理时比较常用的方法是画（）字。

正

㈡整理数据的主要方法

调查.观察.测量.实验.阅览文献.互连网,我刚在做

看你是要整理哪类的，一般都有其自己的规律。工程类的有专门的规则，其他的可以按照所涉及内容或是部门分类。

㈣数据处理的常用方式

数据分析与处理方法：
采集
在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
统计/分析
统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的大量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。
导入/预处理
虽然采集端本身会有很多数据库，但是如果要对这些大量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。
挖掘
与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，还有，常用数据挖掘算法都以单线程为主。

㈤常用的数据处理方法

前面所述的各种放射性测量方法，包括航空γ能谱测量，地面γ能谱测量和氡及其子体的各种测量方法，都已用在石油放射性勘查工作之中。数据处理工作量大的是航空γ能谱测量。

（一）数据的光滑

为了减少测量数据的统计涨落影响及地面偶然因素的影响，对原始测量数据进行光滑处理。消除随机影响。

放射性测量数据光滑，最常用的光滑方法是多项式拟合移动法。在要光滑测量曲线上任取一点，并在该点两边各取m个点，共有2m+1点；用一个以该点为中心的q阶多项式对这一曲线段作最小二乘拟合，则该多项式在中心点的值，即为平滑后该点的值。用此法逐点处理，即得光滑后的曲线，光滑计算公式（公式推导略）为

核辐射场与放射性勘查

式中：y_i+j、为第i点光滑前后的值；为系数；为规范化常数。

五点光滑的二次多项式的具体光滑公式为

核辐射场与放射性勘查

如果一次光滑不够理想，可以重复进行1～2次，但不宜过多重复使用。

光滑方法，还有傅里叶变换法，以及多点平均值法，多点加权平均值法等。

使用那种方法选定之后，一般都通过编程存入计算机，进行自动化处理。

图7-2-1是美国东得克萨斯州一个油田上的航空γ放射性异常中的两条剖面图（A-B和B-C）。经过光滑处理后，低值连续，清晰明显，与油田对应的位置较好。说明四个油藏都在铀（w（U））和钾（w（K））的低值位置。

图7-2-1 美国东得克萨斯油田航空γ放射性异常剖面图

（二）趋势面分析方法

趋势分析主要反映测量变量在大范围（区域）连续变化的趋势。在原始数据中常含有许多随机误差和局部点异常，直观反映是测量曲线上下跳动或小范围突变。使用趋势分析处理是为了得到研究区域辐射场的总体分布趋势。

趋势面分析，实质上是利用多元回归分析，进行空间数据拟合。根据计算方法不同，又可分为图解法趋势面分析和数学计算法趋势面分析。图解法趋势面分析的基本思路是对观测数据采用二维方块取平均值法，或滑动平均值法计算趋势值。方块平均值法是对每一方块内的数据取平均值，作为该方块重心点的趋势值。滑动平均值法是设想一个方框，放在测区数据分布的平面图上，把落在方框内的测点数据取平均值，记在方框中心上，最后得到趋势面等值图。一般讲做一次是不够的，需要如此重复3～9次。一般都有专门程序可供使用（不作详述）。如图7-1-14（a）为原始数据等值图，中间有许多呈点状高值或低值分布，经过四次趋势面分析之后可以清楚地看出三个低值异常区。

计算法趋势面分析是选定一个数学函数，对观测数据进行拟合，给出一个曲线。拟合函数常用的有多项式函数，傅里叶级数，三角函数以及指数函数的多项式函数等。目前以二维多项式函数应用最多。

（三）岩性影响及其校正分析

不同岩石、不同土壤中放射性核素含量是有差别，有的相差还比较大，有的相差甚至超过10%～20%。这是油田放射性测量的主要影响因素。

一个测区可能出现不同土壤分布，把不同放射性水平的土壤上测量结果校正到同一水平（叫归一化方法）是非常重要的工作，主要有下面三种方法。

1.确定土壤核素含量的归一化方法

利用γ能谱测量资料，根据测区地质图或土壤分布图，分别统计总道的总计数率和铀、钍、钾含量的平均值。然后进行逐点校正，即逐点减去同类土壤的平均值，其剩余值即为异常值。

核辐射场与放射性勘查

式中：分别为第 i类土壤中测点 j的总计数和铀、钍、钾含量。分别为i类土壤的平均总计数和铀、钍、钾的平均值。分别为扣除各类土壤平均值后的剩余值，即为各测点不同土壤校正后的归一化的油田的放射性异常。根据需要可以用来绘制平面剖面图或等值线图，即为经过不同岩性（土壤）校正后的油田放射性异常图。

这个方法的缺点是计算工作量较大。

2.用钍归一化校正铀、钾含量

对自然界各种岩石中的钍、铀、钾含量的相关性研究（D.F.Saundr，1987），发现它们的含量具有很好的相关性（表7-2-2）；而且随岩性不同含量确有相应的增加或减小，据此可以利用钍的含量计算铀和钾的含量。钍有很好的化学稳定性，钍在地表环境条件下基本不流失。因此，利用钍含量计算出来的铀、钾含量，应当是与油藏存在引起的铀、钾

表7-2-2 几种岩石的钍、铀、钾含量

异常无关的正常值。用每点实测的铀、钾，减去计算的正常值，那么每个测点的铀、钾剩余值（差值）应当是油气藏引起的异常值。这样就校正了岩性（土壤）变化的影响。

对于航空γ能谱测量的总道计数率，也同样可以用钍含量（或计数率）归一化校正总道计数率，效果也非常好。

具体方法如下。

1）对铀、钾的归一化校正。

2）根据航空γ能谱测量或地面γ能谱测量数据，按测线计算铀、钍、钾含量。根据岩石（土壤）中钍与铀，钍与钾的相关关系（表7-2-1），认为铀和钍存在线性关系，钾和钍存在对数线性关系，于是建立相应的拟合关系式。

核辐射场与放射性勘查

式中：A、B、A′、B′为回归系数（对每个测区得到一组常数）；w_i（Th）为测点i实测的钍含量；w_点i（U）、w_点i（K）为i点由钍含量计算的铀、钾含量。

计算每个测点的铀、钾剩余值：

核辐射场与放射性勘查

式中：w_i（U）、w_i（K）为测点i的实测值。剩余值Δw_i（U）和Δw_i（K）为油藏引起的异常值。

南阳-泌阳航空γ能谱测区，测得的钍、铀、钾含量，按钍含量分间隔，计算其平均值，列于表7-2-3。根据此表中数据，由（7-2-7）和（7-2-8）式得：

核辐射场与放射性勘查

表7-2-3 南阳-泌阳航空γ能谱计算的钍、铀、钾

3）对总道γ计数率的归一化校正。钍比较稳定，可以认为与油气藏形成的放射性异常无关。经研究得知，原岩的总道计数率（I_点i）与钍含量的对数值存在近似的线性关系，即

核辐射场与放射性勘查

根据γ能谱实测数据求得实测i点的总道计数率（I_i）与I_点i的差值：

核辐射场与放射性勘查

即为消除岩性影响的，由油气藏引起的γ总计数率异常值。

图7-2-2 钍归一化校正岩性影响的结果

图7-2-2为任丘双河油田，两条测线（1100线和11010线）。用钍归一化法，消除岩性影响的结果。油田边界高值和油田上方低值，除钾11010线外都比较明显清晰。与已知油田边界基本一致。

㈥数据处理的基本方法有哪些

典型的计算方法有：1、列表法2、作图法3、逐差法4、最小二乘法等等

㈦常用数据分析处理方法有哪些

1、漏斗分析法

漏斗分析法能够科学反映用户行为状态，以及从起点到终点各阶段用户转化率情况，是一种重要的分析模型。漏斗分析模型已经广泛应用于网站和APP的用户行为分析中，例如流量监控、CRM系统、SEO优化、产品营销和销售等日常数据运营与数据分析工作中。

2、留存分析法

留存分析法是一种用来分析用户参与情况和活跃程度的分析模型，考察进行初始行为的用户中，有多少人会进行后续行为。从用户的角度来说，留存率越高就说明这个产品对用户的核心需求也把握的越好，转化成产品的活跃用户也会更多，最终能帮助公司更好的盈利。

3、分组分析法

分组分析法是根据数据分析对象的特征，按照一定的标志(指标)，把数据分析对象划分为不同的部分和类型来进行研究，以揭示其内在的联系和规律性。

4、矩阵分析法

矩阵分析法是指根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据，进行分类关联分析，找出解决问题的一种分析方法，也称为矩阵关联分析法，简称矩阵分析法。

导航:首页 > 使用方法 > 数据整理的常用方法

数据整理的常用方法

与数据整理的常用方法相关的资料