导航:首页 > 使用方法 > 常用三种数据变换的方法是

常用三种数据变换的方法是

发布时间：2023-06-01 22:53:40

① 数据的变换

变量变换的目的：①统一变量的量纲；②尽可能使变量呈正态分布；③使两变量间的非线性相关关系变为线性相关关系；④用一组新的、数目更少的、相互独立的变量代替原来组内有不同相关关系的变量；⑤把定量数据转化成状态型数据，以适合数学模型；⑥形成数学模型所需要的网格状分布数据。

总体来说，说是把原始数据变换成适合所选定数据模型的数据。这可用一个统一的函数表示：

y=f(x)

式中：x为原始数据；y为数学模型数据，也称方法数据。f(x)的形式是多种多样的，不同的函数形式所获得的方法数据的性质、作用不同。

(一)统一变量量纲的变换

1.标准化变换

放射性勘探方法

式中：x_ij为第j个变量的原始数据；

为变量j的算术平均值；s_j为其均方差。

变换后，方法数据y_ij的平均值为0，均为差为1。因此它又属正态化变换范畴。

2.极差变换(又称正规化变换)

放射性勘探方法

式中：x_ij为第j个变量的原始数据；x_j，min为第j个变量的最小值；x_j，max为第j个变量的最大值。

变换后，方法数据y_ij有统一的量纲，最大值为1，最小值为0，其他值在0～1之间变化。该种变换的缺点是，当x_j，max很大而x_j，min很小时，数据往往会趋于相等，会使数据间的差异不明显。

3.均匀化变换(又称均值计量变换)

放射性勘探方法

式中：x_ij为第j个变量的原始数据；

为变量j的算术平均值。

变换后，方法数据y_ij都在1附近变化，其数学期望为1，

的期望为0，且统一了量纲。它适用于比例型变量，如长度、体积、质量等数据。

4.均方差变换

放射性勘探方法

式中：x_ij为第j个变量的原始数据；s_j为变量j的均方差。

变换后，方法数据y_ij统一了量纲，使原始数据相对收敛。

上述变换都是线性变换。根据相关系数的性质，变换前后两两变量间的相关程度不变，这一点是实行数据变换的理论依据；否则这种变换是不允许的。

(二)正态化变换

除了标准化变换外，还包括角度变换、对数变换、平方根变换等。这些变换都是把数据变换成趋于正态性分布的数据。

1.角度变换

这种变换是把原始数据变为0°～90°之间的数。公式为

放射性勘探方法

式中：x_ij为第j种变量的原始数据；m取正整数，通常取最大值整数部分的位数。

变换后数据变成了百分比数据，开方是为了避免数据过小。

通过变换，使百分比数据的概率分布曲线尾端拉长，中心段得以压缩，使概率分布曲线趋于正态。变换前后，两两变量间的相关关系略有差异。

2.平方根变换

为了使概率分布为正偏的数据变为接近正态分布的方法数据，可用下式：

放射性勘探方法

式中：c为常数；x_ij为原始数据。

该变换适用于服从泊松分布的离散型变量，如矿床个数、异常个数、露头个数、距主断裂带的距离等。

变换后，方法数据的方差稳定，常数项c能使离散的数据趋于连续，开方后数据趋于正态分布。通常c不能取得太小。

3.对数变换

对数变换使用的公式为

放射性勘探方法

该式适于服从对数正态分布的数据，如氡气浓度，铀、钍、钾的含量等。由于这类数据可能出现零的值，为避免其对数后出现大的负值，变换前需加一个适当的常数c。

上述三种正态化变换，都能使偏斜分布变换为正态分布。那么具体选择何种变换，应首先考察数据的频率分布曲线，区分正偏斜分布还是负偏斜分布。若是负偏斜分布，用反正弦变换；若是正偏斜分布，则视长尾收敛程度而定，尾长的采用对数变换，中等长的采用平方根变换，尾略长的采用反余弦变换。尾的长短、偏斜强弱的区分是定性的，不易掌握。最可靠的办法是对同批数据试用各种变换，做出变换后的曲线并检验之，从中选择最优者。

(三)化直变换

化直变换系指使曲线函数化为直线函数的数学变换。它是在直角坐标系，按样本值点出散点图，然后选出适合散点分布趋势的最佳拟合函数的一种数学方法。通过的曲线函数有：指数函数、线性函数、对数函数、S形函数、双曲函数、幂函数。

化直形式：

指数函数：

放射性勘探方法

线性函数：本身为直线，无需化直。

对数函数：

放射性勘探方法

S形函数：

放射性勘探方法

双曲线函数：

放射性勘探方法

幂函数：

放射性勘探方法

以上列举的几种变换方法是最普通的方法，通常原始数据经变换后，都能满足数学模型的要求。但是变换不当，则效果适得其反，所以原始数据的变换是一项重要而细致的工作，有时甚至需要通过多种试验方案才能找出最合适的变换函数。

② 数据规范化的几种方法

在数据分析之前，我们都需要让数据满足一定的规律，达到规范性的要求，便于进行挖掘。

如果不进行变换的话，要不就是维数过多增加了计算成本，要不就是数据过于集中，很难找到数据之间的特征。

在数据变换中，重点是如何将数值进行规范化，有三种常用的规范方法，分别是Min-Max规范化、Z-Score规羡昌坦范化、小数定标规范化。

1.Min-max规范化：

将原始数据投射到指定的空间[min,max]。可用公式表示为：

新数值 = （原数值-极小值）/ (极大值 - 极小值) 。

SciKit-Learn中的MinMaxScaler可以完成这个功能。

2.Z-Score规范化：

将原始数据转换为正态分布的形式，使结果易于比较。可用兄桐公式表示为：

新数值 = （原数值 - 均值）/ 标准差

在SciKit-Learn中的preprocessing.scale()可以直接将给定数据进行Z-Score规范化。

3.小数定标规范化：

通过移动小数点的位置来进行规范化。小数点移动的位数取决于该属性数据取值的最大绝对值。

例如：属性A的取值范围是-800到70，那么就可以将数据的小数点整体向左移三位即[-0.8,0.07]

利用numpy对数据进迅贺行小数定标规范化的方法如下：

③ 数据规范化名词解释

数据在应用过程中相对比较繁杂。为了能够更好的应用数据，并以需要进行格式化的排列，以橡高返备不时之需。简称数据规范化。

数据规范化处理是数据挖掘的一项基本操作。现实中，数据中不同特征的量纲可能不一致，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果，因此，需要对数据按照一定比例进行缩放，使之落在一个特定的区域，便于进行综合分析。

特别是基于距离的挖掘方法，在建模前一定要对数据进行规范化处理，如SVM，KNN，K-means，聚类等方法。

(3)常用三种数据变换的方法是扩展阅读：

数据规范化的几种方法：

在数据分析之前，都需要让数据满足一定的规律，达到规范性的要求，便于进行挖掘。

如果不进行变换的话，要不就是维数过多增加了计算成本，要不就是数据过于集中，很难找到数据之间的特征。

在数据变换中，重点是如何将数值进行规范化，有三种常用的规范方法，分别是Min-Max规范化、Z-Score规范化、小数定标规范化。

1.Min-max规范化：

将原始数据投射到指定的空间[min,max]。可用公式表示为：

新数值 = （原数值-极小值）/ (极大值 - 极小值) 。

SciKit-Learn中的MinMaxScaler可以完成这个功能。

2.Z-Score规范化：

将原始数据转换为正态分布的形式，使结果易于比较。可用公式表示为：

新数值 = （原数值 - 均值）/ 标准差。

在SciKit-Learn中的preprocessing.scale()可以直接将给定数据进行Z-Score规范化。

3.小数定标规范梁饥化：

通过移动小数点的位置来进行规范化。小数点移动的位数取决于该属性数据取值的最大绝对值。

例念搭如：属性A的取值范围是-800到70，那么就可以将数据的小数点整体向左移三位即[-0.8,0.07]。

参考资料来源：网络-数据标准化

④ 数据交换三种方式中各自的优点和缺点

数据交换三种方式分别是:线路交换、报文交换、分组交换。

第一种：线路交换(电路交换)

优点:

1、建立线路之后、释放线路之前,即使站点之间无任何数据可以传输,整个线路仍不允许其它站点共享。

2、一旦线路建立,通信双方的所有资源(包括线路资源)均用于本次通信,除了少量的传输延迟之外,不再有其它延迟,具有较好的实时性。

3、线路交换设备简单。

4、用户数据透明传输。

缺点:

1、线路的利用率较低,并且容易引起接续时的拥塞。

2、不提供任何缓存装置。

3、要求收发双方自动进行速率匹配。

第二种：报文交换

优点:

1、不独占线路,多个用户的数据可以通过存储和排队共享一条线路。

2、提高了线路的利用率。

3、支持多点传输(一个报文传输给多个用户,在报文中增加“地址字段”,中间结点根据地址字段进行复制和转发)。

4、中间结点可进行数据格式的转换,方便接收站点的收取。

5、增加了差错检测功能,避免出错数据的无谓传输等。

缺点:

1、由于“存储-转发”和排队,增加了数据传输的延迟。

2、报文长度未作规定,报文只能暂存在磁盘上,磁盘读取占用了额外的时间。

3、任何报文都必须排队等待:不同长度的报文要求不同长度的处理和传输时间,即使非常短小的报文(例如:交互式通信中的会话信息)。

4、报文交换难以支持实时通信和交互式通信的要求。

第三种：分组交换

优点:

1、兼有电路交换和报文交换的优点。

2、每个分组标识后,在一条物理线路上采用动态复用的技术,同时传送多个数据分组。

3、分组交换比电路交换的电路利用率高,比报文交换的传输时延小,交互性好。

4、线路利用率高:分组交换以虚电路的形式进行信道的多路复用,实现资源共享,可在一条物理线路上提供多条逻辑信道,极大地提高线路的利用率。使传输费用明显下降。

5、不同种类的终端可以相互通信:分组网以X.25协议向用户提供标准接口,数据以分组为单位在网络内存储转发,使不同速率终端,不同协议的设备经网络提供的协议变换功能后实现互相通信。

6、信息传输可靠性高:在网络中每个分组进行传输时,在节点交换机之间采用差错校验与重发的功能,因而在网中传送的误码率大大降低。

7、分组多路通信:由于每个分组都包含有控制信息,所以分组型终端可以同时与多个用户终端进行通信,可把同一信息发送到不同用户。

8、提供网络的基本业务:交换虚电路和永久虚电路及其他补充业务,如闭和用户群,网路用户识别等。在端到端计算机之间通信时,进行路由选择,以及流量控制。

9、能提供多种通信规程,数据转发,维护运行,故障诊断,计费与一些网络的统计等。

缺点:

计费与传输距离无关:网络计费按时长、信息量计费,与传输距离无关,适合那些非实时性,而通信量不大的用户, 信息量大的不适用。

(4)常用三种数据变换的方法是扩展阅读

网游的重大特点就是需要客户端数据与服务器端数据库不断的更新同步, 这就造成大量的数据双向传输。

光纤的传输速度和传输带宽都是电话线无法追及的。

光纤类似于双向8车道高速公路;而电话线只是双向二车道公路。

阅读全文

与常用三种数据变换的方法是相关的资料

热点内容

碳水化合物检测方法发布：2025-10-20 08:37:18 浏览：549

大数据教学方法论文发布：2025-10-20 07:31:21 浏览：472

红米手机开机键在哪里设置方法发布：2025-10-20 07:29:11 浏览：85

整数减分数最简单的方法发布：2025-10-20 06:42:40 浏览：667

14x37x5的简便方法发布：2025-10-20 06:24:39 浏览：338

定制衣柜门套安装方法发布：2025-10-20 05:40:42 浏览：461

做衣服用电机方法视频发布：2025-10-20 05:23:21 浏览：493

比例是运用了什么思想方法发布：2025-10-20 04:58:21 浏览：430

楼梯弯头度数计算方法发布：2025-10-20 04:55:21 浏览：991

安全提篮使用方法发布：2025-10-20 04:37:56 浏览：578

如何做作业的新方法发布：2025-10-20 04:17:12 浏览：694

帝王菜的功效与作用及食用方法发布：2025-10-20 04:06:32 浏览：241

基础梁设计处理的计算方法发布：2025-10-20 03:46:24 浏览：328

打啤酒的正确方法视频发布：2025-10-20 03:38:40 浏览：288

蓝牙连接有线路由器的方法发布：2025-10-20 02:53:18 浏览：982

学英语的方法和技巧答案发布：2025-10-20 02:52:43 浏览：859

办案区防撞软包安装方法发布：2025-10-20 02:52:33 浏览：621

防雷接地装置计算方法发布：2025-10-20 02:41:35 浏览：646

临床化学检测多用什么方法发布：2025-10-20 02:18:27 浏览：289

催乳按摩方法图片发布：2025-10-20 02:13:59 浏览：274