导航:首页 > 使用方法 > 常用三种数据变换的方法是

常用三种数据变换的方法是

发布时间:2023-06-01 22:53:40

① 数据的变换

变量变换的目的:①统一变量的量纲;②尽可能使变量呈正态分布;③使两变量间的非线性相关关系变为线性相关关系;④用一组新的、数目更少的、相互独立的变量代替原来组内有不同相关关系的变量;⑤把定量数据转化成状态型数据,以适合数学模型;⑥形成数学模型所需要的网格状分布数据。

总体来说,说是把原始数据变换成适合所选定数据模型的数据。这可用一个统一的函数表示:

y=f(x)

式中:x为原始数据;y为数学模型数据,也称方法数据。f(x)的形式是多种多样的,不同的函数形式所获得的方法数据的性质、作用不同。

(一)统一变量量纲的变换

1.标准化变换

放射性勘探方法

式中:xij为第j个变量的原始数据;

为变量j的算术平均值;sj为其均方差。

变换后,方法数据yij的平均值为0,均为差为1。因此它又属正态化变换范畴。

2.极差变换(又称正规化变换)

放射性勘探方法

式中:xij为第j个变量的原始数据;xj,min为第j个变量的最小值;xj,max为第j个变量的最大值。

变换后,方法数据yij有统一的量纲,最大值为1,最小值为0,其他值在0~1之间变化。该种变换的缺点是,当xj,max很大而xj,min很小时,数据往往会趋于相等,会使数据间的差异不明显。

3.均匀化变换(又称均值计量变换)

放射性勘探方法

式中:xij为第j个变量的原始数据;

为变量j的算术平均值。

变换后,方法数据yij都在1附近变化,其数学期望为1,

的期望为0,且统一了量纲。它适用于比例型变量,如长度、体积、质量等数据。

4.均方差变换

放射性勘探方法

式中:xij为第j个变量的原始数据;sj为变量j的均方差。

变换后,方法数据yij统一了量纲,使原始数据相对收敛。

上述变换都是线性变换。根据相关系数的性质,变换前后两两变量间的相关程度不变,这一点是实行数据变换的理论依据;否则这种变换是不允许的。

(二)正态化变换

除了标准化变换外,还包括角度变换、对数变换、平方根变换等。这些变换都是把数据变换成趋于正态性分布的数据。

1.角度变换

这种变换是把原始数据变为0°~90°之间的数。公式为

放射性勘探方法

式中:xij为第j种变量的原始数据;m取正整数,通常取最大值整数部分的位数。

变换后数据变成了百分比数据,开方是为了避免数据过小。

通过变换,使百分比数据的概率分布曲线尾端拉长,中心段得以压缩,使概率分布曲线趋于正态。变换前后,两两变量间的相关关系略有差异。

2.平方根变换

为了使概率分布为正偏的数据变为接近正态分布的方法数据,可用下式:

放射性勘探方法

式中:c为常数;xij为原始数据。

该变换适用于服从泊松分布的离散型变量,如矿床个数、异常个数、露头个数、距主断裂带的距离等。

变换后,方法数据的方差稳定,常数项c能使离散的数据趋于连续,开方后数据趋于正态分布。通常c不能取得太小。

3.对数变换

对数变换使用的公式为

放射性勘探方法

该式适于服从对数正态分布的数据,如氡气浓度,铀、钍、钾的含量等。由于这类数据可能出现零的值,为避免其对数后出现大的负值,变换前需加一个适当的常数c。

上述三种正态化变换,都能使偏斜分布变换为正态分布。那么具体选择何种变换,应首先考察数据的频率分布曲线,区分正偏斜分布还是负偏斜分布。若是负偏斜分布,用反正弦变换;若是正偏斜分布,则视长尾收敛程度而定,尾长的采用对数变换,中等长的采用平方根变换,尾略长的采用反余弦变换。尾的长短、偏斜强弱的区分是定性的,不易掌握。最可靠的办法是对同批数据试用各种变换,做出变换后的曲线并检验之,从中选择最优者。

(三)化直变换

化直变换系指使曲线函数化为直线函数的数学变换。它是在直角坐标系,按样本值点出散点图,然后选出适合散点分布趋势的最佳拟合函数的一种数学方法。通过的曲线函数有:指数函数、线性函数、对数函数、S形函数、双曲函数、幂函数。

化直形式:

指数函数:

放射性勘探方法

线性函数:本身为直线,无需化直。

对数函数:

放射性勘探方法

S形函数:

放射性勘探方法

双曲线函数:

放射性勘探方法

幂函数:

放射性勘探方法

以上列举的几种变换方法是最普通的方法,通常原始数据经变换后,都能满足数学模型的要求。但是变换不当,则效果适得其反,所以原始数据的变换是一项重要而细致的工作,有时甚至需要通过多种试验方案才能找出最合适的变换函数。

② 数据规范化的几种方法

在数据分析之前,我们都需要让数据满足一定的规律,达到规范性的要求,便于进行挖掘。

如果不进行变换的话,要不就是维数过多增加了计算成本,要不就是数据过于集中,很难找到数据之间的特征。

在数据变换中,重点是如何将数值进行规范化,有三种常用的规范方法,分别是Min-Max规范化、Z-Score规羡昌坦范化、小数定标规范化。

1.Min-max规范化:

将原始数据投射到指定的空间[min,max]。可用公式表示为:

新数值 = (原数值-极小值)/ (极大值 - 极小值) 。

SciKit-Learn中的MinMaxScaler可以完成这个功能。

2.Z-Score规范化:

将原始数据转换为正态分布的形式,使结果易于比较。可用兄桐公式表示为:

新数值 = (原数值 - 均值)/ 标准差

在SciKit-Learn中的preprocessing.scale()可以直接将给定数据进行Z-Score规范化。

3.小数定标规范化:

通过移动小数点的位置来进行规范化。小数点移动的位数取决于该属性数据取值的最大绝对值。

例如:属性A的取值范围是-800到70,那么就可以将数据的小数点整体向左移三位即[-0.8,0.07]

利用numpy对数据进迅贺行小数定标规范化的方法如下:

③ 数据规范化名词解释

数据在应用过程中相对比较繁杂。为了能够更好的应用数据,并以需要进行格式化的排列,以橡高返备不时之需。简称数据规范化。

数据规范化处理是数据挖掘的一项基本操作。现实中,数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析。

特别是基于距离的挖掘方法,在建模前一定要对数据进行规范化处理,如SVM,KNN,K-means,聚类等方法。

(3)常用三种数据变换的方法是扩展阅读:

数据规范化的几种方法:

在数据分析之前,都需要让数据满足一定的规律,达到规范性的要求,便于进行挖掘。

如果不进行变换的话,要不就是维数过多增加了计算成本,要不就是数据过于集中,很难找到数据之间的特征。

在数据变换中,重点是如何将数值进行规范化,有三种常用的规范方法,分别是Min-Max规范化、Z-Score规范化、小数定标规范化。

1.Min-max规范化:

将原始数据投射到指定的空间[min,max]。可用公式表示为:

新数值 = (原数值-极小值)/ (极大值 - 极小值) 。

SciKit-Learn中的MinMaxScaler可以完成这个功能。

2.Z-Score规范化:

将原始数据转换为正态分布的形式,使结果易于比较。可用公式表示为:

新数值 = (原数值 - 均值)/ 标准差。

在SciKit-Learn中的preprocessing.scale()可以直接将给定数据进行Z-Score规范化。

3.小数定标规范梁饥化:

通过移动小数点的位置来进行规范化。小数点移动的位数取决于该属性数据取值的最大绝对值。

例念搭如:属性A的取值范围是-800到70,那么就可以将数据的小数点整体向左移三位即[-0.8,0.07]。

参考资料来源:网络-数据标准化





④ 数据交换三种方式中各自的优点和缺点

数据交换三种方式分别是:线路交换、报文交换、分组交换。

第一种:线路交换(电路交换)

优点:

1、建立线路之后、释放线路之前,即使站点之间无任何数据可以传输,整个线路仍不允许其它站点共享。

2、一旦线路建立,通信双方的所有资源(包括线路资源)均用于本次通信,除了少量的传输延迟之外,不再有其它延迟,具有较好的实时性。

3、线路交换设备简单。

4、用户数据透明传输。

缺点:

1、线路的利用率较低,并且容易引起接续时的拥塞。

2、不提供任何缓存装置。

3、要求收发双方自动进行速率匹配。

第二种:报文交换

优点:

1、不独占线路,多个用户的数据可以通过存储和排队共享一条线路。

2、提高了线路的利用率。

3、支持多点传输(一个报文传输给多个用户,在报文中增加“地址字段”,中间结点根据地址字段进行复制和转发)。

4、中间结点可进行数据格式的转换,方便接收站点的收取。

5、增加了差错检测功能,避免出错数据的无谓传输等。

缺点:

1、由于“存储-转发”和排队,增加了数据传输的延迟。

2、报文长度未作规定,报文只能暂存在磁盘上,磁盘读取占用了额外的时间。

3、任何报文都必须排队等待:不同长度的报文要求不同长度的处理和传输时间,即使非常短小的报文(例如:交互式通信中的会话信息)。

4、报文交换难以支持实时通信和交互式通信的要求。

第三种:分组交换

优点:

1、兼有电路交换和报文交换的优点。

2、每个分组标识后,在一条物理线路上采用动态复用的技术,同时传送多个数据分组。

3、分组交换比电路交换的电路利用率高,比报文交换的传输时延小,交互性好。

4、线路利用率高:分组交换以虚电路的形式进行信道的多路复用,实现资源共享,可在一条物理线路上提供多条逻辑信道,极大地提高线路的利用率。使传输费用明显下降。

5、不同种类的终端可以相互通信:分组网以X.25协议向用户提供标准接口,数据以分组为单位在网络内存储转发,使不同速率终端,不同协议的设备经网络提供的协议变换功能后实现互相通信。

6、信息传输可靠性高:在网络中每个分组进行传输时,在节点交换机之间采用差错校验与重发的功能,因而在网中传送的误码率大大降低。

7、分组多路通信:由于每个分组都包含有控制信息,所以分组型终端可以同时与多个用户终端进行通信,可把同一信息发送到不同用户。

8、提供网络的基本业务:交换虚电路和永久虚电路及其他补充业务,如闭和用户群,网路用户识别等。在端到端计算机之间通信时,进行路由选择,以及流量控制。

9、能提供多种通信规程,数据转发,维护运行,故障诊断,计费与一些网络的统计等。

缺点:

计费与传输距离无关:网络计费按时长、信息量计费,与传输距离无关,适合那些非实时性,而通信量不大的用户, 信息量大的不适用。

(4)常用三种数据变换的方法是扩展阅读

网游的重大特点 就是需要客户端数据与服务器端数据库不断的更新同步, 这就造成大量的数据双向传输。

光纤的传输速度和传输带宽 都是电话线无法追及的。

光纤 类似于双向8车道高速公路;而电话线 只是双向二车道公路。

阅读全文

与常用三种数据变换的方法是相关的资料

热点内容
用面粉简单的方法可以做什么手工 浏览:748
入职高中有什么好方法 浏览:792
生活中有什么除螨的好方法 浏览:185
乐视安装系统在哪里设置方法 浏览:629
检查瓷砖的方法图片 浏览:113
开关连接电脑屏幕方法 浏览:384
流程稼动率的计算方法 浏览:487
初中英语考试技巧方法 浏览:678
tan13度数计算方法 浏览:663
作比较的方法在文章中怎么找 浏览:157
光学的方法测量外形轮廓 浏览:524
如何给室内降温方法 浏览:181
制作山水画的方法步骤 浏览:855
眼睛结膜炎治疗方法 浏览:589
香港病毒治疗方法 浏览:870
空调线管的安装方法 浏览:809
耳洞枪的使用方法 浏览:983
诺基亚n72锁码解决方法 浏览:575
如何治毛周角化的方法 浏览:181
数字资源的获取方法与步骤 浏览:39