导航:首页 > 使用方法 > 无监督分箱的常用方法

无监督分箱的常用方法

发布时间:2023-12-02 05:49:55

㈠ 特征工程中数据预处理方法总结

特征工程

“巧妇难为无米之炊”,在机器学习中,数据和特征便是“米”,而模型和算法则是“巧妇”。没有充足的数据和合适的特征,再强大的模型也无法拟合出满意的结果。因此,对于机器学习的问题,常说的一句话是数据和特征决定了结果的上限,而模型和算法则是在优化过程中逐步接近这个上限。所以,特征的处理在整个机器学习过程中占有举足轻重的地位,对特征的处理过程被称为特征工程。特征工程是对原始数据进行一系列的工程处理,将其提炼为特征,作为输入工算法和模型使用。

特征工程又包含了Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和Feature construction(特征构造)等子问题,而数据预处理又包括了数据清洗和特征预处理等子问题。本文用作总结数据预处理的一系列方法。

1、无量纲化

(1)什么是无量纲化

为了消除数据特征之间的量纲影响,我们需要对特征进行归一化和标准化处理,使得不同指标之间具有可比性。例如:分析一个人的身高和体重对健康的影响,如果使用米和千克作为单位,那么身高和体重会处于不同的数值范围内,体重的数值在量上要远大于身高,而如果不对其做处理直接用的情况下分析结果显然会更依赖于数值差别较大的体重特征。因此,为了得到更为准确的结果,就需要对特征进行归一化和标准化处理,使各项指标处于同一数量级,以便进行分析。

(2)无量纲化方法

无量纲化通常也被称为归一化或标准化,是因为归一化和标准化是无量纲化的两个主要方法

1)归一化

归一化是对原始数据进行线性变换, 使结果映射到[0, 1]的范围, 实现对原始数据的等比缩放。 最常用对的是Min-Max Scaling归一化方法(也叫极差变换法),公式如下 :

  其中X为原始数据, Xmax、Xmin分别为数据最大值和最小值。最值归一化的使用范围是特征的分布具有明显边界的,受outlier的影响比较大。

除此之外,常用的归一化方法有原始值比最大值。

2)标准化

标准化会将原始数据映射到均值为0、 标准差为1的分布上。常用的方法是零均值标准化(Z-Score Normalization)。 具体来说, 假设原始特征的均值为μ、 标准差为σ, 那么归一化公式定义为 :

零均值标准化适用于数据中没有明显的边界,有可能存在极端数据值的情况。

3)不同的无量纲方法的适用范围

无量纲化避免了不同量纲的选取对距离计算产生的巨大影响。但是,归一化和标准化适用于不同的场景,在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化方法表现更好。在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

(3)无量纲化的作用和适用模型

1)作用

无量纲化的作用除了可以使分析结果不明显倾向于差异化较大的特征外,另一个重要作用是在随机梯度下降算法中,如果对特征进行了无量纲化处理,会在相同的学习率的情况下减少差异较大的特征的迭代次数,更快找到最优解。例如,假设有两种数值型特征,x1x1的取值范围为 [0, 10],x2x2的取值范围为[0, 3]。则在未归一化和归一化数据的梯度下降过程分别如下图:

由图可以看出,在学习速率相同的情况下,x1相比与x2需要较多的迭代才能找到最优解。但是,如果将 x1 和 x2都映射到到相同的数值区间后, 优化目标的等值图会变成圆形。x1和 x2 的更新速度变得更为一致, 容易更快地通过梯度下降找到最优解。

2)适用算法

机器学习中,并不是所有的模型都需要对特征进行无量纲化处理。比如概率模型并不需要,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率。但是,像线性回归、逻辑回归和支持向量机以及神经网络模型等则就需要提前进行特征的无量纲化。从另一个角度来看,通过梯度下降法求解的模型通常需要无量纲化。否则,像决策树在求解过程中,主要依据特征值的信息增益比等信息,而这些信息跟特征是否经过归一化等无量纲化处理是无关的,因此决策数不要求对特征进行无量纲化处理。

2、类别型特征编码

类别型特征的值表现为类别变量,类别型变量,也被称为定性变量(categorical variable)。比如性别、省份、学历、产品等级等。这类变量的取值通常是用文字而非数字来表示。在机器学习中,除了决策树族的算法能直接接受类别型特征作为输入,对于支持向量机,逻辑回归等模型来说,必须对其做一定的处理,转换成可靠的数值特征才能正确运行。类别型特征的处理方法有:

(1)序列编码(ordinal encoding)

一般处理类别间具有大小关系的数据,例如期末成绩的 [A, B, C, D] 四挡可以直接转化为 [0, 1, 2, 3]。在转化后,依然保持类别之间的顺序关系。

(2)独热编码(one-hot encoding)

序列编码潜在的定义了类别之间的距离具有相同的含义。以成绩为例,两个人之间,得分A与B的成绩差,和B与C的成绩差,在进行预测时,是完全等价的,由于 [A, B, C, D] 直观上与成绩正相关,使用序列编码不会带来太大的损失。然而在处理像血型这样的类别特征时,如果将 [A, B, AB, O] 直接编码成 [1, 2, 3, 4],显然A与B和B与AB之间的距离,并不具有相同的含义,甚至是完全抽象的无法理解的意义,此时,序列编码就不适用了。因此,便出现了独热编码,独热编码将类别特征用一组比特位来表示,每一位代表一个可能的类别,如果该变量不能一次称为多个类别,那么该组中只有一位可以是1。

对于类别取值较多的情况下适用独热编码需要注意以下问题:

1)适用稀疏向量来节省空间。在独热编码下,特征向量只有某一维取值为1,其他位置取值均为0。因此,可以利用向量的稀疏表示有效节省空间,并且目前大部分的算法均接受稀疏向量形式的输入。

2)配合特征选择来降低维度。高维度特征会带来几方面的问题,一是在K近邻算法中,高维空间下两点之间的距离很难得到有效的衡量;二是在逻辑回归模型中,参数的数量会随着维度的增加而增高,容易引起过拟合问题;三是通常只有部分维度是对分类、预测有帮助,因此可以考虑配合特征选择来降低维度。

(3)哑变量(mmy encoding)

哑变量是独热编码的一种形式,onehot编码的问题是它允许k个自由度,其中变量本身只需要k-1。虚拟编码通过仅适用表示中的k-1个特征来消除额外的自由度。

3、数值型特征离散化

离散化是数值型特征非常重要的一个处理,其实就是要将数值型数据转化成类别型数据。连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。

(1)无监督方法

1)自定义离散化,根据业务经验或者常识等自行设定划分的区间,然后将原始数据归类到各个区间中。

2)等距化方法,按照相同宽度将数据分成几等份,其缺点是受到异常值的影响比较大。

3)等频化方法,将数据分成几等份,每等份数据里面的个数是一样的。

4)聚类离散化

5)二值化方法,设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。

(2)有监督方法

1)卡方法,自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。其基本思想是,对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。

2)最小熵法,需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别。数据集的熵越低,说明数据之间的差异越小,最小熵划分就是为了使每箱中的数据具有最好的相似性。给定箱的个数,如果考虑所有可能的分箱情况,最小熵方法得到的箱应该是具有最小熵的分箱。

4、缺失值处理方法

(1)直接删除

如果在数据集中,只有几条数据的某几列中存在缺失值,那么可以直接把这几条数据删除。

(2)均值插补

数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。

(3)利用同类均值插补

同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。

(4)极大似然估计

在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。

(5)多重插补

多重插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。

㈡ 有监督学习和无监督学习算法怎么理解

在判断是有监督学习还是在无监督学习上,我们可以具体是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

什么是学习(learning)?

一个成语就可概括:举一反三。机器学习的思路有点类似高考一套套做模拟试题,从而熟悉各种题型,能够面对陌生的问题时算出答案。

简而言之,机器学习就是看能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考题目),而这种根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

常用的无监督学习算法主要有三种:聚类、离散点检测和降维,包括主成分分析方法PCA等,等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。

从原理上来说,PCA等数据降维算法同样适用于深度学习,但是这些数据降维方法复杂度较高,所以现在深度学习中采用的无监督学习方法通常采用较为简单的算法和直观的评价标准。比如无监督学习中最常用且典型方法聚类。

在无监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。这时就需要某种算法帮助我们寻找一种结构。

监督学习(supervised learning),是从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。 常见任务包括分类与回归。

无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。(这一点比监督学习方法的用途要广。如分析一堆数据的主分量,或分析数据集有什么特点都可以归于无监督学习方法的范畴) ,而有监督学习则是通过已经有的有标签的数据集去训练得到一个最优模型。

㈢ 非监督学习有哪些

在机器学习,无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构。因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案。这区别于监督学习和强化学习无监督学习。

无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。

非监督学习对应的是监督学习。
聚类(例如,混合模型,层次聚类),

隐马尔可夫模型,

盲目的信号分离使用特征提取的技术降维(例如,主成分分析,独立分量分析,非负矩阵分解,奇异值分解)。
在神经网络模型,自组织映射(SOM)和自适应共振理论(艺术)是常用的无监督学习算法。SOM是一个地形组织附近的位置在地图上代表输入有相似属性。艺术模型允许集群的数量随问题规模和让用户控制之间的相似程度相同的集群成员通过一个用户定义的常数称为警戒参数。艺术网络也用于许多模式识别任务,如自动目标识别和地震信号处理。艺术的第一个版本是"ART1",由木匠和Grossberg(1988)。

阅读全文

与无监督分箱的常用方法相关的资料

热点内容
示波器电流探头测量方法 浏览:342
传统解剖学教学方法的探索 浏览:370
打娃娃什么方法好 浏览:320
简单木头秋千制作方法 浏览:860
研究方法计算实验方法 浏览:670
修复肌肤的方法图片 浏览:332
口腔异味重怎么治疗方法 浏览:93
挽回女朋友的步骤和方法 浏览:517
oppo下载路径设置在哪里设置方法 浏览:962
画竹的方法有哪些 浏览:212
金苹果的食用方法 浏览:915
韩国娃娃面膜使用方法 浏览:964
新蒙迪欧灯光使用方法 浏览:201
音乐的知识与技能教学方法 浏览:731
igbt模块万用表检测方法视频 浏览:963
矛盾分析方法有哪几个 浏览:229
沙糖桔多效唑使用方法 浏览:258
抓女方出轨有哪些技术方法 浏览:322
葛氏捏筋拍打方法视频 浏览:809
人工挤羊奶的正确方法 浏览:928