导航:首页 > 解决方法 > 简述缺失值的解决方法

简述缺失值的解决方法

发布时间：2023-08-14 16:43:02

⑴ 数据清理中，处理缺失值的方法有哪些

1.
删除含有缺失值的个案
2.
可能值插补缺失值
(1)均值插补
(2)利用同类均值插补。
(3)极大似然估计（Max
Likelihood
,ML）
(4)多重插补（Multiple
Imputation，MI）

⑵ 数据清理中，处理缺失值的方法有哪些

由于调查、编码和录入误差，数据中可能存在一些无效值和缺失值，需要给予适当的处理。常用的处理方法有：估算，整例删除，变量删除和成对删除。

计算机俗称电脑，是一种用于高速计算的电子计算机器，可以进行数值计算，又可以进行逻辑计算，还具有存储记忆功能。是能够按照程序运行，自动、高速处理海量数据的现代化智能电子设备。由硬件系统和软件系统所组成，没有安装任何软件的计算机称为裸机。

可分为超级计算机、工业控制计算机、网络计算机、个人计算机、嵌入式计算机五类，较先进的计算机有生物计算机、光子计算机、量子计算机、神经网络计算机。蛋白质计算机等。

当今计算机系统的运算速度已达到每秒万亿次，微机也可达每秒几亿次以上，使大量复杂的科学计算问题得以解决。例如：卫星轨道的计算、大型水坝的计算、24小时天气预报的计算等，过去人工计算需要几年、几十年，而现在用计算机只需几天甚至几分钟就可完成。

科学技术的发展特别是尖端科学技术的发展，需要高度精确的计算。计算机控制的导弹之所以能准确地击中预定的目标，是与计算机的精确计算分不开的。一般计算机可以有十几位甚至几十位（二进制）有效数字，计算精度可由千分之几到百万分之几，是任何计算工具所望尘莫及的。

随着计算机存储容量的不断增大，可存储记忆的信息越来越多。计算机不仅能进行计算，而且能把参加运算的数据、程序以及中间结果和最后结果保存起来，以供用户随时调用；还可以对各种信息（如视频、语言、文字、图形、图像、音乐等）通过编码技术进行算术运算和逻辑运算，甚至进行推理和证明。

计算机内部操作是根据人们事先编好的程序自动控制进行的。用户根据解题需要，事先设计好运行步骤与程序，计算机十分严格地按程序规定的步骤操作，整个过程不需人工干预，自动执行，已达到用户的预期结果。

超级计算机（supercomputers）通常是指由数百数千甚至更多的处理器（机）组成的、能计算普通PC机和服务器不能完成的大型复杂课题的计算机。超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机，是国家科技发展水平和综合国力的重要标志。

超级计算机拥有最强的并行计算能力，主要用于科学计算。在气象、军事、能源、航天、探矿等领域承担大规模、高速度的计算任务。

在结构上，虽然超级计算机和服务器都可能是多处理器系统，二者并无实质区别，但是现代超级计算机较多采用集群系统，更注重浮点运算的性能，可看着是一种专注于科学计算的高性能服务器，而且价格非常昂贵。

一般的超级计算器耗电量相当大，一秒钟电费就要上千，超级计算器的CPU至少50核也就是说是家用电脑的10倍左右，处理速度也是相当的快，但是这种CPU是无法购买的，而且价格要上千万。

⑶ 如何处理数据中的缺失值

一、常用方法 1. 删除
最简单的方法是删除，删除属性或者删除样本。如果大部分样本该属性都缺失，这个属性能提供的信息有限，可以选择放弃使用该维属性；如果一个样本大部分属性缺失，可以选择放弃该样本。虽然这种方法简单，但只适用于数据集中缺失较少的情况。

2. 统计填充
对于缺失值的属性，尤其是数值类型的属性，根据所有样本关于这维属性的统计值对其进行填充，如使用平均数、中位数、众数、最大值、最小值等，具体选择哪种统计值需要具体问题具体分析。另外，如果有可用类别信息，还可以进行类内统计，比如身高，男性和女性的统计填充应该是不同的。

3. 统一填充
对于含缺失值的属性，把所有缺失值统一填充为自定义值，如何选择自定义值也需要具体问题具体分析。当然，如果有可用类别信息，也可以为不同类别分别进行统一填充。常用的统一填充值有：“空”、“0”、“正无穷”、“负无穷”等。

4. 预测填充
我们可以通过预测模型利用不存在缺失值的属性来预测缺失值，也就是先用预测模型把数据填充后再做进一步的工作，如统计、学习等。虽然这种方法比较复杂，但是最后得到的结果比较好。

二、具体分析
上面两次提到具体问题具体分析，为什么要具体问题具体分析呢？因为属性缺失有时并不意味着数据缺失，缺失本身是包含信息的，所以需要根据不同应用场景下缺失值可能包含的信息进行合理填充。下面通过一些例子来说明如何具体问题具体分析，仁者见仁智者见智，仅供参考：

“年收入”：商品推荐场景下填充平均值，借贷额度场景下填充最小值； “行为时间点”：填充众数； “价格”：商品推荐场景下填充最小值，商品匹配场景下填充平均值； “人体寿命”：保险费用估计场景下填充最大值，人口估计场景下填充平均值； “驾龄”：没有填写这一项的用户可能是没有车，为它填充为0较为合理； ”本科毕业时间”：没有填写这一项的用户可能是没有上大学，为它填充正无穷比较合理； “婚姻状态”：没有填写这一项的用户可能对自己的隐私比较敏感，应单独设为一个分类，如已婚1、未婚0、未填-1。

阅读全文

与简述缺失值的解决方法相关的资料

热点内容

开关的使用方法发布：2025-03-18 14:40:08 浏览：126

跑步动作要领训练方法发布：2025-03-18 14:25:51 浏览：283

新媒体运营有哪些方式方法发布：2025-03-18 14:19:22 浏览：166

测量仪器使用方法视频发布：2025-03-18 14:19:18 浏览：347

治疗牙痛的方法外敷发布：2025-03-18 13:59:55 浏览：440

整取定期存款计算方法发布：2025-03-18 13:58:56 浏览：514

空气瓶切割方法视频发布：2025-03-18 13:52:59 浏览：261

智能欧普led筒灯安装方法发布：2025-03-18 13:46:28 浏览：666

加工平面齿有什么方法发布：2025-03-18 13:33:02 浏览：528

手镯佩戴方法视频发布：2025-03-18 13:33:00 浏览：520

proewildfire50安装方法发布：2025-03-18 13:20:17 浏览：839

103x23简便运算方法发布：2025-03-18 12:41:13 浏览：183

风肩周炎症状治疗方法发布：2025-03-18 12:25:46 浏览：551

快速清理家中油烟机的方法发布：2025-03-18 12:21:54 浏览：315

如何瘦成漫画腿的一个方法发布：2025-03-18 12:19:56 浏览：289

电焊运条方法和技巧发布：2025-03-18 12:04:24 浏览：163

土地类型常用的命名方法发布：2025-03-18 12:01:27 浏览：459

模具零件角度的测量方法发布：2025-03-18 11:50:39 浏览：574

qq音乐网络设置在哪里设置方法发布：2025-03-18 11:43:39 浏览：607

让头发蓬松的方法怎么烫发布：2025-03-18 11:43:31 浏览：623