首页 理论教育 数据清洗:删除冗余、纠错保一致

数据清洗:删除冗余、纠错保一致

时间:2023-06-04 理论教育 版权反馈
【摘要】:数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并确保数据的一致性。图1-18数据清洗原理二、清洗重复数据数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其删除,只保存唯一的数据单元,从而消除冗余数据。图1-22查找到所有空白单元格图1-23替换数据四、清洗错误数据对于一些明显错误的数据,Excel会显示错误标识,以提醒用户及时对错误值进行修复。

数据清洗:删除冗余、纠错保一致

【任务工单1-3】

清洗数据任务工单

要完成好清洗数据的任务,首先要弄清楚什么样的数据是需要清洗的数据,再弄清楚如何清洗数据。

一、辨识异常数据类型

典型的异常数据类型包括三类:第一类是残缺数据。这类数据主要是指记录下来的数据与完整数据相比有缺失。比如数据表中的某个单元格是空值,那么这个空值单元格则是残缺数据。第二类是错误数据。这类数据是指那些格式错误、逻辑错误的数据。第三类是重复数据。一个表中的行与行之间每个单元格数值一致,这些行值就称为重复数据。

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并确保数据的一致性。数据清洗原理:利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,如图1-18所示。

图1-18 数据清洗原理

二、清洗重复数据

数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其删除,只保存唯一的数据单元,从而消除冗余数据。相关内容如图1-19所示。

图1-19 数据去重

数据清洗过程中,所有字段值都相等的重复值是一定要剔除的。根据不同的业务场景,有时还需要选取其中若干字段进行去重操作。删除重复记录的操作极其简单,只需单击数据表的任意位置,再单击“数据”|“删除重复项”按钮即可,如图1-20所示。

图1-20 数据去重

三、清洗缺失数据

缺失值的清洗方法主要有以下几种。

(1)忽略缺失值。就是对发现的缺失值不做处理。

(2)删除缺失值。当采集到的数据量足够大,需要删除的量又很小时,也可以考虑通过删除的方式去掉缺失值所在的整行数据。

(3)填充缺失值。填充缺失值的方法有几种,可以分情况讨论,一种情况是可以计算或推断出正确数值,那么就要将缺失值填充为逻辑正确值。另一种情况是无法推断出正确数值,那么就根据实际情况做出填充,一是填充“未知”二字;二是使用平均数、众数等合理方法预测出缺失数据进行填充。

那么如何发现缺失数据,仅靠眼睛来搜索缺失数据显然是不现实的,一般我们用“定位条件”来查找缺失数据的单元格。

下面演示将“年龄”字段中的“空值”均替换为“18”。操作如下:(www.xing528.com)

Step 1:选中“年龄”所在的E列数据,选择“查找和选择”|“定位条件”|“空值”,如图1-21所示。

图1-21 查找空值

Step 2:单击“确定”按钮后,E列所有的空白单元格呈选中状态,如图1-22所示。

Step 3:选择“查找和选择”|“查找和替换”,输入替代值“18”,按Ctrl+Enter组合键确认,结果如图1-23所示。

图1-22 查找到所有空白单元格

图1-23 替换数据

四、清洗错误数据

对于一些明显错误的数据,Excel会显示错误标识,以提醒用户及时对错误值进行修复。Excel常见错误数据标识符号及解决方法如表1-4所示。

表1-4 Excel常见错误数据标识符号及解决方法

错误数据产生的原因、查找错误数据的方法以及清洗方法如图1-24所示。

图1-24 错误数据清洗

以图1-25所示的数据为例,操作一次错误数据清洗:

Step 1:单击选中C列,点击“查找和选择”|“替换”。

Step 2:打开“查找和替换”|“替换”,在“查找内容”中输入“cm”,在“替换为”中不做操作默认为空白值,单击“全部替换”按钮完成替换。

Step 3:替换后的结果如图1-25所示。“身高”这个字段中只保留了数字,去掉了单位。

图1-25 去掉指定字符

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈