更新时间:2023年03月16日17时39分 来源:传智教育 浏览次数:
数据预处理针对各种数据问题提供了相应的解决方法,并将这些方法按照不同的功能划分到处理过程中的每个步骤,以逐步实现提高数据质量、整合多源数据、调整数据形式、保留重要数据的目标。数据预处理的一般流程如下所示。
上图所示的一般流程中各步骤的具体说明如下。
1.数据获取
数据获取是预处理的第一步,该步骤主要负责从文件、数据库、网页等众多渠道中获取数据,以得到预处理的初始数据,为后续的处理工作做好数据准备。
2.数据清理
数据清理主要是将“脏”数据变成“干净”数据的步骤。该步骤会通过一系列的方法对“脏”数据进行处理,包括删除重复数据、填充缺失数据、检测异常数据等,以达到清除冗余数据、规范数据、纠正错误数据的目的。数据清理的示意图如下。
3.数据集成
数据集成主要负责把多个数据源合并成一个数据源,以达到增大数据量的目的数据集成的示意图如下
值得一提的是,在合并多个数据源时,因为数据源对应的现实实体的表达形式不同,所以要考虑实体识别、属性冗余、数据值冲突等问题。
4.数据变换
数据变换主要负贵将数据转换成适当的形式,以降低数据的复杂度。数据变换的示意图如下 所示。
5.数据规约
数据规约主要负责在尽可能保持数据原貌的前提下,最大限度地精简数据量,其方法包括降低数据的维度、删除与数据分析或数据挖掘主题无关的数据等。数据规约的示意图如下。
需要说明的是,数据清理、数据集成、数据变换、数据规约都是数据预处理的主要步骤,它们没有严格意义上的先后顺序,在实际应用时并非全部会被使用,具体要视业务需求而定。本节只简单地介绍了每个步骤的目的,每个步骤中涉及的处理方法会在后文展开介绍。