首页 理论教育 数据准备方法及重要性

数据准备方法及重要性

时间:2023-07-31 理论教育 版权反馈
【摘要】:收集的数据应尽量全面,越是全面的数据越容易从中挖掘到具有重要意义的数据特征;如果数据不够全面,那么后续所做的数据分析将非常有限,预测的精确度也会受到影响。数据准备的目的是进一步了解数据,并过滤不当数据以确认数据格式和特性。数据准备包括数据探索、数据预处理。

数据准备方法及重要性

当确定预测主题后,就要进行数据收集了:从现实世界中收集(捕获、记录)原始数据的过程就是将业务数据化的过程。数据可能被作为记录存储在数据库中,而更多的数据是存储在表格、文本文件、图片、音频和视频文件中。数据自身带有时间属性、空间属性等。数据挖掘并不是将所有的数据全部盲目地放进模式中进行分析,海量数据可以增加发现模式或规律的机会,但相对地,也会产生更多无用的信息或噪声,影响数据处理的效能与结果的准确性。因此,在收集数据后不能直接使用,需要经过一连串基本的数据准备后,再进行后续数据分析,满足算法的要求。数据收集的原则[12]如下:

(1)全面覆盖。收集的数据应尽量全面,越是全面的数据越容易从中挖掘到具有重要意义的数据特征;如果数据不够全面,那么后续所做的数据分析将非常有限,预测的精确度也会受到影响。

(2)质量较好。收集的数据只有达到了数据分析的最基本要求才可以使用,一般数据集中的缺失值不应该超过30%,数据集中的噪声也应该进行光滑处理。

(3)周期一致。收集数据要按照周期进行收集,每一个周期内的数据相对完整,如果周期内有太多间断性缺失数据,这样的数据是有问题的,一般不建议使用。基于同一个周期的数据能够反映该周期内相关事物的作用与关系,有助于挖掘潜在规律。

(4)粒度对称。粒度可以理解为事物的层次,比如地图的分辨率,省级地图、市级地图、县级地图,这种从省到县的变化就是粒度变小的过程。在收集数据时,要让数据粒度对称,否则,数据没有办法整合在一起,也没有可比性,可以通过数据转换成为粒度对称的数据。

(5)持续性产生数据。用于建立模型的数据在预测时仍然可以持续提供,这样就可以将预测工作进行下去。

(6)数据整合。收集的原始数据是混乱的,周期、粒度和时间可能不一致,为此,在数据分析、挖掘之前,需要对数据进行整合,通常按照时间、周期、粒度、对象等维度进行数据整合。

巧妇难为无米之炊,要想进行数据挖掘,就必须非常关注原始数据源,而不是别人加工后的数据,只有通过原始数据的复杂加工处理,我们才能获得真正有价值的信息,因此在该步骤中,数据科学家必须具有数据预处理的能力,包括数据采样、数据清理、数据集成、数据变换、数据规约、特征选择、特征提取等。有经验的数据科学家需要凭借业务经验、自觉和逻辑推理提炼出大量具有预测意义的“数据特征”,同时,可以将数据特征的抽取方式总结成一套算法体系,让计算机去自动提取特征。而数据科学家负责设计特征抽取机制,借助经验与算法的协作,来不断丰富原始数据到关键数据的提炼机制。

数据准备的目的是进一步了解数据,并过滤不当数据以确认数据格式和特性。数据的问题可分为质与量两类:数据的质是指数据的时间性和空间性;数据的量是指在训练数据建立模型时可以将数据分为训练组和测试组。数据准备的形式和条件,则根据分析模式与搜集的数据源不同而有所区别。数据准备包括数据探索、数据预处理。数据探索主要包括:数据质量分析、数据特征分析等;数据预处理主要包括:数据采样、数据清理、数据集成、数据变换、数据规约、特征选择、特征提取等,详细的数据准备方式可参见第3章。数据预处理如下:

(1)数据采样:包括加权采样、随机采样、分层采样。(www.xing528.com)

(2)数据清理:包括填充缺失值、光滑噪声数据、数据清理过程。

(3)数据集成:将多个数据源中的数据结合存放在一致的数据库中。不同来源的数据可能因属性定义或单位定义的差异,而使相同数据被误认为是不同数据,因此必须重新检查,将相同数据放在一起。另外,也可以使用相关分析检测出冗余的属性,避免重复。数据集成主要包括实体识别、冗余属性识别、元组重复等。

(4)数据变换:将数据转换成适合数据挖掘模型适用的形式,主要包括数据脱敏、简单函数变换、规范化(标准化)、连续属性离散化、属性构造、小波变换。

(5)数据归约:数据的维度会影响数据挖掘模型的建立,通常,高维度的数据计算较复杂,花费的时间也较多,因此,数据科学家必须判断是否要进行数据归约,以降低数据维度,但同时应尽可能保留数据的完整性,以权衡信息的保存与处理效率,主要包括属性归约、数值归约、维度归约。

(6)特征选择:包括直接法、单元法、多元法等。

(7)特征提取:包括主成分分析等。

数据准备往往是数据挖掘流程中最费力、最繁琐的,同时又是最容易被团队轻视的,通常,至少50%的团队时间都花在了这个阶段,如果不能获取到足够高质量的数据,团队可能无法进行数据挖掘流程中的后续阶段[13]。一些团队和领导者急于开始分析数据、建立模型,很有可能当他们发现数据无法与想要执行的模型兼容时,他们不得不返回到该阶段。在数据准备阶段,团队需要建立一个强大的用于探索数据的非生产环境,一般是一个分析沙箱(通常也称为工作区),以便于在不干扰到运行数据库的前提下探索数据。数据挖掘团队应该在分析沙箱中用运营数据的拷贝进行分析,而不是直接使用单位的运行数据库进行分析。

当准备分析沙箱时,最好能收集所有数据放入沙箱,因为团队成员在进行大数据分析时需要访问大量的不同种类的数据,这些数据可能包括汇总的聚合数据、结构化数据、原始数据以及谈话记录、语音和视频等非结构化数据。沙箱可能会很大,可以根据项目的不同有所变化,一个有用的准则是沙箱至少应该是原始数据集的5~10倍大小,部分原因在于项目中数据的多份拷贝可能被分别用来创建或存储特定的数据表以便进行特定的数据分析。这种全部收集数据的方式和许多IT部门提倡的方式不同,IT部门通常只会为特定目的提供特定数据段的访问,他们的原则是提供最少的数据,让团队实现目标即可。而数据挖掘团队则想拿到所有数据,因为数据挖掘项目通常混合了目的驱动型分析和测试各种想法的实验性方法。由于在数据访问和数据使用上有不同的考量,数据挖掘团队[14]与IT部门的合作至关重要,一定要共同明确需要完成什么样的目标,并且目标一致。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈