数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集,数据准备阶段数据流程图见图2-6所示。
图2-6 数据准备阶段数据流程图
1.选择数据(Select Data)
(1)任务(Task)。选择数据(Select Data):决定用来分析的数据。选择标准包括与数据挖掘目标的相关性、质量和技术的限制,如对数据容量或数据类型的限制。注意数据选择包括表格中属性和记录(行)的选择。
(2)输出结果(Outputs)。包含/剔除数据的基本原理(Rationale for Inclusion/exclusion):列出被包含和剔除的数据及做出这些决定的原因。
2.清洗数据(Clean Data)
(1)任务(Task)。清洗数据(Clean Data):将数据质量提高到所选分析技术要求的水平。这包括选择数据清洗的子集,插入适当的默认值或者通过更加复杂的技术,如建模来估计缺失值,并进行填充。
(2)输出结果(Outputs)。数据清洗报告(Data Cleaning Report):描述采用什么决定和行动来说明在数据理解阶段的数据质量检验任务中报告的数据质量问题。出于清洗目的和对分析结果的可能影响,应该考虑初级的转换。
3.构建数据(Construct Data)
(1)任务(Task)。构建数据(Construct Data):该任务包括构建数据的准备操作,如生成派生属性、生成完整的新记录或者已存属性的转换值。(www.xing528.com)
(2)输出结果(Outputs)。派生字段(Derived Attributes):派生字段是从同一条记录中一个或多个已存字段构建而来的新字段。例如:面积=长度*宽度。
产生记录(Generated Records):描述完全新记录的产生。如:产生在上一年未作任何购买的客户的记录。虽然在原始数据中增加这些记录是不合理的,但出于建模的目的,明确地显示某些客户没有做任何购买的事实是有意义的。
4.整合数据(Integrate Data)
(1)任务(Task)。整合数据(Integrate Data):有些方法可对多个表格或者多条记录合并信息,从而建立新记录或新值。
(2)输出结果(Outputs)。合并的数据(Merged Data):合并表格是指把含有相同对象、不同信息的两个或多个表格连接起来。如:一家零售连锁店有一个表格是关于每个商店的一般特征(如:房屋面积,商场类型),另一个表格是关于总结后的销售数据(如:利润,与上年相比销售的百分比变化),还有一个表格则是关于周围环境的人口统计信息。每个表格都包括每家店的一条记录。然后,通过从原表格中合并字段,这些表格便可以合并在一起得到一个新的表格——其中每个商店都有一条记录。数据整合同时也包括汇总。汇总指的是通过把多条记录或多个表格的信息归纳在一起从而计算新值的操作。比如说,把一个每笔购买都有一条记录的客户购买表转换成一个每个客户一条记录的新表格,新表格的字段有购买次数、平均购买总额、用信用卡支付的订单比例以及促销下购买的物品比例等。
5.格式化数据(Format Data)
(1)任务(Task)。格式化数据(Format Data):格式化转换是指根据建模的要求,对数据主要进行语法上的修改,而不改变其意思。
(2)输出结果(Outputs)。更改格式的数据(Reformatted Data):一些工具对属性的顺序有要求,如第一个字段是每条记录唯一的标识符,或者最后一个字段要是模型预测的结果字段。
在数据集中改变记录的顺序也是重要的。也许建模工具会要求记录按照结果属性的值排序。一种常见的情况是数据集的记录按照某种方式进行最初排序,而运算法则需要它们是以一种随机的顺序排列的。例如,当使用神经网络时,记录通常最好是以随机的顺序出现,当然有些工具是自动完成该过程的,不需用户进行操作。
此外,为了满足具体建模工具的要求,有时候会做一些纯粹句法上的改变。如:从以逗号分隔的数据文件的内部文本字段中删除逗号,削减所有32位字符及以下的数值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。