首页 理论教育 数据理解阶段在大数据挖掘中的作用

数据理解阶段在大数据挖掘中的作用

时间:2023-07-31 理论教育 版权反馈
【摘要】:数据理解阶段数据流程图见图2-5所示。图2-5数据理解阶段数据流程图1.收集原始数据任务。例如,如果你使用一种明确的工具来进行数据理解,那么原始收集对把数据装载到该工具中具有重大意义。这一努力很可能通向初始数据的准备阶段。最后确认,获得的数据是否满足相关的要求。数据质量问题的解决方法通常在很大程度上依赖于对数据和商业问题二者的了解。最后,提取数据,分析数据中潜藏的信息和知识提出拟用数据加以验证的假设。

数据理解阶段在大数据挖掘中的作用

数据理解阶段数据流程图见图2-5所示。

图2-5 数据理解阶段数据流程图

1.收集原始数据(Collect Initial Data)

(1)任务(Task)。收集原始数据(Collect Initial Data):获取(或者是有权使用)列在项目资源清单内的数据。如果对于数据理解是必须的话,这一原始收集包括数据装载。例如,如果你使用一种明确的工具来进行数据理解,那么原始收集对把数据装载到该工具中具有重大意义。这一努力很可能通向初始数据的准备阶段。

注:如果你得到的是多个数据源,那么还需要另外的整合,可在此处进行,或者在后面的数据准备阶段进行。

(2)输出结果(Outputs)。原始数据收集报告(Initial Data Collection Report):列出得到的数据集(单个或多个),以及它们在项目中的位置,用于取得它们的方法和遇到的任何问题。记录遇到的问题和任何解决方法,以助于该项目未来的重复实施或日后相似项目的完成。

2.描述数据(Describe Data)

(1)任务(Task)。描述数据(Describe Data):检查已获数据和结果,描述数据的总体特征。

(2)输出结果(Outputs)。数据描述报告(Data Description Report):描述已经获得的数据,包括:数据的格式、数据的数量(如每个表格中记录和属性的数量)、属性的特性和被探索数据的其他表面特征。最后确认,获得的数据是否满足相关的要求。(www.xing528.com)

3.探索数据(Explore Data)

(1)任务(Task)。探索数据(Explore Data):该任务主要是处理数据挖掘的问题,即可通过查询、可视化和报告说明的问题。这些问题包括:关键属性的分布,如一个预测任务的目标属性;一对或几个属性之间的关系;简单汇总的结果;重要亚群体的属性;简单的统计分析。这些分析可能直接指向数据挖掘的目标;也可能有助于提炼数据描述和质量报告,并实现进一步分析所需的转换和其他数据准备。

(2)输出结果(Outputs)。探索性数据分析报告(Data Exploration Report):描述该任务的结果,包括最初的发现或假设,以及它们对项目剩余部分的影响。如果适当的话,还包括图表,用以指出数据的特征或者为进一步的检查指向须引起注意的数据子集。

4.检验数据质量(Verify Data Quality)

(1)任务(Task)。检验数据质量(Verify Data Quality):检验数据的质量,列出如下的问题:

①数据是否完整(它是否覆盖了所有需要的案例)?

②它是否正确或是否包含错误,如果存在错误它们有什么共同之处?

③数据中是否有缺失值?如果有的话,它们怎样表示,在哪发生,而且有什么共同?

(2)输出结果(Outputs)。数据质量报告(Data Quality Report):列出数据质量检验的结果;如果存在质量问题,写出可能的解决方法。数据质量问题的解决方法通常在很大程度上依赖于对数据和商业问题二者的了解。

最后,提取数据,分析数据中潜藏的信息和知识提出拟用数据加以验证的假设。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈