首页 理论教育 优化大数据处理流程的方法

优化大数据处理流程的方法

时间:2023-06-28 理论教育 版权反馈
【摘要】:大数据的处理流程可以定义为在适合工具的辅助下,对不同结构的数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户。图1-2大数据处理的基本流程1.1.5.1数据抽取与集成这是一个数据准备阶段。

优化大数据处理流程的方法

大数据的处理流程可以定义为在适合工具的辅助下,对不同结构的数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户。大数据处理的基本流程如图1-2所示。

图1-2 大数据处理的基本流程

1.1.5.1 数据抽取与集成

这是一个数据准备阶段。其中包括3个部分:数据集成、数据选择和预处理。由于大数据处理的数据来源类型广泛,而其第一步是对数据进行抽取和集成,从中找出关系和实体,经过关联、聚合等操作,再按照统一的格式对数据进行存储,现有的数据抽取和集成引擎有3种:基于物化或ETL方法的引擎、基于中间件的引擎、基于数据流方法的引擎。(www.xing528.com)

1.1.5.2 大数据分析

大数据分析是指对规模巨大的数据进行分析。大数据分析是大数据处理流程的核心步骤。通过抽取、集成和预处理环节,从不同结构的数据源中获得用于大数据处理的原始数据,用户根据需求对数据进行分析处理,如数据挖掘、机器学习、数据统计,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。

1.1.5.3 数据可视化

用户最关心的是数据处理的结果及以何种方式在终端上显示结果。因此采用什么方式展示处理结果非常重要。就目前来看,可视化和人机交互是数据解释的主要技术。

数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。数据可视化技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集合构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入地观察和分析。而使用可视化技术可以将处理结果通过图形方式直观地呈现给用户,如标签云、历史流、空间信息等;人机交互技术可以引导用户对数据进行逐步分析,参与并理解数据分析结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈