首页 理论教育 大数据的处理流程

大数据的处理流程

时间:2023-06-28 理论教育 版权反馈
【摘要】:图3-5大数据分析处理流程3.1.3.1提出问题大数据分析就是解决具体业务问题的处理过程,这需要在具体业务中提炼出准确的实现目标,也就是首先要制定具体需要解决的问题,如图3-6所示。图3-6提出问题制订分析目标3.1.3.2数据理解大数据分析是为了解决业务问题,理解问题要基于业务知识,数据理解就是利用业务知识来认识数据。

大数据的处理流程

整个处理流程可以分解为提出问题、数据理解、数据采集、数据预处理、数据分析、分析结果的解析等,如图3-5所示。

图3-5 大数据分析处理流程

3.1.3.1 提出问题

大数据分析就是解决具体业务问题的处理过程,这需要在具体业务中提炼出准确的实现目标,也就是首先要制定具体需要解决的问题,如图3-6所示。

图3-6 提出问题制订分析目标

3.1.3.2 数据理解

大数据分析是为了解决业务问题,理解问题要基于业务知识,数据理解就是利用业务知识来认识数据。如:大数据分析“饮食与疾病的关系”“糖尿病高血压的发病关系”,这些分析都需要对相关医学知识有足够的了解才能理解数据并进行分析。只有对业务知识有深入的理解才能在大数据中找准分析指标和进一步会衍生出的指标,从而抓住问题的本质挖掘出有价值的结果(图3-7)。

(www.xing528.com)

图3-7 理解数据获得分析指标

3.1.3.3 数据采集

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。大数据的采集可以通过系统日志采集方法、对非结构化数据采集方法、企业特定系统接口等相关方式采集。例如利用多个数据库来接收来自客户端(Web,App或者传感器等)的数据,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL非结构化数据库也常用于数据的管理。

3.1.3.4 数据预处理

如果要对海量数据进行有效的分析,应该将数据导入一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3.1.3.5 数据分析

数据分析包括对结构化、半结构化及非结构化数据的分析。主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行分析,如分类汇总、基于各种算法的高级别计算等,涉及的数据量和计算量都很大。

3.1.3.6 分析结果的解析

对用户来讲最关心的是数据分析结果的解析,对结果的理解可以通过合适的展示方式,如可视化人机交互等技术来实现。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈