首页 理论教育 趋势分析:大数据处理平台的发展

趋势分析:大数据处理平台的发展

时间:2023-06-29 理论教育 版权反馈
【摘要】:前面详细介绍了一些主流大数据分析处理平台,其中每一个平台的实现都基于一种特定的并行计算模型,例如,Hadoop、Spark是基于MapReduce模型,Pregel是基于BSP模型。随着并行计算模型的变化,大数据分析处理平台的发展趋势也发生了巨大的改变。为了适应行业业务类型多样化的需求,大数据分析处理平台的应用范围将不断扩张。以下为典型的支持多种应用类型的大数据分析处理平台。

趋势分析:大数据处理平台的发展

前面详细介绍了一些主流大数据分析处理平台,其中每一个平台的实现都基于一种特定的并行计算模型,例如,Hadoop、Spark是基于MapReduce模型,Pregel是基于BSP模型。当前的并行计算模型大多是针对特定类型的数据,并且随着数据规模和数据类型的增加以及对数据处理和分析需求的提高,不仅新的模型不断出现,而且原有并行计算模型在性能和表达性方面也在不断改进。除此之外,内存计算的兴起为并行计算模型的性能提高带来新的机遇,同时内存计算技术的出现也对基于传统计算机体系结构所设计的并行计算模型的适用性提出了挑战。随着并行计算模型的变化,大数据分析处理平台的发展趋势也发生了巨大的改变。

电力行业为例,其业务类型的多样化催生了众多的信息化系统,但是众多的系统不仅增加开发者的工作量,也增加了维护费用。为了适应行业业务类型多样化的需求,大数据分析处理平台的应用范围将不断扩张。以下为典型的支持多种应用类型的大数据分析处理平台。

图3-21 Hama架构

1)Hama

Hama是一个建立在Hadoop平台上的分布式框架,其架构如图3-21所示。Hama采用一种分层体系结构,主要由三个部分组成:提供许多原语的Hama Core、一个交互式用户控制台Hama Shell和Hama API。其中,Hama Core也用于选取合适的并行计算模型,当前 Hama支持MapReduce、BSP及Dryad三种并行计算模型, MapReduce常用于矩阵计算,BSP和Dryad常用于图计算,BSP和Dryad的主要区别在于BSP更多地利用本地数据因而表现更为高效,而Dryad通过控制通信图从而提供非常灵活的计算。另外,为了以一种原子的方式操作分布式元数据事务控制,Hama选用了ZooKeeper应用程序协调服务,并且Hama还提供了灵活的数据管理接口,默认的接口是位于HDFS之上的HBase。

综上所述,Hama有以下优点:

(1)兼容性。由于Hama与已有的Hadoop接口兼容,因此Hama能充分利用Hadoop所有的功能以及它的相关包。

(2)可扩展性。由于Hama的兼容性,它可以在不做任何修改的情况下充分利用大规模分布式的互联网基础设施和服务,比如Amazon的EC2服务。

(3)灵活性。为了利用自身的灵活性以支持不同的计算模式,Hama提供了简单的并行计算模型接口,任何遵循该接口的并行计算模型均可以插件的形式自由加入和删除。当前Hama提供了MapReduce、BSP和Dryad三种并行计算模型。

(4)适用性。Hama提供的原语可以应用到需要矩阵计算和图计算的各种应用中。

2)Apache Flink(www.xing528.com)

Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析处理平台,它具有分布式平台的高效性、灵活性和扩展性以及并行数据库查询的优化方案,可支持批量和基于流的数据分析,并且提供了基于Java和Scala的API。Flink架构如图3-22所示。

图3-22 Flink架构

Flink主要特征如下:

(1)快速。Flink利用基于内存的数据流,并且在平台运行时,将迭代处理算法深度集成到了平台中,使得平台能够以极快的速度来处理数据密集型和迭代任务。

(2)可靠性和扩展性。Flink包含自己的内存管理组件、序列化框架和类型推理引擎,因此当服务器内存被耗尽时,Flink也能够很好地运行。

(3)表现力。利用Java或者Scala语言能够编写出类型安全和可视为核心的代码,并能够在集群上运行所写程序。开发者可在无须额外处理的情况下使用Java和Scala数据类型。

(4)易用性。在无须进行任何配置的情况下,Flink内置的优化器能够以最高效的方式在各种环境中执行程序。此外,Flink只需要三个命令就可以运行在Hadoop的新MapReduce框架YARN上。

(5)完全兼容Hadoop。Flink支持Hadoop所有的输入/输出格式和数据类型,使得开发者无须做任何修改就能够利用Flink运行历史遗留的MapReduce操作。

除了Hama和Flink平台,其他平台也在不断改进,新的平台也在不断出现,并且随着内存计算、SDN等新技术的成熟,给大数据分析处理平台带来了新的挑战和机遇。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈