如图1-2为Hadoop的生态系统。
图1-2 Hadoop的生态系统
Hadoop生态圈包括以下主要组件。
(1)HDFS。
一个提供高可用的获取应用数据的分布式文件系统。
(2)MapReduce。
一个并行处理大数据集的编程模型。
(3)HBase。
一个可扩展的分布式数据库,支持大表的结构化数据存储。
(4)Hive。
Hive是建立在Hadoop上的一个数据仓库工具,可用来进行数据提取、转化和加载,是Hadoop中用以存储、查询和分析海量数据的一种机制。Hive提供了HQL语言,是一种简单的类SQL语言,开发人员可利用HQL实现海量数据的查询与分析,Hive实质上将这些语句转换并完成Hadoop的MapReduce任务。
(5)Mahout。(www.xing528.com)
一种可扩展的机器学习和数据挖掘库。它提供包括聚类算法、回归测试和统计建模等多种MapReduce的实现方法。
(6)Pig。
一个支持并行计算的高级的数据流语言和执行框架。它是MapReduce编程的复杂性的抽象。
(7)Zookeeper。
一个应用于分布式应用的高性能的协调服务。
(8)Ambari。
一个基于Web的工具,用来供应、管理和监测Hadoop集群,Ambari也提供了一个可视的仪表盘来查看集群的健康状态,并且能够使用户可视化地查看MapReduce、Pig和Hive应用来诊断其性能特征。
除此之外,Hadoop的生态圈还包括以下几个框架,用来与其他企业融合。
(1)Sqoop。
一个连接工具,用于在关系数据库、数据仓库和Hadoop之间转移数据。
(2)Flume。
用于收集、汇总大数据将企业中多台计算机上的数据转移到Hadoop。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。