虽然Hadoop并不可以作为大数据的代名词,但当提到大数据架构时,人们还是会首先想到Apache Hadoop。在2012年7月,Intel对外发布了自己的Hadoop商业发行版(Apache Hadoop Distribution),Intel也是大型大数据厂商中唯一拥有自行发行版Hadoop的公司。
10.2.1.1 解决方案
Intel Hadoop发行版包含了有关大数据的所有分析、集成及开发组件,并针对不同组合之间进行了更加深入的优化。同时,Intel Hadoop发行版还添加了Intel Hadoop管理器(Intel Hadoop Manager)。该管理器从整个系统的安装、部署到配置与监控过程,提供了对平台的全方位管理,如图10-2所示。
图10-2 Intel大数据解决方案
Intel大数据解决方案中的各部分具体功能如下:
(1)HDFS。HDFS作为Hadoop分布式文件系统,是运行在通用硬件上的分布式文件系统。同时,HDFS提供了一个高吞吐量、高度容错性的海量数据存储解决方案。
(2)HBase。HBase是一个面向列的、实时的、分布式数据库,但不是一个关系型数据库。因此,HBase用来解决关系型数据库在处理海量数据时的理论上和实现上的局限性。HBase是为TB到PB级别的海量数据存储和高速读写而设计的,这些海量数据分布在数千台普通服务器上,并且能够被大量高速并发访问。
(3)MapReduce。MapReduce是一个高性能的批处理分布式计算框架,用来对海量数据进行并行处理和分析。MapReduce适合处理各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。
(4)Hive。Hive是建立在Hadoop之上的数据仓库架构。Hive采用HDFS进行数据存储,并利用MapReduce框架进行数据操作。从本质上来说,Hive就是个编译器,作用是把实际任务变换成MapReduce任务,再通过MapReduce框架执行这些实际任务来对HDFS上的海量数据进行处理。(www.xing528.com)
(5)Pig。Pig是一个基于Hadoop并运用MapReduce和HDFS实现大规模数据分析的平台,Pig为海量数据的并行处理提供了操作及编程实现的接口。
(6)Mahout。Mahout是一套具有可扩充能力的机器学习类库,Mahout提供了机器学习框架,同时Mahout还实现了一些可扩展的机器学习领域中经典算法的实现,以帮助开发人员方便、快捷地创建智能应用程序。
(7)Sqoop。Sqoop是一个可扩展的机器学习类库,与Hadoop结合后,Sqoop可以提供分布式数据挖掘功能,并且是Hadoop和关系型数据库之间大量传输数据的工具。
(8)Flume。Flume是一个高可用、高可靠性、分布式的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据;同时,提供对数据进行简单处理,并写到各种数据接受方的能力。
(9)Zookeeper。Zookeeper是Hadoop和HBase的重要组件,为分布式应用程序提供了协调服务包括系统配置维护、命名服务和同步服务等。
10.2.1.2 优势
Intel的Hadoop发行版针对现有实际案例中出现问题进行了大量改进和优化,这些改进和优化弥补了开源Hadoop在实际案例中的缺陷和不足,并且提升了性能,具体如表10-1所示。同时,基于Intel在云计算研发上的经验积累,对实际案例解决提供了从项目规划到实施各阶段专业的咨询服务,因此,Intel大数据解决方案更易于构建高可扩展及高性能的分布式系统。
表10-1 Intel Hadoop与开源Hadoop比较
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。