首页 理论教育 Hadoop实践:大数据技术的应用

Hadoop实践:大数据技术的应用

时间:2023-06-28 理论教育 版权反馈
【摘要】:Hadoop因其在大数据处理领域具有广泛的实用性以及良好的容错性,目前已经取得了非常突出的成绩。Hadoop的应用获得了学术界的广泛关注和研究,已经从互联网领域向电信、电子商务、银行、生物制药等领域拓展。Hadoop作为大数据的平台和生态系统,已经步入稳步理性增长的阶段。

Hadoop实践:大数据技术的应用

Hadoop因其在大数据处理领域具有广泛的实用性以及良好的容错性,目前已经取得了非常突出的成绩。Hadoop的应用获得了学术界的广泛关注和研究,已经从互联网领域向电信电子商务银行生物制药等领域拓展。在短短的几年中,Hadoop已经成为迄今最为成功、最广泛使用的大数据处理主流技术和系统平台,在业界和各个行业尤其是互联网行业获得了广泛的应用。

5.1.2.1 国外Hadoop的应用现状

(1)Yahoo。Yahoo是Hadoop的最大支持者,Yahoo的Hadoop机器总节点数目超过42 000个,有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4 500个节点,每个节点配置了4核CPU,4×1 TB磁盘。总的集群存储容量大于350 PB,每月提交的作业数目超过1 000万个。

(2)Facebook。Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。目前Hadoop集群的机器节点超过1 400台,共计11 200个核心CPU,超过15 PB原始存储容量,每个商用机器节点配置了8核CPU,12 TB数据存储,主要使用Streaming API和Java API编程接口。Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架,Hive已经正式成为基于Hadoop的Apache一级项目。此外,还开发了HDFS上的FUSE实现。

(3)eBay。单集群超过532节点集群,单节点8核心CPU,容量超过5.3 PB存储。大量使用MapReduce的Java接口,Pig,Hive来处理大规模的数据,还使用HBase进行搜索优化和研究。

(4)IBM。IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括:Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度,并发布了自己的Hadoop发行版及大数据解决方案

5.1.2.2 国内Hadoop的应用现状

(1)百度。百度在2006年就开始关注Hadoop并开始调研和使用,其总的集群规模达到数十个,单集群超过2 800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100 PB,已经使用的超过74 PB,每天提交的作业数目有数千个之多,每天的输入数据量已经超过7 500 TB,输出超过1 700 TB。

(2)阿里巴巴。阿里巴巴的Hadoop集群大约有3 200台服务器,大约3万物理CPU核心,总内存100 TB,总的存储容量超过60 PB,每天的作业数目超过15万个,Hivequery查询大于6 000个,扫描数据量约为7.5 PB,扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组4 500个集群用户,为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务。(www.xing528.com)

(3)腾讯。腾讯也是使用Hadoop最早的中国互联网公司之一,腾讯的Hadoop集群机器总量超过5 000台,最大单集群约为2 000个节点,并利用Hadoop-Hive构建了自己的数据仓库系统TDW,同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务。

(4)京东。京东从2013年起,根据自身业务高速发展的需求,自主研发了京东Hadoop NameNode Cluster解决方案。该方案主要为了解决两个瓶颈问题:一个是随着存储文件的增加,机器的内存会逐渐地增加,已经达到了内存的瓶颈;另一个是随着集群规模的扩大,要求快速响应客户端的请求,原有的系统的性能出现了瓶颈。该方案以Cloudera CDH3作为基础,并在其上进行了大量的改造和自主研发。目前,已经通过共享存储设备,实现主、从节点的元数据同步及NameNode的自动切换功能。客户端,主、从节点,数据节点均通过Zookeeper判断主节点信息,通过心跳判断NameNode健康状态。

5.1.2.3 Hadoop的发展趋势

随着互联网的发展,新的业务模式还将不断涌现。在以后相当长一段时间内,Hadoop系统将继续保持其在大数据处理领域的主流技术和平台的地位,同时其他种种新的系统也将逐步与Hadoop系统相互融合和共存。

从数据存储的角度看,前景是乐观的。用HDFS进行海量文件的存储,具有很高的稳定性。在Hadoop生态系统中,使用HBase进行结构化数据存储,其适用范围广,可扩展性强,技术比较成熟,在未来的发展中占有稳定的一席之地。

从数据处理的角度看,存在一定问题。MapReduce目前存在问题的本质原因是其擅长处理静态数据,处理海量动态数据时必将造成高延迟。由于MapReduce的模型比较简单,造成后期编程十分困难,一个简单的计数程序也需要编写很多代码。相比之下,Spark的简单高效能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法

Hadoop作为大数据的平台和生态系统,已经步入稳步理性增长的阶段。未来,和其他技术一样,面临着自身新陈代谢和周围新技术的挑战。期待未来Hadoop跟上时代的发展,不断更新改进相关技术,成为处理海量数据的基础平台。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈