Hadoop实践：大数据技术的应用

时间：2023-06-28 理论教育版权反馈

【摘要】：Hadoop因其在大数据处理领域具有广泛的实用性以及良好的容错性，目前已经取得了非常突出的成绩。Hadoop的应用获得了学术界的广泛关注和研究，已经从互联网领域向电信、电子商务、银行、生物制药等领域拓展。Hadoop作为大数据的平台和生态系统，已经步入稳步理性增长的阶段。

Hadoop实践：大数据技术的应用

Hadoop因其在大数据处理领域具有广泛的实用性以及良好的容错性，目前已经取得了非常突出的成绩。Hadoop的应用获得了学术界的广泛关注和研究，已经从互联网领域向电信、电子商务、银行、生物制药等领域拓展。在短短的几年中，Hadoop已经成为迄今最为成功、最广泛使用的大数据处理主流技术和系统平台，在业界和各个行业尤其是互联网行业获得了广泛的应用。

5.1.2.1　国外Hadoop的应用现状

（1）Yahoo。Yahoo是Hadoop的最大支持者，Yahoo的Hadoop机器总节点数目超过42 000个，有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4 500个节点，每个节点配置了4核CPU，4×1 TB磁盘。总的集群存储容量大于350 PB，每月提交的作业数目超过1 000万个。

（2）Facebook。Facebook使用Hadoop存储内部日志与多维数据，并以此作为报告、分析和机器学习的数据源。目前Hadoop集群的机器节点超过1 400台，共计11 200个核心CPU，超过15 PB原始存储容量，每个商用机器节点配置了8核CPU，12 TB数据存储，主要使用Streaming API和Java API编程接口。Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架，Hive已经正式成为基于Hadoop的Apache一级项目。此外，还开发了HDFS上的FUSE实现。

（3）eBay。单集群超过532节点集群，单节点8核心CPU，容量超过5.3 PB存储。大量使用MapReduce的Java接口，Pig，Hive来处理大规模的数据，还使用HBase进行搜索优化和研究。

（4）IBM。IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括：Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度，并发布了自己的Hadoop发行版及大数据解决方案。

5.1.2.2　国内Hadoop的应用现状

（1）百度。百度在2006年就开始关注Hadoop并开始调研和使用，其总的集群规模达到数十个，单集群超过2 800台机器节点，Hadoop机器总数有上万台机器，总的存储容量超过100 PB，已经使用的超过74 PB，每天提交的作业数目有数千个之多，每天的输入数据量已经超过7 500 TB，输出超过1 700 TB。

（2）阿里巴巴。阿里巴巴的Hadoop集群大约有3 200台服务器，大约3万物理CPU核心，总内存100 TB，总的存储容量超过60 PB，每天的作业数目超过15万个，Hivequery查询大于6 000个，扫描数据量约为7.5 PB，扫描文件数约为4亿，存储利用率大约为80%，CPU利用率平均为65%，峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组4 500个集群用户，为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务。(www.xing528.com)

（3）腾讯。腾讯也是使用Hadoop最早的中国互联网公司之一，腾讯的Hadoop集群机器总量超过5 000台，最大单集群约为2 000个节点，并利用Hadoop-Hive构建了自己的数据仓库系统TDW，同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务。

（4）京东。京东从2013年起，根据自身业务高速发展的需求，自主研发了京东Hadoop NameNode Cluster解决方案。该方案主要为了解决两个瓶颈问题：一个是随着存储文件的增加，机器的内存会逐渐地增加，已经达到了内存的瓶颈；另一个是随着集群规模的扩大，要求快速响应客户端的请求，原有的系统的性能出现了瓶颈。该方案以Cloudera CDH3作为基础，并在其上进行了大量的改造和自主研发。目前，已经通过共享存储设备，实现主、从节点的元数据同步及NameNode的自动切换功能。客户端，主、从节点，数据节点均通过Zookeeper判断主节点信息，通过心跳判断NameNode健康状态。

5.1.2.3　Hadoop的发展趋势

随着互联网的发展，新的业务模式还将不断涌现。在以后相当长一段时间内，Hadoop系统将继续保持其在大数据处理领域的主流技术和平台的地位，同时其他种种新的系统也将逐步与Hadoop系统相互融合和共存。

从数据存储的角度看，前景是乐观的。用HDFS进行海量文件的存储，具有很高的稳定性。在Hadoop生态系统中，使用HBase进行结构化数据存储，其适用范围广，可扩展性强，技术比较成熟，在未来的发展中占有稳定的一席之地。

从数据处理的角度看，存在一定问题。MapReduce目前存在问题的本质原因是其擅长处理静态数据，处理海量动态数据时必将造成高延迟。由于MapReduce的模型比较简单，造成后期编程十分困难，一个简单的计数程序也需要编写很多代码。相比之下，Spark的简单高效能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Hadoop作为大数据的平台和生态系统，已经步入稳步理性增长的阶段。未来，和其他技术一样，面临着自身新陈代谢和周围新技术的挑战。期待未来Hadoop跟上时代的发展，不断更新改进相关技术，成为处理海量数据的基础平台。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

经济发展

建筑工程

传统文化

民事诉讼

中国传统

程序设计

解决方法

轨道交通

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

Hadoop实践：大数据技术的应用

相关推荐

Hadoop实践：大数据技术的应用

有关大数据技术应用导论的文章

相关推荐