【摘要】:原有的Hadoop 1.0 中HDFS 和MapReduce 在扩展性和高可用性方面存在很多问题。相比于Hadoop 1.0,Hadoop 2.0 由HDFS、MapRduce 和YARN 三个分支构成。其中HDFS 增加了两个重大特性,HA 和Federation。同时YARN 作为Hadoop 2.0 中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度,不仅限于MapReduce 一种框架,也可以为其他框架使用,如Tez、Spark、Storm 等,见表6.1。表6.1Hadoop 版本对比
原有的Hadoop 1.0 中HDFS 和MapReduce 在扩展性和高可用性方面存在很多问题。相比于Hadoop 1.0,Hadoop 2.0 由HDFS、MapRduce 和YARN 三个分支构成。其中HDFS 增加了两个重大特性,HA 和Federation。对于HDFS 来说,NameNode 一旦出现单点故障,就难以应用于在线场景,而且在实际应用场景中,NameNode 往往会由于内存受限,从而使得其压力过大,影响系统的可扩展性。
MapReduce 也存着很多问题,其中包括:JobTracker 访问压力过大,影响其系统的扩展性;不支持除了MapReduce 的其他计算框架,针对Hadoop 1.0 中的MapReduce 在扩展性和多框架支持等方面的不足,Hadoop 2.0 将JobTracker 中的资源管理和作业控制分开,分别由Resource-Manager(负责所有应用程序的资源分配)和ApplicationMaster(负责管理一个应用程序)实现,即引入了资源管理框架YARN。同时YARN 作为Hadoop 2.0 中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度,不仅限于MapReduce 一种框架,也可以为其他框架使用,如Tez、Spark、Storm 等,见表6.1。(www.xing528.com)
表6.1 Hadoop 版本对比
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。