Spark 任务基于Yarn 资源调度框架进行调度时,首要条件是搭建好Hadoop 集群环境。Hadoop 集群环境中重要的角色如下。
1.NameNode
NameNode 管理HDFS 文件系统的命名空间,它维护着文件系统及文件系统内所有的文件和目录,这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。NameNode 也记录着每个文件中各个数据块所在的数据节点信息,但它并不永久保存数据块的位置信息,因为这些信息会在系统启动时根据数据节点信息重建。
2.DataNode
DataNode 是HDFS 文件系统的工作节点,它们根据需要存储并检索数据块(受NameNode调度),并且定时向NameNode 发送它们存储的数据块的列表。
3.ResourceManager(www.xing528.com)
ResourceManager 是管理集群所有可用资源的中心节点,并能够帮助管理Yarn 上的分部署applications。它与每个节点上的NodeManagers (NMs)和ApplicationMasters (AMs)一起工作。
4.NodeManager
NodeManager 是Yarn 中每个节点上的代理,它管理Hadoop 集群中单个计算节点,包括与ResourceManger 保持通信、监督Container 的生命周期管理、监控每个Container 的资源使用(内存、CPU 等)情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务(auxiliary service) 等。
表3-1 列举了Hadoop 集群节点以上角色的详细划分。
表3-1 Hadoop 集群节点角色的详细划分
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。