资源管理和调度是使计算机间分布式应用程序达到最大吞吐量的操作,并使资源得到高效利用。执行RMS的软件包括资源管理器和资源调度器两个部分。资源管理器处理定位和计算资源的配置、验证以及过程生成和迁移等任务。资源调度器处理应用程序队列等任务以及资源定位和分配。RMS的出现有很多原因,如负载平衡、使用空闲CPU周期、容错系统、管理系统资源等。但主要的原因是,RMS的存在为它们所管理的用户应用程序提供了更可靠的服务和更高的吞吐量。
基本的RMS结构是客户机—服务器系统。简单地说,每个计算机共享运行服务器守护进程的计算资源。这些守护进程保存着最新列表,存储了它所在的RMS环境信息。用户通过客户端程序使用网络浏览器或X-Windows界面与RMS环境交互。应用程序既可以以交互方式,也可以以批处理方式运行。在批处理方式中,应用程序作为一个作业提交给RMS系统运行。为了提交批处理作业,用户需要通过RMS客户机向系统提供作业详情。作业详情包括可执行程序位置和输入数据集的位置、标准输出的位置、系统类型、最长运行时间、作业需要串行或并行资源等。一旦作业被提交到RMS环境,它就使用作业详情来正确地存储、调度和运行作业。
RMS环境提供对用户的中间件服务,使用户可以方便而有效地使用工作站、SMP和专用并行计算平台等多种计算环境。RMS环境提供的服务包括以下几个方面。
进程迁移:使进程可以在RMS环境中的另一台计算机上挂起、移动和重启动。一般说来,进程迁移的发生是由于一个计算资源的负载过重而另一个资源空闲,且可以使用。
检查点:这是程序执行状态的一个瞬态图,使程序在必要时可以在同一点上重新开始执行。当RMS环境的一部分出现故障,正在运行的程序可以从中间某点重新开始,而不需要从头开始。
搜寻空闲周期:一般说来,工作站有70%~90%的时间是空闲的。RMS系统可以使用空闲的CPU周期。例如,作业可以在晚上或周末提交给工作站。(www.xing528.com)
容错:通过管理作业和资源,RMS系统可以提供不同层次的容错。简单地说,容错支持使发生故障的作业可以再启动,从而保证了作业的正确完成。
减少用户的干预:RMS系统试图通过降低作业的本地调度优先级或将作业挂起将交互用户的干预减到最小。挂起的作业可以在以后重新启动或迁移到别的系统资源上运行。
负载平衡:在一个特定的结构中,作业可以分布在所有可用的计算平台上。这使资源得以有效利用,而不是让用户只使用其中一部分。进程迁移也是负载平衡策略的一部分。
多应用程序队列:作业队列可以用来在特定结构中协助管理资源。每一队列可以配置一定的属性。例如,某些小作业的优先级可能高于大作业。此外,RMS系统的队列可以对用户透明。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。