首页 理论教育 HPC集群机房建设与管理:日常维护目的与内容

HPC集群机房建设与管理:日常维护目的与内容

时间:2023-11-23 理论教育 版权反馈
【摘要】:7.4.1.1HPC集群机房日常维护的目的机房日常维护是维护人员的工作中的重点,目的是使机房设备正常运行,通过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养,为设备提供良好运转环境,保障系统运转安全、设备运行稳定、延长设备生命周期、降低设备的故障率并快速解决故障、降低成本、提高HPC集群机房的管理水平和质量。HPC集群机房日常维护的基本保障。

HPC集群机房建设与管理:日常维护目的与内容

7.4.1.1 HPC集群机房日常维护的目的

机房日常维护是维护人员的工作中的重点,目的是使机房设备正常运行,通过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养,为设备提供良好运转环境,保障系统运转安全、设备运行稳定、延长设备生命周期、降低设备的故障率并快速解决故障、降低成本、提高HPC集群机房的管理水平和质量。

7.4.1.2 HPC集群机房日常维护的内容

机房日常维护的重点内容为基本保障、设备硬件的日常维护、软件的维护、机房空调及新风维护、UPS及电池维护、消防设备维护、电路和照明电路维护、机房基础维护。

(1)HPC集群机房日常维护的基本保障。

机房日常维护的基本保障主要有人员保障、运行环境保障、安全保障、消防保障、电源保障。

①人员保障。机房应有7×24h的值班人员,随时对机房内部的温度、湿度等各项指标进行监控,以发现意外情况及时处置。

②运行环境保障。

A.电气环境。电气环境的要求主要是指静电干扰、防电磁干扰、防无线电辐射干扰等。电磁干扰分为暂态反应电磁干扰、元件内部电磁干扰和静电放电电磁干扰3种。

·暂态反应电磁干扰指的是电气设备对电路里面某个元件打开或关闭所产生的电压脉冲或火花引起不必要的反应,其中以电源线的暂态反应和人体的静电放电两种外来的电磁干扰对电路的危害最为严重。

·元件内部电磁干扰指的是计算机主机板及芯片所产生的干扰。

·静电放电电磁干扰对电路的危害就像执行中的程序中断、磁盘数据存取错误显示器显示混乱、存储器中数据消失或主机板上的芯片烧毁等会对电路产生不同程度的破坏。

B.温湿度。一般来说,机房内的温度控制在18~25℃较为适宜,相对湿度保持在40%~60%范围内较为适宜。空气潮湿易引起设备的金属部件和插接件、管部件产生锈蚀,并引起电路板、插接件和布线的绝缘能力降低,严重时还可造成电路短路。

C.防尘。灰尘会通过不同方式,不同程度地影响设备的正常运行,对设备造成危害的事故现象主要有:元器件设计功能值改变;信号传输频率改变;输入输出值不稳定;系统运行不稳定;系统告警,重新启动时有时能恢复有时不能恢复;线路板出现故障。

③安全保障。进入机房时,需登记或持有通行证。为了保证设备安全,机房要具备电视监控及出入机房控制系统,达到整个楼层没有监视盲区的要求;所有录像保存30天以上;采用出入机房门禁系统,限制非授权的人员进入重要区域。

④消防保障。机房应采用防火构架及材料,消防能力要符合机房消防标准,机房及楼道内应装有温度烟雾感应器及防火报警探测头,在遇火情时系统自动报警,并启动气体灭火系统灭火。此外,机房内还可另外配备手提式、推车式灭火器

⑤电源保障。机房电源保障主要是对机房主配电柜、UPS配电柜、主机房、监控室照明开关箱、机房内照明灯具、开关、插座及其管线槽等的保障。

(2)HPC集群机房设备硬件的日常维护。(www.xing528.com)

维护人员对设备硬件的日常维护主要是除尘保养和技术维护,定期对设备进行除尘处理,保证硬件的正常工作。

技术维护就是维护人员对设备的硬件部分进行日常观察和定期检测,发现问题及时排除。其主要工作内容包括定期检测设备运行状况、处理器负荷等,根据告警信息的提示,及时对可疑部件进行检测和维修,并根据工作需要调整电路板的位置,更换有故障的电路板和部件。当硬件发生故障时,及时排除故障,尽快恢复系统的运行。

·定期进行硬件的例行维护,建立每台机器的维护档案

·每次维修必须进行登记,包括更换的没备和配件。

(3)HPC集群机房内软件的维护。

软件维护主要包括:增删和修改数据;定期测试功能;定时运行诊断程序检测其工作状态,及时复制和打印数据库资料,并做好保管工作;配合厂家作好软件远程维护工作;做好软件的防病毒和杀毒工作,进行数据备份和系统日志备份。

(4)HPC集群机房空调及新风维护。

检查空调运行是否正常,换风设备运转是否正常。检查压力,测试各功能的电压是否符合。检查室外机、加湿器过滤网、启动各功能是否正常。观察制冷剂液面,看是否缺少制冷剂。

(5)HPC集群机房UPS及电池维护。

根据实际情况进行电池核对容量测试;进行电池组充放电维护及调整充电电流,确保电池组正常工作;检查记录输出波形、谐波含量、零地电压;查清各参数是否配置正确;定期进行UPS功能测试,如UPS同市电的切换试验。

(6)HPC集群机房消防设备维护。

检查火警探测器、手动报警按钮火灾警报装置外观及试验报警功能;检查火灾警报控制的自检、消音、复位功能及主备用电源切换功能。

(7)HPC集群机房电路和照明电路维护。

镇流器、灯管、开关及时更换;线头氧化处理,标签巡查更换;供电线路绝缘检查,防止意外短路。

(8)HPC集群机房基础维护。

静电地板清洗清洁,地面除尘;门、机房各类告示警示牌、机房设备整理架等的清洁;花板、地板缝隙调整,损坏更换;接地电阻测试;主接地点除锈、接头紧固;防雷器检查地线触点防氧化加固。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈