首页 理论教育 HPC集群机房安全管理的强化

HPC集群机房安全管理的强化

时间:2023-11-23 理论教育 版权反馈
【摘要】:进入机房人员应遵守机房管理制度。防火管理的重点是气体灭火系统能否发挥正常作用。对气体灭火系统维护管理要注意如下4点内容:气体灭火系统应由经过专门培训,并经考核合格的人负责定期检查和维护。

HPC集群机房安全管理的强化

HPC集群机房的日常安全管理,要重点注意如下10点内容:

7.2.3.1 HPC集群机房出入管理

(1)严禁非机房工作人员进入机房,特殊情况须经负责人批准,并认真填写登记表后方可进入。严禁非工作人员上机操作。进入机房人员应遵守机房管理制度。

(2)进入机房人员不得携带任何易燃、易爆、腐蚀性、强电磁、辐射性、流体物质等对设备正常运行构成威胁的物品。严禁将其他与机房工作无关的物品带入机房。

(3)若管理人员申请调走,报告经单位批准前,重大的管理工作提前交接,把密码、钥匙、注意的问题等交接给单位指定人员。

7.2.3.2 HPC集群机房防火管理

机房是重点防火单位,应做好防火工作。机房工作人员必须严格遵守各项操作规程。拆装设备时必需断电,不允许带电作业;维修设备时必须先切断设备电源,再行维修;禁止使用汽油、酒精等易燃易爆品清洗带电设备;严禁在机房内吸烟和使用加热器具。

防火管理的重点是气体灭火系统能否发挥正常作用。对气体灭火系统维护管理要注意如下4点内容:

(1)气体灭火系统应由经过专门培训,并经考核合格的人负责定期检查和维护。

(2)应做好对气体灭火系统的定期检查,并做好记录。检查中发现的问题应及时处理。

(3)每月应对系统进行一次检查,发现问题应及时处置,检查内容及要求如下:

·对全部系统组件进行外观检查,系统组件应无碰撞变形及其他机械性损伤,表面应无锈蚀,保护漆层应完好,铭牌应清晰,手动操作装置的保护罩、铅封和安全标志应完整。

·全部系统组件的安装位置不得有其他物件阻挡或妨碍其正常工作。

·驱动控制盘面板上的指示灯应正常,各开关位置应正确,各接线应无松动现象。

·火灾探测器表面应保持清洁,应无任何会干扰或影响火灾探测器探测性能的擦伤、油渍及油漆。

·储存容器上的压力表,其指针应在正常的范围内。

·设备可否移位。

·设备工作是否正常。

(4)每年应对系统进行两次全面检查,检查内容和要求除按月检查的内容外,还应符合如下要求:

①防护区的开口情况、防护区的用途及可燃物的种类、数量、分布情况,应符合设计规定。防护区外的疏散通道应保持畅通。

②储存容器的固定支架,应无松动现象。

③灭火剂输送管路与喷嘴的连接、灭火剂输送管路本身的连接应安装牢固。

④灭火剂输送管路及电气管路的固定支架应无松动现象。

⑤高压软管应无变形、裂纹及老化。

⑥各喷嘴孔口,应无杂物堵塞。

⑦对每个防护区进行一次模拟自动启动试验。

⑧手动控制、手动/自动切换、紧急停止操作、备用灭火剂储存容器切换操作应正常。

⑨探测设备运行情况检查:主要检查连接线路及探测器灵敏性。

⑩控制设备运行情况检查:

·控制器接受火灾信号情况(包括探测、急启、急停,反馈)。

·控制器接受故障信号情况(包括探测、急启、急停、反馈、主备电、阀线)。

·控制器联动性能及各个被联动器件的性能。

·记录并分析控制器储存信息。

⑪建立灭火系统使用档案,对使用、检查、维修与试验做详细记录。

7.2.3.3 HPC集群机房用电安全管理

(1)机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程,注意用电安全,无触电隐患,注意节约用电

(2)机房应安排有专业资质电工定期检查供电、用电设备、设施。

(3)机房内不得乱拉乱接电线、电源,应选用安全、有保证的供电、用电器材。

(4)在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。

(5)严禁随意对设备断电、更改没备供电线路;严禁随意串接、并接、搭接各种供电线路。

(6)如发现用电安全隐患,应立即采取措施解决,不能解决的必须及时向相关负责人员提出解决。

(7)禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。

(8)在使用功率超过特定瓦数的用电设备前,必须得到机房管理人员批准,并在保证线路保险的基础上使用。

(9)在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。

7.2.3.4 HPC集群机房设备安全管理

机房设备要保持清洁、卫生,定期打扫,不定期对机房内设备进行检查,发现故障及时检修,并要登记、报告。因违章作业造成事故损失的,要按责任事故处理。设备安全管理的具体内容如下:

(1)机房人员必须熟知机房内设备的基本安全操作和规则。

(2)定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯,仪表),从而及时了解硬件运作状态。

(3)禁止随意搬动设备、随意在设备上进行安装、拆卸硬件或随意更改设备连线,禁止随意进行硬件复位。

(4)路由器、交换机和服务器以及通信设备是网络的关键设备,不得自行配置或更换,更不能挪作他用。要定期检查是否规范,经有关领导同意后再变更。

(5)网管人员应做好网络安全工作,服务器、各种核心设备等的各种重要账号严格保密,规范管理。监控网络上的数据流,从中检测出攻击的行为并给予响应和处理。做好操作系统的补丁修正工作。

(6)禁止在正式运行的服务器上进行试验性质的配置操作,需要对服务器进行配置,应在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

(7)不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经机房管理人员允许,更不允许他人操作机房内部的设备,对于核心服务器和设备的调整配置,更需要小组人员的共同同意后才能进行。

(8)对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。

(9)对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。

(10)网管人员统一管理计算机及其相关设备,完整保存计算机及其相关设备的驱动程序保修忙及重要随机文件。

(11)值班人员必须密切监视中心设备运行状况以及各网点运行情况,确保安全、高效运行。

(12)未经负责人批准,不得在中心机房设备上编写、修改、更换各类软件系统及更改设备参数配置。各类软件系统的维护、增删、配置的更改,各类硬件设备的添加、更换必须经负责人书面批准后方可进行;必须按规定进行详细登记和记录,对各类软件、现场资料、档案整理存档。

(13)健全中心全部设备固定资产账目,机房内所有设备、仪器、仪表等物品要妥善保管。管理人员每学期核对一次,做到账、物相符。

(14)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。

7.2.3.5 HPC集群机房计算机病毒防范管理

(1)对新购进的计算机及设备,为防止原始计算机病毒的侵害,要组织专业人员检查后方可安装运行;软盘、光盘等移动媒体,以及外来的系统和软件、下载软件等要先进行计算机病毒检查,确认无计算机病毒后才可以使用;严禁使用未经清查的、来历不明的软盘、光盘等。

(2)要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和检查。要安装防计算机病毒软件,并定期或及时(随时)更新(升级)计算机病毒防范产品的版本;要使用国家规定的、具有计算机使用系统安全专用产品销售许可证的防计算机病毒产品。

(3)跟踪计算机病毒发展的最新动态,及时了解计算机病毒,特别是有严重破坏力的计算机病毒的爆发日期或爆发条件,在一些破坏性较大的计算机病毒发作日期前,要及时在网上发布通知。

(4)禁止任何人利用本单位计算机下载、复制、观看和传播各类与工作无关的视频文件。

(5)禁止任何人利用本单位计算机查看、复制互联网上与工作无关的信息。

(6)严禁使用盗版软件,特别是盗版的杀毒软件,严禁在工作计算机上安装、运行各类游戏软件。

(7)外来人员携带来的各种可以在计算机上运行的文件及软件等数字信息,未经同意,禁止复制到本单位计算机内。如遇特殊情况,必须由相应的信息管理部门人员使用最新版本的反病毒软件检测通过后,方可使用,检测人员及时做好来访和检测记录,以备查看。

(8)服务器要尽量做到专机专用,特别是具有读写权限、身份确认功能的认证服务器一定要专用;对共享的网络文件服务器,应特别加以维护,控制读写权限,不在服务器上运行无关软件和程序。

(9)随时注意计算机的各种异常现象,一旦发现,应立即用查毒软件仔细检查。

(10)服务器要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和分析;特别是邮件服务器。发现病毒立即处理并通知上级管理人员。

(11)一旦发现中心服务器有被侵入及恶意攻击的记录,应及时采取措施遏止并向主管领导报告;一旦发生计算机病毒疫情,要启动应急计划,采取应急措施,将损失降到最小。

(12)发现或受到“计算机病毒”攻击后的管理措施:

·当出现计算机病毒传染迹象时,立即隔离被感染的系统和网络,并进行处理,不应带“毒”继续运行;

·发现计算机病毒后,一般应利用防杀计算机病毒软件清除文件中的计算机病毒;杀毒完成后,重启计算机,再次用防杀计算机病毒软件检查系统中是否还存在计算机病毒,并确定被感染破坏的数据是否确实完全恢复;

·如果破坏程度比较严重,或感染的是重要数据文件,则自己不要盲目修复,而要请计算机病毒防范的专业人员处理,即使是计算机专业人员也要慎重;

·对于杀毒软件无法杀除的计算机病毒,应将计算机病毒样本送交有关部门,以供详细分析。

·若发现网上有色情及政治敏感内容,及时报告有关部门处理:

(13)单位应定期与不定期对制度的执行情况进行检查,督促各项制度的落实,并作为人员考核的依据。

7.2.3.6 HPC集群机房防雷管理

(1)防雷装置应当每年检测一次,对爆炸和火灾危险环境场所的防雷装置应当每半年检测一次。

(2)防雷装置投入使用后,应建立管理制度,指定专人负责,做好防雷装置的日常维护工作。发现防雷装置存在隐患时,应当及时采取措施进行处理。对防雷装置的设计、安装、隐蔽工程图纸资料、年检测试记录等,均应及时归档,妥善保管。

(3)每年雷雨季节前应对接地系统进行检查和维护。主要检查连接处是否紧固、接触是否良好、接地引下线有无锈蚀、接地体附近地面有无异常,如果发现问题应及时处理。

(4)接地网的接地电阻宜每年采用数字式接地电阻测量仪进行一次测量。

(5)每年雷雨季节前应对运行中的防雷元器件进行一次检测,雷雨季节中要加强外观巡视,现异常应及时处理。

(6)当发生雷击事故后,应及时调查分析原因和雷害损失,提出改进防护措施。

设备遭受雷击后应对损坏情况进行调查分析,调查分析内容主要包括:

·各种电气绝缘部分有无击穿的痕迹,有无烧焦气味,设备元件损坏部位,设备的电气参数变化情况;

·各种防雷元件损坏情况,参数变化情况。

·安装了雷电测量装置的,应记录测量数据,计算出雷电流幅值。

·了解雷害事故地点附近的情况,分析附近地质、地形和周围环境特点及当时的气象情况。

·保留雷击损坏部件,必要时对现场进行拍照或录像,做好各种记录。

·根据上述调查情况,组织有关专家分析,写出调查分析报告及改进措施。

7.2.3.7 HPC集群机房软件安全管理

(1)必须定期检查软件的运行状况,进行数据和软件日志备份。(www.xing528.com)

(2)禁止在正式运行的服务器上进行试验性质的软件调试,禁止在服务器上随意安装软件。需要对服务器进行配置,必须在其他可进行试验的机器上调试通过并确认可行后,才能对服务进行准确的配置。

(3)对会影响到全局的软件更改、调试等操作应先发布通知,并且应有充分的时间、方案、人员准备,才能进行软件配置的更改。

(4)对重大软件配置的更改,应先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改,并应做好详细的更改和操作记录。对软件进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备:必要时需要先备份原有软件系统和落实好应急措施。

①制订周详的事前预防策略,具体如下:

·对信息传递途径进行控制,实现通信设备和存储设备的控制。

·通过网络接入保护,实现外来计算机的接入局域网限制。

·安装严密的报警系统,对非法接入进行及时报警提示。

·制定周详的互联网信息传递阻断策略,对非法信息传递进行阻断。

②对泄密行为进行事中记录和控制,具体如下:

·对泄密行为及时启动控制和报警系统。

·对泄密过程进行屏幕记录,方便现场查看,事后录像回放。

·详尽的电子文档操作痕迹记录,包括访问、创建、复制、改名、删除、打印等操作。

·集中审查终端共享,防止共享泄密行为。

③详尽的日志信息,提高事后追查的准确率,具体如下:

·进行电子文档操作及屏幕记录,便于信息泄密事后追查。

·对互联网信息传递进行记录,便于信息泄密事后追查。

·对系统用户进行日志审计,实现系统安全管理。

(5)不允许任何人员在服务器等核心设备上进行与工作范围无关的软件调试和操作。未经机房管理人员允许,不能带领、指示他人进入机房和对网络及软件环境进行更改和操作。

(6)系统管理员对业务系统进行数据整理、故障恢复等操作,必须有其上级授权。

(7)系统管理员不得使用他人操作代码进行业务操作。

(8)系统管理员调离岗位,上级管理员(或相关负责人)应及时注销其代码并生成新的系统管理员代码。

(9)对数据实施严格的安全与保密管理,防止系统数据的非法生成、变更等,严格按照专业备份要求管理。机房管理人员应恪守保密制度,不得擅自泄露各种信息资料与数据,也要注意与外方合作工作时各种信息资料与数据的保密。

(10)为确保数据的安全保密,对单位及内部人员送交的数据及处理后的数据都必须按有关规定履行交接登记手续。

7.2.3.8 HPC集群机房文档资料和数据安全管理

(1)资料、文档、数据等必须有效组织、整理和归档备案。

(2)禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其他无关人员或向外随意传播。

(3)对于牵涉网络安全、数据安全的重要信息、密码、资料、文档等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。

(4)重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据应保证其可还原性,防止遗失重要数据。

(5)服务器、路由器等重要设备的超级用户密码由指定专人(不参与系统开发和维护的人员)设置和管理,并由密码设置人员将密码装入密码信封,在骑缝处加盖个人名章或签字后交给密码管理人员存档并登记。如遇特殊情况需要启用封存的密码,必须经过相关部门负责人同意,由密码使用人员向密码管理人员索取,使用完毕后,须立即更改并封存,同时在“密码管理登记簿”中登记。

(6)系统维护用户的密码应至少由两人共同设置、保管和使用。密码应定期修改,间隔时问不得超过一个月,如发现或怀疑密码遗失或泄漏应立即修改,并在相应登记簿记录用户名、修改时间、修改人等内容。

(7)机房内使用的文献书籍和文具不允许私自带出。

(8)存放备份数据的介质必须具有明确的标识。备份数据必须异地存放,并明确落实异地备份数据的管理职责。

(9)注意计算机重要信息资料和数据存储介质的存放、运输安全和保密管理,保证存储介质的物理安全。

(10)任何非应用性业务数据的使用及存放数据的设备或介质的调拨、转让、废弃或销毁必须严格按照程序进行逐级审批,以保证备份数据安全完整。

(11)数据恢复前,必须对原环境的数据进行备份,防止有用数据的丢失。数据恢复过程中要严格按照数据恢复手册执行,出现问题时由技术部门进行现场技术支持。数据恢复后,必须进行验证、确认,确保数据恢复的完整性和可用性

(12)数据清理前必须对数据进行备份,在确认备份正确后方可进行清理操作。

(13)需要长期保存的数据,数据管理部门需与相关部门制定转存方案,根据转存方案和查询使用方法要在介质有效期内进行转存,防止存储介质过期失效,通过有效的查询、使用方法保证数据的完整性和可用性。转存的数据必须有详细的文档记录。

(14)管理部门应对报废设备中存有的程序、数据资料进行备份后清除,并妥善处理废弃无用的资料和介质,防止泄密。

(15)重要文件资料既要建立、保存文字资料,同时还要建立保存磁盘文件资料。

7.2.3.9 HPC集群机房电源及UPS管理

(1)机房内的电源开关、电源插座要明确标出控制的设备。

(2)在电源配电盘附近张贴电源系统图。

(3)不得随便改变线路和变动开关。

(4)保持适宜的环境温度。影响电池寿命的重要因素是环境温度,一般电池生产厂家要求的最佳环境温度是在20℃~25℃。虽然温度的升高对电池放电能力有所提高,但付出的代价却是电池的寿命大大缩短。据试验测定,环境温度一旦超过25℃,每升高10℃,电池的寿命就要缩短一半。

(5)UPS电源在正常使用的情况下,主机的维护工作很少,主要是防尘和定期除尘。大量灰尘会造成器件散热不好。一般每季度应彻底清洁一次。其次就是在除尘时,检查各连接件和插接件有无松动和接触不牢的情况。

(6)熟悉UPS的工作原理和操作规程。

(7)需经常检查的项目有:

·清洁并检测电池两端电压、温度。

·连接处有无松动,腐蚀现象。

·电池外观是否完好,有无变形和渗漏。

·极柱、安全阀周围是否有酸雾逸出。

·主机设备是否正常。

(8)对UPS的工作异常情况要做好记录,并及时联系有关单位进行处理。

(9)UPS应妥善保养,除了电池自动检测外,每3个月放电1次。

7.2.3.10 HPC集群机房空调管理

(1)本着正确使用、安全管理、专人负责、中低运行、节约用电的原则,切实保障空调的有效使用和管理。网络中心机房为保证设备良好的工作环境,应保持合适的机房温度和湿度,机房温度应保持在23℃~26℃,机房湿度应低于70%。

(2)巡视监控。当值管理员每隔2h巡视一次中央空调机组,巡视部位包括中央空调主机、冷却塔控制柜(箱)及管路、闸阀等附件。巡视监控的主要内容如下:

·检查线电压(正常380V,不能超额定值的±I0%)。

·检查三相电流(三相是否平衡,是否超额定值)。

·检查气压(正常500mmH2O)。

·检查高压(<12kgf/cm2)。

·检查低压(>2.5kgf/cm2)。

·冷却水进水温度(正常<32℃)。

·冷却水出水温度(正常6℃~8℃)。

·检查中央空调主机运转是否有异常振动或噪音

·检查冷却塔风机运转是否平稳、冷却塔水位是否正常。

·检查管道、闸阀是否有渗漏,冷冻保温层是否完好。

·检查控制柜(箱)鉴别元器件运作是否正常,有无异常噪音或气味。

巡视过程中如发现上述情况有不正常时,当值管理员应及时采取措施予以解决,处理不了的问题应及时详细地向上级汇报。整改时,应严格遵守《中央空调维修保养标准作业规程》。

(3)中央空调机房管理具体内容如下:

·非值班人员不准进入中央空调机房,若需要进入,须经工程部主管同意,并在值班人员的陪同下方可进人中央空调机房。

·中央空调机房内严禁存放易燃、易爆等危险品。

·中央空调机房内应备齐消防器材、防毒用品,并应放置在方便、显眼处。中央空调机房内严禁吸烟。

·每班打扫一次中央空调机房的卫生,每周清洁一次中央空调机房内的设备设施,做到地面、天花板、门窗、墙壁、设备设施表面无积尘、无油渍、无锈蚀、无污物,表面油漆完好,整洁光亮。

·中央空调机房内应当通风良好,光线足够,门窗开启灵活。

·中央空调机房应当做到随时上锁,钥匙由当值班管理员保管,当值管理员不得私自配钥匙。

·接班人员应准时接班,接班人员应认真听取交班人员交代,并查看《中央空调运行日记》,检查工具、物品是否齐全,确认无误后在《中央空调运行日记》表上签名。

·对于中央空调的运行情况,当值管理员应及时、完整、规范、清晰地记录在《中央空调运行日记》表内,并于每月的2日之前把上一个月的记录整理成册后存档,并报一份到后勤管理处,保存期为2年。

(4)定期进行日常巡视,确保空调系统的正常运行。

(5)定期进行一次室外机的清理,防止因散热不良造成空调的工作异常。

(6)每年进行一次全面检修。

7.2.3.11 HPC集群机房参观管理

HPC集群机房普通人很难进入,为了让更多的人了解新一代的机房,同时也进一步提高员工的爱岗敬业意识,更好地宣传形象、发展新业务,机房有时会安排外来人员参观。

机房安排外来人员参观要注意如下7点:

(1)外来人员参观机房,须有指定人员陪同。

(2)计算机处理秘密事务时,不得接待参观人员或靠近观看。

(3)操作人员按陪同人员要求可以在计算机演示、咨询;对参观人员不合理要求,陪同人员应婉拒,操作人员不得擅自操作。

(4)经同意,参观人员可以实地操作计算机,但须有人员的认可,不得调阅机密文件。

(5)参观人员不得拥挤、喧哗,应听从陪同人员安排。

(6)参观结束后,操作人员应整理如常。

(7)参观机房要填写登记审批表,机房维护人员负责登记、监督工作,确认无误后方可进入。参观机房登记审批表如表7-1所示。

表7-1 HPC集群机房参观登记审批表

注:参观人员请勿携带物品进入机房,谢谢合作

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈