首页 理论教育 HPC集群机房建设与管理:可靠性/可用性模型

HPC集群机房建设与管理:可靠性/可用性模型

时间:2023-11-23 理论教育 版权反馈
【摘要】:2.2.6.1中国国家标准GB 50174-2008对电子信息机房可靠性/可用性的要求中国国家标准,即《电子信息系统机房设计规范》和《数据中心基础设施施工及验收规范》结合中国国情实际,社会经济发展情况,根据数据中心的使用性质、管理要求及在社会经济中的重要性对机房分级,主要从机房选址、建筑结构、机房环境、供电电源、机房布线、监控管理等方面,将数据中心分为A、B、C三个级别。

HPC集群机房建设与管理:可靠性/可用性模型

HPC集群机房在一个物理空间内实现对数据信息的集中处理、存储、传输、交换、管理,一般含有计算机设备、服务器设备、网络设备通信设备、存储设备等关键设备。

HPC集群机房基础设施(Data Center Infrastructure)是为确保机房的关键设备和装置能安全、稳定和可靠运行而设计、配置的基础工程,也称HPC集群机房工程(Facility Site Engineering)。

HPC集群机房基础设施的设计、建设和管理不仅要为机房中的系统设备运营管理和数据信息安全提供保障环境,还要为工作人员创造健康、适宜的工作环境。

目前,国内、外与机房有关的工程建设标准主要有中国建设部发布的国家标准《电子信息系统机房设计规范》(GB 50174-2008)、《数据中心基础设施施工及验收规范》(GB 50462-2015)、美国通信工业协会(TIA)发布的《Telecommunications Infrastructure Standard for Data Centers,数据中心的通信基础设施标准》(ANSI/TIA942-2005)、中国信息产业部发布的《电信专用房屋设计规范》(YD/T503-2005)等,它们是数据中心建设定位、功能指标、设计技术、施工工艺、验收标准等的具体技术要求和体现。

2.2.6.1 中国国家标准GB 50174-2008对电子信息机房可靠性/可用性的要求

中国国家标准,即《电子信息系统机房设计规范》(GB 50174-2008)和《数据中心基础设施施工及验收规范》(GB 50462-2015)结合中国国情实际,社会经济发展情况,根据数据中心的使用性质、管理要求及在社会经济中的重要性对机房分级,主要从机房选址、建筑结构、机房环境、供电电源、机房布线、监控管理等方面,将数据中心分为A、B、C三个级别。

(1)最高级(A级)。

电子信息机房(数据中心基础设施)关键设备按容错要求配置,有多路回路承担信息系统。由于系统中消除了单点故障点,所以意外事故、操作失误、维护工作等都不会导致数据中心信息系统运行中断。该型数据中心的供电系统由两套冗余配置的系统组成,由于系统具有完整的两套互为备份的供电系统,所以可用度都大大提高,主要应用于核心数据中心。

(2)中间级(B级)。

电子信息机房(数据中心基础设施)关键设备按冗余要求配置,在设备冗余能力范围内,不会因为设备故障和维护需要,而导致数据中心信息系统运行中断。但是,由于系统存在单点故障点,意外事故、操作失误等会导致数据中心信息系统运行中断。该型数据中心供电系统冗余配置,由于系统关键设备具有冗余配置,所以可用度都较高,广泛应用于中、小型数据中心。

(3)基本级(C级)。

电子信息机房(数据中心基础设施)按基本需求配置,在设备正常运行情况下,保证数据中心信息系统运行不中断。但是,出于系统存在单点故障点,所以操作失误、设备故障和维护需要等会导致数据中心信息系统运行中断。该型数据中心供电系统最简单,由于系统无冗余,所以可用度都最低,应用于一些简单的小型数据中心。

表2-2列出了国标《电子信息系统机房设计规范》(GB 50174-2008)和《数据中心基础设施施工及验收规范》(GB 50462-2015)中对于数据中心各部分对应不同可靠性等级的配置要求,包括机房选址、建筑结构、机房环境、供电电源、机房空调、机房布线等。

①数据中心的建筑结构:主要包括数据房间结构、供排水系统、照明系统等,保证了数据中心基本稳定,安全进出环节。

②数据中心的供电系统:主要包括保障主设备用电的UPS供电系统和配电管理系统,UPS、空调等其他设备用电的市电电源和柴油发电机的后备电源,以及相应的配电系统,保证了数据中心用电设备的用电可靠,确保数据正常可靠的运行。

③数据中心的环境控制系统:主要包括保障主设备的机柜系统、机房空调系统,保证了数据中心设备运行的安全稳定的环境系统。

④数据中心的综合布线系统:主要包括连接和管理主设备的综合布线系统、KVM等管理系统,保证了数据中心网络的可靠稳定运行。

表2-2 GB 50174-2008、GB 50462-2015对数据中心可靠性/可用性的要求(www.xing528.com)

2.2.6.2 美国数据中心标准ANSI/TIA942-2005对可靠性/可用性的要求

美国通信工业协会(TIA)发布的ANSl/TIA942-2005标准,即《Telecommunications Infrastructure Standard for Data Centers(数据中心的通信基础设施标准)》描述了对各类数据中心或计算机房的建筑结构、供电系统、环境控制系统和网络布线系统等基础设施的不同可靠性要求和配置,共分为4级。

在《数据中心的通信基础设施标准》中,根据数据中心基础设施(如供电、空气调节、综合布线及其他系统)的可用性(Availability)、稳定性(StabiIity)和安全性(Security)分为4个等级。

(1)等级Ⅰ——基本级。

等级Ⅰ型数据中心配有不间断供电系统和制冷系统。这些系统可以承担基本的关键的负荷,但无冗余配置。UPS、空调等设备根据负荷容量配置。因此,系统中有多个单点故障点。无论是有计划的维护、修理和扩容,还是运行故障和意外事故都会导致系统运行中断。等级Ⅰ型数据中心基础设施系统满足了数据中心的最基本要求。

(2)等级II——部件冗余级。

等级II型数据中心配有不间断供电系统和制冷系统的主要设备、部件采用冗余配置,系统的容量配置为“N+1”,“N”为关键负荷量。例如,UPS、柴油发电机采用“N+1”冗余并机配置,空调采用“N主1备”配置。因此,大部分有计划的维护、修理和扩容,以及运行故障和意外故障都不会引发系统运行中断。

等级II型数据中心通过冗余配置,提高了基础设施系统的可靠性。

(3)等级III——在线维护级。

等级III型数据中心配有不间断供电系统和制冷系统采用多条分配回路,但只有一条回路在线承担负荷。当在线的回路需要维护或者出现故障时,启动另一条回路承担负荷,例如,大型数据中心的冷冻水空调系统,配置两套独立的管路。因此,有计划的维护、修理和扩容,以及大部分运行故障和意外故障都不会引发系统运行中断。

等级III的数据中心可实现在线维护,常被设计成可升级等级IV的数据中心。

(4)等级IV——故障容错级。

等级IV型数据中心配有不间断供电系统和制冷系统采用多条分配回路,并同时在线,共同承担负荷。当在线的回路需要维护或者出现故障时,另一条回路可以承担所有负荷,如“S+S”的双电源系统,两套独立的“N+1”冗余UPS供电系统。等级IV型数据中心需要计算机硬件设备有故障容错的双电源输入。IV型数据中心系统中没有单点故障点,因而任何计划的维护、修理和扩容,以及运行故障和意外故障都不会引发系统运行中断。

等级IV的数据中心可防止单点故障对系统的影响,实现最高可靠性的应用。

ANSI/TIA942-2005对数据中心可靠性/可用性的要求如表2-3所示。

表2-3 ANSI/TIA942-2005对数据中心可靠性/可用性的要求

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈