首页 理论教育 银行数据中心:可用性保障与运维管理

银行数据中心:可用性保障与运维管理

时间:2023-07-25 理论教育 版权反馈
【摘要】:建设数据中心的目的是为了有效保障企业IT系统运行的安全性和可靠性,尤其是承载重要经济活动的商业银行的数据中心,其基础设施的可用性管理要求更为严苛。因为,数据中心基础设施系统如果具备容错及可在线维修能力,在发生单点故障时,系统能保证继续运行,则仍可计入系统的可用性。此外,在考察数据中心基础设施可用性时,不能忽视人为因素。数据中心基础设施的高可用性,还取决于设备的安装调试质量。

银行数据中心:可用性保障与运维管理

建设数据中心的目的是为了有效保障企业IT系统运行的安全性和可靠性,尤其是承载重要经济活动的商业银行的数据中心,其基础设施的可用性管理要求更为严苛。如果把IT系统比作银行核心业务生命线,那么拥有高可用数据中心基础设施,就是拥有了银行生命线的最基本的保障和支持。可用性是数据中心基础设施价值的关键性决定因素。

The Uptime Institute提出了衡量数据中心基础设施建设的3个关键指标:可靠性(Reliability)、可用性(Availability)和可维护性(Serviceability)。其中,平均无故障时间MTBF(Mean Time between Failures)是可靠性的表征、平均可修复时间MTTR(Mean Time to Repair)是可维护性的表征。

1.可靠性和可用性

可靠性是指系统在指定时间内无故障地持续稳定运行的可能性。也就是说,可靠性是系统在规定环境条件下,规定时间内,完成特定功能的能力。可靠性是一个以时间为变量的函数,随着指定时间的不同而变化,时间越长,可靠性越低。系统可靠性可以用平均无故障时间MTBF来表示。

可用性是指系统在要求的外部资源得到保证的前提下,在规定的条件下和规定的时间内处于可执行规定功能状态的能力。可用性是系统在使用过程中,可以正常使用的时间与总时间之比,它是产品可靠性、维修性和维修保障性的综合反映。

978-7-111-51885-3-Part04-43.jpg

图13⁃1 可修复系统与不可修复系统可用性的差别

可靠性R和可用性A是不同的,可靠性通常低于可用性。因为,数据中心基础设施系统如果具备容错及可在线维修能力,在发生单点故障时,系统能保证继续运行,则仍可计入系统的可用性。因此,可用性大于或等于可靠性。可修复系统与不可修复系统可用性的差别如图13⁃1所示。

2.提高系统可用性的措施

根据可用性定义可以看出,提高系统可用性的措施有两种:一是提高组成系统的设备的可靠性(MTBF);另一种是降低故障后的修复时间(MTTR)。无故障工作时间越长可用性就越高;平均修复时间越短可用性就越高。

理论上讲,当MTBF趋于无限大时,可用性就趋近于100%,也就是说如果设备永远不发生故障,系统的可用性就是100%。但是实际情况下,由于受设计、材料、生产工艺等限制,设备的可靠性达到预期水平后,要使可靠性进一步提高,难度很大并且效果非常有限。因为通常来说,每个设备都可能由成百上千个元器件组成,而整个设备的可靠性就是这成百上千个元器件可靠性的乘积,也就是要提高设备的可靠性,必然要求组成设备的所有元器件的可靠性都有相应的提高。此外,设备的可靠性也受到安装质量的制约和工作环境的限制。

由于设备的可靠性是有限的,因此设计者和用户必须从系统的可修复和可快速修复上找出路,因为尽管故障随时可能发生,但只要系统中的所有设备故障后都是可修复并可以快速修复的,故障后平均修复时间(MTTR)数值很小甚至趋近于零,那么系统的可用性同样可以非常高。故障修复时间(MTTR)在可修复系统的可用性中扮演重要角色。无论何时发生故障,尽快恢复系统都十分重要。这意味着要求快速诊断故障、备件随时可用,并且系统维修或更换方便。

故障性质千差万别,故障的危害和修复方法很难一概而论,最理想的情况是,当设备发生故障后,只需对故障设备本身进行修复,而系统仍可继续正常工作。要具有这种功能,系统必须做到以下3点。

(1)冗余程度高 整个系统特别是可靠性低的环节要冗余配置,整个系统要消除单点故障。

(2)故障的隔离性 系统中各个设备之间应具有良好的故障隔离功能,故障设备应把故障现象和影响局限在设备本身,有利于故障的快速诊断。

(3)修复的可操作性和快速性 修复的可操作性是指故障发生后,可断开故障设备与其他相关设备的连接,并在物理空间、工具使用等方面可很方便地对故障设备进行现场维修、整体移除并更换新设备。快速性是指修复时间尽可能短,一般整机更换可节省故障诊断、备件准备和修复后测试的时间,模块化插拔可使修复时间缩短到最小。系统的模块化设计是实现系统可修复和可快速修复的前提。

此外,在考察数据中心基础设施可用性时,不能忽视人为因素。统计数据表明,人为错误是计划外停机的主要原因之一。

关注数据中心可用性除了提高系统级别的可用性、关键基础设施的人为操作管理能力外,还需要提升数据中心架构的灾备快速恢复能力。

3.数据中心基础设施可用性分析(www.xing528.com)

影响数据中心基础设施可用性的因素十分复杂。它不但与基础设施各个子系统内的设备可用性有关,还与机房的整个建设过程有关。

要计算或估算出已建成的数据中心基础设施各个子系统的可用性是很困难和不现实的,但是以下几方面可定性地反映出系统的可用性程度和水平。

1)每个机房基础设施子系统的组件是否是大批量生产从而提高设备的可靠性。

2)是否为机房基础设施设计了冗余,从而将导致出现数据中心/IT系统停机的组件故障的可能性降到最低。

3)出现故障时,系统是否可以在最短时间内恢复。

4)系统设计是否考虑了降低复杂性,并拥有直观而简单的管理界面。

5)系统是否可以承受并便捷处理不断变化的情况,而不会引发人为错误。

表13⁃1~表13⁃3分别给出了电气系统、空调系统和综合布线系统等子系统可用性评估方法。

利用最新的技术和产品并基于前瞻性的规划来设计出一个理论上达到99.995%(T4 Uptime)可靠性等级的数据中心已非难事,但根据实际运行的数据中心的统计数据表明,仅仅依靠完善的规划设计方案和选用高可靠性的设备是远远不够的。数据中心基础设施的高可用性,还取决于设备的安装调试质量。同时,建立一套完善规范的运维操作管理机制,提高配电制冷系统的集成自动控制管理能力以减少人为错误,更是确保数据中心能在其整个运营生命周期里长期高可用性的重要保障。并且,规范化的运维操作管理也是提高数据中心能源使用效率的重要保证。

13⁃1 电气系统可用性评估

978-7-111-51885-3-Part04-44.jpg

13⁃2 空调系统可用性评估

978-7-111-51885-3-Part04-45.jpg

13⁃3 网络布线可用性评估

978-7-111-51885-3-Part04-46.jpg

(续)

978-7-111-51885-3-Part04-47.jpg

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈