首页 理论教育 银行数据中心基础设施建设与运维管理:ECC系统监测及运用

银行数据中心基础设施建设与运维管理:ECC系统监测及运用

时间:2023-07-25 理论教育 版权反馈
【摘要】:ECC系统监测的数据,一方面用来实时反映基础设施当前的运行状态指标,以便数据中心机房维护管理人员第一时间发现问题,及时消除,避免对数据中心所支撑的各个业务应用的影响;另一方面,按照一定的原则和要求,保存历史监控数据,用于日后事故追踪、查询统计和趋势分析。ECC功能架构示意图如图841所示。图841 ECC功能架构示意图图842 ECC系统功能模块组合1.建筑设备监控BMS管理模块前文已有描述。

银行数据中心基础设施建设与运维管理:ECC系统监测及运用

总控中心(Enterprise Command Center,企业级总控中心,ECC)有两层含义,第一层含义,顾名思义,是数据中心运维人员对数据中心运行状况进行监控值守的场所;第二层含义,它代表着数据中心最高级别的指挥控制中心,是集业务运行管控和IT运行管控为一体的集成系统,是一个数据采集、加工处理、统计分析数据管理平台,具有运行管理、应急指挥和决策支持的功能。

ECC系统监测的数据,一方面用来实时反映基础设施当前的运行状态指标,以便数据中心机房维护管理人员第一时间发现问题,及时消除,避免对数据中心所支撑的各个业务应用的影响;另一方面,按照一定的原则和要求,保存历史监控数据,用于日后事故追踪、查询统计和趋势分析。监测的数据经过加工,驱动管理。

目前,银行ECC系统可以对业务交易量、云计算的响应速度、IT设备的虚拟化等进行监控;可以对无人机房或多活机房进行监控;可以监控多中心间的网络状况并且按制定的方针做过滤/排除/派工等自动化功能。

银行数据中心ECC为了保障其数据中心机房运维的自动化、标准化和流程化,以网络管理系统、建筑设备监控管理系统、拼接屏显示系统和内部支撑系统为4大功能组件,配有独立物理场地设施,由装饰、配电、空调弱电智能化和专业的监控控制台等系统搭建而成,实现数据中心所有监控子系统的功能集成、网络集成、软件界面和人机界面集成,有效降低机房维护人员的日常工作强度,提高系统整体可用性并节约系统维护成本。ECC功能架构示意图如图8⁃41所示。

ECC系统通常将建筑设备监控管理、能源监测与PUE(能源使用效率)管理、能源费用与EEE(3E,能耗费用率)管理、人机交互功能模块、事件管理功能模块、人工调度指挥模块、预案驱动功能模块和数据知识库模块等具有完整功能的系统模块组合成一个整体,进行集中监控和管理,提高机房维护和管理综合水平及协调运行能力,目前大型数据中心ECC系统通常采用标准的层级模块化系统结构。ECC系统功能模块组合如图8⁃42所示。

978-7-111-51885-3-Part02-210.jpg

图8⁃41 ECC功能架构示意图

978-7-111-51885-3-Part02-211.jpg

图8⁃42 ECC系统功能模块组合

1.建筑设备监控BMS管理模块

前文已有描述。

2.能源监测与PUE管理模块

能源监测与PUE管理模块包括建立能耗指标,监测IT设备、电气、空调、通风、给水排水和弱电智能化等系统能耗数据,不但要动态监测用电设备的用电功率、用电量,水系统的耗水量和二氧化碳排放量,还要统计计算数据中心PUE值(能源使用效率),实际测量值与能耗指标对比分析,生成各类能耗报表,累计历史数据,动态预测能耗发展趋势,为持续进行能耗改进提供数据信息支持,如图8⁃43所示。

978-7-111-51885-3-Part02-212.jpg

图8⁃43 能源监测与PUE管理模块

3.能源费用与EEE管理模块

能源费用与EEE管理模块建立能源费用指标,监测并统计如市政电、市政水、燃油、天然气、IT设备用电等的用量及费用数据,统计固定的自然能源设施如风能太阳能投资成本(按7年均摊费用),监测分析数据中心EEE值,实际测量值与能耗费用指标对比分析,生成各类报表,提供数据信息支持,如图8⁃44所示。

978-7-111-51885-3-Part02-213.jpg

图8⁃44 能源费用与EEE管理模块

4.事件管理功能模块

事件管理功能模块是驱动运维工作的信息源头,主要完成故障的定位和事件的发起,同时对事件的分类和等级进行划分、界定,提供信息给预案驱动模块,如图8⁃45所示。

(1)自动定位故障 根据机房环境和设施监控功能模块所搜集到的信息,进行数值、状态的比对,并进行智能逻辑判断,自动判定、定位故障设备或故障元器件。

978-7-111-51885-3-Part02-214.jpg

图8⁃45 事件管理功能模块

(2)人工辅助定位故障 需要人工参与故障定位过程,通过机器指引的方式,人工查看设备状态、参数,辅助系统完成整个判断逻辑,实现故障定位。

(3)日常运维事件管理 以时间为节点或者以事件分类为条件,作为一个事件的发起源,驱动预案模块开始一个日常运维工作。

(4)趋势性风险管理 以监测到某个(某批)非直接故障的参数、状态为条件,自动判断数据中心运行可能存在的风险,调用预案检查,达到预防的目的。

(5)事件分类和等级管理 对故障时间、紧急事件、日常运维事件、趋势性风险事件等各种类型的事件进行管理和分类,并根据所监测到的数据、知识库信息判定事件的紧急等级,传递该信息给预案驱动模块,使预案驱动模块可以根据类型、等级进行排序处理等。

事件管理工作需要规范化的流程进行支撑,如图8⁃46所示。

5.预案驱动管理功能模块

预案驱动管理功能模块是串联整个系统数据的关键性功能部件,应完全按照数据中心的实际设备情况、人员情况、运维流程进行定制化设计,驱动和监督运维工作的全过程。主要由预案分配管理、流程逻辑管理、预案执行验证3个部分组成,如图8⁃47所示。

(1)预案分配管理模块 预案驱动管理功能模块获得了事件管理功能模块的事件信息后,由预案分配管理模块对预案进行调用和分配,使得相关流程逻辑步骤中的人员和设备进行有序的串联,获得需执行的直接任务。

(2)流程逻辑管理模块 管理预案的流程,将人员信息进行串联、设备监测和属性信息进行串联、事件的先后顺序进行定义,以保证事件驱动的预案是正确无误的内容。

(3)预案执行验证 实时监督预案的执行情况,不断根据实时监测的数据验证预案执行效果,确保预案在要求的时间、按要求的顺序、在要求的人员手中执行到位。(www.xing528.com)

978-7-111-51885-3-Part02-215.jpg

图8⁃46 事件管理流程图

978-7-111-51885-3-Part02-216.jpg

图8⁃47 预案驱动管理功能模块

6.人工调度指挥功能模块

人工调度指挥功能模块是为管理层设计的全局管控功能模块,用于对整个运维预案的把控和长期运维情况分析统计,也可以用于在系统无法智能化支撑的某些情况下人工派单、应急指挥,如图8⁃48所示。

(1)人员监控 监控运维工程师是否在按照预案指引接受工作、到达指定地点、按时间要求执行工作等。

978-7-111-51885-3-Part02-217.jpg

图8⁃48 人工调度指挥功能模块

(2)预案进度监控 从全局的角度监控整个预案的执行进度情况和协调各分步进度,避免各工程师之间的执行进度不一致造成整体进度缓慢和不可控。

(3)人工应急调度 在某些无法系统智能支撑的事件上,可以进入人工派单模式,实现全实时的快速通信和人工调度运维工作。

(4)统计分析模块 用于生成各种运维报表、图表,统计运维工作的长期进行情况。

7.人机交互功能模块

人机交互的友好性将直接决定系统的可用性,系统应根据用户的运维管理层级情况进行人机交互设计,结合传统纸质工单操作、当前主流的PC管控调度客户端、移动互联的PAD运维指引终端3种模式进行应用,如图8⁃49所示。

978-7-111-51885-3-Part02-218.jpg

图8⁃49 人机交互功能模块

(1)传统纸质工单操作 在系统接收到事件后,预案驱动模块将快速调用知识库信息,将相关设备信息、地理信息、预案信息进行工单整合,形成统一的指导性工单,并自动打印,维护工程师只需拿到工单按照指引直接开始工作。

(2)PC管控调度客户端 主要面向现场管理层和高级管理层设计,在工程师参与整个运维工作的过程中,使得管理层可以了解到整个预案执行的进度,监督执行过程,并实现与现场运维执行者的实时通信。

(3)PAD运维指引终端 主要面向运维执行工程师的工作进行设计。在系统接收到需要调用预案的事件后,自动推送到各职责运维工程师手中的PAD终端中,运维工程师根据PAD的指引,无须思考和沟通,快速进行运维执行工作。运维指引终端界面的设计应采用图形化的引导模式,作为运维工程师和BMS管理平台、ECC现场管理层快速沟通交互工具。

8.数据知识库功能模块

数据知识库功能模块是整个集中监控管理平台的核心存储器和资源库,保存数据中心的各种数据,用以支撑整个平台的应用,如图8⁃50所示。

978-7-111-51885-3-Part02-219.jpg

图8⁃50 数据知识库功能模块

(1)设备信息 保存各种设备的属性信息,用于判断故障和执行预案时判断执行情况,分为监控获得的信息和人工录入的信息两部分。

(2)地理信息 包含机房的区域地理信息、设备位置信息、运维路径信息、设备部件位于设备位置的信息等。用于预案执行时快速地告知工程师应当通过什么路径到什么位置进行工作,面对设备时应当在什么位置找到什么部件。

(3)人员角色信息 涉及数据中心运营和运维工作的各部门、人员信息,各运维厂家和供货商人员的信息,以及以上部门、单位、人员之间在事件发生时的逻辑关系。

(4)业务关系信息 存储各种设备、业务之间的关系信息,以用于在事件发生时判断出可能造成的影响面。

(5)事件处理方案信息 预案的具体内容信息,包含各种故障的判断方法、维修方法,各种预案的具体方案信息。

(6)手工检索模块 用于检索系统中各种预案信息、设备信息、文件信息等,是知识库的手工获得和输出接口

(7)图形化学习录入模块 通过图形化的方式录入上述信息和定制预案逻辑等,使系统具有学习能力和调整能力。

9.展示系统功能模块

展示系统是提供ECC系统的统一门户,并提供了各种丰富的显示终端,具有友好的人机交互功能,如总控中心大屏幕系统、移动监控终端系统;丰富的信息展示技术,如3D虚拟现实、3D动态温度云等仿真组态技术等;丰富多样的报警信息输出方式,如声光、短信、电话等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈