首页 理论教育 全球化时代IT集中运维管理的重要性

全球化时代IT集中运维管理的重要性

时间:2023-08-03 理论教育 版权反馈
【摘要】:事件管理生产运维中心的事件管理内容除来自于一体化监控平台展示的生产运行环境实时监控报警事件外,全球客户IT服务平台受理的客户投诉以及IT运维人员人工巡检发现的生产异常也同样是事件管理的范畴。

全球化时代IT集中运维管理的重要性

数据逻辑集中于一点维护在给IT运维带来诸多便利的同时,也由于海量数据的高度集中,应用系统运行部署的高度集中,全行各项金融业务持续运行的高标准要求给日常IT运维带来严峻压力。一套科学严谨的IT运维管理体系、安全高效的IT运维工作实施流程,能识别威胁系统安全运行的潜在因素,提供安全有效的工作框架,确保各项运维工作合规、精准实施,保障各项金融业务的持续开展。

该部分主要从日常生产运维管理和7×24h运维支持两方面就数据大集中后,IT运维的关键活动及主要工作流程进行简要阐述。

1.IT全球运维管理流程

科学制订的IT运维管理流程可确保为全球客户提供可控、高效率的服务,提升系统的可靠性可用性,实现IT运维服务的制度化、标准化和专业化目标。

以下内容主要从和IT运维密切相关的IT服务请求、生产运行实时监控、生产异常事件、生产活动变更、生产问题等五方面的工作内容以及工作流程进行简要介绍。

(1)服务请求管理

全球客户IT服务平台为生产运维中心受理银行外部客户或海内外行内业务人员提交IT服务请求的统一入口,该服务平台设立在全球生产运维中心。服务请求管理旨在提高服务请求处理效率,保障系统安全、可靠、平稳、高效运行。

银行内外部客户可通过客服电话、海内外分行内部投诉平台以及电邮等方式向生产运维中心服务台提交服务请求。平台值班人员在受理服务请求后,第一时间根据客户报送的请求要素转发后线生产运维支持人员,并对请求处理的进展情况进行持续跟踪,直至客户收到答复关闭服务请求。

(2)系统运维实况监控管理

建立全球一体化监控预警平台可实现对全球生产运维中心各个IT组件监控告警信息的有效侦测和及时展示,配备以规范的监控管理流程,确保各级监控事件的及时响应、快速处理和正确解决,从而切实提升运维保障能力。

一体化监控预警平台可从以下方面进行预警信息的采集、分类和展示,针对预警信息对IT系统稳定运行影响程度的不同进行监控告警分级处理:系统资源监控,如CPU、内存、磁盘存储等;网络监控,如网络连通性、网络流量、网络攻击等;消息中间件监控,如监控MQ队列深度等;交易中间件监控,如监控CICS交易响应耗时、交易量的大小等;数据库的监控,如监控表空间的使用占比等。

(3)事件管理

生产运维中心的事件管理内容除来自于一体化监控平台展示的生产运行环境实时监控报警事件外,全球客户IT服务平台受理的客户投诉以及IT运维人员人工巡检发现的生产异常也同样是事件管理的范畴。(www.xing528.com)

事件管理的目标是确保被反映、被侦测发现的银行业务异常或生产运行异常能够得到快速响应与处置,使事件对业务系统运行的负面影响降至最小,从而确保最佳的服务可用性和服务质量。

生产运维中心每天受理以及侦测到的事件数量巨大、种类繁多,需要对收集到的事件根据影响程度的不同加以甄别分类,区别轻重缓急,差别对待处置,并辅助以跟踪关闭的事件全流程管理环节。

(4)变更管理

基础环境的改造优化、IT应用系统的升级实施、生产环境已发现缺陷的修正、业务需求的投产实现等生产活动均为IT生产运维中心生产变更的管理范围。变更管理既是通过制定标准统一的方法和步骤,也是有效地管理和控制生产实施行为,对生产活动的质量进行衡量和考核,进而通过对已有变更流程的持续改进,可提高管理的精细化水平,保障各项生产活动科学、合规、有序实施,切实降低生产运营风险。

生产实施活动应从对业务影响范围的大小、活动实施涉及关联系统的多寡、活动操作内容的繁简对生产变更进行分类,然后根据每类变更的特点制订响应的管理流程。此外,为使生产实施活动有记录、可追溯、可审计,应有相应的文件记录生产变更的实施方案,变更方案的审核过程,变更实施后验证情况,变更后评价等相关信息。

(5)问题管理

问题管理是为了查明生产异常事件发生的潜在原因,找到解决问题的方法,防止同样问题的再次发生,预防和规避问题引发更严重的生产事故。

该流程属于事后跟踪,彻底解决事件发生根源的分析调查工作。设置不同的流程角色、定制不同角色所负责的不同阶段工作内容,是问题管理的核心工作。

2.全球7×24h运维支持

为确保全球生产在线系统稳定运行,全天候及时响应处理生产异常事件,除正常工作时间生产在线系统的运维组织架构外,生产运维中心需选派技术骨干负责生产环境7×24h值班工作,按照安全生产、快速应急、有序联动的值班原则,开展各项生产运维活动。本章重点描述专职进行7×24h生产运维相关人员的角色设置、工作内容及工作流程。

根据工作职责、工作内容以及工作汇报路线不同,7×24h生产运维机制设置不同管理角色,如当值总监、当值经理、故障经理、安全经理、事件经理、变更经理等,从技术条线设置基础设备、网络管理、系统管理和应用维护值班工程师角色。

7×24h运维机制相关人员按照担任角色不同,设置相应的工作内容,对生产在线应用系统出现的异常事件进行及时有效处理,确保异常事件得以全程跟踪,事件进展信息得以及时通报,最大程度降低异常事件对外部客户造成的影响。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈