容灾系统规划包括容灾系统架构、容灾方案设计、容灾预案与运维制度、容灾中心建设设备等几大部分。
6.4.8.1 容灾系统架构
大连市水务容灾备份系统整体架构如图6.23所示,包括本地数据备份系统、生产系统与同城灾备系统和异地数据级灾备系统。
图6.23 大连市智慧水务容灾备份系统整体架构
1.本地数据备份系统
大连市水务数据中心配置本地数据备份策略,实现周期性的数据备份。由于采用了数据同步复制且同城中心数据可读,建议在同城灾备中心也配置相应的备份软件与磁带库,并配置备份策略按计划执行备份。
2.生产系统与同城灾备系统
建议生产系统与同城灾备系统按照近期和远期的规划水平年分两期进行。
近期规划水平年完成两部分内容:第一部分完成同城数据级灾备,放在大连市统一建设的灾备中心。第二部分在应用级灾备网络切换条件具备的前提下建设应用级灾备系统,实现建设双活数据中心。
3.异地数据级灾备系统
远期规划水平年进行异地数据级灾备系统的建设,通过数据库复制技术,建设生产核心业务数据在异地的数据级灾备中心。
6.4.8.2 容灾方案设计
容灾方案设计包括灾备系统数据库主机处理性能设计和灾备系统存储设计。
1.灾备系统数据库主机处理性能设计
灾备系统数据库主机处理性能设计包括本地数据备份的主机处理性能设计、同城灾备的主机处理性能设计以及异地灾备中心的主机处理性能设计。
(1)本地数据备份的主机处理性能设计。本地数据备份主要采用备份软件、磁带库、虚拟磁带库等进行,大连市水务数据中心需对生产核心数据进行备份,按照数据中心建设方案统一规划,辽宁省数据中心需新增或升级现有备份系统,从而满足新系统业务运行性能及容灾备份建设需求。
(2)同城灾备的主机处理性能设计。生产中心与同城灾备中心之间为同城灾备,根据灾备通信链路质量(同城裸光纤)、业务重要程度等因素考虑,同城灾备的建设是分阶段进行的,大连市水务灾备系统建议分为两期进行建设。水务数据库按照每期建设目标处理能力规划如下。
第一期:实现关键业务的数据级同城灾备。因为本期的建设是以虚拟存储镜像技术进行构建,为此在核心存储上的业务数据均可以实现同城的数据级灾备。需要配置1台小型机用于灾备数据的验证,确保灾备数据的可用性和可恢复性。
第二期:同城应用级灾备。在应用级灾备网络条件具备的前提下实现关键业务应用级灾备,其他业务系统则实现数据级灾备。同城应用级灾备的数据库服务器处理性能达到数据中心处理能力的50%;应用服务器采用云数据中心进行建设,除个别应用需要用到外接I/O插槽采用物理主机外,其余采用云数据中心的虚拟化来实现。应用服务器峰值处理能力为生产中心处理能力的50%。
(3)异地灾备中心的主机处理性能设计。根据Oracle的厂商意见,异地集中灾备采用OracleGoldenGate进行数据复制容灾时,目的端需要的处理性能至少为源端的5%。
容灾系统应用层设计如图6.24所示。
大连市水务建设项目各核心业务系统采用分层架构部署,中间件应用层的设置将极大地提升核心业务系统的处理性能和业务扩展能力,可以采用计算资源动态架构部署各业务系统的应用层资源,而且根据应用层特点,随着业务系统的使用,业务访问量的增加带来了应用层负载的增加,为了支撑更多的应用层负载,相应地增加应用层节点数量,也可在应用层配置集群架构以支持更多的负载和提升应用层性能。
图6.24 容灾系统应用层设计图
灾备中心的应用层设计将根据灾备的建设等级和规模进行相应的设计。同城灾备系统的第一期建设为数据级灾备,为此不涉及应用层的设计;第二期建设的应用级灾备系统中,如果应用级网络条件已经按时完成,除个别应用和管理需要物理服务器建设以外,其他核心业务的应用服务器全部采用虚拟化进行建设,构建云数据中心环境。
2.灾备系统存储设计
大连市水务项目建设中的业务系统在线事务交易类型的数据,以及业务数据库的访问频率较高,每一笔业务经办处理都需要访问在线数据库,所以对存储系统的I/O吞吐性能要求较高,存在业务峰值时数据中心内多台数据库服务器同时访问存储系统而造成系统性能瓶颈。因此,生产中心存储系统按照数据类型和业务响应性能而分为生产核心存储、其他业务存储、存储虚拟化服务器文件的虚拟化存储,并且适当采用双冗余磁盘阵列、快照等技术提高数据安全性和存储I/O吞吐性能。
6.4.8.3 容灾预案与运维制度
1.容灾预案
灾难恢复预案主要针对大连市水务建设的各核心业务系统在灾难发生时的应急恢复过程、流程和组织。灾难恢复预案是为了规范灾难恢复流程,使得灾难发生后能够快速地恢复业务处理系统运行和业务运作;同时可以依据灾难恢复预案对灾难备份中心的恢复能力进行测试和演练。(www.xing528.com)
制订灾难恢复预案的目的是当有重大灾害及突发状况威胁到核心业务系统的正常运行时,可以有效地让系统既需运行,确保各类业务的正常运行。
灾难恢复预案适用的范围是天灾和人为灾害。其中,天灾包括水灾、火灾、地震、停电等;人为灾害包括计算机病毒威胁、黑客攻击、阻绝服务攻击和其他许多不同形式的入侵导致信息系统中断或故障。
灾难恢复预案内容主要包括以下几方面。
(1)灾难恢复组织机构。
(2)灾难恢复目标、范围。
(3)恢复队伍人员与职责、联络清单等。
(4)对外联系与沟通计划。
(5)灾难演练与维护规程。
(6)IT系统的灾难恢复流程。
(7)业务系统的灾难恢复流程。
(8)灾难回退流程。
业务系统要做出灾难恢复预案,并进行日常维护、定期测试和演习以及审核,以保持其持续可用。
2.运维制度
运维制度包括以下内容。
(1)灾备系统运维制度。为确保大连市水务建设各业务系统的运维工作正常、有序地进行,需要对运行维护的管理流程和内容制定相应制度,实现运维工作的规范化管理。运行维护管理制度可分为网络管理制度、系统和应用管理制度、安全管理制度、存储备份管理制度、故障管理制度、技术支持工具管理制度、人员管理制度和质量考核制度等。
(2)网络管理制度。包括网络准入管理制度、网络配置管理制度、网络运行/监控管理制度等。
(3)系统和应用管理制度。包括对主机、数据库、中间件、应用系统的配置管理制度、运行/监控管理制度、数据管理制度等。
(4)安全管理制度。包括网络、主机、数据库、中间件、应用软件、数据的安全管理制度及安全事故应急处理制度。
(5)存储备份管理制度。包括备份数据的管理制度和备份设备的管理制度。
(6)故障管理制度。包括对故障处理过程的管理制度、故障处理流程的变更管理制度、故障信息利用的管理制度及重大故障的应急管理制度等。
(7)技术支持工具管理制度。包括对日常运行维护平台、问题受理平台、故障处理和问题跟踪系统、运行维护知识库、决策分析系统等的运维相关制度。
(8)人员管理制度。包括对运行维护人员的职级管理制度、奖惩制度、考核制度、人力资源使用的管理制度等。
6.4.8.4 容灾中心建设设备
生产环境与灾备环境通过高速网络进行连接,采用数据库复制软件进行数据复制以保证生产环境与灾备环境数据库实时同步。在生产环境与灾备环境中的应用服务器上部署一致的应用程序,从而实现应用级容灾要求。当生产环境遭遇灾害、瘫痪后,可以通过手工更改访问IP的方式或者智能DNS重定向的方式将访问定向到容灾中心去,可以满足包括银行联网在内的主要业务处理。
灾备中心的硬件平台,原则是如果需要灾备中心和生产中心同样的性能,就采用同样的硬件配置和数量,如果只需要灾备中心满足关键和紧急业务的处理需要和达到部分性能指标,可降低服务器配置和减少服务器数量,来节约投资成本。建议灾备中心的软硬件平台满足关键和紧急业务的处理需要和达到大部分性能指标,考虑到各类接口实现方式的复杂性和接入系统的差异性,本书方案中未包含其他接口服务器的具体数量,今后在技术方案确定后可以根据需要动态加入。客户服务信息系统灾备中心硬件的构成见表6.34。
表6.34 灾备中心硬件构成
续表
主机和网络处理能力与生产中心相当,可直接参考生产中心相关设备的性能估算及配置。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。