金融行业”两地三中心”数据备份与恢复方案设计
1.”两地三中心”设计背景
1.1.行业背景
中国有句俗话, ”人无远虑, 必有近忧”。
伴随信息化的不断深入, 银行越来越依赖信息系统, 在信息化给社会和银行带来巨大好处的同时, 这也使得银行的组织更易遭受攻击, 从而造成业务系统的中断、数据丢失等。
近年来, 越来越多的银行发现, 她们的IT系统意外地、不必要地中断——即便是临时性的, 也会使银行业务活动立即中断, 无法继续开展, 数据的丢失或访问中断, 不但影响了系统运行, 还给银行造成重大损失。
1.2.业务持续性需求
银行的服务日益全球化, 经济的增长和国民财富的急剧增长, 客户的需求日益多样化和复杂化, 对银行的服务质量的期望值越来越高, 使银行保持业务连续状态成为当务之急。
所谓业务连续, 就是无论发生任何情况, 关键系统和网络都持续可用。
传统意义上的备份和恢复计划无法继续满足需要。
当今的预防措施应该包括风险评估、中断影响分析以及避免中断策略, 必须将这些因素充分考虑进综合业务持续性计划。
在信息时代, 业务持续性不再是一项”可有可无”的工作, 而是”势在必行”的重点规划。
1.3.”两地三中心”业务保障
影响业务持续性发展的因素很多, 既有外部因素, 如电力、通讯等; 也有内部因素, 如场地、人员、决策、 IT技术等。
但从系统的观念看, 能够说当前影响银行业务持续发展的最直接的威胁来自于信息系统的安全。
健全业务持续性风险的预防策略和措施, 需要以下几点基于业务的需求:
a)实施数据集中保护。
随着数据日益成为银行的生命线, 支持业务持续性的数据存储策略成为银行必须考虑的重点。
它的优势在于, 总体存储的方式可使银行降低购置和维护的成本, 最大限度地减少管理多个独立业务系统的复杂性, 提高银行数据的整体安全性。
同时, 存储容量也可得以优化, 减少利用率偏低的现象。
b)采用冗余、集群、负载均衡能力等技术, 消除单点故障, 提高系统的高可用性, 提高系统性能影响。
建立信息系统安全业务持续性保障体系, 针对灾难性事件的预防目标, 建议总、分行层面考虑建立异地容灾环境, 建立异地备份机房, 配备核心业务需要的基础设施、网络设备、通讯线路和计算机设备; 建立数据服务器区, 实现全行经营数据的集中保存。
构建生产中心、同城灾备中心、异地灾备中心的”两地三个中心”灾备体系。
2.”两地三中心”灾难恢复系统布局
2.1.布局原则
a) 灾难备份中心设置在中华人民共和国境内;
b) 灾难备份中心与生产中心之间距离合理, 应避免灾难备份中心与生产中心同时遭受同类风险;
c) 灾难备份中心的选址应服从国家战略安全要求, 并综合考虑生产中心与灾难备份中心交通和电讯的便利性与多样性, 以及灾难备份中心当地的业务与技术支持能力、电讯资源、地理地质环境、公共资源与服务配套能力等外部支持条件。
2.2.布局模式
根据成本风险平衡原则以及运行管理要求, 采用”一主双备”布局模式, 即一个生产中心, 两个个备份中心, 其中一个同城备份、一个异地备份。
对于同城数据备份中心, 应与生产中心直线距离至少达到30公里, 能够接管所有核心业务的运行; 对于异地数据备份中心, 应与生产中心直线距离至少达到100公里。
3.”两地三中心”灾难恢复系统设计
3.1.”两地三中心”框架设计
结合近年国内出现的大范围自然灾害, 以同城双中心加异地灾备中心的”两地三中心”的灾备模式兼具高可用性和灾难备份的能力。
同城双中心是指在同城或邻近城市建立两个可独立承担关键系统运行的数据中心, 双中心具备基本等同的业务处理能力并经过高速链路实时同步数据, 日常情况下可同时分担业务及管理系统的运行, 并可切换运行; 灾难情况下可在基本不丢失数据的情况下进行灾备应急切换, 保持业务连续运行。
与异地灾备模式相比较, 同城双中心具有投资成本低、建设速度快、运维管理相对简单、可靠性更高等优点。
异地灾备中心是指在异地的城市建立一个备份的灾备中心, 用于双中心的数据备份, 当双中心出现自然灾害等原因而发生故障时, 异地灾备中心能够用备份数据进行业务的恢复。
两地三中心”的灾备模式框架图如下图所示:
如图, 同城双中心的应用切换, 采用集群软件来实现, 生产中心主机和灾备中心主机上都需要进行集群。
采用集群监测本地双机或集群状态, 并经过组件在本地和远程的集群之间进行状态监
测。
在网络层, 同城双中心之间采用光纤连接, 保证双中心之间较大的带宽, 以响应实时的业务数据需求, 同城异地之间采用专网或IP广域网即可实现, 以节约成本。
同城双中心的光纤采用波分复用( WDM) 技术进行建设, 针对两地只有1条或2条光纤连接的场景, 采用WDM方式, 能够虚拟出多条FC或GE联络, 满足两地之间对业务和数据多重链路的需求。
WDM技术能充分利用光纤的巨大带宽资源, 大幅度提高系统传输容量, 降低传输成本, 因此在长途和骨干网的超大容量传输中得到了广泛的应用。
将WDM技术引入城域网、接入网, 整个网络就会变成无缝连接的整体, 为所有不同的业务提供支持和连接, 因此城域网中WDM具有很大优越性。
在数据存储层, 部署虚拟存磁盘阵列, 经过存储的同步远程复制功能将数据同步复制到灾备站点。
确保生产中心和灾备中心的数据完全一致。
使用存储的异步复制功能, 将数据经过广域网复制到远端的灾备站点, 而且保证数据的完整性和可用性。
远端站点的作用主要是用来防止地理和自然灾难, 当同城的双中心全部故障后, 能够确保在异地有一份完整的数据拷贝, 用于后续业务的恢复。
3.2.灾难恢复能力等级需求
3.2.1.国家标准要求灾难备份级别
根据国家标准《信息系统灾难恢复规范》(GB/T 20988- )的定
义: 灾难是指由于人为或自然的原因, 造成信息系统严重故障或瘫痪, 使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。
灾难备份是指为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程; 而灾难恢复是指为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态, 而设计的活动和流程。
灾备系统的建设包含七要素: 数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、专业技术支持能力、运行维护管理能力、灾难恢复预案。
《信息系统灾难恢复规范》将灾难恢复能力划分为6级, 灾难恢复能力等级越高, 对信息系统的保护效果越好, 但同时成本也会迅速上升。
灾备等级主要从RTO(恢复时间目标)和RPO(恢复点目标)来考虑, RPO(恢复点目标)是指发生灾难前最后一次备份的时间点距离当前时间差(数据丢失时间); RTO(时间恢复目标)是指发生灾难后恢复物理系统环境的时间。
大部分的用户关注的是数据安全性, 即RPO值(RPO越小, 数据丢失越少), 可是用户往往谈的更多的是RTO(RTO越小, 恢复生产越快)。
3.2.2.金融行业标准要求灾难恢复级别
金融行业标准《银行业信息系统灾难恢复管理规范》(JR/T。