关于银行数据中心系统灾备技术的探讨
摘要:随着近年来数据中心的建设和发展,越来越多的行业加强了对灾难备份技术的研究。
本文针对银行数据中心可能面临的主要灾难情况,提出数据备份、恢复的方案,探讨灾备的实现技术,从而保障银行业务正常、持续、安全地运行。
关键词:灾难备份;数据恢复;数据中心
中图分类号:tp309
目前金融界、银行业对云计算、物联网、互联网这类信息技术应用程度较高的行业在谋求信息系统发展以促进业务拓展的同时,越来越重视信息系统的业务持续性、可用性和安全性。
数据集中的业务操作模式在大规模处理数据的同时,还存在着无法预料的操作风险和灾难风险。
只有建设完善的灾难备份系统,采取积极的预防灾难措施,预先制定灾后的恢复计划和方案,勤加实练,才能够保证信息系统在遇到灾难时,可以及时恢复正常运转,最大程度地降低灾难造成的损失。
银行业的信息系统安全直接关系到国家社会经济的稳定。
而目前银行业配套的应急体系和灾备中心的建设还是比较滞后的,银行数据中心应加强对信息安全事件应急处理能力、做好灾备工作,这已成为银行业信息科技工作的重要任务之一。
1 灾备指标与建设模式
1.1 灾备指标
网络恢复目标、恢复点目标和恢复时间目标为容灾指标,容灾恢复的时间是指灾难发生导致业务中断开始,到能够继续运行业务的
时间,一般,it层面的容灾能力用rto指标进行评价。
恢复点是指宕机后的业务数据恢复时间,在业务恢复后,业务状态可以恢复到灾难发生前所进行的相同工作。
业务恢复之后,不需要进行任何额外的处理,可以继续灾难发生前的相同工作。
rpo为灾难导致的数据丢失,rpo为0时,说明没有丢失数据。
现在的银行业务越来越离不开网络,如果网络没有恢复正常,即使恢复了数据和处理主机也不能对外提供服务。
所以,nro不能大于rto,nro是网络恢复的时间。
灾备中心的建设包括同城灾备中心、异地灾备中心和两地三中心三种模式。
数据中心灾备的模式以实现生产系统的安全运营和持续可用为目标,以业务连续性为重点,将数据容灾作为核心内容。
1.2 灾备模式
异地灾备中心一般在200公里以上,常在与生产中心处于不同地域的城市中建立。
生产中心与异地灾备中心之间一般会进行异步数据复制,因为,两个中心间的距离较远,在进行生产环境与异地灾备中心同步复制数据时,很可能会给系统性能带来严重的影响。
对于异地灾备中心的区域性灾难,恢复业务的时间也较长,在进行异地灾备中心的数据恢复时,会有一定量的数据丢失。
这种灾备中心模式实现了同城灾备中心数据的零丢失,它可以高效迅速地在同城灾备中心持续完成业务,并且通过最近的同城灾备中心能够抵御百分之八十的区域性灾难。
要想实现数据零丢失,应在同城灾备中心进行同步数据复制。
由于中心的工作方式为应用集群,而同城灾备中心又采用活动备援站点的方式进行建设,当区域性灾难发生时,
切换至同城灾备中心不仅能实现应用的无缝切换,还不会造成数据的丢失。
如发生像地震这样的大范围自然灾害时,生产中心与同城灾备中心都不能用,可通过切换到异地灾备中心来最大程度地减小损失,恢复生产系统运行。
虽然这样的方式会丢失少量数据,但是可以通过灾备技术来进行计划恢复,恢复业务系统的工作可在异地灾备中心进行。
同城灾备中心的两个中心距离在二十公里以上,生产中心和灾备中心建立在同一城市。
同城灾备中心与生产中心的距离越远抵御区域性灾难的效果就越好,但对灾难恢复目标或生产系统的性能产生的影响也越大。
它保留了生产环境的同步数据。
同城灾备中心具备能够抵御百分之八十的灾难事件的能力,它的特点是快速响应、高等级、高效率重续运行。
对于三种模式而言,两地三中心的灾备模式结合了异地灾备中心模式和同城灾备中心模式的优点,在遭遇较大范围的自然灾害和区域性灾害时,两地三中心灾备模式能够保证业务的连续性,提高数据的冗余。
银行数据中心系统灾备方案:通过时间的敏感性和对业务的影响力将灾难需求等级划分为一到三个级别,以rto和rpo体现出:灾难需求等级不同,最低恢复的要求也不同。
灾难恢复需求等级越高,对rpo和rto的要求也越高,体现了rto、rpo与灾难恢复能力等级的关系。
2 灾备系统与银行灾备方案
方案1以两地三中心方案为基础,在生产中心安置两台存储。
一台存储为生产系统提供服务,并以基于存储的复制方式同步复制到
另一台存储上。
两台存储,分别放置在不同的生产机房,能降低单机房内偶发风险,利用存储复制技术,将数据从生产中心异步复制到异地灾备中心。
方案2也是在两地三中心方案的基础上,在生产中心安置两套存储,同时,通过卷组镜像访问存储,在同城灾备中心同步复制生产中心的数据;通过异步复制技术,在异地灾备中心异步增量复制生产中心的数据。
异地灾备中心、同城灾备中心、生产中心以1:1:2的比例配置存储设备。
银行数据中心信息系统要全年不间断地处理大量生产数据并保
障业务连续性,这就需要加强系统抗冲击和抗风险能力,这也考验了信息系统的连续性和稳定性。
为了提高系统数据库和中间件的高可用性,特提出基于数据库和中间件集群的灾备方案如图1所示:方案适合在集群单边lpar宕机,且共享磁盘整列可以正常运行的情况下,数据库与中间的lpar独立搭建,中间件和数据库分别采用了集群的方式。
2台lpar运行时,集群对系统服务起到负载平衡的作用,而集群中某一个lpar宕机时,另外一个lpar也可独立工作,此时对生产系统前端及应用不会产生影响。
而由于系统管理员的经验缺乏或疏忽,可能造成数据库、系统中间件或应用程序的破坏,为避免发生这种情况,使系统在最短时间里恢复正常,一方面要备份中间件及应用,另一方面要加强管理系统用户权限。
为提高操作系统的安全性和可靠性,系统的日常灾备和恢复方案尤为重要。
当系统无法正常启动,操作系统数据受到破坏时,要通过系统
备份来恢复系统。
而遭遇大灾难时,就需要立即切换灾备系统,灾备系统也可通过生产系统的系统备份数据来实现系统同步。
应定期对银行数据中心操作系统进行磁盘备份,因为操作系统关系到生产应用系统业务操作能否正常运行。
例如在节假日前后,进行操作系统和应用系统的磁盘备份、维护生产数据是非常必要的。
针对银行数据中心极端情况下的自然灾难,提出数据备份恢复方案:系统的日常灾备与恢复,当发生大灾难时,需要立即切换灾备系统,以防止系统遭到毁灭性的破坏,通过生产系统的系统备份数据,实现灾备系统同步,数据的同步也可通过同步或异步的方式来完成。
切换系统步骤具体为:①将hds远程拷贝断开;②采用远程hmc登录灾备系统环境;③在lparb上varyonvg;④启动ha,对concurrentvg_vg的状态进行检查;⑤启动数据库,在两节点执行crsctl start crs;⑥对数据库运行状态进行检查;⑦验证数据一致性;⑧切换网络,启动灾备环境接管原生产环境。
在信息化社会背景下,各金融企业越来越重视灾难备份技术及应用。
该如何建立基于日益业务增长需求的容灾备份系统已成为必须要解决的问题。
本文提供的灾备方案针对单点故障和自然灾难情况下能够实现数据的实时备份和恢复,有效保证银行数据中心信息系统的安全稳定运行。
参考文献:
[1]宿培成.金融行业基于数据库的灾备技术[j].计算机光盘软件与应用,2010(9).
[2]高旭磊.技术创新——数据中心灾备策略[j].金融科技时代,2012(6).
[3]高曙东.银行业灾备体系建设面临的挑战及对策——访国家开发银行信息科技局局长洪正华[j].中国金融电脑,2012(9).
[4]闫石,吕昱,牛梦帆.基于hp主机平台加emc/eva存储的银行业务系统灾备实现[j].中国金融电脑,2011(6).
作者简介:张殿奎,山东济南人,计算机科学与技术专业,主机系统管理方向,助理工程师。
作者单位:山东省农村信用社联合社,济南 250001。