当前位置:
文档之家› 灾难恢复管理解决方案v1.1
灾难恢复管理解决方案v1.1
Aux Copy
CS
•
辅助拷贝
辅助拷贝
备份域A的
MA MA实例
DASH Copy
备份拷贝A2
重删拷贝
备份域B的
MA
MA实例 DASH Copy
备份拷贝B2 重删拷贝
备份域c的
•
MA MA实例 DASH Copy
重删拷贝
备份拷贝C2
部署1台物理服务器,通过安装MA多实例与 多个备份域相连,单台MA服务器最多支持8 个MA实例 各个备份域通过DASH Copy将数据传输到 GRC的MA服务器上 各个备份域上传备份数据的索引信息导入到 GRC的CommSeve上 各个备份域上传的备份数据可通过Aux Copy 进行多份拷贝、磁带出库等 各个备份域上传的备份数据可以在GRC内进 行数据浏览、恢复等功能
数据保留时间
自然灾害 硬件失效 人工出错 软件失效 病毒
能容忍丢失多少数据?
要多久才能恢复
RAID YES
没丢失 实时
能恢复多长时间内丢失的数据 不能
复制 YES YES
快照
YES YES YES YES
秒、分钟、小时 小时
分钟、小时
分钟
不能
几小时 几天
备份 YES YES YES YES YES
天
9
保险业信息系统分类标准与灾难恢复等级要求
• 信息系统分类标准
• 第一类:信息系统短时间中断会造成重大社会影响;或影响保险机构关键业务功能,并造成重大经济损失。 • 第二类:信息系统短时间中断会造成较大社会影响;或影响保险机构部分关键业务功能,并造成较大经济损
失。 • 第三类:信息系统间接支持关键业务功能;或保险机构对系统中断具有一定容忍度的系统。
• 灾难应对能力
• 指在发生火灾等情况下,导致信息系统所在的数据中心不可用时,确保信息系统及时恢复和继续运作的能力, 此类情况下,通常需要切换到灾难备份中心运行
• 重大灾难应对能力
• 指在发生地震等情况下,导致信息系统所在城市或者地区电力、通信、交通严重瘫痪或人员伤亡时,确保信 息系统及时恢复和继续运作的能力,此类情况下,通常需要切换到异地灾难备份中心运行
包括介质异地存放,定期恢复验证等 • 不同级别的业务系统数据备份频率可以不一样,但备份介质必须要场外存放
14
Commvault的应对解决方案、特点及竞争分析
15
Commvault的应对解决方案
备份数据 多中心保留
多备份域 单备份域
GRC DASH Copy
磁带出库/自动化 恢复验证
磁带出库/自动化 恢复验证
• 灾难恢复等级要求
• 第一类:RTO<=36小时,RPO<=8小时;第4级电子传输及完整设备支持 • 第二类:RTO<=72小时,RPO<=24小时;第3级电子传输和部分设备支持 • 第三类:RTO<=7天,RPO<=36小时;第2级备用场地支持
来源:《保险业信息系统灾难恢复管理指引》(保监发(2008)20号)
目 标 RTO 小 于 7 天 ;
信息系统恢复点目
标 RPO 小 于 12 小
时;
备份系统具有满足
业务需求的处理能
力。
13
总结
• 没有任何一种技术手段可以满足用户的所有灾难恢复需求 • 不是一个数据中心的所有系统都要采用同一种灾难恢复的级别 • 不同级别的业务系统对RTO/RPO的要求是不同的 • 数据备份是灾难恢复最有效的手段,无论是国家标准,还是行业标准,都要求必须进行数据备份,
8
银行业灾难恢复要求
• 适用范围
• 在中华人民共和国境内设立的国有商业银行、股份制商业银行、邮政储蓄银行、城市商业银行、省级农村信 用联合社、外商独资银行、中外合资银行适用本指引。中国银行业监督管理委员会(以下简称中国银监会) 监管的其他金融机构参照本指引执行。
• 灾难恢复要求
• 商业银行应于取得金融许可证后两年内,设立生产中心;生产中心设立后两年内,设立灾备中心。 • 总资产规模一千亿元人民币以上且跨省设立分支机构的法人商业银行,及省级农村信用联合社应设立异地模
需要很高的RPO • 根据业务系统的连续性要求,选择合适的的灾
备级别 • 不同的灾备级别选择不同的技术手段来实现
7
灾难恢复能力等级划分
全备份 介质存放 数据复制
备用场地及存放
一级 每周
场外存放 无
满足介质存放
恢复时间 (RTO)
>2天
数据丢失 (RPO)
1-7天
二级 每周
场外存放 无
具有或调配部分设备
11
《证券期货经营机构系统备份能力标准》
等 级
1. 第 2. 一 级 3.
1.
第 2.
二 级
3.
1. 第 2. 三 级 3.
数据备份能力
至少每天备份数据一次;
备份介质应当在本地机房、同城及异地
安全可靠存放;
每季度至少对数据备份进行一次有效性
验证。
至少每天备份数据一次;
1.
备份介质应当在本地机房、同城及异地
10
《证券期货经营机构系统备份能力标准》
• 数据备份能力(界定的灾难范围最广)
• 指在发生人为破坏、软硬件故障、灾难灾害或突发公共安全事件等极端情况下,确保数据完整、可用的能力
• 故障应对能力
• 指在发生软硬件故障等情况下,导致信息系统所支持的业务功能停顿或者性能指标严重下降时,确保信息系 统及时恢复和继续运作的能力
Failure 出错时刻
Recovery Time Objective
BU
BU
Recover
数据保护时间轴
12 hrs 12 hrs 12 hrs 12 hrs
12 hrs 12 hrs
4
不同数据保护方法的优、缺点对比与分析
物理错误 (47%) 逻辑错误 (53%)
恢复点(RPO) 恢复时间(RTO)
灾难恢复管理解决方案
2016.03
灾难恢复的管理要求
什么是灾难?
• 灾难的涵义
• 自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等 • 业务运营所需的服务中断,如设备故障、软件错误、电信网络中断和电力故障等 • 人为的因素,如操作员错误、破坏、植入有害代码和恐怖袭击
• 灾难恢复的技术
• 应用恢复 • 网络恢复 • 数据恢复
3
什么是RTO与RPO?
• RTO (恢复时间目标) — 在业务中断后的某一个时间点,业务的进程或应用
服务必须恢复,确保业务正常进行(你能接受多长的宕机时间)
• RPO (恢复点目标) — 在已确定的RTO内,应用数据或文件系统信息必须恢
复到以前某一个时间点 (你能接受丢失多少数据)
Recovery Point Objective
告警、介质位置)
19
以下情形不建议使用GRC
• 临时性的CommCell迁移,建议使用CommCell Migration功能实现 • CommCell的DR功能,建议使用CommServe Recovery Using Witness Server方式实现 • 跨备份域的集中报告功能,建议使用Metrics Reporting Server实现
定时复制
Live Sync(VM)
数据复制
实时复制
CDR/Live Sync++ (VM)
16
备份数据多中心保留
GRC使用场景:集中管理多个备份域 •
MA
•
备份拷贝A3 备份拷贝B3 备份拷贝C3
CopyD1
1台物理服务器,安
•
装了4个MA实例
MA GRC的MA实例
Aux Copy 辅助拷贝
Aux Copy
安全可靠存放;
2.
每季度至少对数据备份进行一次有效性
验证。
3.
至少每天备份数据一次;
1.
备份介质应当在本地机房、同城及异地
安全可靠存放;
2.
每季度至少对数据备份进行一次有效性 3.
验证。
故障应对能力
灾难应对 能力
—
—
信息系统恢复时间目标RTO小于1小
时;
信息系统恢复点目标RPO 小于5分 钟;
—
备份系统具有满足业务需求的处理
• 缺点分析
• 不能将备份数据从复制域恢复到主备份域 • Master Server必须为7.1.0.4或7.5.0.3以上,7.1之前的版本不支持A.I.R技术 • 不支持合成全备份
21
Veritas NBU A.I.R(Auto Image Replication)技术
小时、天 几周 几月 几年
数据保护主要有5个目标:防止物理错误、防止逻辑错误、满足RPO及RTO、满足数据保留
的时间,没有一种单一的数据保护算法能同时完全满足这5个目标。因此一个完整的数据备份
系统应该是多种算法结合而构成,我们的数据保护方案就是采用了综合的解决方案。
5
不同数据保护方法与RPO/RTO之间的关系
RTO小于5分钟;非实时信息
系统恢复时间目标RTO小于1
小时;
2.
信息系统恢复点目标RPO小于
30秒;
3.
备份系统具有满足业务需求的
处理能力。
实时信息系统恢复时间目标 1.
RTO小于5分钟;非实时信息
系统恢复时间目标RTO小于1
小时;
2.
信息系统恢复点目标RPO小于
30秒;
3.
备份系统具有满足业务需求的
CS MA
备份拷贝A1
备份域A
CS MA
备份拷贝B1
备份域B
CS MA
备份拷贝C1