当前位置:文档之家› 灾备-综述

灾备-综述


灾备技术的历史

-衍生
容错计算 容错是指在存在故障的情况下,计算机系统不失效,
仍然能够提供系统服务的特性 容错技术在计算机系统中的应用可以追溯到第一台计算 机系统ENIAC
• 由于ENIAC采用了18800个真空管,而受工艺限制、硬件的 故障率是平均每15分钟就会烧掉一个真空管,因此,该系 统中大量的采用了基于冗余的容错技术来保证系统的可用 性 • 因此,如果没有容错技术,也就不会有了第一台成功的现 代的电子计算机

--信息系统后果
数据灾难:灾难造成数据不能正常使用
–数据失真:数据内容发生错误
–数据部分丧失:部分数据不能使用
–数据完全被毁:整个数据系统无法继续使用

系统灾难:运行的信息系统无法继续使用
–系统失灵:系统仍运行、但行为错误
–系统瘫痪:系统完全停止工作 –系统恶变:系统仍运行,运行结果随机甚至完全相反
11
2014年3月11日8时53分
NEL-DBR
需要灾备

--原因2
人为灾难发生机率大、危害具有潜伏性和突变性、表现形式多种 多样 人为灾难 人为灾难造成的直接后果包括丢失或泄漏重要数据信息 、性 能降低乃至丧失系统服务功能 、软件系统崩溃或者硬件设 –偶然故障(人为失误、非授权操作等)
备损坏 –Byzantine故障(恶意操作、病毒入侵等)
信息系统灾难就在我们身边 并非遥不可及!
10
2014年3月11日8时53分
NEL-DBR
需要灾备
--原因1
-自然灾难会造成灾难区域被完全孤立隔离、信息设备损毁严重、 自然灾难 人员伤亡严重。 -自然灾难所产生的直接后果就是 本地数据信息难以获取或保 -天灾 全、本地系统难以在短时间内恢复或重建、灾难对信息系 -人祸 统的影响和范围难以控制。 -自然灾难虽然很可怕,但是据统计仅占灾难3%。
4
NEL-DBR
需要灾备
--案例1
911事件发生中,世贸中心1200家企业的信息化系统 (其中不乏摩根士丹利这样的巨型跨国公司的信息中心) 全部损毁,本地数据全部丢失。
5
2014年3月11日8时53分
NEL-DBR
需要灾备
--案例2
2002年7月23日,北京首都国际机场离港系统出现故 障停机1小时,60个航班和约6000名旅客被延迟。
2014年3月11日8时53分
NEL-DBR
需要灾备
--案例5
2011年日本强烈地震引发的海啸,并造成了核电站泄漏。 已确认造成15773名丧生,并且福岛等三县居民半数人 核辐射水平超标。并且核辐射遍布全球。
9
2014年3月11日8时53分
NEL-DBR
需要灾备
据统计(2007年),在过去的10年中,全球每年受到各 种各样自然灾难(包括地震、水灾、龙卷风等)的影响 的人数大约是2.5亿。
2014-3-11
35
NEL-DBR
灾备技术的历史
-衍生
2014-3-11
计算机系统故障分类
36
NEL-DBR
灾备技术的历史

-衍生
信息系统周围潜伏了无数的灾
难,随时会损坏甚至摧毁信息
系统!
15
2014-3-11
NEL-DBR
需要容灾

--整体表现
有形资产灾难
–硬件系统的损毁
–软件系统的崩溃
–企业生产的中断

无形资产灾难
–数据信息的丢失
–系统服务的中止 –企业信誉的受损
2014年3月11日8时53分
16
NEL-DBR
需要容灾
6
2014年3月11日8时53分
NEL-DBR
需要灾备
--案例3
2003年8月,美国、加拿大多个城市均发生停电事故,这 次美国历史上最大的停电事故所造成的经济损失每天可 能多达300亿美元。7ຫໍສະໝຸດ 2014年3月11日8时53分
NEL-DBR
需要灾备
--案例4
2008年初,罕见冰雪灾害给中国电网造成了有史以来最严重 的破坏:全国范围电网停运的电力线路共36740条、变电站共 2016座、110-500千伏线路因冰塔倾倒8381基。这次冰灾不 仅给国民经济造成了巨大的损失,达1510亿元,而且给社会 造成了极大的紊乱,如交通出行、居民的生活等。 8
相距10~200km内 可抵御火灾、停电、建筑物倒塌等局部性灾难 相距200km以外 可抵御地震、洪水、海啸等大范围灾难

近距离容灾


跨地域远距离容灾

NEL-DBR
容灾
按容灾系统的应用分类 数据级容灾

--分类
数据同步或异步复制到容灾中心 投资少VS业务恢复时间长
保证业务数据、系统数据、网络通信系统 业务恢复时间短 保护整个业务流程 实现技术要求高,难度大,投资多
国际上一直对容错计算比较重视:容错专委也是IEEE和
ACM协会中具有最老资格专业技术委员会之一
34
2014-3-11
NEL-DBR
灾备技术的历史

-衍生

容错技术是提高系统可靠性的有效手段,通过自动 监测、自动甄别-隔离-排除等技术手段,保证系统 完成预期的目标。一般来说,整个过程不需要用户 干预,对用户透明 除功能子系统外,容错系统通常还包括 –故障检测子系统 –备份子系统 –系统恢复与重构子系统



Gartner(著名IT咨询服务提供商)数据表明,40%企业不能 在灾难发生后恢复运营,剩下60%中有33%在两年内倒闭
18
2014-3-11
NEL-DBR
需要灾备
业务
--后果
每小时停机损失
证券经济类
645万美元
信用卡销售授权
260万美元 9万美元
航班预售
ATM服务 ……
1.5万美元 ……
突发事件造成的行业服务损失情况 数据来源:Strategic Research Corporation
从严格意义上说,灾备应该称为灾难备份与恢复 (disaster backup and recovery) –灾难前的备份
不仅仅是数据信息的备份和日志,更重要的还包括信息系统 构建过程中容灾体系结构的设计、提前制定的灾难应急预案 与恢复计划等
–灾难后的恢复
应急服务系统或者备份系统的业务接管、 数据/系统/服务迁移过程中的安全管理、 系统灾难损失评估等
灾备技术
姚文斌
灾备技术国家工程实验室 北京邮电大学计算机学院
National Engineering Laboratory for Disaster Backup and Recovery, Beijing University of Posts and Telecommunications
2014年3月11日8时53分
灾备
--体系结构
在信息领域,灾备系统可以理解为是以存 储系统作为基本支撑系统、以网络作为 基本传输手段、以容错软硬件技术为 直接技术手段、以管理技术为重要辅助 手段的综合系统。
灾备系统结构简图
2014-3-11 28
NEL-DBR
容灾
--分类
按生产中心和容灾中心的距离分类 本地容灾

生产中心与容灾中心在同一建筑物内 可抵御软件故障、硬件故障等本地灾难
2014-3-11 23
NEL-DBR
相关概念



生产中心:正常情况下,企业信息系统运行所在地(包 括运行所需的机房、存储设备、网络设备、主机设备、 软件等) 容灾中心:为了减少灾难给企业造成的损失而建设的一 套生产中心的同级克隆或降级克隆,在灾难发生后,接 管生产中心的业务,保证业务的连续性 容灾外包:指单位选择外部专业技术与服务资源替代内 部资源来承担容灾系统的规划、建设、运营、管理和维 护

系统级容灾


应用级容灾

NEL-DBR
灾备
--性能指标



恢复时间目标RTO(Recovery Time Object) 恢复点目标 RPO(Recovery Point Object) 该指标是容灾恢复的时间指标: -其含义从广义上来说,是从灾难发生造成业务中 恢复点:宕机后数据开始恢复的时间点。 降级操作目标 DOO(Degraded Operations Object) 断,直到使业务能够得以继续所需要的时间。 恢复点指标 RPO:指当灾难发生后,系统和数据必 宕机恢复后到第二次故障或灾难的时间 网络恢复目标 NRO(Network Recovery Object) -通常RTO越短意味着容灾能力越高。 须恢复到的时间点要求。 网络恢复的时间
1
NEL-DBR
主要内容

引言 灾备基础 灾备应用举例 系统灾备的一点思考
2014年3月11日8时53分
2
NEL-DBR
引言

为什么需要灾备?

什么是信息系统灾备?
2014年3月11日8时53分
3
NEL-DBR
需要灾备

信息系统灾难案例 信息系统灾难原因 信息系统灾难后果
2014年3月11日8时53分
2014-3-11
21
NEL-DBR
灾备

--概念

灾难备份,简称灾备,就是指利用技术、管理 手段以及相关资源确保关键数据、关键数据处 理系统和关键业务在灾难发生后可以恢复的过 程 灾备的目的就是确保关键业务持续运行以及减 少非计划宕机时间
2014-3-11
22
NEL-DBR
灾备

--概念
广义灾备
17
2014-3-11
NEL-DBR
相关主题