一、概述近几年来,容灾已经成为信息数据中心建设的热门课题。
很多容灾技术也快速发展起来,对用户来说也有很广阔的选择余地。
但由于容灾方案的技术复杂性和多样性,一般用户很难搞清其中的优劣以确定如何选择最适合自己状况的容灾解决方案。
本文我们就容灾建设中的备份及复制技术做一个初步探讨,希望能对客户的数据中心容灾建设提供一些参考。
目前有很多种容灾技术,分类也比较复杂。
但总体上可以区分为离线式容灾(冷容灾)和在线容灾(热容灾)两种类型。
二、离线式容灾所谓的离线式容灾主要依靠备份技术来实现。
其重要步骤是将数据通过备份系统备份到磁带上面,而后将磁带运送到异地保存管理。
离线式容灾具有实时性低、可备份多个副本、备份范围广、长期保存、投资较少等特点,由于是备份一般是压缩后存放到磁带的方式所以数据恢复较慢,而且备份窗口内的数据都会丢失,因此一般用于数据恢复的RTO(目标恢复时间)和RPO(目标恢复点)要求较低的容灾。
也有很多客户将离线式容灾和在线容灾结合起来增加系统容灾的完整性和安全性。
目前主流的备份软件主要有:l Symantec Veritas NetBackupl EMC Legato NetWorkerl IBM Tivoli Storage Managerl Quest BakBone NetVault三、在线容灾在线容灾要求生产中心和灾备中心同时工作,生产中心和灾备中心之间有传输链路连接。
数据自生产中心实时复制传送到灾备中心。
在此基础上,可以在应用层进行集群管理,当生产中心遭受灾难出现故障时可由灾备中心接管并继续提供服务。
因此实现在线容灾的关键是数据的复制。
和数据备份相比,数据复制技术具有实时性高、数据丢失少或零丢失、容灾恢复快、投资较高等特点。
根据数据复制的层次,数据复制技术的实现可以分为三种:存储系统层数据复制、操作系统数据复制和数据库数据复制。
1、存储系统层数据复制现在的存储设备经过多年的发展已经十分成熟。
特别是中高端产品,一般都具有先进的数据管理功能。
远程数据复制功能几乎是现有中高端产品的必备功能。
要实现数据的复制需要在生产中心和灾备中心都部署1套这样的存储系统,数据复制功能由存储系统实现。
如果距离比较近(几十公里之内)之间的链路可由两中心的存储交换机通过光纤直接连接,如果距离在100公里内也可通过增加DWDM等设备直接进行光纤连接,超过100公里的距离则可增加存储路由器进行协议转换途径WAN或INTERNET实现连接,因此从理论上可实现无限制连接。
存储系统层的数据复制技术对于主机的操作系统是完全透明的,是对于将来增加新的操作平台,可不用增加任何复制软件的投资,即可完成实现复制。
这样管理比较简单,最大程度保护了用户的投资,达到充分利用资源的目的。
基于存储的复制一般都是采ATM或光纤通道做为远端的链路连接,不仅可以做到异步复制,更可以做到同步复制,使两端数据可做到实时同步的目的,保证了数据的一致性。
缺点是由于基于存储是由存储硬件厂商提供的,在兼容性方面有局限性。
用户要使用同一厂商的devices,给用户造成的选择面太小,成本容易提高,并且对线路带宽的要求通常也较高。
对于预算充足,存储环境不是很复杂的企业来说,选择基于存储的技术比较适合。
存储系统层的数据复制基于同构的存储,各个存储厂商都有自己的复制软件,如IBM PPRC、EMC SRDF、HP Continues Access、HDS TrueCopy等,以下举例说明存储系统层的数据复制原理。
远程镜像(CA)介绍HP Continuous Access XP 通过向远地镜像复制数据来满足系统的高可用性和灾难恢复的需求。
它通过同步模式,将数据从一台XP磁盘阵列上拷贝到远端的另一台XP磁盘阵列上,从而实现容灾解决方案。
Continuous Access XP Extension 使Continuous Access XP能够以高性能的异步或同步方式进行远程XP磁盘阵列的拷贝。
根据标书中的要求,必须同时提供同步和异步的存储复制方式,CA完全满足。
CA是基于磁盘阵列的容灾方式。
其中,CA能够实现同步/异步、同城集群/洲际集群,以及Solaris、AIX、Windows各种OS集群扩展,还可以实现新XP到新XP、老XP到新XP 以及多中心容灾等功能,全面实现了可用性与可扩展性的结合。
CA同步加上CA异步,在本地和远程XP磁盘阵列之间实现高性能实时远程数据镜像,以及快速切换及回切,使用户能轻松管理,并实现高可用性。
CA同步方式的距离可以达到100公里,但是从性能的角度出发,一般都控制在50公里内。
可以建设同城容灾集群,消除计划宕机时间,降低非计划的宕机时间;异步方式的距离可以达到数千公里,可以集成远程数据镜像和异构服务器的集群,增强总体方式的可用性,在同城灾难发生的时候,保证连续运作。
其中,洲际集群没有距离的限制,对应用和数据完全透明,可实现全球范围的容灾方案。
同时,针对关键用户的特殊需求,CA可以实现多中心容灾解决方案,其中,同步容灾中心的距离可以达到50公里,异步中心可以在全球的任何一个地方,至少有三个中心有镜像的数据,而且三个中心之间可以实现远程容灾。
(1)CAXP磁盘卷组CAXP的磁盘卷组由不同的XP装置内或不同CLUSTER内命名为P-VOL和S-VOL的2个逻辑磁盘卷构成。
在具有CAXP磁盘卷组关系后:P-VOL被称为主磁盘卷。
P-VOL可被读/写。
S-VOL(远程磁盘卷)被称为副磁盘卷。
在XP内部的控制装置的作用下,P-VOL的内容和服务器来的写数据被拷贝到S-VOL(可采用同步或异步两种方式)。
CAXP卷组建立后,S-VOL为只读磁盘卷。
在一个XP里,既可有P-VOL,也可有S-VOL,这样可以实现双向数据境像。
CAXP的磁盘卷组,即P-VOL和S-VOL间,可以是相同的RAID类型,也可以是不同的RAID类型,具体的RAID级别配合表如下所示:CAXP的RAID级别(2)MCU和RCUMCU(主磁盘控制器)和RCU(远程磁盘控制器)分别和P-VOL,S-VOL相连,MCU控制由服务器来的写向P-VOL的数据的写操作,还控制P-VOL和S-VOL之间数据拷贝的操作,并且提供CAXP磁盘卷组的状态和构成的管理。
RCU执行由MCU发出的写命令操作。
写操作的执行方法和执行服务器来的写操作过程相同。
除此之外,RCU还具有管理一部分CAXP磁盘卷组的状态和构成信息的能力。
对于任何一个磁盘卷组,都需要定义MCU/RCU。
一个XP的磁盘控制装置在控制P-VOL 时,可作为MCU使用,当控制S-VOL的时侯,可作为RCU使用。
(3)CA的同步和异步复制基于存储的数据复制,主要有同步数据复制和异步数据复制两种。
同步数据复制,指通过将本地生产数据以完全同步的方式复制到异地,每一本地IO交易均需等待远程复制的完成方予以释放。
同步方式的数据复制同步复制方式的传输距离限制:l FC光纤通道最大传输距离为10KM;l ESCON通过中继方式最大可传输43KM;l DWDM方式最大传输距离为100KM。
异步数据复制则是指将本地生产数据以后台同步的方式复制到异地,每一本地IO交易均正常释放,无需等待远程复制的完成。
异步方式的数据复制同步复制实时性强,灾难发生时远端数据与本地数据完全同步。
但这种方式因为数据在网络中的传输延迟而影响主节点的应用性能。
异步复制则不然,但可能导致灾备点数据比主点数据有一定延迟,这些延迟的数据在灾难发生后将丢失。
由此可见,同步方式和异步方式实际上是各有千秋,需要依据具体的应用,在应用性能和潜在的可能丢失数据量之间作一个取舍和均衡。
(4)CAXP卷组的更新拷贝模式在组建灾难备份系统时,往往是假定正在使用的主中心的存储数据受到毁坏。
这时启动远程备份中心的备份存储系统,来接替主中心的工作或从备份存储设备中把数据恢复到主中心端,在主中心重新启动应用。
不论使用哪种方法,远程备份中心的备份数据与主中心端数据的一致性将会决定灾难恢复的时间。
在灾难发生后,为了尽可能减少花在数据一致性分析上的时间,以XP1024存储为例,XP1024提供用于灾难备份的CAXP磁盘卷组的拷贝模式的设定选择来加快事后分析数据的一致性。
远程数据拷贝操作更新拷贝模式(Fence Level)共有3种:Data、Status、Never。
CAXP卷组的状态在变为“Suspend”后,更新拷贝模式将会对P-VOL的写操作产生影响,在建立灾难备份系统方案时,应预先考虑好CAXP卷组的一致性要求,对应的拷贝模式可由下表选出:l 更新拷贝模式:Data——在这个模式下,P-VOL和S-VOL的一致性会完全被保证。
当两个卷组之间不能保证同步时,即当卷组状态变为Suspend时,MCU将会拒绝对服务器对P-VOL的写操作以保证两个磁盘卷的一致性。
这种模式在灾害发生时将会最大限度的减少数据一致性分析所花的时间。
(注:初期拷贝完成之前,如果灾害发生,将导致P-VOL和S-VOL的数据不一致,因此不能把S-VOL用于灾害恢复)。
在Data这种拷贝模式下,一旦FC线路或S-VOL出现故障,都将使P-VOL的写操作停止,并向系统发出写错误信息中断系统的应用。
l 更新拷贝模式:Status——当MCU检测出CAXP卷组之间失去同步后,且无法将S-VOL 的状态改变为Suspend时,MCU会拒绝服务器向P-VOL的写操作,并对服务器发出写错误的信息。
当FC链路失效时这种模式会起作用,如果客户认为S-VOL的偶尔失去同步是可容忍的,这种模式可被使用。
当S-VOL由于某种原因失效时,并且卷组状态成功地变为Suspend时,P-VOL的读写操作可继续进行,这时P-VOL里更新过的磁道会被记录下来,当S-VOL被恢复后,更新数据不会自动的被拷贝到S-VOL,而需要重新同步这个卷组,数据的更新拷贝才会被执行。
l 更新拷贝模式:Never——在CAXP卷组失去同步后,无论S-VOL的状态能否被改为Suspend,服务器对P-VOL的写操作不会被中止。
在这种模式下,只要P-VOL自己不出现故障,服务器传来的写操作就会被执行。
当FC Link或S-VOL由于某种原因失效后,P-VOL 的更新磁道将会被MCU记录下来。
故障排除后,用卷组激活命令可重新同步P-VOL和S-VOL,这时,只拷贝P-VOL里的更新磁道。
Data及Status模式对保持数据一致性非常有好处的,但在线路或远端XP1024故障时会对主服务器造成造成一定的影响,甚至导致应用系统挂起。
在这种拷贝模式下建立起来的CAXP镜像卷组,即使在光纤或S-VOL故障引起P-VOL和S-VOL镜象卷组失去同步后,只要P-VOL没有遭到损坏,MCU就不会据绝服务器对P-VOL 发出的写操作。