双机热备解决方案
一.双机热备
1.什么叫做双机热备?
从广义上讲就是服务器高可用应用的另一种说法,英译为:high
available,而我们通常所说的热备是根据意译而来,同属于高可用范畴,而双机热备只限定了高可用中的两台服务器。
热备软件是用来解决一种不可避免的计划和非计划系统宕机问题的软件解决方案,当然也有硬件的。
是构筑高可用集群系统的基础软件,对于任何导致系统宕机或服务中断的故障,都会触发软件流程来进行错误判定、故障隔离、以及通地联机恢复来继续执行被中断的服务。
在这个过程中,用户只需要经受一定程度可接受的时延,而能够在最短的时间内恢复服务。
从狭义上讲双机热备特指基于高可用系统中的两台服务器的热备(或高可用),因两机高可用在国内使用较多,故得名双机热备,双机高可用按工作中的切换方式分为:主-备方式(Active-Standby方式)和双主机方式(Active-Active方式),主-备方式即指的是一台服务器处于某种业务的激活状态(即Active状态),另一台服务器处于该业务的备用状态(即Standby状态)。
而双主机方式即指两种不同业务分别在两台服务器上互为主备状态(即Active-Standby和Standby-Active状态)。
2. 组成双机热备的方案主要的两种方式
(1)基于共享存储(磁盘阵列)的方式
共享存储方式主要通过磁盘阵列提供切换后,对数据完整性和连续性的保障。
用户数据一般会放在磁盘阵列上,当主机宕机后,备机继续从磁盘阵列上取得原有数据。
如下图所示。
这种方式因为使用一台存储设备,往往被业内人士称为磁盘单点故障。
但一般来讲存储的安全性较高。
所以如果忽略存储设备故障的情况下,这种方式也是业内采用最多的热备方式。
(2)基于数据复制的方式
这种方式主要利用数据的同步方式,保证主备服务器的数据一致性。
3.双机热备的工作原理
故障隔离,简单的讲,高可用(热备)就是一种利用故障点转移的方式来保障业务连续性。
其业务的恢复不是在原服务器,而是在备用服务器。
热备不具有修复故障服务器的功能,而只是将故障隔离。
4. 故障检测
故障检测是双机热备的任务,不同的双机检测点的多少决定了双机热备软件在功能和性能上的优劣,并不是所有的软件都具有相同的检测功能,以PlusWell双机热备软件为例,其提供的是一种全系统检测能力,即检测分为系统级、应用级、网络级三个方面。
系统级检测主要通过双机热备软件之间的心跳提供系统的检测功能,应用级提供用户应用程序、数据库等的检测功能,网络级的检测提供对网卡的检测及可选的对网络路径的
检测功能,因此称为全故障检测能力。
5. 双机热备的切换
双机热备的切换一般分为手动切换和故障切换,即计划性切换(即人为切换)和非计划性切换(即故障切换)。
需要大家注意的是并不是所有资源都具有可切换性,以PlusWell热备份软件为例他提供了:(1)本地资源监控,即不可切换的资源。
(2)普通资源,即可以在主备机切换的资源。
(3)快速资源,指的是快速切换的资源,
一般情况下的双机切换时间为1-5分钟,而快速切换的时间为3-5秒种。
用户应根据自己的需求及业务特点来选择相关的切换服务,从价格成本上来说,切换的时间越短费用也越高。
6. 热备份与备份的概念区别
热备份指的是:high available即高可用,而备份指的是Backup,即数据备份的一种,这是两种不同的概念,应对的产品也是两种功能上完全不同的产品。
热备份主要保障业务的连续性,实现的方法是故障点的转移,而备份,主要目的是为了防止数据丢失,而做的一份考贝,所以备份强调的是数据恢复而不是应用的故障转移。
二.双机热备系统拓扑
1. 双机热备拓扑图
2. 硬件及结构说明
(1)DELL MD3000i 存储
3U机架式模块化IP-SAN磁盘柜,双口双控模块,支持主动/主动工作模式;2颗667MHz Intel处理器,512MB缓存(后备电池保护);或采用以太网交换机进行HA共享配置以便连接高达16台主机;4个1Gb iSCSI主机端口,2个12Gb SAS扩展端口;每机柜15个硬盘槽位,使用两个PowerVault MD1000扩展阵列,可扩展到3个机架(45个驱动器);同时支持SAS、SATA硬盘;支持RAID0、1、5、10、6等;配置快照软件;图形化界面基于任务的MDSM磁盘阵列管理软件;冗余电源,支持热拔插;
MD3000i用于给每组集群分配空间,达到快速,安全稳定,扩展性能好的功能。
(2)DELL DL2100 备份存储(可根据实际情况选用)
这是一款可实现更快速的基于磁盘的备份和恢复的集成式解决方案。
戴尔通过提供由CommVault支持的唯一一款集成式硬件、软件和服务解决方案,简化了备份过程。
PowerVault DL2100出厂预装了CommVault SimpanaTM 软件和独有的基于向导的设置与管理实用程序。
备份软件附带了集成的自动化动态磁盘配置功能,可配置和设置磁盘供即时使用。
安装、配置存储设备、添加更多磁盘只需点击几下鼠标即可。
生产服务器使用CDR代理
程序为集中化的DL2100提供安全、字节级文件、Exchange、SQL或Oracle®数据以进行整合备份。
用于备份MD3000I存储上的硬盘数据,以及快速恢复数据,达到与存储上数据同步。
拯救存储数据的意外丢失。
(3)DELL R710服务器
2U 机架高度最新款双核或四核英特尔®至强®5500系列处理器,互连英特尔®快速通道互联技术(Intel® QuickPath Technology),英特尔® 552芯片组,内存最多144GB,在设计时充分采纳了IT专业人士的意见,能够有效应对各种关键业务应用的需求。
用于与已有的DELL 服务器组成集群,实现双机热备,满足数据安全,业务不停的需要。
三.plus well 热备软件
(1)本双机热备方案适用系统如下:Windows2000/2003, RedHat Linux (2)适用的数据库系统:MySQL,PostSQL,DB2,,Oracle8i/9i/10G,Sybase
MSSQL2000,等数据库
(3)适用第三方应用程序:为第三方应用程序提供监控程序,同时可为用户特有程序提供编程结口。
(4)双机热备形式:Active/Standby,Active/Active
Active/Standby方式是传统的双机热备份解决方案,主机运行时,备机处于
备用状态,当主机故障时,备机马上启动将服务接替。
因备机平台没有其它的访问量,所以故障切换后用户访问速度不会有大的影响,此种容错方式主要适用于用户只有一种应用,主备机设备配置不太一样,并且用户访问量大的情况。
Active/Active这种方式的主备机平时各自有一种应用运行,当系统中的任何一台主机出现故障,应用都会集中到一台服务器上运行,此时这台备用服务器不仅要承担以前的程序运行而且还要运行宕机服务器上的应用程序,所以此时备机的负担会加重。
这种方式的故障切换往往会造成备机访问量增大,系统运行变慢。
此方式主要适合用户有不只一种应用,用户主备机配置一样且数据访问量不大的情况。
(5)心跳工作过程
通过IP做心跳检测时,主备机会通过此心跳路径,周期性的发出相互检测的测试包,如果此时主机出现故障,备机在连续丢失设定数目的检测包后,会认为主机出现故障,这时备会自动检测设置中是否有第二种心跳,如果没有第二种心跳的话,备机则根据已设定的规则,启动备机的相关服务,完成双机热备的切换。
(6)IP工作过程
IP地址使用虚拟IP地址的方法来实现,主要原理如图
主机正常的情况下虚拟IP地址(即访问IP:192.168.1.33)指向主机的实IP (192.168.1.11)地址,用户通过虚拟IP地址访问主机,这时,HA软件将虚拟IP地址解析到主机实IP地址。
当进行服务器切换时:
虚拟IP(即访问IP192.168.1.33)地址通过PlusWell热备份软件自动将虚拟IP地址解析到备机的实IP(192.168.1.22)地址上,这时,虚拟IP地址指向备机的实IP地址。
但对用户来说,用户访问的仍然是虚拟IP地址。
所以用户只会在切换的过程中发现有短暂的通信中断,经过一个短暂的时间,就可以恢复通信。
(7)应用及网络故障切换过程
(i)可以检测到操作系统的故障并及时将服务切到备用服务器
(ii)当操作系统正常的情况下,数据库系统出现意外故障,这时双机容错软件可以及时发现并将其切到备用服务器,使服务不致于停止。
(iii)当操作系统和数据库系统全都正常的情况下,服务器网络出现故障,这时双机热备软件,可以将系统切到正常的备用服务器上。