虚拟化容灾应急平台在非编系统的应用南宁广播电视技术中心蔡永嘉摘要:非编网络系统是电视台节目制作的重要平台,其核心是非编服务器。
传统的双机备份用于数据库服务器上时,同步复制数据的环节较为脆弱,稳定性略显不足。
为更好地保障非编网服务,将虚拟化服务器容灾应急平台用于非编系统,实现2+1、一对多备份。
虚拟化服务器容灾应急平台运用虚拟化技术,对服务器进行多目标、高频次、低开销的镜像备份,并在需要应急时启动镜像虚拟机接管原服务器。
应急平台部署方便,备份及时,接管迅速,可提高非编网络安全性,降低运维管理压力。
关键词:非编服务器容灾虚拟化1 前言非线性编辑网络是电视台节目制作、存储的关键平台,而非编数据库服务器是非编网络的核心之一,其重要性不言而喻。
非编服务器出现故障会导致服务停滞,严重影响节目制作进程,甚至造成严重的播出事故。
为保证数据不丢失、服务不中断,提高非编系统的稳定性和安全性,需要应用可靠的数据容灾技术。
双机热备份广泛应用于服务器的数据容灾技术中。
在实际的使用中我们发现,双机热备在主备服务器的数据实时同步复制环节比较脆弱,可能发生出现数据错误的数据库被同步导致双机均不可用的情况。
而由于非编数据库较大,数据库备份操作会极大影响数据库性能,因此备份一般在每天的凌晨进行。
如果发生故障直接恢复备份数据,会损失当天导入的全部素材及当天编辑的所有故事板,严重影响节目制作。
为了增强非编网的可靠性,在双机备份的基础上,我们利用一套虚拟化服务器容灾应急平台,对全部三个非编网的数据库服务器进行备份,实现了服务器2+1、一对多备份。
2 虚拟化服务器容灾应急平台的实现原理和核心技术虚拟化服务器容灾应急平台把非编数据库所在的服务器硬盘里的所有数据进行实时备份,转换成虚拟机的虚拟磁盘数据。
当非编数据库服务器出现故障的时候,可以在应急平台中利用虚拟化技术,生成一个与原服务器系统环境相同的虚拟机,并挂载备份的虚拟磁盘,接管原非编数据库服务器,以实现应急支撑。
2.1 磁盘同步复制原理与技术在首次生成全镜像备份时,业务应急支撑平台采用了智能磁盘空间识别技术。
通过识别磁盘分区的文件系统,根据文件系统的索引,获取磁盘上的有效数据分布,智能跳过空闲的磁盘空间,减少了首次生成全镜像的系统资源消耗和传输的数据量。
在进行数据实时备份时,业务应急支撑平台使用了基于磁盘I/O的实时复制技术。
此技术利用磁盘过滤驱动,实时监控磁盘的每个读写I/O,并记录下每次写入请求产生的磁盘数据变化,在设定的同步时间时把记录的数据应用到虚拟磁盘上,实现物理磁盘与虚拟磁盘的同步。
磁盘I/O实时复制技术完全可以适应非编系统数据库的同步数据应用,以较低的部署复杂度,实现了应用级容灾的要求。
磁盘的同步采用异步复制,可设定最短5秒,最长7天的复制间隔。
异步模式的系统性能开销与带宽资源需求较小,对原生产机的性能影响极小,实际测试表明实时复制的CPU占用率约为1%,占用内存约61MB。
经过研究,我们对非编服务器的备份使用了15分钟的同步间隔,这样的间隔已经可以满足数据库保障的需求,能保障数据的有效性,在存储开销与安全性之间取得平衡。
2.2 虚拟磁盘存储管理技术存储池是虚拟化技术中的重要资源,应急支撑平台在一套服务器与存储上部署了多个服务器备份,对存储池的容量有较大需求。
平台的虚拟化存储池管理器使用精简虚拟存储对象,其中只包含原磁盘中的有效数据和虚拟化磁盘的索引,且与常用的虚拟化磁盘格式VMDK兼容,可以直接通过复制的方式复制虚拟磁盘文件,给相应的虚拟机使用,为备份的迁移提供了极大的方便。
可以与虚拟化服务器无缝结合,支持多种虚拟平台,为未来可能的服务器虚拟化改造提供便利。
2.3 应用环境虚拟化原理与技术现有的CDP(Continual Data Protection 连续数据保护)备份产品很多,这些产品都能完整地复制磁盘内容,做到数据级容灾。
但单纯的将磁盘镜像成虚拟磁盘文件并不能实现应急启动。
大部分产品无法改变服务器应用环境,某些CDP备份的接管需要依赖原服务器硬件,使用iSCSI远程引导的方式启动系统实现接管。
虚拟化服务器容灾应急平台在磁盘复制时就直接对原机相关驱动进行虚拟化,让虚拟机做到与原机的驱动级一致,实现了真正的Mirror P2V(Physical to Virtual)效果。
利用虚拟机加载Mirror P2V复制后的VMDK虚拟磁盘映像文件,就可以实现应急接管。
并且可以实现一对多接管,即一台主机虚拟出多个虚拟机,可以对内网中多台非编服务器进行应急接管。
当原机的应用程序环境发生变化时,Mirror P2V能随时同步原机的变化,无需再做调整,同时实现数据的同步与应用的虚拟化。
2.4 多机/多镜像同时接管技术虚拟化服务器容灾应急平台可以在每个设定的间隔时间时生成一个系统快照点,每个快照点都可以作为应急虚拟机启动。
对于不同的原机,应急平台可以同时启动它们的应急虚拟机,多个虚拟机之间互不干扰独立工作。
虚拟机启动时有演练启动和接管启动两种模式,两种启动模式的网络拓扑连接方式不同。
演练模式下虚拟机为封闭的网络,不干扰原服务器的工作,可以用来进行应急演练与数据验证;接管模式下虚拟机直接接入非编网,可以直接接管原服务器的功能。
2.5 系统数据无缝恢复技术当非编服务器出现故障时,使用虚拟化服务器容灾应急平台接管原服务器。
在原服务器修复完毕后,应急平台上的数据库也产生了许多新的数据,此时就需要把数据还原到原服务器上。
而非编网的数据库较大,还原的过程较长,传统的恢复方式需要暂停非编网服务器进行恢复,会影响非编网的使用,故只能选在深夜时间进行。
应急平台使用了无缝恢复技术,利用PE启动恢复光盘,实现在不中断接管非编服务器系统的情况下,无缝还原数据,还原后可以在较短的时间内切换回原机使用,降低了运维管理成本,且对节目制作的影响较小。
3 虚拟化服务器容灾应急平台的构建与应用3.1平台的架构虚拟化服务器容灾应急平台由通信服务器、存储服务器、网站服务器、客户端四部分组成。
客户端就是需要备份的原服务器,存储服务器存储了所有客户端的备份镜像数据,通信服务器用于管理存储服务器和客户端,为他们之间的通信提供服务,网站服务器提供管理网页,让管理员对整个平台进行管理。
3.2平台功能配置虚拟化服务器容灾应急平台基于虚拟机快照点进行管理。
首先在需要进行备份的非编服务器上安装客户端,然后在管理网页对其进行配置。
经过研究,我们对非编服务器的快照间隔设置为15分钟,快照合成快照点间隔设置为1小时。
这样,如果原机发生故障为硬件故障,可以应急恢复15分钟之内的快照点;如果发生的是数据库逻辑完整性的问题,可以应急恢复15分钟或者1小时之内的快照点,对比传统的恢复备份会损失一整天的数据,应急平台对数据的保护做得更好。
应急平台启动的虚拟机可针对不同的主机进行配置,对CPU核心、内存大小、存储和网络结构都可以依照原机的配置进行设置。
启动虚拟机有演练模式和应急模式,演练模式下虚拟机以NAT的方式启动,与业务网络隔离,只能在特定的内网访问虚拟机,不影响非编网的正常运行,这种模式主要用于演示和数据验证;接管模式下虚拟机以桥接的方式启动,网段和IP地址与原服务器的网段及IP地址相同,可接管原服务器实现应急服务。
3.3 平台应急操作步骤与演练中的运行情况为了熟悉虚拟化服务器容灾应急平台的操作流程,检验应急平台的接管效果,测试虚拟机接管后的性能表现,我们在当日节目全部制作完成后,进行了一次应急演练。
具体操作步骤如下:(1)将非编数据库服务器备机、主机依次关机,拔出网线,模拟服务器中断。
此时非编网各工作站无法连接到服务器,已不能正常使用。
(2)在应急平台的应急演练页面找到需要接管的主机,选择需要的快照点,在弹出的菜单中选择接管设置。
如图1图 1 快照点的展示与选择(3)在弹出的设置窗口中,依照原服务器的配置,设置好分配给虚拟机的CPU核心、内存大小、存储和网络设置,点击新增按钮。
如图2图 2 接管主机配置设置(4)切换到应急主机列表,找到刚刚创建的应急主机,点击右边的绿色“启动”按钮,系统即在虚拟机中启动。
如图3图 3 应急主机列表(5)检查虚拟服务器以及整个非编网的状态。
各工作站不用做任何设置,重启即可连接到虚拟数据库服务器。
测试结果表明虚拟服务器工作状态正常,各工作站仅在刚启动时稍显卡顿,约2分钟后即可正常使用,成功进行了应急接管。
(6)应急演练结束后点击应急主机的“停止”按钮停止接管系统,原服务器连接网线并开机。
应急演练顺利完成。
4 虚拟化服务器容灾应急平台的特色及总结虚拟化服务器容灾应急平台可以随时启动镜像虚拟机,立即作为备机替换被备份的服务器,防范了非编网数据库服务器故障造成的非编系统中断事故。
系统架构简洁,部署方便,对原系统的性能基本没有影响。
应急操作简便,启动迅速,虚拟机性能足够支持非编网络的运行。
应急平台作为对双机热备份系统的补充,能补足双机热备系统的短板,实现2+1备份,提高系统运行的安全性,对避免非编网服务中断导致的重大事故发生有着重大的意义。
参考文献[1] 赖志强,杨成,蔡夏琳.云业务应急平台的实现和应用[J].软件产业与工程.2015,2:52-56.[2] 黄志宝.基于虚拟化的容灾业务自动部署和自动迁移研究与实现[D].国防科学技术大学.2009.[3] 王崇霞.数据库双机热备份系统解决方案[J].2003,13:79-85.。