当前位置:文档之家› (完整word版)系统容错和安全机制

(完整word版)系统容错和安全机制

网络系统的容错和安全设计 第一章 网络系统的容错设计 一. 网络容错概述 采用用友网络财务软件NC(基金Web版)Web系统后,基金管理公司及托管行的所有数据都存放在数据库服务器中,服务器的宕机,会给企业带来巨大的损失;这就要求一旦生产用服务器产生任何形式的宕机或失效,网络上备用的服务器能够立即接管宕机的服务器使整个系统不至于崩溃,从而保证整个企业的业务连续运作。保证系统高可用性,应从以下几方面着手设计:

1、数据镜像 数据镜像是一种有效、高性能的高可用性解决方案,它不需要昂贵的RAID磁盘子系统,也无需考虑SCSI接口对缆线长度的限制。可扩展的磁盘镜像运行在两台相互独立又有备份逻辑的服务器之间。通过不断检测主系统磁盘或文件(源)的状态,而实时地将改动的信息镜像到目标机器的相应磁盘上或文件中。 为了保证数据的完整性,扩展镜像限制了用户对目标磁盘或文件的写操作。通过使用可扩展的磁盘镜像,源系统的任何数据更新将通过LANs和WANs镜像到用户指定的目标系统上,当源系统发生数据丢失或硬盘损坏时在目标系统上将保留一份镜像数据。有些可扩展的磁盘镜像软件可以实现一对一、一对多、多对一及多对多的数据镜像而不需要任何附加的硬件设备。

2、故障切换 从系统确信不能收到来自主系统的”alive”心跳信号后,就开始启动从系统上的自动恢复功能,将主系统上的需要保护的资源自动转移到从系统上,并开始向客户提供服务。一个比较好的机制在于如果从系统感觉不到主系统的心跳后,试图通过其他途径做进一步地检测(例如检测其他客户机是否不能获得主系统的服务)。 故障切换的时间是指从系统自确信主系统“死掉”后,到完全接管主系统并向客户提供服务止所经历的时间,时间越短,热备份程度越高。当从服务器发生故障时,不应对主系统有任何影响。

3、失效切换 源要转移到从系统上去,这就不但要求系统中的核心数据能转移过来,还要求将其他资源转移过来。与客户关系比较密切的资源主要是:LAN局部网名,IP地址、应用程序、以及应用程序所依赖的数据。

4、自动恢复 要求在主服务器失效后,修复好后,IP地址、局部网名字、数据应用与服务应该方便地恢复到主服务器上 5、私有通信 纯软件实现的双机容错技术要求将主服务器的关键数据完全镜像到从服务器,大量的数据如果通过网络进行,必然会对网络性能造成影响,另外主从服务器的相互检测机制也会不同程度的影响网络性能。因此纯软件实现的双机容错技术能够提供附加的网卡链路将会有很大的好处。

6、应用保护 双机容错系统应该提供非常可靠的应用程序保护机制,对于常用的数据库和群件系统应该能够进行无缝集成。

7、写盘延迟 这是一个比较重要的参数,是指数据写入主服务器与写入从服务器的时间差。

二. Windows NT平台下的双机容错软件——Legato Octopus Octopus HA+ for Windows NT提供一个完全容错的软件解决方案,它提供数据、应用程序和通讯资源的高度可用性。Octopus不需要任何自定义的容错硬件。Octopus提供了Windows NT网络平台的数据容错和实时数据保护,并且能够模拟从一台失效的源服务器切换到指定的目标服务器的全部手工作业过程,用来提供不间断的服务器的所有业务服务。 Fulltime公司研制开发的Octopus软件提供了Windows NT网络平台的双机热备份功能。它能够实现数据容错和实时数据保护,源系统的任何数据更新将通过LANs和WANs镜像到用户指定的目标系统上,当源系统发生数据丢失或硬盘损坏时在目标系统上能够得到一份镜像文件。Octopus可以实现一对一、一对多、多对一及多对多的数据镜像而不需要任何附加的硬件设备。它还能够模拟从一台失效的源服务器切换到指定的目标服务器的全部手工作业过程。它通过设计一个"检测狗"判定源服务器的连续运做。一旦"检测狗""闻"不到源服务器的"气息",目标服务器将自动接管源服务器的作业(包括主机名及IP地址)。Octopus消除了CPU损坏,硬盘损坏等灾难的不良影响,使得用户业务可以连续正常运行。 Octopus HA+ for Windows NT为Windows NT网络提供实时数据保护和服务器高可用性,通过LAN或WAN,产品捕捉在源系统上选定文件的更新,传递到使用者指定的目标系统的磁盘。即使源系统发生数据丢失或硬件损坏,在目标系统上也能保留一份实时的数据。 用户将Octopus安装在要作为源和/或目标服务器的Windows NT上。安装和配置Octopus非常容易,只需几分钟。 Octopus可运行于任何Windows NT支持的网络接口上,并且不需要指定特殊的网卡。当然,用户也可以指定特殊的网卡以减少网络负担。对源机器,用户指定要备份的驱动器,目录和/或文件,并指定用来保存数据的目标系统。当源机器上指定文件发生改变,Octopus镜像进程把变化同步写入目标服务器的指定位置。如果源和目标服务器的网络连接发生中断,Octopus保存源服务器上需镜像的数据变化的日志,网络连接恢复正常后,再把数据变化日志自动地传送到目标服务器,目标服务器执行相同的数据变化,以实现数据一致。 Octopus能实现一对一,一对多,多对一或多对多方式的数据镜像。因此,除数据保护之外,它还能作为分布式数据系统的高效率的数据传送工具循环。例如,对需要很多只读版本和一个读写版本的WEB节点,Octopus非常适用;另一方面,如果应用系统需要收集远端节点的数据并集中于中央节点,可以使用Octopus多对一方式的数据镜像。 除数据保护之外,Octopus也提供核心业务环境下所需的服务器高可用性和业务连续性。SASO(Super Auto Switch-over)特性提供目标服务器自动担任一或多个源服务器的角色的功能。在源服务器上用户设定一个"心跳"频率,"心跳"频率决定了源服务器向目标服务器发送"I'm alive"消息的频率和目标服务器多长时间收不到源服务器的消息后就开始自动切换。 如果目标系统在限定的时间之内接收不到源系统"I'm alive"报文,它检查Windows NT注册表和服务数据库。如果Windows NT能在网络上找到源服务器,它就持续监视,如果找不到,就启动Switch-over进程。 在大的网络它可能花很长时间来搜索Windows NT注册表和服务数据库。因此Octopus提供一个最大等待时间参数,告诉Octopus不必等搜索完成,就启动切换进程。这个特性使用户可以指定一个目标服务器寻找源服务器的最大时间,如果在这个时间内目标服务器收不到源服务器的信息,就假定源服务器失效并开始进行切换。 通过SASO,目标服务器添加源服务器的主机名,及用户指定的IP地址,用户还可以指定在切换前/后要停止/启动的服务或应用。切换后,目标服务器自身的应用仍可使用,并且可加入多个失效服务器的角色。网络中的用户可以继续工作而感觉不到服务器已经失效并已经被切换。而通过ASO则是目标服务器完全切换成源服务器的主机名,代替源服务器的工作。 如果你有Windows NT服务器,通过Octopus的实时数据保护和高可用性,可保护你的服务器和有价值的数据。 Octopus软件的特性: a. 没有延迟实时镜像数据; b. 镜像实际文件操作,不是全文件比较或拷贝; c. 镜像使用者指定的文件、目录、或磁盘,而不是整个磁盘、分区或卷集; d. 可对打开的文件进行操作; e. 对删除的保护; f. 每个服务器都可做为源或目标; g. 数据可以通过NT网络镜像到任何地方; h. 无须附加的硬件; i. 允许镜像至多个位置; j. 自动切换无须人工干涉; k. Super Automatic Switch-Over 允许目标服务器可接管多台服务器的服务而不影响本身的应用; l. 在切换时可指定服务、应用; m. 远程管理或安装; n. 可以选用附加的网卡来减轻网络负担。 三. 惠普双机双控容错系统方案 (1) 惠普双机双控容错系统简介 近年来随着计算机技术的飞速发展,服务器的性能有了大幅度的提升,服务器作为处理关键性事物的业务主机已随处可见。对于要求有高可用性和高安全性的系统,比如金融、邮电、交通、石油、电力、保险、证券等行业,用户提出了系统容错的要求。惠普公司根据用户这一要求,推出了惠普双机双控容错系统方案。用二台服务器共同工作,当一台服务器的系统出现故障时,另一台服务器可确保系统正常运行,从而将系统风险降低到最低限度,保障了系统的高可靠性、高安全性和高可用性。 惠普双机双控容错系统技术基础为近年来成熟起来的Cluster集群技术。Cluster集群技术出发点是提供高可靠性、可扩充性和抗灾难性。惠普双机双控容错系统解决方案重点在提供高可靠性和高安全性,Cluster集群技术为此提供了技术上的保证。惠普公司为金融、邮电、交通、石油、电力、保险、证券等需要安全运行的系统度身定作了基于Cluster集群技术的双机双控容错系统方案。

Cluster集群技术 Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。 Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明地向Cluster中加入组件。 一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。 Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。

图1-1 Cluster集群技术示意图 Cluster集群可由N台服务器构成,当我们取Cluster要求的最小值N=2时,就成为一个双机系统。

相关主题