当前位置:文档之家› ftServer容错服务器日常维护手册

ftServer容错服务器日常维护手册

ftServer容错服务器日常维护手册2009-9-9 上海海得1. ftServer 系统启动和关闭每个ftServer 服务器都有两个电源按钮(每个CPU-IO 机箱都有一个电源按钮),在系统插上电源线后,系统中仅有一个电源按钮亮灯,且处于活动(Active)状态,这个按钮被称为主用按钮(Primary), 可用于当前系统的启动。

另外的那个电源按钮被称为备用按钮(Standby)。

(在一定条件下,主用按钮和备用按钮会做切换。

)ftServer 服务器需要连接两路电源,我们建议至少其中的一路使用UPS输出的电源,以防因电源故障造成的系统停机;ftServer 服务器背部有连接显示器的端口,还有3 个USB口供连接键盘和鼠标使用。

如果我们需要启动系统,只要先打开显示器电源,然后按一下ftServer 的主用按钮即可;在正常情况下,如果需要关闭系统,必须在Windows系统中操作:开始——关机——确定, Windows会处理当前文件操作,并关闭系统。

在系统运行时,如果我们长时间按下主用电源按钮,可以强行关闭系统操作(这可能会导致系统或应用数据被破坏,用户应承担相应的风险)2. ftServer 上的各种LED指示灯ftServer 服务器上有各种LED 指示灯,它们显示了当前的系统或部件的运行情况; 分别说明如下:CPU-IO机箱状态指示灯每个CPU-IO 机箱均有两组状态指示灯,分别位于机箱前部的左侧(机架式)或下方(塔式)和机箱后部的左下侧(机架式)或左上侧(塔式)。

每组指示灯中有一个绿灯代表电源指示灯;有一个红灯代表故障鉴别灯;有一个白/橙双色灯代表单双运行状态灯;(见下图)观察这些指示灯,可以大致判断该CPU-IO机箱的当前运行情况。

(机箱前部) (机箱后部)1. Green LED (Power) 绿灯 - 电源指示灯常亮表示本机箱已经通电闪亮表示本机箱处于备用状态,本机箱还没有在线(可能有VTM或BMC 故障)不亮表示没有电源;(注意:检查相应的电源线是否插好)2. Yellow LED (Fault/Identify) 黄灯 - 错误/定位指示灯常亮表示本机箱有部件处于故障状态,本机箱还没有在线;闪亮表示本机箱的CPU或IO 正被系统所识别(常用于部件的定位);不亮表示本机箱的部件正常运行;3. White LED (Simplex/duplex) 白灯 - 单双状态灯常亮表示本机箱处于镜像(Duplex)运行状态;闪亮表示本机箱正处于单份(Simplex)运行状态(此时拔出机箱件会导致系统崩溃);不亮表示可以关闭该件;硬盘指示灯ftServer 系统中每个CPU-IO 机箱中可以安装三个内置硬盘,可以使用SAS硬盘,也能使用SATA 硬盘。

由下向上(机架式)或由右向左(塔式)分别标为1,2,3 号,每个硬盘上有一个绿/黄双色指示灯(见下图)。

使用Stratus 公司RDR 软件,可将对应相同槽位的硬盘做成镜像状态(RAID-1),这可以确保硬盘的容错特性(具体RDR 操作见后)。

不亮表示:没有上电;可以安全拔出绿灯常亮:本硬盘处于镜像状态,盘上所有卷都已完成镜像,目前没有活动;可以安全拔出绿灯闪亮:本硬盘处于镜像状态,盘上所有卷都已完成镜像,目前正读写盘上数据;可以安全拔出黄灯常亮:本硬盘处于Broken中断状态;需要进一步检查原因黄灯闪亮:本硬盘处于单份(Simplex)状态(不能拔出此盘,否则会引起系统崩溃或数据丢失)备注:如果之前作为同步镜像的一对磁盘现在都是黄灯闪亮,则表示这对磁盘脱离同步镜像状态,在进行后续操作的时候,需要注意的是,之前的主盘不要进行操作,对于从盘,首先在磁盘管理中,删除相应的磁盘分区,使之处于“未指派”状态,之后在系统管理软件中,删除RDR同步镜像信息(delete Physical Disk from RDR Virtual Disk),做完这些操作后,重新添加从盘到RDR镜像组。

具体操作见本文后半部分。

Ethernet以太网口指示灯每个CPU-IO 机箱上都有两个内置的1000Mbps 以太网口,在选件VTM 上也有一个100Mbps 的以太网口;每个网口都有一组指示灯,一个是绿色状态指示灯,另一个是绿色或绿黄双色速率指示灯。

(见下图) 内置的以太网口可以通过Intel PROSet软件实现网络容错功能(具体操作见后);VTM上的网口可以用来连接内部管理网,可以通过它对系统进行启动,关闭,升级以及监控等远程操作活动。

(VTM是选件,不是每个ftServer 服务器都有这个部件)1. Ethernet port ACT/LINK LED 以太网端口活动/链接指示灯不亮表示没有连接网线;常亮表示链接存在;闪亮表示链接存在,并且正有数据传送;2. Ethernet port 10/100/1000-Mbps LED 以太网端口速率指示灯不亮表示10M 连接;绿灯常亮表示100M连接;黄灯常亮表示1000M 连接;黄灯闪亮表示以太网端口正被系统定位识别;3. 掉电冗余切换测试在进行拔电源线等破坏性测试之前,首先要确保容错服务器的关键部件处于同步状态,以保证系统应用连续进行,这些关键部件为:CPU、磁盘、网卡。

查看同步状态的示意图如下:图二 CPU模块同步状态图三IO模块同步状态查看图四磁盘同步状态查看图五网卡同步状态查看在确认所有这些关键部件都处于同步状态后,我们可以进行模块的冗余切换。

对于冗余测试,可以通过软件和硬件实现。

1)通过软件实现:图六将模块退出系统的软件实现图七模块退出系统后的状态显示通过示意图可以看到,在ftSSS(系统管理软件)中将需要的模块bringdown之后,此模块的状态为removed from service 状态,在这个状态下,此模块中包含的所有部件都处于离线状态,效果等同于拔掉电源线。

软件实现硬件离线的好处是所有的操作都在系统管理软件的保护之下,避免强制掉电所造成对服务器的隐性伤害。

建议在以后的操作中,如果需要将硬件离线,首先在系统管理软件中按照上述的说明进行操作。

2)通过硬件实现:很简单,直接拔掉电源线,或者直接将硬盘拔出。

不过建议在拔掉电源线之前,首先做第1步。

4. 硬盘的镜像和检查ftServer 服务器系统中硬盘镜像需要使用Stratus公司的RDR(Rapid Disk Resync)软件来实现;在ftServer 服务器的右侧(机架式服务器),有六个内置的硬盘(SAS或SATA 都可以),每个CPU-IO 机箱由上至下的排列着3 号、2号、1号硬盘,其中1号硬盘是系统启动盘,包含Windows 系统启动分区;相同槽位号的两个硬盘在RDR 中构成一个虚拟硬盘,并被Windows 中的磁盘管理系统所识别。

在RDR 中,物理硬盘被称作plex, 虚拟的RDR 盘被称作LUN (Logical Unit)。

物理硬盘和虚拟逻辑硬盘的对应关系下图是RDR中三组物理硬盘对应虚拟硬盘的逻辑示意图.物理硬盘的状态检查可以观察ftServer 服务器的硬盘指示灯外,也可以在ftSMC 中设置和观察物理硬盘的状态。

(见下图)虚拟逻辑硬盘的状态检查创建RDR 的虚拟硬盘两个CPU-IO 机箱中对应相同槽位的硬盘都没有加入RDR 虚拟盘前,必须检查这两个硬盘,他们必须是相同类型、尺寸的硬盘;然后,首先用其中的一个创建对应的RDR 虚拟盘;在ftSMC 中,点开ftServer I/O Enclosure 10—— Storage Enclosure 40——Slot 2,然后点击Disk – 3, 右击后出现选择菜单,选择”Create RDR Virtual Disk”命令,即可创建相应的虚拟硬盘。

将某个硬盘加入RDR 的方法在ftSMC 中,点开ftServer I/O Enclosure 11 ——Storage Enclosure 40——Slot 0,然后点击Disk – 1, 右击后出现选择菜单,选择”Add Physical Disk To RDR Virtual Disk”命令,即可将当前Slot 0中的硬盘加入到RDR 虚拟硬盘组中。

(该硬盘必须是Basic硬盘;该硬盘必须有10MB以上的空余空间;) 在RDR 向导中,会出现镜像前的提示,请仔细检查“源”和“目标”硬盘的物理路径,切勿造成数据被反向覆盖。

点击“Finish”按钮后,RDR开始做硬盘镜像;可以在ftSMC 中检查进度。

完成镜像后的虚拟硬盘状态备注:如果RDR 分组中的第二个硬盘是原来含有数据分区的硬盘,在做RDR 时系统会提示该硬盘含有数据分区的错误信息;如果你还是要强行做RDR 镜像,则需要手工将该硬盘上的数据分区删除(在Windows的磁盘管理中)后再做RDR 操作。

RDR虚拟硬盘的使用创建RDR 虚拟硬盘后,该虚拟硬盘就可以在Windows 的“磁盘管理”中看到,而对应的两个物理硬盘就不再出现;虚拟硬盘的使用和单个物理硬盘在Windows 中的使用一样,用户不必考虑镜像问题。

RDR 中生成的虚拟盘都是基本盘(Basic),切勿将其升级为动态盘(Dynamic)在Windows 的“磁盘管理”中,可以对虚拟硬盘进行分区、格式化、改驱动器号等操作…5. 掉电后重启,系统无法启动单独从一个模块启动,也就是只给一个模块加电启动,如果第一个模块无法启动,则关机断电,然后给另一个模块加电启动,一般至少有一个模块可以正常启动,待这个模块启动正常后再给另一个模块加电,此时另外的这个模块会自动做硬件自检,如果自检通过就会和primary的模块做系统同步,待CPU和IO模块都同步完成后,手动同步磁盘。

如果出现异常,此时可能会有以下情况发生,另一个模块的CPU或者IO目录上有红叉,此时可以查看具体的错误信息,具体位置如下:ftServer 容错服务器日常维护手册上海海得控制系统股份有限公司 工业IT 事业部Tel: 008621‐54235333 Fax:008621‐54235538 Web: 图八 错误状态信息查看此时可以在管理软件中将此模块退出服务,然后断电将模块从机箱中拔出,将内存重新拔插确保连接紧密,同时将主板上清理灰尘,并查看电源连接接头是否有松动,若有松动 ,将之固定。

如果没有硬件故障,做完这些操作后一般是可以正常启动的。

如果仍然不能正常启动,则将其加电自检后,在ftSSS 软件里面查看具体出错的位置以及错误信息报告,并将相关日志信息和故障部位做截图,一并发给海得公司技术人员做更深入的查看分析。

相关主题