当前位置:文档之家› 因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复

因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复

因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复
2015年07月19日
单位名称:XXXXXXXXXXXXXXX
部门:XXXXXXXXXXXX
报告人:XXXXXX
时间:2015年 07月 22日
以《XXXXXXXXXXXXXXXXXX信息安全工作总体方针和安全策略》
为依据,根据《5.10信息系统应急处理预案》为指导方针,完成此次XXX单位数据中心灾难恢复工作。

一、事故(故障)前运行方式及业务连续性情况
(一)运行环境及功能
中心机房位于XXXXXXXXXXXXXXXXXX(地点),负责XXX单位所有信息化业务及网络运行。

2013年6月开始,中心机房逐步向云计算数据中心转型。

于14年10月完全建成以虚拟化云计算为基础架构的智慧数据中心(下称数据中心),内配有UPS,防雷设备,核心交换机、应用服务器、数据存储服务器、带时控的空调设备等;数据中心外有防雷井,电力专供线路,能有效防止直接由雷击造成设备损坏,但不能完全消除电压不稳定造成的数据丢失故障。

消防、安保门禁、环境(温、湿度报警等)、供电系统探测、服务器监控等方面都没有相应的设备进行监测,日常运维中也只是靠人力巡查,可靠性不高。

在正常供电及普通天气环境情况下保障XXX单位数字化应用及其它相关的信息化业务的连续性。

(二)现数据中心运行情况
数据中心除最新的IBM刀片服务器外,其它90%的服务器已过保修期,使用时间多为5年以上,全面进入硬件的不稳定周期。

首先,为XXX单位信息化业务提供连续性服务的服务器为3台DELL R710及IBM刀片服务器,其中,DELL服务器均为09年12月购臵,10年启用,至今已达5年;硬件有不同程度的老化现象,会产生一些不知名
的故障。

其次,提供数据存储的设备为两台网络存储,分别为EMC VNX3150,H3C 1540S,其中H3C存储为10年启用,至今已达5年,然而硬盘类存储配件的在所有硬件中使用期间最短,使用时间过长容易造成数据丢失现象,且现储存容量无法满足XXX单位信息化数据的业务增长速度,全为满载运行,2014年初,该存储设备已更换过3块硬。

再有,尤其我校电力供应不稳定,经常无故停电,导致数据中心内所有设备非正常关闭,容易造成系统崩溃及数据丢失,难以保障系统业务的连续性。

二、事故(故障)现象
2015年7月18日晚上10:30分左右,收到服务器探测信号,短信通知,数据中心内有多台云服务器宕机,立刻作出判断,认为是XXX单位停电,马上通知主管领导及运维公司工程师,让工程师回XXX 单位确认情况。

当天晚上23时左右,运维工程师到达现场,确认为电力系统停止供电,数据中心所有设备非正常关闭,全部停止运行,所有信息化系统无法提供服务。

几分钟后,XXX单位突然恢复供电,数据中心内所有设备自主启动,运维工程师紧急处理,按顺序恢复服务器,直到所有服务器及存储设备全部正常启动后才离开现场。

00:30分左右,XXX单位物业公司来电通知,由于3号楼供电线路故障,整栋楼电力系统中断运行,无法为数据中心提供电力保障。

7月19日零时至4:30期间,物业公司抢修供电系统,电力系统时通时断,通过与物业公司电力工程师了解,期间有3次恢复通电与停电过程,最后在4:30分左右确立为线路故障,无法马上恢复。

在上述3次供电通断过程中,数据中心内服务器及存储设备在运维工程师离开现场后,经历了3次非正常关闭系统,造成无法预测硬件、系统文件及数据文件是否有损坏。

全部信息化系统(包括信息门户及税收系统)停止运行,无法支撑迎新工作。

三、事故处臵经过
(一)参与人员
组长: XXXXX
副组长:XXXXX、XXXXX、
实施人员:XXXXXX、XXXXXXX、XXXXXX
(二)工作职责
(三)信息系统恢复过程
7月19日7:30分运维工程师到达事故现场,7:45分信息中心管理人员到达,协助物业电力工程师检查电力系统,临时转接电缆,于10时20分恢复数据中心电力供应。

所有信息技术工程师到达现场,分工合作,从物理设备到逻辑云服务器进行精确检查。

实施计划:
根据虚拟化云计算系统结构要求,按顺序恢复所有物理设备,实施计划如下:
1、首先恢复所有物理链路,网络连通。

2、恢复存储服务器,正常运行,接入网络。

3、服务器集逐步恢复
1)最先需要恢复群集控制服务器,该服务器宿主于DELL R710里,IP:192.168.10.39;
2)恢复其它所有物理服务器,接入群集,让控制服务器智能调试各云端服务器,两台DELL R710,IBM刀片服务器;
3)针对信息门户需要运行的服务器,以最快速度,最短时
间,最小代价,以最小系统运行模式,恢复XX单位急需业
务,使其恢复连续性。

需恢复服务器列表及顺序如下表:
恢复实施过程:
至此,7月19日14:00分正常完成最小化系统恢复,信息门户及税收已能正常运行,信息门户已能顺利开启。

7月19日晚,信息中心管理人员晚上11:30分,检查信息门户及税收系统,状态正常。

于7月20日早上7:30,收到运维工程师通知,系统又出现故障,无法正常登录。

7:45分到达现场,查看服务器日志及状态,发现是不知名原因,物理服务器部分关键进程停止运行,导致云端服务器全部断开,失去联系。

处理办法:直接重启物理服务器,重新调整云端服务器,于9:00分全部恢复正常。

四、事故设备损坏影响范围及损失情况
事故造成XX小时信息化系统全面停止运行,影响信息门户提供
的XXXX服务,导致XXXXX无法使用,造成XXXXX不良效果,严重影响XXX单位形象;同时数据中心内部分物理设备损坏,具体损坏设备列表如下表:
五、事故原因分析
电力系统供电需要XXX单位XXXX部门及物业管理公司共同确保,所有信息化设备没有电,无法启动,信息技术人员也无能为力。

且电力供应的要求是稳定,稳压,够负载,需要备用线路。

服务器不知名故障大多数由于系统文件损坏导致,而文件损坏一般为多次非正常关闭系统(7月19日晚多次通断电,服务器经历3-4次无故关机),因此,信息管理中心技术员计划全面维护所有服务器,重新构建虚拟化云计算系统。

六、事故暴露出的问题
电力系统中断,线路故障为基础设施保障问题,信息网络管理中心对此只能提出要求,具体要求如下:1、XXX单位数据中心电力系统进线需增大容量;2、数据中心需独立开关控制;3、电力系统需有备份线路;4、电力系统维护期间,知会信息网络管理中心管理人员,若问题严重,切断数据中心电源,不要让检修时的通断电影响服务器;
5、若有停止,有预先通知的,需知会信息网络管理中心管理人员,及时处理服务器等相关设备;
6、定期检查线路,确保数据中心电力供应正常。

XXX单位数据中心设备过于老旧,网络设施大多数使用10年以上,服务器已达5年,进入老化期,硬件会多发性出现故障。

同时UPS需增加容量,最少能支撑数据中心使用6小时。

七、防范及整改措施
为防止事故重复发生,故拟采取的整改措施,要求重要设备存放地点定时专人巡视,全员学习,加强信息化设备使用的常识。

XXXX年计划信息化建设项目需针对数据中心升级改造,完成以下任务,1、数据中心门禁系统;2、环境系统监控;3、防火监控;4、温度控制;5、内部电力系统线路改造,增设备用线路;且按中XXXX 级别的环境保护规范完成。

相关主题