当前位置:文档之家› 灾难恢复管理流程

灾难恢复管理流程

罕王实业集团有限公司
信息中心
灾难恢复管理流程
编号及版本号:HK
责任部门:信息中心
发布(施行)日期:2015年1月 4 日编制人:
审核人:
批准人:
《信息中心灾难恢复管理流程》履历表
表单编号:
第一章总则
目的
确保公司业务的持续性,避免人为和自然灾害带来的风险。

具体目标如下:1)将信息系统运行的中断降到最低;
2)限制中断和损害的范围;
3)将中断的经济影响降到最低;
4)预先建立备用操作方法;
5)培训人员处理紧急过程;
6)提供顺利快速的恢复服务。

适用范围
本流程适用于信息中心负责的所有信息系统。

职责
1

2

第二章细则
流程说明
资产列表
在此列出了公司业务持续所必须依赖的信息系统和重要数据,下列各表应6个月核查一次。

1)基础硬件:包括服务器、磁盘阵列、个人计算机、打印机、传真机、磁带机、常规数据

2

3

灾难恢复计划
自然灾害
这里的自然灾害指造成公司所在建筑物毁灭性损失的火灾、地震、水灾、地面塌陷等灾害。

自然灾害在灾难分类中出现几率最小,但造成损失是最大的。

流程说明如下:
1)确定损失情况。

自然灾难发生后,灾难恢复小组成员立即建立联系,具体了解公司的损失情况,了解的范围包括:人员、物理设备、数据。

小组成员根据了解到的损失情况编制《损失一览表》。

2)通知用户服务中断。

损失情况了解清楚后,灾难恢复小组成员讨论预估的恢复时间。

灾难恢复小组组长根据《损失一览表》确定有哪些服务不能正常提供,马上联系用户通知服务中断并告知估计的恢复时间。

通知用户可以通过电话联系、张贴通知、电子邮件等方式。

3)联系保险公司。

发布服务中断的信息后,灾难恢复小组组长根据《损失一览表》中记录的损失情况检查是否有财产投保,如果有则应马上联系保险公司申请理赔。

4)联系服务商。

灾难恢复小组确定损失情况后,小组成员根据《损失一览表》中记录的设备损失列表,联系该设备的提供商,重新购置或者租用设备,并确定设备的到货日期和地点。

5)确定新的机房和办公地点。

如果公司原先的机房和办公地点已经无法使用,灾难恢复小组组长应向总裁提出申请,确定新的机房和办公地点。

6)安装调试新的物理设备。

新设备到货后,灾难恢复小组组长部署新设备的安装和调试工作。

安装调试任务明确后,灾难恢复小组组长应和各信息系统管理员确定完成部署的时间,如果完成时间和前期通知用户的时间不同,应通知用户最后确定的系统恢复时间。

7)恢复系统数据。

新设备安装完成后,IT(网络、操作系统)工程师取出备份的最新数据,执行数据恢复操作,各应用系统的数据恢复参照各应用系统的操作手册。

8)告知用户服务已恢复。

系统恢复运行后,恢复小组组长向用户发布通知,告知系统已经恢复运行。

9)填写《灾难恢复报告》。

流程图请见图1。

电力故障
UPS能够避免短时间的电力中断故障造成的损失。

这里的电力故障指超出UPS承受范围的大范围停电事故,这种长时间的停电会造成业务停止和数据的丢失。

流程说明如下:
1)确定恢复时间。

IT(网络、操作系统)工程师在明确电力中断故障后,立即联系电力供应部门,了解电力故障的原因,确定电力恢复的时间。

并立即通知各信息系统管理员。

2)关闭设备。

IT(网络、操作系统)工程师在UPS供电期内关闭所有服务器设备,防止断电造成损失。

3)通知用户。

系统管理员通知用户因电力故障服务中断,并告知用户恢复的大概时间。

通知的方式可以是电话、张贴通知、邮件等。

4)启动服务器。

在电力供应恢复正常后,IT(网络、操作系统)工程师按照手册启动设备,并通知各个应用管理员检查各自负责的应用系统是否已经正常启动。

如果应用管理员发现应用程序没有
自动启动,应手工启动,并检查未自动启动的原因并修正。

5)填写《灾难恢复报告》。

流程图请见图2。

通信故障
通信故障分为局域网和广域网两种情况,出现通信故障时联系表中的灾难恢复小组人员。

1)确定恢复时间。

系统管理员在明确通信故障后,若为广域网故障,立即联系通信部门,了解通信故障的原因,确定通信恢复的时间;若为局域网故障,确定故障原因和预计的恢复时间。

2)通知用户。

系统管理员通知用户恢复的大概时间。

通知的方式可以是电话、张贴通知、邮件等。

3)填写《灾难恢复报告》。

流程图请见图3。

软硬件故障
这里的软件是外购的系统和应用软件,软硬件故障可能会造成业务停顿甚至瘫痪,造成软件故障的可能原因有:病毒入侵、软件内部潜在缺陷等。

用户在发现软硬件故障后,立即通知信息中心系统管理员,详细操作步骤见IT使用及服务规定流程。

灾难恢复计划的测试
测试过程说明
1)灾难恢复计划每年至少修订一次,修订后进行测试;在灾难恢复计划本身或应用环境发生重大变化之后需再测试一次。

测试尽量安排在对业务影响最少的时间段内。

2)测试中发现问题后,立即修正灾难恢复计划并经过审批后发布。

3)测试完成后,灾难恢复小组组长指派专人填写《灾难恢复测试记录单》。

测试内容
1)桌面测试。

这是最简单的灾难恢复测试,持续时间短却很容易暴露问题。

灾难恢复小组组长召集所有小组成员,并向每人发放一份灾难恢复计划副本。

组长简单描述灾难情况后,开始讨论计划的每一步,并重点讨论各小组成员的职责。

讨论应当包括可能和不可能发生的情况,以及恢复事件发生的时间等。

通过这个过程检查恢复计划存在的问题。

2)联系方式有效性测试。

检查企业是否能够通过表上的电话号码,联系到小组的所有成员。

另外还应检查小组成员的位置是否发生了改变。

3)系统恢复操作有效性测试。

根据桌面测试的副本准备系统测试环境,从备份数据中恢复系统。

检查恢复系统的有效性,检查恢复所需的时间是否符合要求。

具体的操作请见各设备和系统的操作手册。

相关记录
“损失一览表”ITR0045
“灾难恢复测试记录单”ITR0046
“灾难恢复报告”ITR0047
流程图
图1
图2
图3
第三章附则
本流程由罕王集团信息中心负责制定、修订和补充,报总裁审阅审批后发布。

本流程自颁发之日起执行。

相关主题