111计算机系统重大突发性事件应急预案第一章计算机系统重大突发性事件应急预案1.说明华夏人寿保险股份有限公司信息系统应急方案是为了确保当华夏人寿关键系统发生故障或供应链因以外中断时,关键业务仍可继续运作,而预先制定和准备的一系列操作方案。
本应急方案并不能代替解决问题的工作,它只提供一个最低可接受的服务水平,以便有充足的时间去修复出现故障的系统。
其价值在于,计划和方案在危机出现前就已经制定好,能最大限度地争取时间。
通过应急方案主动的有预见性的,而不是被动地仓促地对紧急情况做出反应。
2.应急方案的目标/范围2.1目标与范围(1)业务连续:确保华夏人寿的日常业务能够连续运行,不出现中断。
在某些系统或子系统功能失效的情况下,关键系统不至于瘫痪,主要功能不会丧失。
(2)降低风险:应急方案必须采取各种措施,把由于问题而产生的风险降到最低。
(3)减少损失:对于可能产生的风险,采取技术和管理方面的补救措施,尽量将各种损失减少到最低。
(4)避免灾害:尽量避免因为系统故障而产生灾害的高危系统造成的直接或间接影响,确保人民生命财产安全和社会稳定。
目前,华夏人寿保险公司基于计算机和网络的业务处理系统主要包括核心业务系统、财务系统和办公系统。
2.2关键业务系统描述核心业务系统业务生产系统配置1台8420服务器和1台7420,8420和7420分别划分两个硬件分区,一个硬件分区配置是4、8G内存作为业务系统的数据库服务器,另一个硬件分区是4、4G内存作为业务系统的应用服务器。
一套磁盘阵列500,作为核心业务系统和财务系统1 / 14 的硬件支撑平台。
另外配置一台3410作为核心业务系统及财务系统的测试服务器,运行非关键的开发和测试工作。
财务系统财务系统安装在1台4440服务器上,同时与核心业务系统共用一套磁盘阵列500。
4440也划分两个硬件分区,一个硬件分区配置是2、4G内存,运行财务系统的数据库,另一个硬件分区配置是2、2G内存,运行财务系统的应用程序。
核心业务系统的服务器与财务系统的服务器做双机互备,平时业务系统运行在8420上,财务系统运行在4440上,当一台服务器的一个分区发生故障时系统切换到另一台服务器的相应分区上运行。
3.应急团队组织结构应急方案都是在发生灾害的非常时期进行。
因此,充足的人力资源配备和明确的责任分工显得尤为重要。
如果没有一个组织有序的团队,很难保证灾难发生时能够在既定时间内完整、成功地实现灾难处理和业务恢复。
从华夏自身来看,其实施应急的团队组成不仅要横跨各个部门,还要纵向包含省分和市分等多级机构。
因此,合理地组织华夏各级机构的各个业务部门的人力资源,根据灾难恢复方案的需要明确各个团队成员分工,是保证应急方案顺利实施的基础。
更重要的一点是,将各个组织部门的管理层纳入应急实施团队或至少得到他们的充分承诺是整个应急系统成功的关键因素之一。
这里需要说明的是:由于灾难的偶然性和突发性,应急团队并不需要全职地投入到应急工作中。
实际上,整个团队中除了应急实施负责人和协调人之外,其他成员在日常工作中都是兼职地加入应急团队,其担负的任务和责任也只是其日常工作地一部分而不是全部。
但是,整个应急团队需要在建立和修订应急方案时全职地投入应急工作,这些工作至少持续到整个方案测试结束,以保证团队对应急方案的实施能力。
3.1 团队负责人根据华夏的组织结构情况,设立应急负责人组成整个应急系统的最高管理层。
应急负责人是整个应急系统的最高负责人,是具体实施2 / 14 应急的领导者。
3.1.1作用应急负责人全面负责整个华夏的业务持续和灾难恢复工作,包括方案制定、人员组织沟通、方案演练、文档和测试工作。
应急负责人的主要作用就是保证华夏能够在发生灾难的情况下保持关键业务的持续运行,将灾难损失降低到最小程度。
3.1.2职责保持和本级高级管理层的联络;?具体负责应急方案的制定和实施;?保证所负责的区域内的灾难恢复和业务持续;?共同保持整个华夏范围内的应急知识普及;?协同华夏各部门的应急工作。
?3.2 应急协调人3.2.1作用具体联络相关小组实施应急负责人下达的各项任务,协调上下级之间和各部门之间的联络和协同,并且他们还要作为制定和实施应急方案的联络人。
3.2.2职责组织和协调所负责区域的应急相关的各项工作;?对本区域的人员进行相应的应急知识培训;?组织各部门的应急演习和评审;?联络和沟通本区域的各个部门以及外部供应商和服务商。
?3.3 灾难恢复小组灾难恢复小组是应急方案的具体执行者,负责执行和灾难恢复相关的具体职能。
根据各项职能的要求,每个小组大约包括3到5名成员,由组长负责本组的工作,并且在每个组中还要有一个候补的小组负责人。
各个小组都需要由应急中心和所支持的省公司的相关人员共同组成,在灾难发生时共同利用应急中心的资源完成灾难恢复和业务延续。
各个小组在应急负责人的领导下进行工作,通过应急协调人和各级部门之间进行沟通。
根据实际工作的需要,可以对小组的工作进行3 / 14 具体的详细划分,或者增加新的职能小组。
应急负责人、协调人和各小组的组长一起构成整个应急团队的管理层,由他们负责指导华夏应急方案的制定和实施。
以下具体描述各小组的职能和组成。
3.3.1设施恢复组设施恢复组负责监控本区域内所有的物理设施,包括平时的预防工作和灾难发生时的损失评估、保护、维修和转移,以及在应急管理层的指导下,进行灾难地和应急中心之间地物理设备切换。
根据其职能,设施恢复组主要包括以下人员:设施规划和运行维护人员;?资产管理和审计人员?供应商和服务商联络人员?设施相关的技术专家?安全管理人员?法律和保险管理人员?3.3.2行政管理组行政管理组负责为其他职能部门作好所需的后期保障工作,包括运输、安全保卫、资金、人员调配和公共关系等。
行政管理组主要包括以下人员:具有足够资源调度授权的经理;?运输、财务、人事、安全保卫、公共关系相关人员;?外部服务商、供应商联络人员;?行政助理?3.3.3系统恢复组系统恢复组负责保证支撑关键业务应用的平台系统的恢复,并及时提供给相关的业务部门。
系统恢复组主要由以下人员组成:系统管理员?供应商联络人员?3.3.4通讯恢复组通讯恢复组负责维护和保障应急方案中的通讯需要,包括语音通4 / 14 讯和数据通讯,尤其是灾难恢复所需的指挥通讯和恢复关键业务应用所需的数据通讯。
通常通讯恢复组需要借助第三方的网络供应商来完成所需的通讯保障工作。
因此,通讯恢复组包括:网络及通讯系统维护人员?网络服务供应商联络人员;?设备供应商联络人员;?3.3.5用户联络组用户联络组负责应急团队和各业务部门的沟通和联络,以使应急团队及时了解详细的灾难影响以及来自业务部门的需求,同时,也是业务部门了解应急团队的灾难恢复工作进展情况,帮助双方更准确地进行相应的决策。
用户联络组人员组成:各业务部门代表?应用系统专家?3.3.6数据控制组数据控制组负责应急的数据备份和恢复工作,包括制定相应的备份计划、恢复优先级的评估以及恢复方式,并在灾难发生时负责实施相应的数据恢复工作。
数据控制组由以下人员组成:数据控制经理;?数据备份管理人员;?备份介质管理人员;?原始单据管理人员;?数据录入组织人员;?3.3.7应用恢复组应用恢复组负责业务应用系统的恢复,这个小组和系统恢复组、数据控制组一起完成业务支撑应用系统的恢复工作,实现业务的延续运行。
应用恢复组的成员主要有:应用系统管理员;?5 / 14应用系统开发商维护人员;?3.3.8配合协作组配合协作组负责应用系统发生问题时,和其它恢复小组一起完成业务支撑系统的恢复工作。
主要成员根据业务系统影响的范围而定,例如在与分公司、支公司或者营销部的某些业务受到影响时,则需要当地技术人员的配合,一同完成业务系统的恢复工作。
4.关键业务监控技术平台针对华夏人寿业务系统技术新、规模大、可用性要求高、管理任务重的特点,华夏人寿除了配备了高素质的技术支持团队,而且采用了完整的数据库管理解决方案,能够完全满足寿险核心业务系统管理需求。
5.应急处理流程应急处理流程分为事件级别判定、事件处理及升级程序。
5.1事件级别判定事件级别定义:序号事件级别颜色标识故障现象描述系统运行中断,对用户业务的运行有严红色1 一级故障重影响。
系统中重要功能受损、主要性能指标严橙色二级故障2 重下降,影响和限制了部分业务运营。
在系统主要功能及性能指标运行正常的 3三级故障黄色情况下,系统部分功能与性能受损。
对于华夏人寿重要的核心业务系统、财务系统,主机、数据库、网络系统有着至关重要的作用,根据事件级别的定义,主机、数据库、网络系统的事件级别判定标准如下:6 / 14事件颜故障现象描主机系数据网标级红系统运行中断,核心业务核心交换机用户业务的运行机瘫痪故骨干网络线严重影响法正常使用不能使用橙系统中重要功能核心业务交换机或路损、主要性能指响应缓慢故器性能下降严重下降,影响慢、出现或者网络带限制了部分业务重报警信使用率超出营性等错误载能力误黄在系统主要功能核心主机故性能指标运行正本上正常基本正常常,但是出的情况下,系统作,但存网络数据偶硬件或系停顿等现象损级错误,得主机系行不够稳定性能有所降蓝在系统无故障或主机系统故影响用户业务运行正常,运行正常常,对网络的情况下,用户是在主机路使用或设系统的功能安装配置、性能优化置、或性数进行调整进使用方面提出技优化方面咨询服务要求要改进7 / 145.2事件处理程序事件预防措施类型事件紧急处理程序级机房强电停电,二关闭非关键业环服务器与相关检测,增加待时时统管理员联系好系统关机准备三司吸扫漏水警系统,加强切环管小面积漏水,水源房环境巡检,联系相关积1/,没有决问题及强、弱电模块防水工络设备的运机房漏水,漏水一司吸扫漏水警系统,加强切环水源房环境巡检,,水联系相关面积1/决问题防水工电短路、弱电模不能正常通立即与集成商二业务生产主机、施行双机热备商联系报告故障加强系统巡检系主机宕份主机启动备统备加强系统巡检迅速与集成商一磁盘阵列宕系期进行诊断,和解决问备加强系统备份邮件系统故障,二加强系统巡检的用户联系软系内恢决问题,增加复件冗余措考虑硬件冗余三考虑线路冗余系商系统集成商线路出现故障,加强日常监小理时间超决问考虑硬件冗余二营8 / 14系统集成商联商、公考虑线路冗余,连接的分系统公司解和原因加强日常监控聚端出现故系分析司汇决问题障,影响分公司通三考虑硬件冗余系统集成商商考虑线路冗余系线路出现故障,加强日常监决问小理时间超一考虑硬件冗余系统集成商聚端出现故障,考虑线路冗余商系加强日常监分公司的通决问二考虑硬件冗余并手动切换系加强日常监控系备份设统备立即与集成商台核心路由器考虑硬件冗余一借用设商联系系台核心交换机加强日常监控暂时恢复服务发生故统备对设备进行修复修改外网地址二安装防火务攻击出口堵事即联系集成商内部网络遭入侵一安装防火备份击的端口并教要日志文件厂商系集成商行分析和处理9 / 145.3 事件处理时限和升级程序时一级故二级故三级故四级故相关业务部门相关业务部门3(分公司)主(分公司)主管高级工程(分公司)主管工程工程工程小信息技术部门分公司)主管级工程小分管信息工作信息技术部门(分公司)主高级工程公司领导(分公司息管理领(分公司)公司领信息技术部门小管高级工程2保监分管信息工作信息技术部门公司领导(分公司息管理领公司领4信息技术部7信息技术部门司)信息管领导信息系统重大事项汇报制度第二章一、概述可能引起或已经产生严重不良后果的本制度定义了部门工作中,事项:包括重大项目和重大事故,统称为重大事项。