当前位置:文档之家› 业务持续性计划

业务持续性计划

业务连续性计划业务连续性计划概述业务连续性计划是一套基于业务运行规律的管理要求和规章流程,使一个组织在突发事件面前能够迅速作出反应,以确保关键业务功能可以持续,而不造成业务中断或业务流程本质的改变。

业务连续性是指企业有应对风险、自动调整和快速反应的能力,以保证企业业务的连续运转。

为企业重要应用和流程提供业务连续性应该包括以下三个方面。

1.高可用性(High availability)。

它是指提供在本地故障情况下,能继续访问应用的能力。

无论这个故障是业务流程、物理设施,还是IT软硬件故障。

2.连续操作(Continuous operations)。

它是指当所有设备无故障时保持业务连续运行的能力。

用户不需要仅仅因为正常的备份或维护而需要停止应用的能力。

3.灾难恢复(Disaster Recovery)。

它是指当灾难破坏生产中心时,在不同的地点恢复数据的能力。

同时,上述三个部分不是相互孤立的,是相互关联,而且有交叉的。

区分业务连续性和灾难恢复是很必要的。

严格地说,灾难恢复是恢复数据的能力,是业务连续性计划的一部分。

让业务连续性计划成为企业变化管理文化的一部分。

在制定企业业务连续性计划之后,不要把这个计划放在一边。

要确保该计划的切实可行,就需要把它变成活动的文档。

如果企业的业务模式发生了变化,或是业务过程进行了重新设计,或是发生突发状况时的重要联系人不再为公司工作,旧的计划就需要及时进行更新。

当有变化时,每个员工都应该问问自己该变化会对业务连续性计划中涉及到自己的部分会产生怎样的影响。

业务连续性计划的重要性现在的社会特别是经济社会对网络的依赖日益加深,传统的备份恢复式安全计划已经无法保证企业业务的连续运行。

业务连续性计划正是因此而生,它根据业务流程而非针对技术进行制订,有助于建立起更具统筹能力的安全管理制度。

据Gartner Group的调查结果显示,如果企业的大型数据中心和信息基础设施停止运行10日以上,超过百分之三十的企业在一个季度内倒闭,而接近90%的企业在一年内倒闭。

这些数据说明了保证业务连续有效的运行对企业来说是多么重要,同时也可以看出企业花费大量的资金于业务连续性计划最核心的原因。

业务连续性计划的基本要素BCP的基本要素笼统地说,BCP的目标只有一个,那就是确定并减少危险可能带来的损失,有效地保障业务的连续性。

而有关BCP的一些特定目标我们将在以下各个部分中加以描述。

BCP实施的最终结果是:•一组防范危险的评测指标;•一支执行团队,在经过培训后可以处理各种危险事件;•一套计划,提供危险发生时的路线图。

该计划应该是充分和完备的,必须详细落实到该计划实施范围内的每一个单位、人员或设备。

每个企业所制定的BCP都应该有每个企业或者所处行业独有的特色,彼此之间不会完全一致,但大致上说来,一个完备的BCP主要是由以下一些关键部分构成的:一、危险评估危险评估就是认识并分析各种潜在危险的结果。

这些危险的来源可能是:•各种区域性的天然灾难,如洪水、地震、疫病等;•人为事故或蓄意破坏造成的严重灾难,如火灾、恐怖主义袭击等;•安全威胁、硬件、网络或通信故障;•灾难性的应用系统错误。

所有的危险都应纳入企业的危险评估范围,并且应对各种危险的可能来源地进行较准确的定位。

对于每一种危险的来源都应该认识到:•危险的类型;•危险的程度;•危险发生的可能性。

比如说,如果按照有无警示性先兆来分,各类危险还可以分为:•有些危险可能没有任何先兆而突然发生,无法事先防范;•有些危险可以有一定的先兆,可以迅速启动应急计划加以防范,比如疫病的传播;•有些危险可能从来不会发生。

如果按照危险的破环类型或程度来分,它们对业务的影响可以分为:经营场所及设备完全破环;•经营场所及设备部分破环;•经营场所及设备完好,但人员不能进入,比如疫病的隔离、恐怖威胁造成的人员输散等。

显然,对于企业来说,一个完备的BCP必须尽可能多地考虑到所有可能的危险情况,只有处理灾难性事件的计划而没有处理应用系统失误的计划,这样的BCP是不完备的;反之亦然。

企业所制定的BCP应该同时兼顾两个方面——预防和控制。

例如,人为事故和蓄意破坏可以通过物理安全和个人行为的评测来预防。

而应用系统的错误则可以通过对软件的有效评测与测试来预防。

危险评估的最后结果应该是一份有关危险效益分析的详细陈述报告,要有对危险的精确描述、哪些危险可能发生,以及需要采取的保障业务连续性和缓和危险的措施,同时要有因为克服了危险而带来的收益分析。

这份报告还应该描述清楚任何现有的前提或者限制因素。

二、业务影响分析(BIA)业务影响分析(Business Impact Analysis)实质上就是对关键性的企业功能、以及当这些功能一旦失去作用时可能造成的损失和影响的分析。

对于企业业务运营的关键人员来说,他们需要分析:A.影响•哪种功能对于企业的整体战略而言是生死攸关的•该功能在多长时间内失效不会造成影响和损失•企业的其他业务功能由于该功能的失效会受到何种影响——运营影响分析•该功能的失效可能造成的收入影响——财务影响分析•该功能是否会对客户关系造成影响——客户信心的损失•该功能是否会对市场份额造成影响——市场占有率的下滑•该功能是否会对企业在行业中的地位造成影响——企业竞争力的损失•该功能是否会影响今后的销售——机会的丧失•什么是最大的/可承受的/可允许的失效 B.业务恢复需求•要使该功能连续,需要哪些资源和数据纪录•最少的资源需求是什么的程度,通过与外部世界的正常通信联络挽回企业的声誉,并启动必要的恢复时间表。

对业务中断的第一反应应该是告知所有相关的人员。

如果危险有事前警示的话(比如这次的非典爆发),那么这种告知就可以提前进行。

及时的告知非常重要,因为这可能会给阻止危险的进一步扩大创造机会。

如果在适当的时机执行一次关机、一次转换或者一次撤离,甚至有可能完全防止危险的发生。

但是这需要有诊断或探测控制的存在。

这类控制或者可以持续扫描以探测发生中断的征候(网络、服务器),或者可以从外部资源搜集信息(自然灾害)。

准确的告知程序必须事先制定好。

必须清楚地记录在案:需要告知谁,怎样告知,由谁告知,而且还得有逐步扩大的机制。

在BCP中必须设立好一棵告知树。

最初的告知发送给一组人,然后再由他们中的每个人去告知另一组人,依次类推。

属于这棵告知树的人都有不同的责任和作用,所涉及的人员应包括:•管理团队——需要获得有关危险发展状况的信息。

该团队有权力启动紧急响应体系和下一步的行动。

管理团队还要负责与媒体、公众、客户以及股东们打交道。

•危险评估团队——需要立刻对危险进行评估,评价业务中断的严重程度。

•技术团队——应当为关键决策制定者如何采取下一步BCP行动提供服务。

•运营团队——应当执行BCP的实际运作。

还有很重要的一点就是每一个团队都应明确第二负责人。

万一第一负责人没有通知到或者无法负起责任,那么必须告知第二负责人。

告知可以使用各种工具或手段:如手机、呼机、短信、电话和E-mail。

每个团队都应当有相应的配备。

危险评估团队应该是最早(或者与管理团队同时)被告知的。

他们应当最早来到现场,以便评估所遭受的危险程度和级别。

如果工作现场已经遭到破坏,那么他们就应该做好各项准备,一旦允许进入现场就开始工作。

评估过程本身也应有计划地进行,必须与保障业务连续性的优先顺序密切相关。

这就是说评估团队应当意识到危险所影响到的工作区域和工作流程是否对整个业务的运行至关重要。

这将有助于他们优化其评估进程,同时也可正确地关注关键性工作区域。

这支团队需要察看以下事项:•中断的原因是什么•阻止危险扩大的前景如何•基础设施和设备受损情况•业务受影响状况•关键记录受损情况•可以挽回什么损失•什么设备需要修理、恢复和更换有了危险评估团队提供的有关受损程度和受损区域的详尽信息,技术团队便可立刻投入工作。

BCP必须拥有一组基于业务影响分析和持续性目标的预设参数,这些参数应该能够区分出中断和灾难的不同性质,同时也能评价出危险的严重程度。

当危险评估团队和技术团队开始工作时,其他BCP团队也应依照警示告知到位,以便按照连续性计划采取应当采取的行动。

C.业务接续(Resumption)业务接续只涉及那些时间敏感的业务流程,要么是在中断发生后立即接续,要么是在可允许的一段平均时间后接续,但不是对所有业务的恢复。

一旦BCP被激活,命令将从指挥中心发出。

这个指挥中心应该是在一个不同于日常经营场所的地方。

该中心应配备相应的通信设施、办公设备,可能的话还应该构建局域网和VPN。

需要做出的第一个决策是,关键性业务的运营能否在日常的工作场所或者在一个备选场所很快恢复运营。

备选场所可以分成以下几类:(a)空场所(Cold Site)——该场所只需配备必要的环境条件即可,比如说,应配备电话插座、电源以及UPS等,但要避免其内有任何其他设备,它的作用就是准备将保障业务持续所需的全部设备搬移进来。

(b)热场所(Hot Site)——该场所是一个完全的备份场所,有人员工作的空间,所有设施一应俱全,数据备份也是最新的。

一旦灾难发生,BCP团队只需进驻该场所就可开始工作,不会有额外的时间拖延。

(c)温场所(Warm Site)——该场所实际上就是配备了部分设备的热场所,数据备份不算最新,但也不能太旧。

(d)机动场所(Mobile Site)——该场所是一个具有较小设施配置的机动场所。

可以位于主要经营场所附近,因而也可节省关键人员在路程上花费的时间。

(e)镜像场所(Mirrored Site)——该场所在所有方面都与主要经营场所完全相同,信息和数据也与主要场所同步。

实际上该场所就是正常状况下的一个冗余场所,因而通常也是成本最高的一种选择。

在备选场所(或主要场所,如果仍然可用的话),工作环境需要恢复。

通信、网络和工作站需要设置。

与外界的联系必须持续畅通。

企业可以首先手动恢复一些业务,直到关键的IT业务可以继续运行为止。

当然,如果恢复计划(下面就要讲到)允许,那么关键业务功能也可采用自动方式迅速恢复。

D.业务恢复(Recovery)业务恢复是启动时间敏感度稍低一些的业务流程。

业务恢复的开始时间要取决于接续那些时间敏感的业务流程需要的时间。

在进行业务恢复的场所(可以是主要经营场所或备选场所),需要在备份的设备上恢复操作系统,并按照关键性次序恢复必要的应用系统。

当服务于关键功能的应用系统恢复之后,则需要从备份磁带或其他异地备份媒介上恢复数据。

备份数据也必须经常保持同步,也就是说,重建的数据应当与业务中断之前的某一预先确定的时点的数据相吻合。

该时点的选择取决于关键业务的要求。

由于商业数据有各种不同的来源,因此重建的每一种数据都必须达到所需的数据一致性状态。

经过同步的数据必须经常进行复查并保持其有效。

相关主题