当前位置:文档之家› 业务连续性体系建设解决方案

业务连续性体系建设解决方案


第 4 页
2、灾备中心基础环境建设 灾备中心是以最高的可靠性和可用性为标准建设的,具备数据实时备份、冗余 处理能力和网络传输条件,能够在生产中心面临灾难无法正常运作的时候提供替代 服务,对业务系统进行紧急恢复。灾备中心的设计内容包括机房规模和配置、布局、 电气、机械、火警探测和灭火系统、数据中心访问控制等。为了实现业务连续性, 灾备中心建议按照国标 A 级机房的标准来设计和建设。
随着社会的发展和科技的进步,真实有效的信息已经成为企业赖以生存的源泉, 企业信息化的水平已经成为企业的核心竞争力。 在业务科技时代,IT 就是业务,过去强调若干个“9”的高可用性概念正在被业 务连续性&可用性(business continuity and availability,BC&A)所代替。因为, 机构客户真正关心的不仅是 IT 系统的正常运行,而是保持 IT 系统所支持业务的正 常运行、持续提供高质量的服务、使客户在任何时间得到所需的信息和服务。 遗憾的是,在现代企业的信息服务和 IT 系统管理过程中,面临着许多安全性挑 战和威胁,往往由 IT 故障使得机构停止提供服务,造成很大的损失。为了保证企业 24x7 连续运营,建设企业业务连续性管理体系成为企业的共识。 在建设业务连续性管理体系过程中,各行各业的用户,需要针对自身情况,设 立可行的业务恢复目标,并制订出切合实际、投资合理、可靠的业务连续性及技术 方案。 通常我们在建设业务连续性项目的流程上分为 5 大阶段。 整体计划阶段:主要包括业务模型分析(确定各业务系统之间的逻辑关系) ,风 险分析,业务影响分析,当前业务环境及恢复能力分析。 业务连续性策略制定阶段:然后根据分析结果(RTO,RPO)制定不同的策略,编制 业务连续性计划,根据计划进行容灾方案选择及业务恢复流程设计,组建灾难恢复 管理队伍。 技术实施阶段:在此阶段根据容灾方案进行容灾系统的建设,落实相应的规章 制度。 业务连续性计划与演练阶段:业务连续性预案的编制、测试与演练。 灾难系统运维阶段: 此阶段贯穿整个业务连续性体系管理的全生命周期,涉及 灾备中心的基础设施和容灾系统的运维。
第 8 页
三、技术实施阶段 1、容灾方案的实施
四、业务连续性计划与演练阶段 1、制定务连续性预案 2、灾难演练
五、灾难系统运维管理 在企业完整的业务连续性体系架构中,灾难恢复体系的建设是基本,灾备系统 运维管理的质量和水平,决定着企业是否能够有效应对灾难,确保业务持续。 灾备系统的运维对象包括基础设施和 IT 系统两大方面。基础设施运维这里主要
由于灾备中心另一个重要的职责就是要确保放置在灾备中心的灾备系统平常的 可用性。因此,灾备中心应习惯于制订详细的设备检查与维护工作计划,然后按每 半个小时、1 个小时或其他频率实施计划。 质量控制难度较大
灾备中心归根到底就是通过日常严格的管理与训练有素的演练,在必要时提供 灾难切换服务,能够满足 RPO(灾难恢复时间点目标:主要指灾备系统可以恢复至灾
第 7 页
难发生前的具体时间点)与 RTO(灾难恢复时间目标: 主要指利用灾备系统接管生产系 统恢复运营所需要的时间)的要求。保证灾难恢复的有效性是一项非常专业的工作。 为了克服上述灾备中心面临的运维挑战,确保灾备中心的运行维护质量水平, 建议引入 ISO9001、ISO27001、ISO20000、ISO14000、BS25999 标准,确定以 ITIL 为基础的灾备中心管理体系和流程。内容包括日常操作运行管理标准与流程、变更 管理、问题管理、配置管理、应急响应及恢复管理、BCP 维护管理、安全管理等。
关键点:
很高的灾备恢复指标(RTO,RPO) 主数据中心承担100%的生产负荷,同时数据镜像到灾备中心。(可以演 变为同城双活中心) 无法预防同城级别的灾难 每个中心都需要定期进行演练 灾备中心可以自建或外包 b) 异地模式
第 2 页
关键点:
主数据中心负责100%的生产负荷 可以预防同城级别的灾难 数据丢失量较大 灾备演练主要在B中心进行 对于运维管理的要求较高 异步数据复制必须保证数据的一致性 灾备中心可以自建或外包
下面详细介绍业务各个阶段重点关注的内容:
第 1 页
一、整体计划阶段: 1、风险分析 2、业务影响分析
二、业务连续性策略制定阶段 1、灾备模式的基本体系架构 在进行灾备数据中心的建设时,需要从大规模灾难的影响度,业务策略,成本, 技术可用性,数据中心的环境,当地法律法规和审计的要求进行全面考量。现在比 较成熟的灾备数据中心的建设模式有以下多种。 a) 同城模式
第 5 页
绿色”要求进行规划设计与建设,既节省资源成本、顺应时代潮流的需要,也体现 了重视社会责任。以下将在节能方面介绍建设绿色数据中心的主流技术。 规划与设计阶段 采用外立面封闭式设计 采用模块化设计 采用热力分析模型设计 采用冷热通道分离设计
建设阶段 运用新型保温建筑材料 采用环保消防气体 机房采用效率更高的制冷系统,如磁悬浮水冷空调系统、冷热联动技术等 因地制宜选择可行的自然冷却技术 4).建设方式 灾备中心的建设方式可采用自建、共建与外包建设等方式,三种方式各有优势, 需要结合各类机构的实际情况加以选择。 3、灾备技术选型
c) 两地三中心
关键点:
数据中心B可以仅为数据备份中心,也可以为全系统灾备中心 可以全面防范同城与异地的灾难 异地数据丢失量较大 基础设施和人力资源投入较大
第 3 页
对于带宽的要求较高 需要额外的运维团队进行日常运行维护与灾难恢复/演练 灾备中心可以自建或外包 d) 同城双活与异地灾备三中心
关键点:
数据中心A与B共同承担生产负荷 数据中心C可以只存放数据或者是全系统备份 基础设施与人力资源投入较大 需要额外的运维团队进行日常运行维护与灾难恢复/演练 可以防范同城与异地范围内的灾难 灾备中心可以自建或外包 e) 两地四中心
关键点:
同城双活并互为备份 基础设施与人力资源投入巨大 可以防范更大范围与级别的灾难 很高的灾难恢复指标
第 6 页
指为保障灾备中心所管理 IT 设备正常运行所必需的网络通信、电力资源、环境资源 等。 这部分设备对于 IT 系统来说几乎是透明的, 因为大多数企业基本上只关注业务, 并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础 设施的灾备中心的应用却是致命的。 灾备系统的运维过程涉及三大方面:日常运行维护方面、应急和恢复阶段、接 替生产运行维护方面。 灾难恢复业务的特殊性为灾备中心的运营管理带来了与众不同的挑战,具体包 括: 7×24×365 的要求 由于大多数灾难的发生是无法预知的, 作为灾备中心必须能够提供 7×24×365 不间断的灾难恢复服务,确保灾难事件发生后有足够的能力支持业务恢复。如何能 使灾备中心的工作人员时刻保持高度的责任心和敏感度去面对每一项日常工作,使 企业的服务水平在一年的每分每秒都能保持同样的水平。 “小概率、高风险”的管理要求 由于灾难事件的发生属于小概率事件,因而真正能够使用到灾备中心的概率很 小。如何在平时几乎不使用的情况下,仅依靠日常的严格管理就能确保所有服务的 可用性,则是灾备中心管理的另一个难点。 “演练为主,实操为辅”的日常管理要求 如前所述,灾备中心的启用本身就是一个小概率事件,兼之在业务连续管理中 有一个重要的原则就是要对业务连续计划经常演练。因此,日常管理中应当经常采 用各种各样的方式,使灾备中心的人员投入到不同的场景当中。通过这种经常性的 演练,让他们熟悉每一项工作的步骤,而且能逐渐适应灾难场境中所带来的各项压 力,确保当灾难真正来临时,灾备中心的人员均能按要求完成相关工作。 工作重复性较强
灾备中心基础设施建设应重点考虑以下因素:
1).选址 数据中心在选址时通常需要远离加油站等易燃易爆场所,远离粉尘、强振动源 和强电磁辐射源,选择交通通信方便、配套设施齐全、自然环境和地质条件良好的 地方,从而有利于保证设备的安全运行,减少周围环境对其设备的危害,这是生产 中心和灾备中心在选址时的共同点。 在选择或建设灾备中心时,应根据风险分析的结果,避免灾备中心与生产中心 同时遭受同类风险。灾备中心还应具有方便灾难恢复人员或设备到达的交通条件, 以及数据备份和灾难恢复所需的通信和电力等资源。 2). 基础条件 灾备中心环境要求与生产中心相同,各项建筑基础环境(如防雷、防火、防静电、 承重、分区隔离等)、供配电环境、温湿度空调环境、消防和监控安全环境等,都应 参照生产数据中心机房环境设计,至少达到生产数据中心机房环境所属等级要求。 考虑到灾备恢复情况下额外的外部技术支援,从基础设施功能分区的角度考虑,生 产中心和灾备中心都应当配置 IT 设备区、监控室、UPS 室、会议室、其他设备用房、 客户接待区、客户操作区、客户测试室和客户休息室等。由于灾备中心需要为客户 提供灾难发生时进行紧急恢复的工作空间,还应包括指挥中心室、新闻发布厅、VIP 办公室、介质储存室和问题解决室等。 3). 绿色节能设计 在全球能源日趋紧张、能源成本不断上涨的趋势下,灾备中心也正面临着降低 能耗、提高资源利用率、降低整体运营成本的严峻挑战,构建节能型的绿色数据中 心受到越来越多的重视和关注。各个机构在建设数据中心时,应按照“节能减排、
相关主题