当前位置:文档之家› 数据中心基础设施运行维护管理规范

数据中心基础设施运行维护管理规范

数据中心基础设施运行维护管理规范征求意见稿数据中心基础设施运行维护管理规范编写原则:1、每个小节名称不可和章节名称相同;2、正文条文中不得有目的的描述,如需可在条文说明中描述;3、正文中不得采用形容词;4、每个条文应注明主语,语句中不可出现“包括但不限于”这样的不规范用语;5、正文中凡是“例如”的部分应体现在条文说明中。

目录第一章总则第二章符号和术语第三章一般规定第四章运维流程第五章组织架构及人员管理第六章文件管理第七章日常维护第八章应急管理第九章环境健康和安全第十章数据中心一体化运维管理第十一章质量管理的监督与检查第十二章其他第一章总则1.1、范围本标准给出国网数据中心基础设施运维管理的指南,包括总则、符号和术语、一般规定、运维流程、组织架构及人员管理、文件管理、日常维护、应急管理、环境健康和安全、数据中心一体化运维管理、质量管理的监督与检查、成本管理等。

本标准可为国网数据中心管理者提供基础设施运维管理系统性指导,也可作为用户或第三方评价国家电网数据中心基础设施运维管理水平的参考。

1.2、规范性引用文件下列文件对于本标准的应用是必不可少的。

凡是注明日期的引用文件,仅注日期的版本适用于本标准。

凡是不注明日期的引用文件,其最新版本(包括所有的修改单)适用于本标准。

GB/T 33136 信息技术服务数据中心服务能力成熟度模型GB/T 51314 数据中心基础设施运行维护标准GB/T 2887 计算机场地通用规范GB/T 26572 电器电子产品有害物质限制使用管理办法GB 26860 电力安全工作规程发电厂和变电站电气部分GB 50174 数据中心设计规范DL 408 电业安全工作规程AQ7004-2007 制冷空调作业安全技术规范GB/T24353风险管理原则与实施指南第二章符号和术语2.1、数据中心能效管理是在保证业务连续可用的基础上,应用工业自动化、数据采集分析等多个技术对数据中心全生命周期内连续供应的能源进行综合利用、能效分析评估及改善提升。

2.2、电力能耗指标PUE(POWER USAGE EFFICIENCY)=数据中心总电力能耗/IT设备能耗,用于反映数据中心电力用于IT设备和辅助IT设备运行的效率衡量指标。

2.3、水能耗使用指标WUE(WATER USAGE EFFICIENCY)=数据中心耗水量/IT设备功耗,用于反映数据中心用水损耗指标。

2.4、能效是能源利用效率(数据中心实际消耗的总能耗与IT设备能耗之比)的简称。

2.5、数据中心设施运维团队以数据中心设施运行提供保障支持为主要工作内容的团队。

2.6、安防团队以数据中心的消防、周边和安全相关监控管理为主要工作内容的团队。

2.7、综合管理团队负责数据中心综合管理,包括园区物业管理、行政管理等。

2.8、专业执照是指政府强制要求的执业证书,如:高压进网许可证、高压电工作业证、低压电工操作证、建(构)筑物消防员证等。

2.9、管理手册规定了运行维护工作的框架结构、执行范围、组织结构、工作规范及各的主要职责的手册2.10、操作手册标准操作流程对数据中心IT系统、基础设施系统、用户服务系统、安防系统,分别制定相应的标准化操作流程,用来指导和规范日常的运行维护工作的标准操作手册。

维护操作流程用于规范和明确数据中心运行维护工作中各项设备的维护操作流程、操作步骤2.11、维护手册应急操作流程用于规范应急操作过程中的流程及操作步骤,确保运行维护人员可以迅速启动,确保有序、有效地组织实施各项应对措施的紧急操作手册。

2.12、日常记录表单在日常运维工作中执行的标准化的操作流程、预防性维护计划、紧急操作流程,进行详细记录,形成的日常记录表单。

2.13、访问控制是指对主体访问客体的权限或能力的限制,以及限制进入物理区域(出入控制)和限制使用计算机系统和计算机存储数据的过程(存取控制)。

2.14、预期寿命从开始投入使用时起,一直到因设备功能完全丧失而最终退出使用的总的时间长度。

2.15、应急组织管理主要针对应急组织架构、应急领导小组、应急管理小组、应急技术与执行小组、应急保障小组的组织的建立与管理。

2.16、应急事件管理因基础设施设备故障或者公共灾难危害事件引发数据中心服务中断的事件,应纳入事件管理流程,执行应急响应和紧急恢复。

包括:地定义基础设施应急事件、基础设施应急响应、基础设施应急预案编制、基础设施应急通讯联络管理。

2.17、应急预案目标对象应针对重要设施设备及公共类事件制定应急预案。

应急预案须明确该预案的适用场景、通知通报、恢复操作步骤等内容。

2.18、应急演练管理应制定基础设施年度测试演练计划,明确演练项目、演练方式、演练时间、演练内容等项细则。

2.19、桌面演练对预案的组织架构和应急流程进行验证。

组织数据中心基础设施运维人员,通过设计恰当的故障场景,采用参演人员集中培训、讨论、文字考核等手段加深对应急处置策略、手段和应急预案的了解。

2.20、模拟演练由数据中心基础设施运维团队人员及应急预案的协同单位共同参与,模拟验证应急预案。

模拟应急情况下的报警流程、应急操作执行动作、通知通报及恢复等工作。

2.21、实战演练数据中心基础设施运维机构可以独自或联合其它部门及客户组织实战演练。

在数据中心投运前或投运后的计划性维护期间,假设相应的故障场景,组织相关人员按照应急预案流程进行实操性演练。

2.22、应急演练方案是演练准备的方案和计划,包括风险控制方案、演练剧本(参演人员的台词,流程、时间控制、执行的动作等)。

2.23、应急演练登记表是参演人员登记和签名表。

2.24、应急演练过程记录单是演练各项活动执行情况记录。

2.25、应急演练总结报告是应急演练过程的总结,可暴露问题,促进完善改进措施和行动计划。

2.26、公共灾难和危害事件主要包括恐怖袭击、炸弹威胁、治安事件等公共安全危害事件,地震、雷击、异常气候自然灾害等。

2.27、基础设施意外故障事件主要包括火灾及火灾防范系统故障、建筑物内水患、供配电系统故障、备用应急电源系统故障、空调制冷系统故障、安防系统故障和动力环境监控系统故障、通讯系统故障等。

2.28、IT系统类故障事件包括IT系统故障、IT设备故障、网络通讯系统故障、主干传输线路故障等。

2.29、应急预案对不同等级的故障事件和灾难事件,针对重要设施设备及公共类事件制定应急预案,主要包括供配电系统、制冷系统、消防、监控、网络等基础设施故障,以及暴雨、暴雪、大风、雷击、地震等气候灾难。

2.30、应急通讯管理要避免应急发布时大群多头现象,按照决策等级情况建立不同的群组,同时应避免层级过多的情况出现,尽量扁平化。

群组内明确相应负责人及汇报人,实现信息的准确传达与汇总。

2.31、应急通讯平台工具具有在应急事件发生时快速的有效的通知到相关执行人员、参与决策组织。

通过应急通讯工具平台完成应急事件发布、决策发布、处置执行情况的快速收集和反馈。

2.32、通讯工具可由多种沟通联络渠道组成,可采用电话会议、视频会议、无线通讯网络、第三方平台等单种或多种方式组成。

2.33、国家数据中心/数据中心指国家电网数据中心第三章一般规定3.1数据中心已参照《数据中心设计规范》GB50174中数据中心分级依据,和《数据中心基础设施运行维护标准》GB/T51314中的方法和要求,根据自身的使用性质、管理要求及其在经济和社会中的重要性确定,建立运维管理流程、运维管理团队与运维管理制度,并给予落实,以确保数据中心的运行满足IT系统运行需要。

3.2数据中心的运维管理流程应覆盖数据中心运维管理的全过程,并制定计划进行周期性检视与修正。

3.3数据中心的运维管理队伍应该满足业务开展需要,技能与资质符合政府监管要求。

3.4数据中心的运维管理制度应涵盖数据中心的各项工作。

3.5数据中心应详尽识别潜在的风险,并制定对应的风险应对方案,制定计划进行演练。

3.6数据中心的运维活动应关注成本,在确保可用性不受影响的基础上实施节能减排。

第四章运维流程4.1 一般规定数据中心宜依据GB/T 24405 信息技术服务管理标准,建立数据中心服务支持流程,包括服务请求管理、事件管理、变更、问题管理。

4.2服务台4.2.1 数据中心应建立服务台,以记录、分解、跟踪来自故障的事件、服务请求、投诉建议及其他事项。

4.2.2服务台宜建立和提供多种沟通渠道,包括电子邮件、热线电话、移动应用等,提供7×24小时服务响应和支持。

4.2.3 服务台应设置专门服务座席,由专人负责服务请求、事件等的集中受理和跟踪。

4.2.4 数据中心应建立服务台相关管理制度,明确服务台工作职责、工作内容、监督考核等方面要求。

4.3 服务请求管理4.3.1数据中心应及时响应并记录来自内外部的各类服务请求,包括:1.应接受来自用户的服务请求,并记录相关信息。

2.应对服务请求进行确认,根据客户合约和SLA要求,判断是否需履行此服务请求。

3.应根据服务请求类型,分派服务请求至数据中心服务团队。

4.3.2 应根据要求履行服务请求,包括履行服务请求应包括:1.应有明确的服务请求分类分级定义、处理时限和升级规则。

2.应履行服务请求,执行相应的响应、处理、升级等活动。

3.应监督、监控服务请求处理进展,并根据需要协调解决。

4.3.3 应对服务请求进行回顾并关闭。

包括:1.应明确服务请求关闭规则,服务请求履行完毕应与用户书面确认。

2.应定期回顾、更新服务请求列表并告知用户。

3.宜对服务请求的完成情况进行满意度调查。

4.应设计服务请求管理绩效指标,用于考量服务请求执行过程的符合度和有效性,如服务请求按时解决率、及时响应率等。

4.4事件管理4.4.1 所有事件均应被记录,包括接收的事件和主动发现的事件。

4.4.2应对事件进行分类分级,包括:4.4.2.1应明确事件的分类分级的定义4.4.2.2应按事件的影响度和处理优先级,确定事件等级。

4.4.2.3应定义各等级事件的响应时间、恢复时间、解决时间目标。

4.4.2.4应建立重大事件子流程。

4.4.3应快速解决影响数据中心服务的事件。

包括:4.4.3.1应对事件进行分析,尽快处理解决,并记录事件的解决方法。

4.4.3.2事件涉及人员应该能够访问、匹配并关联相关信息,包括相关服务请求、已知错误、问题解决方案和配置管理数据库(CMDB)。

4.4.3.3应监督、监控事件处理进展,并根据需要协调解决。

4.4.4应定义和执行事件升级子流程,包括:1.应明确定义事件升级规则,包括技术升级和管理升级处理规则2.符合事件升级规则的事件,应根据事件升级规则进行升级和转移委派等以确保事件的及时解决。

4.4.5 事件解决后,对事件处理过程进行回顾并关闭事件。

包括:1.应有明确的事件关闭规则。

2.应在关闭事件时对事件的记录进行更新,确认事件的最终分类和分级,受影响的服务,以及导致事件发生的配置项等。

相关主题