当前位置:
文档之家› 数据中心基础设施智能运维白皮书
数据中心基础设施智能运维白皮书
L2 成熟运维
运维流程趋于成熟,运维质量有较好的保障,但运维效率不高,重视运维团队的建设,团队能力通 常有较好的延续性,但无法自主优化;辅助系统较为完备,部分核心子系统具备自动化能力
L3 数字运维
在 L2 的能力基础上,通过信息技术数字化运维活动,管理和驱动运维流程的执行,且基于大数据 分析能持续优化,运维质量可以准确评估,运维效率大幅提升;关键子系统如,配电和制冷实现自 动运维,基础设施资源能够感知 IT 及云业务需求变化并完成闭环管理,AI 等机器智能在节能、故 障预测等特定领域取代人类智能
阶段,以及演进和优化的目标。另一方面,对于 处在传统运维阶段的团队,本白皮书介绍了数据 中心基础设施可用性管理全景及对应的数字化, 智能化措施,利用这些信息,运维团队能更好地 规范运维管理,制定智能化运维升级的计划,并 能指导运维团队从传统运维向智能运维转型,在 智能化运维工具的帮助下,实现运维更高效、更 安全并可持续的业务目标。
运 维 流 程
传统运维
智能运维
运维演进 图1
智能化程度
2
数据中心基础设施智能运维白皮书
五大运维阶段
为了定义清楚传统运维、智能运维的变化和演进,这里划分了 L0~L5 阶段,并详细定义了每个 Level 的典型特征:
人工运维
规范运维
规范运维
数字运维
自动运维
完全自动运维
L0
L1
L2
L3
L4
L5
• 无标准化流程 • 无培训体系 • 个人承担职责 • 运维质量无法
数据中心基础设施智能运维 白皮书
数据中心基础设施智能运维白皮书
简IN介TRODUCTION
当前大部分数据中心的运维安全依赖于富有经 验、训练有素的运维团队,部分成熟的数据中心 已经开发出完善的运维流程和培训体系,并用以 减小偶发事件及人员变动对运维安全的冲击,少 数先进的数据中心已经在寻求通过数字化、智能 化手段来保障数据中心运维安全的可持续性。本 白皮书划分了从传统运维到智能化运维的 5 个阶 段,以及每个阶段的典型特征,一 方面,数据中 心的管理人员可以根据这些信息明确当前所处的
3
数据中心基础设施智能运维白皮书
Байду номын сангаас
基础设施运维全景
基础设施运维涵盖了几大块工作:物理安全管理、基础设施可用性管理、机房容量管理、供应商管理及综合管理,其中可 用性管理是运维最主要的工作,包括了大部分日常活动,如巡检、设备定期维保、风险管理、检修和应急演练等
数据中心数字运维平台
物理安全
• 进出登记 • 机房巡检 • 权限审视 • Hosting 授权 • 刷卡记录 • 存储介质记录 • 钥匙审视 • 物理安全 CP
L4 自动运维
基础设施实现自动运维,不再需要单独的基础设施工程师,通常由 IT 工程师兼职,基础设施运维 效率达到极致,运维流程复杂度大幅下降,基础设施资源能够根据 IT 及云业务需求变化动态调整, 机器智能全面覆盖运维工作
L5 完全自动运维
基础设施自动感知及预测 IT 及云业务自动做出最佳调整,对于可能的业务故障闭环自动化管理, 真正实现数据中心无人运维
可用性管理
• 机房巡检 • 基础设施巡检 • 设备维保 • 风险自动管理 • 重大检修 • 应急演练 • 设备全生命周期
容量管理
• 可视化 • IT 上架管理 • 容量需求管理
供应商管理
• 评价管理 • 合同管理 • 沟通管理 • 服务报告
综合管理
• 综合报表统计 • 机房运维报告 • 机房需求管理 • ITSM 系统对接 • 微服务化框架 • 域权限管理 • 移动 APP 架构
• 基础设施实现 自动运维
• 运维效率达到 极致
• 基础设施资源 自动跟 IT 及云 业务协同
• 自动感知、自 动调整,故障 自动闭环
• 智能预测业务 需求,智能协 同
• 数据中心无人 值守
L0 手工运维
L1 规范运维
无标准运维流程,依赖个人或团队的经验,运维质量无法评估
已经形成标准化流程,可以通过培训等手段对运维团队循环赋能,但普遍存在部分流程过于僵化, 或部分实践游离于流程之外的问题,运维效率较低,对团队及核心骨干的依赖度很高,运维质量评 估难,自动化程度较低,使用的监控、自动控制等系统辅助运维
4
运维活动的数字化、智能化实践
数据中心基础设施智能运维白皮书
运维数字化是指对运维流程、人的活动、执行结果的数字化,通过数字化可以规范人的行为,降低人误操作导致的风险, 可以通过模板及任务的自定义及不断扩展来持续优化运维流程,有了全程数字记录,对执行结果不仅是可视,还可以对结 果进行分析,根据分析结果来优化运维管理,例如:
1
数据中心基础设施智能运维白皮书
数据中心智能运维演进
图 1 展示的是运维从传统运维到智能运维的阶段演进,横 坐标是智能化进展,纵坐标指的是运维流程的完备和复杂 度,在传统运维阶段,智能化手段不多,运维安全主要依 靠运维团队的经验和技能,管理的可持续性则依赖流程制 度,和不断完善培训体系,随着流程制度的不断完善,运 维效率会有所降低,但随着运维团队对流程制度熟练应用 后,效率会有所恢复,在传统运维阶段,存在几个潜在的 误区:1、对运维团队或者个人的过度依赖,往往导致熟练 流程建设及经验积累;2、对流程的僵化使用,最终会导致 运维团队对流程失去耐性,而导致实际运维操作完全偏离 流程本身,因为运维团队需要讲流程跟实际情况结合,在 不影响流程节点结果输出的情况下匹配实际情况,做到这
评估
• 标准化流程但 僵化
• 有培训体系
• 依赖核心骨干
• 运维质量评估 难,可持续性 差
• 流程成熟完备
• 重视培训体系
• 部分的借助自 动化工具
• 运维质量有保 障,重视团队 建设,可持续
• 流程电子化并 持续优化
• 数字技术全面 应用,AI 主导 部分关键工作
• 运维质量可评 估,不再依赖 人和团队
一点需要运维团队具备丰富的运维经验;3、一些经验丰富、 流程制度成熟的运维团队往往会陷入过于自满的误区,错 误排斥任何智能手段,拒绝对运维效率改善的建议,固执 的认为效率提升必然影响到运维安全。
智能运维阶段,会通过数字化、智能化手段不断的固化和 简化流程,“云化”运维专家,自动化手段取代人力等, 大幅提升运维效率,运维安全不受影响甚至更安全,智能 运维不仅能解决当前数据中心运维人力短缺的困境,还能 通过对流程、经验和技能的不断固化、优化来彻底摆脱数 据中心运维对人和团队的依赖。