数据中心运维管理
实时用户体验跟踪
用户出错页面重放
实时系统性能分析
业务交易管理
• 持续监控关键事务, 通过一系列的 事务/操作序列来定义”业务交易” • 典型“业务交易”问题
Rejected Order Alert
– 业务上定义的逻辑错误, 比如” 信用额度不足”, “库存少于10 件”, “审批周期超时”, “定 单金额超过预定义金额” – 失控流程(Stalled processes), 不正常跳转, 非正常中断的交易 流程等
Appliance
Web
WebLogic Service Bus
DBMS
– 失控结果, 定义范围以外的结果
– 技术层面的问题, 比如延时
Partner and Cloud
– 和EM其他模块互动,告警并解决 问题
面向客户可定制业务驱动的服务质量(QoS)交付
1 服务水平协议
Service Level Objective (SLO) For Platinum customers: • Ave. Response time per hour < 6 sec • Warning threshold <= 4 sec - Action: alerts
IT
11
提升IT运营能力:技术成熟度模型
我们在哪里?
阶段 4 阶段 3 阶段 2 服务型的
阶段 5 业务合作伙伴 高扩展、弹性的架 构 新技术使用 90%虚拟化 整体的架构与运维 动态资源分配 灾难下的持续可用 性 业务服务工具 云计算
主动的 集成的架构 硬件/软件标准化 75%虚拟化 共享的架构与运维 阶段 1 认可的 运维资产 75%整合、部分虚 数小时分配 关键的硬件/软件 拟化 有感知的 资源 标准化 100%了解资产使用 持续的可用 对于75%资产的使 状况 标准化程度低 性 用状况了解 数天内部署 架构与运维无法 IT服务工具 25%已经整合 关键系统可靠性设 共享 <2周部署 计 只对关键资产使 自动化 N+1 设计 用状况有了解 运维管理工具集 基本的管理 >6周部署 虚拟化 普遍的单点故障
架构规划
TOGAF
平台架构 可用性架构 性能架构
发布管理
规划、协调、确认
利用率管理
基线、虚拟化/集群、压缩
安全管理
政策、审计与报告、访问和 识别管理
服务开通与补丁管理
政策、初始化资源、补丁升 级
Oracle Unified Method SAS 70 Type I and II
信息全生命周期管理
规划、灾难恢复、归档
与维护; • 服务器对管理员的比例还维持在 20-30:1的水平; • 部署新的应用时间太长。
8
议程
•数据中心运维管理面临的问题与挑战 •数据中心运维管理探讨
–数据中心运维管理的能力框架及建设演进 –业务驱动IT管理 –完整的平台管理 –全生命周期管理
•总结
9
通过架构整合和简化、提升运营管理能力来解 决面临的IT运营问题与挑战
以业务为中心
组织型
个人型
13
提升IT运营能力:流程成熟度模型
我们在哪里?
阶段 4 阶段 3 阶段 2 阶段 1 有感知的
阶段 5 业务合作伙伴
服务型的
认可的 事件管理 变更与问题管理 标准化 灾备管理 项目管理 较少的流程集成
救火队模式 工具定义流程 备件备份 以工具作为标 准 没有流程文档
应用系统
中间件
数据库
服务器与存储
网络
• 业务连续性和高可用性建设; • 潜在问题的分析和规避; • 主动的客户体验监控; • 问题快速定位和解决。
• 业务需求和IT管理实现量化对接
IT基础架构与基础设施的驱动
• 数据中心空间优化与地点的选择; • 不断增长的数据中心基础架构的复杂度; • 服务器的利用率介于10%~15%; • 数据中心往往需要耗费上千万的资金去
客户与业务用户
用户体验管理 业 务 交 易 管 理
网络门户 产品目录 订单管理 ...其它 业务服务
服务规划
架构规划
发布管理 安全管理
业务驱动型应用管理
信息全生命周期管理 虚拟机
业
务
服
务
管
理
服务器
存储
网络与基础设施
应用
云服务 Apps, PaaS, DBaaS, IaaS..
中间件 数据库 OS, VM, Servers 存 储,网络
业务驱动IT管理
客户与业务用户
用户体验管理 业 务 交 易 管 理
网络门户 产品目录 订单管理 ...其它 业务服务
– 以业务视角管理IT资源 – 创建应用感知云,能够理 解和适应实际业务需求
业务驱动IT管理
完整的平台管理
– 应用、中间件、数据库、 硬件 – 一体机 (Exalogic,Exadata)
灾备
真的了解运行 状态吗?预警 和主动监控能 做到什么程度? 健康检查是否 有效?
变更影响分析通常凭 经验,也难以充分测 试,怎样控制和验证?
如何快速定位和恢复故 障?应急演练是否有效? 备份的数据真的可用吗?
怎样判断架构的高可 用性?当前的性能容 量能否支撑下阶段业 务发展?
4
基础架构和运维的驱动
主动的 分析趋势 阀值设置 应用可用性监控 自动化 大部分ITIL流程已 成熟
IT作为服务 供应商 服务分类与 定价 保证的SLA 服务可用性 监控 集成的流程 以业务为中心 容量管理 服务与客户管理
IT作为战略业务伙 伴 IT与业务KPI关联 提升业务流程协作 实时架构 业务变革
业务
ITIL v3.0
运营规划
服务规划
服务识别 用户体验 财务目标
运营设计
服务水平管理
组合设计、SLA实施、SLA趋 势分析
运营管理
服务台
事件管理、知识管理、SLA 报告
COBIT
USMBOK ISO 20000
配置与变更管理
配置规划、配置执行、变更 管理、跟踪与报告
性能与可用性管理
基线、测量、分析、解决
Executive dashboard SLA 管理与行政驾驶舱
KPI实时监控与报警
定制业务服务实时监控
实时交易漏斗监控
用户满意度实时趋势分析
整体页面浏览性能 -绿色 = 满意 -橙色 = 容忍 -蓝色 = 失望
实时错误报告与分析
Transaction Performance
Business Reporting
Industry specific cover image
数据中心运维管理
议程
•数据中心运维管理面临的问题与挑战 •数据中心运维管理探讨
–数据中心运维管理的能力框架及建设演进 –业务驱动IT管理 –完整的平台管理 –全生命周期管理
•总结
2
IT越来越复杂,带来的典型IT运营问题
架构复杂
• 复杂,多厂商 • 难扩展 • 需要多领域专家 • 消除I/O瓶颈很复杂 • 多厂商集成方案成 本高、耗时
主动的 服务为中心 以流程为中心 新的角色 与HR的流程相结合 信任的服务 能力中心 供应商 预防模式 技能管理 趋势分析 以服务质量 为目标 参照行业最 佳实践 以服务为中心
以流程为中心
成为业务部门 虚拟团队 注重业务 高效的外包技能 业务与IT轮岗 创建行业最佳实践
“稳定”和“安全”是IT运营的基本目标
运维人员在多个环境里进行手工配 置和操作,难以避免人为操作风险
开发
怎样确定问题 的根源?可以 从业务影响发 现问题吗?怎 样避免问题的 再次发生? 应用系统
测试
生产
中间件
数据库 服务器与存储 网络 问题 管理源自变更 管理 事件 管理 配置 管理
日常监控 服务响应 工作调度 数据备份 系统变更执行 事故报告 灾备操作 机房管理 访问授权 健康检查 版本 可用性 容量 管理 管理 管理
IT性能指标与业务毫不 相干
不能有效控制服务中断 和性能下降
IT运营
“像业务一样经营IT”是CIO共同目标, 目的是保障服务质量,提高IT对业务的贡献。
6
IT服务管理最佳实践的新要求
ITIL v3 帮助用户从业务角度完成整体设计、实施和 持续优化IT服务管理,并通过IT服务管理将 企业的业务需求和IT管理实现量化对接 ISO 20000:2011 供应商和客户之间的实质关系 将影响服务管理过程如何实施
建设,而且不能在现有设施上去扩展。
运维的驱动
• 具有面对服务需求峰值而不需要
额外投入的能力; • 可提供7×24小时高水平服务等 级的能力; • 需要具有丰富经验的资源;
• 80%的企业软件费用花费在安装
IT的变革与创新
• IT基础架构集中与标准化; • 虚拟化、网格计算; • 自动化与持续可用; • 云计算/绿色IT。
架构整合和简化 提升运营管理能力
软硬件资源池、横向整合和 纵向整合结合的一体化整合 方式、和云计算等架构优化 手段驱动了运营水平的提高
构建完整平台管理,完善运 营基础管理能力,同时帮助 用户从业务角度优化IT服务 管理,将企业的业务需求和 IT管理实现量化对接
10
Oracle IT运营能力框架模型
数据中心 不 能成为问题中心
• 追求更低的TCO和高ROI
–降低软件、硬件、服务成本 –简化运维工作,降低维护成本
5
来自业务的挑战
业务要求IT可靠和透明 业务经理要求以业务的语 言来描述IT服务水平 客户对服务中断和性能 问题毫无耐心