数据中心运维管理方案
• •总结
业务驱动型应用管理与能力框架的映射
运营规划
客户与业务用户
服务规划
用户体验管理
业务交易管理
网络门户
产品目录
订单管理
...其它 业务服务
业务驱动型应用管理
业务服务管理
架构规划
云服务 Apps, PaaS, DBaaS, IaaS..
全生命周期云管理
应用
中间件
数据库 OS, VM, Servers 存 储,网络
自动化
保证的SLA
大部分ITIL流程已 服务可用性
成熟
监控
IT作为战略业务伙 伴
IT与业务KPI关联 提升业务流程协作 实时架构 业务变革
集成的流程 容量管理
以业务为中心
服务与客户管理
服务交付流程
运维流程
工具使用
数据中心运维管理的能力建设演进
完善运营管理
离散的 个人主义 较低的客户信
心 非正式的审查
分级支持 角色按流程定义 正式的职业发展
规划 培训 员工KPI
组织型
我们在哪里?
阶段 4
阶段 3
服务型的
主动的
服务为中心
以流程为中心 与HR的流程相结合
能力中心
新的角色 信任的服务 供应商
预防模式 趋势分析
基础能力
•主动端到端监控 •快速定位问题 •集中配置管理 •有效控制变更和 发布 •自动化生命周期 管理 •有效的应急和安 全措施
实现业务驱动
•用户体验 •业务监控 •业务指标
云管理
•全生命周期管理
数据中心运维管理解决方案
客户与业务用户
用户体验管理
业务交易管理
网络门户
产品目录
订单管理
业务服务管
...其它 业务服务
本高、耗时
• 异构的数据库、 Java层、消息层和Web 层很难整体调优 • 尤其在通常虚拟环 境中,整体性能不高、 不可预测
•
整体可用性难保证
• 异构环境可用性管理复杂 •在通常的虚拟环境中,应 用可用性更难管理 • 不同厂商产品的可用性可 以大大影响整体可用性
运维管理复杂
• 异构环境增加运维 复杂度,职责不好界 定 • 问题诊断、解决过 程复杂 • 不同厂商产品的升 级、补丁过程复杂
IT的变革与创新
• IT基础架构集中与标准化; • 虚拟化、网格计算; • 自动化与持续可用; • 云计算/绿色IT。
来自业务的挑战
• 灵活的支持业务发展; • 对业务量持续以及爆发性增长的
需求;
• 对于最终用户体验具备可见性; • 业务需求和IT管理实现量化对接
运维的驱动
• 具有面对服务需求峰值而不需要
额外投入的能力;
• 可提供7×24小时高水平服务等
级的能力;
• 需要具有丰富经验的资源; • 80%的企业软件费用花费在安装
与维护;
• 服务器对管理员的比例还维持在
20-30:1的水平;
• 部署新的应用时间太长。
9
议程
•数据中心运维管理面临的问题与挑战
• •数据中心运维管理探讨
• –数据中心运维管理的能力框架及建设演进 • –业务驱动IT管理 • –完整的平台管理 • –全生命周期管理
ISO 20000:2011
供应商和客户之间的实质关系 将影响服务管理过程如何实施
业务战略指导落地,业务需求量化考核
问题与挑战的总结思考
开发
测试
生产
灾备
保障稳定和安全
应用系统 中间件 数据库 服务器与存储
日常监控 服 务响应 工作 调度 数据备 份 系统变更 执行 事故报 告 灾备操作 机房管理 访 问授权 健康
实时用户体验跟踪
用户满意度实时趋势分析
整体页面浏览性能 -绿色 = 满意 -橙色 = 容忍 -蓝色 = 失望
用户出错页面重放
实时错误报告与分析
Business Reporting
实时系统性能分析
业务交易管理
• • 持续监控关键事务, 通过一系列 的
Rejected Order Alert
• 事务/操作序列来定义”业务交易 ”
• •总结
1 0
通过架构整合和简化、提升运营管理能力来解
决面临的IT运营问题与挑战
架构整合和简化
提升运营管理能力
软硬件资源池、横向整合和 纵向整合结合的一体化整合 方式、和云计算等架构优化 手段驱动了运营水平的提高
构建完整平台管理,完善运 营基础管理能力,同时帮助 用户从业务角度优化IT服务 管理,将企业的业务需求和 IT管理实现量化对接
根本原因是什么? 是核心的问题还是
ECIF问题?
真实用户体验管理
业务交易管理
JVM 和DB诊断
19
实时监测用户的“真实的”活动,优化业务响应率和转化率
用户体验管理 SLAEx管ecu理tiv与e d行ash政boa驾rd 驶舱
KPI实时监控与报警
定制业务服务实时监控
实时交易漏斗监控
Transaction Performance
计 运维管理工具集
自动化
虚拟化
集中与整合
技术现代化
阶段 5
业务合作伙伴
高扩展、弹性的架 构
新技术使用 90%虚拟化 整体的架构与运维 动态资源分配 灾难下的持续可用
性 业务服务工具
云计算
1 3
提升IT运营能力:人员成熟度模型
阶段 2
阶段 1
认可的
有感知的
人员按技术分 类
Oracle 支持服务
完整的云平台管理
运营设计
运营
服务水平管理 配置与变更管理
服务台 性能与可用性管理
发布管理
利用率管理
安全管理
供应与补丁管理
信息全生命周期管理
虚拟机 服务器
存储 网络与基础设施
业务驱动的端到端应用管理
用户满意度怎么样? 他的录入快速吗? 下单情况怎么样?
下单为什么卡住? 为什么慢? 怎么 老超时?
Appliance
Web
WebLogic
Service Bus
• • 典型“业务交易”问题
• – 业务上定义的逻辑错误, 比如” 信用额度不足”, “
库存少于10 件”, “审批周期超时”, “定 单金额超过
DBMS
预定义金额”
• – 失控流程(Stalled processes), 不正常跳转, 非正 常中断的交易 流程等
客户对服务中断和性能 问题毫无耐心
缺乏通用语言
CIO办公室
基础关注点 不一致
对最终用户体验缺乏可 见性
IT性能指标与业务毫不 相干
不能有效控制服务中断 和性能下降
IT运营
“像业务一样经营IT”是CIO共同目标, 目的是保障服务质量,提高IT对业务的贡献。
7
IT服务I管TIL理v3最佳实践的新要求
帮助用户从业务角度完成整体设计、实施和 持续优化IT服务管理,并通过IT服务管理将 企业的业务需求和IT管理实现量化对接
真的了解运行 状态吗?预警 和主动监控能 做到什么程度? 健康检查是否 有效?
网络
访问授权 健康检查
问题 变更 事件 配置 版本 可用性 容量 管理 管理 管理 管理 管理 管理 管理
变更影响分析通常凭 经验,也难以充分测 试,怎样控制和验证?
如何快速定位和恢复故 障?应急演练是否有效? 备份的数据真的可用吗?
技能管理 以服务质量
为目标
参照行业最 佳实践
以服务为中心
以流程为中心
阶段 5 业务合作伙伴 成为业务部门 虚拟团队 注重业务 高效的外包技能 业务与IT轮岗 创建行业最佳实践
以业务为中心
个人型
1 4
提升IT运营能力:流程成熟度模型
我们在哪里?
阶段 4
阶段 5 业务合作伙伴
–降低软件、硬件、服务成本 –简化运维工作,降低维护成本
• 集中管控
– 监控预警,实现主动管理 – 故障诊断和性能优化 – 可视化管理,面向服务质量
• 风险控制
– 降低操作风险 – 系统安全提升
数据中心 不 能成为问题中心
6
来自业务的挑战 业务要求IT可靠和透明
业务经理要求以业务的语 言来描述IT服务水平
< 6 sec • Warning threshold <= 4 sec
- Action: alerts
3 面向目标的 性能监控
25%已经整合 <2周部署 N+1设计 基本的管理
阶段 3
服务型的
主动的
集成的架构
硬件/软件标准化 共享的架构与运维
75%整合、部分虚
拟化
100%了解资产使用
状况
数天内部署
关键系统可靠性设
75%虚拟化 运维资产
数小时分配 资源 持续的可用 性
IT服务工具
4
“稳定”和“安全”是IT运营的基本目标
怎样确定问题 的根源?可以 从业务影响发 现问题吗?怎 样避免问题的 再次发生?
运维人员在多个环境里进行手工配 置和操作,难以避免人为操作风
险
开发
测试
生产
灾备
日常监控
应用系统 中间件 数据库 服务器与存储
服务响应 工作调度 数据备份 系统变更执行 事故报告 灾备操作 机房管理
怎样判断架构的高可 用性?当前的性能容 量能否支撑下阶段业 务发展?
基础架•性构能和提运升 维的驱动
–资源利用率提升