可视化智能IT运维系统
协议
中间件
数据库
新资源
业务聚合指标实现故障根源追踪
四
形成业务拓扑
负载 设备
发现业务异常
中间件 业务weblogic
数据库
server App App webserverwebear1webear2
主机 App-host
进程 java
网卡 NIC1
磁盘 /opt/data
交换机
端口 G/0/2
应用响应时间突然增大
合规使用 限制 06
移动应用高效管控 降低运维工作难度
使用情况 统计 05
业务应用性能监控
三
一站解决应用性能管理问题
全面监控核心业务,实现自动化的业务系统异常监控、风险检测,以及应用性能优化。
应用系统健康体检
业务可用性体检
业务流程巡检
巡检脚本录制 业务检查点设置 巡检流程编排
巡检脚本导入 交互数据管理 业务流程执行
最终的结果是,由于出现 被投诉等不良事件,IT运维部 被内部通报批评,小李也被扣 罚当月奖金…
日志
网络
分析系统 监控系统
云环境 应用性能 监控系统 管理系统
服务器 虚拟化 监控系统 监控系统
基础设施 监控系统
这也只是运维工作中一个 小小的缩影。
客户场景之N
IT资源管理
主机 数据库 中间件 动力环境 存储 网络设备 …..
安全合规检查
实时
业务应用系统
采集 处理
预处理建立关 联模型
操作系统-日志
实时
采集
中间件数据库
处理
实时
采集
操作系统
处理
即 席 查 询
统 计 报 表
数 据 挖 掘
实 时 告 警
仪 表 板
日志数据分析平台
索引存储PB级日志数据管理能力
基于业务系统的多层次机器数据, 实现完善的安全合规审计保障
三
定期安全审计
Plugin Platform
SNMP
SNMP/SMI-S
动力环境
• PDU • UPS • ATS • 空调
服务器
存储
• Windows • Linux • Solaris • AIX
• NetAPP • EMC
SNMP
采集周期:2min CSS
Plugin Platform
Hypervisor Adaptor
配置管理
资产统计分析 资产配置变更
配置管理
资产申请 资产盘点
变更管理 资产规划
变更管理
配置更新 配置审计
资源分配 维保管理
配置模型维护
三维仿真 运维管理 事件管理 工单管理 问题管理 配置管理 变更管理 发布管理 排班管理
知识库管理
库存管理 报废管理
配置统计分析
智能化IT监控运维平台逻辑功能
一
应用系统自动化测试
运维主管
资源总 览
运行统 计
容量规 划
流程优化
业绩考核
决策分析
数据中心
业务系统
二
IT基础设施运维工程师
设备监 管
故障处 理
根源分析
流量分析
运行报 告
告警通 知
对智能化IT监控运维的期待(岗位)
二
战略决策支撑数据 部门运转分析支撑数据
业务优化支撑数据
故障预测/主动预警
故障快照/自动处理
运维知识库 IT设施自动巡检
…….
任务
自动巡检 计划报表
计划维护 计划备份
…….
自动化
触发器
传统监控转向智能分析
四
IT监控
• 操作系统磁盘使用率过高 • 服务器磁盘损坏 • 数据库表空间使用率过高 • 交换机端口流量异常 • 虚拟化资源池容量不足 • HDFS磁盘使用率不足 • …….
应用性能监控
• 请求响应时间过长 • SQL执行时间过长 • 代码执行效率低下 • 系统软件配置失当 • …….
告警风暴
!
一天,轮到小李值班,突 然几个系统同时发出告警(告 警风暴),小李哪里见过这阵 仗,顿时感觉手脚无措,能想 到的就是马上给师傅打电话求 助。
小李按照师傅的建议从服 务器开始慢慢排查,从系统告 警到问题解决,已经过去了几 个小时…
期间,由于用户没法访问 系统服务,信息中心接到很多 投诉电话。
数据库性能分析
Top 表空间剩余量分析 Top SQL性能分析 Top 缓存命中率分析 Top 日志日均增长分析 Top 磁盘读写速率分析
网络流量分析
Top 会话流量排行分析 Top 源IP流量排行分析 Top 源端口流量排行分析 Top 目标IP流量排行分析 Top 目标端口流量排行分析 Top 协议流量排行分析
业务的稳定性、可靠性要求越来越高,业务系统对IT支撑
的依赖性越来越强。
自动 知识 主动
信息处理
人工
信息提取
信息
信息采集
被动
S 切实地提高服务质量
IT架构的复杂度不断加深;IT运维部门工作职责越来越重
V 真正地降低系统风险
IT运维人员不足难以应对繁重的运维要求;IT事故将直接 影响业务,责任重大
对智能化IT监控运维的期待(效果)
WUE 能耗可视化
节能策略
供 多功能 配 电量仪 电 ATS
发电 机组
UPS
蓄电池 PDU
第三 方
监控 系统
制 冷机
冷 环
冷塔
精密 空调
新风 漏 排风 水
境 温湿度 CO2 微环境
安视
入
全 频门侵
防 监禁 报
护控
警
消 消气 消 防 防体 防 系 报消 喷 统 警防 淋
IT资产管理系统 资产模型维护 出入库与分发
IT运维 工程师
故障精准定位
SLA遵守情况
运维 主管
工作量统计 持续优化的支撑数据
配置/资产管理 业务可用性 流程运转情况
应用性能监控预警 应用体验分析
应用运维 工程师
应用潜在风险预测 应用可用性巡检
对智能化IT监控运维的期待(管理)
二
智能管理方式
传统管理方式
一体化
信息展现
离散
E 更好地进行业务保障
监
Response
管
流量分析
设
Syslog
备
Trap
基于SNMP(MIB)协议的网络设备监控
数据中心资源
网络设备监控
IT软硬件资源监控
三
从动环基础设施—>IT基础设施硬件—>数据库中间件—>自定义脚本,快速满足不同客户实际的IT监控需求
IT运维工程师
基础设施监控
SNMP/Modbus
采集周期:1min CSS
接口测试 边界测试
单元测试
回归测试 冒烟测试 覆盖率测试
集成测试
恢复测试 安全测试 压力测试 性能测试 部署测试
系统测试
确认测试准则 配置评审 A/B测试
确认测试
网络拓扑及流量追踪
三
网络拓扑手动设置
拓扑自动发现及故障预警
基于ICMP(ping)、CDP、LLDP以及SNMP协议的网络自动发现
Request
IT运维部门
业务部门
天花板
?
用户体验指标
用户访问响应时间 用户满意指数 系统吞吐量 系统错误率 用户来源地 系统需求执行时长 网络传输时长 数据库SQL执行时 长 …
一
用户体验管理
功能使用是否方 便 系统访问是否缓 慢 系统故障响应和 排除是否及时 …..
现状与痛点:IT监控运维密室的内与外
一
密室之内痛
• 业务形态更加多种多样,部署环境愈加复杂 • 为了适应发展的需求,业务调整日趋频繁
• 云技术的成熟,一定程度上减少了企业自建 运维团队的需求
• 技术的快速演进,对运维团队提出了更高的 要求
二
对未来IT运维的期待
应用场景
应用系统运维工程师
性能监 测
用户体 验
健康检 查
自动巡检
预测分 析
瓶颈定 位
JMX/JDBC
采集周期:3min CSS
Plugin Platform
Rest/Webservice
网络
• 防火墙 • 负载均衡 • 路由器 • 交换机
Hypervisor
虚拟化
中间件
应用
新资源
• XenServer • Vmware • KVM • XEN • RHEV • PowerVM
• 数据库(DB2、MySQL、 • 行业应用 Oracle、SqlServer) • 第三方应用
智能化IT监控运维平台技术架构
三
自动化巡检平台
业务巡检 自动盲检 巡检定义
统一访问门户 Portal 统一用户管理
应用性能监控模块
JAVA 应用
.Net 应用
统一配置管理
PHP应用
应用性能 分析
统一权限管理
统一菜单管理
大屏展示系统
预测 分析
用户体验 代码级监
监控
控
机器数据分析 安全合规
业务分析
巡检调度
短信 邮件
应用访问预测分析
三
业务价值:变被动解决风险告警为主动发现预防,提前规避问题及风险。
历史|实时|未来 未来负载变化趋势预测
!
潜在风险及问题分析定位
应用 性能
计算
存储
资源配置策略预测分析
网络
可视化分析&展现
三
四
智能化IT运维平台带来的改变
从分散粗放到统一精细
四