当前位置:文档之家› 人工智能+智能运维平台解决方案

人工智能+智能运维平台解决方案

人少、事多、责任大
运维人员
过去:运 维十到几 十台设备 IT设备和数 据
运维人员 目前/未来:运 维设备数量10倍 -100倍增长
IT设备和数 据
IT运维现状
全新架构-系统复杂
基础架构:云化 应用: 微服务化 双态数据中心:传统架 构+互联网架构
运维对象、数据激增
运维对象:网络、主机、OS、 存储、中间件、各类业务应 用 数据多样化:日志、指标、 告警、时间 …
结合领域知识的人工智能算法
人工智能算法
聚类、决策树、随机森林、卷 积神经网络
AI Ops
运维领域知识
异常检测、多维分析、 根因分析、故障预测
行业运维经验
金融、运营商、互联 网、政府、大型企业
OneAPM人工智能算法与分析平台
应用层
自适应异常检测 多维异常问题定位 故障根因分析 异常预测
发现问题
定位问题 关联分析 故障拓扑图 故障树 根因分析 调用链 告警压缩
J-Measure Two-sample test Apriori FP-Growth
分类 聚类 决策树 逻辑回归
DNN CNN LSTM/RNN NLP
机器学习 算法层
卡尔曼 时序数据分解 Holt-Winters
基础数据 层
RMDB 事件
MQ 指标
NoSQL 日志
TSDB 工单
HDFS 作业
MPPDB
什么是AIOps
AIOps,即基于人工智能的IT运维(Artificial
监测 (观察)
续 持
服务管理 (交互)
洞 察
Intelligence for IT Operations) ,是由
Gartner定义的IT运维管理新类别。
AIOps
机器学习 大数据
持 续 洞 察
察 洞 续 持
平台
AIOps将服务管理、性能监测、自动化结合在
人工智能+智能运维平台解决方案
大数据 云平台
——用人工智能点亮您的IT数据
目 录
1.从人工到人工智能 2.用人工智能点亮您的IT数据 3.迈出AIOps的第一步
Contents
Part 1
从人工到人工智能
当前运维和业务团队面临的困境
不是没有数据,而是数据太

不是不想分析,而是无从下 手
IT运维现状
• • • 及早发现风险,防止其发展为故障 及时发现故障,进行止损、诊断和修复 运维的重要基础
OneAPM自适应KPI异常检测的特点
普适性检测算法
动态基带算法,适用更 多不同特点曲线
算法自我容错
依据反馈,对算法和参 数进行优选,减少人工 干预
场景动态适配
基于迁移算法学习,自 动适配场景变化
异常精准检测
监控
什么是KPI异常检测
KPI(Key Performance Indicator):用于反映服务的健康程度。
• • 如:服务请求数、拒绝数、响应时间、流 、订单等 如:服务 CPU、内存、 络、磁盘等
KPI 异常行为:潜在的风险、故障、bugs、攻击...... KPI 异常检测:用于识别 KPI 时序曲线上的异常行为。
OneAP M AIOps
机器学习 大数据实时多维分 析
服务器数据
存储数据
交易数据
任意IT数据
网络数据
应用数据
用户体验数据
流量数据
日志数据
OneAPM智能运维平台的五个能力层次
发现 接入
存储 整合
梳理 关联
智能 分析
多维 展示
从哪里来
IT数 据
到哪里去
如何从IT数据中获得洞察?
人工智能算法与分析篇
从人工到人工智能
人工运维
AIOps
• 降低系统低效对业务的影响
• 挖掘海量数据的业务价值
• 多种分散独立监控工具
• 专业化专家型人才 • 业务系统已经发生了什么? • 被动响应的故障恢复性管理
• 统一大数据分布式处理技术
• 智能算法与机器学习 • 业务系统将要发生什么? • 主动响应的预防预测性管理
AIOps的核心价值
故障止损
故障规避
故障发现
故障修复
AIOps将在5-10年内成为ITOM的主流技术
From Gartner’s Report
Part 2
用人工智能点亮您的IT数据
OneAPM智能运维平台解决方案
场景可视化 深度挖掘 服务分析 多维指标告警 数据建模
大规模事务处 理
海量数据实时接 入
排障困难-排障周期长
依赖工程师技能经验 跨部门运维,责任界定困 难 业务的支撑对排障时效性 要求更高
IT 运维面临的挑战
数据管理 • 无法统一管理,快速查询 • 无法满足企业合规需求
数据分析
依赖专家
手动运维
• 查询难 • 分析难 • 对比难 故障定位 • 人员利用率低 • 故障根源定位难 运维成本 • 成本高,效率低 • 业务投诉多,系统风险高
对比14种常用检测算法, 准确度排名第一
OneAPM自适应KPI异常检测结果展示
某大型互联网公司的KPI检测效果
什么是多维分析
发现业务“关键指标KPI”瓶颈,为正确决策提供依据。例:“响应时间”在什么条件下会慢?
交易时间、失败率、闪退率、销售额、 订单数、PV、转化率、用户数、 用户增速、留存率、 投诉率......
一起,以实现持续洞察和改进的目标,并由大 数据和机器学习技术进行支撑。
自动化 (行动) 商业价值
From Gartner’s Report
AIOps的四个核心能力
从不同的数据源中获取数据
通过智能算法在数据提取 时和存储后进行分析
对海量数据进行存储
对海量数 机器学习 算法
解决问题 单故障止损 灰度版本止损 配置优化
其他 成本分析 容量规划 资源调度
技术能力 层
数据源异常标记 单指标异常检测 多指标异常检测
AIOps 算法层
指标分布预测
指标聚类
KPI联动分析
KPI事件关联
日志事件序列 提取
日志事件模板 提取
ARIMA
奇异谱变换(SST) DiD DBSCAN Pearson关联分析
关键指标 属性1 属性2 …… 属性n
运营商、省份、城市、移动设备类型、软件版本号、移动端模块、浏览器版本、 无线网络参数、服务器端模块、后台负载、用户年龄、用户性别......
• 多维度,个性化,角色化,场景化展示
• 算法自我修改演进,新算法创建
• 智能化选择,异常检测,异常定位,根因分析
分析 计算
大数据
事件 日 志
• 数据建模,模式识别,趋势识别,故障隔离
• 数据清洗,去重,过滤,关联,生成新数据
• 集中统一管理,历史数据存储,实时数据存储
监 控
工 单
任务
数据源
• 全量,海量,多样性,复杂性IT数据
相关主题