阿里巴巴大数据运维之道
用Tdata时序异常检测模型跟踪用户满意度变化情况。
AIOps之资源优化
用指数平滑模型对未来一周的资源消耗进行预测,指数模型包括单指数、双指数和三指数模型。 ➢ 单指数模型拟合的是只含水平项,不含趋势项和季节效应的时间序列。 ➢ 双指数模型(Holt模型)拟合含水平项和趋势项的时间序列。 ➢ 三指数模型(Holt-Winters模型)拟合含水平、趋势以及季节项的时序。 效果好
指标 事件 日志
DataOps架构
知识图谱
•
如何用统一的语言来定义运维数据?
•
我们把运维里的对象称为实体
•
运维领域里实体的关系,就是一张图,可以用知识图谱来定义
运维领域关系 知识图谱
知识图谱——运维搜索
•Leabharlann 整合集团所有运维资源(元数据、运维工具系统等)
•
为SRE打造垂直领域搜索服务,运维习惯的改变,通过搜索到达一切
运筹优化—同步任务优化
优化前大部分任务集中在5MB/s的低效同步速度区间内,优化后大都在在5~10Mb/s、 10MB/s~50MB/s、50MB~100MB/s的高速区间。 优化前平均速度2.28MB/s,优化后15.9MB/s,均速直接提升7倍!!!
目录
1 运维进阶 2 一体化运维平台 3 DataOps实践 4 AiOps探索
监控
**模块超过阈值 ……
SRE
机房裁撤调整 新数据中心建设 新服务上线 ……
SRE
我们所运维的服务
一站式运维平台—功能抽象
老板
水位咋样? 服务稳定吗? ……
用户
服务稳定吗? 为啥作业挂了? 资源咋扩容 申请新资源 ……
监控
**模块超过阈值 ……
SRE
机房裁撤调整 新数据中心建设 新服务上线 ……
阿里巴巴大数据运维之道
目录
1 运维进阶 2 一体化运维平台 3 DataOps实践 4 AIOps探索
运维进阶
人肉运维
(Human Ops)
自动化运维
(Automated Ops )
DataOps AIOps
数据 数据
算法+模型
结果
人的 经验
算法+模型
结果
数据化运维
(Data Ops )
决策
执行
AIOps之监控自愈
AIOps之硬件自愈
➢ 10w级的服务器上部署硬件相关信息采集插件,打印硬件状态日志 ➢ 经过数据通道、流计算、OLAP系统,建立起了一份实时硬件状态表 ➢ Center程序通过定时运行SQL任务,使用规则判断硬件异常
1数据采集链路
3决策执行链路
2建模预 测反馈
➢ 一年处理20万次自愈事件 ➢ 服务器可用率 99%
•
站点功能Map,站内垂直搜索
知识图谱——ChatOps
• 简单、重复的工作
• 信息直达
• 减少重复咨询解放 生产力
• 搜索兜底意图
基础知识
问答积累
缺陷
服务状态
运维操作
机器状态
自助诊断
命令执行
开关报警
事件推送
作业诊断
机器诊断
聚类异常检测
• 关于算法选择,Why DBScan?
- 无需指定聚类组的数量 - 支持离群点的自动发现
日志异常检测
如何发现异常的日志? A. 从千万行日志中提取出日志打印的模式
B. 针对识别的模式,建立对应的指标-> 时间序列异常检测
日志异常检测
运筹优化
• 运维 – “运”-> 运筹 • 运维领域存在较多的规划问题,需要用运筹优化的方法来解决
✓ 多集群容量均衡 ✓ 动态调整用户配额 ✓ 如何优化带宽 ✓ 任务参数智能优化 ✓ ……
执行
智能运维
(AI Ops )
异常响应
目录
1 运维进阶 2 一体化运维平台 3 DataOps实践 4 AiOps探索
阿里巴巴大数据场景
GOP S 全球运维大会 2018· 上海
物理机 10w+
运维分层解决方案
一站式运维平台—运维场景
老板
水位咋样? 服务稳定吗? ……
用户
服务稳定吗? 为啥作业挂了? 资源咋扩容 申请新资源 ……
基于对每个配额组未来一周的资源消耗预测值结合该 配额组的历史用户满意度数据和所在用户等级的服务 SLA,由此计算出每个配额组的资源推荐值。
AIOps之资源优化
谢谢
AIOps之资源优化
如何给集群的作业划分quota组最合理?
目标: ➢ 用最少的资源让用户尽可能满意
问题: ✓ 静态划分缺乏灵活性,无法削峰填谷,资源浪费 ✓ 部分用户占用大量资源,其他用户感受差
AIOps之资源优化
用户满意度模型: 一套综合评价体系主要包含用户资源抢占、等待分配时间、资源满足率等。
运筹优化—同步任务优化
上图是AB两个事业部类似同步作业的速度分布,如何将成熟BU的作业优化经验快速应用到其他BU?
运筹优化—同步任务优化
影响因子分析:
➢ 源类型 ➢ 宿类型 ➢ 记录大小 ➢ 字段数量
并发 jvm参数 batchsize 出错限制
固定属性 可配属性
固定属性k-means聚类,找出每类的最佳配置
需求抽象
老板 用户 监控 SRE
UI视图+AI技术
信 息看 流
运维平台
命 令做 流
我们所运维的服务
目录
1 运维进阶 2 一体化运维平台 3 DataOps实践 4 AiOps探索
DataOps基础
运维数仓
图出自书《大数据之路》
常见的运维数据
维度(元数据)
服务器 集群 网络
应用 服务
度量(运行时)