当前位置:
文档之家› 智能运维在金融核心领域的应用
智能运维在金融核心领域的应用
控、蓝鲸智云监控
金 运维大数据:交行/中行
融 行
智能巡检:阳光保险/上海银行
业 容量评估:太平洋保险/招行
技 Splunk:大数据搜索与可视化 术 华 为 :FusionInsight IBM 厂 :实时大数据分析驱动 商 京东/IBM/国自:巡检机器人
核心技术组成
• 大脑:智能运维算法。它利用人工智能算法,根 据具体的运维场景、业务规则或专家经验等,对 运维事件进行分析、定位,并作出决策
运维效率 系统可用性 系统可靠性
手工运维
自动化运维
智能运维
受限于人为因素,运维效率较低 部分操作自动化后,运维效率较高
自动分析处理事件,将多种自动化工具实现联动, 运维效率高
手工运维时处理异常效率低,系 得益于自动化工具,异常处理与恢复 采用智能分析、预警、决策等手段,异常处理效率
统可用性相对较低
速度较快,系统可用性相对较高
01 背景介绍 2. 智能运维研究
3. 智能运维应用实践 4. 智能运维实施路径
/7/22
6
智能运维 (Artificial Intelligence for IT Operations, AIOps)
■ 运维
是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事 件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用 的状态。
智能运维在金融核心领域的应用
技术创新,变革未来
01 背景介绍
2. 智能运维研究 3. 智能运维应用实践 4. 智能运维实施路径
/7/22
2
架构特色
运维三大挑战
安全运行
• 专有、封闭、集中->国产、开放、分布式 • 单数据中心->多数据中心
人力紧缺
• 系统管理:人管机器 • 值班运行:人盯系统
远场运维
智能运维 (Artificial Intelligence for IT Operations, AIOps)
■ 运维
是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事 件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用 的状态。
智能运维
■ 运维
是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事 件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用 的状态。
• 利用脚本和程序 完成重复性、大 规模、批量化的 工作
• 特点:减少人力 成本、提高运维 效率
3.0 智能运维
• 通过人工智能算法 自动从海量数据中 学习总结规则,模 拟人类作出决策
• 特点:由人工智能 替代人类做决策
优缺点对比
智能运维将人工智能科技融入运维系统,增强了传统运维能力,能有效运维大 规模复杂系统,减轻人的负担。
• 值班操作繁琐重复、夜班值守压力增大 • 数据中心地点偏僻、远程运维需求迫切
智能运维关键问题
基础 研究
定义、特点、优势劣势、 产学研现状、关键技术
提出下一步实 施方针与路径
实施 策略
智能 运维
战略 目标
引入智能运维所 应达到的目标
技术 架构
所处位置、系统架构、功能组件
应用 场景
结合战略目标,寻找合适场景
高,甚至可规避异常,系统可用性高
手工运维时系统的可靠性较低
将重复性操作实现为自动化工具,采 结合自动化工具,并采用多种策略使用工具,高可
用自动化运维时系统可靠性较高
靠性
学习成本
需掌握多个系统的运维知识和操 需对自动化工具有一定掌握,学习难 故障分析、预警及异常处理可由智能运维自动实现,
作指令,学习难度高、成本高 度较高、成本较高
Mysql ETL Spark sql
数据组织存储
Storm/ Spark Streaming
flume/sqoop /JDBC
数据准实时获取、数据 直接访问
数据中心数据源
指标预警、报警聚合 异常定位、故障自我修复
BI展现
数据计算层 数据存储层
数据接口
离线计算
输
输
入
出
机器学习算法 分析结果文件
Hive
Redis
数据采集层
分布式存储 层
(Hadoop)
日志收集及处理 (flume)
非结构化数据源
各系统日志Logs
HDFS
实时计算分析
数据流
事件驱动
数据挖掘
统计分析 应用平台
监控数据
设备监控数据 系统监控数据 数据库监控数据 中间件监控数据 应用监控数据 安全监控数据 动环监控数据 环境监控数据 统一告警时间
日志数据
系统日志 应用日志 网络日志 设备日志 安全日志
配置信息
CMDB 变更管理
运维大数据平台
数据展示层
搜索引擎可视化 Elasticsearch
智能运维分析 Kibana
• 眼睛:运维大数据平台。 它能采集、处理、存储、 展示各种运维数据,感 知与洞察技术系统
运维大 数据平
台
智能运 维算法
自动化运 维工具
• 手:自动化运维工具。 它基于确定逻辑的运维 工具,对技术系统实施 诸如运行控制、监控、 上线等系列处理操作
运维大数据平台
运维数据是在日常技术系统运行维护过程中产生的数据,用以表述当前系统的 状态、事件、异常等信息,一般可分为动态数据和静态数据两类
学习难度与成本低
建设与使用成本
建设运维的工具成本低,可采用
系统自带的运维命令。但对复杂 系统的运维需投入大量的人力,
建设自动化运维的成本较高,投入运 维的人力成本则相对较低
智能运维的建设成本较高,投入运维的人力成本低
人力成本高
应用范围
运维基础手段,应用广泛,但不 适用于分布式、大规模系统运维
在互联网企业、金融行业得到广泛应 用,适用于集群系统、服务器数量一 般的分布式系统运维
新技术,目前有部分金融企业、互联网企业开展研 究与实践,适用于大规模分布式系统运维
创新触发期 期望膨胀期 冷静期
启蒙复苏期
稳定成熟期
产学研现状
科 卡内基梅隆:Netflix合作
研 机
清华大学:交行/阿里/IBM
构 南京大学:360/腾讯
互 阿里云:智能故障管理平台 联 :单机房故障自愈系统 网 腾讯:哈勃大数据平台、织云智能监
智能运维
ห้องสมุดไป่ตู้■ 运维
是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预 警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态。
1.0 手工运维
• 人工监控、人工 决策、手工实施
• 特点:运维人员 手工完成,低效; 成本随系统规模 增加而线性增长
2.0 自动化运维