当前位置:
文档之家› 海量非结构化数据技术在运营管理中的运用
海量非结构化数据技术在运营管理中的运用
18
根据不同类型数据的特点,采取不同的技术手段
网络报文为动态瞬时 存在数据,采集、解读、 处理难度大,但数据为 强客观性,分析与利用 价值高;
监控预警 运营分析 业务支持
利用Hadoop、Storm 等主流大数据技术,采 集归档并分析海量非结 构化日志,可完成跨层 面跨节点的多维度查询 与分析;
离线交易流水
9
➢ 数据管理如何实现 ➢ 哪些是结构化数据 ➢ 哪些是非结构化数据
结构化数据及其采集使用:交易流水......
A Composit系e统W名称eb Application, Involving J2EE, Integrat是io否n含有M下id列d内le容ware and Legacy Systems
诊断分析的需求
交易流水内容丰富 交易流水信息保存在数据库中 交易流水表以Inset操作为主
➢ 数据分类及采集 ➢ 日志类采集及使用 ➢ 报文类采集及使用
日志类数据采集:生产日志分析与监控的需求
日志类数据采集:日志关键字分析使用样例
日志类数据采集:非结构数据结构化的使用
➢ 数据分类及采集 ➢ 日志类采集及使用 ➢ 报文类采集及使用
系统间会话网络报文、交易报文、文本日志、数据库流水
目录
1 银行数据全生命周期管理探讨
2 海量非结构化数据特点及使用
▪ 动态数据、静态数据、结构化、非结构化、多层分布、逻辑相关 ▪ 运行监控、趋势分析、容量管理、数据归档、查询统计、运营分析
3 海量非结构化数据技术要点与实现
16
➢ 数据分类及采集 ➢ 日志类采集及使用 ➢ 报文类采集及使用
13
非结构化数据:运行产生的各类日志【静态】
运行过程中产生的各类日志为非结构化特性
• 日志的结构化程度很低 • 日志的字段标示等非标准化 • 跨日志关联性高,但搜索线索难以自动化 • 日志生成的形式多种多样(文件名不定)
• 难以采集、归档、查询 • 非标准日志难以定期清理 • 难以保证日志的完整性 • 难以做上下文关联分析
银行各类数据的产生、分布、状态、用途.......
安全事故 故障单
审计
接 入 网络 服务器 应用 存储 虚拟化 发展 安全 规范 变更 管理
安全
操作
账务
银行单笔业务的执行,引起整体架构各层面产生各类关联性数据
信息
业务执行产生 动态与静态数据
基础运行产生 技术相关数据
分析哪里存在数据、什么形式、特征如何、如何管理、如何使用
连接 网络转发、 动态分配, 后端状态
转换 快速转接、 转换,是否 有堵塞
服务 业务服务原 子交易,速 度、可靠
业务标识:可用于故障定位、容量系数、业务分析.......
9
银行数据生命周期管理:从源头控制与实施
日志标准化
日志分类:应用系统,应将交易流水日志、系统debug日志,系统
报错日志
日志分级:各类日志应设置级别控制,通过动态开关,控制日志写
分析与使用:
分析:针对非结构化数据,能够完成各类逻辑分析(如:周期内同一事件的发 生次数、比例等)
使用:根据分析规则,能够产生各类、各级报警信息,并集成到监控系统,提 供业务运行状态实时数据及分析结果,提供业务运行特征分析结果;
38
虚拟设备VS 管道程序
❖ 开发和移植方面:管道兼容普通LINUX 及类UNIX 系统,而设备方式除了linux 通用外,每 一个UNIX都是一套新的设备程序。
短信平台系统(MSG)
贵金属交易系统P(bGIOnLsDer)tDBLog模块 (渠道、业务种类)
核心业务系统(ECAS)
Cal总l-Center系统(CCS) 前
总行平大前置系统(EBIP) 总行台中间业务平台(EBMP) 新网层络银行系统(NBANK)
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
有
25
网络交易报文采集分析实现原理
网络交换 机
将流量通过 网络交换机 镜像端口镜 像到流量交 换机
流量交换
探
机
针
监控服务器
流量过滤, 报文拆分 不影响网 络运行
将二进制流 转换为可读 的Pcap包
按照通讯协 议和报文格 式解包
25
26
通过网络报文分析、提前预警故障隐患
前置->Connex上海
前置->connex北京
•WEB-SERVER 日志(文本/XML) •用户打开页面 详细记录(文本) •系统日志(SYS LOG)
•中间件日志(文本, 每台服务器每个服务 一个) •交易日志(group文件 ,每台服务器50个) •程序报错日志(XML) •系统日志(SYSLOG)
•数据库日志(多 个文本) •系统日志 (SYSLOG) 数据库表
7
应用系统数据管理协议、日志输出标准化........
有效运用各类数据的基础是对其进行全程管理与控制
8 系统间会话
业务标识设计:为业务全程分析埋下“线索”、染 色
短连接: 资源共用、容 量大、连接耗 时,关注异常 波动
长连接: 资源专用、效 率高,关注超 时及挂起状态
业务流程
单系统交易
请求: 请求发起端, 超时、成功 率
利用GoldenGate等数据 库同步技术采集结构化数据, 实现离线状态下实时交易性 能分析;
19
根据不同类型数据的特点,采取不同的技术手段
采集方式
网络交易报 文采集
应用交易日 志采集
交易流水镜 像采集
适用场景
交易协议标准、规范 协议非加密 网络镜像流量获取方便 网络节点间交易监控
交易日志保存在文本文件中 日志格式标准、规范 对交易日志有归档查询、故障
告警中心视图
服 务 台 视 图
告警热度图
告警大屏视图
交易视图
一 线 视 图
应用关联性视图
交易详情视图
交易路径视图
二 线 视 图
资源使用视图
会话性能视图
系统容量数据采集:系统数据、应用数据、交易数据
历史数据综合查询:海量归档、转结构化、多维查询
31
业务运行状态分析:业务类型分布、业务类型趋势
32
系统资源层
企业年金系统(EPAMS) 客户信息统一管理系统(ECIF)
有
有
有
有
有
交易渠道
有
有
有
有
改造后有报警日志交易渠道
有
有
有
有
有
无
信贷风险流程管理系统(CECM) 市场风险管理系统总 (SU前MM生IT产) 主机
有
有
有
无
有
无
有
有
数据库有服务器
有
有 WEB前台应用无
➢ 数据管理如何实现 ➢ 哪些是结构化数据 ➢ 哪些是非结构化数据
备份数据有效性验证与管理
历史数据调用分析使用:
系统数据监控与分析 业务数据的调用与登记
业务数据的翻新与备份
4
银行数据全生命周期管理目标
- 数据特性识别 - 使用规划设计 - 备份需求确认 - 使用周期确定 - 技术手段落实
-数据采集管理 -数据加工处理 -备份计划管理 -备份操作执行 -介质归档管理 -备份周期管理
海量非结构化数据技术在运 营管理中的运用
目录
1 银行数据全生命周期管理探讨
▪ 规划、设计、线上、近线、离线、下线、调阅、销毁? ▪ 结构化数据是哪些,非结构化数据是哪些,如何获取?
2 海量非结构化数据特点及使用
3 海量非结构化数据技术要点与实现
2
3
银行数据全生命周期管理-系统数据、业务数据
定义 控制 维护 使用
类型 syslog
Oracle-trace 文本 性能 事件 资产
网络报文
采集方式 syslogTCP syslogUDP
tail tail tail tail tail tail
日志来源 网络 防火墙
webServer APP服务器 DBServer
管理目标 采集,查询,归档
DB
采集,查询,归档 ,实时监控
数据规划
数据生产
- 在线生产数据监控采集 - 近线查询数据归档处理 - 离线归档数据备份分析 - 数据分析结果综合运用
数据
管理
数据管理
-生产状态监控 -运行趋势分析 -整体容量管理 -历史数据调阅
数据使用 -运营情况分析 -业务创新支持
科技服务之一:结构化/非结构化数据的全生命周期管理与使用
➢ 数据管理如何实现 ➢ 哪些是结构化数据 ➢ 哪些是非结构化数据
过期处理
备注
销毁
记录采集时间,日 志发生时间。
加工采集数据。
销毁
留存
销毁 销毁 留存 销毁
35
➢ 日志类采集技术要点 ➢ 网络报文采集技术要点 ➢ 数据整体管理与展现
日志类数据采集关键技术要点
采集与传输:
采集:根据业务、运维、监控、审计的需要,能够按照关联性、完整性、统计 性等要求,采集各技术层面、各类生产环境、各中类型的生产日志;
交易流水表
交易代码
交易日期
交易时间
交易状态
分类统计
图形化前端管理系统(GTS)
有
有
有
有
有
分行号
交易数据 错误日志
理财产品销售系统(FUND)
电子支付平台(EPAY总)前服务 PbMainFunc
外汇总买卖系统(EXCH) 前
动态应口令集中认证管理平台(OPT) 现金用管理系统(CaMS) 手机层银行(CEMB)