数据质量管理系统
检查
质量检查基本功能
•数据稽核 •处理过程检查
• 接口文件级检查 • 仓库数据检查 • 关键指标稽核
数据质量检查点的部署方式
数据源 数据源
一经数据仓库
ETL
省级数据仓库
地市集市 部门集市
检查点
前端应用 前端应用 前端应用
告警
检查结果报告基本过程 • 报告定义 • 报告生成 • 报告展示
检查结果报告的内容 • 消息ID • 告警发生时间 • 发出通知时间 • 解决时间
• 版本管理体系 • 版本管理的工具 • 元数据版本管理
访问控制管理
访问控制管理
用户管理
角色管理
权限管理
修改角色权限 分配角色权限 创建对象权限 修改用户角色 授予用户角色
创建角色 删除用户 修改用户信息 建立用户
介绍纲要
规范编写背景 规范内容说明 总结
总结
本规范是在经营分析系统1.5数据质量管理系统基础上进行加强和完 善:
• 过程查询 • 影响分析 • 血统分析 • 实体关联度分析 • 实体差异分析 • 版本管理 • 变更通知
• 信息采集 • 质量检查 • 结果报告 • 改进处理 • 处理总结
• 知识积累和维护 • 知识使用
• 元数据维护 • 元数据导入/导出 • 元数据维护 • 元数据同步检查 • 元数据实体检查
应用层
• 目录扫描模块 • 检查规则读取模块 • 数据质量检查模块 • 检查结果生成模块 • 代理活动采集模块 • 通信模块
• 用户管理模块 • 检查规则处理模块 • 代理配置处理模块 • 代理活动监控模块 • 检查结果处理模块 • 数据库接口模块 • 通信模块
• 检查规则查看 • 检查规则配置 • 代理配置 • 代理活动监控 • 检查结果查看 • 用户管理 • 通信模块
• 工作分配管理 • 系统使用状况分析 • 项目需求管理 • 项目组织架构管理
数据质量监控目标
目标1
•初步实现经营分析系统数据处理各个环节的全程监控
目标2
•及时发现数据质量问题、及时定位问题、及时解决问题
目标3
•积累数据质量管理经验,提升和强化数据质量管理系统的能力
数据质量监控流程
采集、检查、报告、处理、总结
中国移动省级经营分析系统 数据质量管理业务技术规范v2.0
业务支撑系统部
介绍纲要
规范编写背景 – 编写背景 – 总体说明 – 数据质量管理需求
规范内容说明 总结
背景
中国移动省级经营分析系统经过多年发展,已初步建立了 数据质量管理机制,有效保障了经营分析系统的数据质量。
省级经营分析系统价值的不断显现与稳步提升,以及IT系 统安全管理、风险内部控制等重大管理举措的实施,各省公司 对经营分析系统如何保障数据质量提出了更高要求,以全面及 时地采集、检查、报告、解决和总结经营分析系统各环节的数 据质量问题,保证数据质量的稳定可靠。
数据质量-管理流程
管理机制
• 组织机构职责 • 相关外部组织
控制流程
• 需求变更控制流程 • 数据质量问题处理流程 • 指标口径和业务规则问题处理流程 • 数据变更维护流程 • 错误数据处理流程
质量检查
• 管理流程检查 • 元数据质量检查
数据质量-系统管理
安全管理 版本管理
• 系统的监控与告警 • 系统登录认证管理 • 系统审计与日志管理 • 系统备份与恢复管理
稽核流程
数据维护
数据清洗流程 调度流程
错误数据维护流程
人为调整数据流程
数据装载
数据使用 数据创建
数据转换流程 数据加载流程
数据传递
数据质量问题
数据质量问题
激励
反馈渠道 反馈机制
培训内容 培训时间 培训资金
奖惩制度 奖惩制度的执行
培训
管理
责任心 责任人
培训计划 培训制度
目标 工作优先级
管理问题
系统功能需求
告警管理 • 告警界面 • 告警形式
• 数据处理模块 • 严重级别 • 问题描述 • 目前状态
• 告警升级 • 告警恢复
处理
问题隔离阶段
• 分控方式:由经营分析系统数据处理各个阶段上的分布式检查点独 立执行数据处理流程挂起和问题隔离操作
• 总控方式: 数据处理各个阶段上的分布式检查点向某个中央调度控 制器保送当前问题状态,并由调度控制器执行数据处理流程挂起和 问题隔离操作
系统主要目标
支持对数据质量的全程监控 完善数据质量监控模块,建立有效的数据质量监控机制 建设符合CWM规范的元数据管理平台
实施建议
在建立数据质量管理系统后,需要建立配套的管理机制 各省在遵循CWM标准的前提下,可自行建设元数据管理平台 在规定的应用外,各省可以根据实际情况增加
数据质量管理需求
信 息 需 求 域
信息问题
完整性 唯一性 一致性
度量
合法性 准确性
业务系统数据变化周期
变化频度
实体数据刷新周期
业务元数据
元数据
技术元数据
数据质量问题
流 程 问 题 域
技 术 问 题 域
数据质量问题
数据创建
数据装载
数据校验规则不当 默认值使用不当 数据创建延迟
数据获取
取数时点不同步
数据清洗算法
调度机制 数据转换算法
➢ 引入了数据质量监控模块 ,实现对经营分析系统数据的质量全程监控 和管理
➢ 进一步突出和强调了基于CWM标准的元数据管理和应用 ➢ 完善数据质量管理流程 ➢ 进一步强化了数据质量知识库的功能
元数据管理
建立符合国际主流规范CWM的元数据管理支撑平台 管理整个经营分析系统的技术、业务和管理三类元数据
数据质量监控
采集、检查、报告、处理和总结 把质量问题处理案例记录到知识库中,以便进行知识共享
项目管理支撑
工作分配管理 系统使用状况分析 项目需求管理 项目组织架构管理
介绍纲要
规范编写背景 规范内容说明
总体说明
数据质量管理概述
数据质量的六大基本要素:完整性、唯一性、一致性、精确度、合法性和及时性 从用户视角衡量数据质量,重视用户对数据的满意程度 建立基于CWM标准的元数据管理功能平台 建立数据质量监控手段 通过建立有效的数据质量管理数据质量管理总体应用体系框架 明确规定数据质量管理系统中的元数据支撑功能及其它支撑功能 确定数据质量管理的基本功能和流程
数据质量监控
• 数据质量评估 • 诊断报告展示 • 接口异常分析等模块
信息地图
• 数据实体展现视图 • 数据处理过程展现视图 • 指标视图 •…
需求变更影响评估 数据集市支撑
• 关联实体影响评估 • 受影响实体关联处理过程评估 • 维表变更影响评估 • 灵活展现 • 影响评估报告
项目管理支撑
监控流程 采集
检查
报告
处理
总结
系统管理 知识库管理
元数据库
管理元数据 业务元数据 技术元数据
运行状况信息库
源数据状况 ETL运行状况 仓库运行状况 集市运行状况 前端运行状况
数据质量知识库
源数据类型问题 ETL类型问题 仓库类型问题 集市类型问题 前端类型问题
源系统层
数据源 数据源
ETL
数据仓库
地市集市 部门集市
信息采集点
采集
元数据库
人机接口
检查
报告
外部系统
处理
总结
运行状况信息库
管理/配置模块
数据质量知识库
采集
指导原则
原则1:信息采集点前移 原则2:信息采集点覆盖数据处理的主要过程
信息采集
信息采集点的扩展 信息采集点采集的信息内容
一经数据仓库
数据源 数据源
ETL
省级数据仓库
地市集市 部门集市
信息采集点 前端应用 前端应用 前端应用
问题处理阶段
• 问题分析 • 问题处理
• 向外部系统发送检查报告 • 启动数据质量维护流程
总结
总结的类型
• 数据质量事件总结 • 数据质量问题总结 • 数据质量总体情况总结 • 数据质量阶段性总结 • 其他总结
问题总结
• 对处理环节问题处理的过程和结果进行评估 • 把问题的采集、检查、报告、处理全过程信息进行整理,形
• 源数据类型问题 • ETL类型问题 • 仓库类型问题 • 集市类型问题 • 前端类型问题
存储描述和控制经营分析系 统中数据的数据
存储描述系统运行情况的各 种度量数据,包括数据量、 数据处理周期、数据处理过 程运行情况等
存储数据质量问题的识别、 诊断、处理各阶段的相关信 息
功能层
元数据管理
质量监控支撑 知识库管理 系统管理
前端应用 前端应用 前端应用
源系统层
数据处理流程
主要涉及源系统接口数据、ETL过程、数据仓库、数据集市、前端应用等处理阶段
存储层
元数据库 运行状态信息库 数据质量知识库
• 业务元数据
• 技术元数据
• 管理元数据
• 源数据状况 • ETL运行状况 • 数据仓库运行状况 • 数据集市运行状况 • 前端运行状况
成问题处理案例,存入数据质量知识库中,以便质量管理工 作的改进
阶段总结
• 阶段性总结以数据质量知识库为基础,通过对知识库中各种 数据质量问题案例进行分类查询和统计,得到不同角度的总 结报告
数据质量-技术实现
外部数据 源系统
接口机 Agent
ETL 服务器
Agent
数据仓库 服务器
Agent
数据集市 服务器
数据加载算法
平台孤岛
接口数据获取 数据源不当 过程中失真
数据使用
硬件平台 软件平台
数据传递