当前位置:文档之家› 数据质量管理

数据质量管理

展现分析图表及血缘、影响关系。
数据质量管理产品价值
完善的质量问题解
决共享机制,实现 数据质量的闭环管
5

1
完整检核标准梳理方法及 指标规则模板
价值
自动化的检核处
2
理及问题通知机 制,达到无人职

规范的问题管理流程及
制度,精确管理问题每
4
个阶段
3
提供全面的数据分析 机制,加速问题解决
数据质量产品逻辑架构
• 解决问题: 质量问题分析
• 归纳问题: 问题管理流程
数据质量产品功能简介
——数据质量检核指标
• 数据质量系统依照数据质量的八大要素量规范了6种数据质量问题的 检核规则,其中包括:非空检查、唯一检查、主外检查、长度检查、 代码检查以及一致性检查
• 数据质量系统支持自定义规则对系统中业务性规则进行检核
8.发现及 纠正当 前数据 错误
9.实施监 督控制
10.沟通行动和结果
数据质量管理关键点
• 制定规范的数据质量度量标准 • 建立有效的数据质量监管体系 • 建立完善的数据质量管理制度 • 高质量的数据来源于数据标准、数
据分析、检验以及管理制度的综合 作用
11
场景分析:唯一性校验
• 存在问题 – 某ODS系统中,对私客户主题中的客户信息不允许重复,客户身份证号 字段可以作为客户唯一的标识,为了保证系统中客户信息的正确,需要 对系统中客户基本信息表增加唯一性校验。
权 限 集 成
数 据 访 问
二 次 开 发

规则库

检核结果库
知识库
运行状态库
数据质量产品技术架构

现 层
JavaScript & Ajax Flash JSP/HTML
Jason
XML
JSF HTML
接口服务层
业务应用层
逻 辑 层 业务组件层
技术组件层
持 久 层
元数据业务应用
数据质量业务应用
数据标准业务应用


度执行
培训
培训制度
培训计 划
培训内 容
培训资 金
培训时 间
管理
责任心
责任人 工作优 目标 先级
管理问题域
优先级高 优先级中 优先级低
数据质量管理概述
——数据质量度量规则
指数据刷新、修改和 提取等操作的及时性 和快速性
及时性
完整性
主要包括实体不缺失、属 性不缺失、记录不缺失和 字段值不缺失四个方面
数据质量管理产品简介
数据质量管理产品特性 数据质量产品价值 数据质量产品逻辑架构 数据质量产品技术架构 数据质量产品功能简介
数据质量管理产品特性
• 基于元数据的知识库共享设计 • 灵活的检核模块的配置、支持灵活扩展 • 支持检核主流数据库系统 • 提供丰富的系统接口 • 较强的检核问题与知识库管理 • 丰富的前端界面展现:系统前端采用Ajax、Flex技术,能够灵活的
数据质量产品功能简介
——数据质量检核
数据质量产品功能简介
——质量问题告警
• 质量问题告警是系统提高了数据质量问题的时效性 以及数据管理人员对问题数据的响应速度。
数据质量产品功能简介
——质量问题分析
• 质量问题分析通过图形、图表界面,快速定位问题 产生的原因以及历史趋势,为数据管理人员解决数 据质量问题提供辅助
• 解决方案 – 数据质量管理系统中提供了规范的主外键校验规则来检核系统中数据关 联关系不对应的问题。通过对系统中主表定义主外键校验规则并关联对 应外键字段的附表及字段,得到系统关系中不对应的问题数量及主表中 的问题记录显示字段明细。
场景分析:拉链表交叉链、断链校验
• 存在问题 – 某ODS系统中,为保证拉链表数据结构正确,需要对表增加拉链表交叉 链和断链校验。
• 解决方案 – 数据质量管理系统中提供了规范的唯一性校验规则来检核系统中数据唯 一性问题,通过对系统中某个表中的一个或者多个联合字段进行唯一检 查,得到该表中不唯一记录的数量及记录显示字段明细。
场景分析:一致性校验
• 存在问题 – 某ODS系统中,发现ETL过程后对公活期表在ODM层与FDM层的记录数 不一致,为保证系统ETL过程运行正确,需要对系统中对公活期表数据由 ODM层至FDM层过程增加一致性校验。
检核指标管理
技术指标–表级指标–完整性指标-基本信息
检核指标管理
技术指标–表级指标–完整性指标–检核目标
检核指标管理
技术指标–检核目标-添加管理部门
检核指标管理
技术指标–系统指标
检核指标管理
技术指标–系统指标-新增指标-选择检核表
检核指标管理
技术指标–系统指标-新增指标-输入SQL条件
检核指标管理
数据质量管理概述
——数据质量管理策略
质量问题报警
质量检核运行
质量问题分析
数据质量指标
数据质量
问题管理流程
管理策略
数据质量管理方法论
数据质量 提升周期
评估
10步流程
1.定义业 务需求 和方法
2.分析信 息环境
3.评估数 据质量
4.评估业 务影响
认知
5.识别根 本原因
6.制定提 升方案
行动
7.预防未 来数据 错误
平台孤岛 安全管理
业务系统数据变化周期 变化频度
技术元数据
数据维护 数据维护
人为调整 数据流程
变更维 数据测 错误数据维
护流程 试流程 护流程 数据清洗
流程
调度流 程
数据使用
稽核流程
数据创建
稽核传递
流程问题域
数据加 载流程
实体数据刷新周期
数据质量问题
数据装载
数据转 换流程
激励
反馈渠道 反馈机 奖惩制 奖惩制
检核指标管理
• 指标定义主要功能: – 基本信息:提供指标名、指标说明、执行频率、调度方式等信息输入等 功能 – 检核目标:提供指标的检核目标、管理部门、自定义SQL等操作等功能
• 指标修改功能: – 提供指标基本信息、管理部门等的日常维护功能
• 删除指标 – 删除不再需要的指标
检核指标管理
技术指标–表级指标
• 解决方案 – 为进行系统业务的平衡性校验,可使用数据质量系统中一致性校验规则 进行检测,通过对FDM层总账科目余额与SDM层明细科目汇总余额字段 设置一致性SUM校验规则,得到过程中数据差额。
目录
• 数据质量管理概述 • 数据质量问题解决之道 • 数据质量管理产品简介 • 产品实施案例及场景分享
• 解决方案 – 为进行系统中拉链表交叉链、断链检验,数据质量系统提供自定义校验 规则进行检测,通对表定义自定义查询语句,得到存在交叉链、断链的 记录数。
产品实施案例及场景分享
——场景分析:业务平衡性校验
• 存在问题 – 某ODS系统中,发现ETL过程后存在FDM层总账科目余额与SDM层明细 科目汇总余额不一致,为保证系统业务规则运行正确,需要在系统增加 相关业务的平衡校验。
检核问题管理 • 检核问题列表:
46
检核问题管理 • 问题明细列表:
47
检核问题管理 • 转入知识库
48
检核问题管理 • 血统分析:
49
数据质量分析
• 系统提供对数据质量检核出的结果进行的数据分布 式分析。包括查询指标、查看趋势分析视图及下载 质量报告等功能
• 功能主要包括以下部分:
– 指标趋势分析:提供对单指标所检核出的结果进行数据趋势分析 – 单表数据分析:提供对数据质量检核出的结果以单表进行数据趋势分析 – 数据质量报告:对指定的检核数据生成数据质量检核报告(EXCEL格式) 并
唯一性
指主键唯一和候选键唯一 两个方面
主要包括格式、类型 和业务规则的有效性
合法性
一致性
指统一数据来源、统一存 储和统一数据口径
精确性
指计量误差、度量单位等 方面的精确程度
数据质量管理产品简介
——数据质量成熟度模型
阶段1 初始级
阶段2 定义级
阶段3 管理级
阶段4 优化级
通过数据库 进行数据管理
通过模型管理 进行数据管理
检核指标管理
• 检核指标管理提供唯一检查、非空检查、外键检查、代码检查、长度检查、 值域检查、一致性检查、自定义检查等检核指标的管理及综合查询
• 功能主要包括以下部分: – 指标设置按不同入口下设: • 表级指标:提供从检核目标(表及字段)定义、查询、修改、删除 检核指标 • 系统指标:提供从指标分类入口定义、查询、修改、删除检核指标 – 综合查询 • 提供按各种不同条件查询所有未删除指标
数据质量分析

单表数据分析

问题处理率
单指标趋势分析
数据质量问题定位 数据质量报告
检核指标管理
唯一性检核


值域检核
非空检核 代码检核
业务指标检核……
检核调度执行
指标自动调度 指标手工调度
检核执行
问题管理
检核问题管理 手工问题管理
问题通知
系管 统理
系统管理
系统日志
系统参数
密码维护
系统配置
权限管理
接口
传输技术 不可靠
数据传递
信息问题域
接口数据获取
取数时点
过程中失真 数据源不当 不同步
调度机制
数据加载算法
完整性 一致性 唯一性
数据清洗算法 数据转换算法
数据获取 展示周期
展示工具 展示方式
硬件平台 软件平台
度量 数据装载
业务元数据 准确性 合法性
元数据
数据使用
数据备份恢复
相关主题