当前位置:
文档之家› 数据仓库专题讲座—数据质量管理
数据仓库专题讲座—数据质量管理
过程-稽核方法2 过程-稽核方法2
2
列出整体的数据处理情况, 列出整体的数据处理情况,包括入库和采集及分析与渠道系统的 使用
本地网:武汉本地网 计划上传总数:25 其中 : 已采集: 20 处理中:0 未上传:5 计划外:0 入库成功文件数 19
文件入库
入库处理耗时(分钟) 4
上传文件大小 105186753 总记录数 7537834
统计口径 各专业之间的指标体系及编码规则不一致
的 系
系
系 管理系 系 数据 系 管理
的
客户关系管理
综 合 查 询 表 客户洞察 客户关怀 报 合 分 综 细 户 客 计 算 度 用 信
分 析 户
客 监 控
渠 道 析
分 销
营 监 控
估 销 评
营
绩效管理
KPI
决策支持
分 析 入 析 发 收 分 展 业 务
2 3
•过程 过程
•评估 评估
过程- 过程-规范的流程
定义了用于构造一个完善的、 定义了用于构造一个完善的、满足业务功能的数据仓库系统 所不可缺少的步骤和任务。这是一组预定义好的、 所不可缺少的步骤和任务。这是一组预定义好的、在整个数 据仓库项目中起指导作用的、 据仓库项目中起指导作用的、可用多种方法管理的实施步骤
定义里程碑
建立业务环境,改 进现有数据的数据 质量。
制定工作计划
清洗
实现处理环境 清洗并纠正错 误数据 对结果进行评 估
评估项目并获取 相应资源
风险评估、快速 启动项目
改进
定义数据质量标 准 预设新的处理 环境 实现新的处理 环境 迁移至新的环 境中 对结果进行评 估
工具支持
目录
数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析
2 3
•过程 过程
•评估 评估
管理- 管理-岗位
负责经营分析系统与业务系统间的协调和工作落实 参与质量方案的评估和方案制定 数据质量管理小组 负责监督和管理相应业务系统建设、维护单位进行 的与经营分析系统数据质量问题有关的活动
主管副总
为经营分析系统的数据质量管 理工作提供宏观方向指导,并 予以授权
图4-1:组织结构图
全面负责经营分析系统的 建设和维护 领导数据质量管理员进行 数据质量管理工作
管理- 管理-数据上传计划
制定各个业务系统的数据上传内容计划, 制定各个业务系统的数据上传内容计划,此计划需要业务系统相 应岗位人员认真执行: 应岗位人员认真执行:
上传的文件 JF_SERV_DISCT JF_SERV_PRODUCT JF_SERV_PRODUCT JF_TRUNK_TICKET JF_ZERO_LIST JF_CARD_SERV_ITEM JF_PHS_SERV_ITEM ZN_PROV_TICKET 优惠用户清单 新业务资料
过程- 过程-校验点
对数据的稽核应包括三个层面的KPIs检查校验, 对数据的稽核应包括三个层面的KPIs检查校验,其中业务层面 KPIs检查校验 对于数据质量保证更为重要, 对于数据质量保证更为重要,也更为复杂
•文件命名是否正确 操作指标稽核 •文件个数是否正常 •索引标识是否对应 •文件中记录行数是否正常 技术指标稽核 •文件大小是否正常 •文件中各类指标汇总值 是否异常波动 业务指标稽核 •根据历史经验和季节规 律进行时间序列分析- -数据校验利器 •在系统中予 以固化,提 供自动异常 预警,使操 作人员可以 方便地进行 审核确认
上传文件行数 7537834 正确记录数 7537830 正确记录数 7537683 已加载文件数 15
实际文件大小 105186753 错误记录数 4 错误记录数 147 未加载文件数 1
稽核 -
入库失败文件数 1 已转换文件数
ODS转换
平衡
转换处理耗时(分钟) 54 可加载文件数
总记录数 7537830 需加载文件数 16
经营分析系统项目组
项目负责人
经营分析 系统需求 使用单位 项目经理
业务系统 接口员
支持数据质量管理小组的 部门或系统间协调工作
市场、网络 、客服、计 费、财务等 数据质量 管理员 经营分析系统 建设单位成员 经营分析系统 开发组
编写和维护数据质量工作相关文档,如数据质量检测标准、控制流程; 定期组织相关力量对经营分析系统的业务和设计(包括数据模型设计)的 完备性进行评估,总结问题,及时发现影响数据质量的隐患; 定期、不定期地进行质量评估; 监控数据质量问题解决的整个流程; 数据质量相关知识的培训; 建立、维护数据质量问题解决的经验集
反馈 分析 数据
EDW
系 BSS
CRM
OSS
管理 合 管 管
MSS/ERP
管理 管理
数据
客户 洞察
客户
客户
数据
目录
数据质量问题分析 数据质量方法论 质量保证成功因素 案例分析
数据质量管理方法论
建立合理的数据管理机构、制定数据质量管理 机制、 落实人员执行责任、保障组织间高效的 沟通、持续监控数据应用过程和领导强有力的 督促是保证企业数据质量的关键
数据稽核
过程- 过程-稽核点
由于各省数据情况复杂,因此数据在上传集团公司的过程中, 由于各省数据情况复杂,因此数据在上传集团公司的过程中,应经过 多次稽核检验把关,才能各环节数据的质量 多次稽核检验把关,
1 2 3 4 5
本地网生成并稽核
省公司进行稽核
省公司管控范围
省公司生成并稽核
集团进行稽核
集团进行处理并展现
1
分量稽核
• 分量稽核是指对相邻的两个环节中,在总量正确的 前提下,对数据分布情况的稽核,在这个过程中, 需要对每个维度上的分布的每个度量进行查询,如 果数据在每个维上的分布都正确,则在组合维查询 时数据也正确,可以保证多维分析的正确性。 • 在总量正确的基础之上,做分量稽核时只需要选择 任一度量进行稽核,可认为在其他度量上的分量正 确
Copyright
© 2004, Oracle. All rights reserved.
数据质量的示例
重复属性
缺少数据
缺乏引用完整性
违反商务规则 错误的值 错误的数据依赖 主键重复
多种数据源中缺乏数据对应
源数据和目标缺乏同步
错误的计算 错误的范围 稀少的实体解释 没有理由的关联 无标准的格式
原因分析
集团公司管控范围 检查通过? 检查通过? 处理/稽核/ 处理/稽核/展现
省公司
检查通过? 检查通过? 处理/ 处理/生成 检查通过? 检查通过?
本地网
生成数据 检查通过? 检查通过?
过程-稽核方法1 过程-稽核方法1
在从分公司到省公司的ETL过程中, 在从分公司到省公司的ETL过程中,采取总量稽核与分量稽核方法来校 ETL过程中 验环节之间的数据平衡关系
启动 定义
项目范围定义
定义详细的过程、 数据、组织的划分 以及质量元素、标 准及测算方法。
对现存数据及业务环境进行评 估,以便识别项目对数据、过 程、系统以及组织架构所造成 的影响。
评估
定义数据质量焦 点区域 评估基础框架结 构 识别已知的数据 质量问题 评估关键数据 描述当前数据使 用状况 分析导致错误的 根本原因 确定关键数据质 量因素 预设处理环境
质量保证KSF 质量保证KSF
在行政管理以及职能上设置相应的 人员、设立相应的岗位进行数据质 量管理,包含以下内容: 设计岗位; 明确岗位的要求和职责; 制定数据上传计划 制定统一编码库
1
•管理 管理 规范
规范的流程
检查点
过程校验点和稽核点 异常处理措施
质量保证 关键成功因素 KSF
制定数据质量的评测标准并按 所制定的标准对其进行考核: 标准 及时性、准确性、 及时性、准确性、一致性等 考核 奖励、 奖励、惩罚 阶段评估
总量稽核
• 对两个相邻环节中,对数据的总量进行验证,总量 指标包括:总记录数,所有度量指标的总值等。 • 总量正确说明数据没有被丢弃,没有不符合装载逻 辑规则的脏数据存在。 • 总量不正确,则需要检查本环节装载日志中是否有 被抛弃的记录,如果没有数据丢失,则需要检查数 据运算逻辑规则。 • 总量稽核要对每个度量进行,才算完整的稽核
数据源问题 多个生产系统的数据源存在不一致现象 数据源本身存在脏数据噪声数据 数据存在人工操作 不同数据源由不同部门管理 数据抽取时间点问题 由于生产系统的数据 是随生产而变化的, 是随生产而变化的, 在不同的时间点 进行数据抽取的数据 是不一致的
业务规则问题 生产系统的不同版本 各分公司市场政策的差异 同一产品、业务、 同一产品、业务、套餐 在生产系统 业务处理规则 编码差异很大
质量保证 关键成功因素 KSF
2 3
•评估 评估
质量保证KSF 质量保证KSF
组织保证
设计岗位 明确岗位的要求和职责
1
•管理 管理
制定标准
制定数据上传计划 制定统一编码库
质量保证 关键成功因素 KSF
制定数据质量的评测标准并按 所制定的标准对其进行考核: 标准 及时性、准确性、 及时性、准确性、 一致性等 考核 奖励、 奖励、惩罚 阶段评估 在数据处理的流程上进行规范并设 置相应的控制点和稽核点 规范的流程 过程校验点和稽核点 异常处理措施
及时性 一致性 唯一性和参考完备性
•处理数据超出了 • 处理数据超出了 用户忍耐 •结果过时 结果过时
•数据超出值域范围 数据超出值域范围 •数据类型不匹配 数据类型不匹配 •数据日期格式错 数据日期格式错
完整性 数据类型和值域
•不同数据源相同 不同数据源相同 实体数据不同 •已汇总数据与详 已汇总数据与详 细数据的再汇总 不一致
上传的内容
上传的时间计划 每月28日20点 每天22点 每月28日20点 每天22点 每月28日20点 每月28日20点 每月28日20点 每月28日20点