当前位置:文档之家› 数据质量管理

数据质量管理

√规则十:本表的字段与其他表中的字段的业务含义、统计口径相同,且两张 表的数据不是经同一数据源加工得到。满足此条件时必须进行逻辑性检验。
√规则十一:本表的字段与其他表中的字段具有不同的业务含义,相同的统计 口径,在业务上有逻辑公式成立,且两张表的数据不是经同一数据源加工得到。 满足此条件时必须进行逻辑性检验。
数据质量检验的顺序
1、数据源-完整性检验 数据源的完整性检验报异常时应停止ETL加载过程,不需要再进行后续的 检验
2、数据源-原则性检验 数据源的原则性检验报异常时应停止ETL加载过程。不需要再进行后续的 检验
3、数据校验-完整性检验 数据校验的完整性检验报异常时应停止ETL加载过程,不需要再进行后续 的检验
数据值检查
逻辑性检验
数据值检查
异常处 理方式 报警 停止ETL 停止ETL
报警
说明
对单字段的数值检查。不符合 原则性检验时该数据一定是错 误的。 对单表或多个表内字段间逻辑 关系的检查
数据源检验方法
时效性检验 判断在约定的时间内,数据源的数据是否按时到达
完整性检验 HDS数据表与代码表的一致性检查 HDS数据表记录数检查
步骤二确定数据源的时效性检验规则
根据表EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL的数据到达规律, 定义该表每月最晚到达日期为8日。
步骤三 确定数据源的完整性检验规则
根据数据源检验适用规则的规则二、三:
1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL中包含有外键字段 I_Provin ce (省份代码)、 I_Org (机构代码)、C_Brand(规格)。
2、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_BASIC表也包含字段Out_Sell_Retail_Am ount、Out_Sell_Amount、End_Store_Amount
3、这两张表对应字段具有相同业务含义、不同的统计口径,存在以下汇总关系: EIIRECV.EIIRECV_TZ_BS_Y_Q_M_BASIC 表统计商业企业的系统外批发销售量、 系统外零售量、期末商业库存数据。EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELL DETAIL表统计商业企业分卷烟规格的系统外批发销售量、系统外零售量、期 末商业库存数据。因此EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL表中某 商业企业分规格的汇总数据应该等于表EIIRECV.EIIRECV_TZ_BS_Y_Q_M_BA SIC中对应的商业企业的数据。
数据的自治性
数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约 束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而 不能够相互矛盾。
数据的真实性、完备性、自洽性是数据本身应具有的属性, 称为数据的绝对质量,是保证数据质量的基础。除了数据的 绝对质量外,还有我们在利用和存贮数据的过程中所产生的 数据质量,包括使用质量、存贮质量和传输质量,称之为过 程质量。
I_Province (省份代码)对应代码表DM.T_DM_GJJ_QGSF中的QGSFDM; I_ Org (机构代码)对应代码表DM.T_DM_GJJ_ZZJG中的ZZJGDM; C_Brand (规格)对应代码表T_DM_GJJ_JY中的THTXBS 。
该表符合规则二的检验条件,需要进行代码一致性检查。 2、该表包含有日期型字段Y,M,但记录条数每月不确定,因此不满足规则三,
数据质量不高已经成为困扰此类项目的开发人员与用户的一个严重问题。
数据质量不高的主要原因
数据质量归类
数据质量示例
数据质量管理方法
数据管理
1 数据管理的目标 2 数据管理的难点与重点
3
数据质量控制方法论
4 案例介绍
数据质量控制方法论
1
数据源检验方法
2
数据源检验适用规则
3
数据检验方法
4
数据检验适用规则
3
数据质量控制方法论
4 案例介绍
数据质量管理的难点与重点
1
数据质量概念
2
数据质量的重要性
3
数据质量不高的主要原因
4
数据质量归类
5
数据质量示例
6数据质量管理方法源自数据质量概念数据本身的数据质量
数据的真实性:
数据必须真实准确的反映实际发生的业务。
数据的完备性:
数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。
数据质量概念
数据的过程质量
数据的使用质量:
数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的 使用,就不可能得出正确的结论。
数据的存贮质量:
指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案 和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,如 异地备份和双机备份等,所谓存贮在适当的介质上是指当需要数据的时候能 及时方便的取出。
√规则七:单表或多个表内的字段具有不同的业务含义,相同的统计口径, 在业务上有逻辑公式成立。满足此条件时必须进行逻辑性检验。
数据检验方法
数据校验是对DDS数据库中前台应用直接使用的相关表的检验。数据校验分为时 效性检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、
模糊性检验、逻辑性检验。
3
数据质量控制方法论
4 案例介绍
数据质量检验的案例
下面以行业对比报表中的全国卷烟市场分类销量情况表(分价类)为 例来介绍如何根据数据质量管理方案进行各类规则的制定实施过程。
步骤一确定相关的表
全国卷烟市场分类销售情况表(分价类)
在DDS中直接使用的表为:APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL 对应的HDS中的源表为:EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL。 因此下面的检验规则主要针对这两张表来制定。
原则性检验 HDS数据表中字段的数值是否在合法的区间内
逻辑性检验 单表或多个表内字段间逻辑关系的检查
数据源检验适用的规则
时效性检验
√规则一:时效性检验适用于HDS中所有的代码表和数据表。
完整性检验
√规则二:包含外键字段的HDS数据表必须进行代码一致性检验。 √规则三:包含日期型字段且可以确定记录数范围的HDS数据表必须进行记 录条数检验。
数据的传输质量:
数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社 会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性 非常重要。
数据质量重要性
关系建设系统成败
很多数据仓库应用程度不高或最后失败,归根结底都是数据质量不高造成 的。
数据质量好坏关系到结果与预期是否一致
原则性检验
√规则四:HDS数据表中可以确定取值范围的字段必须进行原则性检验。
逻辑性检验
√规则五:单表或多个表内的字段具有相同的业务含义,不同的统计口径,且 存在汇总关系。满足此条件时必须进行逻辑性检验。
√规则六:本表的字段与其他表中的字段的业务含义、统计口径相同。满足此 条件时必须进行逻辑性检验。
数据检验适用的规则
模糊性检验
√规则七:不能进行完整性、原则性检验的情况下,必须进行模糊性检验。 √规则八:规则七不成立时,根据系统的重要程度决定是否进行模糊性检验。
系统的重要程度及哪些系统要进行模糊性检验由客户方确定。 逻辑性检验
√规则九:本表的字段与其它表中的字段具有相同的业务含义,不同的统 计口径,存在汇总关系,且两张表的数据不是经同一数据源加工得到。满足此条 件时必须进行逻辑性检验。
逻辑性检验 由不同数据源加工得到的多个表内字段间逻辑关系的检查
数据检验适用的规则
时效性检验
√规则一:时效性检验适用于DDS中所有的维度表和事实表。
完整性检验
√规则二:包含外键字段的DDS中事实表必须进行代码一致性检验。
√规则三:包含日期型字段且可以确定记录数范围的DDS事实表必须进行记 录条数检验。
步骤五 确定数据源的逻辑性检验规则
根据数据源检验适用规则的规则六、七:
1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAILL表中不包含字段与其 他表中 的字段具有相同的业务含义、统计口径。因此不满足规则六逻辑检 验。
2、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAILL表中包含有字段 sell(系统外总销量)、 Out_Sell_Retail_Amount (系统外零售 量)、Out_Sel l_Amount (系统外批发销量 ) End_Store_Amount (期 末库存 )、ratio_stoc k_sell(存销比)。
低下的数据质量往往造成开发出来的系统与用户的预期大相径庭
数据质量是决策正确的保障
数据信息是企业重要的战略资源,合理有效的使用正确的数据能指导企业 领导作出正确的决策,提高企业的竞争力。不合理的使用不正确的数据(即差的 数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。
数据质量是长期困扰开发的难题
4、数据校验-原则性检验 数据校验的原则性检验报异常时应停止ETL加载过程,不需要再进行后续 的检验
5、数据源-时效性检验、数据源-逻辑性检验、数据校验-时效性检验、
数据校验-模糊性检验、数据校验-逻辑性检验 这五类检验方法报异常时,ETL加载正常进行,但需要给出预警提示
数据管理
1 数据管理的目标 2 数据管理的难点与重点
5
数据质量检验的顺序
数据源检验方法
数据源检验是对HDS中的源表进行的数据质量检查。数据源检验分为时效性 检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、 逻辑性检验。
相关主题