当前位置:文档之家› 数据质量管理

数据质量管理

数据质量管理数据质量管理系统应用----生活篇最近在看关于综合分析数据质量管理规范的时候,结合实际生活当中的例子。

在这里说出来,可以讨论一下。

这里主要是指标值数据质量的管理:1:数值检查可以和我们固定的阈值检查结合起来,即通过检查单个指标的数值和阈值的比较发现指标的异常和变动的情况。

这个就是固定阈值的一种情况。

比如当地铁离近站只有4分钟的时候,地铁旁边的灯会一直闪烁。

地铁离开车只有一分钟要关门的时候,就会告警即将开车。

以免突然开车造成人的伤害。

2:波动检查:一般就是同比波动的检查和环比波动的检查。

先计算指标的同比或环比波动率,然后与预订的波动率上下限(阈值)进行比较。

这个就是范围阈值。

例如昨天公交车上有一条新闻就是重庆目前一小时之内公交车换成免费。

那么这一个小时之内就是一个范围阈值,只要在一个小时之内不收钱,即什么也不做,但是当超过一个小时之后就要收钱。

那么我们这里就需要告警。

3:还有一种日常当中常用的就是动态阈值比如我们乘坐地铁的时候根据路程的不同地铁价格不同。

以及依照路程计价的公交车也一样,路程不同,价格不同。

本质上都是乘坐地铁或者公交,但是由于距离问题因此价格不同,比如收入指标阈值制定的时候,比如不同的地市,在同一时间维度阈值是不同。

比如经济发达地区应该制定高一点,经济欠发达地区制定低一点。

4:指标之间的关联检查,比如我们常说的同增同减关联关系,还是以地铁为例,路程增加了,那价格相应就增加了。

比如我们理论上我们的用户数增加了,那么收入应该有所增加。

但是有时候反而用户量增加了,收入却下降了。

增加的用户数比丢失的用户数多因此整体上用户量增加了。

但是增加的用户量都是一些劣质用户,而丢失了一部分高端用户。

从而导致用户数增加,收入下降的局面。

5:指标平衡检查:对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系。

比如有些指标日指标汇总应该与月指标的值平衡。

(也许还可以研究更科学的复杂计算)当发现数据出现异常的时候,首先先分析一下,是不是一些因素导致指标的变化,比如节假日,周末,市场营销策略,以及外部的一些政策对指标造成的变化,然后再查看是不是真的是数据质量的问题,以及源接口数据的问题。

数据质量管理系统----理论篇一:从以下5个方面对数据的质量进行管控1:及时性:数据获取是否及时,主要指数据提取、传送、转换、加载、展现的及时性。

在数据处理的各个环节,都会涉及到及时性。

我们一般考虑两个方面第一就是接口数据是否能够及时的抽取过来。

第二就是展现层能否及时的展现出来。

(应该有数据的及时发现,或者把数据发现作为及时抽取的前提和内容)2:完整性:是指数据是否完整,描述的数据要素,要素属性及要素关系存在或不存在,主要包括实体缺失、属性缺失、记录缺失以及主外键参照完整性的内容。

3:一致性:第一就是原始数据即文件接口和入库的数据记录条数是一致的。

第二就是同一指标在任何地方都应该保持一致。

4:有效性:描述数据取值是否在界定的值域范围内,主要包括数据格式、数据类型、值域和相关业务规则的有效性。

5:准确性:主要是指指标算法、数据处理过程的准确性。

这个准确性主要是通过元数据管理中定义的指标的算法、数据处理顺序和人工检查相结合的方式来保证。

二:数据仓库中需要进行质量管理的数据分类1:接口数据:接口数据是整个数据仓库的生命的起点,如果接口数据有问题的话会严重影响数据仓库后面的报表以及分析结果。

接口数据分为两种情况:文件接口和数据库接口(还有其他接口)文件接口方面:一方面是接口内容本身的数据质量问题:文件传送及时率。

文件内容有效性。

文件传递的完整性。

一方面是文件接口采集程序的监控:文件接口采集程序是否正常启动,正常结束等。

账期,接口名称,采集开始时间,采集结束时间,有效标志,接口及时率标志,接口完整性标志等。

这些可以通过查看接口运行日志来获取相关信息情况。

数据库接口方面:数据库接口参考文件接口部分。

2:数据仓库层面的数据:关键包括两个方面的内容数据处理过程执行情况和关键指标检查第一:数据处理过程监控:监控所有的数据处理过程十分按时调度,是否成功。

这些可以通过查看数据处理过程日志表来获取相关信息第二:关键指标的检查:指标检查主要包括两个方面:首先是基础指标的检查:数值检查:主要是通过检查单个指标的数值来发现指标的异常和突变等情况。

这里需要设置相应的阀值来进行。

这里需要考虑周末、节假日以及一些外部因素对指标的影响。

因此指标异常并不一定是数据的问题。

波动检查:主要是同比或者环比的检查。

先计算指标的同比或环比波动率,然后与预定的波动率上下限(阈值)进行比较:需要考虑周末、节假日及一些外部因素对指标的影响。

因此指标异常不一定是数据的问题。

关联检查:对两个存在关联关系的指标(如同增、同减正关联关系),分析变化和波动情况。

比如用户量和话务量以及用户量和收入之间的关联分析。

用户量增加了。

应该收入有所增加。

但是有时候反而用户量增加了,收入却下降了。

增加的用户数比丢失的用户数多因此整体上用户量增加了。

但是增加的用户量都是一些劣质用户,而丢失了一部分高端用户。

从而导致用户数增加收入下降的局面。

平衡检查:通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系。

比如收入-支出=利润。

这三者之间的平衡。

日指标汇总与月指标的平衡检查等。

加权波动检查:通过对单个指标的基础检查结果和影响因素的加权计算分析,综合检查指标的波动和变化情况。

比如一个指标今天异常的超出了范围,我们首先应该加上一些外部的因素比如制定了相应的优惠政策以及节假日然后对其进行分析。

分析得出该结果是正常的。

因此当指标异常的时候我们不能首先就判断该指标数据质量有问题,应该先分析一些外部因素对其的影响。

然后再考虑是否确实是数据质量的问题。

三:数据质量处理流程问题生成-》问题分析-》问题处理-》问题总结每个处理流程都针对于后台相应的表已经相应的处理过程问题生成部分:我们应该监控接口的日志信息,数据仓库部分各个处理过程的日志信息以及指标的检查相关过程。

问题分析部分:将发生的问题进行归类,将同一类的问题进行集中分析。

问题分析的时候会用到元数据管理部分的一些分析方法比如:血缘分析,影响分析、数据映射分析等。

问题处理部分:结合系统后台提前准备的问题处理流程,对相应的问题采用相应的处理流程来解决该问题。

问题总结:当问题处理结束之后,我们要对以前的问题进行汇总,并且对问题的解决方法也进行汇总,便于下次能够不出现这样的问题。

或者出现问题之后能够很快的解决。

因为我们已经有相应的问题解决方案。

该处理流程是一个循环的过程。

四:数据质量报告部分数据质量要定期形成报告对外进行发布公示。

并且提供很好的外部接口和其他系统比如元数据管理系统很好的互动。

因为数据质量有些预警值或者范围波动预警值需要在元数据当中进行配置,数据质量核查的时候需要调用这些信息以及利用元数据分析方法更好的解决数据质量的问题。

大集中下加强数据质量管理的思考–以地税信息管税作为我国税收领域内的热点话题,进入决策者视线并被明晰为税收征管和科技工作的思路。

,会不断在实践中把一些前所未有的重要问题摆在我们面前。

今年为契合这一变革性发展,各省陆续启动地税大集中系统。

如何依托“税务大集中”平台,推进信息管税,是需要进一步深思和探究的大课题。

本文以信息管税的核心——信息采集和利用为切入,对加强大集中下数据质量管理作一些思考和剖析。

观点一:提高对数据质量重要性认识的基础是对数据质量基本属性的认识。

数据是有效开展税收信息化管理和辅助决策分析的依据,是实现税收信息化高速发展的重要保障,因此数据质量和时效性已经越来越受到高度关注。

我们对数据建设和应用进行了重点投入,目的就是能够拥有丰富、准确、及时、有效的数据资源,占据现代税收信息化管理中的优势地位。

数据就是资产的理念已被普遍认识,但要从基本上提高对数据质量重要性的认识,并潜化为工作方式和习惯,就必须立足于对数据及其质量本质的解析,从而推动实践,把握进程。

思考:大集中环境下数据的属性有哪些?如何去监控这些要素达到提高数据质量的目的?数据作为税收信息化应用的主体,它具有多重属性,其基本质量特性主要包括适用性、准确性、完整性、及时性、有效性等五个方面,要对数据质量进行较好地控制,就必须对数据的五个基本质量特性进行很好了解,从而在各个方面采取措施,杜绝数据质量问题的出现,使数据监控工作能够真正达到控制数据质量的目的。

1.数据的适用性。

在税收业务开展过程中,会产生大量的各类税收数据,这些数据有税收动态信息等反应不断变化的数量型数据,也有相应税收静态信息等相对稳定的属性信息。

这些数据有的是为税收管理和决策服务的,有的则是满足各级管理和分析的需求,这就从客观上造成数据的多样化,同时也是为满足不同专业、不同岗位的操作人员服务的。

不同的数据具有不同的使用范围,每个数据的正确性都要求它是进入正确的专业应用,换句话说:无论多么准确、及时的数据,如果不具有适用性,它就不能产生任何效益,甚至操作人员使用之后会造成损失。

2.数据的准确性。

数据的准确性一般是说数据测量值与真实值相比的符合情况,但在税务登记的基础数据的采集和录入处理过程中,数据的准确性往往变成是指所采集入库的数据值与实际应采集记录的正确值之间的差异。

在数据监控和质量控制的过程中,准确性越好的数据,其误差应该越小。

影响数据准确性的因素很多,数据误差在数据采集、审核、录入、传输和处理等的各个环节都可能产生。

我们需要从各个方面分析影响数据准确性的因素,同时有效控制不同类型数据的合理变化范围,将数据误差控制在尽可能理想的范围内,以保证数据的准确性。

3.数据的及时性。

在税务部门日常数据的管理中,往往要求能够更快、更准地收集到所需的数据。

在日常生活中,也有“时间就是金钱”的说法。

把这些要求应用到数据上,那就是说数据也必须要有及时性。

比如对于地税部门某个分局数据,如果有一条线的税款征收发生滞后,导致税收统计不实了,但在税收数据上如果不能及时有效获得有效税款征收信息,那么拿在手里的征收数据就没有任何及时性,也是毫无意义的。

一个好的应用系统在使用数据时不仅要求数据的适用性还必须考虑数据的及时性,应用系统引入税收管理的主要目的是提高工作效率,把大量复杂、繁重的重复计算、统计、分类工作交由计算机处理并迅速得出准确结果。

如果数据不及时,那么应用系统的处理结果就可能违背了程序设计和使用者的初衷,不仅无法提高工作效率,还可能由于数据滞后而影响税款征收的正常化。

因此根据数据应用需求及时采集数据,按照操作人员要求及时发布数据,是保证数据及时性的重要一环。

4.数据的完整性。

数据的完整性相对于准确性和及时性来说并不显得那么重要,但其实它引起的问题并不比前两者轻松。

相关主题