数据质量管理浅谈
引言
数据和信息是21世纪的经济命脉。在信息时代,数据被认为是一项重要的
企业资产。
那么有了数据是不是就可以直接转换成价值了呢?答案是否定的。
企业需要对数据进行提炼和加工,最终形成需要的信息,才能用于支持日常
的经营与决策。
数据经过加工形成的信息是否客观地反映了企业的真实情况,这又取决于另
外一项东西——数据质量。
金融企业具有与传统企业不一样的特征。它需要每日,甚至每时每刻对各类
经营指标进行监控和计算,这就需要有更高的数据准确性和及时性进行支撑。因
此它对数据质量的敏感度、依赖度比传统企业更高。
证券行业作为金融行业的重要组成部分,数据质量的重要性不言而喻。那么
证券公司应该如何应对数据质量问题?本文将简要介绍什么是数据、什么是数据
质量、常见的数据质量评估维度、证券公司如何应对数据质量问题等内容。
什么是数据
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状
态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、
抽象的符号。
它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的
组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互
关系的抽象表示。例如,“0、1、2...`”、“阴、雨、下降、气温”“学生的档案
记录、货物的运输情况”等都是数据。数据经过加工后就成为。
本文所谈的数据主要指存在于IT系统中的,以计算机存储设备为载体的信
息集合。
什么是数据质量
数据质量是描述数据价值含量的指标。就像铁矿石的质量,矿石的质量高,
则炼出来的钢材就会多;反之,矿石的质量低,不但练出来的钢材少了,同时也
增加了提炼的成本。
常见的数据质量评估维度
1. 完整性
用来描述信息的完整程度。
例如:某公司的人力资源系统中有100名员工信息,其中有50个员工中没
有记载联系电话,这说明该公司人力资源系统的客户联系电话信息存在完整性问
题。
2. 准确性
用来描述数据是否与其对应的客观实体的特征相一致(需要一个确定的和可
访问的权威参考源)。
例如:某公司的人力资源系统中记录了员工A的联系方式为12345,然而该
员工真实的联系方式是56789,这说明系统中记载的员工A的联系方式是不准确
的,存在准确性问题。
3. 唯一性
用来描述数据是否存在重复记录,没有实体多余出现一次。
例如:全国公安联网核查系统中,有两个公民的身份证号码完全一样,这就
说明该系统的身份证号码信息存在唯一性问题。
4. 有效性
用来描述数据是否满足用户定义的条件。通常从命名、数据类型、长度、值
域、取值范围、内容规范等方面进行约束。
例如:某银行的核心系统中,客户A的借记卡余额为-100元,这种现象违反
了银行的业务规则,这说明该银行的核心系统中存在数据有效性问。
5. 一致性
用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性
是否符合一致性约束关系。
例如:某银行在核心系统中记录的客户A的性别是“男”,而在信贷系统中
客户A的性别却是“女”,这说明该银行的这两个系统存在数据一致性问题。
6. 及时性
用来描述从业务发生到对应数据正确存储并可正常查看的时间间隔程度,也
叫数据的延时时长,数据在及时性上应能尽可能贴合业务实际发生时点。
例如:某证券公司于T日购买了1亿国债A,但直到T+10日才看到财务系统
中的持仓变化,这说明该证券公司的财务数据存在及时性问题。
证券行业协会对数据质量的要求
2016年9月13日,中国证券业协会下发了“关于就《证券公司全面风险管
理规范》等四项自律规则修订稿征求意见的通知。在《证券公司全面风险管理规
范》核心修订内容中明确强调了对数据质量的要求。
由此可见,监管机构和行业自律性组织已逐渐意识到数据质量问题已不是个
别券商或机构的问题,而是一个普遍性的行业问题,急待解决。
证券公司如何应对数据质量问题
首先,要提升数据质量意识,这需要确保公司各部门中配备合适的人员了解
数据质量问题的存在。数据质量意识包括能够将数据质量问题与其实质影响联系
起来,同时传达一种“数据质量问题不能仅仅依靠技术手段解决”的理念。在初
始阶段,可以提供一些数据质量核心概念的培训。
其次,为数据质量建立数据治理框架。数据治理是为数据管理的各方面贯彻
责任制度的一系列流程和程序。
由于数据质量低下会导致不正确的信息。数据清洗也许可以带来短期的、有
一定代价的改善,但并不解决数据缺陷的根本问题。如果考虑为提升数据质量提
供较为经济的解决方案,实施更加严格的数据质量项目是必要的。
在实际项目中,问题不仅仅包含校正数据,同时还包括管理数据创建、数据
转换和数据传输等整个数据生命周期,从而确保生成的信息满足风险数据消费者
的需求。
将数据质量管理和质量提升等流程制度化,取决于识别风险管理工作对高质
量数据的需求和确定如何度量、监控和报告数据质量的最佳方式。在发现数据处
理过程中的问题之后,需要通知相应的数据管理专员采取校正措施以便解决紧急
问题,同时,需要采取措施消除问题的根源。
数据质量管理是一个持续的过程,为满足风险管理需求的数据质量标准指定
规格参数,并且保障数据质量能够满足这些标准。数据质量管理包括数据质量分
析、识别数据异常和定义风险数据质量需求,还包括在必要的时候对已定义的数
据质量规则进行合规性检查和监控的流程,以及数据解析、标准化、清洗和整合。
最后,数据质量管理还包括问题追踪,从而对已定义的数据质量服务水平协议的
合规性进行监控。
数据质量管理的一种通用方法是戴明质量环,戴明(Deming,)是对质量管
理的发展产生巨大影响的大师之一,他提出了被大家所知的“计划-实施-检查-
行动”用于解决问题的模型,该模型对数据质量管理同样有效,它包括:
指定数据质量现状评估计划和识别数据质量度量关键指标。
实施度量和提升数据质量的流程。
监控和度量根据业务预期定义的数据质量水平。
执行解决数据质量问题的行动方案,以提升数据质量从而更好的满足业
务预期。
一个数据质量管理周期的开始包括识别数据质量问题,这些问题是达成业务
目标的关键问题,包括定义数据质量的业务需求、识别数据质量关键维度以及定
义保障高水平数据质量的关键业务规则。
在计划阶段,数据质量团队评估已知的数据问题,包括确定问题的代价和影
响以及评估处理该问题的可选方案。
在实施阶段,剖析数据并执行检查和监控,识别出现的数据质量问题。在此
阶段,数据质量团队可以修复引致错误的流程中存在的缺陷,或者作为一种应急
办法对下游错误进行校正。如果不能在错误的源头进行校正,那么就在数据流中
尽早校正该错误(如:可在风险数据集市中进行校正)。
在监控阶段,根据已定义的业务规则对数据质量水平进行动态监控。只要数
据质量满足可接受度阈值,流程就是受控的,数据质量水平就可以满足业务需求。
然而,如果数据质量下降到可接受度阈值之下,需要通知数据管理专员以便他们
在下一阶段采取行动。
在行动阶段,主要是处理并解决出现的数据质量问题。
当出现新的数据集或对已有的数据集提出新的数据质量需求时,一个新的数
据质量管理周期便开始了。
最后,作为金融企业,应当建立数据质量管理委员会或数据治理委员会,与
各级数据治理角色建立汇报层级关系。数据管理专员负责与业务用户、业务条线
甚至特定应用建立联席,他们持续地提倡数据质量意识并监控其所负责的数据资
产。
结语
数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使
用中的价值,免除了员工日常处理数据问题的附加工作量,提高了工作效率,更
重要的能够为企业的精细化管理打下坚实的基础,并最终为企业赢得经济效益。
作为一家准备上市的券商,公司在各方面将会面临更加严格的监管。这对公
司披露信息的准确性和及时性提出了更高的要求。我们应该重视数据质量管理,
建立起与之匹配的数据治理体系,提高数据质量。在满足外部监管的同时,加强
内部的管理能力,最终提升公司在行业中的竞争力。