大数据平台体系下的数据质量保障前言纵观国内证券公司的信息技术发展历程.经历了“信息孤岛”“互联互通”“证券信息化”“互联网+”等阶段,随着信息技术日新月异的快速发展和应用,“金融科技”正深刻改变着金融业IT服务模式与业务模式,打造“数字化证券公司”已经成为券商发展的方向。
其中以“大数据”“人工智能”为代表的信息科技是近两年来在包括证券行业在内的金融领域继“互联网+”后应用最广泛、且日益体现出其价值的技术能力。
越来越多的科技创新、服务创新将全方位依赖大数据平台。
随着业务管理越来越复杂,充满了各种风险和不确定性,从而对数据要求越来高,同时数据集中化管理、应用分布式管理的模式导致以大数据平台为中心的数据应用体系建设必须跨部门甚至跨公司进行协同,在数据标准、数据质量、数据安全等方面造成潜在隐患。
下图为大数据平台架构体系:一、大数据平台数据体系架构来源层:来源层指向数据体系提供来源数据的系统,它们对大数据平台提供基础数据支持。
涉及到的内部数据来源主要有:集中交易柜台、融资融券柜台、投资管理系统、估值系统等,外部数据来源包括互联网、人行征信、司法等。
传输层:传输层为大数据平台提供数据支持,提供的数据包括:数据服务平台:负责数据的传输,包括以下传输方式:⏹非实时:以T+1的方式传递离线数据,先由各源系统通过SFTP传给NAS数据缓存区,然后通过ETL工具load到大数据平台;⏹实时:以交易形式产生的数据,实时传输至大数据平台。
⏹准实时:以CDC/GG方式采集的数据,准实时传输至大数据平台。
⏹爬虫:从互联网下载数据,实时传输至大数据平台。
补录平台:采用补录,以手工方式将数据补充到大数据平台中。
工具层:工具层为支持大数据平台运作而配套的管理及监控系统。
具体包括以下系统:元数据管理平台:实现元数据的管理和发布工作。
数据标准管理平台:实现数据标准的管理及发布工作。
数据质量管理平台:实现数据质量标准的管理及对数据仓库实现数据质量监测。
统一登录平台:提供统一登录入口,通过统一登录入口访问各应用系统。
指标管理平台:对指标进行生命周期管理和指标衍生。
客户标签管理平台:对客户标签生命周期管理和标签衍生。
统一调度平台:对大数据基础平台的ETL处理进行调度及监控。
数据层:数据层负责大数据平台中数据的处理、存储和发布。
接口区,负责数据的接入,数据接入包括以下方式:⏹准实时接口:采用HBASE数据表,存储准实时数据。
⏹MongoDB:采用MongoDB,记录采集到的爬虫的页面信息。
⏹非结构化数据区:将非结构化数据在HDFS中规划存储。
⏹实时接口:采用HBASE数据表,存储实时产生的数据。
ODM层即技术缓冲层,为数据进入大数据平台T+1的数据入口,向数据中心主体提供数据,支持其进行深入分析。
ODS层即贴源层,对贴源数据进行历史存储,由于CDM层建设方式为业务驱动,因此HDM层为大数据平台中最大的数据基座,为整个数据体系提供最完整,丰富,久远的数据。
CDM层即模型层与共性加工层,对公司内外数据进行整合、清洗、标准化、存储、管理以及进行标签及模型的开发,从而保障向各集市提供数据的质量。
集市层,应对业务需求,提供个性化的数据。
数据组织形式以业务驱动。
集市建设采用业务驱动而非应用驱动,从而实现不同应用间的数据共享,在集市层的每个次扩展均会影响到不同的应用,使各应用的功能越来越强大、高效。
⏹准实时分析层:对准实时数据结合CDM层的T+1数据进行准实时分析。
⏹实时分析层,对实时数据结合CDM层的T+1数据进行实时分析。
⏹非结构化检索层,对从非结构化数据收集的标准信息与CDM层的T+1数据进行综合分析。
⏹管理分析层,对CDM层的T+1数据进行管理类分析。
⏹指标层,对CDM层的T+1数据进行指标化处理,建立全公司指标体系。
⏹客户标签层,对CDM层T+1的客户业务数据进行抽像,生成对应的标签信息,从而提供良好的扩展性能,支持客户的灵活分析。
⏹客户业务层,对CDM层的T+1数据及客户标签数据进行整合处理,从而生成可高效访问的客户业务模型数据。
⏹沙箱,数据演练环境,用于训练各种数据挖掘模型及演练数据分析。
应用层:应用层负责为满足不同数据类型对数据发布的要求。
包括以下发布策略: 报表平台,负责T+1、准实时、实时的固定报表、多维报表、明细报表的查询。
历史查询平台,支持WEB和ESB的数据提供方式,需支持海量历史数据的客户级查询。
对性能方面有较高要求。
自助分析平台,支持WEB和ESB的数据提供方式,可支持数据的灵活配置,以快速满足业务需求。
非结构化检索平台,对非结构化数据提供检索,使用户可通过各种非结构化数据标准获取非结构化数据文件。
管理驾驶舱,支持PC和移动的方式,以图形化展现数据,可实时、准实时、T+1地展现业务况状。
决策引擎,应对实时访问,对数据进行实时地分析,获取实时数据分析结论,以支持实时决策。
数据服务平台(实时、准实时),向业务系统提供实时、准实时的数据传输方式。
二、数据体系下数据质量管理1.来源层数据质量管理来源层数据质量检核以基础数据检核为主1.1.数据完整性检查完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;例如,个人客户姓名不应为空,个人客户证件号码不应为空等;1.2.数据有效性检查主要包括格式、类型、值域和业务规则的有效性,例如,按照国标要求,进出口经营权许可证号长度为13,后9位与组织机构代码一致。
2.数据传输层数据质量管理基于大数据平台的数据传输方式,通过数据集成工具到数据源系统把数据拉取到大数据平台,这和数据仓库的数据抽取(Extract)过程非常类似。
数据仓库在数据抽取后会根据相应要求做数据转换(Transform)。
可借用数据仓库的"抽取—转换"概念。
在数据被复制到共享库时,按照一定的数据标准进行转换,再把标准化的数据存储到相应的数据中。
要完成这个转换过程,需要做好几项基础工作)∶1、统一数据标准,数据标准化 将同一类型的数据用统一的格式来表示,比如日期、电话号码、性别等。
数据标准化的工作同样反映了信息系统中属性数据结构化的改进思路,最好能在系统建设初期就引入相应的业务数据标准。
2、统一信息分类标准和业务代码标准,建立企业或组织的数据引用标准;3、建立全局数据字典和数据转换字典。
企业或组织一般都有产品化系统,这些系统的数据定义和业务代码一般很难再法改变、因此有必要建立全局数据字典和数据转换字典,在数据集成时保证业务数据的完整和一致、尽可能消除数据转换的偏差。
通过数据复制过程中的数据标准化,可以提高共享数据的可用性,进一步保证各应用系统的数据质量常用的数据集成工具都支持数据的"抽取一转换"工作。
该阶段数据质量检查主要工作:2.1.数据一致性检查(相似重复记录检查)相似重复记录是指一个现实'实体在信息系统中可能由多个不完全相同的记录来表示。
重复记录的匹配和合并也被称为对象标识问题和重复记录清除问题。
通常情况下,指向同一个现实实体的两条记录的信息是部分冗余的,它们的数据互为补充。
因此、通过将其不重复的信息合并,能够更准确地反映该实体。
具体做法是∶首先,需要识别出指向同一个现实实体的相似重复记录;随后,将相似重复记录合并成一个包含该实体更多属性,且无冗余信息的记录,同时从数据集中删除多余的记录。
相似重复记录的数据清洗已经有了比较好的技术处理方法,但这毕竟是事后补救的方式。
我们可以从信息系统规划和设计层面优化数据的输入方式,从而避免相似重复记录的产生。
一种做法是严格把关数据录入环节,添加数据审核流程。
从数据输入环节严格控制数据质量的做法,遵循信息系统规划层面"数据谁产生、谁维护"的基本原则,把数据输入环节作为保障系统数据质量的重要一环重新设计,使得数据产生和确认的过程成为系统不可分割的一部分,摒弃事后批量录入数据的不合理做法,从而加强数据在输入环节的完备性和可靠性。
2.2.数据完整性检查完整性,描述数据信息缺失的程度,是数据质量中最基础的一项评估标准。
数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。
数据完整性检测的步骤是1、对于数据信息记录缺失的检测,可以通过对比源库上表的数据量和目的库上对应表的数据量来判断数据是否存在缺失。
2、对于字段信息记录缺失的检测,选择需要进行完整性检查的字段,计算该字段中空值数据的占比,通常来说表的主键及非空字段空值率为0%。
空值率越小说明字段信息越完善,空值率越大说明字段信息缺失的越多。
2.3.数据准确性检查准确性,用于描述一个值与它所描述的客观事物的真实值之间的接近程度,通俗来说就是指数据记录的信息是否存在异常或错误。
该阶段数据准确性检测主要通过对比源库上表的数值字段的合计值和目的库上对应表的字段的合计值是否一致来判断数据是否存在缺失。
3.数据层、集市层数据质量管理数据层、集市层数据质量管理均可采用传输层数据质量控制方法进行质量管理4.应用层数据质量管理应用层数据质量管理采用以业务为中心的数据质量方式4.1.勾稽关系法(数据一致性检查)通过验证业务规则。
检核人员会将原始数据中表名、字段名、记录值代码以及表表关联的经济含义明确标识出来,进行大量的查询汇总或细分、替换修改、插入数据、更新数据、删除数据等操作,每一步转换工作都有可能影响到数据的完整性和准确性,这需要有非常规范和标准的统计逻辑关系约束,所有指标的计算规则必须保证一致。
所以需利用会计恒等式、业务规则、勾稽关系、法律法规约束等规则进行检查。
如检查借贷平衡是审计人员常用的一种简单有效的数据质量控制方法,常与核对总金额方法结合使用;还可通过分项数与总和数一致,财政各类资金收支报表数与决算数对比;核实主要变量值域范围是否异常、是否与报表一致等,通过业务规则有效地开展数据质量控制。
4.2.可视化法可视化的基本想法是把数据和数据计算过程呈现出来让用户可见。
负责数据的人员可以查看清洗过程每一步的结果,以便交互式地进行错误验证、确认和校正根掘数据源的数目、异构的程度和数据脏的程度,确定不同的数据转换和清洗方法。
可视化分析工具可以直观地建立数据清洗的流程,以交互式的方式选择所需的方法并设定有关参数,还可以利用流程调度和监视功能方便地执行流程,并查每一阶段的结果。
4.3.统计分析法统计分析方法是一般可视化方法的延伸。
利用统计分析工具可以获得数据的描述信息,如不同取值数和各个取值出现的频率、平均值、标准差、最大值、最小值以及置信区间等。
对统计分析获得的结果,利用领域知识建立的启发式规则可以发现数据中的错误。
比如参加工作日期与出生日期相若应个少大15年等。
4.4.数据质量挖掘法统计分析方法只能发现相对有限的、简单的数据错误,并且需要用户对统计结果进行再分析,才能发现某些错误。