基于大数据平台的数据治理思路
摘要数据治理是指将数据作为资产而展开的一系列具体化工作,是对数据的全生命周期管理。
本文从前期准备、实施路线、相关重要事项等方面阐述了基于大数据平台的数据治理思路,最后,对基于大数据平台的数据治理进行了展望。
关键词大数据;数据资产;主数据;数据标准;数据治理
引言
数据资源对于企业管理至关重要,保证高质量高可靠的运营数据,是企业经营获得成功的关键因素。
信息系统之间存在的数据标准不统一、数据质量不规范、数据格式互不相容等问题,制约了数据的共享和使用。
1 大数据平台数据治理内容概述
数据治理是指将数据作为资产而展开的一系列具体化工作,是对数据的全生命周期管理。
也是对数据资产的实际管理和控制的过程。
数据资产往往分散分布在不同的部门。
需要梳理汇总,并建立起数据资产的整体视图,或者说数据资产目录。
数据资产目录是以元数据为核心,按照分类、主题、应用多个角度对数据进行管理、识别、定位、发现、评估、共享的数据组织管理工具。
2 基于大数据平台开展数据治理[1]
数据治理需要通过有连续性的计划和持续性的过程来实现。
具体分为如下三部分内容:
2.1 前期准备
(1)对数据治理现状进行评估,梳理存在的问题。
只有找到问题,才能解决问题。
通过对数据治理现状进行评估,可以识别、量化存在的问题和状态。
2.2 实施路线
大数据平台的规划是要搭建一个高质量、易于分析的数据集市,集中各业务系统数据,并搭建数据资产目录框架,在此基础上展开各现有接入系统数据的清洗、规范、治理等工作。
目前数据治理流程包括下面的内容:
(1)剖析、探查数据
要控制数据,就要理解数据。
要对现有的数据进行治理,就必须要剖析、探查数据,并形成文档,只有了解现有的数据,才能让数据治理更紧密地贴合业务数据的实际情况。
(2)制定数据标准、计划和实施数据清洗
数据标准是对数据的技术和业务定义统一的规范,包含国际、国家、行业、公司几个层级。
它也是数据资产目录的核心,数据资产目录通过数据标准进行分类聚集,数据质量通过数据标准进行设定,数据安全通过数据标准进行分级。
(3)搭建数据资产目录,梳理接入数据
数据资产目录为使用者提供统一的数据资产定位服务,实现数据资产共享交换和数据服务的管理体系。
大数据平台的数据资产目录模型包括如下几个部分:数据资产目录;数据标准和数据质量;各类数据资产,包括结构化数据、非结构化数据、数据接口、报表和模型;数据资产的业务描述;数据资产轮廓、数据资产状态、数据资产安全、数据资产脱敏和数据资产生命周期等。
数据资产目录是数据统一管理体系的核心,涵盖了数据管理体系的元数据管理、数据质量管理和数据安全管理等功能。
主数据分散存储在企业各系统内,是对企业至关重要的核心业务实体的数据,比如客户、供应商、员工等。
治理主数据是一种持续的实践,企业通过制定准则、策略、流程、业务规则和度量指标来管理主数据的质量。
元数据是关于数据的数据。
它是有关数据项的特征的信息,如技术名称、业务名称、位置、重要性、与企业中其他数据项的关系等。
元数据可以用来记录数据血缘关系,跟踪和记录数据血緣有利于数据源的追溯和查找数据存在的问题。
数据质量管理是数据管理中的一项关键的支撑流程,包括数据质量分析、识别数据异常和定义业务需求相关规则。
大数据平台的目标是为了对内支撑,对外应用,而这两个核心目标的基础是数据质量。
而数据的可信需要持续的数据质量稽核,大数据平台的质量管理包含从制定规则、定期检查、反馈问题、修正数据多个稽核流程[2]。
(4)建立数据模型,优化数据分析
搭建分类数据模型可以提高数据分析的效率。
参考行业模型和基础数据标准,在大数据平台上搭建数据分类模型,然后在数据模型的基础上进行数据整合,可以减少后续数据整合难度,也可以避免数据方面的歧义,更好的保证数据一致性,使业务、技术、系统之间的沟通更有效;数据的分类可以为系统间的数据分布提供依据,减少不一致和冗余,以便于数据共享,减少数据重复录入、存储和加工。
2.3 数据治理的重要事项
(1)争取领导和相关部门的支持
数据治理计划失败的根源通常是缺少与业务的关联。
技术部门只是数据的保管者,支持和提供必要的业务部门的数据。
得到领导和相关部门的支持对数据治理工作的开展非常重要。
(2)自始至终关注安全与隐私管理
数据的安全至关重要,数据泄露意味着数据资产的流失。
大数据平台的基础是数据的汇聚,而汇聚的数据来自于各个业务部门,各个业务部门在各自业务平台上对这些数据的安全负责,在汇聚到大数据平台之后,如何保证这些数据在使用过程中的安全,是数据使用的必要条件,而数据管控的基础也正是数据安全。
高度重视数据安全工作,确保数据的可用性、完整性、机密性。
建立健全数据安全管理制度和措施。
(3)数据生命周期管理
信息的生命周期从数据创建开始,结束于它从生产环境中被删除和不复存在。
数据包含多个阶段,每个时间段都有变化,并根据这些变化设定不同的存储、使用策略,这是数据生命周期的核心目标。
大数据平台数据生命周期管理覆盖数据生命周期各个阶段,包括数据创建、加工、使用、变更、转储、归档和删除。
并处理与信息生命周期相关的问题。
3 基于大数据平台的数据治理展望
大数据平台不仅仅实现技术领域所关注的海量数据采集、存储、分布式计算、突发事件应对等,而且也将具备对各种格式、类型的数据进行加工、处理、识别、解析等能力。
为将来经营者能够及时掌握全面的经营状况,迅速做出科学决策提供平台支持。
参考文献
[1] 桑尼尔·索雷斯. IBM 數据治理统一流程[D].北京:清华大学出版社,2010.
[2] 高伟.数据资产管理[D].北京:机械工业出版社2016.。