第十二章元数据管理1.简介元数据的最常见定义,“关于数据的数据”,很容易引起误解。
可以归类为元数据的信息种类繁多。
元数据包括有关技术和业务流程,数据规则和约束以及逻辑和物理数据结构的信息。
它描述了数据本身(例如,数据库,数据元素,数据模型),数据表示的概念(例如,业务流程,应用程序系统,软件代码,技术基础结构)以及数据和概念之间的连接(关系)。
元数据可帮助组织了解其数据,系统和工作流程。
它可以进行数据质量评估,并且是数据库和其他应用程序管理的组成部分。
它有助于处理,维护,集成,保护,审核和管理其他数据。
要了解元数据在数据管理中的重要作用,请想象一个大型图书馆,其中有成千上万的书籍和杂志,但没有卡片目录。
没有卡片目录,读者甚至可能不知道如何开始寻找特定的书甚至特定的主题。
卡片目录不仅提供必要的信息(图书馆拥有的书籍和材料以及在何处被搁置),还使读者可以使用不同的起点(主题区域,作者或标题)来查找材料。
没有目录,很难甚至不可能找到一本书。
没有元数据的组织就像没有卡片目录的图书馆。
元数据对于数据管理和数据使用都是必不可少的(请参阅DAMA-DMBOK中对元数据的多个引用)。
所有大型组织都会产生和使用大量数据。
在整个组织中,不同的个人将具有不同级别的数据知识,但是没有一个人会了解有关数据的所有知识。
此信息必须记录在案,否则组织可能会失去有关自身的宝贵知识。
元数据提供了捕获和管理有关数据的组织知识的主要方法。
但是,元数据管理不仅是知识管理方面的挑战,而且还存在许多挑战。
这也是风险管理的必要。
元数据对于确保组织可以识别私有数据或敏感数据以及为自己的利益管理数据生命周期以及满足合规性要求并使风险最小化是必不可少的。
没有可靠的元数据,组织将不知道它拥有什么数据,数据代表什么,它起源于何处,它如何在系统中移动,谁可以访问它,或者对高质量数据意味着什么。
没有元数据,组织就无法将其数据作为资产进行管理。
确实,没有元数据,组织可能根本无法管理其数据。
随着技术的发展,生成数据的速度也提高了。
技术元数据已经成为数据移动和集成方式不可或缺的一部分。
ISO的元数据注册标准(ISO / IEC 11179)旨在基于数据的精确定义,在异构环境中启用元数据驱动的数据交换。
以XML和其他格式显示的元数据可以使用数据。
其他类型的元数据标记允许在交换数据的同时保留所有权,安全要求等指示符(请参见第8章)。
像其他数据一样,元数据也需要管理。
随着组织收集和存储数据的能力的增强,元数据在数据管理中的作用越来越重要。
要以数据驱动,组织必须以元数据驱动。
图84上下文图:元数据1.1业务驱动因素没有元数据就无法管理数据。
另外,必须管理元数据本身。
可靠,管理良好的元数据有助于:通过提供上下文并启用数据质量度量来增强对数据的信心通过实现多种用途来增加战略信息(例如主数据)的价值通过识别冗余数据和流程来提高运营效率防止使用过时或不正确的数据减少面向数据的研究时间改善数据使用者与IT专业人员之间的沟通创建准确的影响分析,从而降低项目失败的风险通过减少系统开发生命周期时间来缩短产品上市时间通过全面记录数据上下文,历史记录和来源,降低培训成本并降低人员流动的影响支持合规元数据有助于一致地表示信息,简化工作流功能并保护敏感信息,尤其是在需要遵守法规的情况下。
如果组织的数据质量高,则组织可以从其数据资产中获得更多价值。
质量数据取决于治理。
因为元数据解释了使组织能够运行的数据和流程,所以元数据对于数据治理至关重要。
如果元数据是组织中数据的指南,则必须对其进行良好的管理。
元数据管理不善会导致:冗余数据和数据管理流程复制和冗余字典,存储库和其他元数据存储数据元素的定义不一致以及与数据滥用相关的风险竞争和冲突的元数据的源和版本降低了数据使用者的信心怀疑元数据和数据的可靠性执行良好的元数据管理可以使人们对数据资源保持一致的理解,并实现更有效的跨组织开发。
1.2目标与原则元数据管理的目标包括:记录和管理与数据相关的业务术语的组织知识,以确保人们理解数据内容并可以一致地使用数据从不同来源收集和集成元数据,以确保人们了解组织不同部分的数据之间的相似性和差异确保元数据的质量,一致性,时效性和安全性提供使元数据使用者(人员,系统和流程)可访问元数据的标准方法建立或强制使用技术性元数据标准以实现数据交换成功的元数据解决方案的实现遵循以下指导原则:组织承诺:作为元数据管理整体策略的一部分,确保对元数据管理的组织承诺(高级管理支持和资金)。
策略:制定元数据策略,说明将如何创建,维护,集成和访问元数据。
该策略应推动需求,这些需求应在评估,购买和安装元数据管理产品之前定义。
元数据策略必须与业务优先级保持一致。
企业角度:以企业角度确保未来的可扩展性,但通过迭代和增量交付实现以带来价值。
社会化:传达元数据的必要性和每种元数据的目的;元数据价值的社会化将鼓励企业使用,更重要的是,企业专业知识的贡献。
访问:确保工作人员知道如何访问和使用元数据。
质量:认识到元数据通常是通过现有流程(数据建模,SDLC,业务流程定义)产生的,并使流程所有者对元数据的质量负责。
审核:设置,执行和审核元数据标准,以简化集成并启用使用。
改进:创建一种反馈机制,以便消费者可以将不正确或过时的元数据通知元数据管理团队。
1.3基本概念1.3.1元数据与数据如本章引言中所述,元数据是一种数据,因此应对其进行管理。
一些组织面临的一个问题是,在不是元数据的数据和是元数据的数据之间划界线。
从概念上讲,此行与数据表示的抽象级别有关。
例如,在报告美国国家安全局(National Security Administration)对美国境内电话使用情况的监视时,电话号码和通话时间通常称为“元数据”,这意味着“真实”数据仅包含电话对话的内容。
常识认为电话号码和电话通话时间也只是纯数据。
70根据经验,一个人的元数据就是另一个人的数据。
即使是看起来像元数据的内容(例如,列名列表)也可能只是纯数据-例如,如果此数据是旨在理解不同组织中数据内容的分析的输入。
为了管理其元数据,组织不必担心哲学上的区别。
相反,他们应该根据需要的元数据来定义元数据需求(创建新数据,理解现有数据,实现系统之间的移动,访问数据,共享数据)和源数据以满足这些需求。
1.3.2元数据的类型元数据通常分为三类:业务,技术和运营。
这些类别使人们能够理解属于元数据总体范围的信息范围以及产生元数据的功能。
也就是说,类别也可能导致混乱,尤其是当人们陷入有关元数据集属于哪个类别或应该使用谁的问题时。
最好将这些类别与元数据的起源而不是其使用方式联系起来。
关于用法,元数据类型之间的区别并不严格。
技术和运营人员使用“业务”元数据,反之亦然。
在信息技术之外,例如在图书馆或信息科学领域,元数据是使用不同的类别集来描述的:描述性元数据(例如,标题,作者和主题)描述资源并启用标识和检索。
结构元数据描述了资源及其组成部分之内和之间的关系(例如,页面数,章节数)。
管理元数据(例如,版本号,存档日期)用于在其生命周期内管理资源。
这些类别有助于确定元数据需求的过程。
1.3.2.1业务元数据业务元数据主要关注数据的内容和条件,并包括与数据治理相关的详细信息。
业务元数据包括概念,主题领域,实体和属性的非技术名称和定义;属性数据类型和其他属性属性;范围说明;计算;算法和业务规则;有效的域值及其定义。
业务元数据的示例包括:数据集,表和列的定义和描述业务规则,转换规则,计算和派生资料模型数据质量规则和测量结果数据更新时间表数据来源和数据沿袭数据标准数据元素记录系统的名称有效值约束利益相关者的联系信息(例如,数据所有者,数据管理员)数据的安全/隐私级别数据已知问题数据使用说明1.3.2.2技术元数据技术元数据提供有关数据技术细节,存储数据的系统以及在系统内部和系统之间移动数据的过程的信息。
技术元数据的示例包括:物理数据库表和列名列属性数据库对象属性存取权限数据CRUD(创建,替换,更新和删除)规则物理数据模型,包括数据表名称,键和索引数据模型与实物资产之间的书面关系ETL职位详情文件格式架构定义源到目标的映射文档数据沿袭文档,包括上游和下游变更影响信息程序和应用程序名称及说明内容更新周期作业时间表和依存关系恢复和备份规则数据访问权限,组,角色1.3.2.3操作元数据操作元数据描述了数据处理和访问的详细信息。
例如:批处理程序的作业执行日志提取物和结果的历史计划异常审核,平衡,控制措施的结果错误记录报告和查询访问方式,频率和执行时间补丁和版本维护计划和执行,当前补丁级别备份,保留,创建日期,灾难恢复规定SLA要求和规定体积和使用方式数据归档和保留规则,相关档案清除标准数据共享规则和协议技术角色和职责,联系方式1.3.3 ISO / IEC 11179元数据注册标准ISO的元数据注册表标准ISO / IEC 11179提供了用于定义元数据注册表的框架。
它旨在基于数据的精确定义(从数据元素开始)启用元数据驱动的数据交换。
该标准分为几个部分:第1部分:数据元素的生成和标准化框架第3部分:数据元素的基本属性第4部分:制定数据定义的规则和准则第5部分:数据元素的命名和标识原则第6部分:数据元素的注册1.3.4非结构化数据的元数据从本质上讲,所有数据都具有某种结构,尽管并非所有数据都在熟悉的关系数据库的行,列和记录中正式地结构化。
任何不在数据库或数据文件中的数据,包括文档或其他媒体,都被视为非结构化数据。
(见章节9和14)。
元数据对于非结构化数据的管理至关重要,对于结构化数据的管理则至关重要,甚至更是如此。
从本章介绍中再次考虑卡目录的类比。
图书馆中的书籍和杂志是非结构化数据的很好例子。
卡片目录中元数据的主要用途是查找所需资料,无论其格式如何。
非结构化数据的元数据包括描述性元数据,例如目录信息和叙词表关键字;结构化元数据,例如标签,字段结构,格式;管理元数据,例如源,更新时间表,访问权限和导航信息;书目元数据,例如图书馆目录条目;记录保留元数据,例如保留策略;和保存元数据,例如存储,存档条件和保存规则。
(请参阅第9章。
)尽管有关非结构化数据元数据的大多数主张都与传统的内容管理问题有关,但是围绕在数据湖中管理非结构化数据的新实践正在出现。
希望通过使用诸如Hadoop之类的大数据平台来利用数据湖的组织发现,他们必须对提取的数据进行分类,以便以后进行访问。
大多数部署适当的流程来收集元数据,作为数据摄取的一部分。
关于收集到数据湖中的每个对象,需要收集最少的元数据属性集(例如,名称,格式,源,版本,接收日期等)。
这将产生一个数据湖内容目录。
1.3.5元数据的来源从元数据的类型应该清楚的是,可以从许多不同的来源收集元数据。