当前位置:文档之家› 元数据管理研究报告

元数据管理研究报告

一.什么是元数据元数据是:• 数据的数据(data about data)• 结构化数据(Structured data about data)• 用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的桥梁;• 资源的信息(Information about a resource)• 编目信息(Cataloguing information)• 管理、控制信息(Administrative information)• 是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource )data that defines and describes other data (ISO/IEC 11179-3:2003(E))简单地说,元数据是数据仓库数据本身信息的数据(data about data)。

针对于数据仓库的元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。

技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:•数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;•业务系统、数据仓库和数据集市的体系结构和模式;•汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;•由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。

业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:•企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。

以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。

•多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。

这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。

业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维度、层次等之间的对应关系也应该在元数据知识库中有所体现。

元数据与数据是什么关系?元数据也是数据,其本身也可以作为被描述的对象,这是描述它的数据就是元数据。

在信息系统中一般把数据看成是独立的信息单元,不管这里的“数据”是一本书、一个网页、或者一个虚拟的URL 地址。

元数据可以出现在:• 数据内部;• 独立于数据;• 伴随着数据;• 与数据包裹在一起元数据的作用在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:1.描述哪些数据在数据仓库中;2.定义要进入数据仓库中的数据和从数据仓库中产生的数据;3.记录根据业务事件发生而随之进行的数据抽取工作时间安排;4.记录并检测系统数据一致性的要求和执行情况;5.衡量数据质量。

与其说数据仓库是软件开发项目,还不如说是系统集成项目,因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP 分析和数据挖掘等。

它的典型结构由操作环境层、数据仓库层和业务层等组成。

其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。

元数据管理起到了承上启下的作用,具体体现在以下几个方面:•便于集成•提高系统的灵活性•保证数据的质量•帮助用户理解数据的意义二.元数据管理状态所谓元数据管理,就是对技术元数据和业务元数据进行管理,其目标是为了提升共享、重新获取和理解企业信息资产的水平.元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模块和工具之间的工作。

数据仓库元数据管理的成熟度模型及现状元数据管理的成熟度模型第一级: 随机状态(Ad-hoc)行为特征在这一级上,对元数据的管理是随机的。

元数据由某个人或某一组人员在局部产生或获取,并在局部使用。

在大多数时间里,元数据是隐匿在信息中,比如存储于诸如Word、Excel等形式的办公文档,这些文档使用的术语仅局部的用户能知道其确切含义。

人们通过与“责任人”直接通信或通过信息会话来获取这些知识。

在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。

在这一阶段,元数据通过组织机构缓慢的传播或根本不传播,这取决于局部小组与其他小组间的通信量的大小,这些元数据可能永远“待”在该局部小组或某个人那儿。

如果这样的小组或个人调离,则这种元数据信息可能永远丢失。

人元数据知识保留在人的大脑中。

在这种环境中,知道(或不知道)与谁交谈对于理解元数据成为一件十分重要的事。

处理元数据要通过与“责任人”的交谈才能共享。

新来者需要通过他们的日常工作来学习元数据。

外部人员难以理解元数据,他们必须与“责任人”交谈才能得到他们想要的东西。

因为元数据在局部产生或抓取并在局部使用,所以通常也只能在局部修改,这种修改通常也不会通知公司里其他的组织。

技术可以用各种不同的工具来生成元数据。

绝大部分是面向个人电脑的应用软件。

例如,ERWin可用于数据库建模,Rational用于为对象建模、Excel用于生成商品列表等。

这些工具都没有设计成可以交换信息,因此,只能在当地的文件系统中保存所生成的元数据。

第二级: 发现行为特征在元数据管理的这一级上,可以发现在不同企业之间的元数据。

像第一级的情况一样,元数据仍然在局部产生和抓取,然而,它处于可发现状态,这样的元数据在企业一级显露,使得每一个对它有兴趣的人都能随时了解“什么已经存在”。

元数据仍然可以在局部级上维护,然后更新中央知识库,但它们仍然使用不同的命名法。

结果,相同的名字被用于表示意义不同的事情,而同一件事情则使用了几个不同的名字。

尽管如此,相比之下,从不同来源来的数据和数据的含义已经具有了更多的透明度。

对于商业用户,如果他们需要,现存的技术可为他们提供有关数据的来源和怎样对数据进行计算的信息。

人人们开始感知到共享元数据信息的重要性。

业务分析员、数据拥有者和应用开发者现在自觉地将元数据信息加载到中央知识库中。

处理元数据知识经由中央数据库进行共享。

凭借对中央知识库地理解,人们能够发现在其他应用系统中的数据。

然而,由于使用术语的不同,人们互相之间需要交流,以便弄清某些元数据的含义。

而且,由于元数据的更新不受任何方式的控制,使得这种更新没有告示或贴切的分析。

技术有一些元数据管理工具可用于共享来自数据源的元数据,并能把来自不同建模工具的逻辑元数据导入到元数据知识库中。

AG Rochade、Unicon、MetaMatrix是该类产品的一些例子。

然而,除了以商业含义来定义数据表格的栏目名之外,这些工具没有一个能很好地抓取元数据。

第三级: 管理控制行为特征这一级对元数据的修改进行集中管理。

局部业务单元或开发小组如不通知其他的元数据保管者和用户,就不再能按照自己的想法对元数据进行修改。

在一个地方发起的元数据的修改将传播给其他地方。

有各种工具和方法可用于不同业务单元之间交换元数据。

为了整合不同数据源中的数据,仍然必须用手工进行数据的映射,以解决不同数据源的数据整合。

但是,这种映射在一个中央知识库上进行维护和管理。

人数据拥有者、应用开发人员、用户和其他的数据保存者现在比以往任何时候更清楚元数据管理的重要性。

人们遵循有关元数据管理的“监督”处理操作规程。

在对元数据进行修改前,他们就分析这种修改将会产生的影响。

他们认识到元数据的共享将使组织的运作更有效,并使他们的生活更轻松。

处理建立了监督体系结构(谁是数据和应用的拥有者),监督资产(数据仓库、数据集市、命名标准)和流程(何时开始更新、如何更新)。

技术有几个工具经常被用于元数据的监督处理。

SchemaLogic是一种新兴的工具,通常被用于帮助监督处理发现业务的词汇及其分类。

还有一些软件提供商正在相互竞争,以填补这一空间,但还没有一家能提供商用的产品。

第四级: 优化行为特征在对元数据实施集中存储并通过监督体制对元数据进行管理后,企业会发现,通过标准化和整合可以实施有意义的优化。

为了优化各业务单元之间的各种冲突和各个副本,人们开发了一个企业数据模型和词汇表。

人们可以将这些标准模型和词汇表用于各种新的应用。

时机成熟时,可以把各种老的应用迁移到这些模型上。

人在这一级,人们坚持不懈地探索优化的途径。

人们协同工作,通过在数据的入口点确认数据的有效性来提高数据的质量。

通过确定各业务实体的权威数据源,使数据的映射达到最小化。

数据开始从一个业务单元平滑地流到另一个业务单元,而不用担心昂贵的数据集成成本。

处理首先,生成企业数据模型,并在中央知识库进行维护。

第二,对数据模型中定义的每一个实体确定权威数据源或企业应用的主参照数据,然后将业务的上下文信息和含义与这些数据源进行关联。

在整个组织中对业务的词汇表进行标准化。

鼓励应用开发小组使用这些标准化的术语,来生成、传播和表示信息。

技术目前,仅有少数几个能帮助企业实施优化的工具。

而且,每一个工具只能完成其中一到两个任务,还没有哪个工具能做企业优化所需的所有事情。

第五级: 自动化行为特征在这一级,元数据管理是自动进行的。

当在逻辑层次发生元数据更新时,它们将被传播到物理层次。

反之,当在物理层次发生更新时,逻辑层次将被更新,以反映这种更新。

在元数据中的任何变化也将触发业务工作流,以处理其他各个业务系统所需的相对应的任何修改。

由于各个应用系统遵照相同的词汇表,它们之间的关系可以通过知识本体进行推断,所以,各应用系统之间数据格式的映射自动产生。

人人们把元数据管理作为常规业务的组成部分。

就像电信网对业务的支持一样,元数据成为组织运作中一种关键的、普遍存在的、无形的资产。

相关主题