当前位置:文档之家› 数据仓库中元数据的管理

数据仓库中元数据的管理

数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse同济大学计算机科学与工程系(上海200092) 史金红 吴永明 【摘要】 介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。

关键词:数据仓库,数据商场,决策支持,元数据【Abstract】 T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity.Key words: da ta warehouse,da ta mart, dec ision support,m etada ta1 引言随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。

进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。

90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。

以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。

元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。

项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。

2 元数据的基本类型元数据按照其用户可以分为技术元数据和商业元数据。

技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。

商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。

但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。

同样,商业用户也需要尝试高水平的技术元数据。

元数据按其内容可以分为四个基本类型:1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。

例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。

2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。

3)关于业务数据与仓库数据结构间的映射信息。

只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。

4)关于数据仓库中信息的使用情况。

了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。

3 元数据的收集和维护在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。

为保证较高的准确性,元数据的收集应该尽可能自动化。

例如收集数据来源的信息时,可以利用扫描仪来扫描或分析数据结构;利用CA SE 工具设计并收集数据模型信息等。

数据仓库的元数据包括很多域,从物理结构数据到逻辑模型数据,再到企业的使用情况和业务规则。

这些类型中的每一类都要求有自己的元数据收集战略。

有些可以在某种程度上自动化,而有些则要采取一点手工劳动。

元数据的维护方法取决于它最初是怎样收集的、它变化的频率如何以及生成的元数据量,对于那些反映数据来源结构和数据仓库本身结构的物理元数据来说,可以使用纲目库工具或建立适当的过程,或执行一些自动程序来感知物理结构的变化,并相应地更新元数据;对于业务规则信息和数据模型而言,元数据很可能要靠手工维护或手工启动一个自动刷新过程来更新元数据商店中的数据模型信息;数据仓库映射是用数据仓库建立工具完成的,并且工具和元数据商店之间有接口,那么这一信息的维护就是固有的,可以自动进行;对于数据仓库使用信息,因为仓库查询所使用的特定表格和数据结构的信息是动态的,所以应该定期追加。

4 元数据的集成和管理现在很多数据仓库项目小组在开发企业级数据仓库同时,引入了数据商场。

数据商场是面向单个主题域、满足一个部门用户群需要的数据仓库,可看作数据仓库的子集,而数据库是面向整个企业的所有主题域和企业范围的用户,如图1所示。

图1 企业信息系统结构现代企业信息系统通常都有一个数据仓库和多个数据商场,数据仓库可以给企业高层管理人员提供关于整个企业全局的信息,并提供对整个企业的集中控制和决策支持;数据商场有助于部门经理和用户对他们部门的任务和执行情况进行分析和决策。

因此,一个企业一般都存在多个元数据商店,既有集中的元数据,又有分布的元数据,分布的元数据可以根据地理位置分布,也可以按照部门分布。

这些元数据存放在不同的元数据存储工具中,每种工具都以不同方式表示这些元数据,因此必须对这些元数据进行管理和集成,从而为用户提供一致的和可理解的元数据。

4.1 元数据集成和管理的必要性许多公司现在意识到了元数据的集成和管理在决策支持中的重要性,并深刻体会到了它的不可忽视的作用。

这主要有三个方面的原因:1)提高生产率。

管理数据仓库中技术元数据的好处类似于在事务处理系统中管理元数据的好处:提高了开发的效率。

集成、一致的技术元数据为负责创建和维护决策支持系统的技术人员创造了一个更加高效率的开发环境。

另一方面,商业元数据给商业用户提供了一个良好的决策支持环境,对利用数据仓库很有价值。

2)数据仓库和决策支持应用经常涉及范围很广的不同产品,为这些产品创建和维护元数据非常耗时和容易出错。

相同的元数据(如一个关系表的定义)可能被几个产品定义。

这不仅很麻烦,而且使元数据的维护、一致性和实时性实现起来很困难。

使元数据的管理过程自动化和在这些不同产品之间共享技术元数据,能减少开销和错误。

3)商业用户需要很好地理解数据仓库中存在什么样的信息,这个信息从商业角度来看意味着什么,它是怎么样导出的,来源于什么系统,根据这个信息如何决策以及如何进行预测和分析等等。

易于访问的商业元数据使商业用户能充分利用数据仓库中有价值的信息。

商业元数据还能帮助技术员与商业用户讨论信息需求、建立企业模型。

4.2 元数据共享和交换过去销售商提供的元数据共享和交换工具总是把元数据放在一个集中的元数据商店或仓库中,并给该商店提供进入 导出功能和编程应用接口,创建一整套描述商店中元数据的数据模型。

在事务处理环境下,这种集中式管理方法有成功之处,但也有缺点。

对于决策支持系统,销售商正在使用许多集中式和分布式方法管理元数据,运用的技术主要有三种:1)支持元数据共享和交换的元数据商店;2)元数据交换的标准;3)为元数据交换指定的开放式A P IS产品。

针对目前缺少就公共表示方式达成的协议、每个用户提出的性能需求各不相同而导致有许多种元数据使用商店的实际情况,解决元数据管理的唯一方法,是创建一个元数据hub和一个商业信息目录来管理不同元数据商店以及决策支持产品间的元数据流,如图2所示。

元数据hub和商业信息目录是两种不同类型的元数据管理工具,它们的用户、用法、结构和接口是完全不同的。

元数据hub主要面向技术用户,它可以是图形用户界面(GU I)工具,也可以是基于网络的工具(如浏览器)。

商业信息目录主要面向商业用户,用户通过基于网络的工具(不仅限于W eb浏览器)仔细查看信息目录中面向业务的元数据,找出哪些信息是可以得到的。

这两种类型的工具之间要有适当的接口,例如商业信息目录的用户需要能够对商业信息目录和由元数据hub维护的技术元数据进行数据挖掘,而技术用户则需要了解建立数据仓库时可以得到哪些源数据。

元数据hub作为面向技术用户的元数据管理工具,主要用来开发和维护数据仓库,并在决策支持产品之间管理技术元数据的交换和共享。

这个hub有四个要求:1)它应该支持在分布式元数据环境下不同系统和产品之间的元数据的交换。

这个hub应该有一个文档化和开放的编程对象接口(例如使用com或co rba),这可以使第三方工具能够应用hub的服务;一个工业认可的文件格式(如comm a deli m ited file、M D IS、M icro soft XM L In terchange fo rm at等)的文件传输机制应被提供给元数据交换。

2)它应该能对元数据进行更新和共享。

用户可以使用元数据hub提供的A P I对象和用以上列出的文件传输格式对元数据进行维护。

这个hub还应该提供一个代理接口,能捕捉本地产品及系统中新的或修改过的元数据,并动态地加载到元数据商店中。

元数据商店的元数据管理系统应该支持版本和时间特性,即能创建一个元数据变化的历史记录。

在大的分布式环境中,数据库管理员应能对横跨多个hub服务器和元数据商店的元数据环境进行物理分割。

3)最起码应该能管理数据仓库信息存贮定义。

图2 数据仓库中的元数据流格式支持包括关系表和列、多维表以及维。

另一种能被处理类型的元数据是关于用来创建数据仓库信息的源数据的信息以及源数据在装入仓库前的转换,但是目前的ETL工具都有它们特有的数据转换方法。

这个产品至少应提供能对源数据编制文档和对自由表文本格式元数据进行转换的能力。

在理想的情况下,hub还应该能对与企业模型相联系的商业元数据以及商业智能工具和分析工具中用到的商业观点编制文档,以便用户访问仓库信息。

4)应使用工业标准的元数据模型或它能够管理的元数据类型的相应元模型,这些元模型应该是编制成文档和可扩展的。

4.3 元数据共享和交换的工具产品支持事务处理的元数据共享和交换的仓库产品已经存在了许多年,大部分销售商已经开始扩展他们的仓库产品来支持决策过程,包括P latinum techno logy,inc.(P latinum R epo sito ry)、Softlab (Enab ler)、U n isys(U R EP)和V iaSoft(Rochade)。

相关主题