当前位置:文档之家› 信息整合-元数据管理

信息整合-元数据管理

信息集成:元数据管理全景2009年4月作者:Kamlesh Mhashilkar,Jaideep Sarkar翻译:ttnn 讨论组(/group/ttnn)(2010/12)中文译者:Daiyan, Hevin, LL, Zhou jian, Jackie Young, Q摘要无论在什么样的组织,商业智能(Business Intelligence , BI)的成功运用很大程度上都取决于有效的元数据(Metadata)管理。

高水平的元数据设计,能为所有BI系统的数据充当路标,从而能够对这些数据进行高效地管理、控制变更和分发。

元数据实施最重要的是将系统中各种元数据进行整合利用。

明确的元数据范式(Metadata Paradigm)有助于元数据实施,以达成BI系统信息集成的战略目标,并能够延伸到企业信息集成方案中。

在某些实施中,元数据的架构和组件需要单独设计和构建,此时需要识别和分离出这些内容,进而构建强健的元数据资料库。

本文提供了一个元数据架构和设计的基本准则。

本文描述了BI系统的元数据模型(Metadata Model),可以作为元数据架构设计的基准;并深入探讨了信息集成方案中的元数据全景,精心选用搭配的概念及策略,可以引导人们走向以价值驱动的企业元数据管理(Metadata Management)。

目录概述 (4)什么是元数据? (4)元数据模型 (5)什么是元数据模型? (6)企业元数据模型 (7)BI元数据模型 (8)BI技术元数据 (10)BI元数据实施域 (12)后台元数据 (13)前台元数据 (17)对照元数据 (19)水平与垂直回溯 (20)水平回溯 (20)垂直回溯 (22)元数据管理拓扑结构 (22)分布式元数据管理 (23)集中式元数据管理 (24)联邦式元数据管理 (28)BIDS元数据管理方法论 (33)框架定义 (34)规格描述 (36)详细设计 (36)元数据管理成熟度模型 (37)参考文献 (40)关于作者 (40)关于译者 (40)概述随着企业的不断成长和变化,处理日常事务的业务系统以及为业务运行提供管理信息的BI 系统也在不断演变,而企业内产生的数据也在随之变化。

企业的BI系统一个典型特征是以这种或那种方式“接触”到海量数据。

BI的成功运用深度依赖于有效的元数据管理,通常被称作“关于数据的数据”。

元数据为所有BI系统的数据充当路标,从而能够对这些数据进行高效地管理、控制变更和分发。

全面的元数据管理保证了BI系统具有高质量的信息,并提供充分的扩展性,能满足新的信息需求和数据源增加。

元数据实施是信息集成中的一部分,最重要的工作是将存储在各种工具中的元数据进行整合利用。

而在某些实施中,元数据的架构和组件需要单独的设计和构建,此时需要识别和分离出这些内容,进而构建强健的元数据资料库。

本文列举了元数据架构设计和实施的主要考虑因素,可充当行动指南。

与此同时需要说明的是,本文只是一整套信息集成文档中的一部分。

什么是元数据?元数据通常被称作“关于数据的数据”,即用于描述其它数据的数据。

术语“数据”(Data)可以通过多种方式进行解释。

举例如下:‘102250Richad King’这组数据可以有很多含义,列举一些为:●美国东部时间10:22:50与Richad King约会●订单编号为1022和(登记在)第50行的商品递送给Richad King●温度为10,2250摄氏度的一个类星体称作Richard-King●102250是TCS公司Richad King的员工编号我们怎么知道哪一种解释是正确的呢?为此我们需要一些描述这些数据的信息,即元数据。

让我们来考虑最后一种解释,描述‘102250Richad King’的元数据可以是:●数据格式为:员工编码-Number(6),员工姓名-Varchar(30)●如果员工编码数字的第一位不是9,则该员工不是商业伙伴●编号为102250的员工于1997年1月1日加入TCS公司●编号为102250的员工曾在BIPM部门服务通过分析这些描述该组数据的数据,我们可以发现前两条定义了‘102250Richad King’的上下文;后两条并非描述数据的上下文背景,而是从细节上描述了蕴含在‘102250Richad King’中和主数据相关的详细内容。

因此需要注意一点,当我们说元数据是“关于数据的数据”时,我们需要确保所讨论的是数据的背景,而不是有关数据的详细细节或相关数据。

元数据描述的是数据的背景、内容、数据结构及其生命周期管理。

简而言之,元数据是“数据的背景”。

元数据管理全景包括三个部分内容:●元数据模型●元数据拓扑结构●元数据管理方法论下文我们将深入这些主题,以深入理解元数据管理。

元数据模型元数据是BI架构中的一个重要组件。

在BI环境中,元数据管理最主要是能方便地集成不同数据库、数据模型、OLAP和ETL工具所包含的各式各样的元数据。

元数据包括业务规则、数据源、汇总级别、数据别名、数据转换规则、技术配置、数据访问权限、数据用途等。

设计良好的元数据模型能够提高管理、变更控制和分发元数据的效率,实现无缝的、端到端的跟踪回溯能力。

下面让我们来看看什么是元数据模型。

什么是元数据模型?回到上一节中的例子。

如果说“102250Richard King”是数据,下面则是元数据:●员工代码类型为Number(6)——这告诉我们该数据中首6位字符是数字类型,代表员工代码;●员工姓名类型为Varchar(30)——这告诉我们后面的30位字符是变长字符类型,表示员工姓名。

这些元数据可以进一步抽象为元-元数据(Meta-Metadata),表示元数据的背景。

从例子中可以看到,元数据实际就是告诉了我们该数据所包含元素名称(员工代码)和数据类型(Number(6))。

用于更详细地描述元数据的信息叫做元-元数据,这是数据层面的术语。

让我们从另一个角度来解释,上文所讨论的元数据显然是逻辑或物理数据模型中的元素或属性。

因此,我们可以说数据模型就是元数据,这是模型层面的术语。

元数据可以进一步抽象为元-元数据。

数据模型通过表(Table)对象的实例构建,数据则用列、主键、外键、数据类型等区分,这就是元-元数据或称之为元数据模型。

元数据模型自身可以被抽象出另一个层次——元数据信息通过主体、谓词和客体进行描述,主体通过谓词与客体发生关系。

这种表述称作元-元模型(Meta-Meta Model)。

这些抽象级别可以通过两组术语进行描述,如下表所示:因此,无论何时谈及元数据,了解这个抽象层级都是很重要的。

元数据或者是数据模型告诉了我们关于数据的信息,要理解元数据的细节,我们应该理解元数据模型;同样地,要理解元数据模型,就需要理解元-元模型。

但大多数时候,我们提到元数据的时候,通常包含了上述所有级别,并没有专门区分。

接下来让我们看看如何在企业中为元数据建模——即企业元数据模型,并如何进一步演化到BI元数据模型(BI Metadata Model)。

企业元数据模型在企业内部业务和技术(IT)领域尽管各自独立,但以IT产业的视角来看,却不可分割。

IT/技术领域是企业的支柱,提供业务运营和发展所需的基础设施和必要的应用/工具。

当然,如果没有业务运营这个前提,IT/技术也没有存在的必要了。

这种彼此间一对一的关系对元数据同样适用——业务元数据和IT/技术元数据形成了元数据模型的基础。

上图给出企业元数据模型的这两个分支以及各概念层之间的关系。

与这两个分支相交的三层概念如下表详述:顶层业务元数据中的最高概念层表示为‘主题域’或者‘概念’。

例如HR (人力资源), CRM (客户关系管理)以及支付等等,往往在收集业务需求时界定。

与之对应,技术系统将根据每个主题域进行开发,例如Oracle可以为HR主题域开发HRMS,也可以为CRM实施SIEBEL系统。

这些形成了IT/技术元数据中的‘系统’层。

中层每一个主题域可以被分解成业务实体或者业务交易。

客户、供应商、合作方、客户使用的任何应用,以及诸如订单管理这样的业务交易等,形成了CRM中的业务实体。

每个业务实体的细节通过技术对象来存储,比如用数据表、报表以及映射关系等。

底层业务术语形成了业务元数据最底层的抽象概念。

对业务实体而言,比如某个应用,业务术语可以是客户ID、客户姓名以及产品ID等等。

而IT/技术的最底层是技术元素。

元素级的细节信息,如列、字段或转换形成了技术元素。

BI元数据模型被称为:●BI技术元数据●数据源元数据换句话说,BI元数据模型有三个分支,与企业元数据模型的两个分支不同。

右图描绘了BI元数据模型的三个分支。

这些分支可以进一步抽象成三个层次如下表描述:在最顶层,业务的主题域可以直接运用于BI技术元数据的报表和分析,继而被映射到数据源元数据反映的源系统中。

中层(实体层)业务实体连接到技术实体,如数据表,立方体和报表等,它们从可用的源表或数据表单直接获取信息。

底层(元素层)最细节的元数据存在于数据元素层。

业务元数据中的业务术语映射到技术元数据的对应层,包括数据表、报表及多维立方体的维度/度量。

业务用户广泛使用这层元数据。

备注:三种元数据域的元素级信息生成了元数据实施的“术语表”。

这些详细的元数据信息形成了元数据模型的基础,用于与更高层级以及其他元数据域的概念相连接。

元素级信息是跨元数据域搜索的唯一地带,因此为其设计高性能搜索引擎至关重要。

采用链表结构对这种设计有辅助作用。

BI 技术元数据BI技术元数据包含了BI环境中不同层级的所有元数据,进一步可以细分为三个类型:●信息整合– ETL (数据抽取,转换和装载) 元数据●信息存储–数据仓库元数据●信息发布–报表元数据使用ETL,DW (数据仓库) 和报表元数据这样的术语是为了简化和说明的目的,不要误认为元数据只有这些组成成分。

举例说明,信息整合元数据可以由CDC (变化数据捕获), ETL (数据抽取,转换和装载), EAI (企业应用集成)和EII (企业信息集成)等成分组成,但为了简便,我们经常统称之为ETL元数据。

BI元数据在三级概念层的体系上可以被分为以下几类:ETL元数据这个类别包含了所有涉及从源系统数据抽取、转换和装载(ETL)进入BI环境的元数据。

在最顶层,ETL作业一般隶属于像Oracle、Mainframe或Siebel这样的技术层面上形成的类别,或者像服务执行/保障,或电话详单等源系统这样的功能层面基础上形成的类别。

在某个特定类别内的所有流程都会有一些相似之处。

诸如源系统特征这类元数据就是在这个层级获取。

在下一个层级,ETL类别可以向下钻取为各自独立的ETL过程,往往执行某个特定的任务,比如一个独立的作业或者映射等。

这些流程通常与整个实体相关,比如客户信息,电话详单及销售订单等,并以此命名。

相关主题