当前位置:文档之家› 元数据概念及应用范文

元数据概念及应用范文

元数据基础知识:Microsoft® SQL Server™ 2000 Meta Data Services 是一系列使您得以管理元数据的服务。

要使用Microsoft Meta Data Services,需要先了解元数据的特点。

如果不了解元数据的概念,本概述会帮助您了解Meta Data Services 所管理的数据类型。

元数据描述数据的结构和意义,就象描述应用程序和进程的结构和意义一样。

切记:元数据是抽象概念,具有上下文,在开发环境中有多种用途。

元数据是抽象概念当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据。

例如,在描述风、雨和阳光这些自然现象时,就需要使用"天气"这类抽象概念。

还可以通过定义温度、降水量和湿度等概念对天气作进一步的抽象概括。

在数据设计过程中,也使用抽象术语描述现实世界的各种现象。

人们把人物、地点、事物和数字组织或指定为职员、顾客或产品数据。

在软件设计过程中,代表数据或存储数据的应用程序和数据库结构可以概括为开发和设计人员能够理解的元数据分类方案。

表或表单由对象派生出来,而对象又由类派生。

在元数据中有多个抽象概念级别。

可以描述一个数据实例,然后对该描述本身进行描述,接着再对后一个描述进行描述,这样不断重复,直到达到某个实际限度而无法继续描述为止。

通常情况下,软件开发中使用的元数据描述可扩展为二至三级的抽象概念。

比如"loan table" 数据实例可以描述为数据库表名。

数据库表又可以描述为数据库表对象。

最后,数据库表对象可以用一个抽象类描述,该抽象类确定所有派生对象都必须符合的固定特征集合。

元数据具有上下文人们通常把数据和元数据的区别称为类型/实例区别。

模型设计人员表述的是类型(如各种类或关系),而软件开发人员表述的是实例(如Table 类或Table Has Columns 关系)。

实例和类型的区别是上下文相关的。

在一个方案中的元数据将在另一个方案中变为数据。

例如,在典型的关系型DBMS 中,系统目录将描述包含数据的表和列。

这就意味着系统目录描述数据定义,因而可以认为其中的数据是元数据。

但只要使用正确的软件工具,仍然可以象操作其它数据一样对这些元数据进行操作。

操作元数据的示例包括:查看数据沿袭或表的版本控制信息,或通过搜索具有货币数据类型的列来识别所有表示财务数据的表。

在此方案中,如系统目录这样的标准元数据变为可操作的数据。

元数据有多种用途可以像使用任何类型的应用程序或数据设计元素一样使用元数据类型和实例信息。

将设计信息表达为元数据,特别是标准元数据,可以为再次使用、共享和多工具支持提供更多的可能性。

例如,将数据对象定义为元数据使您得以看到它们是如何构造和进行版本控制的。

版本控制支持提供一种查看、衍生或检索任何特定DTS 包或数据仓库定义的历史版本的方法。

开发基于元数据的代码时,可以一次性定义结构,然后重复使用该结构创建可作为特定工具和应用程序的不同版本的多个实例。

还可以在现有元数据类型之间创建新关系,以支持新的应用程序设计。

元数据最本质、最抽象的定义为:data about data (关于数据的数据)。

它是一种广泛存在的现象,在许多领域有其具体的定义和应用。

在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。

一般来说,它有两方面的用途。

首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。

其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。

具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。

它在运行过程中起着以解释方式控制程序行为的作用。

在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。

在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。

其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。

此外,元数据在地理界,生命科学界等顶域也有其相应的定义和应用。

元数据(Meta Data)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。

同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。

为数据仓库的发展和使用提供方便。

元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件(PE) 文件或存储在内存中的程序进行描述。

将您的代码编译为PE 文件时,便会将元数据插入到该文件的一部分中,而将代码转换为Microsoft 中间语言(MSIL) 并将其插入到该文件的另一部分中。

在模块或程序集中定义和引用的每个类型和成员都将在元数据中进行说明。

当执行代码时,运行库将元数据加载到内存中,并引用它来发现有关代码的类、成员、继承等信息。

元数据以非特定语言的方式描述在代码中定义的每一类型和成员。

元数据存储以下信息:程序集的说明。

标识(名称、版本、区域性、公钥)。

导出的类型。

该程序集所依赖的其他程序集。

运行所需的安全权限。

类型的说明。

名称、可见性、基类和实现的接口。

成员(方法、字段、属性、事件、嵌套的类型)。

属性。

修饰类型和成员的其他说明性元素。

元数据的优点对于一种更简单的编程模型来说,元数据是关键,该模型不再需要接口定义语言(IDL) 文件、头文件或任何外部组件引用方法。

元数据允许.NET 语言自动以非特定语言的方式对其自身进行描述,而这是开发人员和用户都无法看见的。

另外,通过使用属性,可以对元数据进行扩展。

元数据具有以下主要优点:自描述文件。

公共语言运行库模块和程序集是自描述的。

模块的元数据包含与另一个模块进行交互所需的全部信息。

元数据自动提供COM 中IDL 的功能,允许将一个文件同时用于定义和实现。

运行库模块和程序集甚至不需要向操作系统注册。

结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的可靠性。

语言互用性和更简单的基于组件的设计。

元数据提供所有必需的有关已编译代码的信息,以供您从用不同语言编写的PE 文件中继承类。

您可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。

属性.NET Framework 允许您在编译文件中声明特定种类的元数据(称为属性)。

在整个.NET Framework 中到处都可以发现属性的存在,属性用于更精确地控制运行时您的程序如何工作。

另外,您可以通过用户定义的自定义属性向.NET Framework 文件发出您自己的自定义元数据。

有关更多信息,请参见利用属性扩展元数据。

元数据的意义说到元数据的意义,可以从其应用目的来谈的。

虽然做数据仓库言必称元数据,必称技术、业务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛。

还是拿客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。

当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。

元数据也是如此,你可以将所有数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的"自上而下"做法,必败无疑。

元数据列举基于应用,可以将元数据分成以下的若干种。

数据结构:数据集的名称、关系、字段、约束等;数据部署:数据集的物理位置;数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;质量度量:数据集上可以计算的度量;度量逻辑关系:数据集度量之间的逻辑运算关系;ETL过程:过程运行的顺序,并行、串行;数据集快照:一个时间点上,数据在所有数据集上的分布情况;星型模式元数据:事实表、维度、属性、层次等;报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;数据访问日志:哪些数据何时被何人访问;质量稽核日志:何时、何度量被稽核,其结果;数据装载日志:哪些数据何时被何人装载;元数据开发应用的标准化框架1、数字图书馆资源组织框架2. 元数据开发应用框架2.1 元数据的基本意义Metadata(元数据)是“关于数据的数据”;元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。

离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。

3. 元数据应用环境3.1 Metadata的应用目的(1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。

(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。

(3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。

(4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。

3.2 Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现例如:网络资源:Dublin Core、IAFA Template、CDF、Web Collections文献资料:MARC(with 856 Field),Dublic Core人文科学:TEI Header社会科学数据集:ICPSR SGML Codebook博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core政府信息:GILS地理空间信息:FGDC/CSDGM数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images档案库与资源集合:EAD技术报告:RFC 1807连续图像:MPEG-73.3 Metadata格式的应用程度不同领域的Metadata处于不同的标准化阶段:在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经成为政府信息描述标准,并在世界若干国家得到相当程度的应用,与此类似的还有地理空间信息处理的FGDC/CSDGM;但在某些领域,由于技术的迅速发展变化,仍然存在多个方案竞争,典型的是数字图像的Metadata,现在提出的许多标准都处于实验和完善的阶段。

相关主题