当前位置:文档之家› 网络数据管理

网络数据管理

网格数据管理摘要:本文简要论述了网格的定义及其应用,然后简要介绍了了异构数据访问的必然性和方式,接着分析了数据源的定义和数据源的名称,最后探讨了网格环境下的数据库系统。

关键词:网格异构数据库访问数据源网格环境下数据库系统Grid data managementAbstract: This paper briefly discusses the definition of grid and its application, and then briefly introduces the heterogeneous data access necessity and mode, and then analyzes the data source definition and data source name, finally discusses the database system in the grid environment. Key words:Grid Heterogeneous database access Data source Database system in environment of grid0引言随着数据密集型的应用逐渐取代计算密集型的应用成为生产和研究中的焦点问题,数据网格技术逐渐引起各方的重视。

在长期的积累过程中,中国地质调查局在地质信息方面获得了大量的专业数据,但是目前大批的数据只能在实验室中束之高阁,如何利用这些地学信息资源,为广大的用户提供公益性质的服务和商业服务,成为当务之急。

针对地质调查的当前情况,国家“八六三”计划大力支持建立资源环境应用网格,以国家地质调查工作的实际需求为目标,建立领域应用网格系统平台、完成资源评价软件的开发、实现分布式地质资源数据的共享,从而提高地质调查工作的信息化水平。

1、网格网格是一种新兴的技术,正处在不断发展和变化当中。

目前学术界和商业界围绕网格开展的研究有很多,其研究的内容和名称也不尽相同因而网格尚未有精确的定义和内容定位。

随着网格计算[1]研究的深入,人们越来越发现网格体系结构的重要。

网格体系结构是关于如何建造网格的技术,包括对网格基本组成部分和各部分功能的定义和描述,网格各部分相互关系与集成方法的规定,网格有效运行机制的刻画。

显然,网格体系结构是网格的骨架和灵魂,是网格最核心的技术,只有建立合理的网格体系结构,才能够设计和建造好网格,才能够使网格有效地发挥作用。

OGSA最突出的思想就是以“服务”为中心。

在OGSA框架中,将一切都抽象为服务,包括计算机、程序、数据、仪器设备等。

这种观念,有利于通过统一的标准接口来管理和使用网格。

Web Service提供了一种基于服务的框架结构,但是,Web Service 面对的一般都是永久服务,而在网格应用环境中,大量的是临时性的短暂服务,比如一个计算任务的执行等。

考虑到网格环境的具体特点,OGSA 在原来Web Service 服务概念的基础上,提出了“网格服务(Grid Service)”的概念,用于解决服务发现、动态服务创建、服务生命周期管理等与临时服务有关的问题。

网格另外一个显著的运用可能就是虚拟组织(Virtual Organisations)[2]。

这种虚拟组织往往是针对与某一个特定的项目,或者是某一类特定研究人员。

在这里面可以实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。

比如说中国2008年奥运会开幕式研究组就可以运用网格组成一个虚拟组织。

在这个虚拟组织里,任何成员不管在哪个地方都可以有权访问组织的共享资源(如开幕式场地图纸,开幕式资金,开幕式节目单);而且可以和另一地方的虚拟组织成员进行交流。

这个虚拟组织就像把所有奥运会开幕式的资源,信息,以及人员集中到了一个虚拟的空间,让人们集中精力研讨开幕式项目的问题,而不必考虑其他的问题。

2、异构数据库访问数据库技术讯速发展的今天,面对很多企业使用不至一种数据库软件。

例如保险公司,总公司因业务量庞大,因而使用大型数据库来存储数据,如Oracle、Db2等,而各地的分支公司也都有自已的数据库系统,如:Informix、Sqlserver等。

总公司需要实现和各个分支公司的数据实现互联互通,能够调用各个分支公司的数据库。

这就涉及异构数据库系统之间的数据共享问题,如何在这些异构数据库系统之间实现数据的共享呢?由于数据库系统的类型不同,异构数据库间的数据访问方式也不尽相同可以通过普通连接(Generic Connectivity)和透明网关技术,来实现异构数据库间的访问。

3、数据源数据源(Data Source)[3]是提供某种所需要数据的器件或原始媒体。

信息系统的数据源必需可靠且具备更新能力,目前常用的数据源有:①观测数据,即现场获取的实测数据,它们包括野外实地勘测、量算数据,台站的观测记录数据,遥测数据等。

②分析测定数据,即利用物理和化学方法分析测定的数据。

③图形数据,各种地形图和专题地图等。

④统计调查数据,各种类型的统计报表、社会调查数据等。

⑤遥感数据,由地面、航空或航天遥感获得的数据。

目前,中国的数据源数量庞大。

如:全国范围的土地资源清查及详查数据,航空摄影测量图像和国土普查卫星资料已覆盖全国,定位、半定位观测站网遍布全国,有地面调查、地图测绘等大量数据。

上面提到的数据源例子只是很小一部分,事实上数据源可以是任何数据类型。

数据源名称(data source name,DSN)是包含了有关某个特定数据库信息的数据结构,这个信息是开放式数据库连接驱动能够连接到数据库上必需的信息。

DSN存储在注册表或作为一个单独的文本文件,DSN里面包含的信息有名称、目录和数据库驱动器,以及用户ID 和密码(根据DSN的类型)。

开发人员为每个数据库创建一个独立的DSN。

为了连接到某个数据库,开发人员需要在程序中指定DSN。

相反,没有DSN的连接则需要在程序中指定所有必要的信息。

有三种类型的DSN:用户DSN(有时也叫作机器DSN)、系统DSN和文件DSN。

用户和系统DSN都根据具体计算机而有所不同,DSN信息存储在注册表中。

用户DSN允许单个用户在单个计算机上访问数据库,系统DSN允许在某个计算机上的多个用户访问数据库。

文件DSN在一个以.DSN扩展名结尾的文本文件中存储相关信息,并且可以被安装了相同驱动器的不同计算机上的多个用户共享。

4、网格环境下数据库系统探究数据库技术和其他计算机技术相结合,能够产生新的研究领域。

例如,数据库技术和面向对象技术相结合就产生了面向对象数据库;数据库技术和网格技术相结合也就产生一个新的研究内容,称之为网格数据库。

网格数据库当前的主要研究内容包括三个方面:网格数据库管理系统、网格数据库集成和支持新的网格应用。

4.1、网格数据库管理系统网格提供一个平台,这个平台支持系统化的身份鉴别和授权、资源发现、数据传输、进程创建和调度,以及跨异构平台的动态绑定。

在网格提供的这些功能的基础上,可以构造一个安全可靠、具有自主计算能力的高性能网格数据库管理系统。

网格数据库管理系统最终将成为网格上的一种重要资源,提供数据管理服务。

在构建网格数据库管理系统方面,第一步的工作是提供一个中间件,将数据库管理系统包装成为网格服务,以便网格应用存取网格数据库。

这种做法的好处是,对已有的数据库管理系统基本上不需要做什么改动。

进一步的工作是扩展已有的数据库管理系统,让它直接利用网格提供的功能来实现分布式的数据库和相关的网格服务。

传统的数据库管理系统是一个复杂的系统,运行时作为一个整体消耗大量的资源。

网格数据库管理系统最好能由一些组件构成,这些组件可以根据需要来组合完成数据库管理系统的部分或者全部功能。

这样做的好处除了可以降低资源消耗,更重要的是,使得在整个系统规模的基础上优化使用数据库资源成为可能。

在网格中使用注册的方法来发布和查找资源。

数据库里面存储有大量的元数据,手工注册这么多元数据是不可行的,但是又如何来完成自动注册呢?自动注册的问题不在于注册这些元数据到网格中,而在于注册时如何保证这些元数据能为第三方所理解。

这个问题也是网格数据库集成时需要解决的问题。

4.2、网格数据库集成因为网格的主要目标是支持在共享资源上的协同工作,所以网格数据库集成是目前网格数据管理的研究热点。

网格数据库集成[4]就是使用两个或多个网格数据库中的信息,并使用这些信息构建一个大的数据库。

目前有三种网格数据库集成策略:虚拟数据库虚拟数据库是一个联邦数据库,它只有一个联邦模式,所有的用户都无法觉察到多个独立的数据库存在的事实。

虚拟数据库在概念上是受欢迎的,但是难以实现。

在构造虚拟数据库时,需要考虑以下几种透明性:异构透明性、命名透明性、属主和费用透明性、并行透明性和分布透明性。

定制集成这种方式是指由应用程序自己完成数据库集成。

例如,在有的科学应用程序中,开发人员自己找到相关的数据源,然后将集成任务划分为查询、要执行的程序、中间数据源的构建、显式的数据传输和数据变换,以及存储结果等等。

网格数据库管理系统应该提供对这种集成方式的支持,使之降低成本、减少时间耗费和错误的发生。

增量集成虚拟数据库是一个理想目标,定制集成又过于注重细节,增量集成居于两者之间。

在增量集成中,开发人员无须完成集成的每一个细节,高级的数据存取和集成组件可以自动完成一些后期的集成步骤。

元数据管理在网格数据库集成时扮演着关键的角色。

网格数据库中与集成有关的元数据包括这样几类:技术元数据定义数据源所在的位置、物理数据的结构和组织形式、数据的存取方法和传输方式、以及数据的历史和属主等等;上下文元数据定义命名方式、术语和本体,它遵循约定的语法和语义,可以提高数据的质量和可靠性;派生元数据定义由其他数据派生的数据的含义和上下文组成;映射元数据定义上下文元数据定义间以及上下文元数据和技术元数据间的等价性。

元数据在数据库集成时引发了很多问题。

例如,不同的数据库系统具有不同的元数据模型,标准的元数据定义方法肯定有利于网格数据库集成。

目前,全球网格论坛数据领域的DFDL(Data Format Description Language)[5]工作组在做的一件事,就是定义一种基于XML的语言来给出数据库中元数据的标准表示。

而正在研究中的语义网格,也将能有助于解决涉及元数据语义方面的问题。

4.3、支持新的网格应用应用能有力地推动技术的发展。

研究对于数据库领域来说相对比较新的网格应用可以有力地推动数据库技术的发展。

数据流处理、信息检索和科学数据分析等都是网格应用。

其他的网格应用还有网格数据挖掘、网格计算机集成制造系统[6]、网格数字x数据库馆等。

目前国内外开展的大部分的网格项目都是网格应用项目,而且多数是服务于科学研究的需要。

相关主题