当前位置:文档之家› 分布式数据库研究新趋势

分布式数据库研究新趋势

1997年8月 计算机工程与科学 第19卷 第3期 A ug.1997 COM PU T ER EN GIN EERIN G&SCIEN CE Vo l.19 N o.3 分布式数据库研究新趋势New T rends in Research onDistributed Databases李 霖 周兴铭Li Lin and Zhou Xingming(国防科技大学计算机系)(Department of Computer Science,National University of Defense Technology) 摘 要 本文从异构分布式数据库、网络数据库、移动数据库等几个方向,讨论了分布式数据库研究所面临的几个新课题,并对未来分布式数据库的发展前景作了展望。

ABSTRACTS This paper presents three new issues on distributed databases, w hich are heter ogeneous distributed databases,the large netw ork o f auto nom ous databases,and mobile databases.Finally,w e describe our ex pectation o n distributed databases in the future.关键词 分布式数据库,异构性,自治性,网络规模,网络数据库,移动计算,移动数据库。

KEY WORDS distributed databases,heterogeneity,autonomy,scale of netw ork, netw ork databases,mo bile computing,mobile databases.现在人们倾向于采用更广义的分布式数据库概念,即一个由若干独立自治的数据库系统(称为成员数据库)组成的集合,其中每个成员数据库都提供一组功能,用以实现与其它成员交换数据和服务。

这个定义具有很大的灵活性,将更广泛的研究领域纳入分布式数据库的范围之中。

本文将以这个广义的分布式数据库概念为基础,从异构分布式数据库、网络数据库、移动数据库等几个方面入手,综述在新的技术条件和应用背景下,分布式数据库研究面临的一些新问题和发展前景。

一、异构分布式数据库技术 异构分布式数据库是指对已经存在的多个异构数据库,在尽可能少地影响其本地自 收稿日期:1996年9月9日。

本课题为九五国防预研项目。

作者简介:李霖,男,博士研究生,1972年4月生,主要研究兴趣为并行与分布式数据库、移动数据库技术;周兴铭,中科院院士,主要研究法趣包括高性能机体系结构、并行与分布式数据库、先进计算机网络技术等。

通讯地址:410073 湖南长沙国防科技大学计算机系Address:Dept.of Computer S ci.,Nat′l Un iv.of Defense Tech.,Ch ang sha,Hunan410073,P.R.China治性的基础上,构造具有用户所需要的某种透明性的分布式数据库,以支持对物理上分布的多个数据库的全局访问和数据库之间的互操作性。

按照透明程度的不同,可以将异构分布式数据库的研究分为两个方向:一是联邦数据库(Feder al DB),它把多个异构数据库的模式集成为一个统一的全局模式(称作联邦模式),从而向用户提供较高程度的访问透明性,典型的联邦数据库结构由5层模式构成;二是多数据库(M ultiDB),它不建立统一的全局模式,只提供一种统一的多数据库语言和公共模式接口,用户可以使用这种语言访问各个异构的数据库,但在涉及需同时访问多个数据库的全局应用时,数据库之间的约束或依赖关系必须由用户(应用程序)负责定义和维护。

与传统的分布式数据库相比,异构分布式数据库的研究主要集中在以下几个方面。

1 模式翻译为了消除异构数据库的异构性,首先必须采用一种统一的数据模型来表示成员数据库的概念模式(本地模式),这种用公共数据模型描述的成员数据库模式称为成员模式。

模式翻译的关键问题是公共数据模型的选取。

为了包容各种数据模型,使本地模式的语义不致丢失,公共数据模型必须有很强的语义表达能力;此外,公共数据模型应易于被大家接收。

2 模式集成(用于联邦数据库)在参与联邦数据库时,各个成员数据库在成员模式的基础上定义允许外部用户访问的输出模式。

模式集成的任务就是将这些输出模式集成到一个统一的联邦模式中。

3 多数据库语言(用于多数据库)多数据库系统不提供统一的全局视图,但为用户提供一种能够访问所有成员数据库的多数据库语言。

使用这种多数据库语言,用户可以用统一的界面直接与各个成员数据库打交道,但要求用户自己清楚存在哪些成员数据库以及它们的输出模式。

4 全局查询处理在联邦数据库中,用户根据联邦模式提交全局查询。

与传统的分布查询处理相比,联邦数据库的异构性和自治性给查询优化带来了很大困难。

5 全局事务处理与并发控制异构分布式数据库的全局事务处理和并发控制一直是一个很棘手的难题,人们至今仍未找到理想的解决办法,其主要问题仍然是数据库的异构性与自治性的影响。

全局事务处理的另一个焦点问题是如何维护全局事务的可串性(serializability)。

现有的研究具有较大的局限性,它们有的存在潜在的正确性问题,有的虽然能够保证严格的可串性,但却大大降低了整个系统的并发性能。

未来的研究似乎将更着重于设计结合实际应用需求的全局事务正确性准则。

二、网络数据库的组织、管理与访问 所谓网络数据库,是指所有连入网络并提供信息服务的自治数据库的集合。

众所周知,数据库是网络应用中必不可少的基础之一。

1 网络规模对分布式数据库实现算法的影响现有异构分布式数据库的研究主要基于有限规模的网络环境,在网络规模急剧扩大时,许多系统实现算法已难以适用,这些算法涉及分布查询处理、分布事务处理以及数据复制等领域。

系统可用性也是一个重要问题。

随着网络规模的膨胀,每个结点都同时处于可用状态的概率迅速降低。

实际上,当网络结点数超出一定数值时(例如10000),任何时候总会有某些结点处于不可访问状态,而许多原有的分布式数据库算法不能很好地解决这个问题。

2 大规模分布数据库的管理如何对大规模分布的数据库进行有效管理也是一个挑战。

随着成员数据库、用户以及各种事务的数量迅速增长,DBM S要维护的计帐、用户验证、访问权限等管理信息也相应增多;在考虑如何修改系统配置以改善运行效率时,DBA将面临着比往常多得多的可行选择;此外,各种数据库模式的大小和个数也在不断增加,所有这些因素都导致要有效地管理整个系统变得越来越困难。

其次,面对众多的数据库个数,人们难以评价整个系统的性能,也无法有效预测各种变化条件(如成员数据库的加入、退出)对系统性能产生的影响,因此目前亟需研究能完成这个任务的分布式数据库基准测试程序(Benchm ar k)。

3 语景(context)的差异与消解语景差异问题是由网络的规模引出的一个新的研究重点。

语景是指一组关于信息意义(称作语景定义)和信息质量(称作语景特征)的隐含假设。

通俗地说,语景就是人们在交流信息时互相默认的对信息的解释方式。

在不同的地域、组织或部门中,语景通常是互不相同的。

因此,在获取全球信息的同时,必须研究并解决不同语景之间存在的差别。

随着网络中数据库的数目持续快速地增长以及网络涉及地理范围的扩展,语景的类型(既包括信息发送者即数据库的语景,也包括信息接收者所处的语景)也不断多样化,这种手工的方法肯定不再适合,因此必须要研究新的语景消解策略来应付这个困境。

S.E.M adnick提出了一种语景调解服务的结构,从而在语景差异研究领域迈出了重要一步,但我们距离全球语景互换这个最终目标还相当遥远,需要付出更大的努力。

4 信息获取技术随着越来越多的各种数据库连入网络提供服务,人们可以从网络中获取的信息种类和容量都在迅速膨胀。

然而,面对全球网络中成千上万、规模庞大的数据库集合,用户怎样才能知道自己所需信息存放在哪些数据库中?又怎样才能快速访问到这些信息呢?由于规模等因素的影响,不可能把所有网络数据库的有关信息集中保存在一个单一的索引中,于是一个关键问题是:在没有集中索引的情况下,如何避免可能发生的遍历全网范围的穷尽搜索,设计更为有效的访问策略?这就是信息获取技术的研究内容。

信息获取技术主要需要解决两个问题:一是对网络中提供信息服务的各种自治数据库进行有效组织;二是为用户设计界面良好、效率较高的查询/浏览工具,利用对网络数据库的有效组织快速定位和访问信息。

三、移动数据库(Mobile Databases) 1 移动计算的主要特点移动性同一台移动计算机可以在不同的地方连通网络,这种计算平台的移动性可能导致系统访问布局的变化和资源的移动性。

而且,个人的移动性(即在不同地方使用当地的计算设备)也随着个人通信网PCN与网络计算机NC的提出而日益突出;断接性移动计算机在移动过程中,由于使用方式、电源、网络条件等因素的限制,一般不采用保持持续联网的工作方式,而是频繁地、有预见地入网、断接;带宽的多样性移动计算机的移动性使得不同时间可用的网络带宽与服务质量是变化多端的,甚至相差悬殊:移动计算机既可以联入高带宽的固定网络中,也可以工作在低带宽的无线广域网中,甚至根本无网可上;网络通信的非对称性由于物理通信媒介的限制,一般的无线网络通信都是非对称的,表现在固定服务器节点可以拥有强大的发送设备,而移动计算机的发送能力非常有限,于是下行链路(服务器到移动计算机)的通信带宽和代价与上行链路是相差很大的;移动计算机的电源能力移动计算机主要依靠蓄电池供电,一般在正常的连续使用情况下只能维持2—5个小时。

不幸的是,电池容量的改进要远低于同期CPU速度和存储容量的发展速度。

因此,尽管已有不少节能技术应用于移动计算机,但电池容量问题仍将在长时间内存在;可靠性无线网络与固定网络相比,可靠性较低,更容易受到干扰出现网络故障;此外,移动计算机由于其便携性和工作环境,也带来潜在的不安全因素,如损坏、失窃等;规模许多移动数据库应用环境,如公共交通信息系统,都要求系统同时支持大量的移动用户并发访问,这就要求移动数据库系统必须具有比传统客户/服务器及分布式数据库系统高得多的可伸缩性。

2 移动数据库的主要研究内容(1)查询处理移动数据库系统所在的网络环境是千差万别的,因此,在进行分布查询优化时,不仅要考虑不同网络带宽的差别,还必须考虑一些新出现的特殊因素。

例如,在无线网络上发送数据的费用相对较高,这就迫使查询优化器将重点转移到如何使一个查询规划所消耗的经济费用最小化;此外,在采用蜂窝通信的移动计算环境中,除了数据传输开销以外,启动一次通信连接还需要相对较高的额外费用,因此在优化执行时间较长的分布查询时,不能采用频繁的短时通信方式,而应考虑尽量减少通信连接的次数,增加每次连接的时间,这样才能降低总的通信费用。

相关主题