当前位置:文档之家› 数据库技术的几种前沿

数据库技术的几种前沿

几种前沿的数据库技术综述刘春茂王风燕张云岗摘要本文对几类比较前沿的数据库数据技术进行了简要讲解。

数据量急剧膨胀、数据形式以及处理要求多种多样成为当今数据处理技术亟待解决的问题,各种解决不同问题的数据库技术应运而生。

本文对几种比较前沿数据库技术的定义、特征、研究方向、功能和目标进行了概要讲述。

关键词数据库技术,特征, 研究方向, 功能, 目标,综述上世纪60年代,由于计算机的主要应用领域从科学计算转移到数据事务处理,促使数据库技术应运而生,使数据管理技术出现了一次飞跃。

数据库技术发展到现在,传统的数据库技术基本上是面向记录的、以字符表示的格式化数据为主,远远不能满足多种多样的信息类型需求。

当前的关系型数据库技术并不是十全十美的,还不能处理不确定或不精确的模糊信息。

要支持这类数据,必须对确定数据模型做相应的扩展。

人们对数据库查询的要求不再是简单的有解和无解,而可能是模糊解或不确定解,提供模糊查询结果。

另外,在信息大爆炸的现代,数据量急剧扩大和共享程度进一步提高,有必要由数据库系统来管理,这就需要发展相应的数据模型、数据语言和访问方法。

这就促使了新型的数据库技术的产生和研究。

下面就几种当前研究较多的前沿的数据库技术进行简要介绍。

一、分布式数据库分布式数据库是数据库技术与分布处理技术相结合的产物。

分布式数据库由一组数据组成,这些数据物理上分布在计算机网络的不同结点,而逻辑上是属于同一个系统。

与集中式数据库不同,分布式数据库中允许存在适当冗余以适应分布处理,提高系统处理效率和可靠性。

分布式数据库中的这种数据冗余对用户是透明的,维护各副本的一致性也由系统来负责。

因此,数据复制技术是分布式数据库的一项重要技术。

分布式数据库的产生是由于一些地理上分散的用户对数据库共享的需求,结合计算机网络技术的发展,在传统的集中式数据库系统基础上产生和发展的。

数据的处理从集中走向分布,运行环境从单机扩展到网络,从封闭走向开放,就促使了分布式数据库的产生。

分布式数据库系统中数据分布在网络不同节点而逻辑上是一个整体,构成一个逻辑的数据库。

网络中的每一个节点都具有独立处理本地数据库中数据的能力,也可以存储和处理其他节点数据库中的数据。

分布式数据库应具有以下特点。

(1)数据的物理分布性。

数据库中的数据不是集中存储在一个场地的一台计算机上,而是分布在不同场地的多台计算机上。

它不同于通过计算机网络共享的集中式数据库系统。

(2)数据的逻辑整体性。

数据库虽然在物理上是分布的,但这些数据并不是互不相关的,它们在逻辑上是相互联系的整体。

具有相同的数据结构,它不同于通过计算机网络互连的多个独立的数据库系统。

(3)数据的分布透明性。

分布式数据库中数据除具有物理独立性和数据的逻辑独立性外,还具有分布透明性。

即相对于用户,整个数据库仍然是一个集中的数据库,用户不必关心数据的存储分布,物理位置的细节和数据副本的一致性,分布的实现完全由分布式数据库管理系统来完成。

(4)场地自治和协调。

系统中的每个结点都具有独立性,能执行局部的应用请求;每个结点又是整个系统的一部分,可通过网络处理全局的应用请求。

二、多媒体数据库多媒体数据库是数据库技术与多媒体技术相结合的产物。

一般我们把把图像、视频、音频等形式记录的数据称作多媒体数据。

20世纪80年代以来,人们越来越重视多媒体数据的存储与处理,能存储声音、视频、图片、动画的多媒体数据库应运而生,从而使数据库变得功能更加强大而具有实用价值。

多媒体数据库被广泛地应用于交通管理系统的车牌识别、医疗系统的会诊、教育系统的多媒体素材库和电子商务,甚至网站的建设等方方面面,主要用于处理文本、图形、图像、声音、视频等非格式化数据,非格式化数据具有大数据量、处理复杂等特点。

多媒体数据库实现对格式化和非格式化的多媒体数据的存储、管理和查询,其主要特征如下。

(1)能够表示多种媒体的数据。

非格式化数据表示起来比较复杂,需要根据多媒体系统的特点来决定表示方法。

如果依据多媒体数据内部结构检索,可按一定算法映射成包含数据子部分的结构表,然后用格式化的数据表示。

如果依据多媒体数据整体检索,可以用源文件来表示,用文件名来标记和检索。

(2)能够协调处理各种媒体数据。

正确识别各种媒体数据之间在空间或时间上的关联。

例如,关于音符的多媒体数据包括音符特性的描述,音阶定位数据表述,演奏音符的乐器图片,利用该乐器演奏相应音阶音符的声音等,不同媒体数据之间存在着自然的关联,如须保证时间上的同步特性。

(3)提供更强的适合非格式化数据查询的搜索功能。

例如可以对jpg、mdi等非格式化数据作整体和部分数据搜索。

三、主动数据库主动数据库(Active DataBase)是相对于传统数据库的被动性而言的。

主动数据库主要使用于许多实际的应用领域,如计算机集成制造系统、自动化系统中数据库系统根据数据库的当前状态,主动适时地做出反应,执行某些操作,并向用户提供有关信息。

通过在传统数据库系统中嵌入ECA(即事件—条件—动作)机制,在确定事件发生时引发数据库管理系统检测当前状态满足设定的条件与否。

如条件满足即触发规定动作的执行。

对于主动数据库的研究主要集中于解决以下问题。

(1)数据模型和知识模型。

传统数据库模型的扩充,使之适应于主动数据库的要求。

(2)执行机制。

对传统数据库系统事务模型的发展和扩充,即ECA的处理和执行方式。

(3)条件检测。

主动数据库系统实现的关键技术之一,复杂的条件下如何高效地对条件求值以提高系统效率。

(4)事务调度。

要完成并发环境下的可串行化和对事务时间的要求。

如何优化对执行时间估计的代价模型是目前探讨和研究较多的问题。

(5)体系结构。

主动数据库的体系结构大多是在传统数据库管理系统的基础上,扩充事务管理部件和对象管理部件以支持执行模型和知识模型,并增加事件侦测部件、条件检测部件和规则管理部件。

(6)系统效率。

系统的高效率是设计各种算法和选择体系结构时追求的设计目标,也是主动数据库研究中的一个重要课题。

四、对象—关系数据库对象—关系数据库系统兼有关系数据库和面向对象的数据库两方面的特征。

它除了具有原来关系数据库的种种特点外,还具有以下功能。

(1)用户可扩充基本数据类型。

允许用户根据应用需求自己定义数据类型、函数和操作符,而且一经定义,这些新的数据类型、函数和操作符将存放在数据库管理系统中供所有用户使用。

(2)在SQL中支持复杂对象。

能够在SQL中支持多种基本类型或用户定义的类型构成的对象。

(3)满足继承。

支持数据继承和函数继承,支持多重继承,支持函数重载。

(4)提供功能强大的通用规则。

例如规则中的事件和动作可以是SQL语句或用户自定义的函数。

实现对象—关系数据库系统的实现方法主要有以下五种:(1)自主开发对象-关系数据库管理系统。

(2)在现有的关系型数据库管理系统(RDBMS)基础上通过以下两种方法扩展。

①对RDBMS核心进行扩充,增加对象特性。

这种方法比较常用,具有安全、性能好的特点。

②不修改现有的RDBMS核心,而是在增加一个外壳,由外壳提供对象-关系型应用编程接口,并负责将用户提交的对象-关系型查询映像成关系型查询,送给内层,即关系型数据库管理系统处理。

这种方法,系统效率会因外壳的存在受到影响。

(3)将现有的关系型数据库管理系统与其他的对象-关系型数据库管理系统通过以下两种方法连接在一起,从而使现有的关系型数据库管理系统直接而迅速地具有了对象-关系特征。

①使用网关技术连接。

但通过网关的方法会损失部分系统效率。

②使用对象-关系型引擎连接。

关系型数据库管理系统作为系统的最底层,具有兼容的存储管理器的对象-关系型系统作为上层。

(4)将现有的面向对象型数据库管理系统与对象-关系型数据库管理系统连接在一起,使现有的面向对象型数据库管理系统直接而迅速地具有了对象-关系特征。

(5)对现有的面向对象的数据库管理系统进行扩充,使之成为对象-关系型数据库管理系统。

五、并行数据库系统并行数据库系统是在并行机上运行的具有并行处理能力的数据库系统。

并行数据库系统的目标是高性能、高可用、可扩充。

六、数据仓库数据仓库领域的权威W.H.Inmon在其著作《Building the Data Warehouse》中给一个简短而全面的定义是:数据仓库是一个面向主题的、集成的、非易失(相对稳定)的、时变(反映历史变化)的数据集合,用于支持管理决策。

对于数据仓库的概念,可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

传统的数据库技术是以单一的数据资源为中心,进行各种操作型处理。

操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要是为特定应用服务,人们关心的是响应时间,数据的安全性和完整性。

分析型处理则用于管理人员的决策分析。

数据库由旧的操作型环境发展为体系化环境。

体系化环境由操作型环境和分析型环境(数据仓库级,部门级,个人级)构成。

而数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息,是体系化环境的核心,是建立决策支持系统(DSS)的基础。

通过将异种数据源中的数据集成在一起而构成,支持结构化和专门的查询、分析报告和决策制定。

面向主题、集成、非易失、时变是数据仓库四个最主要的特征。

(1) 数据仓库是面向主题(Subject Oriented)的数据集合。

数据仓库与传统数据库面向应用相对应。

主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域。

常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行组织。

因此,基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵而不相交叉。

这与基于应用的数据库数据只是为处理具体应用而组织在一起的方式完全不同。

(2) 数据仓库是集成(Integrated)的数据集合。

数据仓库与操作型数据不同,需要保存适合DSS分析的数据。

各种不同的数据都有可能做为DSS的输入,所以数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等。

(3) 数据仓库非易失(Nonvolatile)的数据集合。

数据仓库反映的是历史数据的内容,而不是处理联机数据。

因而,数据经集成进入数据库后是极少或根本不更新的。

数据仓库数据总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。

数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。

相关主题