[XXXX大学XXX学院XXX班]数据库数据模型的发展及方向[ ][学号: ][摘要:近年来,随着计算机辅助设计(CAD)、计算机辅助制造(CAM)、计算机辅助软件工程 (CASE)、全球信息系统(GIS)、图像处理、超文本应用等领域的飞速发展及其在传统领域中应用的深化,要求数据库管理系统(database management system,DBMS)能够有效地管理复杂对象。
比如在工程应用领域,一个客观复杂实体往往由数十个,甚至成百上千个简单实体组成,为了减小数据库应用系统的设计复杂度、提高其执行效率,要求DBMS不但能根据实体丰富的语义进行建模、提供有效的存储与操纵手段,以及模拟复杂实体的复杂行为,而且在逻辑上还要将一个复杂实体的表示和操纵作为一个整体看待,在操纵数据的同时考虑实体间的复合语义,即各简单实体的存在方式(独立或依赖)以及实体间的引用方式(共享或排他)。
然而,传统RDBMS由于采用满足第一范式(first normal form,1NF)的平关系模型,在面对各种新的应用领域时存在以下不足。
]关键词:数据库,数据模型,扩展关系数据库,语义数据模型,面向对象的数据模型,XML数据模型正文:数据模型概述数据(data)是描述事物的符号记录。
模型(Model)是现实世界的抽象。
数据模型(Data Model)是数据特征的抽象,是数据库管理的教学形式框架。
数据库系统中用以提供信息表示和操作手段的形式构架。
数据模型包括数据库数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。
数据模型所描述的内容包括三个部分:数据结构、数据操作、数据约束。
1. 概念数据模型(Conceptual Model):这是面向数据库用户的实现世界的数据模型,主要用来描述世界的概念化结构,它使数据库的设计人员在设计的初始阶段,摆脱计算机系统及DBMS的具体技术问题,集中精力分析数据以及数据之间的联系等,与具体的DBMS无关。
概念数据模型必须换成逻辑数据模型,才能在DBMS中实现。
2. 逻辑数据模型(Logical Data Model):这是用户从数据库看到的数据模型,是具体的DBMS所支持的数据模型,如网状数据模型、层次数据模型等等。
此模型既要面向用户,又要面向系统。
3. 物理数据模型(Physical Data Model):这是描述数据在存储介质上的组织结构的数据模型它不但与具体的DBMS有关,而且还和操作系统以及硬件有关。
每一种逻辑数据模型在实现时都有其对应的物理数据模型。
DBMS为了保证其独立性与可移植性,大部分物理数据模型的实现工作由系统自动完成,而设计者只设计索引、聚集等特殊结构。
数据模型的三要素:一般而言,数据模型是一组严格定义的概念的集合。
这些概念精确地描述了系统的静态特征(数据结构)、动态特征(数据操作)和完整性约束条件,这就是数据模型的三要素。
1. 数据结构数据结构是所研究的对象类型的集合。
这些对象是数据库的组成部分,数据结构指对象和对象间联系的表达和实现,是系统静态特征的描述,包括两个方面:(1)数据本身:类型、内容、性质。
例如关系模型中的域、属性、关系等。
(2)数据之间的联系:数据之间是如何相互联系的,例如关系模型中的主码、外码等联系。
2. 数据操作对数据库中对象的实例允许执行的操作集合,主要指检索和更新(插入、删除、修改)两类操作。
数据模型必须定义这些操作的确切含义、操作符号、操作规则(如优先级)以及实现操作的语言。
数据操作是对系统动态特征的描述。
3. 完整性约束条件数据完整性约束是一组完整性规则的集合,规定数据库状态及状态变化所应满足的条件,以保证数据的正确性、有效性和相容性。
数据库技术发展概述:数据库技术是计算机科学技术中发展最快的领域之一,也是应用最广的技术之一一、第一代的网状、层次数据库系统1、层次数据库(Hierarchiacl Database)层次模型是出现较早的一种公认的数据库管理系统数据模型。
它是将数据组织成有向有序的树结构,并用“一对多”的关系联结不同层次的数据库。
早在1968年IBM公司就推出了IMS的最初版本,之后,层次数据库管理系统得到了迅速发展,同时它也影响了其它类型的数据库管理系统,特别是网状系统的出现和发展。
2、网状数据库处理以记录类型为结点的网状数据模型的数据库。
处理方法是将网状结构分解成若干棵二级树结构,称为系。
系类型是二个或二个以上的记录类型之间联系的一种描述。
在一个系类型中,有一个记录类型处于主导地位,称为系主记录类型,其它称为成员记录类型。
系主和成员之间的联系是一对多的联系。
网状数据库的代表是DBTG系统。
1969年美国的CODASYL组织提出了一份“DBTG报告”,以后,根据DBTG报告实现的系统一般称为DBTG系统。
现有的网状数据库系统大都是采用DBTG方案的。
DBTG系统是典型的三级结构体系:子模式、模式、存储模式。
相应的数据定义语言分别称为子模式定义语言SSDDL,模式定义语言SDDL,设备介质控制语言DMCL。
另外还有数据操纵语言DML。
3、层次数据库系统与网状数据库系统的共同特点:(1). 支持三级模式的体系结构(2). 用存取路径来表示数据之间的联系(3). 独立的数据定义语言(4). 导航的数据操纵语言二、第二代的关系数据库系统1970年,IBM的研究员,有“关系数据库之父”之称的埃德加·弗兰克·科德(Edgar Frank Codd或E. F. Codd)博士在刊物《Communication of the ACM》上发表了题为“A Relational Model of Data for Large Shared Data banks(大型共享数据库的关系模型)”的论文,文中首次提出了数据库的关系模型的概念,奠定了关系模型的理论基础。
后来Codd又陆续发表多篇文章,论述了范式理论和衡量关系系统的12条标准,用数学理论奠定了关系数据库的基础。
IBM的Ray Boyce和Don Chamberlin将Codd关系数据库的12条准则的数学定义以简单的关键字语法表现出来,里程碑式地提出了SQL语言。
由于关系模型相关书籍简单明了、具有坚实的数学理论基础,所以一经推出就受到了学术界和产业界的高度重视和广泛响应,并很快成为数据库市场的主流。
20世纪80年代以来,计算机厂商推出的数据库管理系统几乎都支持关系模型,数据库领域当前的研究工作大都以关系模型为基础。
这一时期的主要成果奠定了关系模型的理论基础,给出了人们一致接受的关系模型的规范说明,研究了关系数据语言,包括关系代数、关系演算、SQL及QBE等研制了大量的RDBMS的原型,攻克了系统实现中查询优化、并发控制、故障恢复等一系列关键技术三、第三代数据库系统——数据库大家族1990年,高级DBMS功能委员会发表了《第三代数据库系统宣言》的文章,提出第三代DBMS应具有的3个基本特征:1、第三代数据库系统应支持数据管理、对象管理和知识管理。
2、第三代数据库系统必须保持或继承第二代数据库系统的技术。
3、.第三代数据库系统必须对其他系统开放。
数据库模型的发展应用的需求始终是推动技术进步的动力。
自20世纪70年代初E.F.Code 提出关系数据库理论,定义关系数据模型以来,关系数据库管理系统(relationaldatabase managementsystem,RDBMS)以其简洁、严密的数据模型,简明易学、功能强大的描述性查询语言而备受用户青睐,并迅速取代网状及层次型数据库系统,成为数据库技术发展的主流。
之后,随着RDBMS理论基础及其实现方法的日趋成熟,关系数据库技术日臻完善。
近年来,随着计算机辅助设计(CAD)、计算机辅助制造(CAM)、计算机辅助软件工程(CASE)、全球信息系统(GIS)、图像处理、超文本应用等领域的飞速发展及其在传统领域中应用的深化,要求数据库管理系统(database management system,DBMS)能够有效地管理复杂对象。
比如在工程应用领域,一个客观复杂实体往往由数十个,甚至成百上千个简单实体组成,为了减小数据库应用系统的设计复杂度、提高其执行效率,要求DBMS不但能根据实体丰富的语义进行建模、提供有效的存储与操纵手段,以及模拟复杂实体的复杂行为,而且在逻辑上还要将一个复杂实体的表示和操纵作为一个整体看待,在操纵数据的同时考虑实体间的复合语义,即各简单实体的存在方式(独立或依赖)以及实体间的引用方式(共享或排他)。
然而,传统RDBMS由于采用满足第一范式(first normal form,1NF)的平关系模型,在面对各种新的应用领域时存在以下不足。
1、不能完整地描述复杂实体。
对一个逻辑上作为整体的复杂实体只能采用分解成多个关系的方法进行描述,从而在内部数据库结构和由这种结构所描述的外部实体之间缺乏一对一的对应关系,在查询时这将导致系统效率的严重降低。
2、缺乏稳定的元组标识。
RDBMS中完全由关键字属性值作为元组的惟一标识,当关键字值不稳定时,引用时会产生数据的一致性问题,给维护带来很大困难。
3、缺乏数据抽象。
在关系模型中只有一个非常简单的结构构造概念——关系,缺乏诸如聚合(把由多个子实体组成的复合实体抽象成一个聚合实体)、概化(把相似实体归类为一个更一般的实体型)与特化(把抽象的实体型细化成更特殊的实例)等在许多实际应用中非常重要的抽象概念。
4、缺乏丰富的类型系统。
这些不足使得传统关系型数据库技术在面对来自“非经典”应用领域中的巨大挑战时显得力不从心,新的数据库技术应运而生。
当前,数据库的发展主要朝以下几个方向:1、扩展关系数据库。
对传统的关系模型(1NF) 进行扩充,引入了少数构造器,称为复杂数据模型,一种是偏重于结构的扩充(嵌套关系模型),一种是侧重于语义的扩充(如:POSTGRES系统)。
这类研究相对来说是“改良性”的:即在传统关系模型上增添各种特点,或打破原有约束以支持各种新型的、复杂结构的数据。
早期对关系模型的扩展主要包括非第一范式(nonfirst normal form,NF2)和抽象数据类型(abstract data type,ADT)。
非第一范式打破了关系模型中第一范式的要求,从而能够有效地描述复杂实体。
这方面的工作主要集中在20世纪80年代,所作的扩充也各有不同,包括:P.Pistor等提出的AIM-P中,允许关系的属性为任意域;Jaeschke与Schek所扩充的关系模型允许关系带有集合值属性;由Thomas和Fischer提出的“嵌套关系模型”。
其中,嵌套关系模型融合了前两种模型,它允许关系中集合操作与聚合操作以任意层次相互嵌套,建模能力最强,因此后续的研究大多围绕嵌套关系进行,包括代数和演算系统、查询语言、规范化等。