数据库系统概论笔记数据 (Data) :是数据库中存储的基本对象数据的定义:描述事物的符号记录数据的种类:文字、图形、图象、声音等数据的特点:数据与其语义是不可分的数据库 (Database,简称 DB) :是长期储存在计算机内、有组织的、可共享的大量数据集合数据库的特征:数据按一定的数据模型组织、描述和储存可为各种用户共享冗余度较小数据独立性较高易扩展数据库管理系统( Database Management System ,简称 DBMS ):是位于用户与操作系统之间的一层数据管理软件。
DBMS 的用途:科学地组织和存储数据、高效地获取和维护数据DBMS 的主要功能:数据库的运行管理保证数据的安全性、完整性、多用户对数据的并发使用发生故障后的系统恢复数据库的建立和维护功能(实用程序)数据库数据批量装载数据库转储介质故障恢复数据库的重组织性能监视等数据库系统( Database System,简称 DBS)是指在计算机系统中引入数据库后的系统构成。
数据库系统的构成由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员(和用户)构成。
数据管理对数据进行分类、组织、编码、存储、检索和维护,是数据处理的中心问题数据模型这个工具来抽象、表示和处理现实世界中的数据和信息。
数据模型应满足三方面要求能比较真实地模拟现实世界容易为人所理解便于在计算机上实现数据模型分成两个不同的层次(1)概念模型也称信息模型,它是按用户的观点来对数据和信息建模。
(2)数据模型主要包括网状模型、层次模型、关系模型等,它是按计算机系统的观点对数据建模。
客观对象的抽象过程--- 两步抽象现实世界中的客观对象抽象为概念模型;把概念模型转换为某一DBMS 支持的数据模型。
数据结构对象类型的集合数据结构是对系统静态特性的描述两类对象与数据类型、内容、性质有关的对象与数据之间联系有关的对象数据操作对数据库中各种对象(型)的实例(值)允许执行的操作及有关的操作规则数据操作的类型检索更新(包括插入、删除、修改)数据模型对操作的定义操作的确切含义操作符号操作规则(如优先级)实现操作的语言数据操作是对系统动态特性的描述。
数据模型对约束条件的定义反映和规定本数据模型必须遵守的基本的通用的完整性约束条件。
提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
信息世界中的基本概念(1)实体( Entity )客观存在并可相互区别的事物称为实体。
(2)属性( Attribute )实体所具有的某一特性称为属性。
一个实体可以由若干个属性来刻画。
(3)码( Key )唯一标识实体的属性集称为码。
(4)域( Domain )属性的取值范围称为该属性的域。
(5)实体型( Entity Type )用实体名及其属性名集合来抽象和刻画同类实体称为实体型(6)实体集( Entity Set )同型实体的集合称为实体集联系( Relationship )现实世界中事物内部以及事物之间的联系在信息世界中反映为实体内部的联系和实体之间的联系实体型间联系两个实体型一对一联系(1:1)三个实体型一对多联系(1:n)一个实体型多对多联系(m:n)两个实体型间的联系一对一联系如果对于实体集 A 中的每一个实体,实体集 B 中至多有一个实体与之联系,反之亦然,则称实体集 A 与实体集 B 具有一对一联系。
记为1:1。
一对多联系如果对于实体集 A 中的每一个实体,实体集B中有n个实体(n?0)与之联系,反之,对于实体集 B 中的每一个实体,实体集 A 中至多只有一个实体与之联系,则称实体集A 与实体集B 有一对多联系记为1:n多对多联系(m:n)如果对于实体集 A 中的每一个实体,实体集B中有n个实体(n?对于实体集 B 中的每一个实体,实体集 A 中也有 m 个实体( m?实体集 A 与实体 B 具有多对多联系。
记为m:n概念模型的表示方法0)与之联系,反之,0)与之联系,则称实体-联系方法(E-R 方法 )用 E-R 图来描述现实世界的概念模型E-R 方法也称为E-R 模型常用数据模型非关系模型层次模型( Hierarchical Model )网状模型 (Network Model )数据结构:以基本层次联系为基本单位基本层次联系:两个记录以及它们之间的一对多(包括一对一)的联系关系模型 (Relational Model)数据结构:表面向对象模型(Object Oriented Model )数据结构:对象层次模型满足下面两个条件的基本层次联系的集合为层次模型。
1.有且只有一个结点没有双亲结点,这个结点称为根结点2.根以外的其它结点有且只有一个双亲结点表示方法实体型:用记录类型描述。
每个结点表示一个记录类型。
属性:用字段描述。
每个记录类型可包含若干个字段。
联系:用结点之间的连线表示记录(类)型之间的一对多的联系网状数据模型的数据结构网状模型满足下面两个条件的基本层次联系的集合为网状模型。
1.允许一个以上的结点无双亲;2.一个结点可以有多于一个的双亲。
表示方法(与层次数据模型相同)实体型:用记录类型描述。
每个结点表示一个记录类型。
属性:用字段描述。
每个记录类型可包含若干个字段。
联系:用结点之间的连线表示记录(类)型之间的一对多的父子联系。
关系模型的基本概念关系( Relation )一个关系对应通常说的一张表。
元组( Tuple)表中的一行即为一个元组。
属性( Attribute )表中的一列即为一个属性,给每一个属性起一个名称即属性名。
关系必须是规范化的,满足一定的规范条件最基本的规范条件:关系的每一个分量必须是一个不可分的数据项。
查询、插入、删除、更新数据操作是集合操作,操作对象和操作结果都是关系,即若干元组的集合存取路径对用户隐蔽,用户只要指出“干什么”,不必详细说明“怎么干” 关系模型的完整性约束实体完整性参照完整性用户定义的完整性关系数据模型的存储结构表以文件形式存储有的 DBMS 一个表对应一个操作系统文件有的 DBMS 自己设计文件结构关系模型的优缺点优点建立在严格的数学概念的基础上概念单一。
数据结构简单、清晰,用户易懂易用实体和各类联系都用关系来表示。
对数据的检索结果也是关系。
关系模型的存取路径对用户透明具有更高的数据独立性,更好的安全保密性简化了程序员的工作和数据库开发建立的工作缺点存取路径对用户透明导致查询效率往往不如非关系数据模型为提高性能,必须对用户的查询请求进行优化增加了开发数据库管理系统的难度数据库系统外部的体系结构单用户结构主从式结构分布式结构客户 /服务器结构浏览器 /应用服务器 /数据库服务器结构分布式结构的数据库系统数据库中的数据在逻辑上是一个整体,但物理地分布在计算机网络的不同结点上。
网络中的每个结点都可以独立处理本地数据库中的数据,执行局部应用同时也可以同时存取和处理多个异地数据库中的数据,执行全局应用优点适应了地理上分散的公司、团体和组织对于数据库应用的需求。
缺点数据的分布存放给数据的处理、管理与维护带来困难。
当用户需要经常访问远程数据时,系统效率会明显地受到网络传输的制约数据库管理员 (DBA)决定数据库中的信息内容和结构决定数据库的存储结构和存取策略定义数据的安全性要求和完整性约束条件关系数据库关系模型的组成关系数据结构关系操作集合关系完整性约束1)常用的关系操作查询选择、投影、连接、除、并、交、差数据更新插入、删除、修改查询的表达能力是其中最主要的部分2)关系操作的特点集合操作方式,即操作的对象和结果都是集合。
非关系数据模型的数据操作方式:一次一记录文件系统的数据操作方式3)关系数据语言的种类关系代数语言用对关系的运算来表达查询要求4)关系数据语言的特点关系语言是一种高度非过程化的语言存取路径的选择由 DBMS 的优化机制来完成用户不必用循环结构就可以完成数据操作能够嵌入高级语言中使用关系代数、元组关系演算和域关系演算三种语言在表达能力上完全等价关系⒈域( Domain )2.笛卡尔积( Cartesian Product)3.关系( Relation )域是一组具有相同数据类型的值的集合。
例:整数实数介于某个取值范围的整数长度指定长度的字符串集合{, 男?,,女 ?}介于某个取值范围的日期笛卡尔积给定一组域D1, D 2,⋯,Dn ,这些域中可以有相同的。
D1, D2,⋯,Dn 的笛卡尔积为:D1×D 2×⋯ × Dn={(d1, d2,⋯, dn)| di Di , i =1, 2,⋯, n}所有域的所有取值的一个组合不能重复2) 元组( Tuple)笛卡尔积中每一个元素(d1, d2,⋯, dn)叫作一个n 元组( n-tuple )或简称元组。
3) 分量( Component)笛卡尔积元素(d1, d2,⋯, dn)中的每一个值di 叫作一个分量。
4) 基数( Cardinal number )若Di (i = 1, 2,⋯,n)为有限集,其基数为 mi( i= 1, 2,⋯, n),则 D 1× D 2× ⋯× Dn 的基数 M 为:5)笛卡尔积的表示方法笛卡尔积可表示为一个二维表。
表中的每行对应一个元组,表中的每列对应一个域。
关系( Relation )1)关系D1×D 2×⋯ × Dn 的子集叫作在域 D 1, D2,⋯, Dn 上的关系,表示为R( D1, D2,⋯, Dn)R:关系名n:关系的目或度(Degree)2)元组关系中的每个元素是关系中的元组,通常用t 表示。
3) 单元关系与二元关系当 n=1 时,称该关系为单元关系(当 n=2 时,称该关系为二元关系(Unary relation Binary relation)。
)4)关系的表示关系也是一个二维表,表的每行对应一个元组,表的每列对应一个域。
5) 属性Attribute)。
关系中不同列可以对应相同的域,为了加以区分,必须对每列起一个名字,称为属性(n 目关系必有n 个属性。
6) 码候选码( Candidate key )若关系中的某一属性组的值能唯一地标识一个元组,则称该属性组为候选码在最简单的情况下,候选码只包含一个属性。
称为全码( All-key )在最极端的情况下,关系模式的所有属性组是这个关系模式的候选码,称为全码(All-key)主码若一个关系有多个候选码,则选定其中一个为主码( Primary key )主码的诸属性称为主属性(Prime attribute )。
不包含在任何侯选码中的属性称为非码属性( Non-key attribute )7) 三类关系基本关系(基本表或基表)实际存在的表,是实际存储数据的逻辑表示查询表查询结果对应的表视图表由基本表或其他视图表导出的表,是虚表,不对应实际存储的数据基本关系的性质①列是同质的( Homogeneous)每一列中的分量是同一类型的数据,来自同一个域② 不同的列可出自同一个域其中的每一列称为一个属性不同的属性要给予不同的属性名③ 列的顺序无所谓列的次序可以任意交换遵循这一性质的数据库产品( 如 ORACLE) ,增加新属性时,永远是插至最后一列但也有许多关系数据库产品没有遵循这一性质,例如FoxPro 仍然区分了属性顺序④ 任意两个元组不能完全相同由笛卡尔积的性质决定但许多关系数据库产品没有遵循这一性质。