第一章1、世界上第一个分布式数据库系统SDD—1是由美国计算机公司(CCA)于1976年至1979年在DEC—10和DEC—20计算机上实现。
2、分布式数据库系统是数据库系统与计算机网络相结合的产物3、12条规则既不是相互独立的,也不是同等重要的,完全实现难度很大。
4、实现和建立分布式数据库系统绝对不是数据库技术与网络技术的简单结合。
分布式数据库系统虽然基于集中式数据库系统,但却有它自己的特色和理论基础。
5、一些商品化的数据库系统产品,如Oracle,Ingres,Sybase,Informix,IBM DB2等6、关系技术是分布式技术的一个先决条件。
7、分布式数据库系统是物理上分散而逻辑上集中的数据库系统。
分布式数据库系统使用计算机网络将地理位置分散而管理和控制又不需要不同程度集中的多个逻辑单位连接起来,共同组成一个统一的数据库系统。
因此,分布式数据库系统可以看成是计算机网络与数据库系统的有机结合。
8、在分布式数据库系统中,被计算机网络连接的每个逻辑单位是能够独立工作的计算机,这些计算机称为站点也称为结点。
9、在分布式数据库系统中,一个用户或一个应用如果只访问他注册的那个站点上的数据称为本地(或局部)用户或本地应用;如果访问涉及两个或两个以上的站点中的数据,称为全局用户或全局应用。
10、一个分布式数据库系统应用应该具有以下几种特点:(1)物理分布性:分布式数据库系统的数据具有物理分布性,这是与集中式数据库系统的最大差别之一(2)逻辑整体性:区别一个数据库系统是分散式还是分布式,只需判断该数据库系统是否支持全局应用(3)站点自治性:各站点上的数据由本地的DBMS管理,具有自治处理能力,完成本站点的应用(局部应用),这是分布式数据库系统与多处理机系统的区别11、数据分布透明性是指用户不必关心数据是如何被逻辑分片的,不必关心数据及其片段是否被复制及复制副本的个数,也不必关心数据及其片段的物理位置分布的细节,同时也不必关心局部场地上数据库支持哪种数据模型12、增加数据冗余度方便了检索,提高了系统的查询速度、可用性和可靠性,但不利于数据的更新,这将增加系统维护的成本13、按局部数据库管理系统的数据模型分类(1)同构型:同构同质型、同构异质型(2)异构型14、按分布式数据库系统的全局控制系统类型分类:全局控制集中型DDBS、全局控制分散型DDBS、全局控制可变型DDBS15、在集中式数据库系统中,除了计算机本身的硬件和软件外,主要成分有:数据库DB、数控管理系统DBMS和数据库管理员DBA。
分布式数据库系统在次基础上做了扩充:数据库分为局部DB和全局DB;数据库管理系统分为局部DBMS和全局DBMS;数据库管理员分为局部DBA和全局DBA15、分布式数据库有两部分组成:一部分是关于应用所需要的数据的集合,称为应用数据库,它是分布式数据库的主体;另一部分是关于数据库中数据结构的定义,以及全局数据的分片、分布的描述,称为数据字典、数据目录或元数据16、局部数据目录是指本站点中的局部数据字典,而全局数据目录就是全局数据字典,又称网路数据,是提供全局数据的描述和管理的相关信息,如数据的结构定义,数据的分片、分布处理、授权、事务恢复等的必要信息17、数据分片有三种基本方法:水平分片、垂直分片、混合分片18、定义各类片段要遵守的规则:完备性条件、可重构条件、不相交条件19、所谓数据分布是指分布式数据库中的数据不是存储在一个站点的计算机存储设备上,而是根据需要将数据划分成逻辑片段,按某种策略将这些片段分散地存储在各个站点上20、数据分布的策略有:集中式、分割式、复制式、混合式21、集中式数据库的模式结构:内模式、模式、外模式22、分布式数据库是多层模式结构:(1)全局外层:全局外模式(2)全局概念层:全局概念模式、分片模式、分配模式(3)局部概念层:局部概念模式(4)局部内层:局部内模式23、分布式数据库管理系统的功能模块:(1)查询处理模块|:查询处理模块至少由两部分组成:查询分析和优化处理(2)完整性处理模块:该模块主要负责维护数据库的完整性和一致性规则,处理多副本数据的同步更新等(3)调度处理模块(4)可靠性处理模块24、(分布式中)所谓数据分布独立性是指用户或用户程序使用分布式数据库如同使用集中式数据库那样,不必关心全局数据的分布情况,包括全局数据的逻辑分片情况、逻辑片段的站点位置分配情况,以及各站点上数据库的数据模型等。
25、分布透明性有三层:分片透明性、位置透明性、局部数据模型透明性26、分片透明性是分布透明性的最高层。
当分布式数据库具有分片透明性时,用户编写应用程序只对全局关系进行操作,不必考虑数据的逻辑分片,当分片模式改变时,只要改变全局概念模式到分片模式之间的映像,就不会影响用户程序,从而实现了数据分片透明性。
27、位置透明性也称分配透明性是分布透明性的中间层。
当分布式数据库具有位置透明时,用户编写应用程序要了解全局数据的数据分片情况,但不必了解各逻辑片段的复制副本情况,也不必关心各片段及其副本的站点位置分配情况。
当片段及其副本的存储站点改变时,只要改变从分片模式到分配模式之间的映像,就不会影响用户程序,从而实现了数据片段的位置透明性28、局部数据模型透明性也称局部映像透明性,即与各站点上数据库的数据模型无关,是分布透明性的最底层。
29、如果一个分布式数据库系统提供分片透明性,当然它也提供分配透明性和局部数据模型透明性,所以也称完全分布透明性,是分布透明性的最高级别如果一个分布式数据库系统提供分配透明性,而没有提供分片透明性,当然它也提供局部数据模型透明性,所以也称为中级分布透明性如果一个分布式数据库系统只提供局部数据模型透明性,不提供分片透明性,也不提供分配透明性,称为低级分布透明性如果一个分布式数据库系统,连局部数据模型透明性也不提供,即将异构数据模型转换也交给用户和用户程序自己处理,称为无分布透明性30、分布式数据库系统的有点:良好的可靠性和可用性、提高系统效率,降低通信费用、较大的灵活性和可伸缩性、经济性和保护投资31、分布式数据库系统中存在的技术问题:数据的分片、分布与冗余度;异构数据库的互联;分布式数据库的查询处理;分布式数据库的更新处理第二章1、分布式数据库系统的创建方法即分布式数据库系统的实现方法,大致可分为两种:组合法和重构法。
2、组合法也称为集成法,这是一种自底向上的创建方法。
3、创建分布式数据库系统应考虑:一方面要对网络系统的功能进行剖析,另一方面还需要对各个站点上原有的数据库系统进行剖析。
除此之外,还需解决数据的一致性、完整性以及可靠性。
(此方法是建立在原有的系统里)4、重构法是根据系统的实现环境和用户需求,按照分布式数据库系统的设计思想和方法,采用统一的观点,从总体设计做起,包括各站点上的数据库系统,重新建立一个分布式数据库。
(此方法是建立在新建的系统里)5、重构法的优点在于,可以按照统一的思想来考虑分布式数据库系统中的各种问题,有效地解决分布式数据库系统的数据一致性、完整性和可靠性。
6、(简答题)分布式数据库设计的目标包括集中式数据库设计中的目标,还要包括以下几点:(1)分布式数据库的本地性或进地性。
分布式数据库系统中最重要的目标是尽量减少对网络的利用,即尽可能减少站点之间的通信次数和通信量。
所以,分布式数据库设计中的一个主要原则是使数据和应用实现最大程度的本地性。
(2)控制数据库的适当冗余。
这不仅使应用具有高度的可用性和本地性,而且当数据的任何一个副本不能使用时,可方便地使用在另一站点中的该数据的副本进行恢复,从而提高系统的可靠性。
(3)工作负荷分布。
分布式计算机系统的一个重要特征是把工作负荷分布在网络中的各个站点上。
(4)存储的能和费用。
数据库的分布会受到各站点的存储能力的影响。
在网络中可以有专门用于存储数据的站点。
数据存储的费用与CPU,I/O及传输的费用相比是不重要的,但是必须考虑各站点可用存储空间的限制。
(P43具体实现,第三段)7、分布式数据库系统的创建方法有重构法和组合法,相应的分布式数据库设计方法也有两种方法,即自顶而下方法和自底而上方法。
前一种方法是从头开始设计分布式数据库,而后一种方法则通过聚集现存的数据库来设计分布式数据库。
8、设计集中式数据库的一般方法包括四个阶段:需求分析、概念设计、逻辑设计和物理设计。
分布式数据库设计出了上述阶段外,还要增加一个新的阶段,叫做分布设计,它位于逻辑设计与物理设计之间,以一个全局的、与站点无关的模式作为输入,以产生分布式数据库各站点的子模式(局部概念模式)作为结果输出。
9、分布式数据库的分布设计要求确定数据的分片和片段的分配。
分片是指把一个全局对象(实体或关系)细分成若干逻辑片段的过程;分配是指把各片段映射到一个或多个站点的过程,片段是最适合的数据分配单位。
10、在自顶向下的数据分布设计中,必须要解决的第一个问题是数据的分片设计。
11、因此,如果同一个片段的任意两个元素具有“相同的性质(例如访问频率相同)”的话,那么数据分配时所用的任意一种丰富都将把这两个元素放在一起,以这种方式得到的片段将是分布式数据库中数据合适的分配和存储单位。
12、分片设计的基本目的是产生一个对全局数据合适的划分方案。
13、P45 数据分片的基本类型和方法(全看)14、数据分片方法两种:水平分片与垂直分片。
两者交替可以产生混合分片。
15、水平分片的方法可归为初级分片和导出分片两类。
16、P45 例2.1,2.2,2.317、P48 垂直分片(全看)18、在确定数据片段的位置分配时,应根据应用需求确定设计是非冗余分配还是冗余分配。
在非冗余分配中,每个片段恰好映射到一个站点上;在冗余分配中,每个片段映射到一个或多个站点上。
19、在非冗余分配的设计中,最简单的方法是“最佳适应”方法。
20、冗余分配的设计可选用如下两种方法的任意一种。
1)“所有得益站点”法2)“附加复制”法21、P50 数据片段分配的费用和得益估算22、DA TAID—D是自顶向下设计分布式数据库的一个典型方法。
23、DA TAID-D要求对其增加两个阶段:分布要求分析阶段和分布设计阶段。
1)分布要求分析阶段:需要这一阶段是为了收集关于分布的信息,如水平分片的划分谓词,每一应用在各站点激活的频率等。
2)分布设计阶段:这一阶段始于全局数据库模式的规格说明和所收集的分要求,然后产生全局数据的分片模式和片段的位置分配模式,分配模式描述了分配在各站点上的数据情况。
24、建立三种类型的表作为分部要求分析阶段的输出:应用的频率表、实体的划分表和数据与应用的极化表。
25、分布设计的目的是从全局数据模式、逻辑访问表和分布要求出发,将数据分配在站点上。