当前位置:文档之家› 数据库集群技术介绍

数据库集群技术介绍

数据库集群技术介绍1前言1.1 简介用来保存计算最终结果的数据库是整个信息系统的重要组成部分,技术也相对成熟。

然而,对于所有数据库而言,除了记录正确的处理结果之外,也面临着一些挑战:如何提高处理速度,数据可用性、数据安全性和数据集可扩性。

将多个数据库联在一起组成数据库集群来达到上述目标应该说是一个很自然的想法。

集群(Cluster)技术是使用特定的连接方式,将价格相对较低的硬件设备结合起来,同时也能提供高性能相当的任务处理能力。

本文试图对当前主要的数据库集群用到的具体技术和市场上的主流产品进行分析并作点评,从而为读者提供一个数据库集群的评价参考。

下面讨论的数据库集群技术分属两类体系:基于数据库引擎的集群技术和基于数据库网关(中间件)的集群技术。

基于数据库引擎的集群技术(共享磁盘或非共享磁盘)基于数据库网关(中间件)的集群技术(不共享磁盘)1.2 理想的数据库集群应具备的特点提高速度:只通过简单地增加数据库服务器就能相对提高数据库处理速度。

数据同步:在任何时刻需要有多个随时可用的实时同步数据服务。

最好有多个异地的同步数据服务。

安全保证:除了密码保护之外,我们最好能控制企业内部对数据库的非法访问。

可扩展性:应保证我们能任意增大数据集而没有对可用性产生负面影响。

2名词解释2.1 集群是一组通过协同工作方式运行同一套应用程序并针对客户端及应用程序提供单一系统映像的独立计算机。

集群技术的目标在于通过多层网络结构进一步提高伸缩能力、可用性与可靠性。

2.2 可伸缩性是指一台计算机在维持可接受性能的前提下处理不断提高的工作负载的能力。

2.3 可用性是指存在质量、备用能力、获取简便性以及可访问能力。

2.4 可靠性是指系统牢固程度。

3关键技术在复杂的数据库集群技术之间做比较,其实就是比较它所包含的各项子技术性能和它们之间的协调运作能力,下面的文字将介绍数据库集群最需要得到重视的核心技术,同时也关注到了一些技术细节。

3.1 提高处理速度的四种办法3.1.1提高磁盘速度主要思想是提高磁盘的并发度。

尽管实现方法各不相同,但是它们最后的目的都是提供一个逻辑数据库的存储映象。

【点评】系统为了提高磁盘访问速度,建立一个虚拟的涵盖所有数据“大”数据库,而不用去考虑数据的实际物理磁盘存放位置。

3.1.2分散数据的存放利用多个物理服务器来存放数据集的不同部分,使得不同的服务器进行并行计算成为可能。

ORACLE RAC是共享磁盘的体系结构,用户只需简单地增加一个服务器节点,RAC就能自动地将这节点加入到它的集群服务中去,RAC会自动地将数据分配到这节点上,并且会将接下来的数据库访问自动分布到合适的物理服务器上,而不用修改应用程序;UDB是非共享磁盘的体系结构,需要手工修改数据分区,MSCS和ASE也是同样情况。

ICX是一种基于中间件的数据库集群技术,对客户端和数据库服务器都是透明的。

可以用来集群几个数据库集群。

【点评】系统通过化整为零的策略,将数据表格分散到多个服务器或者每个服务器分管几个内容不同的表格,这样做的目的在于通过多服务器间并行运算以提高访问速度。

3.1.3对称多处理器系统利用多处理机硬件技术来提高数据库的处理速度。

所有基于数据库引擎的集群都支持这个技术。

【点评】将多CPU处理器进行合理调度,来同时处理不同的访问要求,但这种技术在数据库上的应用的实际收益是很有限的。

3.1.4交易处理负载均衡在保持数据集内容同步的前提下,将只读操作分布到多个独立的服务器上运行。

因为绝大多数的数据库操作是浏览和查询,如果我们能拥有多个内容同步的数据库服务器,交易负载均衡就具有最大的潜力(可以远远大于上面叙述的最多达四个处理器的对称多处理器系统)来提高数据库的处理速度,同时会具有非常高的数据可用性。

所有基于数据库引擎的集群系统都只支持一个逻辑数据库映象和一个逻辑或物理的备份。

这个备份的主要目的是预防数据灾难。

因此,备份里的数据只能通过复制机制来更新,应用程序是不能直接更新它的。

利用备份数据进行交易负载均衡只适用于一些非常有限的应用,例如报表统计、数据挖掘以及其它非关键业务的应用。

【点评】负载平衡算是一项“老”技术了。

但将性能提高到最大也是集群设计所追求的终极目标。

传统意义上,利用备份数据进行交易负载均衡只适用于一些非常有限的应用。

上述所有技术在实际部署系统的时候可以混合使用以达到最佳效果。

3.2 提高可用性的四种方法3.2.1硬件级冗余让多处理机同时执行同样的任务用以屏蔽瞬时和永久的硬件错误。

有两种实现方法:构造特殊的冗余处理机和使用多个独立的数据库服务器。

基于数据库的集群系统都是用多个独立的数据库服务器来实现一个逻辑数据库,在任意瞬间,每台处理器运行的都是不同的任务。

这种系统可以屏蔽单个或多个服务器的损坏,但是因为没有处理的冗余度,每次恢复的时间比较长。

【点评】传统意义上,硬件越贵,性能越高,但往往事与愿违。

想通过追加和升级硬件设备来改善硬件级的冗余,要进行详细的需求分析和论证。

3.2.2通讯链路级冗余冗余的通讯链路可以屏蔽瞬时和永久的通讯链路级的错误。

基于数据库引擎的集群系统有两种结构:共享磁盘和独立磁盘。

RAC, MSCS 可以认为是共享磁盘的集群系统。

UDB和ASE 是独立磁盘的集群系统。

共享磁盘集群系统的通讯的冗余度最小。

【点评】通讯链路级的冗余具有容错功能。

3.2.3软件级冗余由于现代操作系统和数据库引擎的高度并发性,由竞争条件、死锁、以及时间相关引发的错误占据了非正常停机服务的绝大多数原因。

采用多个冗余的运行数据库进程能屏蔽瞬时和永久的软件错误。

基于数据库引擎的集群系统都用多个处理器来实现一个逻辑数据库,它们只能提供部分软件冗余,因为每一瞬间每个处理器执行的都是不同的任务。

【点评】改善软件设计来提高冗余性能和屏蔽软件级错误是每个技术开发商的梦想。

传统的集群系统只能提供部分软件冗余。

3.2.4数据冗余1. 被动更新数据集:所有目前的数据复制技术(同步或异步),例如磁盘镜像、数据库文件复制以及数据库厂商自带的数据库备份工具都只能产生被动复制数据集。

它一般只用于灾难恢复。

【点评】大多数应用都是采用被动更新数据集的方法。

这种方法容灾能力差,资源占用多,已面临淘汰和革新。

2. 主动更新数据集:这种数据集需要一台或多台备份数据库服务器来管理,它可用于报表生成,数据挖掘,灾难恢复甚至低质量负载均衡。

分同步和异步两种。

异步主动复制数据集:先把事务处理交给主服务器来完成,然后事务处理再被串行地交给备份服务器以执行同样操作来保证数据一致性。

所有的商用数据库都支持异步主动复制技术。

同步主动复制数据集:要求所有并发事务处理在所有数据库服务器上同时完成。

直接好处就是解决了队列管理问题,同时通过负载均衡实现更高性能和可用性。

RAC, UDB, MSCS 和ASE是用完全串行化并结合两阶段提交协议来实现的,设计目标就是为了获得一份可用于快速灾难恢复的数据集。

【点评】主动更新数据集是目前比较先进的数据冗余方法。

专业人员还可以进行更底层的技术细节比较。

底层技术的差异直接影响着一些重要指标。

3.3 提高安全和数据集可扩性的技术在提高数据库安全性和数据集可扩性这两方面,可以创新的空间是很小的。

数据库最常见的安全办法是口令保护,要么是分布式的,要么是集中式的。

在数据库前面增加防火墙会增加额外的延迟,因此,尽管许多安全侵犯事件是来自于公司内部,但是数据库防火墙还是很少被采用。

如果数据库集群技术是基于中间件技术实现的,就有可能在不增加额外延迟的情况下,在数据经过的路径上实现防火墙功能。

数据库数据集的可扩性只能通过将数据分布到多个独立的物理服务器上来实现。

4主流产品在数据库集群产品方面,其中主要包括基于数据库引擎的集群技术的Oracle RAC、Microsoft MSCS、IBM DB2 UDB、Sybase ASE,以及基于数据库网关(中间件)的集群技术的ICX-UDS等产品。

4.1 Oracle RACOracle RAC 支持Oracle 数据库在集群上运行的所有类型的主流商业应用程序。

这包括流行的封装产品,如SAP、PeopleSoft 和Oracle E-Business Suite 等,以及自主研发的应用程序,其中包括OLTP 和DSS,以及Oracle 有效支持混合OLTP/DSS 环境的独有能力。

Oracle 是唯一提供具备这一功能的开放系统数据库的厂商。

Oracle RAC 运行于集群之上,为Oracle 数据库提供了最高级别的可用性、可伸缩性和低成本计算能力。

如果集群内的一个节点发生故障,Oracle 将可以继续在其余的节点上运行。

如果需要更高的处理能力,新的节点可轻松添加至集群。

为了保持低成本,即使最高端的系统也可以从采用标准化商用组件的小型低成本集群开始逐步构建而成。

Oracle 的主要创新是一项称为高速缓存合并的技术,它最初是针对Oracle9i 真正应用集群开发的。

高速缓存合并使得集群中的节点可以通过高速集群互联高效地同步其内存高速缓存,从而最大限度地低降低磁盘I/O。

高速缓存最重要的优势在于它能够使集群中所有节点的磁盘共享对所有数据的访问。

数据无需在节点间进行分区。

Oracle RAC 支持企业网格。

Oracle RAC 的高速缓存合并技术提供了最高等级的可用性和可伸缩性。

Oracle RAC能显著降低了运营成本,增强了灵活性,从而赋予了系统更卓越的适应性、前瞻性和灵活性。

动态提供节点、存储器、CPU 和内存可以在实现所需服务级别的同时,通过提高的利用率不断降低成本。

Oracle RAC采用了“sharing everything”的实现模式,通过CPU共享和存储设备共享来实现多节点之间的无缝集群,用户提交的每一项任务被自动分配给集群中的多台机器执行,用户不必通过冗余的硬件来满足高可靠性要求。

另一方面,RAC可以实现CPU的共享,即使普通服务器组成的集群也能实现过去只有大型主机才能提供的高性能。

4.2 Microsoft MSCS数年以来,Microsoft一直致力于对自身服务器解决方案的伸缩能力、可用性与可靠性进行扩展。

最初代号为Wolfpack且先后被称为Microsoft集群服务器与Microsoft集群服务的MSCS是Microsoft在NT集群技术领域中的首次重拳出击,它是公认的最佳Microsoft集群解决方案。

在MSCS群集中,MSCS软件最多可以同四台运行在高速网络上的物理计算机建立连接。

通常情况下,群集中的计算机能够按照“活动--活动”方式共享相同的存储子系统与功能,这意味着所有集群计算机(节点)均可主动通过共享负载的方式协同完成工作,并在某个节点出现故障时分担它的工作。

相关主题