当前位置:文档之家› 基于集群技术的海量数据存储技术研究

基于集群技术的海量数据存储技术研究

技术创新《微计算机信息》(测控自动化)2010年第26卷第6-1期360元/年邮局订阅号:82-946《现场总线技术应用200例》软件天地文章编号:1008-0570(2010)06-1-0196-03基于集群技术的海量数据存储技术研究Research of massive data storage in cluster technique based(国防科学技术大学)赵瑞峰汤晓安干哲ZHAO Rui-feng TANG Xiao-an GAN Zhe摘要:随着卫星遥感技术的发展,信息存储系统数据规模呈TB 级迅速增长,如何有效存储与管理这些数据已成为亟待解决的问题。

本文根据海量数据特点,引入集群技术,设计了由应用服务器集群、数据库服务器集群和信息存储集群组成的多级集群系统架构,并通过实验验证了集群系统具有可扩展、负载均衡和故障转移等特性,在实现数据存储海量化的同时,提高了系统稳定程度,对信息系统具有重要作用。

关键词:集群技术;海量数据存储;Oracle RAC 中图分类号:TP392文献标识码:AAbstract:As the development of Satellite Remote Sensing technique,the data size of information storage systems is rapid growing by TB-level,how to effectively store and manage them has become a serious problem.According to the characteristics of mass data,this paper introduces the clustering technology,and designs a multi-level cluster system architecture,that composed by application server clusters,database server cluster and information storage cluster.Then do a verification experiment of the cluster system has the scala -bility,load balancing and failover features,at same time of achieving massive storage,this will improve the stability and play an im -portant role in the information systems.Key words:cluster technique;massive data store;Oracle RAC1引言随着卫星遥感技术的发展,战场监测手段日趋多样,未来的信息系统应当能够实时地将各种复杂的战场态势信息以图形图像的形式直观地表现出来,这些态势信息不仅包括大量的遥感影像数据,还包括军事目标、军事行动、友军、敌军、中立部队、设施的位置、进展、状态和分布等数据,这些数据统称为战场环境信息。

战场环境信息具有容量巨大、来源多样、更新频繁等特点,如何有效的存储与管理这些数据,使其满足作战应用高可用可靠的要求,是推进信息化建设的重要技术保障。

在海量数据存储方案上,网络存储已成为共识,当前常见的网络存储方案有网络附属存储(network attached storage,NAS)和存储区域网络(storage area network,SAN)。

美军在网络存储研究上走在各国前列,比较典型的应用有美国海军奈普逊(Naptheon)SAN 系统,美国陆军任职指挥部(The U.S.Army Accessions Com -mand)SAN 系统,以及美国空军战斗气候学中心(The Air ForceCombat Climatology Center)NAS 存储系统。

而我国在网络存储领域起步较晚,军事领域的应用更为鲜见。

从国外发展来看,网络存储系统复杂研发周期长,且存储设备一次性投资高,随着软硬件技术的快速发展,原有设备被迅速升级换代,难以满足新的应用需求。

本文将集群技术引入海量数据存储,该技术是通过高速网络互联并以单一系统模式加以管理的计算机组合,集群具有良好的可扩展性、高度的可用性、负载平衡性和并行运算高效性等特点,文中设计了多级集群系统架构,并通过实验验证了集群系统的各项特性。

2集群技术集群技术是目前计算机系统设计中最热门的技术之一。

简单来说,集群即松散耦合的一组计算机,其中每一台计算机称为集群中的一个节点(Node),这些节点通过高速网络连接起来,统一作为计算机资源工作,对外部世界形成一个透明的系统映像。

理想状态下,用户几乎完全感觉不到集群系统底层的节点,在他们看来,集群是一个系统,而非多个计算机。

集群系统中的两个或多个节点通过相应的硬件及软件实现互连,每个节点都是运行自身进程的独立服务器。

这些进程间可以彼此通信,对客户机来说就形成了单一向用户提供应用程序、系统资源和数据的协同系统。

除此之外,集群系统还可以采用向集群中增加服务器的方式,增强整体处理能力,同时集群系统还具有故障转移的能力,通过系统冗余提供集群固有的可用性和可靠性。

集群存储是集群技术的另一广泛应用领域,集群存储系统是高速互联的一组存储节点,与分布式存储一样,系统将数据分散地存储在多台独立的设备上,而且集群中的设备既可以独立运作,相互之间又可以合作,每个存储节点不仅可以访问本节点的存储空间,还可以访问其他节点的存储空间,所有节点的空间以一个虚拟磁盘的方式提供给客户端用户。

集群存储具有容量可扩展性、性能稳定性及系统可管理性的优势,使其非常适合那些持续增长存储规模的不同环境,实现即时供应(Just-in-time)存储,避免破坏性升级和增加管理的复杂性。

使用集群存储解决方案可以获得可扩展性和高可用可靠性,系统易于维护,具有非常高的整合带宽等优点。

集群存储最典型的应用是Google 体系结构,它是大量计算机内置硬盘的组合,含899个机架(每架80台PC,每台PC 有2个硬盘),共79,112台PC 机,有158,224个硬盘,总容量为6180TB 。

赵瑞峰:硕士研究生基金项目:基金申请人:汤晓安;基金颁发部门:国防科工委(项目名称和编号不公开)196--邮局订阅号:82-946360元/年技术创新软件天地《PLC 技术应用200例》您的论文得到两院院士关注3多级集群系统架构战场环境信息复杂多样,数据来源广泛更新频繁,数据量巨大,特别是遥感影像数据呈海量规模,同时对数据稳定性和系统可用性要求极高。

集群技术非常适合海量数据存储系统,综合运用服务集群和存储集群可提高系统整体可扩展性和可用可靠性,这在复杂多变的系统应用中极为重要,多级集群系统架构如图1所示。

图1多级集群系统架构图3.1应用服务器集群战场信息系统是未来信息战的核心,要求服务器能够高效可靠地并发处理各个用户的请求,保证畅通的通信访问,在应用服务器中引入集群,支持单点登录、集群管理,在集群中设置主控服务节点进行负载均衡和故障转移,使各用户的请求均衡分配至应用服务器,并通过应答轮询检测故障服务器,实现服务高可用可靠性。

国内外很多学者对动态负载均衡算法作了深入研究,常见的负载平衡算法有轮转调度法、加权轮转调度法、最少连接调度法、加权最少连接调度法等等。

集群中每台服务器均提供一致的功能,整体向外提供透明的服务,用户不需要关心究竟连接到了哪一台应用服务器。

3.2数据库服务器集群数据库服务器是数据存储的核心,对于海量数据存储,如何迅速便捷地查询与管理数据,并在网络有限带宽下实现数据的高效传输,以及保证服务的高可用可靠性是数据库服务器面临的主要问题。

Oracle 的真正应用集群(Real Application Clusters,RAC)提供了数据库并行服务技术,将数据库服务与数据存储相互独立,实现了服务应用集群。

RAC 支持多进程并行访问,提供透明的应用可伸缩性,且能够提供系统均衡负载和故障转移功能。

RAC 应用了高速共享缓存融合(Cache Fusion)技术,集群节点通过私有网络实现内联心跳,各节点通过共享缓存能够迅速有效地在集群各服务器上共享被频繁访问的数据,减少磁盘I/O 操作。

以此设计的数据库服务器集群结构见图2。

3.3信息存储集群战场环境信息具有数据容量巨大,增长迅速的特点,单一设备难以满足其存储容量要求,并且随着数据时空综合特性需要的提出,存储容量需求将迅速增大,要求存储环境具有良好的可扩展性,集群存储正适合这种应用。

集群存储是网络存储方案之一,构成它的可以是网络附属存储或存储区域网络。

NAS 是用一个装有优化的文件系统和瘦操作系统的专用数据存储服务器,采用NFS (Network File Sys -tem)协议、CIFS(Common Internet File System)协议提供跨平台的文件共享功能。

SAN 是通过专用高速网将一个或多个网络存储设备(如磁盘阵列RAID)和服务器连接起来的专用存储系统。

SAN 以数据存储为中心,采用可伸缩的网络拓扑结构,提供SAN 内部任意节点之间多路可选择的数据交换,并且将数据存储管理集中在相对独立的存储区域网内,实现最大限度的数据共享和数据优化管理,以及系统的无缝扩充。

从实现上来看,对比价格昂贵的光纤通道(Fiber Channel,FC),以IP 网络实现的SAN 更具潜力。

NAS 或SAN 提供了数据存储的不同形式,且两者间界线越来越模糊,而集群存储更偏重于提高并行及整体性能,它们间并不属于从属关系,而是实现不同存储需求的解决方案。

'图2数据库服务器集群结构图4系统实验4.1实验系统组成结合前文系统架构,本文以某战场信息系统为背景,采用Oracle 集群技术和空间数据库引擎(Spatial Database Engine,SDE),设计了基于集群技术的信息储存实验系统。

其中,数据库服务器集群由三台PC 计算机组成,初始连接两台,测试集群扩展性时接入第三台,PC 机使用单CPU,操作系统为Windows 2003Serve,主频2.4GHz,内存512M,配有双网卡及SCSI 接口卡;信息存储集群由两块8.0GB 的SCSI 磁盘组成。

实验系统结构如图3所示。

图3实验系统结构图4.2数据存储结构实验系统存储了大量遥感影像数据、DEM 数据及其他数据,系统采用美国地理信息研究机构ESRI 推出的ArcSDE 空间数据库模型,并将其存于Oracle 数据库中。

相关主题