当前位置:文档之家› 海量数据存储方式概述

海量数据存储方式概述

计算机科学与技术学院09级11班薛守来53091104
海量数据存储方式概述
随着信息技术的飞速发展,数据爆炸已成为一个突出问题,海量数据存储和管理技术已经是近几年的研究热点之一。

传统的数据存储与管理方式已经很难满足海量数据存储在在容量、性能、存储效率和安全性等方面的要求。

而且大部分数据采集系统,比如雷达回波信号数据采集、数字视频信号处理及高码率卫星数据信号的采集等,都要求对数据进行实时的传输与存储,这就对数据采集存储系统的采集速率、传输速度、存储速度、存储容量以及数据存储的可靠性等方面提出了更高的要求。

因此,对高速海量数据存储技术的研究就越发显得重要。

近年来,海量数据存储技术发展迅速,各种各样的存储系统不断涌现。

下面就从存储介质、存储模式两个方面对海量数据存储技术进行简要的介绍。

海量存储介质主要有磁带、光盘、硬盘三大类,并在这三种储介质的基础上分别构成了磁带机、光盘库、磁盘阵列三种主要的存储设备。

此外,固态存储和全息存储是未来高速海量数据存储的重要发展趋势。

磁带机以其廉价的优势应用普遍,光盘库适用于保存多媒体数据和用于联机检索,应用也越来越广泛,磁盘阵列由于能够提供较高的存取速度和数据可靠性而成为实现高速海量数据存储的主要方式。

从数据存储的模式来看,海量存储技术可以分为DAS(Direct Attached Storage,直接附加存储)和网络存储两种,其中网络存储又可以分为NAS(Network Attached storage,网络附加存储)和SAN(Storage Area Net、Work,存储区域网络)。

(1)DAS采用的方式是外部数据存储设备直接挂接在服务器内部总线上(这样I/O会占用系统带宽),存储设备是服务器结构的一部分,这种方案是传统的存储方式,主要在个人计算机和小型服务器上使用,只能满足数据存储量较低的应用,不直接支持多机共享存储。

DAS与NAS最大的不同便是,DAS通过服务器与网络连接,NAS直接与网络连
接。

磁带机与磁盘阵列系统就是典型的DAS设备。

(2)NAS实际上是一个网络的附加存储设备,它通过集线器或交换机直接连接在网络上,通过TCP/IP协议进行通信,面向消息传递,以文件的方式进行数
据的传输。

NAS系统由两个突出的特点,其一是,物理连接上将存储器直接连到网络上,然后再挂存服务器后端,避免了给服务器增加I/O负载;其二是,技术上通过专用软件减少磁头臂机械移动的次数,克服由此造成的延时。

但从NAS的构成看,其路径在本质上仍然是传统的服务器存储设备I/O方式。

(3)SAN是以数据存储为中心,采用可伸缩的网络拓扑结构,通过具有高速光纤通道的直接连接方式,提供SAN内部任意节点之间的多路可选择的数据交换,并将数据存储管理集中在相对独立的存储区域网内,实现最大限度的数据共享和数据优化管理,以及系统的无缝扩充。

从数据存储系统的组成上看,无论是DAS、NAS还是SAN,其存储系统都可以分为三个部分:首先是磁盘阵列,它是存储系统的基础,是完成数据存储的基本保证;其次是连接和网络子系统,通过它们实现了一个或多个磁盘阵列与服务器之间的连接;最后是存储管理软件,在系统和应用级上,实现多个服务器共享、防灾等存储管理任务。

在对海量存储的研究中,下面几个方面是目前研究的重点:一是分布式存储与P2P存储,利用对等网络实现数据存储,其目标是提供高效率的、鲁棒的和负载平衡的文件存取功能;二是智能存储系统,要求存储系统具备可用性、可维护性和自进化性,能够提供主动信息采集、主动信息分析以及主动调整等功能,目标是满足服务质量QoS要求,尽量减少入工参与以及系统性能的自动提高;要是系统容灾机制,即建立异地存储系统,该系统是本地存储系统的可用副本,目的是最大限度的保障存储安全;四是数据网格,剩用网格中所有节点的能力,为网格环境中的数据文件提供高速、可靠的存储管理服务。

网格是把整个因特网整合成一台臣大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。

当然,网格的根本特征是资源共享而不是它的规模,也可以构造地区性的网格,如企事业单位内部网格、局域网网格、甚至家庭网格和个人网格,透明而且高效率地提供各种服务。

网格技术的研究目标是要实现网络虚拟环境下高性能资源的共享和协同工作,解决各种分散的资源的一致使用问题。

科学计算及商业应用领域的数据呈现爆炸式增长,科学计算和商业应用越来越趋向于以计算为中心的模式,网格技术的发展为收集、组织、存储、分析、可视亿和分发大容量数据对象提供了新的实
现方法。

而网格上的大量数据有必要使用数据库系统来管理,原因是许多网格应用要用到结构化的数据,并且网格本身也需要用结构化的数据来实现其运行和管理。

因此,在利用数据网格解决海量数据存储问题时,有必要使用数据库对数据进行管理。

这就面临着如何把数据库技术应用到网格中的问题。

目前有许多有关如何将数据库技术和数据网格技术结合起来的研究,主要有两个方向:一是网格数据库方向,即如何在网格中集成数据库系统,也就是考虑将数据库管理系统纳入到网格体系中,建立网格环境来共享数据库中的资源;另一个是数据库网格方向,即如何把数据库技术应用在网格中,也就是考虑如何在网格中使用数据库发展所积累的技术,从而构建功能更加强大的网格环境。

这两个方向在网格数据库的研究方面是相辅相成的,网格数据库强调的是数据库在数据网格环境下的应用,其主要研究内容是如何将分布异构的数据库有效的集成到网格环境中,从而实现海量数据在网格环境下的高性能存储,并基于中间件技术为用户提供更好的服务。

一方面使用数据网格技术,能够满足数据存储与处理在容量、性能、存储效率和安全性等方面的要求;另一方面使用数据库技术,对数据进行结构化管理,为上述问题提供了一个较好的解决方案。

网格数据库已成为解决海量数据存储、访问与管理的一种重要途径。

网格的主要特点有共享性、分布性、自相似性、动态性、多样性、自治性以及管理的多重性。

数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展的框架结构,实现了安全、可靠和有效的网格环境中的数据传输以及访问、复制等操作。

它适应数据密集型应用对网格环境下数据共享和处理的需要,为用户提供了透明访闯远程异构数据资源的枫制。

数据网格为解决巨大的数据量存储问题提供了新的方法,例如,利用数据网格可以将欧洲空间局地面站的数据分散到整个欧洲范围进行保存,充分利用存储资源。

数据网格还提供了灵活的、基于分层的一组接口模型,使得多个实现可以共存,而每个接网的实现集中于不同的特性如性能和可维持性。

数据网格的各组件具有良好的定义并且是松耦合的,因此不同的组织能够把他们自己的某个实现及时而又容易的插入其中,从而使得数据密集型的高性能计算和大量的共享数据密集型的事务处理及科学研究成为可能。

它在电子商务、数据仓库和数据挖掘、高能物理、生物信息科学等科学工程领域发挥着越来越重要的作用。

数据网格主要提供存储系统及数据管理两大功能。

存储系统的功能主要是为存储在存储系统上的数据提供一个基本的访问和管理机制,提供给用户一个统一的数据建立、删除、访问以及修改等操作的抽象,因此用户不必关心存储介质的异构性和它们的物理位置,从而实现海量数据的存储;而数据管理是对所存储的数据进行管理,包括数据的传送、访问和复制等操作,侧重点为数据管理,提供与数据资源有关的各种服务。

目前海量数据存储技术正在向商业应用领域推广,如商业数据分析、企业信息、人事档案管理、电子商务、电子政务等应用需要处理的数据量也非常巨大,这些应用在细节与侧重点上与科学应用又有所差别,如何针对商业及政府应用领域推广和探究海量信息存储技术,有效进行海量信息集成与管理,在动态变化的环境中灵活实现数据资源的共享是海量数据存储研究面临的机遇和挑战。

相关主题