当前位置:文档之家› 云存储与云计算及其发展

云存储与云计算及其发展

云存储与云计算及其发展摘要:进入21世纪,人类进入了一个信息爆炸的时代,为了处理过于庞大的数据量,云计算的概念应运而生。

文章第一部分对云计算和云存储的概念进行介绍;第二部分描述云存储在云计算中的作用;第三部分主要分析云存储对于云计算的安全性的影响;第四部分分析云存储与云计算高效性之间的关系;第五部分对云存储的未来进行展望。

现有的研究成果对云、云计算的定义并没有达成共识,目前各大主流厂商的云计算理念也不一样,对云计算的理解不尽相同。

IBM的技术白皮书中的云计算定义:“云计算一词用来同时描述一个系统平台或者一种类型的应用程序。

一个云计算的平台按需进行动态地部署(provision)、配置(configuration)、重新配置(reconfigure)以及取消服务等。

在云计算平台中的服务器可以是物理的服务器或者虚拟的服务器。

高级的计算云通常包含一些其他的计算源,例如存储区域网络(SANS),网络设备,防火墙以及其他安全设备等。

云计算在描述应用方面,它描述了一种可以通过互联网Internet 进行访问的可扩展的应用程序。

“云应用”使用大规模的数据中心以及功能强劲的服务器来运行网络应用程序与网络服务。

任何一个用户可以通过合适的互联网接入设备以及一个标准的浏览器就能够访问一个云计算应用程序。

中国云计算网将云定义为:“云计算是分布式计算(Distributed Computing)、并行计算(Parallel Computing)和网格计算的发展,或者说是这些科学概念的商业实现。

关键词:云计算云存储安全高效一,云计算与云存储云计算是将各种计算资源和商业应用程序以互联网为基础提供给HJ 的计算服务,这些服务将数据的处理过程从个人计算机或服务器转移到互联网的数据心,将IT技术外包给云服务提供商来减少川,硬件、软件和专业。

同云计算的存储即服务(storage —as—a.service)的概念类似,云存储专注于向用户提供以互联网为基础的在线存储服务。

用户无需考虑存储容量、存储设备类型、数据存储位置以及数据的可用性、口J’靠性干fJ安全性等繁琐的底层技术细节,只用根据需要付费,就可以从云存储服务提供商那里获得近乎无限大的存储空间和企业级的服务质量。

从目前典型的云存储系统来看,云存储统由位于互联网上的大量存储资源以及将这些存储资源组织为可供用户透明访问的资源池的一整套资源管理与访问控制技术所组成。

云存储在云计算(Cloud Computing)概念上延伸和发展出来的一个新的概念。

云计算使更大数据量的处理成为可能,被称为下一代的因特网计算和下一代的数据中心。

云计算是是分布式处理(Distributed Computing)、并行处理和网格计算(Grid Computing)的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。

通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大的网络服务。

云存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。

二、云存储在云计算中的作用为保证高可用、高可靠和经济性,云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,即为同一份数据存储多个副本。

另外,云计算系统需要同时满足大量用户的需求,并行地为大量用户提供服务。

因此,云计算的数据存储技术必须具有高吞吐率和高传输率的特点。

云计算的数据存储技术主要有谷歌的非开源的GFS(Google File System)和Hadoop开发团队开发的GFS的开源实现HDFS(Hadoop Distributed File System)。

大部分IT厂商,包括yahoo、Intel的“云”计划采用的都是HDFS的数据存储技术。

未来的发展将集中在超大规模的数据存储、数据加密和安全性保证、以及继续提高I/O速率等方面。

云计算系统主要分为三个部分:云服务(cloud service),云计算(cloud computing),云存储(cloud storage)。

云计算部件主要通过利用节点的计算能力来计算用户提交的数据,最后将满足用户要求的数据返回给客户,同时客户也可能需要将数据存放在云存储部件之上。

云存储是云计算的基石,云计算所需的数据需要从云存储上获取,同时云计算的计算结果也需要存储在云存储之上。

另外云存储还需要为云服务提供数据存储服务,同时云服务中的很大部分需要依靠云计算的计算能力。

三、云存储与云计算的安全(一)云计算的安全性隐患云计算给人们带来了方便,人们可以随时实地通过网络访问自己的数据,避免了传统的工作地点固定的弊端。

但是云计算自身也存在着一定的安全隐患,因为核心是处在一个用户所不知道的位置。

1.数据方的公信力问题云计算模式下,用户需要把自己的业务数据、IT业务流程等核心资源保存在第三方,并且由于虚拟化,用户并不清楚这些资源被实际存储在何处。

这种情况下,需要云服务提供商具备相当的公信力,才可能让用户采用这种模式。

2.数据的访问控制用户的数据存放在第三方,我们不能确定数据的信息会不会被第三方的服务商所利用。

这个时候我们担心的问题就是这些资料是不是只能我们自己使用,而别人没有丝毫的访问权限,这个问题不能单单的依靠服务商的职业道德来保证,下面要讲的密钥手段可以避免此类事件的发生。

3.网络安全性有网络的地方就会有病毒、木马。

如果服务端受到感染,会造成不可估计的损失。

对于这个问题,业界提出的应对之策是,采用云计算技术,对网络中的客户端软件异常行为进行监测,获取恶意程序信息,上传服务器进行自动分析和处理,然后把病毒和木马的解决方案分发到客户端。

(二)云存储的安全性保障1.多副本策略云存储起始于Google发布的Google File System。

Google的分布式文件系统构建在大量的廉价的机器之上,系统需要忍受硬件的失效,所以硬件失效在分布式文件系统中是允许的。

如果某个硬件机器失效,那么存储在该台机器_l卜的数据是无法访川的,为了防止数据的三失和为保证数据安全性,可以采取多副本策略。

每个数据块在整个集群之上有多个备份,备份的数量可以有用户自己决定。

这些备份根据系统的分布情况分布在不同的物理位置,防止一个节点失效导致多个备份无法访问。

2.密钥策略通常的云存储是通过服务的方式由第三方提供给用户使用,用户不知道自己的数据存放在何处,这个时候对数据是否被别人使用就用了一重疑问,为了消除用户方的顾虑,我们可以通过加密的方式来实现。

用户通过一定的加密手段来对数据加密,加密的密钥由用户自身掌控,第三方无法直接访问到用户的数据,访问时用户通过自身的密钥来访问对应的数据块。

3.数据的差异性保存云存储出来之前,用户的数据都是存储在自己的私有服务器中,为了数据的安全性,数据的保密等级是必不可少的。

这种策略可以运用到云存储上面,将关键的数据由用户自己保存,剩下的通用型的数据存放在云上,这样在私有存储和云存储上找到一个折中,可是使安全性和实用性都得到⋯个很好的保证。

首先要加强全社会的宣传教育,对计算机用户不断进行法制教育,包括计算机犯罪法、计算机安全法等,做到知法、懂法,自觉遵守相关法律法规,自觉保护计算机网络安拿。

其次,就是加强对系统管理人员的管理,提高他们的技术水平和职业操守,建立严格的工作制度,最大限度的保证网络的安全运行。

(三)计算机网络安全体系结构的建立应用系统T程的相关观点、方法来分析网络的安会,制定一些可行有效的解决策略,采用合理安全性高的计算机网络体系结构。

在这其中,非常重要有效的一种方法就是进行网络划分。

网络划分对于提高网络安全性具有重大的意义。

根据安全级别的不同,按保密网、内部网和公用网或按专用网和公用网来建设,采用在物理上绝对分开,各自独立运行的体系结构。

由于在物理上进行了隔离处理,可以良好的保证内部网和专用网不被外界破坏,大大提高这些对安全级别要求较高的网络的安全性。

四、云存储的高效性保证云存储中关于数据的操作主要有写数据,读数据,数据同步和负载均衡四个方面:(一)数据的写入在原始的数据写入策略中,用户需要确认写入数据的确切位移,而且对同一个数据的写入而言是串行的,很明显在分布式中这是不合适的,每时每刻系统都面对着巨量的访问,原始的写入策略需要精密的锁控制,严重的影响了系统的性能。

GFS提供了一种原子的数据追加操作一记录追加。

使用记录追加,客户机只需要指定要写入的数据。

GFS保证至少有一次原子的写入操作成功执行(即写入一个顺序的byte 流),写入的数据追加到GFS指定的偏移位置上,之后GFS返回这个偏移量给客户机。

这类似于在Unix操作系统中,对以O APPEND模式打开的文件,多个并发写操作在没有竞态条件时的行为。

这种并行的写入策略极大的提高了系统的性能,在分布式领域中有着广泛的运用。

(二)数据的读取数据的读取形式分为大规模的流式读取和小规模的随机读取。

大规模的流式读取通常一次读取数百KB的数据,更常见的是一次读取1MB甚至更多的数据。

小规模的随机读取通常是在文件某个随机的位置读取几个KB 数据。

如果应用程序对性能非常关注,通常的做法是把小规模的随机读取操作合并排序,之后按顺序批量读取,这样就避免了在文件中前后来回的移动读取位置。

同时在读取数据时如果数据块儿过大还可以通过分块儿的并行数据读取方式来获取数据。

(三)数据的同步数据同步需要主机将数据通过给下面的存储节点,如果只有一个备份,这个方式可以操作,但在分布式系统中,每个文件都存在着多个备份,再按照这个方法来同步的话会极大的消耗主机性能,影响系统的效率。

在GFS中,为了避免出现主机瓶颈,每次数据更新的时候从存储节点中选择一个作为伪主机节点,主机只需要将数据传送给这个节点,然后由这个节点来完成后续的同步工作,它将数据同步到包含此数据的所有存储节点上,成功后这个伪主机将消息返回给主机,完成一次同步操作。

当然在同步的过程中还需要有一些保证机制,在此将不会详细解释。

(四)数据的负载均衡副本的放置需要考虑到下面三个因素:1.在低于平均磁盘利用率的存储服务器上存储新的副本。

2.限制在每个存储服务器上创建副本的总次数。

3.副本在物理上是分散的。

主机会对副本数进行定时的检查,当副本数少于用户定义量时,我们需要为它生成一个新的副本。

副本缺失有多种原因,可能是存储服务器出错,或者副本损坏,也可能是副本的备份因子提高了。

主机服务器周期性地对副本进行重新负载均衡:它检查当前的副本分布情况,然后移动副本以便更好的利用硬盘空间,更有效的进行负载均衡。

相关主题