当前位置:文档之家› 高效数据存储技术和管理策略思考

高效数据存储技术和管理策略思考

高效数据存储技术和管理策略思考1) 快照SNIA(存储网络行业协会)对快照(Snapshot)的定义是:关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。

快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品。

快照的作用主要是能够进行在线数据备份与恢复;快照有主要有两种技术,一种是第一次写时复制(Copy OnFirst Write,COFW),有时简称为写时复制(CopyOn Write,COW)。

即在数据第一次写入到某个存储位置时,首先将原有的内容读取出来,写到另一位置处(为快照保留的存储空间,此文中我们称为快照空间),然后再将数据写入到存储设备中。

而下次针对这一位置的写操作将不再执行写时复制操作。

另一种技术是 I/O 重定向(I/O Redirect)。

即将读写操作重新定向到另一个存储空间中。

在一个快照生成期间,所有的写操作将被重定向到另一个介质,而读操作是否需要读重定向,则需要根据读取的位置是否有过自上次快照以来的写重定向,必须对有过写重定向的位置进行读重定向,否则不需要进行读定向。

当要创建一个快照时,则将自上次快照以来所有的重定向写数据所对应在源介质中的数据复制出来生成这个时间点的快照,然后再将这些重定向写数据写回到源介质中的相应位置上,从而完成一个快照生成过程。

我们所开发的vbs-target 是基于数据重定向机制实现的。

2) LUN拷贝就是将源LUN的数据拷贝到目标LUN。

LUN拷贝支持全量和增量2种类型的数据拷贝。

1,全量拷贝:2,增量拷贝:3) 自动精简配置自动精简配置(Thin Provisioning)的概念最早由3PAR公司提出,是一种全新的存储空间管理技术,利用虚拟化方法减少物理存储部署,可最大限度提升存储空间利用率。

它的核心原理是“欺骗”操作系统,让其认为存储系统中有很大的存储空间,而实际上的物理存储空间并没有那么大。

自动精简配置减少已分配但未使用的存储容量的浪费,根据用户的实际所需自动分配和利用存储资源。

传统的存储系统中,为确保存储容量足够使用,用户往往会部署多于实际需求的充足物理存储空间。

但在实际使用过程中,部署容量通常未受到充分利用。

行业研究组织发现在某些项目中,实际使用容量仅占部署容量的20%—30%。

因此,“自动精简配置”技术应运而生,旨在实现更高的存储容量利用率,并带来更大的投资回报。

自动精简配置不会一次性的划分过大的空间给某项应用,而是根据该项应用实际所需要的容量,多次的少量的分配给应用程序,当该项应用所产生的数据增长,分配的容量空间已不够的时候,系统会再次从后端存储池中补充分配一部分存储空间。

自动精简配置技术扩展了存储管理功能,虽然实际分配的物理容量小,但可以为操作系统提供超大容量的虚拟存储空间。

随着应用写入的数据越来越多,实际存储空间也可以及时扩展,而无须手动扩展。

换句话说,自动精简配置提供的是“运行时空间”,可以显著减少已分配但是未使用的存储空间。

利用自动精简配置技术,能够帮助用户在不降低性能的情况下,大幅提高存储空间利用效率,降低初始投资成本;需求变化时,无需更改存储容量设置;通过虚拟化技术集成存储,降低运营成本;减少超量配置,降低总功耗。

毫无疑问,自动精简配置技术是一项非常有效的存储管理工具,但在实际应用过程中也会产生一些问题,需要根据所处的数据环境和存储需求来权衡。

首先,当预先分配的存储空间不够时,系统会从存储资源池中补充存储空间。

然而,如果已经分配的空间不再使用而空闲下来,空间回收相对困难,现在的产品支持较少。

可见这种技术呈现只增不减的态势,弹性不足。

其次,当存储空间超过预先设置的阈值,系统会触发存储空间分配。

对于高负载的数据应用来说,面对突发的访问峰值,有可能在配置更多的物理存储空间之前系统就变得过载,导致磁盘和应用程序错误使得整个系统运行极其缓慢。

再者,为了维持精简配置环境增加了存储系统复杂性,如果一旦发生故障,系统恢复可能比传统的存储系统更加缓慢。

华赛精简配置基本原则:写多少用多少,即对没有写过的空间是不分配的,那么一个写操作如果对应的是没有写过的空间则会触发写前空间分配;如图所示:读操作:先查映射表,已分配空间的定向到对应空间读,未分配空间的返回一个全0值;写操作: 先查映射表,已分配空间的定向到对应空间写,未分配空间的先分配,再定向到对应的空间写;4) 链接克隆什么是存储链接克隆?在有些存储应用场景下,大量用户的原始卷初始数据一致。

如果在每个卷创建的时候,对其进行原始数据导入,可能会引起严重的性能问题。

如办公虚拟机,基本上每个虚拟机的系统卷原始数据都是一致的,如果对每个用户在创建虚拟机时,进行系统镜像的拷贝,不仅会影响创建虚拟机的时间,而且会对其所在的NC节点的性能有严重的影响。

链路克隆就是用来解决这个问题的。

存储链接克隆也可以节省大量的存储空间,多个用户卷共享同一个卷的原始数据;5)存储链接克隆实现原理链接克隆实现主要思想:如果有多个卷的原始数据一致,首先建立一个基本的卷,卷中为原始的数据,之后更改基本卷为只读卷,卷中数据不在变更。

然后给每个用户再分配一个卷,并与基本卷相关联起来。

建立链路克隆关系,在这种关系下,初始时,通过用户卷看到的是原始数据。

之后,如有写操作,将数据写入用户卷中,如果读时,优先从用户卷中读取数据,如果相应的数据块在用户卷中没有改动,则从基本卷中读取数据。

链接克隆图示基准卷:基准卷:由本地磁盘或远端虚拟磁盘提供。

也可以以内存盘的方式提供(性能比较好,但占用内存)。

每个虚拟卷共享的数据。

多个虚拟卷使用同一个基准卷。

可变卷:每个虚拟卷自己独有的数据。

每个虚拟卷都有一个可变卷。

当用户在虚拟卷上进行读操作时,根据标识,从基准卷中或者从可变卷中读取数据。

当用户在虚拟卷上进行写操作时,向自己的可变卷中写入数据。

6) 多路径多路径特性可以实现应用服务器和存储系统之间的路径选择,高可用性系统中很重要的一项技术。

它包含以下基本概念:•Failover即故障切换。

为保障数据传输的高可靠性,应用服务器与存储系统之间可以连接多条路径。

当有业务的路径出现故障后,多路径所提供的Failover功能能够自动将业务切换到其他正常冗余路径上,避免了因单点故障而造成的业务中断。

•Failback即故障恢复。

发生故障切换后,故障路径的故障得到解除或者修复后,即此路径能够重新正常传输I/O流时,多路径所提供的Failback功能会自动地将I/O传输路径切换回已恢复的路径。

•I/O负载均衡I/O负载均衡的主要作用是分担网络流量和扩展带宽,实现由多条路径承载到达同一个目的地的I/O流量。

当从应用服务器连接到存储系统中的同一控制器的路径有两条或两条以上时,多路径会在此控制器的多条可达路径上轮流发送I/O数据包,以实现负载均衡。

多路径特性应用于应用服务器和存储系统构成的组网环境中,不仅能够提高数据传输的可靠性,保障应用服务器与存储系统之间的路径安全,还提供应用服务器访问存储系统的多路径解决方案,从而提高企业数据存储的安全性、可靠性和可维护性。

7) cachecache是存储非常重要的技术,性能的好坏跟cache机制有很大关联。

Memcached 缓存机制在大型系统中应用很广的开源软件。

8) SmartCacheSmartCache是一种使用SSD盘作为缓存资源的缓存技术。

它可以将热点数据拷贝到SSD盘上以提高系统读性能。

当LUN的SmartCache功能启用时,热点数据会储存在资源池中。

主机从由SSD盘构成的SmartCache池中获取数据,从而提高了系统的整体性能9) 条带化是把连续的数据分割成相同大小的数据块,把每段数据分别写入到阵列中不同磁盘上的方法。

此技术非常有用,它比单个磁盘所能提供的读写速度要快的多,当数据从第一个磁盘上传输完后,第二个磁盘就能确定下一段数据。

数据条带化正在一些现代数据库和某些RAID硬件设备中得到广泛应用10) 分级存储数据分级存储,是指数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁带库)中,通过分级存储管理软件实现数据客体在存储设备之间的自动迁移。

数据迁移的规则是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。

在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。

数据分级存储的工作原理是基于数据访问的局部性。

通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。

数据有生命周期,从创建到删除的时间内,信息的商业价值和访问频度不断降低。

存储设备有高低贵贱之分,性能好、可靠性高、读写速度快的设备,自然价格就高;而性能较低、读写速度慢的设备,价格也就相对低廉。

“分层”是指,对数据的访问需求增加或减少时,将数据在不同类型的存储介质之间迁移,即把那些不常被访问的数据或过时的数据转移到速度较慢、成本较低的存储介质上,如SATA 磁盘或磁带,以此来降低硬件成本;而把那些经常被访问或重要的数据放在速度较快、成本较高的光纤磁盘甚至固态硬盘(SSD)上,以此来提升性能。

自动分层存储就是要让数据和设备“门当户对”,不仅可以降低存储容量成本和管理成本,同时还维持适当的性能水平。

分层存储的概念已经出现已久,并且这一概念被EMC、STK等厂商升华为信息生命周期管理(ILM)。

不过,这一数据管理的理想因为操作复杂、成本较高,实现起来却不那么理想,ILM叫好而不叫座。

以往,数据的分层存储依靠存储管理员的手工操作。

如今,这一过程实现了自动化,智能软件可以自动将数据转移到最经济高效的存储介质上。

SSD的出现使自动分层技术显得更加有必要,它能使一个两层甚至三层的存储系统享有SSD级的性能,同时,反过来又促进了SSD的应用。

随着自动化数据分层技术不断成熟,它也许有助于促进SSD的采用,因为它可以帮助管理员将分层技术调整到足够优化的地步,从而确保能够从性能最高但成本也最高的存储介质中获得最大效益。

目前提供ATS存储产品的厂商主要有3PAR、DELL、Compellent、EMC、IBM,它们都是自动实现对热点数据的甄别和迁移,但彼此之间其实还是存在较大的差别。

第一大区别体现在热点数据的甄别方式上。

一种是基于策略的方式,如EMC的FAST2;一种是支持全自动方式,用户不需要制定任何策略,如IBM的Easy Tier、Compellent的Data Progression、DELL的EqualLogic 5。

0。

另一大区别体现在被迁移数据的粒度方面,分为卷级、子卷级、文件级和数据块级。

相关主题