1 非结构化数据存储需求
1.1 非结构化数据
我们通常把那些不方便用数据库二维逻辑表来表现的数据,称为非结构化数据,也习惯称其为内容信息。
随着企业业务的飞速发展和企业信息化建设的步伐,特别是随着网络应用的丰富和发展,各行各业都积累了大量的信息资源,其中大部分都是内容信息。
研究部门调查发现,在当前企业存储的大量数据中,传统关系数据库管理系统(RDBMS)处理的结构化数据仅占数据信息总量的20%,而全球80%的信息是非结构化的,包括:纸质文件和报告、电子影像、视频和音频文件、传真件、信件、电子邮件等。
1.2 内容管理系统
内容管理系统就是针对企业非结构化数据的管理而设计的,帮助企业解决在内容信息的管理和使用过程中的一系列问题。
1.2.1 数据存储要求
内容管理系统对数据存储特别是影像数据的存储有如下要求:
海量可扩充的存储设备
由于系统影像数据会随着业务量的增长而迅速增长,所以需要一个具有在线扩容能力,并在扩容时不会影响整个存储系统性能的高效存储。
高读写性能
由于影像文件的存储容量都很大,所以数据存储需要有良好的读写性能。
备份和恢复能力
存储设备要支持在海量情况下高速的在线备份和恢复解决方案。
满足法规遵从
要求采一次写多次读技术(不能修改、删除,只能查看),保证数据的真实性、完整性,满足内部审计要求。
数据完整性与自动修复
希望存储内部提供对于数据进行检测完整性并自动修复的功能,避免出现影像打开后出现色差,黑线,黑块等影响影像质量的问题。
消除重复存储
对于相同的图片如果有多次存储的话只希望在后台保留一份,对于前端应用完全透明,节省了存储空间。
存储的高可用性和性价比
需要存储支持高可用性方案,比如双机热备,在线容灾等,在确保安全性的情况下希望有一个比较好的价格。
方便的部署
部署的设备需要充分利用现有网络和服务器资源,对于业务不中断的部署与升级。
设备管理
随着数据量的增长,设备的不断扩容,设备节点会越来越多,所以希望所购买的存储是一个智能的可自动报警的设备。
2 CAS存储架构
内容寻址存储(Content Addressed Storage,CAS)是由美国EMC公司2002年4月率先提出的针对固定内容存储需求,专为非结构化数据存储而设计的先进网络存储技术(固定内容是指一旦生成就不再发生改变的信息,比如:视频、扫描影像、电子邮件、银行票据等,企业内容管理系统所要管理的资料影像,就属于是固定内容数据)。
CAS具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性。
2.1 CAS的特点
2.1.1 不需要记住文件路径
CAS和SAN、NAS在技术层面有一个最大的区别。
SAN、NAS在存储文件的时候是按照地址存放文件,用户找文件的时候一定要知道它放在哪个磁盘分区的哪个目录里,否则就要搜索。
而CAS没有分区、没有目录,用户不需要记住文件路径,只需要把数据交给CAS,CAS给用户一个数字指纹,相当于公民身份证,靠一串数字和字母组合的数字指纹来识别用户存储的数据。
当用户需要找这个数据的时候,要提交数字指纹来获取数据,所以它的技术和传统的SAN、NAS是完全不同的。
2.1.2 免维护
由于CAS存储数据方式的不同,导致与NAS、SAN最大的不同点就是CAS的免维护性。
这种免维护性,一方面减少了维护系统的人工成本开销,在NAS和SAN的情况下,
一个管理员最多只能管理十几个TB的数据,而在CAS的情况下,一个管理员则能够轻松
管理500TB的数据。
另一方面,免维护性也增加了数据的安全性和可靠性,例如,在NAS 和SAN中,管理员可能在维护过程中意外甚至有意地删除、修改数据,在CAS中,数据
的修改是无法实现的,系统会根据最初数据存储的情况自动修复。
2.1.3 助SAN瘦身
此外,当用户的数据量越来越大的时候,其数据就一定要放在CAS,因为当用户的数
据从1TB扩展到50TB的时候,SAN的性能会急剧下降,所以必须把固定内容数据、长期的具有历史保存价值的数据剥离出来,使SAN"瘦身",让SAN的性能重新回到高效,使现有的存储达到更好的优化,NAS也是一样。
2.2 CAS的优势
2.2.1 合理的存储架构
提高整体系统性能。
由于大部分数据归档到CAS上,因此核心系统保存的数据就少了,系统资源的占用也就少了,系统的整体性能自然也就提高了。
改善数据的可用性。
数据归档到CAS设备上,这样就无需反复保存,减少了存储的时间,同时提高了在线数据的可用性,使磁盘的可用空间维持在较高的水平上。
2.2.2 降低存储管理开销
易于管理CAS大大简化了存储数TB内容的系统规划和管理,用户无需选择RAID类型,合并LUN或创建文件系统,应用程序无需管理传统存储拓扑的复杂性。
无需重新配置的可扩展性CAS的优秀功能提供了自我配置、自我管理和自我修复能力,这些特性再结合CAS的RAIN架构,有助于硬件的扩展,而且在扩充容量时不会带来中断。
CAS可自动进行存储管理,从而降低总体拥有成本,提高投资回报率。
2.2.3 保障数据安全可靠
数据的安全性、完整性、正确性直接影响档案服务质量,因此存储系统需要具有很强的数据安全性,必须能够采用一些高级的数据存储保护技术。
CAS系统设备全部为冗余设计, 没有单点故障。
为了确保内容的完整可靠,CAS为每个存储对象指定一个惟一的内容地址。
这个地址是由内容本身衍生而来的,同一内容绝不会重复保存。
数据全部采用镜像或奇偶效验方式存储, 即使发生磁盘及某个存储部件损坏的情况,也不会出现数据丢失,而且CAS 具有自我治愈功能,因此对服务的要求也大大降低。
2.2.4 快速的在线访问
CAS中的所有数据永远在线,无论数据保存多久,数据都可以在几秒钟内被访问到,响应时间可以得到充分保证。
但是,一旦数据被保存在磁带或光盘上成为离线数据,访问时间几乎不可能保证在5分钟内。
试想,一个历史数据在保存了3年甚至更长时间后需要被提取时,需要在大堆的介质中找出所需要的磁带或光盘,访问时间确实难以保证。
而对于CAS来说,根本不存在这些问题,CAS存储系统可以保证数据在几秒钟内被提取到。
2.2.5 降低总体拥有成本
CAS方案使用户可以规划业务系统的全在线存储模式,真正实现所有归档数据全部处于在线状态,为系统的快速响应能力提供完全保障。
由于磁盘阵列成本的主要部分是硬盘,而硬盘单位存储容量的价格通常会呈明显下跌的趋势,逐年扩展CAS容量可以作为用户控制存储投资的首选方式。
采用CAS方案,可以省去传统归档存储方案中昂贵的光盘库或磁带库的长期投资,使系统整体投资水平和执行效率都可同时获得优化。
2.3 存储设备比较
Cas是应对现在非结构化数据和固定数据飞速发展的存储,各种存储都有其针对的应用环境和文件类型,以下就是CAS、NAS、SAN三种存储架构在各方面的比较:
2.4 存储架构分析
基于上述分析,可见CAS是最佳的非结构化数据归档存储方案,但CAS不会代替SAN、NAS,它的出现是对SAN和NAS的补充,CAS和SAN、NAS是存储架构上的三驾马车,并驾齐驱。
在设计一个企业级数据中心的时候,唯有从SAN、NAS和CAS三方面来考虑存储,才能从长远的角度来给客户提供一个完整的、合理的存储架构,企业最好的存储系统是SAN,NAS和CAS针对应用和存储文件类型共同合作布置。