非结构化数据存储方案
一、存储类型体系:
1.1 存储类型体系结构图
1.2 存储类型体系描述
(1)块存储:将存储区域划分为固定大小的小块,是传统裸存设备的存储空间对外暴露方式。
块存储系统将大量磁盘设备通过SCSI/SAS或FC
SAN与存储服务器连接,服务器直接通过SCSI/SAS或FC协议控制和
访问数据。
主要包括DAS和SAN两种存储方式。
对比如下图:
(2) 分布式文件存储:文件存储以标准文件系统接口形式向应用系统提供
海量非结构化数据存储空间。
分布式文件系统把分布在局域网内各个计算机上的共享文件夹集合成一个虚拟共享文件夹,将整个分布式文件资源以统一的视图呈现给用户。
它对用户和应用程序屏蔽各个节点计算机底层文件系统的差异,提供用户方便的管理资源的手段和统一
的访问接口。
主要包括NAS 和HDFS 两种存储方式。
a) 网络附加存储NAS 结构如图:
b)HDFS分布式文件系统存储结构如图:
(3)对象存储:对象存储为海量非结构化数据提供Key-Value这种通过键-值查找数据文件的存储模式,提供了基于对象的访问接口,有效地合并了NAS和SAN的存储结构优势,通过高层次的抽象具有NAS的跨平台共享数据优点,支持直接访问具有SAN的高性能和交换网络结
构的可伸缩性。
主要包括swift和ceph两种实现形式。
a)Swift,OpenStack Object Storage(Swift)是OpenStack项目的子项目
之一,被称为对象存储。
它构建在比较便宜的标准硬件存储基础设
施之上,无需采用RAID(磁盘冗余阵列),通过在软件层面引入一致性散列技术和数据冗余性,牺牲一定程度的数据一致性来达到高可
用性和可伸缩性,支持多租户模式、容器和对象读写操作,适合解
决非结构化数据存储问题。
b)ceph,Linux下PB级分布式文件系统,可轻松扩展PB容量,提供了
对多种工作负载的高性能和高可靠性。
它大致分为四部分:客户端
(数据用户),元数据服务器(缓存和同步分布式元数据),一个对
象存储集群(包括数据和元数据),以及最后的集群监视器(执行监
视功能)。
c)架构关键技术说明:
➢Proxy Server:是提供Swift API的服务器进程,负责Swift其余组件间的相互通信。
➢Storage Server:提供了磁盘设备上的存储服务。
包含架构图上的Object、Container和Account。
2.2 基于ceph的大数据分布式存储
a)Ceph集群部署架构图。