信息系统工程 │ 2019.2.20126INFORMATION TECHNOLOGY 信息化建设摘要:大数据带来的海量存储压力在不同场景下催生了不同的分布式存储技术,而现代存储技术正在向分布式、大规模集群化的方向发展。
论文介绍了传统的DAS、NAS和SAN存储架构,并指出各种架构的技术优势与不足。
论文提出了一种新的分布式并行集群存储架构,详细论述了新的分布式存储架构的技术优势;该项技术已用于实际生产中,并取得了令人满意的效果。
关键词:海量数据;分布式存储;存储架构;并行;集群一、 前言高性能存储是海量数据快速运算处理系统的保障。
在高速运算时,系统要保障在短时间内对海量数据进行快速读写,否则将形成致命的“读写瓶颈”问题;其次,海量数据在高速交换过程中,系统要保障海量数据的快速读写,否则同样会形成致命的“读写瓶颈”问题;再者,在大规模集群运算中,跨节点的读写与通讯也是常见的存储“瓶颈”问题之一[1-2]。
分布式集群存储系统所具有的高性能技术指标:大容量,达到PB(1000TB)级要求;数据读写速度快,满足大规模多用户同时访问,达到10GB/秒级或更高的读写速度;稳定性高,满足7×24小时(一周7天,每天24小时)的系统无故障需求;安全可靠性高,后台故障盘恢复速度快,达到20分钟/盘或更快;在线扩容,容量的扩展不影响数据使用;系统操作及管理简单化。
二、传统存储系统架构分析为了达到存储系统的高性能、高指标的要求,存储系统经过了几代产品的更替,其代表产品主要有DAS 架构、NAS 架构、SAN 架构等[3-5]。
(一) DAS 存储架构。
DAS(Direct Attached Storage)即直接附加存储,其存储方式与普通的PC 存储架构一样,外部存储设备都是直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分。
DAS 的存储方式主要适用于小型网络、地理位置分散的网络及特殊应用服务器等环境。
在一些特殊应用服务器上,如微软的集群服务器或某些数据库使用的原始分区,均要求存储设备直接连接到应用服务器上。
DAS 是一种低效率的结构,不方便数据保护。
直连存储无法共享,也就谈不上分配与使用需求之间的平衡。
DAS 结构下的数据保护流程相对复杂,如果做网络备份,那么每台服务器都必须单独进行备份,而且所有的数据流都要通过网络传输;如果不做网络备份,那么就要为每台服务器都配一套备份软件和磁带设备,备份的复杂度增加。
(二)NAS 存储架构。
NAS(Network Attached Storage)即网络附加存储,它全面改进了低效的DAS 存储方式。
采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接存储设备,自身形成一个网络。
这样数据存储就不再海量数据的分布式并行集群存储技术研究与应用 张 俊 马迅飞 张进铎 李华松 向光阳◆ 是服务器的附属,而是独立网络节点,可由所有的网络用户共享(图1)。
NAS 采用一个专门用于存储的简化操作系统,通过NFS(Network File System)或CIFS(Common Internet File System)命令集访问数据,以文件为传输协议,通过TCP/IP 实现网络化存储,实现文件的跨平台共享。
NAS 的可扩展性好、价格便宜、用户易管理,如目前在集群计算中应用较多的NFS 文件系统。
但NAS 的协议开销高、带宽低、延迟大,不利于在高性能集群中应用。
图1 NAS 网络附加存储方式(三) SAN 存储架构。
SAN(Storage Area Network)即存储区域网络。
SAN 通过专用交换网络(一般是光纤交换网),将多个存储设备与多台主机连接在一起,任意一台主机通过该网络可访问其中任意一台存储设备。
SAN 具有高带宽、低延迟的优势。
但SAN 价格高、可扩展性差,不能实现跨平台的数据共享,不能满足越来越庞大的高性能集群系统的需求。
SAN 由三个部分组成:存储设备,包括磁带、磁盘等;光纤通道网络连接部件,包括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI 间的桥接器;应用和管理软件,包括备份软件、存储资源管理软件和存储设备管理软件。
三、分布式并行集群存储 通过分布式操作系统实现集群存储,从硬件到软件都实现了并行化。
其存储架构(硬件)和文件系统(软件)都与传统的DAS、NAS 和SAN 存储架构不同。
整体结构犹如一列“动车组”,存储容量越大、其性能越强。
(一) 分布式并行文件系统。
其中分布式的含义为:文件、数据被切块分散存储到不同存储节点的每一块硬盘上。
信息系统工程 │ 2019.2.20127INFORMATION TECHNOLOGY 信息化建设并行的含义为:文件、数据的读写过程及运算是由多个节点并行完成的。
在写数据时,将数据切成多个小块,然后并行传输到多个存储机群节点的磁盘上;在读取数据时,从多块磁盘上同时读取数据不同部分,然后合成为一个数据,这样做的优势是显而易见的。
首先,突破了单块磁盘的物理读写速度,整个系统的读写速度是多块磁盘的聚合读写速度。
其次,系统使用的磁盘越多、存储性能越强,且容量越大性能越强(图2)。
图2 分布式集群存储系统示意图(二)分布式存储架构。
分布式存储的架构由三个部分组成:客户端(Client)、对象存储服务器(OST)及元数据服务器(MDS)。
三个组成部分除了各自的独特功能外,相互之间共享诸如锁、请求处理、消息传递等模块(图3)。
客户端(Client)通过标准的POSIX 接口向用户提供对文件系统的访问。
同OST 进行文件数据的交互,包括文件数据的读写、对象属性的改变等;同MDS 进行元数据的交互,包括目录管理、命名空间管理等。
对象智能存储服务器(OST)具有一定的智能,有自己的CPU、内存、网络和磁盘系统。
OST 提供数据存储、智能分布、数据管理等三个主要功能。
元数据服务器(MDS)负责向客户端提供文件系统的元数据,管理命名空间,维护目录结构、用户权限,维护数据一致性。
通过MDS 的文件和目录访问管理,客户端对文件和目录的创建、删除、修改等访问控制。
通过MDS 客户端得到数据所在的OST 位置,并与其建立连接,此后的读写操作就在客户端同OST 之间进行。
在多个客户端的情况下,由于有多个OST 存在,上述的工作模式就把对文件系统的访问转换为并行操作,提高系统性能。
可配置两个MDS 服务器,其中一个作为备份,两个服务器采用共享方式存放元数据;当某个MDS 出现故障后,备份服务器接管服务,保证系统的正常运行。
图3 并行集群存储技术的基本架构四、 分布式存储的技术优势(一)保障系统高度稳定。
分离数据和元数据技术,减少元数据操作(文件名的各类操作)与数据读写操作之间的互相干扰,大幅度提高系统的稳定性。
元数据与数据分离后,大量的、频繁的文件目录操作、树组织属性维护、文件操作、日志记录、授权访问等,都是在元数据服务上进行,而这些操作又都是小文件操作,其运行时间短、简单,可大幅度减少对数据服务器的操作与运行,在客观上维护了系统的稳定性。
(二)保障数据高度安全。
数据安全是存储的核心问题。
磁盘的损坏是客观的、必然发生的,但是,如何在不影响整个系统数据使用的条件下,尽快安全恢复故障盘的数据,是整个系统数据安全的核心[6-7]。
数据冗余与恢复不是对存储的数据进行备份及重新加载,而是把数据和相对应的奇偶校验信息存储到不同的各个磁盘上,当一个磁盘数据发生损坏后,可以利用剩下的数据和相应的奇偶校验信息去恢复被损坏的数据(图4)。
实现少量的冗余(如20%),而对整个数据(100%)进行备份。
数据的冗余与恢复过程为:将数据A 分为两部分,一半存储在A1上,一半存储在A2上;计算A1和A2每个位的“异或”结果,并存储在A3上;如果三块盘A1、A2、A3的任何一块盘损坏了,可以通过剩余的两块盘将其损坏的盘恢复出来,实现了50%的磁盘冗余,对100%的数据恢复,但需要运算成本。
系统内置自动故障探测机制,可动态探测故障。
一旦硬件发生故障,可快速启动自动数据恢复流程;在恢复过程中无须人员参与,系统完全自动进行;恢复时将数据生成在其它未发生故障的存储空间上。
与传统的RAID 相比,恢复无须加入新硬盘,因此,对硬盘的检查工作要求降低;恢复工作在后台完成,极大降低对应用服务器的影响;数据恢复速度快,恢复一块盘所花费的时间仅为20分钟。
图4 存储过程中的数据冗余与恢复技术(三)在线扩展与智能平衡。
存储的需求区别于常规耗材的需求,以前用过的磁盘存有数据不能随意更换,还要满足如下要求:与后续增加的存储一起继续使用;在存储扩容时,不能停机,即“在线扩展”;平衡使用各个磁盘,避免“热岛”效应。
解决方案为:完全在线扩展,按需增加存储容量和访问带宽,有效降低初期投入成本;智能平衡,支持存储容量在线扩展,动态添加硬盘、动态添加存储服务器,存储即插即用,扩展效率约 100TB/h,不影响应用的数据访问,帮助用户节信息系统工程 │ 2019.2.20128INFORMATION TECHNOLOGY 信息化建设图3系统流程图三、结语针对共享单车乱停乱放、私藏私占、故意损坏等现象,设计无桩定点停车系统[8-9]。
本文运用单片机、射频读卡器及SIM900A构建停车点定位模块,当装有射频标签的共享单车靠近停车点时,定位模块能自动准确识别车辆是否进入划定的停车区间并将车辆标签和位置信息发给管理系统;用户锁车还车时通过用户APP 将单车标签信息也发给管理系统;若APP 发送的标签在管理系统中查 则不能还车,并重开锁。
实验结果表明,此设计的系统运行稳定,能有效识别共享单车是否停在划定的停车区间内,从而从技术上解决了规范了共享单车的停放。
该技术只是为共享单车的停放提供技术上的解决手段,同时因为采用的无桩模式,能够有效地节约减少用地,节约土地资源,为节约型社会的打造奠定良好的基础。
但是需要注意的是,我们不仅仅是需要依靠技术的手段来改善乱停乱放共享单车的情况,还需要积极地开展宣传教育,提高人民群众的道德素质水平,以此为基础再结合技术手段,相信可以为我们提供一个整洁的城市。
H参考文献[1] 来清民. 射频识别(RFID)与单片机接口应用实例[J].2016,9. [2] 韩晶. 基于RFID 标签的定位原理和技术[J].2011,6.[3] 孟庆斌,韩杰,等. 基于RSSI 测距修正的有源RFID 室内定位系统[J].南开大学学报(自然科学版), vol46(2),2013:37-42.[4] 金卫民,神显豪. 基于RSSI 的室外无线传感网络自定位算法[J].计算机工程,vol34(13),2008,89-9[5]杨子越.基于RFID的共享单车质量管理系统[J].智富时代,2018(07):33. [6] 毛方强, 方勇. 基于RFID 的共享单车精准定位停放系统[J]. 物联网技术,2018,8(03):93-94.[7] 彭秀萍, 黎忠文. 共享单车背后的物联网技术解析[J]. 信息与电脑( 理论版),2017(18):151-153.[8] 高铭阳. 单片机的原理及接口技术[J]. 电子技术与软件工程,2017(04):257.[9] 杨启帆, 赵腊才. 基于AVR 单片机的SPI 接口设计与实现[J]. 电脑知识与技术,2016,12(27):238-240.(基金项目:大学生创新创业训练;项目号:201710066013)(作者单位:天津职业技术师范大学汽车与交通学院) (上接第125页)省投资规模;完全在线更换设备,可实现在线智能老系统升级,通过数据恢复以及负载均衡功能,可实现在线更换存储系统中所有老旧设备,实现“不腾空就能搬家”的存储功能。