当前位置:
文档之家› 华为分布式存储技术与应用实践
华为分布式存储技术与应用实践
Server Server Server
资源池1
资源池2
Volume1
Volume2
Volume3
Volume10
Volume12
P1
P2
资源池1
P3 P1 P6
P2
资源池2
P3
…
P4
P5
资源池1
资源池1
P7
P8
P9
Disk
Disk
Disk
Disk
Disk
Disk
资源池: 类似于SAN的RAID组概念,与RAID相比,其优点是:
备份
存储服务层:提供各种存储高级特性,如快照、 链接克隆、精简配置、分布式cache、容灾备 份等
存储 管理
存储 服务层
存储引擎层: FusionStorage存储基本功能,包括MDC总控
存储 引擎层
MDC状态控制 DHT数据分布
强一致性复制协议
并行数据重建
集群故 障自愈
集群、DHT数据路由、分布系统、强一致性复
服务器 /小机
Group Join
SAN
读 瓶颈
全表扫描,瓶颈在于磁盘 IO
星型/雪花型模型
数据仓库主要的瓶颈是计算和存储节点torage主要特点
主要特点
计算网络(10GE)/IB/FOCE Server1 App App Server2 App App Server3 App App
SSD
更低
• 数据重建快:并行重建,重建数据量小 • 管理简单:结构简单带来管理简单
FusionStorage 分布式存储系统
8
FusionStorage 总体架构
存储 驱动层
SCSI驱动/iSCSI
分布式链接克隆 分布式快照 分布式精简配置 容灾 分布式Cache
存储接口层:
通过SCSI驱动接口向操作系统、数据库提供卷
• 强一致性复制协议: 应用程序写入一份数据时,如果成功,
Cache
SSD HDD
Cache
SSD
后端的一份或多份副本必然一致,再次读时,无论从哪个副 本都可读到正确的数据; • 数据高可用: 可以跨服务器或跨机柜分布数据,不会因某个
服务器、或者某个机柜故障导致数据不可访问;
14
高可靠——并行、快速数据重建
VBS
VBS
…
SCSI/iSCSI
Disk1
Disk2
VBS
IO路径
OSD
OSD
…
Diskn
• 高 吞 吐 量 , 不 再 有 机 头 瓶 颈 :
OSD
IB/10GE/FOCE 并 发 支 持 , 带 宽 是 传 统
SAN的10倍以上
无状态分布式机头层,可水平扩展
分布式存储引擎,可水平扩展
11
FusionStorage 基本原理-DHT寻址与水平扩展技术
Server 1
Disk1
P1 P5’ P2 P9’ P3 P17’ P4 P21’
Server 2
Disk2
P5 P1’ P6 P10’ P7 P13’ P8 P22’
Server 3
Disk3
P9 P2’ P10 P6’
P11
P14’
P12 P18’
Disk4
P13
P7’ P14 P11’ P15 P19’ P16 P23’
数据逻辑地址 数据逻辑地址 数据逻辑地址 数据逻辑地址 … Hash Key1 Key2 Key3 Key4 分段寻址
Pn
DHT环
P1 P2
物理节点 映射物理空间 Disk1
…
P6
DHT
P5 P4
Disk2
P3
…
Keyn
数据逻辑地址
Diskn
DHT(Distributed Hash Table)
DHT环:232 超大虚拟节点构成的环形空间
Partition:将DHT环空间划分为N等份,每一等份是一个分区 物理节点:即一个DISK, 与Partition分区对应
优点:
水平扩展速度快: 新物理节点加入时, 只需要搬移部分数据 (partition),并达到负载均衡 数据可靠性高:可灵活配置的分区分配算法,避免2个副本位于 同一个Disk、同一块板、同一个机柜
…
InfiniBand
1/100~1/1000
Node1 Node2
PCIE
Cache Cache Cache
Node3
• 高吞吐:整柜带宽达120 GB/s
SSD
SSD
SSD
SSD
SSD
SSD
分布式SSD存储系统,主要用于数据仓库一体机场景
17
Content
1
2
技术趋势
华为分布式存储技术原理与优势 华为分布式存储应用实践
Disk5
P17 P3’ P18 P12’ P19 P15’ P20 P24’
Disk6
P21
P4’
P22
P8’
P23
P16’
P24 P20’
数据分布可以跨服务器或跨机柜,不会因某个服务器、机柜故障导致数据不可访问 数据分片在资源池内打散,硬盘故障后,可在全资源池范围内自动并行重建,仅重建实际数据,无需热备盘;
5
CH223 IO扩展型计算节点
CH222 存储扩展型计算节点
CH240 计算节点
交换模块
CX116 GE直通模块 CX310 10GE交换模块 CX311 10GE/FCoE/FC融合交换 模块 CX911 10GE/FC多平面交换模块
CX110 GE交换模块
CX317 10GE直通模块
CX610 Infiniband QDR/ FDR融合交换模块
重建1TB数据时间 < 30分钟( 传统IPSAN 重建1TB数据需要12小时)
15
高速Infiniband网络互联,计算、存储交换无瓶颈
• 56Gbps FDR InfiniBand,超高速互联
单链路速率对比
8000
6000 4000 2000 0 GE 8G FC 10GE 56G FDR GE
融合架构
应用整合
Application deployment template
Management Platform
Physical and virtual resource pool management
I/O acceleration (exclusive)
CPU Memory Network External storage
Content
1
2
技术趋势
华为分布式存储技术原理与优势 华为分布式存储应用实践
3
6
数据仓库性能瓶颈在于IO吞吐
传统架构
Switch
可视化图表
OLAP过程
读写 瓶颈 FC Switch 写 瓶颈 内存 限制 时延 瓶颈
Avg/Sum
需要从磁盘读取大量的 临时数据, ,瓶颈在 于网络和磁盘IO
由于内存大小限制, 需要将 Group操作的临时数据写 入磁盘,瓶颈在于网络和 磁盘IO。
I/O acceleration (exclusive / shared)
Server
CPU
Memory
High-speed network
CPU Memory Storage
Network
Storage
系统性能和灵活性不断增强,OPEX不断降低
创新公司不断涌现,传统IT软硬件厂商也纷纷加入计算存储融合阵营
• P2P无阻塞通信网络,数据交换无瓶颈
• ns级通信时延,计算存储信息及时传递
8G FC
10GE 56G FDR
16
高性能、低时延—支持全SSD 存储
Database
Instance1 Instance2 Instance n
• 高IO: 整柜IOPS达240万 • 低时延:读时延49us,写时延8us,仅为传统SAS盘的
大容量: 最大96块盘,提升超大存储空间,避免高IO应用导致热点瓶颈 动态热备:所有硬盘都可用作资源池的热备盘 简单结构:资源池、Volume二层结构,没有LUN结构,服务器直接看到Volume
10
FusionStorage 分布式软件架构
基于PAXOS机制的高 可靠、大规模存储集 群总控MDC集群
全宽单槽位
计算节点
电源模块 风扇模块 管理模块
CH121 计算节点
CH221 IO扩展型计算节点
单刀片:未来四代CPU; 756G~1.5T内存;15块硬盘;4 PCIE标准扩展卡; 网络:GE/10GE/IB 40G/IB 56G交换;15.6Tbps无源背板; 存储: 无须外置San存储; 3~5倍 IOPS; 单机框64颗cpu
12
高性能——DHT并行IO读写
传统SAN外置存储
Applications
App1 App2 App3
FusionStorage分布式存储
Applications
App1
App2 App3
LUN内共享IO LUN内共享IO LUN内共享IO
VS.
P2P集群级共享IO
RAID Array
大资源池集群
Leader
MDC MDC MDC
• 全分布式架构,水平扩展 :无状态机头层,
每个机头可以平滑添加与减少; • 无状态分布式存储引擎: 可以水平扩展单
状态控制路径
板、磁盘
状态控制路径
• 计算、存储全融合架构,超高性能:
Cache更大,不再受到传统SAN机头限制