当前位置:文档之家› 华为分布式存储技术与应用实践

华为分布式存储技术与应用实践

Server Server Server
资源池1
资源池2
Volume1
Volume2
Volume3
Volume10
Volume12
P1
P2
资源池1
P3 P1 P6
P2
资源池2
P3

P4
P5
资源池1
资源池1
P7
P8
P9
Disk
Disk
Disk
Disk
Disk
Disk
资源池: 类似于SAN的RAID组概念,与RAID相比,其优点是:
备份
存储服务层:提供各种存储高级特性,如快照、 链接克隆、精简配置、分布式cache、容灾备 份等
存储 管理
存储 服务层
存储引擎层: FusionStorage存储基本功能,包括MDC总控
存储 引擎层
MDC状态控制 DHT数据分布
强一致性复制协议
并行数据重建
集群故 障自愈
集群、DHT数据路由、分布系统、强一致性复
服务器 /小机
Group Join
SAN
读 瓶颈
全表扫描,瓶颈在于磁盘 IO
星型/雪花型模型
数据仓库主要的瓶颈是计算和存储节点torage主要特点
主要特点
计算网络(10GE)/IB/FOCE Server1 App App Server2 App App Server3 App App
SSD
更低
• 数据重建快:并行重建,重建数据量小 • 管理简单:结构简单带来管理简单
FusionStorage 分布式存储系统
8
FusionStorage 总体架构
存储 驱动层
SCSI驱动/iSCSI
分布式链接克隆 分布式快照 分布式精简配置 容灾 分布式Cache
存储接口层:
通过SCSI驱动接口向操作系统、数据库提供卷
• 强一致性复制协议: 应用程序写入一份数据时,如果成功,
Cache
SSD HDD
Cache
SSD
后端的一份或多份副本必然一致,再次读时,无论从哪个副 本都可读到正确的数据; • 数据高可用: 可以跨服务器或跨机柜分布数据,不会因某个
服务器、或者某个机柜故障导致数据不可访问;
14
高可靠——并行、快速数据重建
VBS
VBS

SCSI/iSCSI
Disk1
Disk2
VBS
IO路径
OSD
OSD

Diskn
• 高 吞 吐 量 , 不 再 有 机 头 瓶 颈 :
OSD
IB/10GE/FOCE 并 发 支 持 , 带 宽 是 传 统
SAN的10倍以上
无状态分布式机头层,可水平扩展
分布式存储引擎,可水平扩展
11
FusionStorage 基本原理-DHT寻址与水平扩展技术
Server 1
Disk1
P1 P5’ P2 P9’ P3 P17’ P4 P21’
Server 2
Disk2
P5 P1’ P6 P10’ P7 P13’ P8 P22’
Server 3
Disk3
P9 P2’ P10 P6’
P11
P14’
P12 P18’
Disk4
P13
P7’ P14 P11’ P15 P19’ P16 P23’
数据逻辑地址 数据逻辑地址 数据逻辑地址 数据逻辑地址 … Hash Key1 Key2 Key3 Key4 分段寻址
Pn
DHT环
P1 P2
物理节点 映射物理空间 Disk1

P6
DHT
P5 P4
Disk2
P3

Keyn
数据逻辑地址
Diskn
DHT(Distributed Hash Table)
DHT环:232 超大虚拟节点构成的环形空间
Partition:将DHT环空间划分为N等份,每一等份是一个分区 物理节点:即一个DISK, 与Partition分区对应
优点:
水平扩展速度快: 新物理节点加入时, 只需要搬移部分数据 (partition),并达到负载均衡 数据可靠性高:可灵活配置的分区分配算法,避免2个副本位于 同一个Disk、同一块板、同一个机柜

InfiniBand
1/100~1/1000
Node1 Node2
PCIE
Cache Cache Cache
Node3
• 高吞吐:整柜带宽达120 GB/s
SSD
SSD
SSD
SSD
SSD
SSD
分布式SSD存储系统,主要用于数据仓库一体机场景
17
Content
1
2
技术趋势
华为分布式存储技术原理与优势 华为分布式存储应用实践
Disk5
P17 P3’ P18 P12’ P19 P15’ P20 P24’
Disk6
P21
P4’
P22
P8’
P23
P16’
P24 P20’
数据分布可以跨服务器或跨机柜,不会因某个服务器、机柜故障导致数据不可访问 数据分片在资源池内打散,硬盘故障后,可在全资源池范围内自动并行重建,仅重建实际数据,无需热备盘;
5
CH223 IO扩展型计算节点
CH222 存储扩展型计算节点
CH240 计算节点
交换模块
CX116 GE直通模块 CX310 10GE交换模块 CX311 10GE/FCoE/FC融合交换 模块 CX911 10GE/FC多平面交换模块
CX110 GE交换模块
CX317 10GE直通模块
CX610 Infiniband QDR/ FDR融合交换模块
重建1TB数据时间 < 30分钟( 传统IPSAN 重建1TB数据需要12小时)
15
高速Infiniband网络互联,计算、存储交换无瓶颈
• 56Gbps FDR InfiniBand,超高速互联
单链路速率对比
8000
6000 4000 2000 0 GE 8G FC 10GE 56G FDR GE
融合架构
应用整合
Application deployment template
Management Platform
Physical and virtual resource pool management
I/O acceleration (exclusive)
CPU Memory Network External storage
Content
1
2
技术趋势
华为分布式存储技术原理与优势 华为分布式存储应用实践
3
6
数据仓库性能瓶颈在于IO吞吐
传统架构
Switch
可视化图表
OLAP过程
读写 瓶颈 FC Switch 写 瓶颈 内存 限制 时延 瓶颈
Avg/Sum
需要从磁盘读取大量的 临时数据, ,瓶颈在 于网络和磁盘IO
由于内存大小限制, 需要将 Group操作的临时数据写 入磁盘,瓶颈在于网络和 磁盘IO。
I/O acceleration (exclusive / shared)
Server
CPU
Memory
High-speed network
CPU Memory Storage
Network
Storage
系统性能和灵活性不断增强,OPEX不断降低
创新公司不断涌现,传统IT软硬件厂商也纷纷加入计算存储融合阵营
• P2P无阻塞通信网络,数据交换无瓶颈
• ns级通信时延,计算存储信息及时传递
8G FC
10GE 56G FDR
16
高性能、低时延—支持全SSD 存储
Database
Instance1 Instance2 Instance n
• 高IO: 整柜IOPS达240万 • 低时延:读时延49us,写时延8us,仅为传统SAS盘的

大容量: 最大96块盘,提升超大存储空间,避免高IO应用导致热点瓶颈 动态热备:所有硬盘都可用作资源池的热备盘 简单结构:资源池、Volume二层结构,没有LUN结构,服务器直接看到Volume
10
FusionStorage 分布式软件架构
基于PAXOS机制的高 可靠、大规模存储集 群总控MDC集群
全宽单槽位
计算节点
电源模块 风扇模块 管理模块
CH121 计算节点
CH221 IO扩展型计算节点
单刀片:未来四代CPU; 756G~1.5T内存;15块硬盘;4 PCIE标准扩展卡; 网络:GE/10GE/IB 40G/IB 56G交换;15.6Tbps无源背板; 存储: 无须外置San存储; 3~5倍 IOPS; 单机框64颗cpu
12
高性能——DHT并行IO读写
传统SAN外置存储
Applications
App1 App2 App3
FusionStorage分布式存储
Applications
App1
App2 App3
LUN内共享IO LUN内共享IO LUN内共享IO
VS.
P2P集群级共享IO
RAID Array
大资源池集群
Leader
MDC MDC MDC
• 全分布式架构,水平扩展 :无状态机头层,
每个机头可以平滑添加与减少; • 无状态分布式存储引擎: 可以水平扩展单
状态控制路径
板、磁盘
状态控制路径
• 计算、存储全融合架构,超高性能:
Cache更大,不再受到传统SAN机头限制
相关主题