当前位置:
文档之家› AI Fabric智能无损数据中心网络解决方案
AI Fabric智能无损数据中心网络解决方案
AI分布式训练带来的挑战
如:机器翻译训练,105ExaFlops 采用传统架构, 一次训练需半年
存储创新
HDSSD SCM 介质访问时延降低100倍
计算创新
CPUGPU AI Chip 计算速度x100倍
存储型服务器
计算型服务器
节点间通信瓶颈凸显
通信时延占总存储访问时延50%以上
GPU通信等待时间超任务总时长50%
框式交换机
业界首款面向AI时代的数ቤተ መጻሕፍቲ ባይዱ中心交换机
内嵌AI芯片;高密48*400GE;使能自动驾驶网络 CE9860-4C-EI 128*100G高密 CE8861-4C-EI 10G/25/40G/100G灵活插卡
盒式交换机
CloudEngine 16800
CE8850-64CQ-EI 64*100G高密 TOR交换机
AI Fabric
低成本
Ethernet
低成本 无丢包
NIC HBA HCA
NIC HBA HCA
低时延
10G Eth IPC Infiniba nd 低时延 SAN FC 无丢包 8G FC Infiniband ( 56G ) 100G Eth
FabricInsight
硬件架构
CPU core NP core
Spine
…
CPU
Switch Chip FPGA
leaf
CE8861-4C-EI
FPGA
智能网卡
CE8850-64CQ-EI CE6865-48S8CQ-EI
AI Fabric为DC构建统一融合网络,总拥有成本比降低53%
LAN/SAN/IPC独立三张网
HDSSD SCM 介质访问时延降低100倍
人工智能
AI分布式计算
CPUGPU AI Chip
计算速度x100倍
AI业务发展对技术带来挑战,通信成为新的瓶颈
分布式存储&RDMA带来的挑战
如:XX ESSD云盘,提出了百万IOPS的目 标,以满足大型OLTP存储数据库诉求;传 统分布式存储只有2万,招行Azurepack分 布式存储30万 IOPS
华为AI Fabric,开创AI极速未来
AI Fabric智能无损数据中心网络解决方案
企业DC走过虚拟化时代、云时代,正在迈入AI时代
资源池化共享 提升利用率 虚拟化时代 实现云化服务 优化 发放效率 云时代 挖掘数据价值 释放数据的潜能 AI时代
互联网+
中石油大二层架构
服务器利用率 20%60%
RDMA快启动+多打一:拥塞为常态
问题1:拥塞引起动态时延急剧升高问 题2:限制发送速度使得吞吐量极低
限制发送速度来保证不丢包
业界首个面向AI时代的AI Fabric,专网的性能、以太的价格
HPC高性能计算 分布式存储 AI计算
AI Fabric智能无损数据中心网络
Spine
…
向业务A的源端发送反压信号 业务A所属虚拟队列拥塞告警 ▼
业务驱动
协议变化
以太网诞生于LAN 诉求:低成本
归一为TCP/IP CSMA/CD
TCP/IPFCoE
TCP/IPFCoE RoCE
关键技术
载波侦听多路访问/冲突检测 • 拥塞导致动态时延急剧升高 • 经常发生丢包
PFC(优先级流量控制) ETS( 传 输 选 择 ) ECN(拥塞控制)
流量模型变化
Waterline
与传统以太网相比,性能提升显著:
AI训练场景:
分布式存储场景:
40% 训练效率
25% IOPS
Leaf 1
Leaf 2
Leaf 3
与Infiniband专网性能相当,成本大幅降低:
智能网卡
53% TCO
华为独有iLosslessTM智能无损算法
AI Fabric智能无损数据中心网络解决方案主打产品
Fast Data
数据实时处理 存取要求快
2015
数据
单位容量价值越来极低 基于AI挖掘是关键
2025年新增的数据量(180ZB)将远超人 类处理能力,95%的数据将依赖AI处理 提供载体 提供算法
平台
16%
2015 2025 企业对AI的采用率
Source: Huawei GIV
高速存储 Fast数据分布式存储
现有以太网技术不能满足AI诉求,呼吁新的技术创新
传统以太网(标准)
2008之前
融合增强以太网(CEE)
2008~2018
新一代以太网?
2018之后
10M/100M/1000M
1GE/10GE/40GE
以太网扩展至SAN 诉求:无丢包
25GE/100GE/400GE
以太网正在向AI/HPC扩展 诉求:高吞吐,低时延,无丢包
AI时代,网络成为AI性能提升的主要瓶颈
计算
存储
网络
传统以太网:性能低下 拥塞100%丢包,ms级E2E时延
专用网络:TCO居高不下 专人运维,2x CAPEX
CPUGPUAI chip 计算速度 x100倍
HDDSSD SCM 存储速度x100倍
通信时延400ms 导致空闲等待
AI时代,RoCE正在成为主流
CE6865-48S8CQ-EI 25GE TOR交换机
新一代AI Fabric:高吞吐,低时延,零丢包
人脸识别 无人驾驶 生命科学 数据挖掘
虚拟多队列:精准定位拥塞流反压,正常流不受影响
人工智能
动态水线:水线动态设置,保证不丢包情况下最高吞吐 主动控制:主动与网卡协同,最大配额调度,彻底避免拥塞
网络成本高:FC专网和IB专网价格昂贵 运维代价高:FC的SAN和IB的IPC需要专人运维,且无法云网协同
AS-IS
AI Fabric融合网络
降低网络成本:开放以太网同时承载SAN和IPC流量,CAPEX降低50% 降低运维成本:无需专人运维,支持SDN云网自动化,OPEX降低60%
TO-BE
LAN Eth
大数据
建行新一代系统
1千10万笔/秒 分钟级弹性伸缩
AI营销
微信:游戏下载提升38% 金融:获客率提升40倍
2010
2015
2020
AI时代从数据中获得智慧,实现商业价值变现
业务
+20
倍
机器人
人脸识别
无人驾驶
客户画像
罪犯追踪
精准营销
8.6 ZB
全年产生并存储的数据量
Big Data
2025
Source: Huawei GIV
RDMA over Infiniband(IB)
• 私有技术,运维复杂,需要专门 运维团队
Vs.
RDMA over Ethernet( RoCE )
• 公开技术,运维简单,统一运维 团队 • • 开放系统,云业务成熟 建网成本低
•
•
封闭系统,无法提供云业务
建网成本高
互联网企业转向开放以太网承载RDMA