阿里云弹性AI服务介绍
Slurm/PBS
E-HPC
Swam/Kebernetes
Docker
EMR
Hadoop
HDFS/D1
弹性计算 异构计算服务 + 超级计算集群
CPU
计算
共享存储
对象存储 OSS
文件存储 CPFS
GPU
VPC
网络
RDMA
阿里云弹性异构计算服务
• EGS: Elastic GPU Service • FaaS: FPGA as a Service • 异构计算
阿里云弹性 AI 服务介绍
加速 AI 产业上云
人工智能在阿里巴巴的应用
•商品分类 •商品风格预测 •图片质量控制 •推荐:CTR预估 •拍照购:拍立淘 •内容鉴定:反黄、安全、直播 •人脸识别 •图片创意 •图像搜索 •OCR:证件识别、广告识别 •语音识别:客服语音、智能助 手
阿里巴巴集团GPU集群
MOC卡 IB/RoCE网卡
高速网络自动隔离
双25g/100g IB/RoCE网 络 Infiniband 网 络 支持RDMA 支持自动隔离
弹性物理机
支持云盘启动、自动挂载 支持打镜像、镜像启动 支持弹性虚拟化VPC网络
GPU/FPGA
异构设备直连
支持GPU Direct 支持GPU RDMA
一键构建端到端的 AI 解决方案
•大规模GPU计算集群 •GPU资源管理调度
•M40 •P100
•GPU资源监控服务 •容器服务
•性能优化服务
•深度学习镜像 •深度学习一键部署
•支持控制节点主备 •支持调度多机多卡任务 •支持共享存储
阿里巴巴应用优化案例I – OCR文本识别
• 场景:OCR文本识别,在线推理 • 算法:CNN + LSTM模型 • 应用:证件识别、文件识别 • 配置
优化前
优化后
阿里巴巴应用优化案例II – 语音识别
• 场景:语音识别,在线推理 • 算法:LSTM模型 • 应用:智能客服、会场语音识别等 • 配置
• 双M40 GPU卡,56vcpu,96GB内存
语音识别性能优化
40 30 吞吐量 20 10 8 优化前 优化后 性能优化 32
• 性能优化
• 矩阵乘法合并 • 小的LSTM Kernel合并 • 矩阵 * 向量Kernel性能优化 • 多路请求凑Batch过网络
–CPU + GPU/FPGA优势互补
• 云上大规模GPU/FPGA池
–短时间能够获取大量GPU/FPGA资源 –大大降低训练时间,提高模型迭代速度 –有效解决业务波峰、波谷的问题
• 享受硬件升级的红利 • 和其他云产品深度整合
阿里云弹性超级计算集群SCC
IB/RoCE交换机
云基础设施打通
支持阿里云VPC网络 支持云盘动态挂载 支持NAS、OSS存储 ECS/EGS网络打通
Perseus-MXNET
客户案例I: Perseus-Caffe图像识别 – 技术架构
• 场景:图像识别 • 数据量
• 训练128万张ImageNet图片 (80epochs)
Docker(K8S)
Perseus-Caffe
• 模型:
• ResNet-18
• 配置
• 8xP100 GPU卡,56vcpu,480 GB内存 • 25Gb虚拟以太网
高性能 AI 引擎 - Perseus
• 基于阿里云弹性基础资源,大幅提升 AI 用户使用开源框架做训练和推理的 性能 • 支持Tensorflow、Caffe、PyTorch、MXNET 高性能 AI 引擎 - Perseus
PerseusTensorflow
Perseus-Caffe
Perseus-PyTorchBiblioteka 特征提取 标注离线训练
离线训 练
在线推理
训练好的 模型 输入 EGS SCC
推理
推理
SLB
分发
EMR 原始 数据
OSS
推理
CDN
分类数据
离线推理
训练好的模 型 EGS
EGS
EGS
OSS
EGS 分类数据
分类数据
基于容器服务的 AI 解决方案
开发 Jupyter Github 分布式训练
Tensorflow Caffe, Keras, MXNET
预测
Tensorflowserving
自动运维 一键部署
负载均衡
弹性伸缩 容器服务
训练监控
训练日志
镜像服务
资源监控
Arena: 一键提交Tensorflow/Caffe分布式训练
• 通过K8S管理GPU集群 • 通过arena一键提交分布式训练任务
# 提交训练任务 arena submit mpijob --name=myperseus \ --workers=3 \ --gpus=2 \ --sshPort=33 \ --env=num_batch=100 \ --env=batch_size=80 \ --image=/ai_zhangbei/perseus-tf:v1.0 \ "/root/run-distribute.sh” # 查看任务列表 arena list # 查看任务详情 arena get jobname # 查看任务日志 arena logs jobname arena logviewer jobname # 查看集群资源分配情况 arena top node –d
• 性能提升
• 1块M40支撑8路 -> 支撑32路 • 吞吐量提升至原来的4倍 • 单机双卡能够支撑64路语音识别
0
EAIS服务层次 – Elastic AI Service
弹性人工智能 EAIS 优化的IaaS+方案 图像/视频识别 人脸识别 CTR预估 自动驾驶
高性能加速引擎 - Perseus PerseusT ensorflow Perseus-Caffe PerseusPyTorch PerseusMXNET
Rank0 EGS/神龙
Rank1 EGS/神龙
• 双M40 GPU卡,56vcpu,96GB内存 • 多Stream绑定优化 • 矩阵乘法合并 • 小的LSTM Kernel合并 • 矩阵 * 向量Kernel性能优化
文本识别性能优化
60 50 40 30 20 10 0
50
吞吐量
• 性能优化
20
性能优化
• 性能提升
• 1块M40支撑20QPS -> 支撑50QPS • 吞吐量提升至原来的2.5倍 • 单机双卡能够支撑100路文本识别