当前位置：文档之家› 阿里云弹性AI服务介绍

阿里云弹性AI服务介绍

Slurm/PBS
E-HPC
Swam/Kebernetes
Docker
EMR
Hadoop
HDFS/D1
弹性计算异构计算服务 + 超级计算集群
CPU
计算
共享存储
对象存储 OSS
文件存储 CPFS
GPU
VPC
网络
RDMA
阿里云弹性异构计算服务
• EGS: Elastic GPU Service • FaaS: FPGA as a Service • 异构计算
阿里云弹性 AI 服务介绍
加速 AI 产业上云
人工智能在阿里巴巴的应用
•商品分类 •商品风格预测 •图片质量控制 •推荐：CTR预估 •拍照购：拍立淘 •内容鉴定：反黄、安全、直播 •人脸识别 •图片创意 •图像搜索 •OCR：证件识别、广告识别 •语音识别：客服语音、智能助手
阿里巴巴集团GPU集群
MOC卡 IB/RoCE网卡
高速网络自动隔离
双25g/100g IB/RoCE网络 Infiniband 网络支持RDMA 支持自动隔离
弹性物理机
支持云盘启动、自动挂载支持打镜像、镜像启动支持弹性虚拟化VPC网络
GPU/FPGA
异构设备直连
支持GPU Direct 支持GPU RDMA
一键构建端到端的 AI 解决方案
•大规模GPU计算集群 •GPU资源管理调度
•M40 •P100
•GPU资源监控服务 •容器服务
•性能优化服务
•深度学习镜像 •深度学习一键部署
•支持控制节点主备 •支持调度多机多卡任务 •支持共享存储
阿里巴巴应用优化案例I – OCR文本识别
• 场景：OCR文本识别，在线推理 • 算法：CNN + LSTM模型 • 应用：证件识别、文件识别 • 配置
优化前
优化后
阿里巴巴应用优化案例II – 语音识别
• 场景：语音识别，在线推理 • 算法：LSTM模型 • 应用：智能客服、会场语音识别等 • 配置
• 双M40 GPU卡，56vcpu，96GB内存
语音识别性能优化
40 30 吞吐量 20 10 8 优化前优化后性能优化 32
• 性能优化
• 矩阵乘法合并 • 小的LSTM Kernel合并 • 矩阵 * 向量Kernel性能优化 • 多路请求凑Batch过网络
–CPU + GPU/FPGA优势互补
• 云上大规模GPU/FPGA池
–短时间能够获取大量GPU/FPGA资源 –大大降低训练时间，提高模型迭代速度 –有效解决业务波峰、波谷的问题
• 享受硬件升级的红利 • 和其他云产品深度整合
阿里云弹性超级计算集群SCC
IB/RoCE交换机
云基础设施打通
支持阿里云VPC网络支持云盘动态挂载支持NAS、OSS存储 ECS/EGS网络打通
Perseus-MXNET
客户案例I: Perseus-Caffe图像识别 – 技术架构
• 场景：图像识别 • 数据量
• 训练128万张ImageNet图片 (80epochs)
Docker(K8S)
Perseus-Caffe
• 模型：
• ResNet-18
• 配置
• 8xP100 GPU卡，56vcpu，480 GB内存 • 25Gb虚拟以太网
高性能 AI 引擎 - Perseus
• 基于阿里云弹性基础资源，大幅提升 AI 用户使用开源框架做训练和推理的性能 • 支持Tensorflow、Caffe、PyTorch、MXNET 高性能 AI 引擎 - Perseus
PerseusTensorflow
Perseus-Caffe
Perseus-PyTorchBiblioteka 特征提取标注离线训练
离线训练
在线推理
训练好的模型输入 EGS SCC
推理
推理
SLB
分发
EMR 原始数据
OSS
推理
CDN
分类数据
离线推理
训练好的模型 EGS
EGS
EGS
OSS
EGS 分类数据
分类数据
基于容器服务的 AI 解决方案
开发 Jupyter Github 分布式训练
Tensorflow Caffe, Keras, MXNET
预测
Tensorflowserving
自动运维一键部署
负载均衡
弹性伸缩容器服务
训练监控
训练日志
镜像服务
资源监控
Arena：一键提交Tensorflow/Caffe分布式训练
• 通过K8S管理GPU集群 • 通过arena一键提交分布式训练任务
# 提交训练任务 arena submit mpijob --name=myperseus \ --workers=3 \ --gpus=2 \ --sshPort=33 \ --env=num_batch=100 \ --env=batch_size=80 \ --image=/ai_zhangbei/perseus-tf:v1.0 \ "/root/run-distribute.sh” # 查看任务列表 arena list # 查看任务详情 arena get jobname # 查看任务日志 arena logs jobname arena logviewer jobname # 查看集群资源分配情况 arena top node –d
• 性能提升
• 1块M40支撑8路 -> 支撑32路 • 吞吐量提升至原来的4倍 • 单机双卡能够支撑64路语音识别
0
EAIS服务层次 – Elastic AI Service
弹性人工智能 EAIS 优化的IaaS+方案图像/视频识别人脸识别 CTR预估自动驾驶
高性能加速引擎 - Perseus PerseusT ensorflow Perseus-Caffe PerseusPyTorch PerseusMXNET
Rank0 EGS/神龙
Rank1 EGS/神龙
• 双M40 GPU卡，56vcpu，96GB内存 • 多Stream绑定优化 • 矩阵乘法合并 • 小的LSTM Kernel合并 • 矩阵 * 向量Kernel性能优化
文本识别性能优化
60 50 40 30 20 10 0
50
吞吐量
• 性能优化
20
性能优化
• 性能提升
• 1块M40支撑20QPS -> 支撑50QPS • 吞吐量提升至原来的2.5倍 • 单机双卡能够支撑100路文本识别

e商务文档

阿里云弹性AI服务介绍

相关文档推荐：