ai 基础架构资源的演进与选择 - 亚马逊云科技
TRANSCRIPT
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Jun XU
Mar. 17, 2020
AI 基础架构资源的演进与选择CPU, GPU, FPGA and ASIC (AWS Inferentia)
©2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
CPU、GPU、FPGA、AS IC比较
• 数10至数100个处理器核心
• 预定义的指令集和数据通路宽度
• 为通用计算而优化
CPU
• 数1,000个处理器核心• 预定义的指令集和数据通路宽度
• 并行执行效率高
GPU
• 数百万个可编程数字逻辑单元
• 无预定义的指令集或数据通路宽度
•提供硬件定时的速度和稳定性
FPGA
DRAM
ControlALU
ALU
Cache
DRAM
ALU
ALUControl
ALU
ALU
Cache
DRAM
ALU
ALU
ControlALU
ALU
Cache
DRAM
ALU
ALUControl
ALU
ALU
Cache
DRAM
ALU
ALU
• 针对特定用途/功能的优化和定制设计
• 通过API提供预定义软件体验
ASIC
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS上的加速计算
Nvidia Tesla V100 GPU
o 启用高度并行性-每个GPU都有数千个内核
o 一致且文档齐全的API集(CUDA,OpenACC,OpenCL)
o 得到各种ISV和开源框架的支持
Xilinx UltraScale+ FPGA
o 大规模并行-每个FPGA包括数百万个并行系统逻辑单元
o 灵活:没有固定的指令集,可以实现或宽或窄的数据通路
o 可编程,基于云的FPGA开发工具箱
P3: GPU 加速的计算 F1: FPGA 加速的计算
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
GPU和FPGA中的并行处理
GPU:可以有效并行处理相同指令。例如,并行计算像素值以进行图形着色或并行执行多个财务计算。 GPU具有定义明确的指令集和固定的字长。
FPGA:可以有效并行处理相同或不同指令。例如,在视频流上创建并行,多级操作的复杂流水线,或执行一系列相关的计算和数据处理以进行基因组处理。 FPGA没有预定义的指令集或固定的数据宽度。
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
视觉 语音 文本 搜索 聊天机器人 个性化推荐 预测 欺诈检测 应用部署 呼叫中心
Amazon SageMaker
Ground
Truth
Augmented
AI
ML
MarketplaceNeo
Built-in
algorithmsNotebooks Experiments
Model
training &
tuning
Debugger AutopilotModel
hostingModel Monitor
深度学习AMIs 及容器
GPUs &
CPUs弹性推理 推理芯片 FPGA
AmazonRekognition
AmazonPolly
AmazonTranscribe
+Medical
AmazonComprehend
+Medical
AmazonTranslate
AmazonLex
AmazonPersonalize
AmazonForecast
AmazonFraud Detector
AmazonCodeGuru
人工智能服务
机器学习服务
机器学习框架和基础设施
AmazonTextract
AmazonKendra
Contact Lens
For Amazon Connect
SageMaker Studio IDE
新
新
!新! 新! 新!
新!
新! 新! 新! 新! 新!
AWS机器学习堆栈
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
业务问题
机器学习问题界定
数据收集
数据整合
数据准备和清洗
数据可视化和分析
特征工程
模型训练和参数调优
模型评估
监控和调试
模型部署
推理
是否达到业务目标?
是否
数据增强或扩充
特征增强或扩充
再训练
机器学习生命周期
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
https://aws.amazon.com/sagemaker/pricing/instance-types/
实例家族 t family m family r family c family p family g family Inf1Elastic
Inference
工作负载类型短任务/
Notebooks标准
CPU/内存比内存优化 计算优化
计算加速训练和推理
推理加速小训练任务
计算加速推理
低成本推理加速
t3.2xlarge
8 vCPU
32 Mem
m5.2xlarge
8 vCPU
32 Mem
r5.2xlarge
8 vCPU
64 Mem
c5.2xlarge
8 vCPU
16 Mem
p3.2xlarge
8 vCPU
61 Mem
1xV100 GPU
g4dn.2xlarge
8 vCPU
32 Mem
1xT4 GPU
A m a zo n 可用于训练的实例类型
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
•可支持高达 8 个 NVIDIA V100 Tensor
Core GPU
•并可为机器学习和 HPC 应用提供高达100Gbps 的网络吞吐量
•可以实现最高 1 PetaFLOP 的混合精度性能
•提供最新一代的NVIDIA T4 GPU
•高达100 Gbps的网络吞吐量
•高达1.8 TB的本地NVMe存储
•可在生产和图形密集型应用程序中部署机器学习模型
Amazon GPU 实例类型
P3/P3dn GPU 计算实例 G4: GPU 计算实例
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
NVID IA GPU 矩阵
架构 Tesla GeForce 实例系列GPU
发布日期制造工艺 最小实例类型 价格/小时
Kepler K80 GTX780 P2 2014.11 28nm p2.2xl 4C/61G $0.90
Maxwell M60 GTX980 G3/G3s 2015.08 16nm g3s.xl 4C/31G $0.75
Pascal P4/P100 GTX1080 N/A 2016.09 16nm N/A N/A
Turing T4 RTX2080 G4 2018.09 12nmg4dn.xl 4C/16G
125G SSD$0.53
Volta V100 N/A P3 2017.06 12nm p3.2xl 8C/61G $3.06
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
为机器学习训练选择正确的实例类型
o 实例家族:
o 优化时间/成本?
o 模型复杂度
o 模型能否使用GPU做训练?
o 实例大小:
o 需要多少内存/CPU核心?
o 模型能否利用多个GPU?
o 实例个数:
o 模型能否在多台机器上做分布式训练?
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon EC2 P3 实例Next Generat ion of GPU
Compute
o 基于 NVIDIA最新的 GPU Tesla V100
o 在单个实例上具有 1 PetaFLOP 的混合精度性能
o 在机器学习场景下,与P2相比最高有14倍的性能提升
o 在高性能计算场景下,与P2相比最高有2.6倍的性能提升
P3
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
NVID IA Tes la V100 关键规格
o 采用12纳米制造工艺,具有211亿个晶体管(比上一代 P100 GPU 多40%)
o 与 P100 GPU 相比,其能源效率提高了50%,在相同功率范围内有显著的性能提升
o 每个 GPU 具有专属640个 Tensor 内核,以提高混合精度性能
o 每个 GPU 具有125 TFLOPS 的混合精度性能
o 第二代 NVLink,通过6个 NVLink 端口以25GB/s的速度实现 GPU 到 GPU 的通信,总
计300GB/s
o 16GB GPU 内存,峰值内存带宽为900 GB /秒
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
用于计算的GPU
a11 a12 a13
a21 a22 a23
a31 a32 a33
Matrix A
b11 b12 b13
b21 b22 b23
b31 b32 b33
Matrix B
a11.b11 + a12.b21 +
a13.b31
a11.b12 + a12.b22 +
a13.b32
a11.b13 + a12.b23 +
a13.b33
a21.b11 + a22.b21 +
a23.b31
a21.b12 + a22.b22 +
a23.b32
a21.b13 + a22.b23 +
a23.b33
a31.b11 + a32.b21 +
a33.b31
a31.b12 + a32.b22 +
a33.b32
a31.b13 + a32.b23 +
a33.b33
Matrix C
这些乘法和累加运算可以在典型GPU中的1000个内核之间并行化
矩阵运算,图像处理,物理仿真均可极大地受益于GPU
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
用于计算的GPU
矩阵运算,图像处理,物理仿真均可极大地受益于GPU
数值精度:
• 半精度 (FP16) – 16位浮点数• 单精度 (FP32) – 32位浮点数• 双精度 (FP64) – 64位浮点数
a11 a12 a13
a21 a22 a23
a31 a32 a33
Matrix A
b11 b12 b13
b21 b22 b23
b31 b32 b33
Matrix B
a11.b11 + a12.b21 +
a13.b31
a11.b12 + a12.b22 +
a13.b32
a11.b13 + a12.b23 +
a13.b33
a21.b11 + a22.b21 +
a23.b31
a21.b12 + a22.b22 +
a23.b32
a21.b13 + a22.b23 +
a23.b33
a31.b11 + a32.b21 +
a33.b31
a31.b12 + a32.b22 +
a33.b32
a31.b13 + a32.b23 +
a33.b33
Matrix C
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
新 Tensor 核心
o 除了5,120个 CUDA核心外,每个 Tesla V100 还具有640个Tensor 核心,每个 GPU 具有 125 TFLOPS 的混合精度性能。
o 每个 Tensor 核心都提供一个 4x4x4 矩阵处理阵列,该阵列执行运算 D = A X B +C。
Tesla V100 GPU
a11 a12 a13 a14
a21 a22 a23 a24
a31 a32 a33 a34
a41 a42 a43 a44
A (FP16)
b11 b12 b13 b14
b21 b22 b23 b24
b31 b32 b33 b34
b41 b42 b43 b44
B (FP16)
c11 c12 c13 c14
c21 c22 c23 c24
c31 c32 c33 c34
c41 c42 c43 c44
C (FP16 or FP32)
D(FP16 or FP32)
Source: NVIDIA
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
GPU 性能比较• NVIDIA GPU 架构:
• Kepler > Maxwell > Pascal > Volta
• P2 实例:使用 K80 加速器(Kepler 架构)
• P3 实例:使用 V100 加速器(Volta 架构)
0
20
40
60
80
100
120
140
K80 P100 V100
Mixed/FP16 Perf (TFLOPS)
0
2
4
6
8
10
12
14
16
K80 P100 V100
FP32 Perf (TFLOPS)
0
1
2
3
4
5
6
7
8
K80 P100 V100
FP64 Perf (TFLOPS)
0
1000
2000
3000
4000
5000
6000
K80 P100 V100
Resnet-50 8 GPU (Images/sec)
14X over K80’s
max perf.
1.7X 2.6X
7.2X
FP32
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
P3 实例大小和规格
实例大小 GPUs 加速器 (V100)GPU
点对点通信GPU 内存 (GB) vCPUs 内存 (GB) 网络带宽 EBS 带宽
P3.2xlarge 1 1 No 16 8 61 Up to 10Gbps 1.7Gbps
P3.8xlarge 4 4 NVLink 64 32 244 10Gbps 7Gbps
P3.16xlarge 8 8 NVLink 128 64 488 25Gbps 14Gbps
• P2 实例使用了双核 K80 加速器• P2.16xl 可访问8个 K80 加速器(总共16个GPU)
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
P3 实例大小和规格
• P3 实例通过 NVLink 提供 GPU 到GPU 的数据传输
• P2 实例通过 PCI Express 提供GPU 到 GPU 的数据传输
实例大小 GPUs 加速器 (V100)GPU
点对点通信GPU 内存 (GB) vCPUs 内存 (GB) 网络带宽 EBS 带宽
P3.2xlarge 1 1 No 16 8 61 Up to 10Gbps 1.7Gbps
P3.8xlarge 4 4 NVLink 64 32 244 10Gbps 7Gbps
P3.16xlarge 8 8 NVLink 128 64 488 25Gbps 14Gbps
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
P3 实例大小和规格
• P3.16xl 支持高达 25Gbps 的网络带宽
• 与 P2 实例相比,EBS 性能提高40%
实例大小 GPUs 加速器 (V100)GPU
点对点通信GPU 内存 (GB) vCPUs 内存 (GB) 网络带宽 EBS 带宽
P3.2xlarge 1 1 No 16 8 61 Up to 10Gbps 1.7Gbps
P3.8xlarge 4 4 NVLink 64 32 244 10Gbps 7Gbps
P3.16xlarge 8 8 NVLink 128 64 488 25Gbps 14Gbps
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
描述 P3.16xlarge P2.16xlarge P3 GPU 性能提升
GPU 数量 8 16 -
加速器数量 8 (V100) 8 (K80)
GPU –点对点通信 NVLink – 300 GB/s PCI-Express - 32 GB/s 9.4倍
CPU 到 GPU 的吞吐量
每个 GPU 的 PCIe 吞吐量8 GB/s 1 GB/s 8倍
CPU 到 GPU 的吞吐量
实例 PCIe 的总吞吐量
64 GB/s
(4 x16 Gen3)
16 GB/s
(1 x16 Gen3)4倍
P3 与 P2 点对点通信配置对比
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
P3 PC Ie 和 NVLink 配置CPU0
GPU0
GPU1
GPU2
GPU3
PCIe Switches
CPU1
GPU4
GPU5
GPU6
GPU7
PCIe Switches
QPI
NVLink
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
P3 PC Ie 和 NVLink 配置CPU0
GPU0
GPU1
GPU2
GPU3
PCIe Switches
CPU1
GPU4
GPU5
GPU6
GPU7
PCIe Switches
QPI
0xFF
0xFF
PC
I E
xp
ress
NVLink
0xFF
0xFF
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
P3实例的使用场景
Machine Learning/AI High-Performance Computing
Natural Language
Processing
Image and Video
recognition
Autonomous vehicle
systems
Recommendation
Systems
Computational Fluid
Dynamics
Financial and Data
Analytics
Weather
Simulation
Computational
Chemistry
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
P3 实例摘要
o 业界最强大的基于GPU的平台
o 基于NVIDIA最新的GPU Tesla V100
o 与P2相比,机器学习用例的性能提高了14倍
o 与P2相比,高性能计算用例的性能提升高达2.6倍
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
推理与训练
推理
o 通常在单个输入上实时运行o 非计算/内存密集型o 集成到应用程序堆栈工作流程中o 在边缘和云中的不同设备上运行o 一直运行
训练
o 需要高并行度和大批量处理能力,以实现更高的吞吐量
o 计算/内存密集型o 独立,未集成到应用程序堆栈中o 在云端运行o 通常运行频率较低(训练一次,不经常重复)
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
https://aws.amazon.com/sagemaker/pricing/instance-types/
具有 GPU / 推理芯片的实例
实例家族 t family m family r family c family p family g family Inf1Elastic
Inference
工作负载类型短任务/
Notebooks标准 CPU/
内存比内存优化 计算优化
计算加速训练和推理
推理加速小训练任务
计算加速推理
低成本推理加速
A m a zo n 可用于推理的实例类型
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
o 高吞吐量、低延迟
o 配备16个AWS设计的Inferentia 加速器,高达2000个 TFLOPS
o 云端单次推理成本最低
o 高性能,低延迟,降低了GPU 实例的单次推理成本
o 配备8个 NVIDIA T4 GPU,高达1030 TOPS 计算能力
o GPU实例中单次推理成本最低
o 针对训练进行了优化
o 专为大型分布式训练而设计,以最快的速度进行训练
o 未完全用于推理
推理实例比较
P3/P3dn G4 AWS Inf1
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon EC2 In f1 实例
o EC2 Inf1 实例有 4 种大小可供选择o AWS 自定义英特尔 Cascade Lake CPU,高达
100Gbps 网络带宽o Tensor 处理管道能力
o Inferentia 芯片之间有 256Gbps 芯片到芯片互连
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
推理部署可能不理想
在独立的 GPU 实例集群上运行模型推理,并从主应用程序调用
o 工作繁重,代价昂贵且效率低下
在 GPU 实例上同时部署模型推理和应用程序堆栈o 主机和加速器资源不匹配可能导致资源过度配置
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon 弹性推理
按需匹配计算容量 1 到 32 TFLOPS 以及1 到 8 GB GPU 内存
主要特点
与Amazon EC2、AmazonECS、Amazon
SageMaker、AWS DL AMIs 和 AWS DL 容器集
成
支持 TensorFlow, Apache MXNet, ONNX
更多功能即将推出
支持单精度和混合精度
将推理成本降低高达75%
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
EI 如何与 Amazon SageMaker 合作?Amazon SageMaker 笔记本
o 本地模式下使用笔记本进行原型部署
Amazon SageMaker 托管终端节点
o 使用低成本弹性推理加速对推理终端节点进行扩缩
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
加速器大小根据推理量身定制
加速器类型FP32 吞吐量(TFLOPS)
FP16 吞吐量(TFLOPS)
加速器内存 (GB)价格 ($/hr)
(US)
eia2.medium 1 8 2 $0.12
eia2.large 2 16 4 $0.24
eia2.xlarge 4 32 8 $0.34
可以附加到任何 Amazon EC2 实例, Amazon SageMaker 实例类型或Amazon ECS 任务.
可用区域:N. Virginia, Ohio, Oregon, Dublin, Seoul and Tokyo (仅 eia1)
*eia1 是Amazon第一个 EIA 系列,内存高达 4 GB
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
选择正确的推理选项
o GPU 内存
o 目标延迟
o 吞吐量
o 自定义 CUDA/cuDNN 代码、自定义运算符、自定义 TensorRT
其他注意事项
o 如果需要更多容量,则从小到大扩容
o 输入/输出数据负载对延迟有影响
o 转换为 FP16,实现更低的延迟和更高的吞吐量
进行POC测试:模型与输入相关,这是找到符合您的业务场景的最佳方式。
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
o 使 FPGA 作为标准的 AWS 实例提供给大型开发社区和数百万潜在客户
o 通过提供基于云的 FPGA 和 C/C++软件开发流程,简化开发流程
o 允许开发人员通过使用定义良好的接口抽象 FPGA I/O,专注于算法设计
o 为 FPGA 应用提供Marketplace,为所有 AWS 客户提供更多选择和轻松访问
使用 F1 的 FPGA 加速的目标
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
o 单台实例最多 8 个 Xilinx UltraScale+ 16nm VU9P FPGA 器件
o 实例 f1.16xlarge 提供:
o 八个 FPGA,每个具有超过 200 万个客户可访问的 FPGA 可编程逻辑单元和5000 多个可编程 DSP 模块
o 八个 FPGA 中的每一个都有四个 DDR-4 接口,每个接口访问一个 16GiB,72
位宽的 ECC 保护的内存
实例大小 FPGAs DDR-4
(GiB)
vCPUs 实例内存 (GiB) NVMe 实例存储
(GB)
网络带宽
f1.2xlarge 1 4 x 16 8 122 1 x 470 Up to 10 Gbps
f1.16xlarge 8 32 x 16 64 976 4 x 940 25 Gbps
F1 FPGA 实例类型
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
FPGA 中的并行处理
FPGA可有效地并行处理多种类型的数据
o 基因组学研究
o 财务分析
o 实时视频处理
o 高通量图像处理
o 大数据搜索和分析
o 网络和安全性
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
….
….
module filter1 (clock, rst, strm_in, strm_out)
for (i=0; i<NUMUNITS; i=i+1)
always@(posedge clock)
integer i,j; //index for loops
tmp_kernel[j] = k[i*OFFSETX];
CPU handles the rest
Application
….
….
….
….
….
….
….
AWS FPGA 加速的工作原理
FPGA 处理计算密集型、
深度管道化、硬件加速操作
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
深度管道化的概念
单核 多核 管道
* Source: https://www.legupcomputing.com/blog/index.php/2018/05/01/deep-dive-into-the-worlds-fastest-cloud-hosted-memcached/
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS FPGA Shell
提供标准、预测试和安全的 I/O 组件,使FPGA 开发人员能够专注于其差异化价值
Hardware Development Kit (HDK)
提供所需的 FPGA Shell 组件和配置文件
Software Development Kit (SDK)
为 FPGA 管理和通信提供所需的软件
Amazon EC2 F1 开发人员视图
SDK
HDK
Software
Application
Custom Logic
AWS FPGA Shell
https://github.com/aws/aws-fpga
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
开发自定义加速
FPGA 开发者 AMI
预先集成了描述和模拟 FPGA 逻辑所需的所有工具(使用 HDK)
Xilinx Vivado 用于自定义逻辑开发 Virtual JTAG 用于交互式调试
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
摘要 – 使用 F1 进行 FPGA 加速
o FPGA 加速为基因组学应用带来高达 43 倍的性能提升
o 使用 Amazon S3 流式传输 I/O 可大大提高吞吐量
o 使用 F1.16xlarge 在多个 FPGA 上并行化,以产生4倍以上额外加速
o 按秒计费和竞价实例提供了额外成本节约的机会
o 通过 AWS Marketplace 部署到 F1 FPGA 实例,使加速基因组学广泛可用
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
4 百万
个 Airbnb 房
源列表
65,000
个城市上线
Airbnb的房源
191+
个国家提供有
Airbnb 服务
2亿+
Airbnb 客人随
时抵达
Ai rbnb 统计数据
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
更多机器学习示例
o 定价:智能定价建议
o 风险:不良行为人检测、社区安全
o 访客增长:最佳广告预算
o 体验:个性化、建议
o 付款:路由
o 客户服务:机票路由
o …
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
若干常见问题
o 人们想尝试许多不同的模型
o 训练速度慢/计算费用高
o 超参数调优?串行不是很好…并行又很棘手
o 当前为每个用户提供一个 P2/P3 组合配置
o 除去训练时段,通常处于空闲状态
o 扩缩不理想
o 人们想要使用各种不同的框架(Tensorflow、PyTorch 等)
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
BigHead:端到端 ML
o 借助于 Docker,开发与生产无缝结合
o 使用 Jupyter 笔记本或普通 Python 脚本
o 借助于 ML Pipeline,在同一模型中混合和匹配多种框架
o 特征工程就像用购物车购物
o 对模型实行版本控制
o 随时随地开发...但是使用“超级计算机”排队进行训练
o 无需附加代码,即可部署到生产环境
Redspot Zipline BigQueue
ModelRepo DeepThought
环境 特征工程 计算
管理 部署
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
P2/P3 性能对比
*Ubuntu 14.04 LTS w/ Intel MKL, Cuda 9, CuDNN 7, NCCL 2
Tensorflow from master w/ patches for Volta, PyTorch from master w/ custom (volta) patches for MAGMA
**FP32 using Tensor Core Ops
环境* ** 任务 加速比
P2.xlarge (1 GPU, Base) DCGAN 4L (PyTorch) 1.0倍
P3.2xlarge (1 GPU) DCGAN 4L (PyTorch) 1.6倍
P2.16xlarge (1 K80, Base) Resnet50 Imagenet (TF) 1.0倍
P2.16xlarge (8 K80, Horovod) Resnet50 Imagenet (TF) 6.5倍
P3.16xlarge (1 V100) Resnet50 Imagenet (TF) 1.9倍
P3.16xlarge (8 V100, Horovod) Resnet50 Imagenet (TF) 14.9倍
P3.16xlarge (7 x 8 V100, Horovod) Resnet50 Imagenet (TF) 71.6倍
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
ML 按需超级计算
o 客户端(人员或生产流程)可以调度异步训练或推理作业
o 可以从 Jupyter 笔记本无缝开启工作
o 使用一个或多个 GPU...甚至跨多个节点进行分布式训练
o 异构…混合 ML 模型o 保持节点为“热”的状态o NVLink 支持节点间准线性扩缩o 弹性
?
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
谢谢!
©2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
我们希望您喜欢今天的内容!也请帮助我们完成反馈问卷。
欲获取关于 AWS 的更多信息和技术内容,可以通过以下方式找到我们:
感谢参加 AWS 在线研讨会
微信订阅号:AWS 云计算(awschina)
新浪微博:https://www.weibo.com/amazonaws/
视频中心:http://aws.amazon.bokecc.com/
更多线上活动:https://aws.amazon.com/cn/about-aws/events/webinar/
微信服务号:AWS Builder 俱乐部(amazonaws)
抖音:亚马逊云计算(抖音号:266052872)
博客:https://amazonaws-china.com/cn/blogs/china
AWS 中国账户注册
AWS 全球账户注册