ai 基础架构资源的演进与选择 - 亚马逊云科技

AWS 中国（宁夏）区域由西云数据运营AWS 中国（北京）区域由光环新网运营AWS 中国（宁夏）区域由西云数据运营AWS 中国（北京）区域由光环新网运营

Jun XU

Mar. 17, 2020

AI 基础架构资源的演进与选择CPU, GPU, FPGA and ASIC (AWS Inferentia)

©2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

AWS 中国（宁夏）区域由西云数据运营AWS 中国（北京）区域由光环新网运营

概览选择合适的 Amazon EC2 实例用于训练选择合适的 Amazon 计算资源用于推理FPGA 加速计算参考案例


概览


CPU、GPU、FPGA、AS IC比较

• 数10至数100个处理器核心

• 预定义的指令集和数据通路宽度

• 为通用计算而优化

CPU

• 数1,000个处理器核心• 预定义的指令集和数据通路宽度

• 并行执行效率高

GPU

• 数百万个可编程数字逻辑单元

• 无预定义的指令集或数据通路宽度

•提供硬件定时的速度和稳定性

FPGA

DRAM

ControlALU

ALU

Cache

DRAM

ALU

ALUControl

ALU

ALU

Cache

DRAM

ALU

ALU

ControlALU

ALU

Cache

DRAM

ALU

ALUControl

ALU

ALU

Cache

DRAM

ALU

ALU

• 针对特定用途/功能的优化和定制设计

• 通过API提供预定义软件体验

ASIC


ASIC

示意性图表，仅供参考

GPUCPU

性能

/瓦特

应用

使用定制芯片优化ML性能

FPGA


AWS上的加速计算

Nvidia Tesla V100 GPU

o 启用高度并行性-每个GPU都有数千个内核

o 一致且文档齐全的API集（CUDA，OpenACC，OpenCL）

o 得到各种ISV和开源框架的支持

Xilinx UltraScale+ FPGA

o 大规模并行-每个FPGA包括数百万个并行系统逻辑单元

o 灵活：没有固定的指令集，可以实现或宽或窄的数据通路

o 可编程，基于云的FPGA开发工具箱

P3: GPU 加速的计算 F1: FPGA 加速的计算


GPU和FPGA中的并行处理

GPU：可以有效并行处理相同指令。例如，并行计算像素值以进行图形着色或并行执行多个财务计算。 GPU具有定义明确的指令集和固定的字长。

FPGA：可以有效并行处理相同或不同指令。例如，在视频流上创建并行，多级操作的复杂流水线，或执行一系列相关的计算和数据处理以进行基因组处理。 FPGA没有预定义的指令集或固定的数据宽度。


视觉语音文本搜索聊天机器人个性化推荐预测欺诈检测应用部署呼叫中心

Amazon SageMaker

Ground

Truth

Augmented

AI

ML

MarketplaceNeo

Built-in

algorithmsNotebooks Experiments

Model

training &

tuning

Debugger AutopilotModel

hostingModel Monitor

深度学习AMIs 及容器

GPUs &

CPUs弹性推理推理芯片 FPGA

AmazonRekognition

AmazonPolly

AmazonTranscribe

+Medical

AmazonComprehend

+Medical

AmazonTranslate

AmazonLex

AmazonPersonalize

AmazonForecast

AmazonFraud Detector

AmazonCodeGuru

人工智能服务

机器学习服务

机器学习框架和基础设施

AmazonTextract

AmazonKendra

Contact Lens

For Amazon Connect

SageMaker Studio IDE

新

新

!新! 新! 新!

新!

新! 新! 新! 新! 新!

AWS机器学习堆栈


业务问题

机器学习问题界定

数据收集

数据整合

数据准备和清洗

数据可视化和分析

特征工程

模型训练和参数调优

模型评估

监控和调试

模型部署

推理

是否达到业务目标？

是否

数据增强或扩充

特征增强或扩充

再训练

机器学习生命周期


选择合适的 Amazon EC2 实例用于训练

10


https://aws.amazon.com/sagemaker/pricing/instance-types/

实例家族 t family m family r family c family p family g family Inf1Elastic

Inference

工作负载类型短任务/

Notebooks标准

CPU/内存比内存优化计算优化

计算加速训练和推理

推理加速小训练任务

计算加速推理

低成本推理加速

t3.2xlarge

8 vCPU

32 Mem

m5.2xlarge

8 vCPU

32 Mem

r5.2xlarge

8 vCPU

64 Mem

c5.2xlarge

8 vCPU

16 Mem

p3.2xlarge

8 vCPU

61 Mem

1xV100 GPU

g4dn.2xlarge

8 vCPU

32 Mem

1xT4 GPU

A m a zo n 可用于训练的实例类型



•可支持高达 8 个 NVIDIA V100 Tensor

Core GPU

•并可为机器学习和 HPC 应用提供高达100Gbps 的网络吞吐量

•可以实现最高 1 PetaFLOP 的混合精度性能

•提供最新一代的NVIDIA T4 GPU

•高达100 Gbps的网络吞吐量

•高达1.8 TB的本地NVMe存储

•可在生产和图形密集型应用程序中部署机器学习模型

Amazon GPU 实例类型

P3/P3dn GPU 计算实例 G4: GPU 计算实例


NVID IA GPU 矩阵

架构 Tesla GeForce 实例系列GPU

发布日期制造工艺最小实例类型价格/小时

Kepler K80 GTX780 P2 2014.11 28nm p2.2xl 4C/61G $0.90

Maxwell M60 GTX980 G3/G3s 2015.08 16nm g3s.xl 4C/31G $0.75

Pascal P4/P100 GTX1080 N/A 2016.09 16nm N/A N/A

Turing T4 RTX2080 G4 2018.09 12nmg4dn.xl 4C/16G

125G SSD$0.53

Volta V100 N/A P3 2017.06 12nm p3.2xl 8C/61G $3.06


为机器学习训练选择正确的实例类型

o 实例家族：

o 优化时间/成本？

o 模型复杂度

o 模型能否使用GPU做训练？

o 实例大小：

o 需要多少内存/CPU核心？

o 模型能否利用多个GPU？

o 实例个数：

o 模型能否在多台机器上做分布式训练？


Amazon EC2 P3 实例Next Generat ion of GPU

Compute

o 基于 NVIDIA最新的 GPU Tesla V100

o 在单个实例上具有 1 PetaFLOP 的混合精度性能

o 在机器学习场景下，与P2相比最高有14倍的性能提升

o 在高性能计算场景下，与P2相比最高有2.6倍的性能提升

P3

AWS 中国（宁夏）区域由西云数据运营AWS 中国（北京）区域由光环新网运营© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

NVID IA Tes la V100 关键规格

o 采用12纳米制造工艺，具有211亿个晶体管（比上一代 P100 GPU 多40％）

o 与 P100 GPU 相比，其能源效率提高了50％，在相同功率范围内有显著的性能提升

o 每个 GPU 具有专属640个 Tensor 内核，以提高混合精度性能

o 每个 GPU 具有125 TFLOPS 的混合精度性能

o 第二代 NVLink，通过6个 NVLink 端口以25GB/s的速度实现 GPU 到 GPU 的通信，总

计300GB/s

o 16GB GPU 内存，峰值内存带宽为900 GB /秒


用于计算的GPU

a11 a12 a13

a21 a22 a23

a31 a32 a33

Matrix A

b11 b12 b13

b21 b22 b23

b31 b32 b33

Matrix B

a11.b11 + a12.b21 +

a13.b31

a11.b12 + a12.b22 +

a13.b32

a11.b13 + a12.b23 +

a13.b33

a21.b11 + a22.b21 +

a23.b31

a21.b12 + a22.b22 +

a23.b32

a21.b13 + a22.b23 +

a23.b33

a31.b11 + a32.b21 +

a33.b31

a31.b12 + a32.b22 +

a33.b32

a31.b13 + a32.b23 +

a33.b33

Matrix C

这些乘法和累加运算可以在典型GPU中的1000个内核之间并行化

矩阵运算，图像处理，物理仿真均可极大地受益于GPU


用于计算的GPU

矩阵运算，图像处理，物理仿真均可极大地受益于GPU

数值精度:

• 半精度 (FP16) – 16位浮点数• 单精度 (FP32) – 32位浮点数• 双精度 (FP64) – 64位浮点数

a11 a12 a13

a21 a22 a23

a31 a32 a33

Matrix A

b11 b12 b13

b21 b22 b23

b31 b32 b33

Matrix B

a11.b11 + a12.b21 +

a13.b31

a11.b12 + a12.b22 +

a13.b32

a11.b13 + a12.b23 +

a13.b33

a21.b11 + a22.b21 +

a23.b31

a21.b12 + a22.b22 +

a23.b32

a21.b13 + a22.b23 +

a23.b33

a31.b11 + a32.b21 +

a33.b31

a31.b12 + a32.b22 +

a33.b32

a31.b13 + a32.b23 +

a33.b33

Matrix C


新 Tensor 核心

o 除了5,120个 CUDA核心外，每个 Tesla V100 还具有640个Tensor 核心，每个 GPU 具有 125 TFLOPS 的混合精度性能。

o 每个 Tensor 核心都提供一个 4x4x4 矩阵处理阵列，该阵列执行运算 D = A X B +C。

Tesla V100 GPU

a11 a12 a13 a14

a21 a22 a23 a24

a31 a32 a33 a34

a41 a42 a43 a44

A (FP16)

b11 b12 b13 b14

b21 b22 b23 b24

b31 b32 b33 b34

b41 b42 b43 b44

B (FP16)

c11 c12 c13 c14

c21 c22 c23 c24

c31 c32 c33 c34

c41 c42 c43 c44

C (FP16 or FP32)

D(FP16 or FP32)

Source: NVIDIA


GPU 性能比较• NVIDIA GPU 架构：

• Kepler > Maxwell > Pascal > Volta

• P2 实例：使用 K80 加速器（Kepler 架构）

• P3 实例：使用 V100 加速器（Volta 架构）

0

20

40

60

80

100

120

140

K80 P100 V100

Mixed/FP16 Perf (TFLOPS)

0

2

4

6

8

10

12

14

16

K80 P100 V100

FP32 Perf (TFLOPS)

0

1

2

3

4

5

6

7

8

K80 P100 V100

FP64 Perf (TFLOPS)

0

1000

2000

3000

4000

5000

6000

K80 P100 V100

Resnet-50 8 GPU (Images/sec)

14X over K80’s

max perf.

1.7X 2.6X

7.2X

FP32


P3 实例大小和规格

实例大小 GPUs 加速器 (V100)GPU

点对点通信GPU 内存 (GB) vCPUs 内存 (GB) 网络带宽 EBS 带宽

P3.2xlarge 1 1 No 16 8 61 Up to 10Gbps 1.7Gbps

P3.8xlarge 4 4 NVLink 64 32 244 10Gbps 7Gbps


• P2 实例使用了双核 K80 加速器• P2.16xl 可访问8个 K80 加速器（总共16个GPU）



• P3 实例通过 NVLink 提供 GPU 到GPU 的数据传输

• P2 实例通过 PCI Express 提供GPU 到 GPU 的数据传输








• P3.16xl 支持高达 25Gbps 的网络带宽

• 与 P2 实例相比，EBS 性能提高40％







描述 P3.16xlarge P2.16xlarge P3 GPU 性能提升

GPU 数量 8 16 -

加速器数量 8 (V100) 8 (K80)

GPU –点对点通信 NVLink – 300 GB/s PCI-Express - 32 GB/s 9.4倍

CPU 到 GPU 的吞吐量

每个 GPU 的 PCIe 吞吐量8 GB/s 1 GB/s 8倍

CPU 到 GPU 的吞吐量

实例 PCIe 的总吞吐量

64 GB/s

(4 x16 Gen3)

16 GB/s

(1 x16 Gen3)4倍

P3 与 P2 点对点通信配置对比


P3 PC Ie 和 NVLink 配置CPU0

GPU0

GPU1

GPU2

GPU3

PCIe Switches

CPU1

GPU4

GPU5

GPU6

GPU7

PCIe Switches

QPI

NVLink


P3 PC Ie 和 NVLink 配置CPU0

GPU0

GPU1

GPU2

GPU3

PCIe Switches

CPU1

GPU4

GPU5

GPU6

GPU7

PCIe Switches

QPI

0xFF

0xFF

PC

I E

xp

ress

NVLink

0xFF

0xFF


P3实例的使用场景

Machine Learning/AI High-Performance Computing

Natural Language

Processing

Image and Video

recognition

Autonomous vehicle

systems

Recommendation

Systems

Computational Fluid

Dynamics

Financial and Data

Analytics

Weather

Simulation

Computational

Chemistry


P3 实例摘要

o 业界最强大的基于GPU的平台

o 基于NVIDIA最新的GPU Tesla V100

o 与P2相比，机器学习用例的性能提高了14倍

o 与P2相比，高性能计算用例的性能提升高达2.6倍


选择合适的 Amazon 计算资源用于推理

29


推理与训练

推理

o 通常在单个输入上实时运行o 非计算/内存密集型o 集成到应用程序堆栈工作流程中o 在边缘和云中的不同设备上运行o 一直运行

训练

o 需要高并行度和大批量处理能力，以实现更高的吞吐量

o 计算/内存密集型o 独立，未集成到应用程序堆栈中o 在云端运行o 通常运行频率较低（训练一次，不经常重复）


Inference90%

Training10%

ML 基础设施成本占比



具有 GPU / 推理芯片的实例

实例家族 t family m family r family c family p family g family Inf1Elastic

Inference

工作负载类型短任务/

Notebooks标准 CPU/

内存比内存优化计算优化

计算加速训练和推理

推理加速小训练任务

计算加速推理

低成本推理加速

A m a zo n 可用于推理的实例类型



o 高吞吐量、低延迟

o 配备16个AWS设计的Inferentia 加速器，高达2000个 TFLOPS

o 云端单次推理成本最低

o 高性能，低延迟，降低了GPU 实例的单次推理成本

o 配备8个 NVIDIA T4 GPU，高达1030 TOPS 计算能力

o GPU实例中单次推理成本最低

o 针对训练进行了优化

o 专为大型分布式训练而设计，以最快的速度进行训练

o 未完全用于推理

推理实例比较

P3/P3dn G4 AWS Inf1


Amazon EC2 In f1 实例

o EC2 Inf1 实例有 4 种大小可供选择o AWS 自定义英特尔 Cascade Lake CPU，高达

100Gbps 网络带宽o Tensor 处理管道能力

o Inferentia 芯片之间有 256Gbps 芯片到芯片互连


但是，GPU 实例可能无法充分利用

一种实例大小无法满足所有使用场景的需求

利用率低，成本高


推理部署可能不理想

在独立的 GPU 实例集群上运行模型推理，并从主应用程序调用

o 工作繁重，代价昂贵且效率低下

在 GPU 实例上同时部署模型推理和应用程序堆栈o 主机和加速器资源不匹配可能导致资源过度配置


Amazon 弹性推理

按需匹配计算容量 1 到 32 TFLOPS 以及1 到 8 GB GPU 内存

主要特点

与Amazon EC2、AmazonECS、Amazon

SageMaker、AWS DL AMIs 和 AWS DL 容器集

成

支持 TensorFlow, Apache MXNet, ONNX

更多功能即将推出

支持单精度和混合精度

将推理成本降低高达75%


EI 如何与 Amazon SageMaker 合作？Amazon SageMaker 笔记本

o 本地模式下使用笔记本进行原型部署

Amazon SageMaker 托管终端节点

o 使用低成本弹性推理加速对推理终端节点进行扩缩


加速器大小根据推理量身定制

加速器类型FP32 吞吐量(TFLOPS)

FP16 吞吐量(TFLOPS)

加速器内存 (GB)价格 ($/hr)

(US)

eia2.medium 1 8 2 $0.12

eia2.large 2 16 4 $0.24

eia2.xlarge 4 32 8 $0.34

可以附加到任何 Amazon EC2 实例, Amazon SageMaker 实例类型或Amazon ECS 任务.

可用区域：N. Virginia, Ohio, Oregon, Dublin, Seoul and Tokyo (仅 eia1)

*eia1 是Amazon第一个 EIA 系列，内存高达 4 GB


选择正确的推理选项

o GPU 内存

o 目标延迟

o 吞吐量

o 自定义 CUDA/cuDNN 代码、自定义运算符、自定义 TensorRT

其他注意事项

o 如果需要更多容量，则从小到大扩容

o 输入/输出数据负载对延迟有影响

o 转换为 FP16，实现更低的延迟和更高的吞吐量

进行POC测试：模型与输入相关，这是找到符合您的业务场景的最佳方式。


FPGA 加速计算

41


o 使 FPGA 作为标准的 AWS 实例提供给大型开发社区和数百万潜在客户

o 通过提供基于云的 FPGA 和 C/C++软件开发流程，简化开发流程

o 允许开发人员通过使用定义良好的接口抽象 FPGA I/O，专注于算法设计

o 为 FPGA 应用提供Marketplace，为所有 AWS 客户提供更多选择和轻松访问

使用 F1 的 FPGA 加速的目标


o 单台实例最多 8 个 Xilinx UltraScale+ 16nm VU9P FPGA 器件

o 实例 f1.16xlarge 提供：

o 八个 FPGA，每个具有超过 200 万个客户可访问的 FPGA 可编程逻辑单元和5000 多个可编程 DSP 模块

o 八个 FPGA 中的每一个都有四个 DDR-4 接口，每个接口访问一个 16GiB，72

位宽的 ECC 保护的内存

实例大小 FPGAs DDR-4

(GiB)

vCPUs 实例内存 (GiB) NVMe 实例存储

(GB)

网络带宽

f1.2xlarge 1 4 x 16 8 122 1 x 470 Up to 10 Gbps

f1.16xlarge 8 32 x 16 64 976 4 x 940 25 Gbps

F1 FPGA 实例类型


FPGA 中的并行处理

FPGA可有效地并行处理多种类型的数据

o 基因组学研究

o 财务分析

o 实时视频处理

o 高通量图像处理

o 大数据搜索和分析

o 网络和安全性


….

….

module filter1 (clock, rst, strm_in, strm_out)

for (i=0; i<NUMUNITS; i=i+1)

always@(posedge clock)

integer i,j; //index for loops

tmp_kernel[j] = k[i*OFFSETX];

CPU handles the rest

Application

….

….

….

….

….

….

….

AWS FPGA 加速的工作原理

FPGA 处理计算密集型、

深度管道化、硬件加速操作


深度管道化的概念

单核多核管道

* Source: https://www.legupcomputing.com/blog/index.php/2018/05/01/deep-dive-into-the-worlds-fastest-cloud-hosted-memcached/

https://www.legupcomputing.com/blog/index.php/2018/05/01/deep-dive-into-the-worlds-fastest-cloud-hosted-memcached/


AWS FPGA Shell

提供标准、预测试和安全的 I/O 组件，使FPGA 开发人员能够专注于其差异化价值

Hardware Development Kit (HDK)

提供所需的 FPGA Shell 组件和配置文件

Software Development Kit (SDK)

为 FPGA 管理和通信提供所需的软件

Amazon EC2 F1 开发人员视图

SDK

HDK

Software

Application

Custom Logic

AWS FPGA Shell

https://github.com/aws/aws-fpga

https://github.com/aws/aws-fpga


开发自定义加速

FPGA 开发者 AMI

预先集成了描述和模拟 FPGA 逻辑所需的所有工具（使用 HDK）

Xilinx Vivado 用于自定义逻辑开发 Virtual JTAG 用于交互式调试


摘要 – 使用 F1 进行 FPGA 加速

o FPGA 加速为基因组学应用带来高达 43 倍的性能提升

o 使用 Amazon S3 流式传输 I/O 可大大提高吞吐量

o 使用 F1.16xlarge 在多个 FPGA 上并行化，以产生4倍以上额外加速

o 按秒计费和竞价实例提供了额外成本节约的机会

o 通过 AWS Marketplace 部署到 F1 FPGA 实例，使加速基因组学广泛可用


参考案例Machine Learning @ A i r b n b

50


创造一个美好的世界，当人们旅行时可以体验当地文化，并有独特的旅行体验。

Ai rbnb 的使命


4 百万

个 Airbnb 房

源列表

65,000

个城市上线

Airbnb的房源

191+

个国家提供有

Airbnb 服务

2亿+

Airbnb 客人随

时抵达

Ai rbnb 统计数据


市场动态


更多机器学习示例

o 定价：智能定价建议

o 风险：不良行为人检测、社区安全

o 访客增长：最佳广告预算

o 体验：个性化、建议

o 付款：路由

o 客户服务：机票路由

o …


聚类策略


机器学习基础设施的使命

为Airbnb配备共享技术，以构建不会增加复杂性、并适用于生产环境的ML应用程序。


核心 ML

编排

数据收集

训练

推理

监控

训练逻辑存储

大实例

服务工具

监控

从这里开始

ML 工作流


通用 ML 工作流

识别问题

选择特征

编码/嵌入

训练选择模型

超参数调优

批量推理

在线推理


在通用 ML 工作流中的计算

识别问题

选择特征

编码/嵌入

训练选择模型

超参数调优

批量推理

在线推理

远程

本地


若干常见问题

o 人们想尝试许多不同的模型

o 训练速度慢/计算费用高

o 超参数调优？串行不是很好…并行又很棘手

o 当前为每个用户提供一个 P2/P3 组合配置

o 除去训练时段，通常处于空闲状态

o 扩缩不理想

o 人们想要使用各种不同的框架（Tensorflow、PyTorch 等）


BigHead：端到端 ML

o 借助于 Docker，开发与生产无缝结合

o 使用 Jupyter 笔记本或普通 Python 脚本

o 借助于 ML Pipeline，在同一模型中混合和匹配多种框架

o 特征工程就像用购物车购物

o 对模型实行版本控制

o 随时随地开发...但是使用“超级计算机”排队进行训练

o 无需附加代码，即可部署到生产环境

Redspot Zipline BigQueue

ModelRepo DeepThought

环境特征工程计算

管理部署


P2/P3 性能对比

*Ubuntu 14.04 LTS w/ Intel MKL, Cuda 9, CuDNN 7, NCCL 2

Tensorflow from master w/ patches for Volta, PyTorch from master w/ custom (volta) patches for MAGMA

**FP32 using Tensor Core Ops

环境* ** 任务加速比

P2.xlarge (1 GPU, Base) DCGAN 4L (PyTorch) 1.0倍

P3.2xlarge (1 GPU) DCGAN 4L (PyTorch) 1.6倍

P2.16xlarge (1 K80, Base) Resnet50 Imagenet (TF) 1.0倍

P2.16xlarge (8 K80, Horovod) Resnet50 Imagenet (TF) 6.5倍

P3.16xlarge (1 V100) Resnet50 Imagenet (TF) 1.9倍

P3.16xlarge (8 V100, Horovod) Resnet50 Imagenet (TF) 14.9倍

P3.16xlarge (7 x 8 V100, Horovod) Resnet50 Imagenet (TF) 71.6倍


ML 按需超级计算

o 客户端（人员或生产流程）可以调度异步训练或推理作业

o 可以从 Jupyter 笔记本无缝开启工作

o 使用一个或多个 GPU...甚至跨多个节点进行分布式训练

o 异构…混合 ML 模型o 保持节点为“热”的状态o NVLink 支持节点间准线性扩缩o 弹性

?


我们希望您喜欢今天的内容！也请帮助我们完成反馈问卷。

欲获取关于 AWS 的更多信息和技术内容，可以通过以下方式找到我们：

感谢参加 AWS 在线研讨会

微信订阅号：AWS 云计算（awschina）

新浪微博：https://www.weibo.com/amazonaws/

视频中心：http://aws.amazon.bokecc.com/

更多线上活动：https://aws.amazon.com/cn/about-aws/events/webinar/

微信服务号：AWS Builder 俱乐部（amazonaws）

抖音：亚马逊云计算（抖音号：266052872）

博客：https://amazonaws-china.com/cn/blogs/china

AWS 中国账户注册

AWS 全球账户注册

ai 基础架构资源的演进与选择 - 亚马逊云科技

Documents