Инструментарий nvidia для deep learning

Антон Джораев, [email protected]

РЕШЕНИЯ NVIDIA ДЛЯDEEP LEARNING

2

Искусственный интеллектКомпьютерная графикаВычисления на GPU

NVIDIA“THE AI COMPUTING COMPANY”

3

GPU NVIDIA В

МОЩНЕЙШИХ

СУПЕРКОМПЬЮТЕРАХ

МИРА РАБОТАЮТ НА

РАЗВИТИЕ НАУКИ И

ИСКУССТВЕННОГО

ИНТЕЛЛЕКТА

4

ISC KEYNOTE: HPC AND AI

“Investments in computer systems — and I think the

bleeding-edge of AI, and deep learning specifically,

is shifting to HPC — can cut down the time to run an

experiment, and therefore go around the circle,

from a week to a day and sometimes even faster.”

— Andrew Ng, Baidu

“…deep learning and cognitively enabled applications

are driving large-scale high-performance computing

(HPC) projects that are heavier on GPUs. IDC expects

major advances and potential large build-outs…”

— IDC

5

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ПОВСЮДУ

“где я припарковал машину?”

“найти сумку которую я только что видел в журнале”

“какой следующий фильм мне посмотреть?”

6

ВЛИЯЕТ НА НАШУ ЖИЗНЬ

Сводит родные души ломая языковые барьеры

Указывает на предрасположенность к заболеваниям чтобы их избежать

Позволяет незрячим видеть мир, читать эмоции собеседников

7

ДВИЖЕТ РАЗВИТИЕ ВСЕХ ОТРАСЛЕЙ

Видеоаналитика увеличивает безопасность в ТЦ, аэропортах…

Интеллектуальные сервисы и в отелях, банках, магазинах

На 90% снижает расход химикатов в сельском хозяйстве

8

72%

74%

84%

88%

93%

96%

2010 2011 2012 2013 2014 2015

МАССОВАЯ АДАПТАЦИЯБЛАГОДАРЯ СВЕРХЧЕЛОВЕСКИМ

РЕЗУЛЬТАТАМ

Глубокое обучение

ImageNet — точность %

Облачные сервисы, использующие ИИ, на базе NVIDIA

Alibaba/Aliyun Amazon Baidu eBay Facebook

Flickr Google iFLYTEK iQIYI JD.com

Orange Periscope Pinterest Qihoo 360 Shazam

Skype Sogou Twitter Yahoo Supermarket Yandex YelpЗапрограммированные детекторы

Человек

74%76%

9

РАСПОЗНАВАНИЕ ДОРОЖНЫХ ЗНАКОВ

Человек способен распознать 98.81%

Глубокая нейронная сеть 99.17%

The German Traffic Sign Recognition Benchmark

10

ДЛЯ DEEP LEARNING НУЖЕН ДРУГОЙ ЦOД

ОБУЧЕНИЕ НЕЙРОСЕТИ

ПРИМЕНЕНИЕ НЕЙРОСЕТИ

Данные и пользователи

Масштабируемая производительность

Эффективность и пропускная способность

Миллиарды TFLOPS на цикл обучения

Годы вычислений на Xeon CPU

GPU превращают годы в дни

Миллиарды TFLOPS для inference

Секунды на ответ с Xeon CPU

GPU для мгновенной реакции

11

ПЛАТФОРМА NVIDIA ДЛЯ DEEP LEARNING

NVIDIA DEEP LEARNING SDK

РАЗРАБОТКА С DIGITS TensorRT

ОБУЧЕННАЯ МОДЕЛЬ

НАБОР ДАННЫХ

ДЛЯ ОБУЧЕНИЯ

ОБУЧЕНИЕ

УПРАВЛЕНИЕ ДАННЫМИ

ОЦЕНКА МОДЕЛИ

EMBEDDED

AUTOMOTIVE

DATA CENTER

12

0 50 100 150 200 250 300

P40

P4

1x CPU (14 cores)

Время исполнения inference (мс)

11 мс

6 мс

Пользовательский опыт: мгновенный ответPascal + TensorRT в 45 раз быстрее

Интеллектуальные сервисы вроде распознавания голоса или перевода речи работают быстрее.Эффективный inference на изображениях, видео и др. данных в production ЦОД.

Based on VGG-19 from IntelCaffe Github: https://github.com/intel/caffe/tree/master/models/mkl2017_vgg_19CPU: IntelCaffe, batch size = 4, Intel E5-2690v4, using Intel MKL 2017 | GPU: Caffe, batch size = 4, using TensorRT internal version

NVIDIA TensorRTВысокопроизводительный фреймворк для Inference

260 мс

13

40x Efficient vs CPU, 8x Efficient vs FPGA

0

50

100

150

200

AlexNet

CPU FPGA 1x M4 (FP32) 1x P4 (INT8)

Images/

Sec/W

att

Максимальная эффективность для масштабируемых серверов

P4

# of CUDA Cores 2560

Peak Single Precision 5.5 TeraFLOPS

Peak INT8 22 TOPS

Low Precision4x 8-bit vector dot product

with 32-bit accumulate

Video Engines 1x decode engine, 2x encode engine

GDDR5 Memory 8 GB @ 192 GB/s

Power 50W & 75 W

AlexNet, batch size = 128, CPU: Intel E5-2690v4 using Intel MKL 2017, FPGA is Arria10-1151x M4/P4 in node, P4 board power at 56W, P4 GPU power at 36W, M4 board power at 57W, M4 GPU power at 39W, Perf/W chart using GPU power

TESLA P4

14

TESLA P40

P40

# of CUDA Cores 3840

Peak Single Precision 12 TeraFLOPS

Peak INT8 47 TOPS

Low Precision4x 8-bit vector dot product

with 32-bit accumulate

Video Engines 1x decode engine, 2x encode engines

GDDR5 Memory 24 GB @ 346 GB/s

Power 250W

0

20 000

40 000

60 000

80 000

100 000

GoogLeNet AlexNet

8x M40 (FP32) 8x P40 (INT8)

Images/

Sec

4x Boost in Less than One Year

GoogLeNet, AlexNet, batch size = 128, CPU: Dual Socket Intel E5-2697v4

Максимальная пропускная способность для масштабируемых серверов

15

P40/P4: INFERENCE-ИНСТРУКЦИИ “INT8”

• Операция Integer 8-bit Dot Product with 32-bit accumulate

• Поддерживаются только на P40/P4

A0A1A2A3

B0B1B2B3

A0 * B0

A1 * B1

A2 * B2

A3 * B3

4x INT8

4x INT8

INT32

intermediate

INT32

intermediate

INT32

intermediate

INT32

intermediate

INT32C

INT32

ПРОДУКТ ТОЧНОСТЬ INFERENCE TOPS*

M4 FP32 2.2

M40 FP32 7

P100 FP16 21.2

P4 INT8 22

P40 INT8 47

*TOPS = Tera-Operations per second, base on boost clocks

17

Jetson TX1

JETSON TX1

GPU 1 TFLOP/s 256-core Maxwell

CPU 64-bit ARM A57 CPUs

Memory 4 GB LPDDR4 | 25.6 GB/s

Video decode 4K 60Hz

Video encode 4K 30Hz

CSI Up to 6 cameras | 1400 Mpix/s

Display 2x DSI, 1x eDP 1.4, 1x DP 1.2/HDMI

Wifi 802.11 2x2 ac

Networking 1 Gigabit Ethernet

PCIE Gen 2 1x1 + 1x4

Storage 16 GB eMMC, SDIO, SATA

Other 3x UART, 3x SPI, 4x I2C, 4x I2S, GPIOs

18

Jetson TX1 Developer Kit

19

NVIDIA DEEPSTREAM SDKРеализация видео-аналитики в масштабе

Inference

PreprocessHardware Decode

“Boy playing soccer”

Простой, высокопроизводительный API для видео-аналитики

Decode H.264, HEVC, MPEG-2, MPEG-4, VP9

Исполняемый на CUDA resize and scale

TensorRT

0

20

40

60

80

100

1x Tesla P4 Server +DeepStream SDK

13x E5-2650 v4 Servers

Количеств

о п

ото

ков в

идео

Параллельная обработка видео-потоков

720p30 decode | IntelCaffe using dual socket E5-2650 v4 CPU servers, Intel MKL 2017Based on GoogLeNet optimized by Intel: https://github.com/intel/caffe/tree/master/models/mkl2017_googlenet_v2

20

P100 ДЛЯ САМОГО БЫСТРОГО ОБУЧЕНИЯ

M40 MAXWELL P40 PASCAL P100 PASCAL

FP16 / FP32 (TFLOPs)

NA / 7 NA / 12 21.2 / 10.6

Register File 6 MB 7.5 MB 14 MB

Memory BW 288 GB/s 346 GB/s 732 GB/s

Chip-Chip BW 32 GB/s (PCIE) 32 GB/s (PCIE)160 GB/s (NVLINK)

+ 32 GB/s (PCIE)

Mem Size (Max DL model size)

24 GB 24 GB 16GB x 8 (Model Parallel)

22

Производительность здесь и сейчас — plug-and-play, поддержка всех фреймворков глубокого обучения

Оптимизация всех компонетов решения для максимальной производителности

Постоянные обновления из облака

Поддержка нескольких, одновременно работающих фреймворков, благодаря контейнеризации

Доступ к экспертам NVIDIA

ПРОГРАММНЫЙ СТЕК DGXПолностью интегрированная платформа для глубокого обучения

23

ПЛАТФОРМА TESLA ДЛЯ DEEP LEARNING

ОБУЧЕНИЕ INFERENCE

Система для обучения DIGITS

Deep Learning фреймворки

Tesla P100

DGX-1

DeepStream SDK

TensorRT

Tesla P40 & Tesla P4

24

ПОРТАЛ ДЛЯ РАЗРАБОТЧИКОВ

http://developer.nvidia.com

Место размещения всех инструментов, руководств и др.ресурсов

http://developer.nvidia.com/

25

ЛЕКЦИЯ/МАСТЕР-КЛАСС ПО DL В МГУ И МФТИ

[email protected]

Антон Джораев

Напишите мне, я вышлю приглашение, участие свободное

mailto:[email protected]

Антон Джораев, [email protected]

РЕШЕНИЯ NVIDIA ДЛЯDEEP LEARNING

Инструментарий nvidia для deep learning

Technology