1000: 基調講演

73
エヌビディア コーポレーション ソリューション アーキテクチャ & エンジニアリング 副社長 マーク・ハミルトン 基調講演

Upload: nvidia-japan

Post on 24-Jan-2017

1.782 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: 1000: 基調講演

エヌビディア コーポレーション ソリューション アーキテクチャ & エンジニアリング

副社長 マーク・ハミルトン

基調講演

Page 2: 1000: 基調講演

ビジュアルコンピューティングの世界的リーダー

ENTERPRISE 自動車ゲーム HPC & クラウドエンタープライズ

Page 3: 1000: 基調講演

GPU コンピューティングの大きな飛躍20152008

3,000,000CUDA ダウンロード

150,000CUDA ダウンロード

60,000 学術論文

4,000学術論文

800大学の CUDA コース

60大学の CUDA コース

54,000スーパーコンピューティングテラフロップス

77スーパーコンピューティング

テラフロップス

450,000Tesla GPU

6,000Tesla GPU

319CUDA アプリ

27CUDA アプリ

Page 4: 1000: 基調講演

GEFORCE NOW

You listen to music on Spotify. You watch movies on Netflix. GeForce Now lets you play games the same way.

Instantly stream the latest titles from our powerful cloud-gaming supercomputers. Think of it as your game console in the sky.

Gaming is now easy and instant.

先進のレンダリングから仮想PCまで

製品の可視化建築サイエンス

先進のレンダリングが可能にする次世代バーチャル製品開発

GRID 2.0 が実現する拡張性、仮想 PC におけるセキュリティ

リアルタイム可視化が HPC データセンターに新たな価値を

建築

製品デザイン

リアルタイム可視化

Page 5: 1000: 基調講演

東京工業大学学術国際情報センター 副センター長GPU コンピューティング研究会 主査共同利用推進室 室長

CUDA Fellow 青木尊之教授

Page 6: 1000: 基調講演

スパコンにおける VDI の必要性

大規模データ 数100GB~数10TB

プリ・ポスト処理(可視化)

※ 膨大なデータ転送時間

※ 巨大なローカルストレージ

数時間~数日 (~数10MB/s)

Page 7: 1000: 基調講演

大規模データ 数100GB~数10TB

プリ・ポスト処理

※ データ転送時間の削減

※ セキュリティの大幅向上

スパコンにおける VDI の必要性

シンクライアント デスクトップ画面のみインターネット (~10Mbps)

スパコン直結VDIシステム

Page 8: 1000: 基調講演

TSUBAME2.5直結 VDI システム (概要)計算ノード 4224 GPU (Tesla K20X)

NVIDIA GRID K2 x 3

HP ProLiant SL250s × 3Xeon(R) CPU E5-2660 v2

2.20GHz ×2

128GB

インターネット

Page 9: 1000: 基調講演

TSUBAMEで動作するCAEアプリケーションのインタラクティブ・ポスト処理(CST MWStudio)

TSUBAMEで行った大規模計算をTSUBAME上で可視化した計算結果のフルHD

動画再生

個別要素法の粒子計算によるバンカーショット (1670万個)

粒子法(SPH) による多数の浮遊物を含んだ津波シミュレーション (8700万個)

メッシュ(VOF) 法による気液二相流シミュレーション (1.1億メッシュ)

TSUBAME2.5直結 VDI システム (デモ)

Page 10: 1000: 基調講演

NVIDIA GRID 2.0

Page 11: 1000: 基調講演

ハイパーバイザ

仮想マシンvGPU

NVIDIA GRID vGPU アーキテクチャ

クライアントデバイス

データセンターサーバー

VMwareHorizon View

CitrixXenDesktop

ゲスト OSWindows

NVIDIA ドライバ

ゲスト OSLinux

NVIDIA ドライバ

仮想マシンvGPU

サーバー

vGPU マネージャー

GRIDCPU

Page 12: 1000: 基調講演

NVIDIA GRID は誰のため?

よりよいユーザーエクスペリエンスを期待する

ビジネスユーザー

中小規模のファイルを扱うエンジニアとデザイナー

最高のグラフィックス性能を必要とする

エンジニアとデザイナー

Page 13: 1000: 基調講演

GRID 拡張仮想ワークステーション

GRID 仮想ワークステーション

GRID 仮想 PC

NVIDIA データセンター GPU (TESLA M6/M60)

ソフトウェア・サポート + アップデートサブスクリプション 一年更新

ソフトウェアライセンス(一括払い)

ハードウェア

NVIDIA GRID 2.0

Page 14: 1000: 基調講演

ディープラーニング

Page 15: 1000: 基調講演

典型的なネットワーク例

ディープラーニングとは?

目的

顔認識

トレーニングデータ

1,000万~1億イメージ

ネットワークアーキテクチャ

10 層

10 億パラメータ

ラーニングアルゴリズム

30 エクサフロップスの計算量

GPU を利用して30日

Page 16: 1000: 基調講演

機械学習ソフトウェア

“亀”

フォワード プロパゲーション

“亀” から “犬” へ計算の重み付けを更新

バックワード プロパゲーション

学習済みモデル

“猫”

反復

トレーニング

推論

Page 17: 1000: 基調講演

なぜディープラーニングが注目を集めるのか?

ビッグデータの存在 GPU の計算パワー新しいアルゴリズム

毎日 3億5000万枚の画像がアップロード

毎時 2.5 ペタバイトの顧客データ

毎分 300 時間分のビデオがアップロード

Page 18: 1000: 基調講演

エヌビディア ディープラーニング

アプリケーション

DIGITS ツール

開発 運用

ディープラーニング フレームワーク

ソフトウェア システム ハードウェア ソフトウェア システム ハードウェア

cuDNN DevBox TITAN X システム管理 TESLA

Page 19: 1000: 基調講演

NVIDIA cuDNN

ハイパフォーマンス ニューラルネットワーク トレーニング

Caffe、Chainer、Theano、Torch などのディープラーニング フレームワークを GPU で高速化

pooling、ReLU、sigmoid、softmax、TANH など様々なタイプのレイヤーをサポート

最新のエヌビディア GPU アーキテクチャに最適化

Linux、Windows、OSX および Linux for Tegra (ARM) をサポート

GPU が加速するディープラーニング フレームワーク

http://developer.nvidia.com/cuDNN

0

20

40

60

80

cuDNN 1(TITAN Black)

cuDNN 2(TITAN X)

cuDNN 3(TITAN X)

性能向上

1日で学習できる画像の数(100万枚単位)

Page 20: 1000: 基調講演

NVIDIA DIGITSインタラクティブ ディープラーニング GPU トレーニング システム

Test Image

トレーニング進捗確認DNN の構成データ処理 レイヤーの可視化

http://developer.nvidia.com/digits

Page 21: 1000: 基調講演

DIGITS デモ

エヌビディア

CUDA エンジニア

村上真奈

Page 22: 1000: 基調講演

音声認識 画像分析 自然言語処理

エヌビディアが加速するディープラーニング フレームワーク

エンドユーザ アプリケーション

DIGITS

ディープラーニング フレームワーク (Caffe, Chainer, Torch, Theano)

高度に最適化された cuDNN ライブラリ

CUDA プログラミング ツールキット

GPU ハードウェア

Page 23: 1000: 基調講演

GPUコンピューティングDL ライブラリ

DL の技術開発力Chainer

Chainerおよび関連技術の開発期間の短縮

各産業へのディープラーニングの適用を促進

×

Page 24: 1000: 基調講演

株式会社 Preferred Networks

代表取締役社長 西川 徹様

Page 25: 1000: 基調講演

Distributed Cooperative Deep Learning次世代ビッグデータ・IoT技術基盤の確立を目指して

分散協調型強化学習

学習結果はリアルタイムに反映

Page 26: 1000: 基調講演

From Sensing to Controlling ActionIoT デバイスはセンシングだけでなくリモートでのコントロール・アクションを実現する

Data Collection

Control

Sensing

Cooperate

Page 27: 1000: 基調講演

Chainer

ChainerはCUDAを採用

GPUを数行のコードで動かせる

複数GPUでの実行も可能

パワフル

Pythonの任意の制御構文を使って逆伝播可能なコードが書ける

コードは直観的で、デバッグも容易

直観的

様々なネットワークアーキテクチャをサポート

feed-forward、convnet、recurrent、 recursive nets

バッチごとに異なるアーキテクチャも記述可能

フレキシブル

A Powerful, Flexible, and Intuitive Framework of Neural Networks

Page 28: 1000: 基調講演

DAVE

ディープラーニングによるロボットナビゲーション

ディープニューラルネットワークが人間の運転手を「見て」、対応を学習

DARPA 自動走行車 (2004年)

“右に曲れ”

“左に曲れ”

Page 29: 1000: 基調講演

エヌビディア コーポレーション 自動車担当シニアディレクター

ダニー・シャピロ

自動運転を目指して

Page 30: 1000: 基調講演

NVIDIA オートモーティブ

世界中の道路に

さらにこれから…

800万台以上

20以上のブランド 100以上のモデル

Page 31: 1000: 基調講演

NVIDIA

Page 32: 1000: 基調講演

フォトリアル デザイン シミュレーション

Page 33: 1000: 基調講演

効率を改善するためのシミュレーション

Page 34: 1000: 基調講演

シミュレーションによるより良い、より速い車作り

Page 35: 1000: 基調講演

実際のクラッシュ クラッシュシミュレーション

シミュレーションによる、より良い、より速い車作り

Page 36: 1000: 基調講演

ソフトウェア ディファインド カー

Page 37: 1000: 基調講演

ソフトウェア ディファインド カー

Page 38: 1000: 基調講演

ソフトウェア ディファインド カー

Page 39: 1000: 基調講演

ソフトウェア ディファインド カー

Page 40: 1000: 基調講演

ソフトウェア ディファインド カー

Page 41: 1000: 基調講演

ソフトウェア ディファインド カー

Page 42: 1000: 基調講演

ソフトウェア ディファインド カー

Page 43: 1000: 基調講演
Page 44: 1000: 基調講演

今日の ADAS

FPGA

CV ASIC

SENSE ACTPLAN

CPU

BRAKE

WARN

Page 45: 1000: 基調講演

次世代の ADAS

ACTSENSE ACT

ACCELERATE

PLAN

STEER

BRAKE

WARN

FPGA

CV ASICCPU

Page 46: 1000: 基調講演

次世代の ADAS

Page 47: 1000: 基調講演

自動運転にはディープラーニングが必須の技術に

FPGA

CV ASIC

SENSE ACT

ACCELERATE

PLAN

CPU

DNN

STEER

BRAKE

WARN

Page 48: 1000: 基調講演

ディープラーニングによる車の分類

画像 “Audi A7”

Image source: “Unsupervised Learning of Hierarchical Representations with Convolutional Deep Belief Networks” ICML 2009 & Comm. ACM 2011.Honglak Lee, Roger Grosse, Rajesh Ranganath, and Andrew Ng.

Page 49: 1000: 基調講演

DRIVE PX 自動運転用カーコンピューター

NVIDIA GPU によるディープラーニングスーパーコンピューター

学習済みのニューラルネットモデル

分類された対象物

!

より良く見える、そして学習する自動車へ

カメラ入力

正しく認識されなかった対象物をフィードバック

Page 50: 1000: 基調講演
Page 51: 1000: 基調講演

NVIDIA DRIVE™ PX自動運転用カーコンピューター

2.3 テラフロップス

12 カメラ入力

センサーフュージョンとディープラーニング

Page 52: 1000: 基調講演

Video: Danny-05

Page 53: 1000: 基調講演

ADAS Today

歩行者

Page 54: 1000: 基調講演

乗用車

Page 55: 1000: 基調講演

スクールバス

Page 56: 1000: 基調講演
Page 57: 1000: 基調講演

救急車

Page 58: 1000: 基調講演

株式会社 ZMP

代表取締役社長 谷口 恒様

Page 59: 1000: 基調講演

©2015 ZMP Inc. All Rights Reserved.

農業機械

自動運転技術

物流支援ロボットタクシー社

様々な応用事業を実現していく

鉱山・建設機械

自律移動技術

ロボット技術

エアロセンス社

Robot of Everything

Page 60: 1000: 基調講演

ZMP RoboCarシリーズにNVIDIA DRIVE PXを採用

©2015 ZMP Inc. All Rights Reserved.

NVIDIA DRIVE PX上で動作するディープラーニングを応用した画像認識ソフトウェアを開発、販売

さらに、RoboCarシリーズとDRIVE PXを組み合わせて販売へ

DRIVE PX

® MiniVan

↓歩行者認識

DNNを使ったヒトの胴体検出とステレオカメラによる距離計測処理

↑ 車両/レーン認識

↑ 信号機認識

DNNによる車両、レーン検知、信号認識

Page 61: 1000: 基調講演

イノベーションのためのモデル

OEM

TIER 1

チップサプライヤー

TIER 1

OEM

SILICON VALLEY

伝統的なモデル

Page 62: 1000: 基調講演

MERCI 月面での自動運転

Page 63: 1000: 基調講演

未来の GPU テクノロジー

Page 64: 1000: 基調講演

2012 20142008 2010 2016 2018

48

36

12

0

24

60

72

TeslaFermi

Kepler

Maxwell

Pascal混合精度演算倍精度演算3D メモリNVLink

Volta

GPU ロードマップ

SG

EM

M /

W

Page 65: 1000: 基調講演

ユニファイドメモリ単一メモリ空間による容易なプログラミング

NVLink ハイスピードインターコネクトPCIE Gen 3 の5倍の性能

メモリバンド幅メモリ容量およびバンド幅の大幅な向上

Pascal: 次世代 GPU

パフォーマンス世界最高の倍精度演算

Page 66: 1000: 基調講演

NVIDIA OpenACC ツールキットアクセラレイテッドコンピューティングへのシンプルかつ強力なパスを無償提供

http://www.nvidia.com/openacc からダウンロード

PGI コンパイラアカデミックユーザーへ OpenACC コンパイラを無償提供

NVProf プロファイラコンパイラディレクティブの挿入箇所を容易に発見

コードサンプル実際のアプリケーションのアルゴリズムから学ぶ

ドキュメントクィックスタートガイド、ベストプラクティス、フォーラム

Page 67: 1000: 基調講演

世界の HPC のリーダーシップへ

2017年運用開始予定

100-300 ペタフロップス

10倍のアプリケーション性能

IBM POWER9 CPU と NVIDIA Volta GPU

NVLink ハイスピードインターコネクト

40,000 個の Volta GPU

CORAL プロジェクト 米国国家戦略計算イニシアティブ

2023年までに米国でエクサフロップスシステムを作る大統領令

ポストムーアの法則時代への明確なパス

現行の米国最速スパコンの30倍の性能

GPU がプレエクサおよびエクサスケールマシンを実現

研究開発予算 5 億ドル (2016-22)

Page 68: 1000: 基調講演

日本アイ・ビー・エム株式会社ハイエンド・システム事業部 理事 朝海 孝様

Page 69: 1000: 基調講演

74

HPCの新潮流 –Data Centric Computing-

IBM POWER9 CPU + NVIDIA Volta GPU

NVLink 超高速インターコネクト

ノード当り 40 テラフロップス以上

3,400ノード以上

2017年稼動予定

SUMMIT SIERRAピーク性能

150-300 ペタフロップスピーク性能

100 ペタフロップス以上

データを動かさずに処理する“新しい設計思想”に準拠したデータセントリックシステム時代の幕開け!

Page 70: 1000: 基調講演

75

ビッグデータの有効利活用で

社会に貢献!

豊かな日本社会へ

データセントリック推進センターで

オープンコラボレーション!

日本発のInnovation

標準製品・低消費電力で

超高速ビッグデータ分析を!

POWER+GPGPU

データセントリック推進センターを日本に開設へ

豊かな日本社会へ POWER + GPGPU 日本発の Innovation

Page 71: 1000: 基調講演

TESLA アクセラレイテッド データセンタープラットフォーム

TESLA データセンター サーバー / ラック

QUADRO

デザイン &

レンダリング

VCA, Iray

DESIGNWORKS

GRID

仮想PC &ワークステーション

vGPU

HPC

OpenACC

CUDA

ディープラーニング

cuDNN

DIGITS

TESLA システム管理およびコミュニケーションミドルウェア

Page 72: 1000: 基調講演

Enjoy GTC Japan 2015!

Page 73: 1000: 基調講演

WELCOME TO THE FUTURE