東京工業大学・gsic(学術国際情報 センター における今後の ......2013/10/10...

9
東京工業大学・GSIC(学術国際情報 センター)における今後のHPCI・スー パコンピュータ研究開発計画 松岡 2013/9/30 HPCI将来のあり方」委員会資料 資料1-3 Copyright © Takayuki Aoki / Global Scientific Information and Computing Center, Tokyo Institute of Technology 2 Graph 500 No. 3 (2011) Awards 3.0 25-30PF 2015H2 2.5 Fast I/O 250TB 300GB/s 30PB/Day 5.7PF Fast I/O 5~10PB 10TB/s (x10 K) 1ExaB/Day 1TB/s TSUBAME 3.0 Towards Ultra Green and Reliable and Extreme Big Data” HPC Convergence TSUBAME 3.0 Towards Ultra Green and Reliable and Extreme Big Data” HPC Convergence

Upload: others

Post on 04-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

東京工業大学・GSIC(学術国際情報センター)における今後のHPCI・スー

パコンピュータ研究開発計画

松岡 聡

2013/9/30「HPCI将来のあり方」委員会資料

資料1-3

Copyright © Takayuki Aoki / Global Scientific Information and Computing Center, Tokyo Institute of Technology 2

Graph 500No. 3 (2011)

Awards

3.0

25-30PF

2015H2

2.5Fast I/O250TB300GB/s30PB/Day

5.7PF

Fast I/O5~10PB10TB/s(x10 京 K)1ExaB/Day

1TB/s

TSUBAME 3.0 Towards Ultra Green and Reliable and ”Extreme Big Data” HPC

Convergence

TSUBAME 3.0 Towards Ultra Green and Reliable and ”Extreme Big Data” HPC

Convergence

Page 2: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

(目的)

項目名

<整備スケジュール>

(整備内容)

平成2012年度補正・TSUBAME2.0スパコンの防災シミュレーション増強(東京工業大学 学術国際情報センター)

現状の課題( 緊急シミュレーション実行の困難)1. 固定的なスケジュール手法 投入ジョブは原則早いもの順に実行 (現状全てのス

パコン)2. 絶対的な計算資源不足 我が国初の「ペタコン」として注目され,すでに繁忙期利用率は>90%, ときには99%

防災シミュレーション環境の増強(ソフト・ハード両面からの対策)

1. 緊急時対応スケジュール手法災害やその兆候の発生時に,TSUBAME2.0上の通常ジョブを緊急停止し,防災シ

ミュレーションをリアルタイム実行し,災害の軽減に寄与するメカニズムを開発・装備

2. 計算資源大規模増強

ペタコン実現のための最重要要素であったGPUアクセラレータを最新型に強化、

防災計画に重要な単精度演算性能を4.8ペタフロップスから世界トップクラスの

17ペタフロップス超へ(倍精度5.7ペタフロップス超)

10

100

1000

10000

2005 2007 2009 2011 2013

演算

性能

(TFl

ops)

倍精度

単精度

Tsubame1.0

Tsubame1.2

Tsubame2.0(単精度4.8PF)Top500 世界4位

TSUBAME2.5単精度17ペタフロップス倍精度5.7ペタフロップス

利用率>90%緊急時実行不能

審査、交付決定

調達手続(1月~)

11.37億円(本補正予算)

計算資源の先行増強

内容 24年度 25年度以降

緊急スケジュール手法開発・計算資源の先行増強

TSUBAME2.0上で多数の大規模防災シミュレーションの実績はあるが、緊急時に実行不能のため、防災シミュレーション環境の増強が急務

波及効果世界に類を見ない超高精度・災害等シミュレーションにより,

・ 安全安心な国づくりへの寄与・ 減災のためのシミュレーション実現可能な人材を,我が国から排出・ 我が国がものづくりで世界をリードするシミュレーションによる新産業創出

⇒地震・津波のメカニズムのより深い分析・解明に向けた防災シミュレーションの超高精細化・リアルタイム化へ、民間利用を含む他のアプリケーションも大幅に加速

9月運用開始予定

NEC Confidential

TSUBAME2.0⇒2.5 計算ノードの進化

4-1

HP SL390G7 (TSUBAME 2.0で開発)GPU: NVIDIA Fermi M2050 x 3

515GFlops, 3GByte メモリ(GPU毎)CPU: Intel Westmere-EP 2.93GHz x2Multi I/O chips, 72 PCI-e (16 x 4 + 4 x 2) lanes --- 3GPUs + 2 IB QDRMemory: 54, 96 GB DDR3-1333SSD:60GBx2, 120GBx2

ThinNode

Infiniband QDR x2 (80Gbps)

Productized as HP ProLiantSL390s

1.6 Tflops400GB/s Mem BW80GBps NW~1KW max

NVIDIA Fermi M20501039/515GFlops

NVIDIA KeplerK20X3950/1300GFlops

Page 3: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

TSUBAME2.0 => 2.5 Changes• Doubled~Tripled performance

– 2.4(DFP)/4.8(SFP) Petaflops => 5.76(x 2.4)/17.1(x3.6)– Preliminary results: ~2.7PF Linpack (x2.25) , ~3.4PF Dandrite GB

app (x1.7)

• Bigger and higher bandwidth GPU memory– 3GB=>6GB per GPU, 150GB/s => 250GB/s

• Higher reliability– Resolved minor HW bug, compute node fail-stop occurrence to

decrease up to 50%

• Lower Power– Observing ~20% drop in power/energy (tentative)

• Better programmability w/new GPU features– Dynamic tasks, HyperQ, CPU/GPU shared memory

• Prolongs TSUBAME2 lifetime by at least 1 year– TSUBAME 3.0 FY 2015 Q4

TSUBAME2.0 TSUBAME2.5Thin Node x 1408 台

Node Machine HP Proliant SL390s ← 変更なし No change

CPU Intel Xeon X5670 (6core 2.93GHz, Westmere) x 2

← 変更なし No change

GPU NVIDIA Tesla M2050 x 3448 CUDA cores (Fermi)

単精度 SFP 1.03TFlops倍精度 DFP .515TFlops

3GiB GDDR5 memory~90GB/s STREAM BW 実測

メモリバンド幅

NVIDIA Tesla K20X x 32688 CUDA cores (Kepler)

単精度 SFP 3.95TFlops倍精度 DFP 1.31TFlops

6GiB GDDR5 memory~180GB/s STREAM BW実測メモ

リバンド幅ノード性能 Node Performance (incl. CPU Turbo boost)

単精度 SFP 3.40TFlops倍精度 DFP 1.70TFlops~300GB/s STREAM BW 実測メモリバンド幅

単精度 SFP 12.2TFlops倍精度 DFP 4.08TFlops~570GB/s STREAM BW実測メモ

リバンド幅

TOTAL System理論演算性能Total Peak Performance

単精度 SFP 4.80PFlops倍精度 DFP 2.40PFlops実測メモリバンド幅~440TB/s

単精度 SFP 17.1PFlops (x3.6倍)倍精度 DFP 5.76PFlops (x2.4倍)実測メモリバンド幅 ~803TB/s (x1.8倍)

Page 4: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

ペタバイト級HDD ストレージ: Total 7.2PB(Lustre+ home)

ノード間相互結合網: フルバイセクション ノンブロッキング 光 QDR InfiniBand ネットワーク

並列ファイルシステム領域6.0PB

ホーム領域1.2PB

Sinet4

StorageTekSL8500

テープシステム~8PB

Storage Servers x30

StorageDDN SFA10000 x5(10 enclosure x5)

Storage Server HP DL360 G6/G8 x26nodesHP DL380 G6 x4nodes

File SytemLustre 3.6PB, GPFS 2.4PB

x5

Voltaire Grid Director 4700 12switchesIB QDR: 324port

Core Switch Edge Switch Edge Switch(10GbE port付き)

Voltaire Grid Director 4036 179switchesIB QDR : 36 port

Voltaire Grid Director 4036E 6 switchesIB QDR:34port10GbE: 2port

12switches

6switches179switches

StorageDDN SFA10000 x110 enclosure x1)

Storage Server HP DL380 G6 x4nodesBlueArc Mercury 100 x2

File SystemNFS, CIFS, iSCSI

管理サーバ群

Thin計算ノード

1408nodes

30node x 42MCS racks, 他148nodes

HP Proliant SL390s G7 1408nodesCPU Intel Westmere-EP X5670 2.93GHz

(Turbo boost 3.2GHz) 12Core/node Mem: 58GB (54GiB) x1367nodes

103GB (96GiB) x41nodesGPU NVIDIA Tesla K20X 1.31TFlops,3GPU/nodeSSD 60GB x 2 120GB ※54GiBメモリ搭載node

120GB x 2 240GB ※96GiBメモリ搭載nodeOS: SUSE Linux Enterprise / Windows HPC Server

Medium計算ノード

HP DL580 G7 24nodes CPU Intel Nehalem-EX 2.0GHz

32Core/node Mem:137GB (128GiB)SSD 120GB x 4 480GBOS: Suse Linux Enterprise Server

Fat計算ノード

HP DL580 G7 10nodesCPU Intel Nehalem-EX 2.0GHz

32Core/node Mem:274GB (256GiB) x8nodes

548GB (512GiB) x2nodesSSD 120GB x 4 480GBOS: Suse Linux Enterprise Server

CPU Total Speed: 216TFLOPS(w/Turbo boost)

Total Speed: 5750TFLOPS

Memory Total:83.5TB (CPU) + 27.2TB (GPU)

SSD Total:173.9TB

CPU Total Speed: 6.14TFLOPS

CPU Total Speed: 2.56TFLOPS・・・・・・

計算ノード: 5.76PFLOPS(CPU+GPU),225TFLOPS(CPU), ~120TBメモリ、>200TB SSD

GSIC:NVIDIA Tesla S1070GPU

PCI –E gen2 x16 x2slot/node

NFS,CIFS servers x4 NFS,CIFS,iSCSI x2

スーパーコンピュータTSUBAME2.5 システム構成

Titenet3

HPCIストレージ 0.6PB

StorageDDN SFA12000 (5 enclosure)

File SytemGFarm

TSUBAME2.0 => 2.5性能 2.40 Petaflops => 5.76 Petaflops

電力消費: 約20%減 (9月9日現在)

2012年9月 2013年9月

Page 5: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

TSUBAME-KFC: ウルトラグリーン・スパコン研究設備(文部科学省概算要求・2011-2015・約2億円)

熱交換器冷媒油 35~45℃⇒水 25~35℃

冷却塔:水 25~35℃⇒自然大気へ

液浸冷却+大気冷却+高密度スパコン技術を統合したコンテナ型研究設備; TSUBAME2の約1/20の電力規模

GRC製液浸サーバラックプロセッサチップ 80~90℃⇒ 冷媒油 35~45℃

サーバ1台あたり• Intel IvyBridge 2.1GHz 6core×2• NVIDIA Tesla K20X GPU ×4• DDR3メモリ 64GB, SSD 120GB• 4x FDR InfiniBand 56Gbps

合計理論性能210TFlops (倍精度)630TFlops (単精度)

• 現在の世界トップ(3GFlops/Watt)以上の電力性能比• 年間のほとんどで、冷却電力5%以下

ねらい

実証実験用計算サーバ群

コンテナ型研究設備20フィートコンテナ(16m2)

• 冷媒油は引火点>250℃のSpectraSyn8を選定(消防確認済)• コンテナ型データセンターは建築確認不要(都庁に確認済)

NEC/SMC高密度1Uサーバ×40台

蒸散熱自然大気中へ

K20X GPU

TSUBAME3.0で10GFlops/W超に向けた実験・技術開発

エクサスケール・スーパーコンピュータ開発プロジェクト(仮称)について

概要:国家の基幹技術である世界最高水準のスーパーコンピュータを国として戦略的に開発・整備することで、科学技術の振興、産業

競争力の強化、安全・安心の国づくり等を実現していくため、「①エクサスケールスーパーコンピュータの開発・整備」と「②エクサスケールスーパーコンピュータを活用するためのアプリケーションの開発」について、迅速な成果創出を図る観点から両者を協調的に推進し、我が国の様々な社会的・科学的課題が要求する性能や諸外国の動向を考慮して、平成32年(2020年)頃までにエクサスケールコンピューティングを実現する。

プロジェクト推進体制:開発主体(現時点では独立行政法人理化学研究所が開発主体候補)を中心として、大学・研究機関、開発企業、ユーザー団体

等から構成される実施体制とする。その際、「京」で蓄積した技術・経験・人材を活用する。また、Co-designの観点から、ハードウェアの開発とアプリケーションの開発は密接に連携して進める。

検討するシステムの一例:・アーキテクチャ:

汎用部+加速部・目標演算性能:

1エクサフロップス級(「京」の100倍)

・消費電力:30~40MW

(「京」は12.7MW)

【アーキテクチャのイメージ図】

プロジェクト推進方策:HPCI計画推進委員会等の議論や今年度末に取りまとめる「将来のHPCIシステムのあり方に関する調査研究」の結果等を踏ま

えながら、我が国のフラッグシップシステムとして主要な社会的・科学的課題の要求性能に対応でき、かつ、コスト/パフォーマンスに優れたエクサスケールスーパーコンピュータについて、加速部(加速機構)を含むアーキテクチャの検討をはじめとする様々な視点からの検討を行う。その際、基本設計や詳細設計が終了した段階でHPCI計画推進委員会等の評価を受けることにより、技術的進展の早いスーパーコンピューティングの分野における本プロジェクトの方向性、進捗の妥当性、合理性等を検証する。

また、CPU等のキーとなる技術については、システムソフトウェアやアプリケーションの開発、人材育成等の観点で国内開発の利点があることから、今後も国内外の技術動向を評価し、柔軟に対応していくことを前提として、現時点では、新たに自主開発することを基本方針とする。

スケジュール:

運用基本設計【システム】

【アプリケーション】

2014年度(平成26年度)

2015年度(平成27年度)

2016年度(平成28年度)

2017年度(平成29年度)

2018年度(平成30年度)

2019年度(平成31年度)

試作・詳細設計

FS 開発・利用

製造 設置・調整

2020年度(平成32年度)

Page 6: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

HPCIセンター群が整備していくリーディングシステム分類

• Flagship-Aligned Commercial Machine (FAC):フラグシップシステムと同様のマシン

– フラグシップシステムユーザの多くを抱えるセンターやフラグシップシステムと同様のシステムを整備することによりユーザニーズに合致するだけでなくよりフラグシップシステムへの橋渡しができると判断するセンターが、フラグシップシステム同様のシステムを整備していく。しかし、スパコン調達では、要求性能および要求機能を仕様とし製品固有機能をMUSTとすることはないために、フラグシップシステムと同系列のシステムが入るとは限らない。

• Complementary Function Leading Machine (CFL):フラグシップシステムがカバーでき

ない応用領域を支援するマシン

– センターが抱えるユーザの応用領域をフラグシップシステムで実行しても必ずしも効率よく実行できるとは限らない。そのようなセンターはユーザニーズに沿ったマシンを設置していく。今後、ユーザニーズのマシンが何らかの開発を含めた形でしか整備できない場合は、その必要性を考慮の上、競争的資金による開発が行われることが望まれる。なお、フラグシップシステムがカバーしない応用領域については、フラグシップシステム開発元が情報開示しないと議論できない。

• Upscale Commodity Cluster Machine (UCC): コモディティクラスタからの大規模並列処

理を支援するマシン

– フラグシップシステムを含むスパコンが研究室レベルにまで下方展開できない限り、研究室レベルではコモディティクラスタが利用され続ける。センターは、そのようなユーザがより大規模並列処理へと向かうような大規模コモディティクラスタを整備していく。

• Technology Path-Forward Machine (TPF): 将来のHPC基盤に向けた先端マシン

– 既存アプリケーションを動かしたいというレベルのユーザニーズではなく、ユーザ応用分野が要求する計算手法や計算資源量を勘案しながら、市場には投入されていない先端マシンを設計試作し、調達手続きを経てマシンを整備していく。ユーザと共にそのような先端マシン上のアプリケーションを開発していくことになる。さらにこのようなシステムを通じて次の世代のフラグシップシステムへとつながっていくだろう。

9 情報基盤センター運用&整備計画 (2013年8月時点)

Fiscal Year 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023

Hokkaido

Tohoku

Tsukuba

Tokyo

Tokyo Tech.

Nagoya

Kyoto

Osaka

Kyushu

T2K Todai (140 TF)50+ PF

100+ PFPostT2K (20+ PF, (100+ TiB, 600TiB, 4.0+ PB/s, 0.68+ PB/s))

Tsubame 3.0 (20~30 PF, 2~6PB/s)1.8MW (Max 3MW)

Tsubame 4.0 (100~200 PF, 20~40PB/s), 2.3~1.8MW (Max 3MW)

SX-8 + SX-9 (21.7 TF, 3.3 TB, 50.4 TB/s) (500+ TiB/s) (5+ PiB/s)

Cray XC30 (400TF)Cray XC30 (400TF)600TF600TF

10+ PF 50+ PF

(Manycore system) (700+ TF)(Manycore system) (700+ TF)HA-PACS (800 TF)HA-PACS (800 TF)

Hitachi SR16000/M1 (172 TF, 22TB) Cloud System Hitachi BS2000 (44TF, 14TB) 10+ PF 50+ PF

Hitachi SR1600(25TF)Hitachi SR1600(25TF)

Fujitsu FX10(270TF, 65.28 TB/s), CX400(510TF, 152.5 TiB, 151.14 TB/s), GPGPU(256TF, 30 TiB, 53.92 TB/s)

10+ PF, 4.4 TB/s)

Hitachi HA8000tc/HT210(500TF, 215 TiB, 98.82TB/s), Xeon Phi (212TF, 26.25 TiB, 67.2 TB/s), SR16000(8.2TF, 6 TiB, 4.4 TB/s)

50+ PF

NEC SX-9 + Exp5800 (31TF)NEC SX-9 + Exp5800 (31TF) ~1PFlop/s 30+Pflop/s

Tsubame 2.5 (5.7 PF, 110+ TB, 1160 TB/s), 1.8MW

Tsubame 2.0 (2.4PF, 97TB, 744 TB/s)1.8MW

Cray XE6 (300TF, 92.6TB/s),GreenBlade 8000(243TF, 61.5 TB/s)

50+ PFlopsFujitsu FX10 (90.8TF, 31.8 TB/s), CX400(470.6TF, 55 TB/s)

Fujitsu FX10 (1PFlops, 150TiB, 408 TB/s), Hitachi SR16000/M1 (54.9 TF, 10.9 TiB, 5.376 TB/s)

Fujitsu M9000(3.8TF, 1TB/s) HX600(25.6TF, 6.6TB/s) FX1(30.7TF, 30 TB/s) Upgrade (3.6PF)

出展:情報基盤センターとHPCIの今後に関する意見交換会

Page 7: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

東工大の今後10年間のHPCI整備計画

• ポリシー: 世界的に技術テンプレートとなるリーディングスパコンの継続的な研究・開発・運用

– 世界的リーディングスパコンの基礎研究・試験運用及び開発・調達運用の継続的サイクル(PDCAサイクル)– CFL-D+UCC+TPFの共存: コモディティをベースとし、UCCマシンとして過去のソフト資産の活用を可能としながら、最新技術の研

究開発・導入によるCFL+TPFの同時実現、新たな概算要求や補正予算等によるリーディングマシン本体の拡充(T1.2, 2.5, KFC)– 世界のベンダーや研究機関との研究開発の協業による技術リーダーシップ(NEC・Intel・Sun・AMD・Mellanox・NVIDIA・HP・DDN・

Microsoft等) 日米欧トップ企業、日本理研AICS及び東大・筑波大・九大等各HPCIセンター, 米国NSF SDSC/NCSA, DoE LLNL/ANL/ORNL、ドイツJulich SC, フランスCNRS/INRIAなど)

– 「みんなのスパコン」:企業ユーザ(2013年現在累計130社以上)を含む広いユーザ層への資源提供および学部からのHPC教育による最先端スパコン技術の普及およびCFL+TPFの段階的な下流展開

– PrestoIII(1999)/東工大キャンパスグリッド(2002), TSUBAME1.0(2006)/1.2(2008), TSUBAME2.0(2010)/KFC(2013)の過去十年以上の豊富かつ継続的な実績(Green500運用スパコン世界一(2010,2011)・基盤センターとして初のACMゴードンベル賞(2011)、文部科学大臣表彰(2012)など多数)

• CFL,TPFとしての技術フォーカス(2013年現在の主要項目)– CFL-D+TPF: GPU等によるメニーコアアクセラレータによる超並列コンピューティング:Clearspeed(2006-2010)), GPU(2008-現在)– TPF: グリーンスパコン: メニーコア活用・低電力アクティブモニタリングおよび制御・新たな冷却技術による京を2.5倍

(TSUBAME2.5)、5倍 (TSUBAME-KFC)、20倍以上(TSUBAME3.0)上回る電力効率の達成

– CFL-D+TPF: 高メモリバンド幅:メモリの3次元実装等により、京を実行で2~3倍上回るメモリバンド幅の達成(TSUBAME3.0)– CFL-D+TPF: 次世代ビッグデータ:高性能グラフおよびMapReduceの提供(TSUBAME2.0)、不揮発メモリの大幅な活用により京の

10倍以上の10Terabyte/秒のI/Oバンド幅、及び超高トランザクション数 I/O性能の達成(TSUBAME3.0)– CFL-D+TPF: 超高速光ネットワーク:最先端光テクノロジにより高いバイセクションバンド幅によるスペクトル法/FFTなど、陰解法や

ビッグデータ系アルゴリズムのサポート(TSUBAME2.0)、京を数倍上回る世界トップレベルの1ペタビット/秒級実現(TSUBAME3.0)– TPF: 高レベル耐故障性:資源スケジュラと連動した高度なエクサへ向けた耐故障性技術の具現化(KFC, TSUBAME3.0)

2.4/4.8PF, 0.6PB/s, 1.8MW

TSUBAME2.0CFL+UCC+TPF

5.7/17PF, 1.16PB/s, 1.8MWTSUBAME2.5

UCC+CFL-D+TPF0.22/0.64PF

TSUBAME-KFC (0.04KW)TPF

20~30/50~75PF, 2~6PB/s, 1.8MWTSUBAME3.0

UCC+CFL-D+TPFTSUBAME3.5(2018)

リーディングマシン追加措置要

100~200PF/300~600PF, 20~40PB/s1.8~2.3MW

TSUBAME4.0UCC+CFL-D+TPF

表記は 倍精度/単精度のピーク演算性能電力は冷却込(PUE 1.1未満)

最大受電容量3MW

持帰不可科研基盤S: 10億並列・エクサスケールスーパーコンピュータの耐故障性基盤 (2011-2015, 約2.5億円)

メニーコア + マルチコアを搭載した計算環境への適応メニーコア + マルチコアを搭載した計算環境への適応

この手法の一端をTSUBAME2.0 で検証するとともに、設計時からより完全な形でそれをGPU 等に反映させるようベンダーに働きかけ、他の手法と複合し数十万オーダーの細粒度プロセッサでも機能する耐故障手法を確立して、TSUBAME3.0 にて検証を行う

エクサスケールアーキテクチャ像エクサスケールアーキテクチャ像 信頼性向上が不可欠信頼性向上が不可欠

既に、自然科学分野において、GPUを用いた研究が多数発表されている

メニーコア+マルチコア型アーキテクチャが今後有望

2万台 (Jaguar, 米オークリッジ国立研究所) では 1日2.2回の障害を確認

10億並列規模の計算では数分~30分間のうちに障害が多発されることが予想

我々は世界初の 安定した単一GPUチェックポイントを実現[Nukada, Matsuoka, IEEE HCW11]したが、本研究では10億並列を見据えた複数のGPU環境

への適用を目指す。

しかし、メニーコア+マルチコアを搭載したヘテロジニアス環境の高信頼化を対象とした研究はなされていない。

Takashi Shimokawabe, et al., "An 80-Fold Speedup, 15.0 TFlops, Full GPU Acceleration of Non-Hydrostatic Weather Model ASUCA Production Code," in Proceedings of the 2010 ACM/IEEE conference on Supercomputing (SC'10)

米国DoELLNL, ANLなどと共同研究

Page 8: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

JST CREST “Extreme Big Data”2013H2-2017H1 (3億/5年)(松岡代表)

SupercomputersCompute&Batch-Oriented

Cloud IDCVery low BW & Efficiencty

Convergent Architecture (Phases 1~4) Large Capacity NVM, High-Bisection NW

PCB

TSV Interposer

High Powered Main CPU

Low Power CPU

DRAMDRAMDRAMNVM/Flash

NVM/Flash

NVM/Flash

Low Power CPU

DRAMDRAMDRAMNVM/Flash

NVM/Flash

NVM/Flash

2Tbps HBM4~6HBM Channels1.5TB/s DRAM & NVM BW

30PB/s I/O BW Possible1 Yottabyte / Year

EBD System Softwareincl. EBD Object System

Large Scale Metagenomics

Massive Sensors and Data Assimilation in Weather Prediction

Ultra Large Scale Graphs and Social Infrastructures

Exascale Big Data HPC

Co-Design

Future Non-Silo Extreme Big Data Apps

Graph Store

EBD BagEBD BagCo-Design

KVS

KVS

KVS

KVS

KVS

KVS

EBD KVS

Cartesian PlaneCo-Design

米国DoEArgonne NLフランスINRIAなどと共同研究

その他東工大GSICにおけるエクサへ向けた研究開発

• ポストペタ Feasibility Study アプリチーム (理研AICSと合同), 米DoE ORNL, ドイツJulich SC等と協力

• PPC CREST 「ポストペタスケール時代のメモリ階層の深化に対応するソフトウェア技術」(チームリーダー:遠藤敏夫GSIC准教授) (2012-2016) (DoE ORNLと共同研究)

• PPC CREST 「高性能・高生産性アプリケーションフレームワークによるポストペタスケール高性能計算の実現」(チームリーダー:丸山直也GSIC客員准教授、分担者:青木孝之GSIC教授) (2011-2015)

• PPC CREST 「ポストぺタスケールシステムにおける超大規模グラフ最適化基盤 」(分担者:佐藤仁特GSIC任助教) (2011-2015)

• NVIDIA CUDA CCoE (Center of Excellence) –日本唯一 (松岡・青木・秋山泰教授) (2010-2013)

• G8, JST-ANR など

Page 9: 東京工業大学・GSIC(学術国際情報 センター における今後の ......2013/10/10  · – TSUBAME 3.0 FY 2015 Q4 TSUBAME2.0 TSUBAME2.5 Thin Nodex 1408 台 NodeMachine

Machine Power (incl. cooling)

LinpackPerf(PF)

LinpackMFLOPs/W

Factor Total MemBW TB/s(STREAM)

Mem BWMByte/S/ W

Earth Simulator 1 10MW 0.036 3.6 13,400 160 16Tsubame1.0(2006Q1)

1.8MW 0.038 21 2,368 13 7.2

ORNL Jaguar(XT5. 2009Q4)

~9MW 1.76 196 256 432 48

Tsubame2.0(2010Q4)

1.8MW 1.2 667 75 440 244

K Computer(2011Q2)

~16MW 10 625 80 3300 206

BlueGene/Q(2012Q1)

~12MW? 17 ~1400 ~35 3000 250

TSUBAME2.5(2013Q3)

1.4MW ~3 ~2100 ~24 802 572

Tsubame3.0(2015Q4~2016Q1)

1.5MW ~20 ~13,000 ~4 6000 4000

DoE EXA (2019~20) 20MW 1000 50,000 1 100K 5000

x31.6

~x20

x34

~x13.7