新しい集積回路で左脳と右脳を創るgreen-innovation.jp/aidevice_archives/pdf_aidevice/nedo...2016/10/27...
TRANSCRIPT
新しい集積回路で左脳と右脳を創る
人工知能の応用範囲を拓く超高速・低消費電力ハードウェア技術NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
慶應義塾大学理工学部
黒田忠広www.kuroda.elec.keio.ac.jp
2 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
左脳モジュール
論理的・計算的な情報処理 フォン・ノイマン型アーキテクチャ MIMDプロセッサ
256コアと512GB/s DRAMを集積 世界一の電力効率 100GFLOPS/W iPhoneと同じ容積 66 mL
3 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
直観的・空間的な情報処理 布線論理型アーキテクチャ ディープラーニング(DL)アクセラレータ
神経細胞1000万個(ヒトの大脳の1/1000)を仮想集積 GPUと比べてDL処理が10倍高効率 iPhoneと同じ容積 66 mL
右脳モジュール
4 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
電源
左脳
x2右脳
x2ストレージ
インタフェース
モジュール積層 拡張可能
3D集積
5 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
左脳と右脳を併せもつ世界初の人工知能 左脳はスパコン「京」の1/5,000の処理性能 右脳は人間の大脳の1/500の集積度 手のひらで電池駆動 左脳と右脳が連携して情報処理
モバイル人工知能: eBrains
6 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
右脳が気づいて(物体認識)、左脳が調べる(超解像度)
左脳と右脳が連携する情報処理
超回折限界顕微鏡微生物の観察
医用診断装置名医の診断
防災・メンテナンス監視範囲拡大
自動焦点メガネ超人的視力
自動運転優良運転者
知能ロボット巧みの技
7 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
可視光学顕微鏡の回折限界の1/40(5nm)の観察が可能
科学:化学、微生物学、分子細胞学 半導体:検査自動化 材料・部品:研究・開発・評価用の分析装置
超解像・画像回復処理
レンズを通る際の光の回折現象を各点毎に逆計算して復元
大量・複雑な並列浮動小数点演算が必要
8 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
左脳と右脳の緊密な連携
物体認識
異常検出
標識の意味理解
道交法・判例確認
距離測定
制動・予測(運動方程式の計算)
燃費最適化
安全・乗り心地最大化
9 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
新しい集積回路で左脳と右脳を創る
新しい集積回路
脳型推論集積システム
ACCEL
展望と提言
10 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ムーアの法則の終焉
11 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
いつ、なぜ終わるのか?
ムーアの法則が終焉する年
さまざまな見解
日経平均や為替レートの年初予測と似ている(経済活動)
出典:“Moore’s law at 50: Are we planning for retirement?” IEDM2015基調講演, G. Yeric (ARM).
予測した年
年々延命している
以前の限界説は「10年後に限界」、最近の限界説は収束している!?
2029年に収束?
工学的に重要な問いは、「いつ?」よりも「なぜ?」
12 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ムーアの法則は、集積回路の性能コスト比を改善できなくなったときに終焉する。
コストはリソグラフィで決まり、性能は電力効率で決まる。
リソグラフィが限界に近づくと、トランジスタの単価が上がる。
16nmからトランジスタの単価が上昇に転じている。
やがてEUVが導入されると、トランジスタの単価は再び下がる。
より深刻な問題は、発熱が上限に達し集積を妨げていること。
電力効率(=処理性能/電力)改善なくして性能改善なし。
性能・コスト比を改善できないと終焉
13 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
発熱が上限に達し、集積しても同時に使えない
ダークシリコンが増える
ダークシリコン:電源投入できないトランジスタ
28nm 5nm7nm10nm16nm20nm
33%45% 56%
75% 80%
14 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
スケーリングの副作用
なぜ電力が増えるのか?
寸法1/2
電圧1/2
電界効果を利用したMOSトランジスタの微細化, 低電圧化
(理想) (1980~1995) (1995~の現実)
寸法 1/2 1/2 1/2
電圧 1/2 1 1/2
電界 1 2 1
遅延時間 1/2 1/4 1/3.2
電力 1/4 2 1/2.5
電力密度 1 8 1.6
電界一定 電圧一定 電界一定スケーリング則
I∝V2 I∝V1.3 高電界でキャリア速度飽和
15 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
電力が集積の障害に
CMOS集積回路の電力が急増
出展:T. Kuroda and T. Sakurai, "Overview of low-power ULSI circuit techniques,“IEICE Transactions. on Electronics, vol. E78-C, no. 4, pp. 334-344, Apr. 1995.
16 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
電圧と容量を下げる
低電力化の方策
1. 低電圧化(V):VDDとVTHを下げる電力と速度のトレードオフをとる並列化で性能を高める
2. 低容量化(C):集積する、微細化するハードウェアで処理する専用HWは汎用CPUのより2~3桁小さな電力消費
外部メモリのアクセスを減らす外部メモリアクセスはチップ内メモリより2~3桁大きな電力消費
3. 低活性化(fa):処理性能の高いアルゴリズムを見出す
Q = CV
E = QV = CV2
P = faCV2
C
V
Q
情報を電子に載せる
17 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ゲート支配力が低下
リークが増大
DS
G
CB
CG
CD
トランジスタの寸法が小さくなると,
CD がCGに対して無視できない大きさになり,ゲート支配力が低下する.
Drain Induced Barrier Lowering
(DIBL)効果
ゲート支配力が不十分
Short L
S D
VDS増大
Long L
VDS増大
S D
Barr
ier
heig
ht
ゲート支配力が十分
18 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
リーク(S係数と活性化率)で電圧の下限が決まる
電圧の下限
0 0.2 0.4 0.6 0.8 1 1.20
0.2
0.4
0.6
0.8
1
電源電圧 [V]
消費電力
メモリ
ロジック
出典:H. Fuketa, T. Sakurai et al., “Device-Circuit Interactions in Extremely Low Voltage CMOS Designs, ” IEDM, pp.559-562, Dec. 2011.
IBM Power5
リーク電力
Intel Pentium4
リーク電力
出典:T. Kuroda, Low Power CMOS Design: The Applications: State-of the-Art Practice,” ASP-DAC, Tutorial, Jan. 2007.
NEDOプロジェクトELP(2009-2013): 0.5V
LEAP(2010-2014): 0.4V
消費電力
電源電圧 [V]
20%
80%
P total
Pactive VDD2
Pleak 10 VDD
THs
-V
19 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
0.45Vで電力効率(=処理性能/電力)最大
インテルのプロセッサ
[1] V. De (Intel), “Energy Efficient Computing in Nanoscale CMOS: Challenges and Opportunities (Plenary),“ A-SSCC‘14, Dig. Tech. Papers, pp. 5-8, Nov. 2014.
32nm High-K Metal gate
リーク電力42%
リーク電力95%
(大半はメモリ)
リーク電力14%
20 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
材料、プロセス、構造を変える
低リークデバイス
出典:T. Kuroda, IEDM 2002 Panel Discussion, “Will SOI ever become a mainstream technology? ”.
高誘電率ゲート絶縁膜
ひずみシリコン: Ionを増やす
1) 新材料 金属ゲート
2) 新プロセス
リーク
ゲート支配力が劣化
ダブルゲート サラウンディングゲートUltra Thin Body
3) 新構造 ゲート支配力を高める
SOTB FinFET
21 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
構造の改良でゲートの支配力を改善
トランジスタの進化
TSOI ~ (1/3) Lg
G
TFin ~ (2/3) Lg
D
S
FinFETUltra Thin Body Nanowire
22 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
トンネル電流でSteep Slopeを実現 III-V族ヘテロ接合のT-FETが有望 トンネル現象を利用するためオン電流が小さいのが課題 T-FETはFinFETに比べて実用化が難しい
トンネルFET (T-FET)
出典:I. Young (Intel), “Tunneling Field Effect Transistors: Device and Circuit Considerations for Energy Efficient Logic Opportunities,” IEDM2015.
23 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ハードウェアで処理する
CPU(1-10): GPU(10-100): FPGA(100): 専用HW(1000)
外部メモリのアクセスを減らす
外部メモリアクセスはチップ内メモリより2~3桁大きな電力消費
理由
演算は面を利用ムーアの法則: 1.15 (Tr. speed) x 1.49 (Tr.# 面積) = x1.70/year
データ転送は辺を利用ムーアの法則: 1.15 (Tr. speed) x 1.11 (I/O# 周辺長) = x1.28/year
演算性能を活かすにはx1.44/yearのデータ転送改善が必要
ギャップを埋め合わせるために大きな電力を消費
低容量化
高い低い電力効率:()は比率
24 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
3D集積して面でデータ転送すると電力効率を改善できる
ムーアの法則が終り、破壊的技術にも実用化の機会
TSVは高価で普及が遅れる(DRAMの値段が1.5倍)
提案:チップやモジュールの接続を機械式(配線・半田・コネクタ)から電子式の「近接場結合」へ革新する
3D集積
TSVs
mbumps
3D集積DRAM:HBM, HMC
25 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
チップやモジュールの積層・接続に利用
近接場結合
近接場: 通信距離 << 波長飛ばない電磁波混信しない(見えない配線)着脱接続(Suica)3D集積に活用
遠方場: 通信距離 >> 波長飛ぶ電磁波混信する移動通信(携帯電話やWiFi)
26 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
JST/CRESTで生まれた独自技術で新しい集積技術を創るチップやモジュールの接続を機械式から電子式へ革新する
近接場結合集積技術
大規模システムの接続問題の解
ThruChip Interface (TCI)チップ(プロセッサやメモリ)を3次元集積して高性能にする
南谷CRESTの成果知財群65件
Transmission Line Coupler (TLC)モジュール(ストレージやセンサ)を
LEGO実装して高機能にする浅井CRESTの成果知財群26件
磁界磁界
電界
システムLSIチップ
メモリチップ
プロセッサ基板
周辺機器基板
27 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
「大規模システムの接続問題」の解を求める
なぜ今か?
Cray-3, 1993配線の限界
「京」, 2011放熱の限界
ENIAC, 1946素子と配線の限界
500万箇所のはんだ接続
ICの発明1958
ムーアの法則の限界Trの発明1948
IEEE Spectrum
“System on a Chip”から“System on Chips”へ
ICの発明のきっかけは、 「大規模システムの接続問題」の解を求めることであった。
ムーアの法則が限界を迎え、チップ内での集積のみに頼ることができなくなった現在においては、一段と画期的な「接続問題の解」が求められ(期待され)ている。
IoTとビッグデータ解析には、さらに高性能なシステムが必要である。
IoTビッグデータ解析
28 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ThruChip Interface (TCI)
磁界結合を用いた世界初の積層チップ間通信(CREST成果)JST/CREST 「情報システムの超低消費電力化を目指した技術革新と統合化技術」(研究総括:南谷 崇、2005-2012)
コイル: 標準CMOSチップの多層配線を巻く
コイルが邪魔にならずレイアウト効率が高い
チップのどこでも(SRAM上でも干渉なく)配置できる
デジタルCMOS回路技術
いずれはコストゼロに
Txdata
Time
IT
VR
Rxdata
Rxdata
TxdataTxdata
Rxdata
磁界結合磁界はチップを貫通できる
送受信回路: デジタルCMOS回路
20mm x 10mm
15mm x 10mm
Tx
Rx
65nm CMOS
dITdt
VR = M
mS=1IT
29 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
世界最高性能
11Gb/s/ch(0.18mm)
ISSCC2008
8Tb/s(1000ch in 2.5mm2)
ISSCC2010
30Gb/s/ch(65nm)
A-SSCC2010
チャネル数を増やして無理なく広帯域化できる
高速
128チップ積層ISSCC2010
64チップ積層ISSCC2009
大集積
0.14pJ/b(90nm)
ISSCC2007
0.01pJ/b(65nm)
JSSC2011
ESD保護回路(>0.5pJ/b)不要
低電力
TCI TSV
Bump
低背、低熱抵抗
30 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
TCIはTSVより低コスト・高性能
追加コスト
方式
製造工程
微細化
TSV
40%程度
機械式・パッケージ工程
追加プロセス必要
困難
マイクロバンプ
トランジスタ
TCI
通信電力高い
ESD保護回路必要チップ数に比例(全チップ駆動)
低いESD保護回路不要
チップ数によらず一定(磁界駆動)
数%程度
電子式・ウェハ工程
標準CMOSプロセス
容易
転送速度
配置場所
256GB/s以下
専用領域(トランジスタから離す)
512GB/s以上
任意(制約なし)
磁界
トランジスタ
31 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
3次元スケーリングシナリオ
チップを薄くするほどTCIの性能は指数関数的に向上する
出典:T. Kuroda, “Circuit and Device Interactions for 3D Integration Using Inductive Coupling,“ IEDM'14.
電界効果トランジスタ (ムーアの法則)
磁界結合TCI (3次元ムーアの法則)
電界一定のスケーリング
電界一定
電圧:1/2寸法:1/2
磁界変化一定のスケーリング
データ転送速度/面積: 8倍消費エネルギー/ビット:1/8
チップ厚:1/2巻数:1.5
磁界変化一定
動作速度: 2倍消費電力/面積:1
evaluation value dimension scaling
Device size [x] 1/a
Voltage [V] 1/a
Current [I] 1/a
Capacitance [C]~[xx/x] 1/a
Delay time [t]~[CV/I] 1/a
Chip thickness [z] 1/z
Coil size [D] 1/z
Coil turn number [n] z0.8
Inductance [L]~[n2D1.6] 1
Magnetic coupling [k]~[z/D] 1
Received signal[vR]~[kL(I/t)
]1
Data rate / channel [1/t] a
Channel / area [1/D2] z2
Area / data rate [tD2] 1/az2
Data rate / area [1/tD2] az2
Energy / bit [IVt] 1/a3
32 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
DRAMでの実証
磁界がメモリに悪影響を与えないか?(信号S/Nが劣化しないか?)
磁界がメモリを貫通できるか?(プレートやシリンダを貫通できるか?)
給電
給電が従来技術ではTCIの魅力が半減する。
TSVの代わりに高濃度シリコンで接続する給電技術HDSVの提案。アイデアは専門家から高く評価されたが実証が必要。
放熱
放熱できないと積層できない。積層できないとTCI接続できない。
横並びのチップを磁界結合するTCI 2.9D/2.5Dの提案。
ACCELで研究
実用化の課題
33 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
Highly Doped Silicon Via (HDSV)
出典:T. Kuroda, “Circuit and Device Interactions for 3D Integration Using Inductive Coupling,“ IEDM'14.
貫通電源をインプラで低コストに作る
34 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
TCIとHDSVを用いた積層メモリ
# stacked die
Die pitch
Total height
Die area
Data link
Power delivery
IO energy/bitIO data rate/area
~80 mm
従来のNAND積層(wire bond)
spacer~1000 mm
新しいNAND積層(TCIとHDSV)
16
50m
~1000m
1x
wire bond
wire bond
1x
16
5m
~80m
~0.9x
TCI
HDSV
< 1/400x
従来のDRAM積層(TSV)
~275 mm
DRAM die
DRAM die
DRAM die
DRAM die
Base logic die
~40 mm
新しいDRAM積層
(TCIとHDSV)
5
55m
~275m
1x
TSV
TSV
1x~ 200 Gb/s / mm2
5
8m
~40m
~0.9x
TCI
HDSV
< 1/10x~ 860 Gb/s / mm2
出典: T. Kuroda, "Low-Cost 3D Chip Stacking with ThruChip Wireless Connections,“HotChips’14.
積層メモリを革新する
35 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
TCIを用いた2.9D, 2.5D, 2.0D集積
(a) TCI_2.9D:SoCの軒下に積層メモリを滑り込ませて磁界結合.
(b) TCI_2.5D:極小Siインタポーザを用いて磁界結合.
(c) TCI_2.0D:至近距離のチップと直接磁界結合.
従来の2.5D集積Siインタポーザ、TSV、mbumpが必要
ChipChip
Package substrate
C4 bumpsSi interposer
Coils Coils
Package substrateC4 bumps
ChipChip Coils Coils
Package substrate
C4 bumps
Chip
Chip
CoilsBonding wires
Coils
36 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
Transmission Line Coupler (TLC)
PCB, FPC
PCB, FPC
結合
PCB, FPC
クロストーク
伝送線路
出典:T. Kuroda, “3D Integration, Power Delivery, and Contactless Interconnect by Near Field Coupling,“ ISSCC'14.
電磁界結合を用いた世界初の非接触コネクタ(CREST成果)JST/CREST 「ディペンダブルVLSIシステムの基盤技術」(研究総括:浅井彰二郎、2007-2014)
結合度
[dB]
0
-10
-20
-30
-40
-50
-600 20161284周波数 [GHz]
帯域幅: 8GHz (L=6mm), 12GHz (L=4mm)
通信距離:1mm (W=0.5mm), 2mm (W=1mm)
Transmission Line Coupler (TLC)
電界磁界
2-2+
1+ 1-
終端
ISSCC2011, pp.492-493
37 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
電磁界結合
特性インピーダンスを制御
信号反射抑制
送受信器: デジタルCMOS回路
非接触コネクタ
モジュール設計
ディペンダブル
多様性を育む
電磁界結合でモジュール積層
http://www.kuroda.elec.keio.ac.jp/research/video/
Video 1
Video 2
38 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
世界最高性能
DRAMモジュール高速:5倍(12.5Gb/s)
バス接続ISSCC2012, pp.52-53
車載LAN
軽量化: 30%
EMC
ISSCC2014, pp.496-497
ECU ECU ECU
衛星搭載プロセッサ軽量化: 60%
耐震ISSCC2015, pp.434-435
SD, SSD
メモリカード高速:50倍(12Gb/s)
低エネルギ:1/500(待機時6nW)密封:防水(無線給電)
ISSCC2013, pp.214-215
ディスプレイ高速:10倍(6Gb/s)
低エネルギ:1/10(16pJ/b)薄い:1/10(0.15mm)
ISSCC2013, pp.200-201
LCD
スマートフォーン高速:5倍(6Gb/s)
低エネルギ:1/24(6pJ/b)モジュール化
ISSCC2015, pp.176-177
39 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ディスプレイ・カメラ モジュール
高速・低電力・低背
ISSCC2013, pp.200-201
40 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
モジュール化
LEGOブロック実装
http://www.kuroda.elec.keio.ac.jp/research/video/ISSCC2015, pp.176-177Video 3
6Gb/s received data
4mm
1.5mm TLC
Host board
Module boardModule board
LCD
TLC
5mm
TLC
Module
41 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
電磁両立性(EMC)
スマートフォンやクルマに搭載可能
TLC
Robot arm
1)電磁障害(EMI)TLCから10mm離するとGPSに影響を与えない
2)電磁感受性(EMS)TLCから2mm離すとLTE/WiFiから影響を受けない
EM probe
42 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
振動耐性
ロケットやクルマに搭載可能
小型ロケットの発射後60秒間にビット誤りなし
振動強度 [Grms]
BE
R0
10-7
10-9
4 8 12 16 20
10-5
10-3
10-11
PRBS27-1@100Mb/s
従来の機械式コネクタ
TLC1/246x
ISSCC2015, pp.434-435
TLC
JAXA
43 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
回転・スライド・DC分離
Touch and Go
Hot swap
In
回転(2D)
Out 回転(3D)
スライド(1D)In
Out
ドア、座席 監視カメラ、関節…
DC分離
Module
1
Module
2
44 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
産官学連携
IoTイノベーション(2016-2017)ウェハー積層量産ライン(産総研)
TCI積層DRAM(ウルトラメモリ)TCI搭載プロセッサ(PEZY)
省エネ技術革新(2015)TCIデバイス開発(PEZY)
浅井CREST(2009-2015)TLC
南谷CREST(2005-2011)TCI
ACCEL(2015-2019)近接場結合集積技術
5社(車・ロボット)技術評価、実用検討
JSTNEDO 企業慶應両輪
企業
45 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ここまでのまとめ
新しい集積回路集積回路の課題は、電力問題と接続問題である。ポストムーアを担う集積技術は、3次元集積である。近接場結合集積技術(TCIとTLC)を用いたチップおよびモジュールの3次元集積が実用段階に入る。
脳型推論集積システム
ACCEL
展望と提言
46 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
大脳とコンピュータ (1)
大脳(10W)
高性能計算機(100KW)
将棋・碁で競争
1万 (10K) 1
四則演算で競争
大脳と計算機のエネルギー効率 (相対比)
:
:1 1億(100M)
[1問/sec] [1K問/ns]
直観的・空間的な情報処理では、大脳が1万倍のエネルギー効率
論理的・計算的な情報処理では、計算機が1億倍のエネルギー効率
それぞれ、得意な情報処理領域では、相手を圧倒
「右脳型」情報処理
「左脳型」情報処理
47 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
大脳とコンピュータ (2)
左脳型の処理=論理的・計算的な情報処理
「布線論理型」で「右脳型処理」電力効率の大幅向上を目指す
「手続き型=ノイマン型」のコンピュータと親和性が高い
「ノイマン型」の「左脳型処理」電力効率は既に大脳を圧倒
右脳型の処理=直観的・空間的な情報処理
「構造型=布線論理型」のコンピュータと親和性が高い
左脳型ノイマン型コンピュータ
右脳型布線論理型コンピュータ
真にエネルギー効率の高い情報処理システムの実現へ
48 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
コンピュータの二つの流派
プログラム内蔵(ノイマン)型 布線論理 (非ノイマン)型
ENIACEDSAC
- 処理手順をプログラム- 逐次に実行
- 処理構造をプログラム- 並列に実行
1949 1946
処理手順 演算器
メモリ指示
演算器
演算器
演算器
演算器
高度化・大規模化して現代のコンピュータへ
発展
プログラム・汎用化の難しさ等により打ち止めに
接続を手動で切替
49 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
布線論理型コンピュータとその技術課題
布線論理 = Hard-Wired
つまりハードウェア設計
課題1: プログラムが困難 高位言語ハードウェア合成技術により解消しつつある
課題2: 汎用性確保が困難 リコンフィギュラブル(再構成)ハードウェア技術により解消しつつある
課題3: ハードウェア再構成のために大容量・高速メモリが必須 ACCELで解決を狙う最重要技術課題
ACCELで右脳型コンピュータの実現にチャレンジ
50 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
「右脳型」情報処理 => ディープラーニング
顔
識別器 1
T
T
T
F
F
F
F
識別器2
識別器 3
識別器 n
顔でない
誤検出率0.4
0.16
0.064
0.4^n
Haar-like特徴量の線形結合
(徐々に目の細かな識別器で精査)
従来の情報処理特徴量は問題ごとに専門家が設計
(右)脳型の情報処理機械学習で神経回路網を自動的に獲得
出典:グーグルのネコ認識
「右脳型」情報処理の革新(やっと方法論が分かり始めた…)
51 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ディープラーニング: 概要
ニューロンシナプス
層 層
基本構造
MIT, ISSCC2016 ディープラーニングアルゴリズムは日進月歩
NW規模 (8層@12=>152層@15)
演算精度 (32bFP=>16b整数=>1b@15)
学習コスト (転移学習@15, ランダム学習@16)
GPUやFPGAは帯短襷長
最適アーキテクチャ探索は始まったばかり
処理内容は、時間的な手順ではなく、空間的な構造(ニューラルネット)をプログラム
いったん構造が決まれば、入力データをそこに流し込むだけで、結果が出力される
構造を決めて入力データを流すと結果が出てくる
布線論理型情報処理アーキテクチャ
に適合
52 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ディープラーニングアクセラレータ
① アクセラレータと大容量メモリとの高バンド幅結合② アクセラレータは、超高並列の演算器アレイ③ 処理局面に応じたアレイ構造・データ流の可変性
大規模メモリ
入力データ
係数参照
中間結果
ディープラーニング
アクセラレータ
②③ リコンフィギュラブル(布線論理型) ハードウエア
① 大規模メモリ-アクセラレータ間の高バンド幅接続
53 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ニューラルネットの規模
究極のターゲット: 人間の大脳・ニューロン数: 10G個・シナプス数(ニューロンの0.1K-1K倍): 数T個
=> 数TBのメモリ (重み係数: 1B)
神経回路網ハードウェア・ニューロン => 16b演算器 (デジタル実装)・最先端プロセスでは64Kニューロン/チップ程度・ 10G個 / 64K個 = 160K∴ 1チップで大脳の16万分の1をハードウェア化
重み係数ロードに必要なメモリバンド幅・64K個のニューロンが400MHzで並列積和演算・毎サイクル、次の結合係数を並列ロード・ 64K x 400MHz x 1B = 25.6TB/sec∴ 現状最高速メモリの二桁倍のメモリバンド幅
TCIによる3次元実装で解決
ディープラーニングアクセラレータには大規模メモリと
大規模な演算器アレイの高バンド幅結合が必須
54 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
仮想HW型DLアクセラレータ
VHW-DL
アクセラレータ
大容量(GB超)・高メモリバンド幅(TB/s超)の3次元実装がイネーブラーとなる新しいDLソリューション DL処理1
①大量の構成情報を一気に呼出し、
VHW上にDL-NWを瞬時に出現
2
3
4N
②中間処理データをDRAMに掃出し、
DLを再構成
センサデータ(
複合)
系列に対応して
必要となる各種D
L
処理群
③中間データを再入力することでより高次のDL信号
処理も実現
TCI積層DRAM
55 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
近接場結合集積技術による革新的情報処理(ACCEL黒田課題)
仮想P
処理手順の複合体
布線論理型情報処理
M
P
(逐次中心の情報処理) (並列MIMD)
P HW
(仮想HW)
①近接場結合技術による物理集積でボトルネックを解消し高電力効率化
2D-IC 3D-IC 4D-IC
M M
データ処理手順
フォン・ノイマン型情報処理
フォン・ノイマンボトルネック
②ボトルネックフリーを活用した仮想集積
(時間軸の活用)により更に高電力効率化
Pn
P2
P1
3D-ICから4D-ICへ
56 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
集積回路、コンピュータ、人工知能
プロセッサ集積
キャッシュ集積
マルチコア化
メニーコア化
フォン・ノイマン型
脳型情報処理
布線論理型
20
10
00
90
80
70
60以前
年代
演算器集積
ENIAC
性能臨界データ量臨界
ムーア則による
高速化・集積化・並列化
FPGA登場
EDSAC
リコンフィギュラブルHW
第2次ニューラルネットブーム
動的再構成LSIブーム
3D集積
人工知能ブーム
メインメモリのモジュール集積
第1次ニューラルネットブーム
手続をプログラム/逐次に実行
構造をプログラム/並列に実行
57 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
「ニューロモルフィック」アクセラレータ IBM TrueNorth(2014)
「ニューラルネット」アクセラレータ Google: DLチップTPUの存在を公表(2016) DLチップスタートアップの活性化(2014~): TeraDeep, Nervana(Intelが
8月に買収), Movidius(Intelが9月に買収), WaveComputing, etc. NVIDIAはDL処理にGPUをチューン(Parker, 2016)
FPGA Microsoftデータセンター用Catapult(2014/6) => 主応用はDL処理 IntelのAltera買収(2014) QualCommとXilinxの戦略的提携(2015/11)
世界の動向
ニューロモルフィック ニューラルネット
一口で言うと… 脳を模倣(“鳥”を目指す) コンピュータを指向(“飛行機”を目指す)
モデル 精緻で忠実な生理学的モデル 計算しやすい工学的モデル
動作方式 イベント駆動式 完全同期式
周波数 O(1KHz) O(100MHz)
58 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ここまでのまとめ
新しい集積回路
脳型推論集積システム
情報処理方式には王道の「ノイマン型」の他に、「布線論理型」が存在する。前者は手続き型=左脳型、後者は構造型=右脳型である。3次元集積により右脳型処理が現実解となる。
ACCEL
展望と提言
59 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
「近接場結合集積技術による革新的情報処理システムの実現と応用展開」(2015-2019)
研究代表:黒田忠広(慶應), PM:河村誠一郎(JST)主たる共同研究:本村真人(北大)
JST ACCEL
大規模システムの接続問題の解
ThruChip Interface (TCI)チップ(プロセッサやメモリ)を3次元集積して高性能にする
Transmission Line Coupler (TLC)モジュール(ストレージやセンサ)を
LEGO実装して高機能にする
磁界磁界
電界
システムLSIチップ
メモリチップ
プロセッサ基板
周辺機器基板
https://www.jst.go.jp/kisoken/accel/research_project/ongoing/h27_02.html
モバイル人工知能を創る
60 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ACCELの目標
POC(2019年度):100GFLOPS/Wのコンピュータの技術立証
Green500のトレンド予測より5倍高い米国DARPAの目標:75GFLOPS/W
マイルストーン(2017年度) :512GB/sのTCI積層DRAMの技術立証
産業界の計画より3倍高速
0
20
40
60
80
100
120
2005 2010 2015 2020
電力効率
[GF
LO
PS
/W]
年
トレンド予測値20GFLOPS/W
米国DARPAの目標75GFLPOS/W
ACCELの目標100GFLPOS/W
単精度浮動小数点換算
66 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
シリコンで創る左脳と右脳
センサ
アクチュエータ
データ学習
神経回路網
DL
直感、空間的
認識
アルゴリズム
フォン・ノイマン
MIMD
論理、計算
制御
連携
左脳 右脳
67 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
シリコンで創る左脳と右脳
左脳コンピュータ
既存ハイエンド計算機の性能ボトルネックをTCI積層技術により解決
右脳コンピュータ
大容量・高バンド幅メモリを積層するからこそ実現しうる新しい情報処理アーキテクチャの創出
情報処理システムのニーズを新しい接続技術で満たす
接続技術の新シーズで新しい情報処理システムを実現する
慶應黒田研 北大本村研 他
積層DRAM8GB
256GB/s
積層DRAM8GB
256GB/s
TCI_2.5D
TCI_
2.9
D
TCI_
2.9
D
128 core16nm
128 core16nm
TCI_3D
TCI_3D
68 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
ここまでのまとめ
新しい集積回路
脳型推論集積システム
ACCEL100GFLOPS/Wのコンピュータと512GB/sの積層DRAMの技術立証をする。
プログラムストア方式の左脳型と仮想布線論理方式の右脳型のコンピュータを小型モジュールに集積する。左脳と右脳が相互補完する情報処理の原理を探究する。
展望と提言
69 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
0.3V以下は“ばらつき”との戦い
機能保全 ON電流とOFFリークのバランスを取る(多入力論理ゲートの構成法)
データの衝突を避ける(メモリを6Trから8Trにする)
リーク削減 電源遮断:細粒度制御、不揮発性メモリ
Steep Slope デバイス
ばらつき対応 誤り検出・訂正(ディペンダブル、resilient:回復力に富む)
部分非同期設計(設計マージンを低減)
統計的システム設計(低い確率で間違うことを許す)
0.4V
理論限界: 0.036V
Ref: R. Swanson, JSSC’72; J. Meindl, JSSC’00(利得=1)
0.5V NEDO「極低電力回路・システム技術開発(グリーン IT プロジェクト)」
NEDO「ノーマリーオフコンピューティング基盤技術開発」
CREST「ディペンダブルVLSIシステムの基盤技術」
CREST「素材・デバイス・システム融合による革新的ナノエレクトロニクスの創成」
0.3V
70 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
統計的設計思想
低い確率で間違うことを許すアプリが増加要求精度
高い
低い
アプリケーション領域
制御
認識
機械
人間
冗長性6σ設計
確率評価
技術 対象
71 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
設計ガードバンドをはずす 非同期設計のメリットは、“ばらつき”があっても誤動作しないこと
非同期設計のデメリットは面積が大きいことと遅いこと
ダークシリコンと比べれば非同期設計のデメリットも許容できる
“ばらつき”に鈍感な非同期設計が電力効率で勝る可能性を追究する
非同期設計を入れた積層プロセッサ
組合せ論理
クロックサイクル(Tcyc)
論理の遅延ばらつき
平均の処理性能∝1/Tcyc
ガードバンド
平均遅延Tave
クロック信号
同期設計(従来)論理の遅延ばらつき
平均の処理性能∝1/Tave
平均遅延Tave
データ要求信号
ガードバンド不要
組合せ論理
非同期設計
完了検出 完了検出
72 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
③「VLSIシステムの研究」が最重要課題
ゲームチェンジャ 1: アプリの革命的変化
データインテンシブなアプリが一気に主流となり、最適なHW構造自体が変わった
ゲームチェンジャ 2: ムーアの法則の終焉
HW変革の動機づけと経済的合理性が生まれた
VLSIシステムの研究
回路
ナノテク
LSI
HWモジュール
アルゴリズム
アプリ
①新規デバイスと回路の協創
②社会課題解決=>応用・アルゴ技術
SW
ミッシングリンク
= VLSIシステム
③ HWとSWの協創
アーキテクチャ×
アルゴリズム
HW
カンブリア紀: 数十数種しかなかった生物が突如1万種に爆発的に増加
2015-2025年:HWアーキテクチャのカンブリア大爆発時代
73 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
脳型VLSIシステムの研究
大脳と計算機のエネルギー効率 (相対比)
高性能マシン 大脳
右脳型処理(将棋・碁)
1 1万
左脳型処理(四則演算)
1億 1
HWアーキテクチャ
:
:
神経回路網算術演算器
処理型によりエネルギー効率は大逆転
理由はHWアーキテクチャと処理特性の不適合
新しい処理(酒)には、新しいアーキテクチャ(革袋)を
布線論理型コンピュータによる(右)脳型VLSIシステムへの期待
布線論理型アーキテクチャ
ノイマン型アーキテクチャ
74 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
VHW-DLアクセラレータ
TCI三次元集積によるメモリ-ロジック高バンド幅結合
リコンフィギュラブルHW(布線論理型コンピュータ)
HWの仮想化(SWライクなHW)
日本にしかない技術世界に勝ちうるフレームワーク
産業化に直結するR&D
DLアーキ技術
75 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
まとめ(1) 新しい集積回路
電力効率の改善なくしてシステム性能の改善なし。低電力技術と抜熱技術が集積度とシステム性能を決める。
低電圧化は限界が近い。T-FETの実用は遠い。
3次元集積でデータ転送の電力を大幅に低減。データ転送距離を短縮でき、チップ面で超並列接続できる。
ムーアの法則が限界に近づき、チップ内での集積のみに
頼ることができなくなった現在においては、一段と画期的な「接続問題の解」が求められている。
提案は、チップやモジュールの接続を機械式(配線・半田・コネクタ)から電子式(近接場結合)に代えること。近接場結合集積技術を用いてプロセッサとメモリを3次元集積し、さらにモジュールを3次元集積する。
76 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
まとめ(2)脳型推論集積システム
情報処理方式には王道の「ノイマン型」の他に、「布線論理型」が存在する。
論理的・計算的な左脳型情報処理にはノイマン型が適し、直観的・空間的な右脳型情報処理には布線論理型が適する。
布線論理型の課題である汎用性の確保とプログラムの容易性は、仮想ハードウェア技術で解消できる。
さらに、3次元集積技術を用いて、布線論理型の集積度を仮想的に高めることができる。
仮想ハードウェア技術と近接場結合集積技術で右脳型処理が現実解となる。
このアプローチは、FPGAを用いる方法よりも性能・コストで優れている。
77 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
まとめ(3) ACCEL
2017年に512GB/sの積層DRAM(HBMより3倍高速)の実現性を技術立証する。
2019年に100GFLOPS/Wのコンピュータ(トレンド予測より5倍高効率)の実現性の技術立証する。
フォン・ノイマン型の左脳モジュールと仮想布線論理型の右脳モジュールを集積し、モバイル人工知能eBrainsを創出する。
左脳と右脳が連携する新しい情報処理の原理を探究する。
この取り組みは日本独自であり、世界に勝ちうるフレームワークで、産業化に直結するR&Dである。
78 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
まとめ(4)展望と提言
0.3Vの回路技術の探究
非同期でばらつきに強く積層できるプロセッサ
脳型VLSIシステムの探究
VHW-DLで脳に匹敵する電力効率
There’s Some Room at the Bottom.(Low Voltage Circuits)
There’s Plenty of Room above it.(VLSI System)
There’s Plenty of Room at the Bottom. (by Richard P. Feynman, December 29th 1959)
79 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ(2016/10/27)
謝辞
産業技術総合研究所:講演の機会
本村真人教授(北海道大学): ACCEL共同研究
NEDOとJST:研究支援