新しい集積回路で左脳と右脳を創るgreen-innovation.jp/aidevice_archives/pdf_aidevice/nedo...2016/10/27...

新しい集積回路で左脳と右脳を創る

人工知能の応用範囲を拓く超高速・低消費電力ハードウェア技術NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ（2016/10/27）

慶應義塾大学理工学部

黒田忠広www.kuroda.elec.keio.ac.jp

2 of 80T. Kuroda NEDO「ビッグデータ処理を加速・利活用する脳型推論システムの研究開発」ワークショップ（2016/10/27）

左脳モジュール

論理的・計算的な情報処理フォン・ノイマン型アーキテクチャ MIMDプロセッサ

256コアと512GB/s DRAMを集積世界一の電力効率 100GFLOPS/W iPhoneと同じ容積 66 mL


直観的・空間的な情報処理布線論理型アーキテクチャディープラーニング(DL)アクセラレータ

神経細胞1000万個（ヒトの大脳の1/1000）を仮想集積 GPUと比べてDL処理が10倍高効率 iPhoneと同じ容積 66 mL

右脳モジュール


電源

左脳

x2右脳

x2ストレージ

インタフェース

モジュール積層拡張可能

3D集積


左脳と右脳を併せもつ世界初の人工知能左脳はスパコン「京」の1/5,000の処理性能右脳は人間の大脳の1/500の集積度手のひらで電池駆動左脳と右脳が連携して情報処理

モバイル人工知能： eBrains


右脳が気づいて（物体認識）、左脳が調べる（超解像度）

左脳と右脳が連携する情報処理

超回折限界顕微鏡微生物の観察

医用診断装置名医の診断

防災・メンテナンス監視範囲拡大

自動焦点メガネ超人的視力

自動運転優良運転者

知能ロボット巧みの技


可視光学顕微鏡の回折限界の1/40（5nm）の観察が可能

科学：化学、微生物学、分子細胞学半導体：検査自動化材料・部品：研究・開発・評価用の分析装置

超解像・画像回復処理

レンズを通る際の光の回折現象を各点毎に逆計算して復元

大量・複雑な並列浮動小数点演算が必要


左脳と右脳の緊密な連携

物体認識

異常検出

標識の意味理解

道交法・判例確認

距離測定

制動・予測（運動方程式の計算）

燃費最適化

安全・乗り心地最大化


新しい集積回路で左脳と右脳を創る

新しい集積回路

脳型推論集積システム

ACCEL

展望と提言


ムーアの法則の終焉


いつ、なぜ終わるのか？

ムーアの法則が終焉する年

さまざまな見解

日経平均や為替レートの年初予測と似ている（経済活動）

出典：“Moore’s law at 50: Are we planning for retirement?” IEDM2015基調講演, G. Yeric (ARM).

予測した年

年々延命している

以前の限界説は「10年後に限界」、最近の限界説は収束している!?

2029年に収束？

工学的に重要な問いは、「いつ？」よりも「なぜ？」


ムーアの法則は、集積回路の性能コスト比を改善できなくなったときに終焉する。

コストはリソグラフィで決まり、性能は電力効率で決まる。

リソグラフィが限界に近づくと、トランジスタの単価が上がる。

16nmからトランジスタの単価が上昇に転じている。

やがてEUVが導入されると、トランジスタの単価は再び下がる。

より深刻な問題は、発熱が上限に達し集積を妨げていること。

電力効率（=処理性能/電力）改善なくして性能改善なし。

性能・コスト比を改善できないと終焉


発熱が上限に達し、集積しても同時に使えない

ダークシリコンが増える

ダークシリコン：電源投入できないトランジスタ

28nm 5nm7nm10nm16nm20nm

33%45% 56%

75% 80%


スケーリングの副作用

なぜ電力が増えるのか？

寸法1/2

電圧1/2

電界効果を利用したMOSトランジスタの微細化, 低電圧化

（理想）（1980~1995）（1995~の現実）

寸法 1/2 1/2 1/2

電圧 1/2 1 1/2

電界 1 2 1

遅延時間 1/2 1/4 1/3.2

電力 1/4 2 1/2.5

電力密度 1 8 1.6

電界一定電圧一定電界一定スケーリング則

I∝V2 I∝V1.3 高電界でキャリア速度飽和


電力が集積の障害に

CMOS集積回路の電力が急増

出展：T. Kuroda and T. Sakurai, "Overview of low-power ULSI circuit techniques,“IEICE Transactions. on Electronics, vol. E78-C, no. 4, pp. 334-344, Apr. 1995.


電圧と容量を下げる

低電力化の方策

1. 低電圧化(V)：VDDとVTHを下げる電力と速度のトレードオフをとる並列化で性能を高める

2. 低容量化(C)：集積する、微細化するハードウェアで処理する専用HWは汎用CPUのより2~3桁小さな電力消費

外部メモリのアクセスを減らす外部メモリアクセスはチップ内メモリより2~3桁大きな電力消費

3. 低活性化(fa)：処理性能の高いアルゴリズムを見出す

Q = CV

E = QV = CV2

P = faCV2

C

V

Q

情報を電子に載せる


ゲート支配力が低下

リークが増大

DS

G

CB

CG

CD

トランジスタの寸法が小さくなると,

CD がCGに対して無視できない大きさになり，ゲート支配力が低下する.

Drain Induced Barrier Lowering

(DIBL)効果

ゲート支配力が不十分

Short L

S D

VDS増大

Long L

VDS増大

S D

Barr

ier

heig

ht

ゲート支配力が十分


リーク（S係数と活性化率）で電圧の下限が決まる

電圧の下限

0 0.2 0.4 0.6 0.8 1 1.20

0.2

0.4

0.6

0.8

1

電源電圧 [V]

消費電力

メモリ

ロジック

出典：H. Fuketa, T. Sakurai et al., “Device-Circuit Interactions in Extremely Low Voltage CMOS Designs, ” IEDM, pp.559-562, Dec. 2011.

IBM Power5

リーク電力

Intel Pentium4

リーク電力

出典：T. Kuroda, Low Power CMOS Design: The Applications: State-of the-Art Practice,” ASP-DAC, Tutorial, Jan. 2007.

NEDOプロジェクトELP(2009-2013): 0.5V

LEAP(2010-2014): 0.4V

消費電力

電源電圧 [V]

20%

80%

P total

Pactive VDD2

Pleak 10 VDD

THs

-V


0.45Vで電力効率（=処理性能/電力）最大

インテルのプロセッサ

[1] V. De (Intel), “Energy Efficient Computing in Nanoscale CMOS: Challenges and Opportunities (Plenary),“ A-SSCC‘14, Dig. Tech. Papers, pp. 5-8, Nov. 2014.

32nm High-K Metal gate

リーク電力42%

リーク電力95%

（大半はメモリ）

リーク電力14%


材料、プロセス、構造を変える

低リークデバイス

出典：T. Kuroda, IEDM 2002 Panel Discussion, “Will SOI ever become a mainstream technology? ”.

高誘電率ゲート絶縁膜

ひずみシリコン： Ionを増やす

1) 新材料金属ゲート

2) 新プロセス

リーク

ゲート支配力が劣化

ダブルゲートサラウンディングゲートUltra Thin Body

3) 新構造ゲート支配力を高める

SOTB FinFET


構造の改良でゲートの支配力を改善

トランジスタの進化

TSOI ~ (1/3) Lg

G

TFin ~ (2/3) Lg

D

S

FinFETUltra Thin Body Nanowire


トンネル電流でSteep Slopeを実現 III-V族ヘテロ接合のT-FETが有望トンネル現象を利用するためオン電流が小さいのが課題 T-FETはFinFETに比べて実用化が難しい

トンネルFET (T-FET)

出典：I. Young (Intel), “Tunneling Field Effect Transistors: Device and Circuit Considerations for Energy Efficient Logic Opportunities,” IEDM2015.


ハードウェアで処理する

CPU(1-10): GPU(10-100): FPGA(100): 専用HW(1000)

外部メモリのアクセスを減らす

外部メモリアクセスはチップ内メモリより2~3桁大きな電力消費

理由

演算は面を利用ムーアの法則: 1.15 (Tr. speed) x 1.49 (Tr.# 面積) = x1.70/year

データ転送は辺を利用ムーアの法則: 1.15 (Tr. speed) x 1.11 (I/O# 周辺長) = x1.28/year

演算性能を活かすにはx1.44/yearのデータ転送改善が必要

ギャップを埋め合わせるために大きな電力を消費

低容量化

高い低い電力効率:（）は比率


3D集積して面でデータ転送すると電力効率を改善できる

ムーアの法則が終り、破壊的技術にも実用化の機会

TSVは高価で普及が遅れる（DRAMの値段が1.5倍）

提案：チップやモジュールの接続を機械式(配線・半田・コネクタ)から電子式の「近接場結合」へ革新する

3D集積

TSVs

mbumps

3D集積DRAM：HBM, HMC


チップやモジュールの積層・接続に利用

近接場結合

近接場: 通信距離 << 波長飛ばない電磁波混信しない（見えない配線）着脱接続（Suica）3D集積に活用

遠方場：通信距離 >> 波長飛ぶ電磁波混信する移動通信（携帯電話やWiFi）


JST/CRESTで生まれた独自技術で新しい集積技術を創るチップやモジュールの接続を機械式から電子式へ革新する

近接場結合集積技術

大規模システムの接続問題の解

ThruChip Interface (TCI)チップ(プロセッサやメモリ)を3次元集積して高性能にする

南谷CRESTの成果知財群65件

Transmission Line Coupler (TLC)モジュール(ストレージやセンサ)を

LEGO実装して高機能にする浅井CRESTの成果知財群26件

磁界磁界

電界

システムLSIチップ

メモリチップ

プロセッサ基板

周辺機器基板


「大規模システムの接続問題」の解を求める

なぜ今か？

Cray-3, 1993配線の限界

「京」, 2011放熱の限界

ENIAC, 1946素子と配線の限界

500万箇所のはんだ接続

ICの発明1958

ムーアの法則の限界Trの発明1948

IEEE Spectrum

“System on a Chip”から“System on Chips”へ

ICの発明のきっかけは、「大規模システムの接続問題」の解を求めることであった。

ムーアの法則が限界を迎え、チップ内での集積のみに頼ることができなくなった現在においては、一段と画期的な「接続問題の解」が求められ（期待され）ている。

IoTとビッグデータ解析には、さらに高性能なシステムが必要である。

IoTビッグデータ解析


ThruChip Interface (TCI)

磁界結合を用いた世界初の積層チップ間通信（CREST成果）JST/CREST 「情報システムの超低消費電力化を目指した技術革新と統合化技術」（研究総括：南谷崇、2005-2012）

コイル: 標準CMOSチップの多層配線を巻く

コイルが邪魔にならずレイアウト効率が高い

チップのどこでも(SRAM上でも干渉なく)配置できる

デジタルCMOS回路技術

いずれはコストゼロに

Txdata

Time

IT

VR

Rxdata

Rxdata

TxdataTxdata

Rxdata

磁界結合磁界はチップを貫通できる

送受信回路: デジタルCMOS回路

20mm x 10mm

15mm x 10mm

Tx

Rx

65nm CMOS

dITdt

VR = M

mS=1IT


世界最高性能

11Gb/s/ch(0.18mm)

ISSCC2008

8Tb/s(1000ch in 2.5mm2)

ISSCC2010

30Gb/s/ch(65nm)

A-SSCC2010

チャネル数を増やして無理なく広帯域化できる

高速

128チップ積層ISSCC2010

64チップ積層ISSCC2009

大集積

0.14pJ/b(90nm)

ISSCC2007

0.01pJ/b(65nm)

JSSC2011

ESD保護回路(>0.5pJ/b)不要

低電力

TCI TSV

Bump

低背、低熱抵抗


TCIはTSVより低コスト・高性能

追加コスト

方式

製造工程

微細化

TSV

40%程度

機械式・パッケージ工程

追加プロセス必要

困難

マイクロバンプ

トランジスタ

TCI

通信電力高い

ESD保護回路必要チップ数に比例(全チップ駆動)

低いESD保護回路不要

チップ数によらず一定(磁界駆動)

数%程度

電子式・ウェハ工程

標準CMOSプロセス

容易

転送速度

配置場所

256GB/s以下

専用領域(トランジスタから離す)

512GB/s以上

任意(制約なし)

磁界

トランジスタ


3次元スケーリングシナリオ

チップを薄くするほどTCIの性能は指数関数的に向上する

出典：T. Kuroda, “Circuit and Device Interactions for 3D Integration Using Inductive Coupling,“ IEDM'14.

電界効果トランジスタ（ムーアの法則）

磁界結合TCI （３次元ムーアの法則）

電界一定のスケーリング

電界一定

電圧:1/2寸法:1/2

磁界変化一定のスケーリング

データ転送速度/面積： 8倍消費エネルギー/ビット：1/8

チップ厚：1/2巻数:1.5

磁界変化一定

動作速度： 2倍消費電力/面積：1

evaluation value dimension scaling

Device size [x] 1/a

Voltage [V] 1/a

Current [I] 1/a

Capacitance [C]~[xx/x] 1/a

Delay time [t]~[CV/I] 1/a

Chip thickness [z] 1/z

Coil size [D] 1/z

Coil turn number [n] z0.8

Inductance [L]~[n2D1.6] 1

Magnetic coupling [k]~[z/D] 1

Received signal[vR]~[kL(I/t)

]1

Data rate / channel [1/t] a

Channel / area [1/D2] z2

Area / data rate [tD2] 1/az2

Data rate / area [1/tD2] az2

Energy / bit [IVt] 1/a3


DRAMでの実証

磁界がメモリに悪影響を与えないか？（信号S/Nが劣化しないか？）

磁界がメモリを貫通できるか？（プレートやシリンダを貫通できるか？）

給電

給電が従来技術ではTCIの魅力が半減する。

TSVの代わりに高濃度シリコンで接続する給電技術HDSVの提案。アイデアは専門家から高く評価されたが実証が必要。

放熱

放熱できないと積層できない。積層できないとTCI接続できない。

横並びのチップを磁界結合するTCI 2.9D/2.5Dの提案。

ACCELで研究

実用化の課題


Highly Doped Silicon Via (HDSV)

出典：T. Kuroda, “Circuit and Device Interactions for 3D Integration Using Inductive Coupling,“ IEDM'14.

貫通電源をインプラで低コストに作る


TCIとHDSVを用いた積層メモリ

# stacked die

Die pitch

Total height

Die area

Data link

Power delivery

IO energy/bitIO data rate/area

~80 mm

従来のNAND積層(wire bond）

spacer~1000 mm

新しいNAND積層(TCIとHDSV)

16

50m

~1000m

1x

wire bond

wire bond

1x

16

5m

~80m

~0.9x

TCI

HDSV

< 1/400x

従来のDRAM積層(TSV)

~275 mm

DRAM die

DRAM die

DRAM die

DRAM die

Base logic die

~40 mm

新しいDRAM積層

(TCIとHDSV)

5

55m

~275m

1x

TSV

TSV

1x~ 200 Gb/s / mm2

5

8m

~40m

~0.9x

TCI

HDSV

< 1/10x~ 860 Gb/s / mm2

出典： T. Kuroda, "Low-Cost 3D Chip Stacking with ThruChip Wireless Connections,“HotChips’14.

積層メモリを革新する


TCIを用いた2.9D, 2.5D, 2.0D集積

(a) TCI_2.9D：SoCの軒下に積層メモリを滑り込ませて磁界結合.

(b) TCI_2.5D：極小Siインタポーザを用いて磁界結合.

(c) TCI_2.0D：至近距離のチップと直接磁界結合.

従来の2.5D集積Siインタポーザ、TSV、mbumpが必要

ChipChip

Package substrate

C4 bumpsSi interposer

Coils Coils

Package substrateC4 bumps

ChipChip Coils Coils

Package substrate

C4 bumps

Chip

Chip

CoilsBonding wires

Coils


Transmission Line Coupler (TLC)

PCB, FPC

PCB, FPC

結合

PCB, FPC

クロストーク

伝送線路

出典：T. Kuroda, “3D Integration, Power Delivery, and Contactless Interconnect by Near Field Coupling,“ ISSCC'14.

電磁界結合を用いた世界初の非接触コネクタ（CREST成果）JST/CREST 「ディペンダブルVLSIシステムの基盤技術」（研究総括：浅井彰二郎、2007-2014）

結合度

[dB]

0

-10

-20

-30

-40

-50

-600 20161284周波数 [GHz]

帯域幅: 8GHz (L=6mm), 12GHz (L=4mm)

通信距離:1mm (W=0.5mm), 2mm (W=1mm)

Transmission Line Coupler (TLC)

電界磁界

2-2+

1+ 1-

終端

ISSCC2011, pp.492-493


電磁界結合

特性インピーダンスを制御

信号反射抑制

送受信器: デジタルCMOS回路

非接触コネクタ

モジュール設計

ディペンダブル

多様性を育む

電磁界結合でモジュール積層

http://www.kuroda.elec.keio.ac.jp/research/video/

Video 1

Video 2


世界最高性能

DRAMモジュール高速：5倍（12.5Gb/s）

バス接続ISSCC2012, pp.52-53

車載LAN

軽量化: 30%

EMC

ISSCC2014, pp.496-497

ECU ECU ECU

衛星搭載プロセッサ軽量化: 60%

耐震ISSCC2015, pp.434-435

SD, SSD

メモリカード高速：50倍（12Gb/s）

低エネルギ：1/500（待機時6nW）密封：防水（無線給電）

ISSCC2013, pp.214-215

ディスプレイ高速：10倍（6Gb/s）

低エネルギ：1/10（16pJ/b）薄い：1/10（0.15mm）

ISSCC2013, pp.200-201

LCD

スマートフォーン高速：5倍（6Gb/s）

低エネルギ：1/24（6pJ/b）モジュール化

ISSCC2015, pp.176-177


ディスプレイ・カメラモジュール

高速・低電力・低背

ISSCC2013, pp.200-201


モジュール化

LEGOブロック実装

http://www.kuroda.elec.keio.ac.jp/research/video/ISSCC2015, pp.176-177Video 3

6Gb/s received data

4mm

1.5mm TLC

Host board

Module boardModule board

LCD

TLC

5mm

TLC

Module


電磁両立性（EMC）

スマートフォンやクルマに搭載可能

TLC

Robot arm

1)電磁障害（EMI）TLCから10mm離するとGPSに影響を与えない

2)電磁感受性（EMS）TLCから2mm離すとLTE/WiFiから影響を受けない

EM probe


振動耐性

ロケットやクルマに搭載可能

小型ロケットの発射後60秒間にビット誤りなし

振動強度 [Grms]

BE

R0

10-7

10-9

4 8 12 16 20

10-5

10-3

10-11

PRBS27-1@100Mb/s

従来の機械式コネクタ

TLC1/246x

ISSCC2015, pp.434-435

TLC

JAXA


回転・スライド・DC分離

Touch and Go

Hot swap

In

回転(2D)

Out 回転(3D)

スライド(1D)In

Out

ドア、座席監視カメラ、関節…

DC分離

Module

1

Module

2


産官学連携

IoTイノベーション（2016-2017）ウェハー積層量産ライン（産総研）

TCI積層DRAM（ウルトラメモリ）TCI搭載プロセッサ（PEZY）

省エネ技術革新（2015）TCIデバイス開発（PEZY）

浅井CREST（2009-2015）TLC

南谷CREST（2005-2011）TCI

ACCEL（2015-2019）近接場結合集積技術

5社（車・ロボット）技術評価、実用検討

JSTNEDO 企業慶應両輪

企業


ここまでのまとめ

新しい集積回路集積回路の課題は、電力問題と接続問題である。ポストムーアを担う集積技術は、3次元集積である。近接場結合集積技術（TCIとTLC）を用いたチップおよびモジュールの3次元集積が実用段階に入る。


ACCEL

展望と提言


大脳とコンピュータ (1)

大脳(10W)

高性能計算機(100KW)

将棋・碁で競争

1万 (10K) 1

四則演算で競争

大脳と計算機のエネルギー効率 (相対比)

：

：1 1億(100M)

[1問/sec] [1K問/ns]

直観的・空間的な情報処理では、大脳が1万倍のエネルギー効率

論理的・計算的な情報処理では、計算機が1億倍のエネルギー効率

それぞれ、得意な情報処理領域では、相手を圧倒

「右脳型」情報処理

「左脳型」情報処理


大脳とコンピュータ (2)

左脳型の処理＝論理的・計算的な情報処理

「布線論理型」で「右脳型処理」電力効率の大幅向上を目指す

「手続き型=ノイマン型」のコンピュータと親和性が高い

「ノイマン型」の「左脳型処理」電力効率は既に大脳を圧倒

右脳型の処理＝直観的・空間的な情報処理

「構造型=布線論理型」のコンピュータと親和性が高い

左脳型ノイマン型コンピュータ

右脳型布線論理型コンピュータ

真にエネルギー効率の高い情報処理システムの実現へ


コンピュータの二つの流派

プログラム内蔵(ノイマン)型布線論理 (非ノイマン)型

ENIACEDSAC

- 処理手順をプログラム- 逐次に実行

- 処理構造をプログラム- 並列に実行

1949 1946

処理手順演算器

メモリ指示

演算器

演算器

演算器

演算器

高度化・大規模化して現代のコンピュータへ

発展

プログラム・汎用化の難しさ等により打ち止めに

接続を手動で切替


布線論理型コンピュータとその技術課題

布線論理 = Hard-Wired

つまりハードウェア設計

課題1: プログラムが困難高位言語ハードウェア合成技術により解消しつつある

課題２: 汎用性確保が困難リコンフィギュラブル(再構成)ハードウェア技術により解消しつつある

課題３: ハードウェア再構成のために大容量・高速メモリが必須 ACCELで解決を狙う最重要技術課題

ACCELで右脳型コンピュータの実現にチャレンジ


「右脳型」情報処理 => ディープラーニング

顔

識別器 1

T

T

T

F

F

F

F

識別器2

識別器 3

識別器 n

顔でない

誤検出率0.4

0.16

0.064

0.4^n

Haar-like特徴量の線形結合

（徐々に目の細かな識別器で精査）

従来の情報処理特徴量は問題ごとに専門家が設計

(右)脳型の情報処理機械学習で神経回路網を自動的に獲得

出典：グーグルのネコ認識

「右脳型」情報処理の革新(やっと方法論が分かり始めた…)


ディープラーニング: 概要

ニューロンシナプス

層層

基本構造

MIT, ISSCC2016 ディープラーニングアルゴリズムは日進月歩

NW規模 (8層@12=>152層@15)

演算精度 (32bFP=>16b整数=>1b@15)

学習コスト (転移学習@15, ランダム学習@16)

GPUやFPGAは帯短襷長

最適アーキテクチャ探索は始まったばかり

処理内容は、時間的な手順ではなく、空間的な構造(ニューラルネット)をプログラム

いったん構造が決まれば、入力データをそこに流し込むだけで、結果が出力される

構造を決めて入力データを流すと結果が出てくる

布線論理型情報処理アーキテクチャ

に適合


ディープラーニングアクセラレータ

① アクセラレータと大容量メモリとの高バンド幅結合② アクセラレータは、超高並列の演算器アレイ③ 処理局面に応じたアレイ構造・データ流の可変性

大規模メモリ

入力データ

係数参照

中間結果

ディープラーニング

アクセラレータ

②③ リコンフィギュラブル(布線論理型) ハードウエア

① 大規模メモリ-アクセラレータ間の高バンド幅接続


ニューラルネットの規模

究極のターゲット: 人間の大脳・ニューロン数: 10G個・シナプス数(ニューロンの0.1K-1K倍): 数T個

=> 数TBのメモリ (重み係数: 1B)

神経回路網ハードウェア・ニューロン => 16b演算器 (デジタル実装)・最先端プロセスでは64Kニューロン/チップ程度・ 10G個 / 64K個 = 160K∴ 1チップで大脳の16万分の1をハードウェア化

重み係数ロードに必要なメモリバンド幅・64K個のニューロンが400MHzで並列積和演算・毎サイクル、次の結合係数を並列ロード・ 64K x 400MHz x 1B = 25.6TB/sec∴ 現状最高速メモリの二桁倍のメモリバンド幅

TCIによる3次元実装で解決

ディープラーニングアクセラレータには大規模メモリと

大規模な演算器アレイの高バンド幅結合が必須


仮想HW型DLアクセラレータ

VHW-DL

アクセラレータ

大容量(GB超)・高メモリバンド幅(TB/s超)の3次元実装がイネーブラーとなる新しいDLソリューション DL処理1

①大量の構成情報を一気に呼出し、

VHW上にDL-NWを瞬時に出現

2

3

4N

②中間処理データをDRAMに掃出し、

DLを再構成

センサデータ(

複合)

系列に対応して

必要となる各種D

L

処理群

③中間データを再入力することでより高次のDL信号

処理も実現

TCI積層DRAM


近接場結合集積技術による革新的情報処理(ACCEL黒田課題)

仮想P

処理手順の複合体

布線論理型情報処理

M

P

(逐次中心の情報処理) (並列MIMD)

P HW

(仮想HW)

①近接場結合技術による物理集積でボトルネックを解消し高電力効率化

2D-IC 3D-IC 4D-IC

M M

データ処理手順

フォン・ノイマン型情報処理

フォン・ノイマンボトルネック

②ボトルネックフリーを活用した仮想集積

(時間軸の活用)により更に高電力効率化

Pn

P2

P１

3D-ICから４D-ICへ


集積回路、コンピュータ、人工知能

プロセッサ集積

キャッシュ集積

マルチコア化

メニーコア化

フォン・ノイマン型

脳型情報処理

布線論理型

20

10

00

90

80

70

60以前

年代

演算器集積

ENIAC

性能臨界データ量臨界

ムーア則による

高速化・集積化・並列化

FPGA登場

EDSAC

リコンフィギュラブルHW

第2次ニューラルネットブーム

動的再構成LSIブーム

３D集積

人工知能ブーム

メインメモリのモジュール集積

第1次ニューラルネットブーム

手続をプログラム/逐次に実行

構造をプログラム/並列に実行


「ニューロモルフィック」アクセラレータ IBM TrueNorth(2014)

「ニューラルネット」アクセラレータ Google: DLチップTPUの存在を公表(2016) DLチップスタートアップの活性化(2014～): TeraDeep, Nervana(Intelが

8月に買収), Movidius(Intelが9月に買収), WaveComputing, etc. NVIDIAはDL処理にGPUをチューン(Parker, 2016)

FPGA Microsoftデータセンター用Catapult(2014/6) => 主応用はDL処理 IntelのAltera買収(2014) QualCommとXilinxの戦略的提携(2015/11)

世界の動向

ニューロモルフィックニューラルネット

一口で言うと… 脳を模倣（“鳥”を目指す）コンピュータを指向（“飛行機”を目指す）

モデル精緻で忠実な生理学的モデル計算しやすい工学的モデル

動作方式イベント駆動式完全同期式

周波数 O(1KHz) O(100MHz)





情報処理方式には王道の「ノイマン型」の他に、「布線論理型」が存在する。前者は手続き型=左脳型、後者は構造型=右脳型である。3次元集積により右脳型処理が現実解となる。

ACCEL

展望と提言


「近接場結合集積技術による革新的情報処理システムの実現と応用展開」（2015-2019）

研究代表：黒田忠広（慶應）, PM：河村誠一郎（JST）主たる共同研究:本村真人（北大）

JST ACCEL

大規模システムの接続問題の解

ThruChip Interface (TCI)チップ(プロセッサやメモリ)を3次元集積して高性能にする

Transmission Line Coupler (TLC)モジュール(ストレージやセンサ)を

LEGO実装して高機能にする

磁界磁界

電界

システムLSIチップ

メモリチップ

プロセッサ基板

周辺機器基板

https://www.jst.go.jp/kisoken/accel/research_project/ongoing/h27_02.html

モバイル人工知能を創る


ACCELの目標

POC（2019年度）:100GFLOPS/Wのコンピュータの技術立証

Green500のトレンド予測より5倍高い米国DARPAの目標：75GFLOPS/W

マイルストーン（2017年度）：512GB/sのTCI積層DRAMの技術立証

産業界の計画より3倍高速

0

20

40

60

80

100

120

2005 2010 2015 2020

電力効率

[GF

LO

PS

/W]

年

トレンド予測値20GFLOPS/W

米国DARPAの目標75GFLPOS/W

ACCELの目標100GFLPOS/W

単精度浮動小数点換算


シリコンで創る左脳と右脳

センサ

アクチュエータ

データ学習

神経回路網

DL

直感、空間的

認識

アルゴリズム

フォン・ノイマン

MIMD

論理、計算

制御

連携

左脳右脳


シリコンで創る左脳と右脳

左脳コンピュータ

既存ハイエンド計算機の性能ボトルネックをTCI積層技術により解決

右脳コンピュータ

大容量・高バンド幅メモリを積層するからこそ実現しうる新しい情報処理アーキテクチャの創出

情報処理システムのニーズを新しい接続技術で満たす

接続技術の新シーズで新しい情報処理システムを実現する

慶應黒田研北大本村研他

積層DRAM8GB

256GB/s

積層DRAM8GB

256GB/s

TCI_2.5D

TCI_

2.9

D

TCI_

2.9

D

128 core16nm

128 core16nm

TCI_3D

TCI_3D





ACCEL100GFLOPS/Wのコンピュータと512GB/sの積層DRAMの技術立証をする。

プログラムストア方式の左脳型と仮想布線論理方式の右脳型のコンピュータを小型モジュールに集積する。左脳と右脳が相互補完する情報処理の原理を探究する。

展望と提言


0.3V以下は“ばらつき”との戦い

機能保全 ON電流とOFFリークのバランスを取る(多入力論理ゲートの構成法)

データの衝突を避ける(メモリを6Trから8Trにする)

リーク削減電源遮断：細粒度制御、不揮発性メモリ

Steep Slope デバイス

ばらつき対応誤り検出・訂正（ディペンダブル、resilient：回復力に富む）

部分非同期設計（設計マージンを低減）

統計的システム設計（低い確率で間違うことを許す）

0.4V

理論限界: 0.036V

Ref: R. Swanson, JSSC’72; J. Meindl, JSSC’00(利得=1)

0.5V NEDO「極低電力回路・システム技術開発（グリーン IT プロジェクト）」

NEDO「ノーマリーオフコンピューティング基盤技術開発」

CREST「ディペンダブルVLSIシステムの基盤技術」

CREST「素材・デバイス・システム融合による革新的ナノエレクトロニクスの創成」

0.3V


統計的設計思想

低い確率で間違うことを許すアプリが増加要求精度

高い

低い

アプリケーション領域

制御

認識

機械

人間

冗長性6σ設計

確率評価

技術対象


設計ガードバンドをはずす非同期設計のメリットは、“ばらつき”があっても誤動作しないこと

非同期設計のデメリットは面積が大きいことと遅いこと

ダークシリコンと比べれば非同期設計のデメリットも許容できる

“ばらつき”に鈍感な非同期設計が電力効率で勝る可能性を追究する

非同期設計を入れた積層プロセッサ

組合せ論理

クロックサイクル(Tcyc)

論理の遅延ばらつき

平均の処理性能∝1/Tcyc

ガードバンド

平均遅延Tave

クロック信号

同期設計（従来）論理の遅延ばらつき

平均の処理性能∝1/Tave

平均遅延Tave

データ要求信号

ガードバンド不要

組合せ論理

非同期設計

完了検出完了検出


③「VLSIシステムの研究」が最重要課題

ゲームチェンジャ 1: アプリの革命的変化

データインテンシブなアプリが一気に主流となり、最適なHW構造自体が変わった

ゲームチェンジャ 2: ムーアの法則の終焉

HW変革の動機づけと経済的合理性が生まれた

VLSIシステムの研究

回路

ナノテク

LSI

HWモジュール

アルゴリズム

アプリ

①新規デバイスと回路の協創

②社会課題解決=>応用・アルゴ技術

SW

ミッシングリンク

= VLSIシステム

③ HWとSWの協創

アーキテクチャ×

アルゴリズム

HW

カンブリア紀: 数十数種しかなかった生物が突如1万種に爆発的に増加

2015-2025年:HWアーキテクチャのカンブリア大爆発時代


脳型VLSIシステムの研究

大脳と計算機のエネルギー効率 (相対比)

高性能マシン大脳

右脳型処理(将棋・碁)

1 1万

左脳型処理(四則演算)

1億 1

HWアーキテクチャ

：

：

神経回路網算術演算器

処理型によりエネルギー効率は大逆転

理由はHWアーキテクチャと処理特性の不適合

新しい処理(酒)には、新しいアーキテクチャ(革袋)を

布線論理型コンピュータによる(右)脳型VLSIシステムへの期待

布線論理型アーキテクチャ

ノイマン型アーキテクチャ


VHW-DLアクセラレータ

TCI三次元集積によるメモリ-ロジック高バンド幅結合

リコンフィギュラブルHW(布線論理型コンピュータ)

HWの仮想化(SWライクなHW)

日本にしかない技術世界に勝ちうるフレームワーク

産業化に直結するR&D

DLアーキ技術


まとめ（１）新しい集積回路

電力効率の改善なくしてシステム性能の改善なし。低電力技術と抜熱技術が集積度とシステム性能を決める。

低電圧化は限界が近い。T-FETの実用は遠い。

3次元集積でデータ転送の電力を大幅に低減。データ転送距離を短縮でき、チップ面で超並列接続できる。

ムーアの法則が限界に近づき、チップ内での集積のみに

頼ることができなくなった現在においては、一段と画期的な「接続問題の解」が求められている。

提案は、チップやモジュールの接続を機械式(配線・半田・コネクタ)から電子式(近接場結合)に代えること。近接場結合集積技術を用いてプロセッサとメモリを3次元集積し、さらにモジュールを3次元集積する。


まとめ（２）脳型推論集積システム

情報処理方式には王道の「ノイマン型」の他に、「布線論理型」が存在する。

論理的・計算的な左脳型情報処理にはノイマン型が適し、直観的・空間的な右脳型情報処理には布線論理型が適する。

布線論理型の課題である汎用性の確保とプログラムの容易性は、仮想ハードウェア技術で解消できる。

さらに、3次元集積技術を用いて、布線論理型の集積度を仮想的に高めることができる。

仮想ハードウェア技術と近接場結合集積技術で右脳型処理が現実解となる。

このアプローチは、FPGAを用いる方法よりも性能・コストで優れている。


まとめ（３） ACCEL

2017年に512GB/sの積層DRAM（HBMより3倍高速）の実現性を技術立証する。

2019年に100GFLOPS/Wのコンピュータ（トレンド予測より5倍高効率）の実現性の技術立証する。

フォン・ノイマン型の左脳モジュールと仮想布線論理型の右脳モジュールを集積し、モバイル人工知能eBrainsを創出する。

左脳と右脳が連携する新しい情報処理の原理を探究する。

この取り組みは日本独自であり、世界に勝ちうるフレームワークで、産業化に直結するR&Dである。


まとめ（４）展望と提言

0.3Vの回路技術の探究

非同期でばらつきに強く積層できるプロセッサ

脳型VLSIシステムの探究

VHW-DLで脳に匹敵する電力効率

There’s Some Room at the Bottom.(Low Voltage Circuits)

There’s Plenty of Room above it.(VLSI System)

There’s Plenty of Room at the Bottom. (by Richard P. Feynman, December 29th 1959)


謝辞

産業技術総合研究所：講演の機会

本村真人教授（北海道大学）： ACCEL共同研究

NEDOとJST：研究支援

新しい集積回路で左脳と右脳を創るgreen-innovation.jp/aidevice_archives/pdf_aidevice/nedo...2016/10/27...

Documents