ポストムーアのデバイス展望 · t. kuroda (1/55) ポストムーアのデバイス展望...

T. Kuroda (1/55)

ポストムーアのデバイス展望

「ポストムーアに向けた計算機科学・計算科学の新展開」シンポジウム（2015/12/22）

慶應義塾大学理工学部

黒田忠広www.kuroda.elec.keio.ac.jp

T. Kuroda (2/55)

以下の問いを考えながら、今後のデバイス技術を展望する。

ムーアの法則はいつ、なぜ終わるのか？

SoCはどうなるか？

ダークシリコンはなぜ増えるのか？

電源電圧は何ボルトまで下げることができるか？

電源電圧を更に下げると何が起こるか？

トランジスタのリークは解決できるか？

More Moore、More than Moore、Beyond CMOSとは何か？

DRAMやNANDを置き換える新型メモリは何が本命か？

メモリのアクセスがコンピュータの性能を律速するのはなぜか？

コンピュータの電力効率を高めるために何をすべきか？

T. Kuroda (3/55)

ムーアの法則はいつ、なぜ終わるのか？

T. Kuroda (4/55)

2029年終焉説

2029年に収束？

Mooreの法則が終焉する年

さまざまな見解

予測した年

年々延命している

日経平均や為替レートの年初予測と似ている（経済活動）以前の限界説は「10年後に限界」、近の限界説は収束している!?

「いつ？」より「なぜ？」

工学的に重要な問いは、「いつ？」よりも「なぜ？」

出典：“Moore’s law at 50: Are we planning for retirement?” IEDM2015基調講演, G. Yeric (ARM).

T. Kuroda (5/55)

性能・コスト比を改善できないと終焉電力問題がも深刻

ムーアの法則は、集積回路の性能コスト比を改善できなくなったときに終焉する。

コストはリソグラフィで決まり、性能は電力効率で決まる。

リソグラフィが限界に近づくと、トランジスタの単価が上がる。

16nmからトランジスタの単価が上昇に転じている。

やがてEUVが導入されると、トランジスタの単価は再び下がる。

より深刻な問題は、発熱が上限に達し集積を妨げていること。

T. Kuroda (6/55)

SoCはどうなるか？

T. Kuroda (7/55)

System on ChipsSoCに拘泥せずSoCs+2.5D集積が良い

シリコンインタポーザTSVとマイクロバンプ

TSMC: Integrated Fan-Out (InFO)RDL(再配線層)を用いたWafer-Level Fan Out技術

Intel：Embedded Multi-die Interconnect Bridge (EMIB)同一パッケージ内で異種チップを高密度に接続する技術（14nmファウンドリ事業）

T. Kuroda (8/55)

ダークシリコンはなぜ増えるのか？

T. Kuroda (9/55)

同時に使えないトランジスタが増える発熱が上限に達し集積を妨げている

出典：“Moore’s law at 50: Are we planning for retirement?” IEDM2015基調講演, G. Yeric (ARM).

ダークシリコンの割合28nm: 0 (基準)

5nm: 80%7nm: 75%

10nm: 56%16nm: 45%20nm: 33%

T. Kuroda (10/55)

電源電圧は何ボルトまで下げることができるか？

T. Kuroda (11/55)

電力とエネルギー電子回路は電子の回り路

流量総量

電流 [A]（= [C/秒]）電荷 [C]

I = GV Q = CV

電力 [ワット]（=[J/秒]）エネルギ [J]

P = fCV2 E = CV2

発熱を減らす電池寿命を延ばす

発熱が集積化の障害電源が小型化の障害

ゆく川の流れは絶えずして…

Q = CV, E = QV = CV2

C

V

Q

低電力と省エネルギーは低電圧技術が重要

T. Kuroda (12/55)

電力とエネルギーの電圧依存性電圧の下限はS係数と活性化率で決まる

0 0.2 0.4 0.6 0.8 1 1.20

0.2

0.4

0.6

0.8

1

電源電圧 [V]

消費

エネル

ギー

[相対

値]

メモリ

ロジック

出典：H. Fuketa, T. Sakurai et al., “Device‐Circuit Interactions in Extremely Low Voltage CMOS Designs, ” IEDM, pp.559‐562, Dec. 2011.

IBM Power5

リーク電力

Intel Pentium4

リーク電力

出典：T. Kuroda, Low Power CMOS Design: The Applications: State‐of the‐Art Practice,” ASP‐DAC, Tutorial, Jan. 2007.

NEDOプロジェクトELP(2009-2013): 0.5VLEAP(2010-2014): 0.4V

消費

電力

電源電圧 [V]

20%

80%

Ptotal

PactiveVDD2

Pleak10 VDD

THs

-V

T. Kuroda (13/55)

インテルプロセッサの場合0.5V近傍でエネルギーを1/5

[1] V. De (Intel), “Energy Efficient Computing in Nanoscale CMOS: Challenges and Opportunities (Plenary),“ A‐SSCC‘14, Dig. Tech. Papers, pp. 5‐8, Nov. 2014.

32nm High-K Metal gate

リーク電力14%

リーク電力42%

リーク電力95%（大半はメモリ）

ロジック：メモリ＝2:1

T. Kuroda (14/55)

電源電圧を更に下げると何が起こるか？

T. Kuroda (15/55)

0.4Vの先は？リークとばらつきとの戦い

機能保全 ON電流とOFFリークのバランスを取る(多入力論理ゲートの構成法) データの衝突を避ける(メモリを6Trから8Trにする)

リーク削減 Steep Slope デバイス

電源遮断：細粒度制御、不揮発性メモリ

ばらつき対応非同期設計（30%-50%低減できる）

誤り検出・訂正（ディペンダブル、resilient：回復力に富む）

統計的システム設計（低い確率で間違うことを許す）

0.4V

理論限界: 0.036V

Ref: R. Swanson, JSSC’72; J. Meindl, JSSC’00(利得=1)

0.5V

T. Kuroda (16/55)

統計的設計思想低い確率で間違うことを許すアプリが増加精度要求

高い

低い

アプリケーション領域技術対象

制御

認識

機械

人間

冗長性6σ設計

確率評価

T. Kuroda (17/55)

トランジスタのリークは解決できるか？

T. Kuroda (18/55)

DS

G

CB

CG

CD

トランジスタの寸法が小さくなると, CD がCGに対して無視できない大きさになり，ゲート支配力が低下する.

Drain Induced Barrier Lowering (DIBL)効果

ゲート支配力が不十分

Short L

S D

Increase Drainvoltage

Long L

Increase Drainvoltage

S D

Bar

rier h

eigh

t

ゲート支配力が十分

ゲート支配力の低下リークが増える理由

T. Kuroda (19/55)

低リークデバイス技術材料かプロセスか構造を変える

出典：T. Kuroda, IEDM 2002 Panel Discussion, “Will SOI ever become a mainstream technology? ”.

高誘電率ゲート絶縁膜

ひずみシリコン： Ionを増やす

1) 新材料金属ゲート

2) 新プロセス

リークゲートの支配力が劣化

ダブルゲートサラウンディングゲートUltra Thin Body

3) 新構造ゲートの支配力を高める

SOTB FinFET

T. Kuroda (20/55)

トランジスタの進展構造改良でゲートの支配力を改善

TSOI ~ (1/3) Lg

G

TFin ~ (2/3) Lg

D

S

FinFETUltra Thin Body

Nanowire

T. Kuroda (21/55)

T-FETトンネル電流でSteep Slopeを実現

出典：I. Young (Intel), “Tunneling Field Effect Transistors: Device and Circuit Considerations for Energy Efficient Logic Opportunities,” IEDM2015.

III‐V族ヘテロ接合のT‐FETが有望。オン電流が小さいのが課題。 T‐FETの実用化は、FinFETのときよりもはるかに困難である。

T. Kuroda (22/55)

More Moore, More than Moore, Beyond CMOSとは何か？

T. Kuroda (23/55)

More Moore, More than Moore, Beyond CMOS

出典：IITRS International Technology Roadmap for Semiconductors.

アナログ/ＲＦ受動素子パワーデバイスセンサー

アクチュエータバイオ素子

7nm

11nm

16nm

22nm

32nm

45nm

微細

化More Moo

re:

More than Moore:多様化（異機能融合）

人と環境の調和

SiP SiP: System in Package

SoC: System on Chip

SoC

情報処理

微細

化の

寸法

デジタル

ノンデジタル3次元集積化

5nm

T. Kuroda (24/55)

デバイス技術の進展

Courtesy: Seiichiro Kawamura

状態変数

CMOS Extension beyond CMOS

Si FETSi FETSpinFET

（ｽﾋﾟﾝ偏極電子）

SpinFET（ｽﾋﾟﾝ偏極電子）

Spin wave logicSpin wave logic

NEMSNEMS

TFETTFET

Atomic switchAtomic switch

Mott FETMott FET Neg-Cg FETNeg-Cg FET

Nanomagnet logicNanomagnet logic

BiSFETBiSFET All spin logicAll spin logic

NchGeNchGe

CNT FETCNT FETGNR FETGNR FET

FinFETFinFET

NW FETNW FET

PchIII-VPchIII-V

STT logicSTT logicExitonic FETExitonic FET

非電荷

電荷

IMOSIMOS

T. Kuroda (25/55)

DRAMやNANDを置き換える新型メモリは何が本命か？

T. Kuroda (26/55)

10-3 10-4 10-5 10-6 10-7 10-8 10-9

データ書き換え時間（秒）

高速低速

10M

100M

1G

10G

MRAM(磁性)

FeRAM(強誘電体)

ReRAM(抵抗性)

DRAM

SRAM

NANDFlash

PCM(相変化)

容量（ビット）

STT‐MRAM

HDD

新型メモリDRAMやNANDの置き換えを狙う

XpointMicron(maker)+Intel(user)で話題PCM?との推測

T. Kuroda (27/55) 27

MRAM

FeRAM

ReRAMPCM

DRAM

SRAM

NANDFlash

STT‐MRAMHDD

R&D年間投資額を円の大きさで表現

新型メモリ投資が大きいDRAMやNANDが延命する可能性が高い

10-3 10-4 10-5 10-6 10-7 10-8 10-9

データ書き換え時間（秒）

T. Kuroda (28/55)

メモリのアクセスがコンピュータの性能を律速するのはなぜか？

T. Kuroda (29/55)

チップ間通信の低電力化周辺でなく面を利用

演算は面を利用 Mooreの法則: 1.15 (Tr. speed) x 1.49 (Tr.# 面積) = x1.70/year

データ転送は辺を利用 Mooreの法則: 1.15 (Tr. speed) x 1.11 (I/O# 周辺長) = x1.28/year

Mooreの法則は演算性能とデータ転送速度の乖離を生む

チップを積層して面を利用して転送（TSVに期待が集まったが…）

出典：黒田忠広, 電子情報通信学会誌, vol. 90, no. 11, pp. 977‐981, Nov. 2007.

T. Kuroda (30/55)

コンピュータの電力効率を高めるために何をすべきか？

T. Kuroda (31/55)

課題１：真空管17,000本トランジスタの発明(1948)

課題２：人手によるはんだ付け500万箇所ICの発明(1958)

ENIAC (1946年)27トン, 150kW

T. Kuroda (32/55)

ICの発明 (1958年)大規模なシステムの接続問題の解を求める

T. Kuroda (33/55)

Cray (1985年)2GFLOPS/150kW

T. Kuroda (34/55)

配線とコネクタの塊

T. Kuroda (35/55)

配線全長数km

T. Kuroda (36/55)

チップ内での集積のみに頼ることができなくなった現在においては

一段と画期的な「接続問題の解」が求められている

T. Kuroda (37/55)

私の提案

チップやモジュールの接続を機械式(配線・半田・コネクタ)から電子式(近接場結合)へ革新する

T. Kuroda (38/55)

近接場: 飛ばない電磁波混信しないPasmo

遠方場：飛ぶ電磁波混信する携帯電話やWiFi

T. Kuroda (39/55)

近接場結合集積技術JST ACCEL研究：システムを高性能・高機能に

大規模システムの接続問題の解

ThruChip Interface (TCI)チップ(プロセッサやメモリ)を3次元集積して高性能にする

Transmission Line Coupler (TLC)モジュール(ストレージやセンサ)を

LEGO実装して高機能にする

磁界磁界

電界

システムLSIチップ

メモリチップ

プロセッサ基板

周辺機器基板

データセントリックコンピュータ（IoT時代の極低消費電力モバイルコンピュータ）

100GFLOPS/W512GB/s

T. Kuroda (40/55)

ThruChip Interface (TCI)デジタルCMOS回路技術

コイル: 標準CMOSチップの多層配線を巻くコイルが邪魔にならずレイアウト効率が高い

チップのどこでも(SRAM上でも干渉なく)配置できる

デジタルCMOS回路技術いずれはコストゼロに

Txda

ta

Time

I TV

RR

xdat

aRxdata

TxdataTxdata

Rxdata

磁界結合磁界はチップを貫通できる

送受信回路: デジタルCMOS回路

65nm CMOS

20m x 10m

15m x 10m

Tx

Rx

dITdtVR = M

S=1IT

T. Kuroda (41/55)

0 25 50 75 100 125 150Communication Distance, Z [m]

0

10

20

90

30

80

Usa

ble

Coi

l ban

dwid

th [

Gb/

s]U

sabl

e ci

rcui

t ba

ndw

idth

dep

ends

on

devi

ce

40

50

60

70

Coil Diameter D= Zdistance x 3

3-die stackingD=60m

Z=20m

9 die stackingD=240m

Z=80mD=200m

D=300mD=400m

D=500m

D=100m

Usable BW of 22 Gbps

80 Gbps

Data rate goes up dramatically with smaller Z

TCI転送速度

T. Kuroda (42/55)

Coils of 100um size areformed byM9 and M10 for TX,M7 and M8 for RX, with power/signal lines crossing

Accommodate circuits under the coil

Similar to typical CMOS layout

Coils are overlappedand accessed by PDMAto avoid crosstalk

at phase 1at phase 2at phase 3at phase 4

TCIレイアウト

T. Kuroda (43/55)

競合技術との比較電子式のTCIは機械式のTSVよりコスト・速度・電力で優位

追加コスト

組立工程

エコシステム

方式

ウェハ工程

微細化

製造歩留まり

TSV

40%程度

OSAT(後工程請負)必要

新モデルが必要

機械式

追加プロセス必要

困難

低い、改善困難

マイクロバンプ

トランジスタ

TCI

通信電力高い

ESD保護回路必要チップ数に比例(全チップ駆動)

低いESD保護回路不要

チップ数によらず一定(磁界駆動)

数%程度

従来どおり

従来どおり

電子式(デジタル回路)

標準CMOSプロセス

容易

高い(~100%)

転送速度

配置場所

256GB/s以下

専用領域(トランジスタから離す)

512GB/s以上

任意(制約なし)

磁界

トランジスタ

T. Kuroda (44/55)

３次元スケーリングシナリオチップを薄くする競争

電界効果トランジスタ（Mooreの法則）

TCI（３次元Mooreの法則）

電界一定のスケーリング

動作速度： 2倍消費電力/面積：1

電界一定

電圧:1/2寸法:1/2

磁界変化一定のスケーリング

データ転送速度/面積： 8倍消費エネルギー/ビット：1/8

チップ厚：1/2巻数:1/1.5

磁界変化一定

evaluation value dimension scaling

Device size [x] 1/

Voltage [V] 1/

Current [I] 1/

Capacitance [C]~[xx/x] 1/

Delay time [t]~[CV/I] 1/

Chip thickness [z] 1/

Coil size [D] 1/

Coil turn number [n] 0.8

Inductance [L]~[n2D1.6]

Magnetic coupling [k]~[z/D]

Received signal [vR]~[kL(I/t)]

Data rate / channel [1/t]

Channel / area [1/D2] 2

Area / data rate [tD2] 1/2

Data rate / area [1/tD2] 2

Energy / bit [IVt] 1/3

出典：T. Kuroda, “Circuit and Device Interactions for 3D Integration Using Inductive Coupling,“ IEDM'14.

T. Kuroda (45/55)

SPICE simulation performed with Predictive Technology Model (http://ptm.asu.edu/)

Chip thickness 50 m 25 m

Coil size 150 m 75 m

Data rate per coil 50 Gb/s/coil 64 Gb/s/coil

Area efficiency 2 Tb/s/mm2 11 Tb/s/mm2

Power efficiency 30 fJ/bit 25 fJ/bit

Aggregate data rate when using 8mm x 1mm Si area

18 Tb/s 91 Tb/s

Power dissipationwhen using 8mm x 1mm Si area

0.5 W 2.2 W

7nm CMOSでのTCIの性能

T. Kuroda (46/55)

出典：T. Kuroda, “Circuit and Device Interactions for 3D Integration Using Inductive Coupling,“ IEDM'14.

電源用の貫通電極をインプラで低コストに作る

Highly Doped Silicon Via (HDSV)

10mピッチでウェハを積層し常温圧着する

T. Kuroda (47/55)

出典： T. Kuroda, "Low-Cost 3D Chip Stacking with ThruChip Wireless Connections,“HotChips’14 .

TCIとHDSVを用いたメモリ積層メモリの三次元集積が極薄・極低電力になる

# stacked die Die pitch

Total height Die area Data link

Power delivery IO energy/bit

~80 m

従来のNAND積層(wire bond）

spacer~1000 m

新しいNAND積層(TCIとHDSV)

16 50

~10001x

wire bond wire bond

1x

165

~80~0.9xTCI

HDSV< 1/400x

従来のDRAM積層(TSV)

~275 mDRAM die

DRAM die

DRAM die

DRAM die

Base logic die~40 m

新しいDRAM積層

(TCIとHDSV)

555

~2751x

TSV TSV 1x

58

~40~0.9xTCI

HDSV< 1/10x

TSVは製造コストが40%増加、TCI+HDSVの場合は1%程度

T. Kuroda (48/55)

TCI_2.9D, 2.5D, 2.0D

(a) TCI_2.9D packaging.

(b) TCI_2.5D packaging with small Si interposer.

(c) TCI_2.0D packaging.

Conventional 2.5D packaging by Si interposer with bumps and TSVs.

ChipChip

Package substrateC4 bumpsSi interposer

Coils Coils

Package substrateC4 bumps

ChipChip Coils Coils

Package substrateC4 bumps

ChipChip Coils

Coils

T. Kuroda (49/55)

2017年の目標

512GB/sの積層DRAMの技術立証現行技術(DIMM)より32倍高速、新技術(TSV)より3倍高速

64

128

256

512

1k

2k

4k

8k

16k

10

20

40

80

160

320

640

1280

200 400 800 1600 3200 6400 12800

[GB/s]

[Mb/s/pin]

総転

送速

度

1ピンの転送速度

研究目標

HMC (Micron)HBM (JEDEC)

DDR3/DDR4 (DIMM)

16～24 GB/s64 DQ, 2～3 Gbps/pin

128～256 GB/s1024 DQ, 1～2 Gbps/pin

160～240 GB/s128 DQ, 10～15 Gbps/pin

512～768 GB/s1024 DQ, 4～6 Gbps/pin

開発中のTSV積層DRAMに比べて3倍高速

現行のDRAMモジュールに比べて32倍高速

TCI積層DRAM

TSV

DIMM

TCI

T. Kuroda (50/55)

2019年の目標

100GFLOPS/Wのコンピュータの技術立証トレンド予測より5倍高効率

電力効率の改善なくしてシステム性能の向上なし

システム性能の要求に際限なし

車載システム：自動運転「これからのクルマには、安全な自動運転をするための処理能力が、いくらあっても足りない。」

（日経エレクトロニクス3月号)

データセンタ： IoT/ビッグデータ「電気代(国内)は2025年に3.36兆円になる。」（経済産業省/総合科学技術会議評価専門委員会資料（2011））

電力量を半減できれば1.7兆円の経済効果

トレンド予測より5倍高効率近接場結合集積技術がイネーブラ特にDRAMインタフェースの高効率化 0

2

4

6

8

10

12

2005 2010 2015 2020 2025

Green500のトレンド

年

研究目標2019年に100GFLOPS/W

単精度浮動小数点換算

電力

効率

[GFL

OP

S/W

]

予測値=20GFLOPS/W単精度浮動小数点換算

4

8

12

16

20

24

T. Kuroda (51/55)

100GFLOPS/Wのコンピュータの実装

Thickness150~200um SoC

TCI (SoC-DRAM)~1mm

Stacked DRAM

Flip chip substrate

BGA height ~ 0.2mm

> 5000 coils in DRAM memory area to form bus link

Edge of DRAM slip into SoC under its eavesto form SoC-DRAM serial link

HDSV(Vdd/GND)

10 layer ~100um~200um

SoCTCI (SoC-DRAM)

Air GapHeat insulator

Flip chip substrate

Solder bump

BGA pitch ~ 0.4mmTCI(DRAM bus)

HDSV(Vdd/GND) 25um

Stacked DRAMActive Interposer

DRAM 8Gb * 9 chips

T. Kuroda (52/55)

まとめ（１）電力効率の改善なくしてシステム性能の改善なし

ムーアの法則は、集積回路の性能コスト比を改善できなくなったときに終焉する。コストはリソグラフィで決まり、性能は電力効率で決まる。

リソグラフィが限界に近づくと、トランジスタの単価が上がる。7nm(量産2019年)以降は、SoCに拘泥せずSoCs+2.5D集積が良い。やがてEUVが導入されると、トランジスタの単価は再び下がる。

より深刻な問題は、発熱が上限に達し集積を妨げていることである。ダークシリコン（同時に使えないトランジスタ）が増える所以である。抜熱技術と低電力技術が、集積度を決め、システム性能を決める。

T. Kuroda (53/55)

まとめ（２）低電圧化は限界が近い

電力削減には低電圧化が有効だが、現状は0.45Vが下限である。トランジスタのゲート支配力が低下してリークしているからである。ゲート支配力を高めるためのトランジスタの構造改革がFinFETから

マルチゲートへ進む。サブスレッショルド特性の傾きを鋭くした新型のトランジスタも研究されている。トンネル効果を利用したT-FETに期待が集まるが、その実用化はFinFETよりも困難である。

さらに電圧を下げると、デバイスのばらつきが問題になり、設計は非常に困難になる。

理論的には電源電圧の下限は36mVである。低電圧化による電力低減の余地はあと2桁しか残っていない。

T. Kuroda (54/55)

まとめ（３）3次元集積の実用が始まりデータ転送の電力を低減できる

More Mooreの取り組み以外にも、3次元集積などのMore than MooreやスピントロニクスなどのBeyond CMOSなど、次の時代を拓く革新技術の研究開発は百花繚乱である。Beyond CMOSの実用の目処はない。

また、新型不揮発性メモリの研究開発は盛んで、次々とニュースが出るが（近ではインテル&MicronのXpoint）、大きな投資が続くDRAMやNANDが延命する可能性が高い。

これから実用が近いのは、3次元集積である。データ転送に要する電力消費が急増しているが、 3次元集積で転送距離を短縮でき、チップの面を使って超並列に接続することで、転送の電力を桁違いに低減できる。

T. Kuroda (55/55)

まとめ（４）近接場結合集積技術で100GFLOPS/Wを目指す

ジャック・キルビーがICを発明したきっかけは、「大規模システムの接続

問題」の解を求めること。ムーアの法則が限界に近づき、チップ内での集積のみに頼ることができなくなった現在においては、一段と画期的な「接続問題の解」が求められている。

私の提案は、チップやモジュールの接続を機械式(配線・半田・コネクタ)から電子式(近接場結合)へ代えること。近接場結合集積技術を用いてプロセッサとメモリを3次元集積することである。"Heterogeneous 3DIntegration by Near-Field Coupling Integration Technology"

JSTのACCELでは、2017年に512GB/sの8GB積層DRAMの（DDR4より32倍高速、HBMより3倍高速）実現を技術立証し、2019年に100GFLOPS/Wのコンピュータ（トレンド予測より5倍高効率）実現の技術立証を目標としている。

ポストムーアのデバイス展望 · t. kuroda (1/55) ポストムーアのデバイス展望...

Documents