ポストムーアのデバイス展望 · t. kuroda (1/55) ポストムーアのデバイス展望...
TRANSCRIPT
T. Kuroda (1/55)
ポストムーアのデバイス展望
「ポストムーアに向けた計算機科学・計算科学の新展開」シンポジウム(2015/12/22)
慶應義塾大学理工学部
黒田忠広www.kuroda.elec.keio.ac.jp
T. Kuroda (2/55)
以下の問いを考えながら、今後のデバイス技術を展望する。
ムーアの法則はいつ、なぜ終わるのか?
SoCはどうなるか?
ダークシリコンはなぜ増えるのか?
電源電圧は何ボルトまで下げることができるか?
電源電圧を更に下げると何が起こるか?
トランジスタのリークは解決できるか?
More Moore、More than Moore、Beyond CMOSとは何か?
DRAMやNANDを置き換える新型メモリは何が本命か?
メモリのアクセスがコンピュータの性能を律速するのはなぜか?
コンピュータの電力効率を高めるために何をすべきか?
T. Kuroda (3/55)
ムーアの法則はいつ、なぜ終わるのか?
T. Kuroda (4/55)
2029年終焉説
2029年に収束?
Mooreの法則が終焉する年
さまざまな見解
予測した年
年々延命している
日経平均や為替レートの年初予測と似ている(経済活動) 以前の限界説は「10年後に限界」、 近の限界説は収束している!?
「いつ?」より「なぜ?」
工学的に重要な問いは、「いつ?」よりも「なぜ?」
出典:“Moore’s law at 50: Are we planning for retirement?” IEDM2015基調講演, G. Yeric (ARM).
T. Kuroda (5/55)
性能・コスト比を改善できないと終焉電力問題が も深刻
ムーアの法則は、集積回路の性能コスト比を改善できなくなったときに終焉する。
コストはリソグラフィで決まり、性能は電力効率で決まる。
リソグラフィが限界に近づくと、トランジスタの単価が上がる。
16nmからトランジスタの単価が上昇に転じている。
やがてEUVが導入されると、トランジスタの単価は再び下がる。
より深刻な問題は、発熱が上限に達し集積を妨げていること。
T. Kuroda (6/55)
SoCはどうなるか?
T. Kuroda (7/55)
System on ChipsSoCに拘泥せずSoCs+2.5D集積が良い
シリコンインタポーザTSVとマイクロバンプ
TSMC: Integrated Fan-Out (InFO)RDL(再配線層)を用いたWafer-Level Fan Out技術
Intel:Embedded Multi-die Interconnect Bridge (EMIB)同一パッケージ内で異種チップを高密度に接続する技術(14nmファウンドリ事業)
T. Kuroda (8/55)
ダークシリコンはなぜ増えるのか?
T. Kuroda (9/55)
同時に使えないトランジスタが増える発熱が上限に達し集積を妨げている
出典:“Moore’s law at 50: Are we planning for retirement?” IEDM2015基調講演, G. Yeric (ARM).
ダークシリコンの割合28nm: 0 (基準)
5nm: 80%7nm: 75%
10nm: 56%16nm: 45%20nm: 33%
T. Kuroda (10/55)
電源電圧は何ボルトまで下げることができるか?
T. Kuroda (11/55)
電力とエネルギー電子回路は電子の回り路
流量 総量
電流 [A](= [C/秒]) 電荷 [C]
I = GV Q = CV
電力 [ワット](=[J/秒]) エネルギ [J]
P = fCV2 E = CV2
発熱を減らす 電池寿命を延ばす
発熱が集積化の障害 電源が小型化の障害
ゆく川の流れは絶えずして…
Q = CV, E = QV = CV2
C
V
Q
低電力と省エネルギーは低電圧技術が重要
T. Kuroda (12/55)
電力とエネルギーの電圧依存性電圧の下限はS係数と活性化率で決まる
0 0.2 0.4 0.6 0.8 1 1.20
0.2
0.4
0.6
0.8
1
電源電圧 [V]
消費
エネル
ギー
[相対
値]
メモリ
ロジック
出典:H. Fuketa, T. Sakurai et al., “Device‐Circuit Interactions in Extremely Low Voltage CMOS Designs, ” IEDM, pp.559‐562, Dec. 2011.
IBM Power5
リーク電力
Intel Pentium4
リーク電力
出典:T. Kuroda, Low Power CMOS Design: The Applications: State‐of the‐Art Practice,” ASP‐DAC, Tutorial, Jan. 2007.
NEDOプロジェクトELP(2009-2013): 0.5VLEAP(2010-2014): 0.4V
消費
電力
電源電圧 [V]
20%
80%
Ptotal
PactiveVDD2
Pleak10 VDD
THs
-V
T. Kuroda (13/55)
インテルプロセッサの場合0.5V近傍でエネルギーを1/5
[1] V. De (Intel), “Energy Efficient Computing in Nanoscale CMOS: Challenges and Opportunities (Plenary),“ A‐SSCC‘14, Dig. Tech. Papers, pp. 5‐8, Nov. 2014.
32nm High-K Metal gate
リーク電力14%
リーク電力42%
リーク電力95%(大半はメモリ)
ロジック:メモリ=2:1
T. Kuroda (14/55)
電源電圧を更に下げると何が起こるか?
T. Kuroda (15/55)
0.4Vの先は?リークとばらつきとの戦い
機能保全 ON電流とOFFリークのバランスを取る(多入力論理ゲートの構成法) データの衝突を避ける(メモリを6Trから8Trにする)
リーク削減 Steep Slope デバイス
電源遮断:細粒度制御、不揮発性メモリ
ばらつき対応 非同期設計(30%-50%低減できる)
誤り検出・訂正(ディペンダブル、resilient:回復力に富む)
統計的システム設計(低い確率で間違うことを許す)
0.4V
理論限界: 0.036V
Ref: R. Swanson, JSSC’72; J. Meindl, JSSC’00(利得=1)
0.5V
T. Kuroda (16/55)
統計的設計思想低い確率で間違うことを許すアプリが増加精度要求
高い
低い
アプリケーション領域 技術 対象
制御
認識
機械
人間
冗長性6σ設計
確率評価
T. Kuroda (17/55)
トランジスタのリークは解決できるか?
T. Kuroda (18/55)
DS
G
CB
CG
CD
トランジスタの寸法が小さくなると, CD がCGに対して無視できない大きさになり,ゲート支配力が低下する.
Drain Induced Barrier Lowering (DIBL)効果
ゲート支配力が不十分
Short L
S D
Increase Drainvoltage
Long L
Increase Drainvoltage
S D
Bar
rier h
eigh
t
ゲート支配力が十分
ゲート支配力の低下リークが増える理由
T. Kuroda (19/55)
低リークデバイス技術材料かプロセスか構造を変える
出典:T. Kuroda, IEDM 2002 Panel Discussion, “Will SOI ever become a mainstream technology? ”.
高誘電率ゲート絶縁膜
ひずみシリコン: Ionを増やす
1) 新材料 金属ゲート
2) 新プロセス
リークゲートの支配力が劣化
ダブルゲート サラウンディングゲートUltra Thin Body
3) 新構造 ゲートの支配力を高める
SOTB FinFET
T. Kuroda (20/55)
トランジスタの進展構造改良でゲートの支配力を改善
TSOI ~ (1/3) Lg
G
TFin ~ (2/3) Lg
D
S
FinFETUltra Thin Body
Nanowire
T. Kuroda (21/55)
T-FETトンネル電流でSteep Slopeを実現
出典:I. Young (Intel), “Tunneling Field Effect Transistors: Device and Circuit Considerations for Energy Efficient Logic Opportunities,” IEDM2015.
III‐V族ヘテロ接合のT‐FETが有望。 オン電流が小さいのが課題。 T‐FETの実用化は、FinFETのときよりもはるかに困難である。
T. Kuroda (22/55)
More Moore, More than Moore, Beyond CMOSとは何か?
T. Kuroda (23/55)
More Moore, More than Moore, Beyond CMOS
出典:IITRS International Technology Roadmap for Semiconductors.
アナログ/RF 受動素子 パワーデバイスセンサー
アクチュエータバイオ素子
7nm
11nm
16nm
22nm
32nm
45nm
微細
化More Moo
re:
More than Moore:多様化(異機能融合)
人と環境の調和
SiP SiP: System in Package
SoC: System on Chip
SoC
情報処理
微細
化の
寸法
デジタル
ノンデジタル3次元集積化
5nm
T. Kuroda (24/55)
デバイス技術の進展
Courtesy: Seiichiro Kawamura
状態変数
CMOS Extension beyond CMOS
Si FETSi FETSpinFET
(スピン偏極電子)
SpinFET(スピン偏極電子)
Spin wave logicSpin wave logic
NEMSNEMS
TFETTFET
Atomic switchAtomic switch
Mott FETMott FET Neg-Cg FETNeg-Cg FET
Nanomagnet logicNanomagnet logic
BiSFETBiSFET All spin logicAll spin logic
NchGeNchGe
CNT FETCNT FETGNR FETGNR FET
FinFETFinFET
NW FETNW FET
PchIII-VPchIII-V
STT logicSTT logicExitonic FETExitonic FET
非電荷
電荷
IMOSIMOS
T. Kuroda (25/55)
DRAMやNANDを置き換える新型メモリは何が本命か?
T. Kuroda (26/55)
10-3 10-4 10-5 10-6 10-7 10-8 10-9
データ書き換え時間(秒)
高速低速
10M
100M
1G
10G
MRAM(磁性)
FeRAM(強誘電体)
ReRAM(抵抗性)
DRAM
SRAM
NANDFlash
PCM(相変化)
容量(ビット)
STT‐MRAM
HDD
新型メモリDRAMやNANDの置き換えを狙う
XpointMicron(maker)+Intel(user)で話題PCM?との推測
T. Kuroda (27/55) 27
MRAM
FeRAM
ReRAMPCM
DRAM
SRAM
NANDFlash
STT‐MRAMHDD
R&D年間投資額を円の大きさで表現
新型メモリ投資が大きいDRAMやNANDが延命する可能性が高い
10-3 10-4 10-5 10-6 10-7 10-8 10-9
データ書き換え時間(秒)
T. Kuroda (28/55)
メモリのアクセスがコンピュータの性能を律速するのはなぜか?
T. Kuroda (29/55)
チップ間通信の低電力化周辺でなく面を利用
演算は面を利用 Mooreの法則: 1.15 (Tr. speed) x 1.49 (Tr.# 面積) = x1.70/year
データ転送は辺を利用 Mooreの法則: 1.15 (Tr. speed) x 1.11 (I/O# 周辺長) = x1.28/year
Mooreの法則は演算性能とデータ転送速度の乖離を生む
チップを積層して面を利用して転送 (TSVに期待が集まったが…)
出典:黒田忠広, 電子情報通信学会誌, vol. 90, no. 11, pp. 977‐981, Nov. 2007.
T. Kuroda (30/55)
コンピュータの電力効率を高めるために何をすべきか?
T. Kuroda (31/55)
課題1:真空管17,000本トランジスタの発明(1948)
課題2:人手によるはんだ付け500万箇所ICの発明(1958)
ENIAC (1946年)27トン, 150kW
T. Kuroda (32/55)
ICの発明 (1958年)大規模なシステムの接続問題の解を求める
T. Kuroda (33/55)
Cray (1985年)2GFLOPS/150kW
T. Kuroda (34/55)
配線とコネクタの塊
T. Kuroda (35/55)
配線全長数km
T. Kuroda (36/55)
チップ内での集積のみに頼ることができなくなった現在においては
一段と画期的な「接続問題の解」が求められている
T. Kuroda (37/55)
私の提案
チップやモジュールの接続を機械式(配線・半田・コネクタ)から電子式(近接場結合)へ革新する
T. Kuroda (38/55)
近接場: 飛ばない電磁波混信しないPasmo
遠方場:飛ぶ電磁波混信する携帯電話やWiFi
T. Kuroda (39/55)
近接場結合集積技術JST ACCEL研究:システムを高性能・高機能に
大規模システムの接続問題の解
ThruChip Interface (TCI)チップ(プロセッサやメモリ)を3次元集積して高性能にする
Transmission Line Coupler (TLC)モジュール(ストレージやセンサ)を
LEGO実装して高機能にする
磁界磁界
電界
システムLSIチップ
メモリチップ
プロセッサ基板
周辺機器基板
データセントリックコンピュータ(IoT時代の極低消費電力モバイルコンピュータ)
100GFLOPS/W512GB/s
T. Kuroda (40/55)
ThruChip Interface (TCI)デジタルCMOS回路技術
コイル: 標準CMOSチップの多層配線を巻く コイルが邪魔にならずレイアウト効率が高い
チップのどこでも(SRAM上でも干渉なく)配置できる
デジタルCMOS回路技術 いずれはコストゼロに
Txda
ta
Time
I TV
RR
xdat
aRxdata
TxdataTxdata
Rxdata
磁界結合磁界はチップを貫通できる
送受信回路: デジタルCMOS回路
65nm CMOS
20m x 10m
15m x 10m
Tx
Rx
dITdtVR = M
S=1IT
T. Kuroda (41/55)
0 25 50 75 100 125 150Communication Distance, Z [m]
0
10
20
90
30
80
Usa
ble
Coi
l ban
dwid
th [
Gb/
s]U
sabl
e ci
rcui
t ba
ndw
idth
dep
ends
on
devi
ce
40
50
60
70
Coil Diameter D= Zdistance x 3
3-die stackingD=60m
Z=20m
9 die stackingD=240m
Z=80mD=200m
D=300mD=400m
D=500m
D=100m
Usable BW of 22 Gbps
80 Gbps
Data rate goes up dramatically with smaller Z
TCI転送速度
T. Kuroda (42/55)
Coils of 100um size areformed byM9 and M10 for TX,M7 and M8 for RX, with power/signal lines crossing
Accommodate circuits under the coil
Similar to typical CMOS layout
Coils are overlappedand accessed by PDMAto avoid crosstalk
at phase 1at phase 2at phase 3at phase 4
TCIレイアウト
T. Kuroda (43/55)
競合技術との比較電子式のTCIは機械式のTSVよりコスト・速度・電力で優位
追加コスト
組立工程
エコシステム
方式
ウェハ工程
微細化
製造歩留まり
TSV
40%程度
OSAT(後工程請負)必要
新モデルが必要
機械式
追加プロセス必要
困難
低い、改善困難
マイクロバンプ
トランジスタ
TCI
通信電力高い
ESD保護回路必要チップ数に比例(全チップ駆動)
低いESD保護回路不要
チップ数によらず一定(磁界駆動)
数%程度
従来どおり
従来どおり
電子式(デジタル回路)
標準CMOSプロセス
容易
高い(~100%)
転送速度
配置場所
256GB/s以下
専用領域(トランジスタから離す)
512GB/s以上
任意(制約なし)
磁界
トランジスタ
T. Kuroda (44/55)
3次元スケーリングシナリオチップを薄くする競争
電界効果トランジスタ (Mooreの法則)
TCI(3次元Mooreの法則)
電界一定のスケーリング
動作速度: 2倍消費電力/面積:1
電界一定
電圧:1/2寸法:1/2
磁界変化一定のスケーリング
データ転送速度/面積: 8倍消費エネルギー/ビット:1/8
チップ厚:1/2巻数:1/1.5
磁界変化一定
evaluation value dimension scaling
Device size [x] 1/
Voltage [V] 1/
Current [I] 1/
Capacitance [C]~[xx/x] 1/
Delay time [t]~[CV/I] 1/
Chip thickness [z] 1/
Coil size [D] 1/
Coil turn number [n] 0.8
Inductance [L]~[n2D1.6]
Magnetic coupling [k]~[z/D]
Received signal [vR]~[kL(I/t)]
Data rate / channel [1/t]
Channel / area [1/D2] 2
Area / data rate [tD2] 1/2
Data rate / area [1/tD2] 2
Energy / bit [IVt] 1/3
出典:T. Kuroda, “Circuit and Device Interactions for 3D Integration Using Inductive Coupling,“ IEDM'14.
T. Kuroda (45/55)
SPICE simulation performed with Predictive Technology Model (http://ptm.asu.edu/)
Chip thickness 50 m 25 m
Coil size 150 m 75 m
Data rate per coil 50 Gb/s/coil 64 Gb/s/coil
Area efficiency 2 Tb/s/mm2 11 Tb/s/mm2
Power efficiency 30 fJ/bit 25 fJ/bit
Aggregate data rate when using 8mm x 1mm Si area
18 Tb/s 91 Tb/s
Power dissipationwhen using 8mm x 1mm Si area
0.5 W 2.2 W
7nm CMOSでのTCIの性能
T. Kuroda (46/55)
出典:T. Kuroda, “Circuit and Device Interactions for 3D Integration Using Inductive Coupling,“ IEDM'14.
電源用の貫通電極をインプラで低コストに作る
Highly Doped Silicon Via (HDSV)
10mピッチでウェハを積層し常温圧着する
T. Kuroda (47/55)
出典: T. Kuroda, "Low-Cost 3D Chip Stacking with ThruChip Wireless Connections,“HotChips’14 .
TCIとHDSVを用いたメモリ積層メモリの三次元集積が極薄・極低電力になる
# stacked die Die pitch
Total height Die area Data link
Power delivery IO energy/bit
~80 m
従来のNAND積層(wire bond)
spacer~1000 m
新しいNAND積層(TCIとHDSV)
16 50
~10001x
wire bond wire bond
1x
165
~80~0.9xTCI
HDSV< 1/400x
従来のDRAM積層(TSV)
~275 mDRAM die
DRAM die
DRAM die
DRAM die
Base logic die~40 m
新しいDRAM積層
(TCIとHDSV)
555
~2751x
TSV TSV 1x
58
~40~0.9xTCI
HDSV< 1/10x
TSVは製造コストが40%増加、TCI+HDSVの場合は1%程度
T. Kuroda (48/55)
TCI_2.9D, 2.5D, 2.0D
(a) TCI_2.9D packaging.
(b) TCI_2.5D packaging with small Si interposer.
(c) TCI_2.0D packaging.
Conventional 2.5D packaging by Si interposer with bumps and TSVs.
ChipChip
Package substrateC4 bumpsSi interposer
Coils Coils
Package substrateC4 bumps
ChipChip Coils Coils
Package substrateC4 bumps
ChipChip Coils
Coils
T. Kuroda (49/55)
2017年の目標
512GB/sの積層DRAMの技術立証現行技術(DIMM)より32倍高速、新技術(TSV)より3倍高速
64
128
256
512
1k
2k
4k
8k
16k
10
20
40
80
160
320
640
1280
200 400 800 1600 3200 6400 12800
[GB/s]
[Mb/s/pin]
総転
送速
度
1ピンの転送速度
研究目標
HMC (Micron)HBM (JEDEC)
DDR3/DDR4 (DIMM)
16~24 GB/s64 DQ, 2~3 Gbps/pin
128~256 GB/s1024 DQ, 1~2 Gbps/pin
160~240 GB/s128 DQ, 10~15 Gbps/pin
512~768 GB/s1024 DQ, 4~6 Gbps/pin
開発中のTSV積層DRAMに比べて3倍高速
現行のDRAMモジュールに比べて32倍高速
TCI積層DRAM
TSV
DIMM
TCI
T. Kuroda (50/55)
2019年の目標
100GFLOPS/Wのコンピュータの技術立証トレンド予測より5倍高効率
電力効率の改善なくしてシステム性能の向上なし
システム性能の要求に際限なし
車載システム:自動運転「これからのクルマには、安全な自動運転をするための処理能力が、いくらあっても足りない。」
(日経エレクトロニクス3月号)
データセンタ: IoT/ビッグデータ「電気代(国内)は2025年に3.36兆円になる。」(経済産業省/総合科学技術会議評価専門委員会資料(2011))
電力量を半減できれば1.7兆円の経済効果
トレンド予測より5倍高効率近接場結合集積技術がイネーブラ特にDRAMインタフェースの高効率化 0
2
4
6
8
10
12
2005 2010 2015 2020 2025
Green500のトレンド
年
研究目標2019年に100GFLOPS/W
単精度浮動小数点換算
電力
効率
[GFL
OP
S/W
]
予測値=20GFLOPS/W単精度浮動小数点換算
4
8
12
16
20
24
T. Kuroda (51/55)
100GFLOPS/Wのコンピュータの実装
Thickness150~200um SoC
TCI (SoC-DRAM)~1mm
Stacked DRAM
Flip chip substrate
BGA height ~ 0.2mm
> 5000 coils in DRAM memory area to form bus link
Edge of DRAM slip into SoC under its eavesto form SoC-DRAM serial link
HDSV(Vdd/GND)
10 layer ~100um~200um
SoCTCI (SoC-DRAM)
Air GapHeat insulator
Flip chip substrate
Solder bump
BGA pitch ~ 0.4mmTCI(DRAM bus)
HDSV(Vdd/GND) 25um
Stacked DRAMActive Interposer
DRAM 8Gb * 9 chips
T. Kuroda (52/55)
まとめ(1)電力効率の改善なくしてシステム性能の改善なし
ムーアの法則は、集積回路の性能コスト比を改善できなくなったときに終焉する。コストはリソグラフィで決まり、性能は電力効率で決まる。
リソグラフィが限界に近づくと、トランジスタの単価が上がる。7nm(量産2019年)以降は、SoCに拘泥せずSoCs+2.5D集積が良い。やがてEUVが導入されると、トランジスタの単価は再び下がる。
より深刻な問題は、発熱が上限に達し集積を妨げていることである。ダークシリコン(同時に使えないトランジスタ)が増える所以である。抜熱技術と低電力技術が、集積度を決め、システム性能を決める。
T. Kuroda (53/55)
まとめ(2)低電圧化は限界が近い
電力削減には低電圧化が有効だが、現状は0.45Vが下限である。トランジスタのゲート支配力が低下してリークしているからである。ゲート支配力を高めるためのトランジスタの構造改革がFinFETから
マルチゲートへ進む。サブスレッショルド特性の傾きを鋭くした新型のトランジスタも研究されている。トンネル効果を利用したT-FETに期待が集まるが、その実用化はFinFETよりも困難である。
さらに電圧を下げると、デバイスのばらつきが問題になり、設計は非常に困難になる。
理論的には電源電圧の下限は36mVである。低電圧化による電力低減の余地はあと2桁しか残っていない。
T. Kuroda (54/55)
まとめ(3)3次元集積の実用が始まりデータ転送の電力を低減できる
More Mooreの取り組み以外にも、3次元集積などのMore than MooreやスピントロニクスなどのBeyond CMOSなど、次の時代を拓く革新技術の研究開発は百花繚乱である。Beyond CMOSの実用の目処はない。
また、新型不揮発性メモリの研究開発は盛んで、次々とニュースが出るが( 近ではインテル&MicronのXpoint)、大きな投資が続くDRAMやNANDが延命する可能性が高い。
これから実用が近いのは、3次元集積である。データ転送に要する電力消費が急増しているが、 3次元集積で転送距離を短縮でき、チップの面を使って超並列に接続することで、転送の電力を桁違いに低減できる。
T. Kuroda (55/55)
まとめ(4)近接場結合集積技術で100GFLOPS/Wを目指す
ジャック・キルビーがICを発明したきっかけは、「大規模システムの接続
問題」の解を求めること。ムーアの法則が限界に近づき、チップ内での集積のみに頼ることができなくなった現在においては、一段と画期的な「接続問題の解」が求められている。
私の提案は、チップやモジュールの接続を機械式(配線・半田・コネクタ)から電子式(近接場結合)へ代えること。近接場結合集積技術を用いてプロセッサとメモリを3次元集積することである。"Heterogeneous 3DIntegration by Near-Field Coupling Integration Technology"
JSTのACCELでは、2017年に512GB/sの8GB積層DRAMの(DDR4より32倍高速、HBMより3倍高速)実現を技術立証し、2019年に100GFLOPS/Wのコンピュータ(トレンド予測より5倍高効率)実現の技術立証を目標としている。