A processzorok hatékonyságának fejlődése (általában)
3/b. ábra: Processzorok hatékonysága
2.
fcSPECint_base2000/
Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02 03 04 05
~ constant
~ 10x/ 10 years
2. gen. szuperskalárok
0.05
0.1
0.02
0.5
1
0.2
0.01 ~~
A processzorhatékonyság meredeken növekvő szakasza
az x86 processzorok esetén
4. ábra: Intel korai processzorainak hatékonysága
1.
fcSPECint_base2000/
Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02 03 04 05
~ 10x/ 10 years
0.05
0.1
0.02
0.5
1
0.2
0.01 ~~
*
**
**
* **
** *
Pentium
486DX
386DX
286
Pentium IIPentium Pro
A hatékonyságnövelés forrásai(x86 processzorok esetén)
→ szóhossz növelése 8/16 32 bit(286 386DX)
→ időbeli párhuzamosság bevezetése, növelése(1. és 2. generációs futószalag processzorok)(386DX, 486DX)
→ kibocsátási párhuzamosság bevezetése, növelése(1. és 2. generációs szuperskalárok)(Pentium)
1.
ILP-szinten a hatékonyság növelési forrásainak kimerülése
A 2. generációs (széles) szuperskalárokkal kezdődően általános célú alkalmazásokban a processzorok hatékonyságának
extenzív növelési forrásai kimerültek
1.
általános célú alkalmazásokban:
2. generációs szuperskalárok szélessége rendelkezésre álló ILP
A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok
Az órafrekvencia erőteljes növelése
(~100* / 10 év)
EPIC architektúra
(IPC )
2.
Az órafrekvencia erőteljes növelése
A fejlődés fő vonulata
általános célú alkalmazásokbana 2. generációs szuperskalároktól kezdődően
Implikációk
3.
→ RISC processzorok kiszorulása(MIPS R, Alpha, HP PA 8000, POWER PC)
→ Fejlődési korlátok megjelenése
• Hatékonysági korlát
• Disszipációs korlát
• Párhuzamos buszok frekvenciakorlátja
Hatékonysági korlát4.
Alapvető ok: a processzor és a memória alrendszer közötti
táguló sebességolló.
Okok (1)
5. ábra: Processzor memóriák relatív késleltetési ideje
4.
20
40
30
1.0 2.0fc
1.5 2.50.5
10 *
*
*
*
*
*
*
3.0 3.5
*
4.0
Memory latency
*
*
*
**
60
50
80
70
100
90
Pentium
Pentium Pro
Pentium II
Pentium III Pentium 4
RDRAM-40
120
110
*
*
*
*
* *
RDRAM-60 DDR2 533
DDR 400
DDR 333
PC 133
PC 100
PC 66
386
EDO
(cycles)
FPM
130*
DDR 266
486
*
*
(GHz)
Okok (2)
6. ábra: Processzor memóriák relatív átviteli rátája (D: kétcsatornás)
4.
0.20
0.40
0.30
1.0 2.0fc
1.5 2.50.5
0.10
**
*
**
*
*
*
**
*** *
3.0 3.5
*
*
*
**
4.0
Tmemory/f c
*
*
*
**
**
*
*
*
** *
*
**
*
0.60
0.50
0.80
0.70
1.00
0.90
Pentium
Pentium Pro
Pentium II
Pentium III Pentium 4
PC-66
PC-100
PC-133
DDR 266
PC-800D
DDR 333
DDR 333D
** *
******
DDR 400
DDR 400DDDR 533D
*
*
*
*
*
*
*
*
FPM
EDO
(GHz)
Okok (3)
7. ábra: A processzor busz relatív sebessége
4.
0.20
0.40
0.30
1.0 2.0fc
1.5 2.50.5
0.10
*
*
*
*
*
*
*
**
**
**
*
3.0 3.5
**
*
*
*
4.0
SPECint_base2000/f c
**
*
*
*
*
*
**
*
*
*
*
*
**
*
0.60
0.50
0.80
0.70
1.00
0.90
Pentium
Pentium Pro
Pentium II
Pentium III
Pentium 4
66
100
133 400 533
8001066
(GHz)
10. ábra: Fejlett szuperskalár processzorok hatékonysága megszabó legfontosabb tényezők
4. Következmények (3)
fc
Core efficiency
Decreasing core efficiencydue to the memory gap
Increasing core efficiencyprimarily due to enhanced
memory subsystem(L2, FSB, memory)
(GHz)
Következmények (1)
8. ábra: Intel Pentium III és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén
4.
0.40
0.5
0.45
1.0 2.0fc
1.5 2.50.5
0.35
0.30
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
0.55
3.0 3.5
***
**
*
*
**
*
**
*
*
4.0
Katmai512K dir L2
Coppermine256K on-die L2
Willamette256K on-die L2
Northwood A512K on-die L2
Prescott (1M)1M on-die L2
Prescott (2M)2M on-die L2
Irwindale512K on-die L2
2M on-die L3
800 MHz/PC-3200/SATA-150/HT800 MHz/PC-3200/ATA-100
100 MHzPC-100
SCSI-U2W
100 MHzPC-100
ATA-100
100 MHzPC-133
ATA-100
400 MHzPC-800 RDRAM
ATA-66
400 MHzPC-800 RDRAM
ATA-66
800 MHzPC-4300
SATA-150
Pentium 4Pentium III
SPECint_base2000/f c
Northwood C512K on-die L2
~~
800 MHz/PC-3200/ATA-100
533 MHzPC-800 RDRAM
ATA-100
800 MHzPC-3200
SATA-150HT
**
*
800 MHz/PC-2667/ATA-100
Northwood B512K on-die L2
* *
(GHz)
9. ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak
hatékonysága fixpontos feldolgozás esetén
4. Következmények (2)
0.40
0.50
0.45
1.5 2.5fc
2.0 3.01.0
0.35
0.30
* *
*
*
*
***
*
**
* *
*
**
*
*
0.65
3.5
**
*Palomino
256K on-die L2
Clawhammer1M on-die L2
Thorougbread256K on-die L2
200 MHzPC-100
ATA-66200 MHzPC-100
ATA-66
200 MHzPC-133
ATA-66
200 MHzPC-133
ATA-66
266 MHzPC-2100
ATA-100
266 MHzPC-2100
ATA-100
333 MHz/PC-2700/ATA-100
Athlon-XP
Athlon
SPECint_base2000/f c
0.5
Barton512K on-die L2
Thunderbird256K on-die L2
400 MHz/PC-3200/ATA-100
PC-3200ATA-133
f =fFSBmemory
K7512K dir L21
K75512K dir L22,3
1 f =0.5*fL2 c 2 f =0.4*fL2 c (f =750/800/850 MHz)c3 f =0.3*fL2 c (f =900/950/1000 MHz)c
Athlon 64
~~0.60
~~4.0
(GHz)
11. ábra: Intel és AMD processzorok hatékonyságának
összehasonlítása
4. Következmények (4)
0.40
0.50
0.45
1.0 2.0fc1.5 2.50.5
0.35
0.30
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
3.0 3.5
***
**
4.0
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**256K/200
* *
***
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
*** 1M/fFSB
1000
0.55
1200 1400 1600 1800
Pentium IIIPentium IV
Athlon
Athlon XP
Athlon 64
(GHz)
12. ábra: Intel és AMD processzorok tervezési filozófiájának
összehasonlítása
4. Következmények (5)
0.40
0.50
0.45
0.35
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
***
**
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**
256K/200
* *
***
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
*** 1M/fFSB
1000
0.55
1200 1400 1600 1800
Designs preferringcore efficiency
Designs preferring clock frequency
1.0 2.0fc1.5 2.50.5 3.0 3.5 4.0
(GHz)
0.75
0.70
0.80
*2M/400
Pentium IIIPentium IV
Athlon
Athlon XP
Athlon 64
Pentium M
Disszipációs korlát (1)
Disszipáció (D) :
D=A*C*V*fc + V*Ileak
ahol:A: aktív kapuk részarányaC: a kapuk összesített kapacitásaV: tápfeszültségfc: órafrekvencia
Ileak: szivárgási áram
5.
13. ábra: Intel processzorok fajlagos disszipációja
5
10
50
100
20
2100 1000 5000
*
*
*
*
**
****
*
*
*
*
**
*
*
* **
*
*
*
Prescott
Northwood
WillametteTualatin
Coppermine
Katmai
Deshutes
Klamath
P6
P54CS
P54C
P5
*
(W/cm )2
fc2000200 50020 50
D/die area
0.8μ 0.6μ
0.6μ
0.35μ
0.35μ
0.35μ
0.25μ
0.25μ
0.18μ
0.18μ
0.13μ0.13μ
0.09μ
(MHz)
5. Disszipációs korlát (2)
14. ábra: Intel és AMD processzorok
0.40
0.50
0.45
0.35
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
***
**
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**
256K/200
* *
***
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
*** 1M/fFSB
0.55
Thermal
wall
Core design,
technology
1.0 2.0fc1.5 2.50.5 3.0 3.5 4.0 ~~ (GHz)
1000 1200 1400 1600 18000.80
*2M/400
0.75
0.70
Pentium IIIPentium IV
Athlon
Athlon XP
Athlon 64
Pentium M
5. Disszipációs korlát (3)
A processzor tervezésben a disszipációt csökkentő technikák előtérbe kerülése
5. Disszipációs korlát (4)
Az órafrekvencia növelését hangsúlyozó fejlesztési irány háttérbe szorulása
11/00 1/02^
0.18 /42 mtrs
^
400 MHz FSB
Northwood-A
Xeon DP line
Desktop-line
Celeron-line
Willamette
1.4/1.5 GHz
(Value PC-s)
On-die 256K L2
0.13 /55 mtrs
400 MHz FSB
2A/2.2 GHzOn-die 512K L2
2/02
^
0.13 /55 mtrs
400 MHz FSB
1.8/2/2.2 GHzOn-die 512K L2
5/01
^
0.18 /42 mtrs
400 MHz FSB
1.4/1.5/1.7 GHzOn-die 256 K L2
11/02
^Prestonia-B
0.13 /55 mtrs
533 MHz FSB
2/2.4/2.6/2.8 GHzOn-die 512K L2
Foster Prestonia-A Nocona
2/04
^
0.09 /125mtrs
800 MHz FSB
2.80E/3E/3.20E/3.40E GHzOn-die 1M L2
2000 2001 2002 2003 2004
Xeon - MP line
3/02^
0.18 /108 mtrs
400 MHz FSB
1.4/1.5/1.6 GHzOn-die 256K L2
11/02^
Gallatin
0.13 /178 mtrs
400 MHz FSB
1.5/1.9/2 GHzOn-die 512K L2
Foster-MP
On-die 512K/1M L3 On-die 1M/2M L3
5/02^
Northwood-B
0.13 /55 mtrs
533 MHz FSB
2.26/2.40B/2.53 GHzOn-die 512K L2
5/02^
Willamette-128
400 MHz FSB
1.7 GHz
11/02^
6/04^
0.09 / 125 mtrs
800 MHz FSB
2.8/3.0/3.2/3.4/3.6 GHzOn-die 1M L2
Northwood-B
533 MHz FSB
3.06 GHzOn-die 512K L2
0.13 /55 mtrs
400 MHz FSB
2 GHzOn-die 128K L2
0.18 0.13
9/02^
Northwood-128
On-die 128K L2
Cores supporting hyperthreading
5/03
^Northwood-C
800 MHz FSB
2.40C/2.60C/2.80C GHzOn-die 512K L2
0.13 /55 mtrs
Cores with EM64T implemented but not enabled
2005
2Q/05^
Potomac
0.09 > 3.5 MHz
On-die 1M L2On-die 8M L3 (?)
Irwindale-C
1Q/05^
0.09 3.0/3.2/3.4/3.6 GHz
On-die 512K L2, 2M L3
Jayhawk
2Q/05^
0.09
(Cancelled 5/04)
3.8 GHzOn-die 1M L2
3Q/05
^Tejas
0.09 /4.0/4.2 GHz
On-die 1M L2(Cancelled 5/04)
Irwindale-A
11/03^
800 MHz FSB
3.2EE GHzOn-die 512K L2, 2M L3
0.13 /178 mtrs
Cores supporting EM64T
6/04
^
0.09 /125mtrs
800 MHz FSB
2.8/3.0/3.2/3.4/3.6 GHzOn-die 1M L2
11/04^
Irwindale-B
0.13 /178mtrs
1066 MHz FSB
3.4EE GHzOn-die 512K L2, 2 MB L3
533 MHz FSB
2.4/2.53/2.66/2.8 GHzOn-die 256K L2
0.09
6/04^
Celeron-D
PGA 603 PGA 603
PGA 603 PGA 604
PGA 478 LGA 775
PGA 423 PGA 478 PGA 478 PGA 478 PGA 478 PGA 478 LGA 775
PGA 478 PGA 478
PGA 603 PGA 603
0.18 /42 mtrs
^
400 MHz FSB
Willamette
On-die 256K L2
PGA 478
3/04^
Gallatin
0.13 /286 mtrs
400 MHz FSB
2.2/2.7/3.0 GHzOn-die 512K L2
On-die 2M/4M L3
PGA 603
8/01
PGA 478533 MHz FSB
2.53/2.66/2.80/2.93 GHzOn-die 256K L2
0.09
9/04^
Celeron-D
Extreme Edition
7/03
^Prestonia-C
0.13 /178 mtrs
533 MHz FSB
3.06 GHzOn-die 512K L2, 1M L3
PGA 603
1.4 ... 2.0 GHz0.09 /125mtrs
800 MHz FSB
3.20F/3.40F/3.60F GHzOn-die 1M L2
LGA 775
8/04
^
12 13
8,9,10PrescottPrescott Prescott-F115 6,7
LGA 775
42,3
1 1
Intel P4 processzorcsaládja (Netburst architektúra)
– 14 –
Párhuzamos buszok frekvenciakorlátja6.
Okok (1)
15. ábra: Párhuzamos buszok bitvezetékei közötti futási idő különbségek (skew)
63. bit
0. bit
Skew
6.
Okok (2)
16. ábra: A futási idő különbségek (skew) kiegyenlítése a MSI 915 G Combo alaplap processzor buszánál
6.
Következmény
17. ábra: Jelátvitel soros buszonA futási idő különbségek (skew) kiegyenlítése a MSI 915 G
Combo alaplap processzor buszánál
D+
D-
"0" "1"
6.
Soros buszok használata
Gyors párhuzamos buszok helyett a soros buszok előtérbe kerülése
(lassú buszoknál is, költségokokból)
6. Párhuzamos buszok frekvenciakorlátja
A jelentkező fejlesztési korlátok végső következményei7.
18. ábra: Az órafrekvencia növelési helyzete
Az órafrekvencia növekedésének lényeges lassulása
50
*
100
cf
500
1000
200
2000
5000
~100*/10 years
Year1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05
(MHz)
2. gen.superscalars
~Saturation