ia32-amd-ia64- risc: eine decus prozessorübersicht ... · pdf filerisc: eine...

32
www.decus.de 1 IT.Symposium 2005 June 2004 © 2004 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice Decus Symposium 2005 HP Restricted P065 - April 2005 IA32-AMD-IA64- RISC: eine Prozessorübersicht Dr. Christoph Balbach Leiter HP Presales Nord/Ost, Fachleiter Storage Presales HP Restricted 2 September 2004 Chiptechnologien für Serversysteme Agenda: 32-bit Welt und höher Opteron und Xeon: 32-bit Computing X86-64: “Moving into the 64-bit World” 64-bit Welten Itanium Performance und Design Risc Alternativen Zusammenfassung Einsatzempfehlungen Trends Diskussion

Upload: dokiet

Post on 06-Mar-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

www.decus.de 1

IT.Symposium 2005 June 2004

© 2004 Hewlett-Packard Development Company, L.P.The information contained herein is subject to change without notice

DecusSymposium2005

HP Restricted

P065 - April 2005

IA32-AMD-IA64-RISC: eine

Prozessorübersicht

Dr. Christoph BalbachLeiter HP Presales Nord/Ost, Fachleiter Storage Presales

HP Restricted 2September 2004

Chiptechnologien für Serversysteme

Agenda:

• 32-bit Welt und höher– Opteron und Xeon: 32-bit Computing– X86-64: “Moving into the 64-bit World”

• 64-bit Welten– Itanium Performance und Design– Risc Alternativen

• Zusammenfassung– Einsatzempfehlungen– Trends

• Diskussion

www.decus.de 2

IT.Symposium 2005 June 2004

HP Restricted 3September 2004

Opteron, Xeon und 32-bit Computing

HP Restricted 4September 2004

fangen wir “unten” an…

• Xeon vs. Opteron System Architektur• Inside des Opteron Prozessors• Memory im Zugriff• Leistungsvergleiche

www.decus.de 3

IT.Symposium 2005 June 2004

HP Restricted 5September 2004

Intel Xeon System Architektur (z.B. DL580G2)

Frontside BusXeon Xeon Xeon Xeon

Embedded Smart Array5i Plus Controller

IMB

IMB

Thin IMB

CMC(NorthBridge)

CIOB-X

CIOB-X

CSB5IDE, LPC, USBPCI compatibility bus

Quick Sw

itches

REMC

REMC

REMC

REMC

REMC

REMC

REMC

REMC

REMC

REMC

möglicheEngpässe:

CPU/Memory Verbindungs-Architektur:FSB: bidirektional, multi-drop, shared BW

Memory: ASIC basierend, hohe Latenz, 1-2 Controller/System

HP Restricted 6September 2004

AMD Opteron System Architektur(z.B. DL585)

PCI-XTunnel

PCI-XTunnel

PCI-XTunnel

I/OHub

Opteron Opteron

Opteron Opteron

SCSI

NIC

IDE, LPC, USBPCI compatibility bus

CPU/Memory Verbindungs-Architektur:Hyper Transport: effizient, mehrfach- dual-unidirektional, hohe Bandbreite

Memory: kleine Latenz durch integriertem Memory Controller zu Core Taktraten, biszu 4/System

Hyper TransportTM

Links

www.decus.de 4

IT.Symposium 2005 June 2004

HP Restricted 7September 2004

HT

HT

HT

XBar

MCT

SRQ CPU

Inside des Opteron ProzessorsInterne Komponenten:• CPU Core w/L1, L2 Cache• Memory Controller• HyperTransport Links

– 3 HT Links in allen Opteron Prozessoren• 200 Serie:

- 1 Coherent HyperTransport• 800 Serie:

- bis zu 3 Coherent HyperTransport- ProLiant DL585 nutzt 2 von ihnen

• Crossbar Switch – verbindet interne Komponenten

• CPU Core, Memory Controller und xbar Switch arbeiten unabhängig voneinander

HP Restricted 8September 2004

HyperTransport

• Separate Transmit und Receive Kanäle• Differential Signal Übertragung• Termination in den ASICs• Double-pumped data rate• unterstützt bis zu 800MHz Operation (1.6GT/sec)• skalierbar von 4- bis 32- bit Datenpfad (Opteron ist 8 oder 16)• AMD Extensions für HyperTransport unterstützt “coherent messaging”

Data[n:0]Clock[(n/8-1):0]

ControlHT

HT

HT

XBar

MCT

SRQ CPU

HT

HT

HT

XBar

MCT

SRQCPU

Data[n:0]Clock[(n/8-1):0]

Control

3.2 GB/s x 2 =

6.4GB/s

www.decus.de 5

IT.Symposium 2005 June 2004

HP Restricted 9September 2004

Memory Durchsatz

Bandbreite– Memory Controller per CPU– Memory Controller per System (2P, 4P)

Latenzen– Integrierter Memory Controller– externer Memory Controller (2P, 4P)

HP Restricted 10September 2004

Bedeutung von Latenzzeiten

Memory Latenz:~130ns to ~1000ns

On-Chip Cache Latenz ~4ns

Off-Chip Cache Latenz ~30ns

Memory

Systembus

Cache

CPU

www.decus.de 6

IT.Symposium 2005 June 2004

HP Restricted 11September 2004

wie AMD Opteron positioniert

S e r v e r S y s t e m C o m p a r i s o n A M D O p t e r o n ™ I n t e l X e o n * I n t e l X e o n

M P * *

I n t e l I t a n iu m 2 * * *

M o d u l a r , g lu e l e s s s c a l a b i l i t y u p t o 8 - w a y u p t o 2 - w a y u p t o 4 - w a y u p t o 4 - w a y

H i g h - p e r f o r m a n c e 3 2 - b i t a n d 6 4 - b i t c o m p u t in g Y e s N o N o N o

H y p e r T r a n s p o r t ™ t e c h n o lo g y Y e s N o N o N o

I n t e g r a t e d D D R m e m o r y c o n t r o l le r Y e s N o N o N o

F r o n t S i d e B u s f r e q u e n c y 1 . 4 - 1 . 8 G H z † 5 3 3 M H z 4 0 0 M H z 4 0 0 M H z

F r o n t S i d e B u s B a n d w i d t h 1 1 . 2 - 1 4 . 4 G B / s † 4 . 2 G B / s 3 . 2 G B / s 6 . 4 G B / s

M a x i m u m I n t e r - p r o c e s s o r b a n d w i d t h 6 . 4 G B / s 4 . 2 G B / s 3 . 2 G B / s 6 . 4 G B / s

M e m o r y s u p p o r t D D R 2 0 0 / 2 6 6 / 3 3 3 D D R 2 6 6 D D R 2 0 0 D D R 2 0 0

M e m o r y B a n d w i d t h 2 P S y s t e m 1 0 . 6 G B / s 4 . 3 G B / s 6 . 4 G B / s 6 . 4 G B / s

M e m o r y B a n d w i d t h 4 P S y s t e m 2 1 . 2 G B / s N / A 6 . 4 G B / s 6 . 4 G B / s

L 2 c a c h e s i z e 1 M B 5 1 2 K B 5 1 2 K B 2 5 6 K B

L 3 c a c h e s i z e N / A N / A 2 M B 1 . 5 M B / 3 M B

M a x i m u m I / O b a n d w i d t h 2 P S y s t e m 1 2 . 8 G B / s † † 3 . 2 G B / s 4 . 8 G B / s 6 . 4 G B / s

M a x i m u m I / O b a n d w i d t h 4 P S y s t e m 2 5 . 6 G B / s † † † N / A 4 . 8 G B / s 6 . 4 G B / s

S I M D I n s t r u c t i o n S e t S u p p o r t S S E , S S E 2 S S E , S S E 2 S S E , S S E 2 S S E , S S E 2

† W it h t h e m e m o r y c o n t r o l le r in t e g r a t e d o n t o t h e A M D O p t e r o n p r o c e s s o r , t h e f r o n t s id e b u s ( in t e r f a c e t o m e m o r y ) r u n s a t t h e s p e e d o f t h e p r o c e s s o r

† † A M D 2 P S y s t e m - A M D O p t e r o n 2 0 0 S e r ie s w it h 1 H y p e r T r a n s p o r t In t e r - p r o c e s s o r B u s a n d 2 H y p e r T r a n s p o r t I / O B u s e s w it h D D R 3 3 3 m e m o r y

HP Restricted 12September 2004

HT

HT

HT

XBar

MCT

SRQ CPU

HT

HT

HT

XBar

MCT

SRQCPU

HT

HT

HT

XBar

MCT

SRQ CPU

HT

HT

HT

XBar

MCT

SRQCPU

Opteron Memory ArchitekturPros:• Opteron Memory Latenz wird kleiner,

wenn die Taktrate sich erhöht• jedes Memory ist 2 hops oder

weniger von jedem Prozessorentfernt

• Memory Bandbreite skaliert mit derAnzahl der Prozessoren

Cons:• kein “shared” Memory Bus bedeutet

weniger zusammenhängendesMemory

• Maximale Memory Kapazitäterfordert, dass alle Prozessoreninstalliert sind

• Opteron Memory Controller unterstützt nicht “advanced memory protection”

6.4GB/s

6.4GB/s

www.decus.de 7

IT.Symposium 2005 June 2004

HP Restricted 13September 2004

Xeon Memory Architecture

Pros:• Maximale Memory Kapazität stets

erreichbar• unterstützt “advanced memory

protection” incl. spare DIMM, Memory mirroring und RAID Memory

Cons:• “Shared” Memory Bus und CPU

frontside Bus erhöhen Latenz und limitieren Bandbreite für alleProzessoren

• Viele Pfade zu ASIC, nicht zu CPU Geschwindigkeiten

Northbridge

Xeon

Xeon

Xeon

Xeon

HP Restricted 14September 2004

Leistungsbetrachtungen

wie verhält sich die Opteron Plattformgegenüber Xeon Plattformen?

• Datenbank Applikationen• email Applikationen• web-based Applikationen• Integer / Floating point Leistungen

www.decus.de 8

IT.Symposium 2005 June 2004

HP Restricted 15September 2004

Datenbank Benchmarks

70,000

90,000

110,000

130,000

TPC-C(tmpC)

Xeon 3GHz/4M/32GB Opteron 2.2GHz/1M/32GB Opteron 2.4GHz/1M/64GB

10%

30%

600

650

700

750

800

SAP SD 2-tier(users)

Xeon 3GHz/4M Opteron 2.2GHz/1M Opteron 2.4GHz/1M

7%

15%

4P 4P

HP Restricted 16September 2004

Exchange, Web

6,000

6,500

7,000

7,500

8,000

Exchange(MMB3)

Xeon 3GHz/4M Opteron 2.2GHz/1M

7%

4P 2P

3,000

3,500

4,000

4,500

WebBench 5.0(req/sec)

Xeon 3.2GHz/2M Opteron 2.2GHz/1M Opteron 2.4GHz/1M

14%

20%

www.decus.de 9

IT.Symposium 2005 June 2004

HP Restricted 17September 2004

SPEC – int, fp, int-rate, fp-rate

1,000

1,200

1,400

1,600

SPEC2000-int

Xeon 3.2GHz/2M Opteron 2.4GHz/1M

5%

1,000

1,200

1,400

1,600

SPEC2000-fp

Xeon 3.2GHz/2M Opteron 2.4GHz/1M Opteron 2.4GHz/1M/64bits

9%17%

0

10

20

30

40

50

60

SPEC2000-int rate

2P Xeon 3.2GHz/2M 2P Opteron 2.4GHz/1M 4P Xeon 3GHz/4M 4P Opteron 2.4GHz/1M

6%

0

10

20

30

40

50SPEC2000-fp rate

2P Xeon 3.2GHz/2M 2P Opteron 2.4GHz/1M 4P Xeon 3GHz/4M 4P Opteron 2.4GHz/1M

50%

6%

50%

HP Restricted 18September 2004

Performance links

• www.hp.com/products/servers/benchmarks/• www.tpc.org• www.microsoft.com/exchange/evaluation/performance/default.asp• www.spec.org• www.sap.com/benchmark/sd2tier.asp

www.decus.de 10

IT.Symposium 2005 June 2004

HP Restricted 19September 2004

noch ein Wort zu…

64-bit Extensions

HP Restricted 20September 2004

Begriffe:

• Intel: EM64T (extended memory 64 Technologie)

• AMD: AMD64 (AMD’s x86-64-bit Technologie)

• Microsoft: X64 (Microsoft’s Begriff für 64-bit X-Technologie, verschoben auf 2005)

64-bit Extensions Architekturen:

www.decus.de 11

IT.Symposium 2005 June 2004

HP Restricted 21September 2004

Vorteile von 64-bit Extensions

Standard 32bit Computing ist begrenzt auf 4GB Adressraum• gemeinsam für OS Kern, Library Routinen und Applikationen• Applikationen bekommen nur 2GB – 3GB davon

Mechanismus wie AWE und PAE erweitern den virtuellen und physikalischen Adressraum*• aber sie sind schwierig zu programmieren und zu nutzen,

Leistungen sind nur begrenzt64bit Erweiterungen features :

• 64 bits (16 exabytes) virtueller Adressraum – 48bits implementiertin der ersten Generation der Prozessoren

• 52 bits physikalischer Adressraum– 40bits (1 terabyte) implementiert

#1: Zugriff auf einen größeren Adressraum

* AWE: address windowing extensionPAE: physical address extension

HP Restricted 22September 2004

Vorteile von 64-bit Extensions

16 GPRs (General Purpose Registers)• Verdoppelung, 4x fache bit-Anzahl

16 SSE (Befehlssatz-) Register• Verdoppelung gegenüber “normalen” CPU’s

Mehr Register bedeuten: weniger stack Zugriff, mehrRegister Resourcen verfügbar zu CPU Core Taktraten

#2: mehr Register

www.decus.de 12

IT.Symposium 2005 June 2004

HP Restricted 23September 2004

x86 to x86-Extensions – Register (4)

alahbxcxdxspbpsidi

15 7 0EAXEBXECXEDXESPEBPESIEDI

RAX

R8

R15

3163MMX0/FPR0

.

.

.

.

.

.MMX7/FPR7

079

X87/MMXGPR

XMM0......

XMM7XMM8

.

.

.

.

XMM15.

.

127 0SSE & SSE2

Program CounterEIP

63 31 0ip

16

64-bit Extensions ist die größte x-86 Architekturänderung seitüber 20+ Jahren!

Note: all registers, datapaths, and ALUs are at least 64-bit wide –

making extensions technology a real 64-bit computing technology

though not as scalable as IPF

HP Restricted 24September 2004

Operating System Support

Expected updates to support x86 extensionsOS

NA

TBD

NANA

SUSE Linux Enterprise Server 8

Redhat Enterprise Linux 2.1

Redhat Enterprise Linux 3

Microsoft Windows Server 2003 Web Edition

Microsoft Windows Server 2003 Enterprise Edition

Microsoft Windows Server 2003 Standard Edition

Microsoft Windows 2000 Advanced ServerMicrosoft Windows 2000 Server

Planned future OS supportWithin 90 days of server announce

www.decus.de 13

IT.Symposium 2005 June 2004

HP Restricted 25September 2004

Applikationen: wann lohnt es sich?– Datenbanken:

• Viele Datenbank-Applikationen sind Memory abhängig in einer32-bit Umgebung und profitieren sehr vom größerenphysikalischen Adressraum

– email:• Größerer Adressraum erlaubt mehr Nutzer per Server• weniger Server / kleinere TCO

– Terminal Server:• sehr gut geeignet beim Serven von multiplen Applikationen• Beispiel: Microsoft Office über Terminal Server in einer 64-bit

Umgebung unterstützt 50% mehr Nutzer als in einer 32-bit Umgebung

HP Restricted 26September 2004

Applikationen: wann lohnt es sich?– Business Applikationen:

• mit hohen Memory Anforderungen• für hohe Rechenleistungen

– Technisches / Scientific Computing:• Bedarf an großem virtuellen und physikalischen Adressraum• komplexe Berechnungen

Empfehlungen:- geringe/mittlere Anforderungen = x86 64-bit Extensions

- hohe Anforderungen = Itanium 2 Prozessor

www.decus.de 14

IT.Symposium 2005 June 2004

HP Restricted 27September 2004

Chiptechnologien für Serversysteme

Agenda:

• 32-bit Welt und höher– Opteron und Xeon: 32-bit Computing– X86-64: Moving into the 64-bit World

• 64-bit Welten– Itanium Performance und Design– Risc Alternativen

• Zusammenfassung– Einsatzempfehlungen– Trends

• Diskussion

HP Restricted 28September 2004

CPU Roadmap

www.decus.de 15

IT.Symposium 2005 June 2004

HP Restricted 29September 2004

2© 2002

Trends bei Prozessor TechnologienTe

chno

logy

CISC RISC

OOO / SuperScalar CISC&RISC

ExplicitlyParallelInstructionComputing

ExplicitlyParallelInstructionComputing

Multiple Cores &Integrated Interconnects

Multiple Cores &Integrated Interconnects

New features !New features ! (SMT)New features ?New features (SMT)!

Alpha EV7Itanium

tm2

X-86 Family

PA-8800

POWER4

UltraSPARCMIPS 16K rip

PA 8700

Alpha EV68

Itanium

UltraSparc is the only remaining ‘non OOO’processor.

PA-8900

Itanium2 6M

Innovative ApproachConservative Approach

POWER5

/Z -64 bit/390 31 bit

Opteron

Itanium2 9M

HP Restricted 30September 2004

on a single chip !

Wildfire QBB Backplane

CPU Module

Memory Module

Hierarchical Switch

EV7 im Vergleich zu EV68

www.decus.de 16

IT.Symposium 2005 June 2004

HP Restricted 31September 2004

PA-8800 packt zwei PA-8700+ CPUs auf einen Chip für gesteigerte Leistung.

Binäre Kompatibilität mit PA-8700+State-of-the-art 130nm IC ProzessJeder Core hat seinen eigenenL1 Cache32MB, unified L2 Cache mitverbessertem Cache ControllerHoher Durchsatz und Kompatibilitätmit Itanium 2 System BusGleicher Sockel und HP Chipsatzwie der des Itanium 2 Prozessors

HP PA-8800 Dual Core

HP Restricted 32September 2004

Itanium Design und Leistung

www.decus.de 17

IT.Symposium 2005 June 2004

HP Restricted 33September 2004

compilercompilercompiler parallelizedcode

parallelizedparallelizedcodecode

HardwareHardware

......

......

Execution Units unused Execution Units unused ––reduced efficiencyreduced efficiency

Sequential Sequential Machine Machine

CodeCode

OriginalOriginalSourceSourceCodeCode

ItaniumItanium--basedbased

compilercompiler

......

......

Multiple execution Multiple execution units units

resources used resources used more efficientlymore efficiently

Parallel Parallel Machine CodeMachine Code

Traditional Itanium™ architecture: Explicit Parallelism

Massive Resources

IA-64 Architektur: Explicit Parallelism

OriginalOriginalSourceSourceCodeCode

HP Restricted 34September 2004

Itanium: die 4 wichtigsten Eigenschaften

Was macht Itanium so stark?• Massive Ressourcen: 2* 128 64-bit+

Register. Aufteilung auf Integer Units und Floating Point Units beliebig, dazu jede MengeSpezialregister für branches, predication, loop unrolling etc.

• Explicit Parallelization: Der Compiler signalisiert dem Prozessor, welcheAnweisungen parallel ausgeführt werdenkönnen und was sequentiell ausgeführtwerden muss.

• Speculation: Der Prozessor kann Daten in den Cache laden, auch wenn der Zugriffmöglicherweise illegal ist (pre-load). DerVerwendbarkeitscheck benötigt später nurnoch einen Zyklus.

• Predication: Der Compiler kann auch zweiparallele Programmteile ausführen lassen, von denen nur eines weiterverwendet wird, z.B. beide Teile einer IF-Anweisung.

www.decus.de 18

IT.Symposium 2005 June 2004

HP Restricted 35September 2004

Itanium2 Prozessor

Größe:421mm2

50+% der Flächefür Cache und Cache Support Logik!

19.5mm

21.6

mm

HP Restricted 36September 2004

Itanium 2 Architektur

www.decus.de 19

IT.Symposium 2005 June 2004

HP Restricted 37September 2004

Itanium –SPECcpu2000 Ergebnisse

SPECint_base2000Best SPECint_base2000 for each processor

SPECfp_base2000Best SPECfp_base2000 for each processor2X

SPECcpu2000 - RISC/EPICServer Processors

Results as of February 24, 2004For more information on SPEC, see www.spec.org

702

905

1113

1322

0 500 1.000 1.500

Sun USIII Cu 1280 Mhz

Fujitsu SPARC64 1350 MHz

IBM POWER4+ 1.7 GHz

Intel Itanium 2 1.5 GHz

1054

1340

1699

2119

0 500 1.000 1.500 2.000 2.500

Sun USIII Cu 1280 Mhz

Fujitsu SPARC64 1350 MHz

IBM POWER4+ 1.7 GHz

Intel Itanium 2 1.5 GHz

HP Restricted 38September 2004

Itanium – führende SPECcpu2000 Werte

1085

1095

1242

1322

0 500 1.000 1.500

Intel Pentium 4 3.06 GHz

AMD Opteron 1.8 GHz

Intel Xeon 3.06 GHz

Intel Itanium 2 1.5 GHz

SPECint_base2000Best SPECint_base2000 for each processor

1092

1122

1173

2119

0 500 1.000 1.500 2.000 2.500

Intel Pentium 4 3.06 GHz

AMD Opteron 1.8 GHz

Intel Xeon 3.06 GHz

Intel Itanium 2 1.5 GHzSPECfp_base2000Best SPECfp_base2000 for each processor

SPECcpu2000 – Industry Standard Processors

2X

www.decus.de 20

IT.Symposium 2005 June 2004

HP Restricted 39September 2004

Itanium 2 Roadmap

20052003 2004

Itanium® 2Madison

1.3GHz 3MB L31.5GHz, 6MB L3

470.000.000 FETs

Itanium® 2Madison 9M

1.6GHz, 9MB L3

Itanium® 2MontecitoDual Core

Hyperthreading

~2GHz,24MB L31.720.000.000

FETs

L1,L2,L3 Cache on Die

0.13 µm

90 nm

HP developedmx2 dual

processor module

65 nm

Itanium® 2Montvail>2GHz

>24MB L3

65 nm

2006

Itanium® 2Deerfield

1GHz 1.5MB L3

Itanium® 2Millington

Itanium® 2LV Millington

Tukwila>= 4 Core> 4GHz

Integrated Interconnects

2007

Itanium® 2Fanwood

>1GHz 1.5MB L3

Itanium® 2LV Fanwood

>1GHz 1.5MB L3

HP Restricted 40September 2004

Itanium® Montecito: dual core

www.decus.de 21

IT.Symposium 2005 June 2004

HP Restricted 41September 2004

Chiptechnologien für Serversysteme

Agenda:

• 32-bit Welt und höher– Opteron und Xeon: 32-bit Computing– X86-64: Moving into the 64-bit World

• 64-bit Welten– Itanium Performance und Design– Risc Alternativen

• Zusammenfassung– Einsatzempfehlungen– Trends

• Diskussion

HP Restricted 42September 2004

Opteron im Vergleich zu Itanium 2

1 2 3 4 5 6

Opteron* Processor

6.4 GB/s16x16 HTT

1 TB

~2.0 GHz

Itanium® 2 Processor

6.4 GB/s

1024 TB

8

Memory Addressing

1 2 3 4 5 6 7 8 9 1011

System Bus Bandwidth

On-die Cache

On-die Registers

Execution Units

Core Frequency

Issue Ports

Itanium Architecture

264 Application Registers + 64 Predicate Registers*

6 Instructions / Cycle

40 Registers

12

3 Instructions / Cycle

6 MB

Instructions / Clk

6 Integer, 3 Branch

2 FP (FMAC)1 SIMD

2 Load and 2 Store

x86 with extra memory bits

2 Loador

2 Store

Fmisc,Fmul,Fadd1 for SIMD

3Integer

1MB

1.5 GHz

Pipeline Stages

* Intel’s EPIC technology includes 64 single-bit predicate registers to accelerate loop unrolling and branch intensive code execution.

www.decus.de 22

IT.Symposium 2005 June 2004

HP Restricted 43September 2004

Itanium vs. Opteron (Addressing/Registers)

Opteron MadisonProcess 0.13µ 0.13µClock (for this comparison) 2.2 GHz 1.5 GHz

Physical address Space 40 bit 50 bitVirtual address space 48 bit 64 bit

Int (=GRs) Registers 16 128I-NaT-bits (for speculation) - 128Pre-Regs (for branch elim) - 64Float Registers 8 128SSE2 (SIMD only) 16 -

HP Restricted 44September 2004

Itanium vs. Opteron (Address translation)

Opteron ItaniumTLB entries (instructions) 512 128TLB-I associativity 4 128 (!)TLB entries (data) 512 128TLB-D associativity 4 128 (!)

supported page sizes 4 KB, 2 MB 4 KB … 4 GBresulting address rangewith no TLB miss/fault 1 GB 512 GB

Comment: Opteron’s heritage is again visible from the supported memory page sizes 4 KB and 2 MB (as in IA-32). Itanium supports variable page size from 4 `KB up to 4 GB (!) and a resulting ‘fault-less’ address space of 512 GB !!

www.decus.de 23

IT.Symposium 2005 June 2004

HP Restricted 45September 2004

Itanium vs. Opteron (Address translation)

Opteron ItaniumTLB entries (instructions) 512 128TLB-I associativity 4 128 (!)TLB entries (data) 512 128TLB-D associativity 4 128 (!)

supported page sizes 4 KB, 2 MB 4 KB … 4 GBresulting address rangewith no TLB miss/fault 1 GB 512 GB

Comment: x86-64 heritage is again visible from the supported memory page sizes 4 KB and 2 MB (as in IA-32). Itanium supports variable page size from 4 KB up to 4 GB (!) and a resulting ‘fault-less’ address space of 512 GB !!

HP Restricted 46September 2004

Itanium vs. Opteron (instruction issue)

Opteron ItaniumInstructions/clock 3 6max integers/clock 3 6assuming no SIMD ops:max FP adds/clock 1 2max FP muls/clock 1 2assuming 64bit operands from/to Lmax cache:max load or stores/clock 2 4max load and stores 2 6 (!)

Comment: McK and Madison doubled the number of supported loads from L3 cache (vs. Itanium 1). With paired operands 4 64bit loads and 2 64bit stores can be issued per clock. Those features can barely be leveraged in tests like SPEC!

www.decus.de 24

IT.Symposium 2005 June 2004

HP Restricted 47September 2004

die wesentlichen 64-bit Prozessoren

Instr. Per Cycle

Clock Speed

Exec. Units

Register Count

Issue Ports

PipelineStages

On-Die Cache

Memory Band-width

Memory Address-ability

Proc

61.5GHz6 Int3 BR2 FP1 SIMD2 Load AND Store

264 64 Predicate

1186MB6.4 GB/s1PBItanium 2

4*1.15GHz4 Int2 FP2 Load or Store

1524*71.75MB6.4 GB/s(12GB/s for Local Memroy)

4TBEV7

41GHz2 Int1 Br2 FP2 Load or Store

104481.5MB6.4 GB/s16TBPA-8800

52GHz2 Int1 Br2 FP2 Load or Store

1208121.92MB (SHARED)(shared between 2 cores)

>20GB/s(high to support cache snooping)

18 TBPower5

HP Restricted 48September 2004

Workgroup

File, print

MailMessaging

Directory, DNS, firewall, security

Services, caching, proxy Web

Infra-structure

Parallel computing, clustering

HPC

OLTP mid size

Apptier

ERP, biz logic, app server

Biz intelligence/ SCM planning

Biz intelligenceVery large data sets

Back-end for CRM,SCM, ERP, large data sets

Large SMP, large memory

HPC

ERPlarge

OLTPlarge

BI

Front-end Application & data-tier Large scale data tier1 - 4 processors 4 - 8 processors 8 - 64+ processors

OLTPmed

ERPmedium

BI

Integrity & NonStopProLiant & Integrity

Integrity

ProLiant

OLTP large size DBHigh transaction volumes

Back-end for CRM, SCM, ERP

Integrity & NonStop servers

ProLiant & Integrity systems

Mix of ProLiant, Integrity & NonStop

Online Data Store

ZLE

ProLiant w/x86 Extensions istspeziell fürrechenintensive und Memory-hungrige 32-bit Applikationengedacht:

• HPC Cluster• Solaris zu Linux

Migrationen• Datenbanken

HP: Integrity und ProLiant Positionierung:

www.decus.de 25

IT.Symposium 2005 June 2004

HP Restricted 49September 2004

Senkung der Itanium® Kosten

HP Restricted 50September 2004

eine operating Umgebung ist die Kombination von operating System und einer “Instruction Set Architecture” (ISA)

Beispiele: HP-UX und PA-RISC, Linux32 und IA-32, Power und AIX, Sparc und Solaris etc.

Die Frage ist also nicht nach künftigen operating Systemen (welches OS wird sich durchsetzen) –sondern nach künftigen operating Umgebungen.

Beispiele: Itanium und Windows,oder Linux, oder HP-UXoder OVMS oder NSK

hp confidentialEuropean Analysts Briefing, London. September 5, 2000

Operating Systeme vs Operating Umgebungen

www.decus.de 26

IT.Symposium 2005 June 2004

HP Restricted 51September 2004

let’s play together!

herzlichen Dank!

HP Restricted 52September 2004

I/O Subsystem

HT

HT

HT

XBar

MCT

SRQ CPU

Non-coherentHyperTransport

HT

HT

HT

XBar

MCT

SRQCPU

HT

HT

HT

XBar

MCT

SRQ CPU

HT

HT

HT

XBar

MCT

SRQCPU

4.8GB/s

2.4GB/s

PCI-XTunnel

PCI-XTunnel

PCI-XTunnel

I/OHub

www.decus.de 27

IT.Symposium 2005 June 2004

HP Restricted 53September 2004

PCI-XTunnel

PCI-XTunnel

PCI-XTunnel

I/OHub

HT

HT

HT

XBar

MCT

SRQ CPU

LPCLegacy PCI

HT

HT

HT

XBar

MCT

SRQCPU

HT

HT

HT

XBar

MCT

SRQ CPU

HT

HT

HT

XBar

MCT

SRQCPU

USBSMBus

IDE

100MHz

SCSI

NIC

100MHz

133MHz

DL585 I/O Subsystem

HP Restricted 54September 2004

Accessing the I/O Subsystem

PCI-XTunnel

PCI-XTunnel

PCI-XTunnel

I/OHub

LPCLegacy PCI

USBSMBus

IDE

SCSI

NIC

HT

HT

HT

XBar

MCT

SRQ CPU

HT

HT

HT

XBar

MCT

SRQCPU

HT

HT

HT

XBar

MCT

SRQCPU

HT

HT

HT

XBar

MCT

SRQ CPU

www.decus.de 28

IT.Symposium 2005 June 2004

HP Restricted 55September 2004

Memory Durchsatz für 2P

Northbridge

HT

HT

HT

XBar

MCT

SRQ CPU

HT

HT

HT

XBar

MCT

SRQCPU

Xeon

Xeon

x 4 channelsx 2 channels

x 8 bytesx 8 bytesx 2 Double Data Rate (DDR)x 2 Double Data Rate (DDR)200 MHz bus speed 200 MHz bus speedOpteron – 12.8 GB/s (DDR-400)Xeon – 6.4 GB/s (DDR2-400)

(c. 2H’04)

2x

HP Restricted 56September 2004

Memory Durchsatz für 4P

Northbridge

Xeon

Xeon

Xeon

Xeon

x 8 channelsx 4 channels

x 8 bytesx 8 bytesx 2 Double Data Rate (DDR)x 2 Double Data Rate (DDR)166 MHz bus speed 100 MHz bus speedOpteron – 21.2 GB/s (DDR-333)Xeon – 6.4 GB/s (DDR-200)

(c. 2H’04)

>3x

www.decus.de 29

IT.Symposium 2005 June 2004

HP Restricted 57September 2004

Memory Latenzen – 2P

Northbridge

HT

HT

HT

XBar

MCT

SRQ CPU

HT

HT

HT

XBar

MCT

SRQCPU

Xeon

Xeon

200 clocks400 clocks90 ns130 nsOpteron – 12.8 GB/s (DDR-400)Xeon – 6.4 GB/s (DDR2-400)

(c. 2H’04)

40%

50%

HP Restricted 58September 2004

Memory Latenzen – 4P

Northbridge

Xeon

Xeon

Xeon

Xeon

260 clocks450 clocks120 ns150 nsOpteron – 21.2 GB/s (DDR-333)Xeon – 6.4 GB/s (DDR-200)

(c. 2H’04)

20%

40%

www.decus.de 30

IT.Symposium 2005 June 2004

HP Restricted 59September 2004

AMD Nomenklatur

1401.4GHz1421.6GHz1441.8GHz1462.0GHz1482.2GHz

ModelClock

2401.4GHz2421.6GHz2441.8GHz2462.0GHz2482.2GHz

ModelClock

AMD Opteron100 Series

1 way

AMD Opteron200 Series

2 way

AMD Opteron™800 Series

Up to 8 way

8401.4GHz8421.6GHz8441.8GHz8462.0GHz8482.2GHz

ModelClock

DL585

DL145

HP Restricted 60September 2004

x86 Extensions – 10 Neue Instruktionen

8-byte only version in AMD64SupportedNot supportedCMPXCHG16B

New mnemonic for existing opcodeSupportedSupportedSTOSQ

New for Intel in 64bit mode only64-bit mode onlySupported in all modesSYSRET

64-bit version of existing instructionSupportedSupportedMOVZX

New mnemonic for existing opcodeSupportedSupportedMOVSQ

NewSupportedSupportedSWAPGS

New for Intel in 64bit mode only64-bit mode onlySupported in all modesSYSCALL

New mnemonic for existing opcodeSupportedSupportedLODSQ

New mnemonic for existing opcodeSupportedSupportedCMPSQ

New mnemonic for existing opcodeSupportedSupportedCDQE

NotesIntelAMDInstruction

Unterschiede bei der 64-bit Extensions Implementierungwerden von den Compilern und OS’s transparent für die

Nutzer abgefangenverschiedene Plattformen - nur ein Binary

www.decus.de 31

IT.Symposium 2005 June 2004

HP Restricted 61September 2004

64-bit32-bit32-bitApplication

64-bit

64-bit64-bit32-bitDrivers

64-bit32-bitOperating system

Operating System Modes

Legacy mode

Compatibility mode

Native 64-bit mode

ThunkingLayer

User

Kernel

September 2004

Itanium: long instruction wordItanium: long instruction word

Load InstructionLoad Instruction Load InstructionLoad Instruction Instruction3Instruction3 TemplateTemplate00127127

Itanium2 und künftige Prozessorenerlauben 4 loads/cycle

Itanium2 und künftige Prozessorenerlauben 4 loads/cycle

Load InstructionLoad Instruction Load InstructionLoad Instruction Instruction 6Instruction 6 TemplateTemplate

Instruction 7Instruction 7 Instruction 8Instruction 8 Instruction 1Instruction 1 TemplateTemplate

128128--bit bundlebit bundle

www.decus.de 32

IT.Symposium 2005 June 2004

HP Restricted 63September 2004

Huge memory address spaces60% shorter memory pipelineLatency avoidanceInstruction predication Data and control speculationMature 64-way SMP implementationsMachine Check Architecture Ring and buffer overflow protectionProtected data pathsBusiness--critical eco-system: ISVs,

storage, mature operating systems

Significantly better performance and scalability for demanding and unpredictable commercial applications: OLTP, database query (TPC-H), sorting

Optimal performance in complex technical applications: Data transforms (FFT), FEA, MCAE, voice recognition

Scalable, mission-critical, self-healing systems

Itanium’s USP: Kundennutzen:

1.01.6 1.6

4.0

00.511.522.533.544.5

Best x86 SAP SD 4p TPC-C 4p Best TPC-C

Rel

ativ

e pe

rform

ance

Itanium

…für business critical computing

Vorteile einer Intel Itanium Architektur:

HP Restricted 64September 2004

Source: IDC Quarterly Server Tracker 3Q03

Volume Server WW Revenue EPIC2.3%

CISC4.0%

RISC 80.9%

x8612.7%

Mid-Range ServerWW Revenue

EPIC0.1%

CISC51%

RISC47%

x862%

High-End Server WW Revenue

x86 Extensions primär für den x86 Markt

x86 Segment

x86 Ext.1%

EPIC1%

x8685%

RISC13%

Itanium (EPIC) und RISC Segmente

mostly SPARC

x86 und Itanium für verschiedene Markt Segmente