ia32-amd-ia64- risc: eine decus prozessorübersicht ... · pdf filerisc: eine...
TRANSCRIPT
www.decus.de 1
IT.Symposium 2005 June 2004
© 2004 Hewlett-Packard Development Company, L.P.The information contained herein is subject to change without notice
DecusSymposium2005
HP Restricted
P065 - April 2005
IA32-AMD-IA64-RISC: eine
Prozessorübersicht
Dr. Christoph BalbachLeiter HP Presales Nord/Ost, Fachleiter Storage Presales
HP Restricted 2September 2004
Chiptechnologien für Serversysteme
Agenda:
• 32-bit Welt und höher– Opteron und Xeon: 32-bit Computing– X86-64: “Moving into the 64-bit World”
• 64-bit Welten– Itanium Performance und Design– Risc Alternativen
• Zusammenfassung– Einsatzempfehlungen– Trends
• Diskussion
www.decus.de 2
IT.Symposium 2005 June 2004
HP Restricted 3September 2004
Opteron, Xeon und 32-bit Computing
HP Restricted 4September 2004
fangen wir “unten” an…
• Xeon vs. Opteron System Architektur• Inside des Opteron Prozessors• Memory im Zugriff• Leistungsvergleiche
www.decus.de 3
IT.Symposium 2005 June 2004
HP Restricted 5September 2004
Intel Xeon System Architektur (z.B. DL580G2)
Frontside BusXeon Xeon Xeon Xeon
Embedded Smart Array5i Plus Controller
IMB
IMB
Thin IMB
CMC(NorthBridge)
CIOB-X
CIOB-X
CSB5IDE, LPC, USBPCI compatibility bus
Quick Sw
itches
REMC
REMC
REMC
REMC
REMC
REMC
REMC
REMC
REMC
REMC
möglicheEngpässe:
CPU/Memory Verbindungs-Architektur:FSB: bidirektional, multi-drop, shared BW
Memory: ASIC basierend, hohe Latenz, 1-2 Controller/System
HP Restricted 6September 2004
AMD Opteron System Architektur(z.B. DL585)
PCI-XTunnel
PCI-XTunnel
PCI-XTunnel
I/OHub
Opteron Opteron
Opteron Opteron
SCSI
NIC
IDE, LPC, USBPCI compatibility bus
CPU/Memory Verbindungs-Architektur:Hyper Transport: effizient, mehrfach- dual-unidirektional, hohe Bandbreite
Memory: kleine Latenz durch integriertem Memory Controller zu Core Taktraten, biszu 4/System
Hyper TransportTM
Links
www.decus.de 4
IT.Symposium 2005 June 2004
HP Restricted 7September 2004
HT
HT
HT
XBar
MCT
SRQ CPU
Inside des Opteron ProzessorsInterne Komponenten:• CPU Core w/L1, L2 Cache• Memory Controller• HyperTransport Links
– 3 HT Links in allen Opteron Prozessoren• 200 Serie:
- 1 Coherent HyperTransport• 800 Serie:
- bis zu 3 Coherent HyperTransport- ProLiant DL585 nutzt 2 von ihnen
• Crossbar Switch – verbindet interne Komponenten
• CPU Core, Memory Controller und xbar Switch arbeiten unabhängig voneinander
HP Restricted 8September 2004
HyperTransport
• Separate Transmit und Receive Kanäle• Differential Signal Übertragung• Termination in den ASICs• Double-pumped data rate• unterstützt bis zu 800MHz Operation (1.6GT/sec)• skalierbar von 4- bis 32- bit Datenpfad (Opteron ist 8 oder 16)• AMD Extensions für HyperTransport unterstützt “coherent messaging”
Data[n:0]Clock[(n/8-1):0]
ControlHT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
Data[n:0]Clock[(n/8-1):0]
Control
3.2 GB/s x 2 =
6.4GB/s
www.decus.de 5
IT.Symposium 2005 June 2004
HP Restricted 9September 2004
Memory Durchsatz
Bandbreite– Memory Controller per CPU– Memory Controller per System (2P, 4P)
Latenzen– Integrierter Memory Controller– externer Memory Controller (2P, 4P)
HP Restricted 10September 2004
Bedeutung von Latenzzeiten
Memory Latenz:~130ns to ~1000ns
On-Chip Cache Latenz ~4ns
Off-Chip Cache Latenz ~30ns
Memory
Systembus
Cache
CPU
www.decus.de 6
IT.Symposium 2005 June 2004
HP Restricted 11September 2004
wie AMD Opteron positioniert
S e r v e r S y s t e m C o m p a r i s o n A M D O p t e r o n ™ I n t e l X e o n * I n t e l X e o n
M P * *
I n t e l I t a n iu m 2 * * *
M o d u l a r , g lu e l e s s s c a l a b i l i t y u p t o 8 - w a y u p t o 2 - w a y u p t o 4 - w a y u p t o 4 - w a y
H i g h - p e r f o r m a n c e 3 2 - b i t a n d 6 4 - b i t c o m p u t in g Y e s N o N o N o
H y p e r T r a n s p o r t ™ t e c h n o lo g y Y e s N o N o N o
I n t e g r a t e d D D R m e m o r y c o n t r o l le r Y e s N o N o N o
F r o n t S i d e B u s f r e q u e n c y 1 . 4 - 1 . 8 G H z † 5 3 3 M H z 4 0 0 M H z 4 0 0 M H z
F r o n t S i d e B u s B a n d w i d t h 1 1 . 2 - 1 4 . 4 G B / s † 4 . 2 G B / s 3 . 2 G B / s 6 . 4 G B / s
M a x i m u m I n t e r - p r o c e s s o r b a n d w i d t h 6 . 4 G B / s 4 . 2 G B / s 3 . 2 G B / s 6 . 4 G B / s
M e m o r y s u p p o r t D D R 2 0 0 / 2 6 6 / 3 3 3 D D R 2 6 6 D D R 2 0 0 D D R 2 0 0
M e m o r y B a n d w i d t h 2 P S y s t e m 1 0 . 6 G B / s 4 . 3 G B / s 6 . 4 G B / s 6 . 4 G B / s
M e m o r y B a n d w i d t h 4 P S y s t e m 2 1 . 2 G B / s N / A 6 . 4 G B / s 6 . 4 G B / s
L 2 c a c h e s i z e 1 M B 5 1 2 K B 5 1 2 K B 2 5 6 K B
L 3 c a c h e s i z e N / A N / A 2 M B 1 . 5 M B / 3 M B
M a x i m u m I / O b a n d w i d t h 2 P S y s t e m 1 2 . 8 G B / s † † 3 . 2 G B / s 4 . 8 G B / s 6 . 4 G B / s
M a x i m u m I / O b a n d w i d t h 4 P S y s t e m 2 5 . 6 G B / s † † † N / A 4 . 8 G B / s 6 . 4 G B / s
S I M D I n s t r u c t i o n S e t S u p p o r t S S E , S S E 2 S S E , S S E 2 S S E , S S E 2 S S E , S S E 2
† W it h t h e m e m o r y c o n t r o l le r in t e g r a t e d o n t o t h e A M D O p t e r o n p r o c e s s o r , t h e f r o n t s id e b u s ( in t e r f a c e t o m e m o r y ) r u n s a t t h e s p e e d o f t h e p r o c e s s o r
† † A M D 2 P S y s t e m - A M D O p t e r o n 2 0 0 S e r ie s w it h 1 H y p e r T r a n s p o r t In t e r - p r o c e s s o r B u s a n d 2 H y p e r T r a n s p o r t I / O B u s e s w it h D D R 3 3 3 m e m o r y
HP Restricted 12September 2004
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
Opteron Memory ArchitekturPros:• Opteron Memory Latenz wird kleiner,
wenn die Taktrate sich erhöht• jedes Memory ist 2 hops oder
weniger von jedem Prozessorentfernt
• Memory Bandbreite skaliert mit derAnzahl der Prozessoren
Cons:• kein “shared” Memory Bus bedeutet
weniger zusammenhängendesMemory
• Maximale Memory Kapazitäterfordert, dass alle Prozessoreninstalliert sind
• Opteron Memory Controller unterstützt nicht “advanced memory protection”
6.4GB/s
6.4GB/s
www.decus.de 7
IT.Symposium 2005 June 2004
HP Restricted 13September 2004
Xeon Memory Architecture
Pros:• Maximale Memory Kapazität stets
erreichbar• unterstützt “advanced memory
protection” incl. spare DIMM, Memory mirroring und RAID Memory
Cons:• “Shared” Memory Bus und CPU
frontside Bus erhöhen Latenz und limitieren Bandbreite für alleProzessoren
• Viele Pfade zu ASIC, nicht zu CPU Geschwindigkeiten
Northbridge
Xeon
Xeon
Xeon
Xeon
HP Restricted 14September 2004
Leistungsbetrachtungen
wie verhält sich die Opteron Plattformgegenüber Xeon Plattformen?
• Datenbank Applikationen• email Applikationen• web-based Applikationen• Integer / Floating point Leistungen
www.decus.de 8
IT.Symposium 2005 June 2004
HP Restricted 15September 2004
Datenbank Benchmarks
70,000
90,000
110,000
130,000
TPC-C(tmpC)
Xeon 3GHz/4M/32GB Opteron 2.2GHz/1M/32GB Opteron 2.4GHz/1M/64GB
10%
30%
600
650
700
750
800
SAP SD 2-tier(users)
Xeon 3GHz/4M Opteron 2.2GHz/1M Opteron 2.4GHz/1M
7%
15%
4P 4P
HP Restricted 16September 2004
Exchange, Web
6,000
6,500
7,000
7,500
8,000
Exchange(MMB3)
Xeon 3GHz/4M Opteron 2.2GHz/1M
7%
4P 2P
3,000
3,500
4,000
4,500
WebBench 5.0(req/sec)
Xeon 3.2GHz/2M Opteron 2.2GHz/1M Opteron 2.4GHz/1M
14%
20%
www.decus.de 9
IT.Symposium 2005 June 2004
HP Restricted 17September 2004
SPEC – int, fp, int-rate, fp-rate
1,000
1,200
1,400
1,600
SPEC2000-int
Xeon 3.2GHz/2M Opteron 2.4GHz/1M
5%
1,000
1,200
1,400
1,600
SPEC2000-fp
Xeon 3.2GHz/2M Opteron 2.4GHz/1M Opteron 2.4GHz/1M/64bits
9%17%
0
10
20
30
40
50
60
SPEC2000-int rate
2P Xeon 3.2GHz/2M 2P Opteron 2.4GHz/1M 4P Xeon 3GHz/4M 4P Opteron 2.4GHz/1M
6%
0
10
20
30
40
50SPEC2000-fp rate
2P Xeon 3.2GHz/2M 2P Opteron 2.4GHz/1M 4P Xeon 3GHz/4M 4P Opteron 2.4GHz/1M
50%
6%
50%
HP Restricted 18September 2004
Performance links
• www.hp.com/products/servers/benchmarks/• www.tpc.org• www.microsoft.com/exchange/evaluation/performance/default.asp• www.spec.org• www.sap.com/benchmark/sd2tier.asp
www.decus.de 10
IT.Symposium 2005 June 2004
HP Restricted 19September 2004
noch ein Wort zu…
64-bit Extensions
HP Restricted 20September 2004
Begriffe:
• Intel: EM64T (extended memory 64 Technologie)
• AMD: AMD64 (AMD’s x86-64-bit Technologie)
• Microsoft: X64 (Microsoft’s Begriff für 64-bit X-Technologie, verschoben auf 2005)
64-bit Extensions Architekturen:
www.decus.de 11
IT.Symposium 2005 June 2004
HP Restricted 21September 2004
Vorteile von 64-bit Extensions
Standard 32bit Computing ist begrenzt auf 4GB Adressraum• gemeinsam für OS Kern, Library Routinen und Applikationen• Applikationen bekommen nur 2GB – 3GB davon
Mechanismus wie AWE und PAE erweitern den virtuellen und physikalischen Adressraum*• aber sie sind schwierig zu programmieren und zu nutzen,
Leistungen sind nur begrenzt64bit Erweiterungen features :
• 64 bits (16 exabytes) virtueller Adressraum – 48bits implementiertin der ersten Generation der Prozessoren
• 52 bits physikalischer Adressraum– 40bits (1 terabyte) implementiert
#1: Zugriff auf einen größeren Adressraum
* AWE: address windowing extensionPAE: physical address extension
HP Restricted 22September 2004
Vorteile von 64-bit Extensions
16 GPRs (General Purpose Registers)• Verdoppelung, 4x fache bit-Anzahl
16 SSE (Befehlssatz-) Register• Verdoppelung gegenüber “normalen” CPU’s
Mehr Register bedeuten: weniger stack Zugriff, mehrRegister Resourcen verfügbar zu CPU Core Taktraten
#2: mehr Register
www.decus.de 12
IT.Symposium 2005 June 2004
HP Restricted 23September 2004
x86 to x86-Extensions – Register (4)
alahbxcxdxspbpsidi
15 7 0EAXEBXECXEDXESPEBPESIEDI
RAX
R8
R15
3163MMX0/FPR0
.
.
.
.
.
.MMX7/FPR7
079
X87/MMXGPR
XMM0......
XMM7XMM8
.
.
.
.
XMM15.
.
127 0SSE & SSE2
Program CounterEIP
63 31 0ip
16
64-bit Extensions ist die größte x-86 Architekturänderung seitüber 20+ Jahren!
Note: all registers, datapaths, and ALUs are at least 64-bit wide –
making extensions technology a real 64-bit computing technology
though not as scalable as IPF
HP Restricted 24September 2004
Operating System Support
Expected updates to support x86 extensionsOS
NA
TBD
NANA
SUSE Linux Enterprise Server 8
Redhat Enterprise Linux 2.1
Redhat Enterprise Linux 3
Microsoft Windows Server 2003 Web Edition
Microsoft Windows Server 2003 Enterprise Edition
Microsoft Windows Server 2003 Standard Edition
Microsoft Windows 2000 Advanced ServerMicrosoft Windows 2000 Server
Planned future OS supportWithin 90 days of server announce
www.decus.de 13
IT.Symposium 2005 June 2004
HP Restricted 25September 2004
Applikationen: wann lohnt es sich?– Datenbanken:
• Viele Datenbank-Applikationen sind Memory abhängig in einer32-bit Umgebung und profitieren sehr vom größerenphysikalischen Adressraum
– email:• Größerer Adressraum erlaubt mehr Nutzer per Server• weniger Server / kleinere TCO
– Terminal Server:• sehr gut geeignet beim Serven von multiplen Applikationen• Beispiel: Microsoft Office über Terminal Server in einer 64-bit
Umgebung unterstützt 50% mehr Nutzer als in einer 32-bit Umgebung
HP Restricted 26September 2004
Applikationen: wann lohnt es sich?– Business Applikationen:
• mit hohen Memory Anforderungen• für hohe Rechenleistungen
– Technisches / Scientific Computing:• Bedarf an großem virtuellen und physikalischen Adressraum• komplexe Berechnungen
Empfehlungen:- geringe/mittlere Anforderungen = x86 64-bit Extensions
- hohe Anforderungen = Itanium 2 Prozessor
www.decus.de 14
IT.Symposium 2005 June 2004
HP Restricted 27September 2004
Chiptechnologien für Serversysteme
Agenda:
• 32-bit Welt und höher– Opteron und Xeon: 32-bit Computing– X86-64: Moving into the 64-bit World
• 64-bit Welten– Itanium Performance und Design– Risc Alternativen
• Zusammenfassung– Einsatzempfehlungen– Trends
• Diskussion
HP Restricted 28September 2004
CPU Roadmap
www.decus.de 15
IT.Symposium 2005 June 2004
HP Restricted 29September 2004
2© 2002
Trends bei Prozessor TechnologienTe
chno
logy
CISC RISC
OOO / SuperScalar CISC&RISC
ExplicitlyParallelInstructionComputing
ExplicitlyParallelInstructionComputing
Multiple Cores &Integrated Interconnects
Multiple Cores &Integrated Interconnects
New features !New features ! (SMT)New features ?New features (SMT)!
Alpha EV7Itanium
tm2
X-86 Family
PA-8800
POWER4
UltraSPARCMIPS 16K rip
PA 8700
Alpha EV68
Itanium
UltraSparc is the only remaining ‘non OOO’processor.
PA-8900
Itanium2 6M
Innovative ApproachConservative Approach
POWER5
/Z -64 bit/390 31 bit
Opteron
Itanium2 9M
HP Restricted 30September 2004
on a single chip !
Wildfire QBB Backplane
CPU Module
Memory Module
Hierarchical Switch
EV7 im Vergleich zu EV68
www.decus.de 16
IT.Symposium 2005 June 2004
HP Restricted 31September 2004
PA-8800 packt zwei PA-8700+ CPUs auf einen Chip für gesteigerte Leistung.
Binäre Kompatibilität mit PA-8700+State-of-the-art 130nm IC ProzessJeder Core hat seinen eigenenL1 Cache32MB, unified L2 Cache mitverbessertem Cache ControllerHoher Durchsatz und Kompatibilitätmit Itanium 2 System BusGleicher Sockel und HP Chipsatzwie der des Itanium 2 Prozessors
HP PA-8800 Dual Core
HP Restricted 32September 2004
Itanium Design und Leistung
www.decus.de 17
IT.Symposium 2005 June 2004
HP Restricted 33September 2004
compilercompilercompiler parallelizedcode
parallelizedparallelizedcodecode
HardwareHardware
......
......
Execution Units unused Execution Units unused ––reduced efficiencyreduced efficiency
Sequential Sequential Machine Machine
CodeCode
OriginalOriginalSourceSourceCodeCode
ItaniumItanium--basedbased
compilercompiler
......
......
Multiple execution Multiple execution units units
resources used resources used more efficientlymore efficiently
Parallel Parallel Machine CodeMachine Code
Traditional Itanium™ architecture: Explicit Parallelism
Massive Resources
IA-64 Architektur: Explicit Parallelism
OriginalOriginalSourceSourceCodeCode
HP Restricted 34September 2004
Itanium: die 4 wichtigsten Eigenschaften
Was macht Itanium so stark?• Massive Ressourcen: 2* 128 64-bit+
Register. Aufteilung auf Integer Units und Floating Point Units beliebig, dazu jede MengeSpezialregister für branches, predication, loop unrolling etc.
• Explicit Parallelization: Der Compiler signalisiert dem Prozessor, welcheAnweisungen parallel ausgeführt werdenkönnen und was sequentiell ausgeführtwerden muss.
• Speculation: Der Prozessor kann Daten in den Cache laden, auch wenn der Zugriffmöglicherweise illegal ist (pre-load). DerVerwendbarkeitscheck benötigt später nurnoch einen Zyklus.
• Predication: Der Compiler kann auch zweiparallele Programmteile ausführen lassen, von denen nur eines weiterverwendet wird, z.B. beide Teile einer IF-Anweisung.
www.decus.de 18
IT.Symposium 2005 June 2004
HP Restricted 35September 2004
Itanium2 Prozessor
Größe:421mm2
50+% der Flächefür Cache und Cache Support Logik!
19.5mm
21.6
mm
HP Restricted 36September 2004
Itanium 2 Architektur
www.decus.de 19
IT.Symposium 2005 June 2004
HP Restricted 37September 2004
Itanium –SPECcpu2000 Ergebnisse
SPECint_base2000Best SPECint_base2000 for each processor
SPECfp_base2000Best SPECfp_base2000 for each processor2X
SPECcpu2000 - RISC/EPICServer Processors
Results as of February 24, 2004For more information on SPEC, see www.spec.org
702
905
1113
1322
0 500 1.000 1.500
Sun USIII Cu 1280 Mhz
Fujitsu SPARC64 1350 MHz
IBM POWER4+ 1.7 GHz
Intel Itanium 2 1.5 GHz
1054
1340
1699
2119
0 500 1.000 1.500 2.000 2.500
Sun USIII Cu 1280 Mhz
Fujitsu SPARC64 1350 MHz
IBM POWER4+ 1.7 GHz
Intel Itanium 2 1.5 GHz
HP Restricted 38September 2004
Itanium – führende SPECcpu2000 Werte
1085
1095
1242
1322
0 500 1.000 1.500
Intel Pentium 4 3.06 GHz
AMD Opteron 1.8 GHz
Intel Xeon 3.06 GHz
Intel Itanium 2 1.5 GHz
SPECint_base2000Best SPECint_base2000 for each processor
1092
1122
1173
2119
0 500 1.000 1.500 2.000 2.500
Intel Pentium 4 3.06 GHz
AMD Opteron 1.8 GHz
Intel Xeon 3.06 GHz
Intel Itanium 2 1.5 GHzSPECfp_base2000Best SPECfp_base2000 for each processor
SPECcpu2000 – Industry Standard Processors
2X
www.decus.de 20
IT.Symposium 2005 June 2004
HP Restricted 39September 2004
Itanium 2 Roadmap
20052003 2004
Itanium® 2Madison
1.3GHz 3MB L31.5GHz, 6MB L3
470.000.000 FETs
Itanium® 2Madison 9M
1.6GHz, 9MB L3
Itanium® 2MontecitoDual Core
Hyperthreading
~2GHz,24MB L31.720.000.000
FETs
L1,L2,L3 Cache on Die
0.13 µm
90 nm
HP developedmx2 dual
processor module
65 nm
Itanium® 2Montvail>2GHz
>24MB L3
65 nm
2006
Itanium® 2Deerfield
1GHz 1.5MB L3
Itanium® 2Millington
Itanium® 2LV Millington
Tukwila>= 4 Core> 4GHz
Integrated Interconnects
2007
Itanium® 2Fanwood
>1GHz 1.5MB L3
Itanium® 2LV Fanwood
>1GHz 1.5MB L3
HP Restricted 40September 2004
Itanium® Montecito: dual core
www.decus.de 21
IT.Symposium 2005 June 2004
HP Restricted 41September 2004
Chiptechnologien für Serversysteme
Agenda:
• 32-bit Welt und höher– Opteron und Xeon: 32-bit Computing– X86-64: Moving into the 64-bit World
• 64-bit Welten– Itanium Performance und Design– Risc Alternativen
• Zusammenfassung– Einsatzempfehlungen– Trends
• Diskussion
HP Restricted 42September 2004
Opteron im Vergleich zu Itanium 2
1 2 3 4 5 6
Opteron* Processor
6.4 GB/s16x16 HTT
1 TB
~2.0 GHz
Itanium® 2 Processor
6.4 GB/s
1024 TB
8
Memory Addressing
1 2 3 4 5 6 7 8 9 1011
System Bus Bandwidth
On-die Cache
On-die Registers
Execution Units
Core Frequency
Issue Ports
Itanium Architecture
264 Application Registers + 64 Predicate Registers*
6 Instructions / Cycle
40 Registers
12
3 Instructions / Cycle
6 MB
Instructions / Clk
6 Integer, 3 Branch
2 FP (FMAC)1 SIMD
2 Load and 2 Store
x86 with extra memory bits
2 Loador
2 Store
Fmisc,Fmul,Fadd1 for SIMD
3Integer
1MB
1.5 GHz
Pipeline Stages
* Intel’s EPIC technology includes 64 single-bit predicate registers to accelerate loop unrolling and branch intensive code execution.
www.decus.de 22
IT.Symposium 2005 June 2004
HP Restricted 43September 2004
Itanium vs. Opteron (Addressing/Registers)
Opteron MadisonProcess 0.13µ 0.13µClock (for this comparison) 2.2 GHz 1.5 GHz
Physical address Space 40 bit 50 bitVirtual address space 48 bit 64 bit
Int (=GRs) Registers 16 128I-NaT-bits (for speculation) - 128Pre-Regs (for branch elim) - 64Float Registers 8 128SSE2 (SIMD only) 16 -
HP Restricted 44September 2004
Itanium vs. Opteron (Address translation)
Opteron ItaniumTLB entries (instructions) 512 128TLB-I associativity 4 128 (!)TLB entries (data) 512 128TLB-D associativity 4 128 (!)
supported page sizes 4 KB, 2 MB 4 KB … 4 GBresulting address rangewith no TLB miss/fault 1 GB 512 GB
Comment: Opteron’s heritage is again visible from the supported memory page sizes 4 KB and 2 MB (as in IA-32). Itanium supports variable page size from 4 `KB up to 4 GB (!) and a resulting ‘fault-less’ address space of 512 GB !!
www.decus.de 23
IT.Symposium 2005 June 2004
HP Restricted 45September 2004
Itanium vs. Opteron (Address translation)
Opteron ItaniumTLB entries (instructions) 512 128TLB-I associativity 4 128 (!)TLB entries (data) 512 128TLB-D associativity 4 128 (!)
supported page sizes 4 KB, 2 MB 4 KB … 4 GBresulting address rangewith no TLB miss/fault 1 GB 512 GB
Comment: x86-64 heritage is again visible from the supported memory page sizes 4 KB and 2 MB (as in IA-32). Itanium supports variable page size from 4 KB up to 4 GB (!) and a resulting ‘fault-less’ address space of 512 GB !!
HP Restricted 46September 2004
Itanium vs. Opteron (instruction issue)
Opteron ItaniumInstructions/clock 3 6max integers/clock 3 6assuming no SIMD ops:max FP adds/clock 1 2max FP muls/clock 1 2assuming 64bit operands from/to Lmax cache:max load or stores/clock 2 4max load and stores 2 6 (!)
Comment: McK and Madison doubled the number of supported loads from L3 cache (vs. Itanium 1). With paired operands 4 64bit loads and 2 64bit stores can be issued per clock. Those features can barely be leveraged in tests like SPEC!
www.decus.de 24
IT.Symposium 2005 June 2004
HP Restricted 47September 2004
die wesentlichen 64-bit Prozessoren
Instr. Per Cycle
Clock Speed
Exec. Units
Register Count
Issue Ports
PipelineStages
On-Die Cache
Memory Band-width
Memory Address-ability
Proc
61.5GHz6 Int3 BR2 FP1 SIMD2 Load AND Store
264 64 Predicate
1186MB6.4 GB/s1PBItanium 2
4*1.15GHz4 Int2 FP2 Load or Store
1524*71.75MB6.4 GB/s(12GB/s for Local Memroy)
4TBEV7
41GHz2 Int1 Br2 FP2 Load or Store
104481.5MB6.4 GB/s16TBPA-8800
52GHz2 Int1 Br2 FP2 Load or Store
1208121.92MB (SHARED)(shared between 2 cores)
>20GB/s(high to support cache snooping)
18 TBPower5
HP Restricted 48September 2004
Workgroup
File, print
MailMessaging
Directory, DNS, firewall, security
Services, caching, proxy Web
Infra-structure
Parallel computing, clustering
HPC
OLTP mid size
Apptier
ERP, biz logic, app server
Biz intelligence/ SCM planning
Biz intelligenceVery large data sets
Back-end for CRM,SCM, ERP, large data sets
Large SMP, large memory
HPC
ERPlarge
OLTPlarge
BI
Front-end Application & data-tier Large scale data tier1 - 4 processors 4 - 8 processors 8 - 64+ processors
OLTPmed
ERPmedium
BI
Integrity & NonStopProLiant & Integrity
Integrity
ProLiant
OLTP large size DBHigh transaction volumes
Back-end for CRM, SCM, ERP
Integrity & NonStop servers
ProLiant & Integrity systems
Mix of ProLiant, Integrity & NonStop
Online Data Store
ZLE
ProLiant w/x86 Extensions istspeziell fürrechenintensive und Memory-hungrige 32-bit Applikationengedacht:
• HPC Cluster• Solaris zu Linux
Migrationen• Datenbanken
HP: Integrity und ProLiant Positionierung:
www.decus.de 25
IT.Symposium 2005 June 2004
HP Restricted 49September 2004
Senkung der Itanium® Kosten
HP Restricted 50September 2004
eine operating Umgebung ist die Kombination von operating System und einer “Instruction Set Architecture” (ISA)
Beispiele: HP-UX und PA-RISC, Linux32 und IA-32, Power und AIX, Sparc und Solaris etc.
Die Frage ist also nicht nach künftigen operating Systemen (welches OS wird sich durchsetzen) –sondern nach künftigen operating Umgebungen.
Beispiele: Itanium und Windows,oder Linux, oder HP-UXoder OVMS oder NSK
hp confidentialEuropean Analysts Briefing, London. September 5, 2000
Operating Systeme vs Operating Umgebungen
www.decus.de 26
IT.Symposium 2005 June 2004
HP Restricted 51September 2004
let’s play together!
herzlichen Dank!
HP Restricted 52September 2004
I/O Subsystem
HT
HT
HT
XBar
MCT
SRQ CPU
Non-coherentHyperTransport
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
4.8GB/s
2.4GB/s
PCI-XTunnel
PCI-XTunnel
PCI-XTunnel
I/OHub
www.decus.de 27
IT.Symposium 2005 June 2004
HP Restricted 53September 2004
PCI-XTunnel
PCI-XTunnel
PCI-XTunnel
I/OHub
HT
HT
HT
XBar
MCT
SRQ CPU
LPCLegacy PCI
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
USBSMBus
IDE
100MHz
SCSI
NIC
100MHz
133MHz
DL585 I/O Subsystem
HP Restricted 54September 2004
Accessing the I/O Subsystem
PCI-XTunnel
PCI-XTunnel
PCI-XTunnel
I/OHub
LPCLegacy PCI
USBSMBus
IDE
SCSI
NIC
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQCPU
HT
HT
HT
XBar
MCT
SRQ CPU
www.decus.de 28
IT.Symposium 2005 June 2004
HP Restricted 55September 2004
Memory Durchsatz für 2P
Northbridge
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
Xeon
Xeon
x 4 channelsx 2 channels
x 8 bytesx 8 bytesx 2 Double Data Rate (DDR)x 2 Double Data Rate (DDR)200 MHz bus speed 200 MHz bus speedOpteron – 12.8 GB/s (DDR-400)Xeon – 6.4 GB/s (DDR2-400)
(c. 2H’04)
2x
HP Restricted 56September 2004
Memory Durchsatz für 4P
Northbridge
Xeon
Xeon
Xeon
Xeon
x 8 channelsx 4 channels
x 8 bytesx 8 bytesx 2 Double Data Rate (DDR)x 2 Double Data Rate (DDR)166 MHz bus speed 100 MHz bus speedOpteron – 21.2 GB/s (DDR-333)Xeon – 6.4 GB/s (DDR-200)
(c. 2H’04)
>3x
www.decus.de 29
IT.Symposium 2005 June 2004
HP Restricted 57September 2004
Memory Latenzen – 2P
Northbridge
HT
HT
HT
XBar
MCT
SRQ CPU
HT
HT
HT
XBar
MCT
SRQCPU
Xeon
Xeon
200 clocks400 clocks90 ns130 nsOpteron – 12.8 GB/s (DDR-400)Xeon – 6.4 GB/s (DDR2-400)
(c. 2H’04)
40%
50%
HP Restricted 58September 2004
Memory Latenzen – 4P
Northbridge
Xeon
Xeon
Xeon
Xeon
260 clocks450 clocks120 ns150 nsOpteron – 21.2 GB/s (DDR-333)Xeon – 6.4 GB/s (DDR-200)
(c. 2H’04)
20%
40%
www.decus.de 30
IT.Symposium 2005 June 2004
HP Restricted 59September 2004
AMD Nomenklatur
1401.4GHz1421.6GHz1441.8GHz1462.0GHz1482.2GHz
ModelClock
2401.4GHz2421.6GHz2441.8GHz2462.0GHz2482.2GHz
ModelClock
AMD Opteron100 Series
1 way
AMD Opteron200 Series
2 way
AMD Opteron™800 Series
Up to 8 way
8401.4GHz8421.6GHz8441.8GHz8462.0GHz8482.2GHz
ModelClock
DL585
DL145
HP Restricted 60September 2004
x86 Extensions – 10 Neue Instruktionen
8-byte only version in AMD64SupportedNot supportedCMPXCHG16B
New mnemonic for existing opcodeSupportedSupportedSTOSQ
New for Intel in 64bit mode only64-bit mode onlySupported in all modesSYSRET
64-bit version of existing instructionSupportedSupportedMOVZX
New mnemonic for existing opcodeSupportedSupportedMOVSQ
NewSupportedSupportedSWAPGS
New for Intel in 64bit mode only64-bit mode onlySupported in all modesSYSCALL
New mnemonic for existing opcodeSupportedSupportedLODSQ
New mnemonic for existing opcodeSupportedSupportedCMPSQ
New mnemonic for existing opcodeSupportedSupportedCDQE
NotesIntelAMDInstruction
Unterschiede bei der 64-bit Extensions Implementierungwerden von den Compilern und OS’s transparent für die
Nutzer abgefangenverschiedene Plattformen - nur ein Binary
www.decus.de 31
IT.Symposium 2005 June 2004
HP Restricted 61September 2004
64-bit32-bit32-bitApplication
64-bit
64-bit64-bit32-bitDrivers
64-bit32-bitOperating system
Operating System Modes
Legacy mode
Compatibility mode
Native 64-bit mode
ThunkingLayer
User
Kernel
September 2004
Itanium: long instruction wordItanium: long instruction word
Load InstructionLoad Instruction Load InstructionLoad Instruction Instruction3Instruction3 TemplateTemplate00127127
Itanium2 und künftige Prozessorenerlauben 4 loads/cycle
Itanium2 und künftige Prozessorenerlauben 4 loads/cycle
Load InstructionLoad Instruction Load InstructionLoad Instruction Instruction 6Instruction 6 TemplateTemplate
Instruction 7Instruction 7 Instruction 8Instruction 8 Instruction 1Instruction 1 TemplateTemplate
128128--bit bundlebit bundle
www.decus.de 32
IT.Symposium 2005 June 2004
HP Restricted 63September 2004
Huge memory address spaces60% shorter memory pipelineLatency avoidanceInstruction predication Data and control speculationMature 64-way SMP implementationsMachine Check Architecture Ring and buffer overflow protectionProtected data pathsBusiness--critical eco-system: ISVs,
storage, mature operating systems
Significantly better performance and scalability for demanding and unpredictable commercial applications: OLTP, database query (TPC-H), sorting
Optimal performance in complex technical applications: Data transforms (FFT), FEA, MCAE, voice recognition
Scalable, mission-critical, self-healing systems
Itanium’s USP: Kundennutzen:
1.01.6 1.6
4.0
00.511.522.533.544.5
Best x86 SAP SD 4p TPC-C 4p Best TPC-C
Rel
ativ
e pe
rform
ance
Itanium
…für business critical computing
Vorteile einer Intel Itanium Architektur:
HP Restricted 64September 2004
Source: IDC Quarterly Server Tracker 3Q03
Volume Server WW Revenue EPIC2.3%
CISC4.0%
RISC 80.9%
x8612.7%
Mid-Range ServerWW Revenue
EPIC0.1%
CISC51%
RISC47%
x862%
High-End Server WW Revenue
x86 Extensions primär für den x86 Markt
x86 Segment
x86 Ext.1%
EPIC1%
x8685%
RISC13%
Itanium (EPIC) und RISC Segmente
mostly SPARC
x86 und Itanium für verschiedene Markt Segmente