Download - AMD’s Next Generation
AMD’s Next GenerationAMD’s Next GenerationDie Hammer Familie
Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Rissefür das RST-Labor
AMD‘s achte Prozessorgeneration
Rechen Performance – Merkbare Leistungssteigerung auf aktuellen Entwicklungsstand
durch Nutzung nichtexotischer Silizium Prozesse und allgemeiner Design Techniken
Software Performance– Leistungssteigerung existierender x86-32 Software – 100%
Kompatibilität Multiprocessing & High Performance Computing (HPC)
– Neue Standards – ermöglicht 4P und 8P Server Kosten-Vorteile
– Geringe Kosten durch Migration vorhandener Software und der Herstellung des Prozessors auf aktuellem Stand der Technik.
Auf Anwendung zugeschnitten
ClawHammer– 1-2 Prozessoren – In Desktopsystemen– günstig
ClawHammer-DP, SlegeHammer
– Multiprozessor fähig 2-8 Prozessoren >8 über Switches
– In HPC-Systemen ( High Performance Computing )
Unterschiede der Varianten
1-2 HyperTransport Ports ( 16-8 Bit )
Level2 Cache 256K -512 K
1 DDR Chanel – 4 Dimms
Sockel ( 754 Pins )
2-3 HyperTransport Ports ( 16 Bit )
Level2 Cache >1M 2 DDR Chanels
– 8 Dimms
Sockel ( 940 Pins )
512kor
256K Byte
L2Cache
64k L1 InstructionCache
64k L1 Data Cache
x86-64 Processor Core
DDR Memory Controller
HyperTransport™
72
16
64
wid
e D
RA
M
1600MT/s
Ersetzt Address, Data und Control Bus
X86-64 Bit 1P Desktop Prozessor
ein 72-bit DDR Kanal
200, 266, and 333 MHz
4GB DDR DRAM
Zukünftige Speicher-Technologien
werden unterstützt
oEin 16-bit HT Port
oOn chip L1 & L2 cache
64K-Byte L1 Inst.
64K-Byte L1 DATA
256/512KB ECC protected L2
754-pin mPGA Package
AMD Athlon™ Processor
8 8 1600MT/s
X86-64 Bit 2P Desktop Prozessoren
ein 72-bit DDR Kanal
200, 266, and 333 MHz
4GB DDR DRAM
Zukünftige Speicher-Technologien
werden unterstützt
oOder zwei 8-bit HT Ports
oOn chip L1 & L2 cache
64K-Byte L1 Inst.
64K-Byte L1 DATA
256/512KB ECC protected L2
754-pin mPGA Package
512kor
256K Byte
L2Cache
64k L1 InstructionCache
64k L1 Data Cache
X86-64 Processor Core
DDR Memory Controller
HyperTransport™
726
4 w
ide D
RA
M
AMD Athlon™ Processor
AMD Opteron™ Family Processors
512Kor
1M ByteL2
Cache
64k L1 InstructionCache
64k L1 Data Cache
X86-64 Processor Core
Dual DDR Memory Controller
HyperTransport™
72
16
64
wid
e D
RA
M
1600MT/s
72
16
64 Bit 2P Server Prozessoren
zwei 72-bit DDR Kanäle
200, 266, and 333 MHz
8GB DDR DRAM
Zukünftige Speicher-Technologien
werden unterstützt
ozwei 16-bit HT Ports
oOn chip L1 & L2 cache
64K-Byte L1 Inst.
64K-Byte L1 DATA
512/1024KB ECC protected L2
940-pin mPGA Package
AMD Opteron™ Family Processors
1M or2M Byte
L2Cache
64k L1 InstructionCache
64k L1 Data Cache
X86-64Processor Core
Dual DDR Memory Controller
HyperTransport™
72
16
64
wid
e D
RA
M
1600MT/s
72
1616
64 Bit 8P Server Prozessoren
zwei 72-bit DDR Kanäle
200, 266, and 333 MHz
8GB DDR DRAM
Zukünftige Speicher-Technologien
werden unterstützt
odrei 16-bit HT Ports
oOn chip L1 & L2 cache
64K-Byte L1 Inst.
64K-Byte L1 DATA
1M/2MB ECC protected L2
940-pin mPGA Package
Core Architektur
5 Funktionsblöcke– Prozessor-Core, L1-Daten- und Befehls-Cache,
L2-Cache, DDR-Memory-Controller und HyperTransport-Interface
9 Ausführungseinheiten für Integer- und Floating-Point-Operationen
Core Architektur
Core Architektur
Level 2Cache
L2 ECCL2 Tags
L2 Tag ECC
System RequestQueue (SRQ)
Cross Bar(XBAR)
Memory Controller&
HyperTransport™
AGU ALU AGU ALU AGU ALU FADD FMUL FMISC
8-entryScheduler
8-entryScheduler
8-entryScheduler
36-entryScheduler
2kBranchTargets
16kHistoryCounter
RAS&
Target Address
Fetch 2 - transit
Pick
DecodeDecodeDecode
DataTLB
Level 1 Data Cache ECC
Instr’nTLB
Level 1 Instr’n Cache
Pack Pack Pack
Decode 1
Decode 2
Decode 1
Decode 2
Decode 1
Decode 2
“Northbridge”
Pipeline
32 Stufen sehr tief ausgeführte Pipeline– Stufe 1 bis 7: Fetch-Vorgang und
Befehlsdekodierung– Stufe 8 bis 12: Befehlsausführung– Stufe 13 bis 19: L2-Pipeline– Stufe 20 bis 32: DRAM - Zugriffe
Hohe Taktfrequenz >2GHz Probleme bei zb. bei Misprediciton
(branch prediction) Zeit– SOI ( silicon on isolator )
Operating Modes
64-Bit-Modus in 64-Bit-Betriebssystem 32-Bit-Modus (Compatibility Mode) in 64-Bit-
Betriebssystem 32-Bit-Modus (Legacy Mode) in 32-Bit-
Betriebssystem
Operating Modes
Long Mode
Über Kontroll-Bit LMA (Long Mode Active) – 0 wie x86 Prozessor– 1 im 64 Bit Modus ( siehe Vorherige Folie )
Im 64-Bit-Mode folgende neue Features: – 64-Bit-Adressraum– Register-Erweiterung der acht GPRs auf 64 Bit durch das
Präfix R– Zusätzlich acht neue GPRs R8 bis R15– Acht neue 128-Bit-SSE-Register XMM8 bis XMM15– 64-Bit-Befehlszeiger (RIP)– Relative Datenadressierung mit 64-Bit-Offset
x86-64 vs. x86-32 Register Unterschiede
Register-Ausbau: Die x86-64-Architektur des Hammer erweitert die 32-Bit-Register der IA32-Prozessoren auf 64 Bit.
Register
x86-64– 64-bit integer registers
– 48-bit Virtual Address
– 40-bit Physical Address
REX - Register Extensions– 16 64-bit integer registers
– 16 128-bit SSE registers
SSE2 Instruction Set– New
Double precision scalar
and vector operations
16*8, 8*16 way vector
MMX operations
– SSE1 already added with
AMD Athlon XP
Speicherinterface
Durch integrierte Northbridge geringe Latenz Maximaler Speicherausbau steigt in Multiprozessorsystemen In MPS untereinander Austausch der Inhalte durch
HyperTransport Schnittstellen – Bsp Opteron
Speicherbandbreite von 5,3 GByte/s Xfire beträgt zusätzlich 3,53 GByte/s ( HTT zum anderem Speicher )
~ bei 2P = Speicherbandbreite 8,83 GByte/s (lokal + XFire) Zusammenarbeit im NUMA Verband ( non uniform memory access )
– Kaum Unterschiede zwischen Near- und Far Memory Zugriff dank geringer Latenz
HyperTransport-Interface
Vereinheitlichtes Bussystem
HyperTransport-Interface
Hohe Bandbreite bei niedriger Latenzzeit Einheitlicher Bus und gemeinsames Protokoll für alle
Verbindungen auf dem Mainboard. Flexible Geschwindigkeiten und variable Busbreite. Unterschiedliche Geschwindigkeit je nach Richtung. Möglichst wenige Leitungen und preiswertes Chip-Interface. Geringer Energieverbrauch und Stromsparmechanismen. Unterstützung von Multiprozessor-Systemen und "System
Network Architecture„ - Bussen
Prozessoren mit mehreren HyperTransport Ports
Datentransfer über den HyperTransport Bus benötigt keine CPU Zeit.
Externe Betriebsmittel können zu jeder Adresse innerhalb des 40 Bit Adressraums des Prozessors schreiben ohne jegliche CPU Intervention.
Im Fall mehrerer HyperTransport Ports können die Daten auch ohne Intervention der CPU passieren.
Zusammenfassung
20-25% mehr Geschwindigkeit zum AMD Athlon XP (32 bit Mode)
Integration der nächsten Generation von intelligenten Cache
Integrierter DDR Controller Integration von HyperTransport Abwärtskompatibilität Kostenersparniss