adressdecodierungmembers.aon.at/harald-swoboda/microprocessors_modern_v7… · web viewintel®...

47
Lehrbehelf für Prozessregelung und Rechnerverbund Mikroprozessoren und Mikrocomputer, Teil 2 Microprocessors – History, Families, Companies, Embedded Systems, Future Trends................................................2 History (Stand 1/ 2003)...................................................... 2 Companies.................................................................... 3 PC Mikroprozessor Kategorien von Intel und AMD (ca. 4% aller Prozessoren)....4 Embedded Systems - µPs, µCs, DSPs, PLDs, PLAs, GALs, ASICs:..................4 Future Trends für PC Prozessoren (Stand 1/ 2003).............................5 Microprocessors – Aufbau und Wirkungsweise....................6 Grundsätzlicher Aufbau von Computern.........................................6 Arten von programmierbaren Bausteinen........................................6 Mikroprozessoren (MPU, µP)................................................... 7 Basisprozessoren............................................................. 7 Mikroprozessors 6800........................................................7 Mikroprozessors 8086........................................................8 Mikrocomputer (MCU, µC)..................................................... 11 Digital Signal Processors (DSPs)............................................12 PROMs, PLDs, PLAs, GALs, ...................................................14 ASICs (Application Specific Integrated Circuits)............................14 Auswahl von Prozessoren..................................................... 15 Moderne Mikroprozessoren.............................................16 INTEL Pentium ® 4........................................................... 16 INTEL Itanium 2 (McKinley)..................................................21 INTEL Itanium 2 (Madison)................................................... 26 AMD Athlon 2800+............................................................ 27 AMD Athlon 64 (Clawhammer)..................................................28 AMD Opteron (Sledgehammer)..................................................28 Allgemeine Betrachtungen.............................................30 Zukunft: Limits und Chancen.................................................30 Performance, Ausführungszeit (Response Time), Durchsatz (Throughput)........32 Wichtige Konzepte in der Computer Architektur...............................34 Mikroprozessoren und Mikrocomputer, 2: Teil 1/ 47 Version: 1.1, tt.07.jjjj

Upload: others

Post on 09-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Mikroprozessoren und Mikrocomputer, Teil 2

Microprocessors – History, Families, Companies, Embedded Systems, Future Trends 2History (Stand 1/ 2003)...................................................................................................................................................2Companies........................................................................................................................................................................3PC Mikroprozessor Kategorien von Intel und AMD (ca. 4% aller Prozessoren).....................................................4Embedded Systems - µPs, µCs, DSPs, PLDs, PLAs, GALs, ASICs:...........................................................................4Future Trends für PC Prozessoren (Stand 1/ 2003).....................................................................................................5

Microprocessors – Aufbau und Wirkungsweise.....................................................................................6Grundsätzlicher Aufbau von Computern.....................................................................................................................6Arten von programmierbaren Bausteinen....................................................................................................................6Mikroprozessoren (MPU, µP)........................................................................................................................................7Basisprozessoren..............................................................................................................................................................7

Mikroprozessors 6800...................................................................................................................................................7Mikroprozessors 8086...................................................................................................................................................8

Mikrocomputer (MCU, µC).........................................................................................................................................11Digital Signal Processors (DSPs)..................................................................................................................................12PROMs, PLDs, PLAs, GALs, ......................................................................................................................................14ASICs (Application Specific Integrated Circuits)......................................................................................................14Auswahl von Prozessoren.............................................................................................................................................15

Moderne Mikroprozessoren...............................................................................................................................16INTEL Pentium ® 4......................................................................................................................................................16INTEL Itanium 2 (McKinley)......................................................................................................................................21INTEL Itanium 2 (Madison)........................................................................................................................................26AMD Athlon 2800+.......................................................................................................................................................27AMD Athlon 64 (Clawhammer)...................................................................................................................................28AMD Opteron (Sledgehammer)...................................................................................................................................28

Allgemeine Betrachtungen.................................................................................................................................30Zukunft: Limits und Chancen......................................................................................................................................30Performance, Ausführungszeit (Response Time), Durchsatz (Throughput)...........................................................32Wichtige Konzepte in der Computer Architektur.....................................................................................................34

Mikroprozessoren und Mikrocomputer, 2: Teil 1/ 35 Version: 1.1, tt.05.jjjj

Page 2: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Microprocessors – History, Families, Companies, Embedded Systems, Future TrendsHistory (Stand 1/ 2003)

Entwicklung der Mikroprozessortechnik am Beispiel der Firma INTEL (nur eine Auswahl):

Mikroprozessor Erscheinungs-datum

Transistorfunktionen Rechenleistung(MIPS)

Clock

4004 1971 2.250 0,06 108 kHz8008 1972 3.500 0,06 200 kHz

8080 (8085) 1974 (1976) 4.500 (6.500) 0,3 5 MHz8086 (8088) 1978 (1979) 29.000 0,6 10 MHz

80286 1982 120.000 0,9 12 MHz80386 1985 275.000 5 33 MHz80486 1989 1.180.000 20 100 MHz

Pentium 1993 3.100.000 100 233 MHzPentium Pro 1995 5.500.000 300 200 MHz

Pentium II (MMX) 1997 7.500.000 ? 450 MHzPentium III 1999 24.000.000 ? 1 GHzPentium 4 2001 55.000.000 4000 (?) 3,06 GHz

Xeon 2001 108.000.000 ? 2,8 GHzItanium 2 2002 220.000.000 6000 (?) 1 GHz

Itanium (Madison) 2003 410.000.000 ? 1,5 GHzItanium (Montecito) 2004 (?) 1.000.000.000 1,6 GHz

Pentium 4 (Prescott) 2003 4,2 GHzPentium 4 (Yamhill) 2003 (?)

Mikroprozessoren und Mikrocomputer, 2: Teil 2/ 35 Version: 1.1, tt.05.jjjj

Page 3: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Eigenschaften in PCs eingesetzter INTEL Prozessoren (nur eine Auswahl):Prozessor Real

ModePro-

tected Mode

Virtual 8086 Mode

Datenbus (Intern / Extern)

Adressraum (Adress-

Leitungen)

Integrierter Cache

Interner Arithmetik-prozessor

Interne Taktver-

dopplung8088 + 8/16 1 M (20)8086 + 16/16 1 M (20)

80286 + + 16/16 16 M (24)80386SX + + + 32/16 16 M (24)80386 DX + + + 32/32 4 G (32)80486SX + + + 32/32 4 G (32) Daten80486DX + + + 32/32 4 G (32) Daten +

80486DX-2 + + + 32/ 32 4 G (32) Daten + +80486DX-4 + + + 32/32 4 G (32) Daten + + + (*4)

Pentium + + + 64/64 4 G (32) Daten + Programm

+

Pentium Pro + + + 64/64 64 G (36) Daten + Programm

+

Pentium II (MMX) ? ? + 64/64 64 G (36) Bis 512 KB ? ?Pentium III ? ? + 64/64 64 G (36) Bis 512 KB ? ?Pentium 4 ? ? + 64/256/64 64 G (36) Bis 512 KB ? +

Xeon ? ? + 64/64 64 G (36) Bis 2 + 1 MB L3

? ?

Itanium 2 ? ? x86 Emulation

64/256/64 16 T (64)????

Bis 3 + 1,5 MB L3

? ?

Itanium 3 (?) (Madison)

? ? x86 Emulation

? 16 T (64)????

6 MB L3 ? ?

Itanium (Montecito) ? ? x86 Emulation

? 16 T (64)????

12 MB L3 ? ?

Pentium 4 (Prescott) ? ? + ? 64 G (36) ? ? +Pentium 4 (Yamhill)

für Server? ? + ? 64 G (36) ? ? +

Companies PC Prozessor Marktanteile:Intel: 85%, AMD: 15% (12,4 % in III/ 2002 und 21,8 % in II/ 2001).

Top Chip Suppliers in 2001:2001 rank Supplier sales (billion)

1 Intel $23.542 STMicroelectronics $6.363 Toshiba $6.074 TI $6.055 Samsung $5.246 Motorola $4.837 NEC $4.808 Infineon $4.569 Philips $4.41

10 AMD $3.8911 Mitsubishi $3.8712 Hitachi $3.7513 Fujitsu $3.7314 IBM $3.5615 Agere $3.1416 Matsushita $3.0117 Sony $2.4718 Micron $2.4519 Hynix $2.3720 Rohm $2.2121 Sanyo $2.0322 Sharp $2.0223 Analog Devices $1.6524 Agilent $1.6525 LSI Logic $1.56

Mikroprozessoren und Mikrocomputer, 2: Teil 3/ 35 Version: 1.1, tt.05.jjjj

Page 4: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Bedeutende Firmen in den einzelnen Kategorien:MPUs: Intel, AMD, MotorolaMCUs: Motorola, Texas Instruments, Hitachi, NEC, Lucent, Philips, Siemens, STMDSPs: Texas Instruments, Lucent, Motorola, Analog DevicesPLDs: Altera, Xilinx, Vantis, Lattice, Actel, Amtel

PC Mikroprozessor Kategorien von Intel und AMD (ca. 4% aller Prozessoren) Desktop: Pentium 4, AMD AthlonLaptop: Pentium-M, Centrino (mit Wi-Fi 802.11b), AMD Athlon XP M, Transmeta CrusoeWorkstations: Pentium 4, Xeon, Itanium, AMD Athlon 64Servers: Xeon, Itanium, AMD Opteron (Clawhammer bzw. Sledgehammer)

Embedded Systems - µPs, µCs, DSPs, PLDs, PLAs, GALs, ASICs: Definition Embedded Systems von Laplante: „A software system that is completely encapsulated by the hardware that controls it.“

Anwendungen von Mikroprozessoren vom Toaster bis zum Auto.

Mikroprozessoren und Mikrocomputer, 2: Teil 4/ 35 Version: 1.1, tt.05.jjjj

Page 5: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Future Trends für PC Prozessoren (Stand 1/ 2003)

Intel's Pentium 4: bis 3,06 GHz mit HyperThreading capabilities, in Zukunft bis 5 GHz und 800 MHz bus, vielleicht mit 64 bit address extension in 2003 (Yamhill ?).

Intel's Xeon: in Zukunft mit 64 bit address extension ?

Intel's Xeon Processor MP: bis 2,8 GHz, in Zukunft bis 5 GHz, dual processor servers.

Intel's Itanium 2: jetzt 1 GHz, in Zukunft bis 5 GHz, nächster Itanium: Madison mit 1,5 GHz.

(Nocona): Intel, 2003, Xeon at 3,2 GHz.

(Nehalem): Intel, 2005, 65-90 nm process.

AMD Athlon 64+ (Clawhammer single processor) in 2003.

AMD Opteron (Clawhammer dual processor und sledgehammer multi processor) in 2003.

AMD extended the x86-line and Intel created a complete new architecture (VLIW), therefore, software vendors will have to decide, if they do support Intel, AMD or both for the 64 bit code !

Neue Compiler für Parallel Prozessoren und Parallel Computer.

Neue Betriebssysteme für Parallel Prozessoren und Parallel Computer.

Mikroprozessoren und Mikrocomputer, 2: Teil 5/ 35 Version: 1.1, tt.05.jjjj

Page 6: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Microprocessors – Aufbau und Wirkungsweise

Grundsätzlicher Aufbau von Computern

In den letzten 60 Jahren hat sich die Computer Architektur nicht wesentlich geändert: CPU, ROM, RAM, einige I/O (HDs, Keyboards, Monitors, Netzwerk, etc.).So arbeiten Handys und Supercomputer. Die J. von Neumann Architektur:

Abbildung: Aufbau von Mikrocomputern, embedded Systems und PCs

Arten von programmierbaren Bausteinen

Mikroprozessoren und Mikrocomputer, 2: Teil 6/ 35 Version: 1.1, tt.05.jjjj

Leistung, Spezialisierung Flexibilität

Microprocessors

Microcontrollers

DSPs

PROMs, PLDs, PLAs, GALs, ...

ASICs

Page 7: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Mikroprozessoren (MPU, µP) Mikroprozessoren sind das Zentrum eines Computers.

Beispiele: 6800, 8086, ... Familien

Basisprozessoren Mikroprozessors 6800Programmiermodell:

NMI = Non Maskeable Interrupt

Mikroprozessoren und Mikrocomputer, 2: Teil 7/ 35 Version: 1.1, tt.05.jjjj

µP

ALUSteuereinheit

RegisterCache Memory

Adressbus

Steuerbus

Datenbus

Page 8: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Anschlussbelegung und Signale Mikroprozessor 6800:

Mikroprozessors 8086Blockschaltbild:

Mikroprozessoren und Mikrocomputer, 2: Teil 8/ 35 Version: 1.1, tt.05.jjjj

Page 9: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Blockschaltbild mit externer Beschaltung, Beispielsschaltung:

Programmiermodell Mikroprozessor 8086:

Anschlussbelegung Mikroprozessor 8086:

Mikroprozessoren und Mikrocomputer, 2: Teil 9/ 35 Version: 1.1, tt.05.jjjj

Page 10: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Register Funktion/Sonderfunktion Inhalt nach Rücksetzen

Anmerkungen

AX Universalregister/Akkumulator unbestimmt AL: niederwertiges ByteBX Universalregister/Zeiger für indirekte

Adressierungunbestimmt BL: niederwertiges Byte

CX Universalregister/Zählregister unbestimmt CL: niederwertiges ByteDX Universalregister/Adressregister für Ein- und

Ausgabeunbestimmt DL: niederwertiges Byte

SI Universalregister/Adressregister bei „String-Befehlen“

unbestimmt nur 16-bit-Register

DI Universalregister/Adressregister bei „String-Befehlen“

unbestimmt nur 16-bit-Register

BP Universalregister/Adressregister für Stack- Operationen

unbestimmt nur 16-bit-Register

SP Adressregister für Stack- Operationen unbestimmt kein UniversalregisterIP Adressregister für Befehlsadressierung 0000H kein UniversalregisterFL Flags 0000H Einzelne Bitstellen mit besonderer

BedeutungCS Segmentregister für Code-Adressierung FFFFH Register der Bus-Interface-UnitDS Segmentregister für Daten-Adressierung 0000H Register der Bus-Interface-UnitSS Segmentregister für Stack-Adressierung 0000H Register der Bus-Interface-UnitES Segmentregister mit besonderen Aufgaben 0000H Register der Bus-Interface-Unit

Signale des Mikroprozessor 8086 im Minimum-Betrieb:

Mikroprozessoren und Mikrocomputer, 2: Teil 10/ 35 Version: 1.1, tt.05.jjjj

Page 11: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Mikrocomputer (MCU, µC) MCUs sind MPUs die zusätzlich zur CPU auch Timer, ADU, DAU, Watchdog, serielle und parallele I/F, usw. im selben Package integriert haben.Eigenschaften: optimiert für Bit- und Logikoperationen, wenig optimiert für arithmetische Operationen, geringer Datendurchsatz, Multitasking, viele Verzweigungen, geringe Interruptlatenz, schneller Kontextwechsel durch Pointeroperation.

Mikroprozessoren und Mikrocomputer, 2: Teil 11/ 35 Version: 1.1, tt.05.jjjj

WDTOSC.PEC

CPUROM /

RAM

PORTS

CAPCOM

ADCBusExt..

Processor -System

Interrupt-System

USART GPTs

Peripheral-System

Flash

Control

X-BusSync Communication PWMPeripheral.

µC

ALUSteuereinheit

RegisterI/Os

ROMRAMEtc.

I/O Leitungen

Adressbus

Steuerbus

Datenbus

Page 12: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Beispiele: 80C51 von Intel, 68HC05, 68HC12/16 von Motorola, AVR von Amtel, PIC, C166, MSC96 von Intel, MSP 430, H8 von Hitachi, Z8 von Zilog, COP8, ... Familien

Digital Signal Processors (DSPs) DSPs unterstützen high-performance, sich wiederholende, numerisch aufwendige Applikationen. DSPs eignen sich für Anwendungen mit vielen Kanälen, z.B. gleichzeitig abzuwickelnde Telefongespräche und hohen Datendurchsatzraten.

DSPs sind leistungsstarke Mikrocomputer mit leistungsfähigen Echtzeitbetriebssystemen und SW-Modulen für spezifische Applikationen wie Handys, GSM Sendestationen, PDAs, Kameras, KFZ Anwendungen, wireless switches, gateways, telephone switches, DSL Modems, etc.

Eigenschaften: optimiert für Parallel Instruktionen, komplexe arithmetische Operationen, Realtime.

Applications specific SW-Module: fast time-to-market, reduced development risks, reduced development costs.

Beispiele: TMS 320 von TI, DSP56XX von Motorola, ADSP 21xxx von Analog Devices, TriCore und Carmel von Infineon, ...

Mikroprozessoren und Mikrocomputer, 2: Teil 12/ 35 Version: 1.1, tt.05.jjjj

RoboticsFactory

AutomationServo-DrivesMotor ControlPower StationsMachine-Tool

Control (CNC)

Engine Management

Transmission Control

ABS/ASCActive

Suspension

Automotive Industrial Control

DVD / CD-ROMTV / MonitorVCR / Sat

ReceiverSet Top BoxGamesVideo

Surveillance

Telecom/ Datacom

Communication Boards (LAN)

ModemsPBX, SwitchesWirelessBase Stations

IT, PCs

Hard Disk DrivesTape DrivesPrintersScannersDigital CopiersFAX Machines

Consumer

Anwendungen für µC, Embedded Systems:Anwendungen für µC, Embedded Systems:

Page 13: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Beispiel: TMS 320C6416 (Texas Instruments)

TMS 320C6416 Highlights:– 400-, 500-, 600-MHz Clock Rate– up to Eight 32-Bit Instructions/Cycle– up to Twenty-Eight Operations/Cycle– 3200, 4000, 4800 MIPS– Six ALUs (32-/40-Bit), Each Supports Single 32-Bit, Dual 16-Bit, or Quad 8-Bit

Arithmetic per Clock Cycle– Two Multipliers Support Four 16 x 16-Bit Multiplies (32-Bit Results) per Clock Cycle

or Eight 8 x 8-Bit Multiplies– Enhanced Direct-Memory-Access (EDMA) Controller (64 Independent Channels)

Mikroprozessoren und Mikrocomputer, 2: Teil 13/ 35 Version: 1.1, tt.05.jjjj

Page 14: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

– Host-Port Interface (HPI)– Three Multichannel Buffered Serial Ports (McBSPs)

o Direct Interface to T1/E1, MVIP, SCSA Framerso Up to 256 Channels Eacho ST-Bus-Switching-, AC97-Compatibleo Serial Peripheral Interface (SPI)

PROMs, PLDs, PLAs, GALs, ... 300 bis 2M Logik Gatter, die durch Programmierung verbunden werden können.Beispiel: Grundstruktur eines PALs

ASICs (Application Specific Integrated Circuits) ASICs= many chips on a single package.Vorteil: kleinerAnwendungen: Videoboards, Modems

Mikroprozessoren und Mikrocomputer, 2: Teil 14/ 35 Version: 1.1, tt.05.jjjj

Page 15: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Auswahl von Prozessoren Datenbus: 4, 8, 16, 32, 64, 128, 256, ... Bit Adressbus: 16, 32, 64, … Bit Rechenleistung, Datendurchsatz, ... CPU Leistung: MIPS, … Anwendung: µC, µP, DSP, ... Speicher: interner/ externer RAM, ROM, EPROM, EEPROM, Flash EPROM, HDD,

FDD, CDROM, Cache, … I/Os: interner/ externe serielle, parallele, I²C, CAN, ADU, DAU, Netzwerk, …

Interfaces I/Os: Displays, LCD Panels, Tastaturen, ... I/Os: Businterfaces (AGP, PCI, ISA, ...) Entwicklungstools: Compiler, Emulator, Debugger, Assembler, … Verfügbare SW-Module: OS, RTOS, Industrie spezifische Applikationen, ... Energieverbrauch, Größe, Stückzahl, Kosten, Verfügbarkeit, Kompatibilität, … Befehlsstruktur: RISC, CISC Anwendung: KFZ, Office, Haushaltsgerät, Steuerung, ...

Mikroprozessoren und Mikrocomputer, 2: Teil 15/ 35 Version: 1.1, tt.05.jjjj

Page 16: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Moderne Mikroprozessoren INTEL   Pentium   ® 4

Abbildung: Blockschaltbild Pentium 4

Abbildung: Blockschaltbild Pentium 4 mit 1,5 GHz; mit 3,06 GHz: 98 GB/s L1-L2 speed

Mikroprozessoren und Mikrocomputer, 2: Teil 16/ 35 Version: 1.1, tt.05.jjjj

12 K

8 K

2 f= 6,12 GHz

Page 17: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Abbildung: Blockschaltbild Pentium 4 mit externer Beschaltung (Pentium 4, Host Bus bis 533 MHz in 2002, 800 MHz in 2003)

Daten Durchsatz Pentium 4 – Northbridge bei 400/100 MHz Busgeschwindigkeit: 3,2 GB/s(synchrone Datenabfrage, quad pumped data bus: 4 * 100 * 64/8 = 3,2 GB/s).

Wichtige Eigenschaften:2002: bis 3,06 GHz.The 3,06 GHz operating speed makes the Pentium 4 equal to the 64 bit Itanium 2.

Intel® NetBurst™ microarchitecture, 0,13-micron technology, 800/ 533/ 400 MHz system bus, Hyper-pipelined technology, Rapid execution engine, Execution trace cache, Advanced transfer cache, Advanced dynamic execution, Enhanced floating point/multimedia, Streaming SIMD extensions 2 instructions.

Mikroprozessoren und Mikrocomputer, 2: Teil 17/ 35 Version: 1.1, tt.05.jjjj

Page 18: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Cache: 512-KB L2 Advanced Transfer Cache available with speeds up to 3.06 GHz. Integrated caches include 12-K micro-op trace cache and 8-KB L1 data cache.

HyperThreading makes each processor appear to software as two virtual processors, speeding up some applications. HyperThreading also slows down some software.IT Week:Intel said HyperThreading can boost performance by up to 30 percent. But tests prove the performance of some applications drops by half when HyperThreading is enabled, partly because each virtual processor has access to only half the chip's resources, such as cache memory and bandwidth-to-memory. Operating systems and applications must support HyperThreading to benefit from it. Linux and Windows XP are compatible with the feature, but Windows 95, 98 and ME are not.

According to Intel the Pentium 4 is best suited for:Digital music, 3D gaming, digital imaging and video, DVD authoring and MPEG4 video, internet audio, streaming video, image processing, video content creation, speech, 3D, CAD, games, multimedia, and multi-tasking user environments. For desktop PCs as well as for entry-level workstations.

Intel® NetBurst™ Microarchitecture (= Überbegriff)Intel NetBurst microarchitecture delivers a number of innovative features including Hyper-Threading Technology, hyper-pipelined technology, 800   MHz, 533   MHz or 400   MHz system bus, Execution Trace Cache, and Rapid Execution Engine, as well as a number of enhanced features such as Advanced Transfer Cache, Advanced Dynamic Execution, enhanced floating-point and multimedia unit, and Streaming SIMD Extensions 2 (SSE2). Many of these innovations and advances were made possible with improvements in processor technology, process technology, and circuit design and could not previously be implemented in high-volume, manufacturable solutions. The features and resulting benefits of the microarchitecture are defined below.

Hyper-Threading TechnologyHyper-Threading Technology (HT Technology) is ground breaking technology from Intel that changes the landscape of processor design by going beyond GHz to improve processor performance. It allows software programs to "see" two processors and work more efficiently. This new technology enables the processor to execute two series, or threads, of instructions at the same time, thereby improving performance and system responsiveness. The Pentium 4 processor supporting Hyper-Threading Technology is specially designed to deliver immediate increases on performance and system responsiveness with existing applications in multitasking environments (i.e. where two or more things are running at the same time) and with many stand-alone applications today. Furthermore, the Pentium 4 processor supporting HT Technology provides performance headroom for the future.

Hyper-Pipelined TechnologyThe hyper-pipelined technology of the Intel NetBurst microarchitecture doubles the pipeline depth compared to the P6 microarchitecture used on today's Intel® Pentium® III processors. One of the key pipelines, the branch prediction / recovery pipeline, is implemented in 20 stages in the Intel NetBurst microarchitecture, compared to 10 stages in the P6 microarchitecture. This technology significantly increases the performance, frequency, and scalability of the processor.

800 MHz or 533-MHz or 400-MHz System Bus The Pentium 4 processor's 800 MHz system bus supports Intel's highest performance desktop processor by delivering 6.4 GB of data-per-second into and out of the processor. This is accomplished through a physical signalling scheme of quad pumping the data transfers over a 200 MHz clocked system bus and a buffering scheme allowing for sustained 800 MHz data transfers. The Pentium 4 processor's 400-MHz system bus supports Intel's performance desktop processor by delivering 3.2 GB of data-per-second into and out of the processor. This is accomplished through a physical signalling scheme of quad pumping the data transfers over a 100-MHz clocked system bus and a buffering scheme allowing for sustained 400-MHz data transfers. This compares to 1.06 GB/s delivered on the Pentium III processor's 133-MHz system bus.

Mikroprozessoren und Mikrocomputer, 2: Teil 18/ 35 Version: 1.1, tt.05.jjjj

Page 19: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Level 1 Execution Trace Cache In addition to the 8-KB data cache, the Pentium 4 processor includes an Execution Trace Cache that stores up to 12-K decoded micro-ops in the order of program execution. This increases performance by removing the decoder from the main execution loop and makes more efficient usage of the cache storage space since instructions that are branched around are not stored. The result is a means to deliver a high volume of instructions to the processor's execution units and a reduction in the overall time required to recover from branches that have been mis-predicted.

Rapid Execution Engine Two Arithmetic Logic Units (ALUs) on the Pentium 4 processor are clocked at twice the core processor frequency. This allows basic integer instructions such as Add, Subtract, Logical AND, Logical OR, etc. to execute in one-half a clock cycle. For example, the Rapid Execution Engine on a 3.06 GHz Pentium 4 processor runs at 6.12 GHz.

512-KB Level 2 Advanced Transfer Cache 512-KB L2 Advanced Transfer Cache (ATC) is available with speeds 1.80A, 2A, 2.20, 2.26, 2.40, 2.50, 2.53, 2.60, 2.66, 2.80 and 3.06 GHz. The Level 2 ATC delivers a much higher data throughput channel between the Level 2 cache and the processor core. The Advanced Transfer Cache consists of a 256-bit (32-byte) interface that transfers data on each core clock. As a result, the Pentium 4 processor at 3.06 GHz can deliver a data transfer rate of 98 GB/s. This compares to a transfer rate of 16 GB/s on the Pentium III processor at 1 GHz. Features of the ATC include:

Non-Blocking, full speed, on-die level 2 cache

8-way set associability

256-bit data bus to the level 2 cache

Data clocked into and out of the cache every clock cycle

Advanced Dynamic Execution The Advance Dynamic Execution engine is a very deep, out-of-order speculative execution engine that keeps the execution units executing instructions. The Pentium 4 processor can also view 126 instructions in flight and handle up to 48 loads and 24 stores in the pipeline. It also includes an enhanced branch prediction algorithm that has the net effect of reducing the number of branch mis-predictions by about 33% over the P6 generation processor's branch prediction capability. It does this by implementing a 4-KB branch target buffer that stores more detail on the history of past branches, as well as by implementing a more advanced branch prediction algorithm.

Enhanced Floating-Point and Multimedia Unit The Pentium 4 processor expands the floating-point registers to a full 128-bit and adds an additional register for data movement which improves performance on both floating-point and multimedia applications.

Streaming SIMD Extensions 2 (SSE2) Instructions With the introduction of SSE2, the Intel NetBurst microarchitecture now extends the SIMD capabilities that MMX technology and SSE technology delivered by adding 144 instructions. These instructions include 128-bit SIMD integer arithmetic and 128-bit SIMD double-precision floating-point operations. These instructions reduce the overall number of instructions required to execute a particular program task and as a result can contribute to an overall performance increase. They accelerate a broad range of applications, including video, speech, and image, photo processing, encryption, financial, engineering and scientific applications.

Data Prefetch Logic Functionality that anticipates the data needed by an application and pre-loads it into the Advanced Transfer Cache, further increasing processor and application performance.

Mikroprozessoren und Mikrocomputer, 2: Teil 19/ 35 Version: 1.1, tt.05.jjjj

Page 20: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

HyperThreading:Der neue Pentium 4 mit 3,06 GHz bietet zwei logische CPU-Kerne.

Intel hat den Prozessor so ausgestattet, dass der eine Teil immer weiß, was der andere gerade tut und gegebenenfalls seine eigenen Aktionen auf die des anderen abstimmt.

Der HyperThreading Pentium 4 hat größere Caches (zusätzlicher Fill-In-Buffer für den Trace-Cache), sowie eine zweite Register-Alias-Table integriert.

Multithreaded - Betriebssysteme: Windows XP und Linux.

Multithreaded Applikationen: Audio-Komprimierung, Video-Encoden mit MPEG Encoder 3.5 von LSX, Cinema 4D

Processor Core Speeds Up to 3.06 GH

Maximum performance for a wide range of emerging Internet, PC and workstation applications

Hyper-Threading Technology†

Improves performance and system responsiveness in today's multitasking environments by enabling the processor to execute multiple instruction threads in parallel.

New 0.13u process technology

Enables higher frequency and lower power

Intel® NetBurst™ Micro-architecture

Designed to deliver highest performance in video, graphics, multimedia and other sophisticated applications

Up to 800 MHz System Bus

High bandwidth between the processor and the rest of the system improves throughput and performance

512KB L2 Cache (for 2A GHz and Faster) or 256KB Cache (for 2 GHz and Slower)

Enhances performance by providing fast access to heavily used data and instructions

Hyper-Pipelined Technology

Extended pipeline stages increase overall throughput

Streaming SIMD Extensions 2

144 new instructions accelerate operation across a broad range of demanding applications

Rapid Execution Engine Arithmetic Logic Units run at twice the core frequency, speeding execution in this performance critical area

128-Bit Floating Point Port Floating Point performance boost provides enhanced 3D visualization, life-like gaming and scientific calculations

SIMD 128-bit Integer Accelerates video, speech, encryption and imaging/photo processingExecution Trace Cache Greatly improves instruction cache efficiency, maximizing performance on

frequently used sections of software codeAdvanced Dynamic Execution

Improved branch prediction enhances performance for all 32-bit applications by optimising instruction sequences

Built-in Self Test (BIST) Provides single stuck-at fault coverage of the microcode and large logic arrays, plus testing of the instruction cache, data cache, Translation Lookaside Buffers, and ROMs

IEEE 1149.1 Standard Test Access Port and Boundary Scan

Enables testing of the Pentium® 4 processor and system connections through a standard interface

Mikroprozessoren und Mikrocomputer, 2: Teil 20/ 35 Version: 1.1, tt.05.jjjj

Page 21: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

The Pentium® 4 processor is designed to enrich users’ digital experience by providing the high performance necessary for gaming, digital music, digital imaging and video, and personal productivity.

The Pentium® III processor continues to deliver adequate performance for older applications. However, it lacks the advanced technologies to efficiently perform on today’s rich media and gaming applications.

The Pentium® II processor ushered the PC into the multimedia era with the capability to handle simple graphics, CD-audio and 2D games. The performance of this processor, however, is inadequate for today’s advanced applications

INTEL   Itanium   2 (McKinley)

64 bit Adressierung ermöglicht mehr direkt adressierbaren Speicherbereich:- theoretisch: 264.(= 16,8 109 TB = 16 EB)- praktisch: 244 (= 16 TB) ????), (1TB RAM würden derzeit ca. 200.000 Euro kosten !)

Anmerkung:1 G 109 230 Giga1 T 1012 240 Tera1 P 1015 250 Peta1 E 1018 260 Exa

Highlights:- 64 bit addressing with 16 TB address space for applications that need access lots of

data from fast memory.- VLIW (very long instruction word) is a clear break in processor architecture. Itanium

runs 32 bit programs in an emulation mode in an attached x86 compatibility unit (slower than Pentium 4). Itanium is only optimised for 64   bit software !

- The Compiler must discover and exploit instruction level parallelism (is different than forcing the processor to dynamically schedule instructions).

- Itanium has 9 execution units and can run 6 instructions simultaneously.o 2 floating-point execution unitso 2 integer execution unitso 2 integer/ load-store execution unitso 3 branch execution units

- 128 general purpose and 128 floating-point 64 bit registers- Itanium has more precision in floating-points maths, useful for encryption algorithms.- Itanium is the same platform for UNIX, Linux, Windows and may run the operation

systems simultaneously.

Mikroprozessoren und Mikrocomputer, 2: Teil 21/ 35 Version: 1.1, tt.05.jjjj

Page 22: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Die size: 421 mm²

Mikroprozessoren und Mikrocomputer, 2: Teil 22/ 35 Version: 1.1, tt.05.jjjj

Page 23: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Mikroprozessoren und Mikrocomputer, 2: Teil 23/ 35 Version: 1.1, tt.05.jjjj

Page 24: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

L3 is integrated in the die.

The Itanium 2 processor is based on the new Itanium architecture. The Itanium processor was designed to meet the increasing demands for high availability, scalability and performance needed for high-end enterprise and technical computing applications.

Product Highlights

Explicitly Parallel Instruction Computing (EPIC) technology enables up to 20 operations/clock.

Three levels of cache reduce memory latency: 3 MB or 1,5 MB Level 3 cache, 256 K Level 2 cache, and 32K Level 1 cache.

Operating frequencies up to 1 GHz.

400   MHz data bus enables 128   bit wide system bus transactions with 6,4 GB/s bandwidth .

Advanced error detection, correction and containment provided by Machine Check Architecture (MCA), comprehensive error logging, and Error Correcting Code (ECC) on caches and the system bus.

System management features such as a thermal sensing device.

IA-64 instruction binary compatibility in hardware.

220 million transistors

Scales up to 512 processors

Mikroprozessoren und Mikrocomputer, 2: Teil 24/ 35 Version: 1.1, tt.05.jjjj

Page 25: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

64-bit addressing and high-memory bandwidth

HP-UX, Linux, Windows

I/O bandwidth: PCI-66 MHz

The uniquely designed EPIC (Explicitly Parallel Instruction Computing) architecture allows the highest possible performance via new levels of parallelism for enterprise and technical applications. World-class floating point performance enhances analytic and scientific design and visualization applications. 64-bit addressing and massive resources combine to provide a platform to handle many terabytes of data with improved memory latency and fewer branch misses to further improve database performance. High availability and scalability and breadth of enterprise operating systems and applications ensure investment protection for years to come.

Itanium architecture today includes world-class capability for targeted applications, including:Large databasesBusiness Intelligence/Data MiningSecurity TransactionsHigh Performance ComputingMechanical Computer-Aided Engineering Analysis

Anwendungen:Itanium®-based solutions meet the increasing demands for high availability, reliability, and performance needed for next generation enterprise and technical computing applications. The high volume transaction performance supports more users for e-Commerce applications like Catalog Retailing, CRM, SCM and ERP . Large database support is useful for Business Intelligence, Internet Directory Services, Data Mining and Data Warehousing. The breakthrough security performance enables capacity to handle a greater number of simultaneous, secure e-Commerce transactions. Plus Itanium®-based solutions offer end-users outstanding performance in scientific and analysis-intensive applications like High Performance Computing, Mechanical Design Automation, Digital Content Creation and Electronic Design Automation. In addition, there is increased availability through platform level error recovery.

The Intel® Itanium® 2 processor, the second in a family of processors based on the Intel Itanium architecture, is designed to address the needs of high-performance servers and workstations. The Intel Itanium architecture goes beyond RISC and CISC approaches by employing Explicitly Parallel Instruction Computing (EPIC), which pairs extensive processing resources with intelligent compilers that enable parallel execution explicit to the processor. Its large internal resources combine with predication and speculation to enable optimization for high-performance applications running on multiple operating systems, including versions of Microsoft Windows, HP-UX, and Linux. The Intel® Itanium® 2 processor:

Runs at 1 GHz or 900 MHz and is available with 3 MB or 1.5 MB integrated on-die L3 cache.

Enables powerful solutions for vast amounts of data and users, high volumes of transactions and complex calculations.

Offers high-end reliability and scalability features for business critical computing.

Mikroprozessoren und Mikrocomputer, 2: Teil 25/ 35 Version: 1.1, tt.05.jjjj

Page 26: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Extends Intel volume economics to the most data-intensive, business-critical and technical applications.

Floating point architecture: Speeds up complex calculations. Responses to complex calculations come back quicker -- particularly useful in financial and scientific analysis.

Advanced Machine Check Architecture: Extensive error management in hardware, firmware and Operating Systems.

Built on an open and extensible framework. High reliability, availability, serviceability and manageability. Supports large SMP systems and highly clustered configurations. Scale out with clusters for large distributed problem solving.

INTEL   Itanium   2 (Madison)

Madison is the code name of the third processor in the Intel Itanium processor family built on Intel's 0,13 micron silicon process technology. It will have up to 6MB of integrated L3 cache and will be hardware and software compatible with the Itanium 2 processor, offering superior investment protection for OEMs and end-users. Madison will continue to extend the family into new solutions in the high-end enterprise server and technical computing market segments.

Mikroprozessoren und Mikrocomputer, 2: Teil 26/ 35 Version: 1.1, tt.05.jjjj

Page 27: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

AMD   Athlon   2800+ Basically a 32 bit x86 processor.

Mikroprozessoren und Mikrocomputer, 2: Teil 27/ 35 Version: 1.1, tt.05.jjjj

32bits @ 33Mhz

Processor

Northbridge

32-Bit buff

ered DD

R

Southbridge

Legacy PCI

USBSerialParallelIDEEPROM

PCI 66/64

Addr

Data

Ctrl.

Page 28: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

AMD   Athlon   64   (Clawhammer)

The AMD Athlon is a single desktop processor with 64 bit architecture, one Hyper Transport link, integrated controller for 4 GB RAM, 256/512 KB L2 Cache, otherwise, see Opteron.

AMD   Opteron   (Sledgehammer)

64 bit Adressierung ermöglicht mehr direkt adressierbaren Speicherbereich:- Theoretisch: 264.(= 16,8 109 TB = 16 EB).- virtual: 248 (= 256 TB)- physical: 240 (= 1 TB) (1TB RAM würden derzeit ca. 200.000 Euro kosten !)

Highlights:- Opteron is an extension of the “old” x86 processor architecture. Opteron can run

32bit software as well as 64bit software at top speed, Intel's Itanium is only optimised for 64bit software and runs 32 bit software in an emulation mode.

- 64 bit addressing for applications that need access lots of data from fast memory. 2 40 physical reach, 2 48 reach.

- 130 nm process in 2003- Hammer has 9 execution units and can perform 6 instructions per cycle:

o 3 floating-point execution unitso 6 integer execution units (3 AGUs and 3 ALUs),

Anm: AGU = address generation unit- 16 general purpose 64 bit registers- 1, 2, or 3 AMD Hyper Transport links à 16 bit, connect up to 8   processors efficiently

and replace address, data and control bus. Up to 6,4   GB/s bandwith per HT link.- On-chip double data rate (DDR) controllers to connect external SDRAMs, bus is 64

or 128 bit wide, i.e. integrated Northbridge to address up to 8 (4) GB of RAM.Up to 5,3 GB/s bandwith.

Mikroprozessoren und Mikrocomputer, 2: Teil 28/ 35 Version: 1.1, tt.05.jjjj

Page 29: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Opteron Block Diagramm

Mikroprozessoren und Mikrocomputer, 2: Teil 29/ 35 Version: 1.1, tt.05.jjjj

Page 30: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Allgemeine Betrachtungen

Zukunft: Limits und Chancen CPU Performance:Lichtgeschwindigkeit (3*108 m/s), Signalgeschwindigkeit (ca. 2*108 m/s):

- z.B. der Pentium 4 ist ca. 10*10 mm groß,für 10 mm braucht das Signal 0,05 ns.Für den Weg hin und zurück, also 20 mm, braucht das Licht mindestens 0,1 ns. Die Grenzfrequenz für 20 mm ist also 10 GHz ?

Wie groß sind CPU Chips ?:- in mm ?

z.B. der Itanium 2 ist ca. 20*20 mm groß- wie lange braucht Licht mindestens um von ALU zu Cache und zurück zu

kommen ? 0,2 ns, Die Grenzfrequenz für 20 mm ist also 5 GHz ?

Steigerung der Performance:- höhere Taktfrequenz in den execution units und zwischen ALUs und Caches- Cache: Speicher nahe an der CPU, um hohe Datenübertragungsraten zwischen

execution units und Cache zu erzielen

Forecast der maximal erreichbaren CPU Frequenz:- Derzeit bei Itanium:

Distanz zwischen Cache und CPU ist ca. 20   mm , Technology 130 nm,

Mikroprozessoren und Mikrocomputer, 2: Teil 30/ 35 Version: 1.1, tt.05.jjjj

Page 31: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Signallaufzeit: t= s/v = 0,02/ 2 * 108 = 0,1 ns,Signallaufzeit hin/ zurück: 0,2 ns,Grenzfrequenz: f = 1/ t = < 5 GHz

- Annahme: 13 nm Technology wäre verfügbar,Grenzfrequenz: f = 1/ t = < 50 GHz

- Annahme: 1,3 nm Technology wäre verfügbar, d.h. nur ein paar Atome für einen Transistor,Grenzfrequenz: f = 1/ t = < 500 GHz

- Wann werden die 500 GHz CPU Frequenz nach Moore’s Law erreicht ?6 GHz – 200412 GHz – 200624 GHz – 200848 GHz – 2010100 GHz – 2012200 GHz – 2014400 GHz – 2016 Die Grenzfrequenz von 500 GHz für einen 20*20 mm Chip müsste nach Moore’s Law etwa im Jahr 2016 erreicht sein.

Wie sieht diese Überlegung für einen 10*10 mm Chip (Pentium 4) aus ?

Parallelität:- die ALU besteht aus mehreren Einheiten (z.B. der Pentium 4 hat 2 * 32 Bit ALUs,

der Itanium hat 6 * 32/ 64/ 128 (????)  Bit ALUs),Pentium 4: CPI = ca. 1/ 1,5 clock cycles per instruction,Itanium, Opteron: CPI = ca. 1/ 6 clock cycles per instruction

- Multiprozessor Systeme: Intel Xeon, Intel Itanium, AMD Opteron- Mehrere Prozessoren auf einem Chip.- Neue Compiler Technology: Compiler generieren parallelen Code.

Parallel Speedup:

Amdahl’s Law:

p = Anzahl der Prozessorenf = Anteil an Code, der nicht parallel verarbeitet werden kann (unparallelizable code)

Efficiency:

Beispiele:f = 10%, p = 10

f = 10%, p = viele Prozessoren

Mikroprozessoren und Mikrocomputer, 2: Teil 31/ 35 Version: 1.1, tt.05.jjjj

Page 32: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Halbleiterphysik, technologische Entwicklungen:- In 2002: 90 nm Leiterbahnenabstand;

in 2003: 65 nm oder 45 nm Leiterbahnenabstand- Eine Isolierschicht aus SiO2 muss mindestens 4 Moleküle oder 1,6 nm „stark“

sein; heutige SiO2 Isolierschichten sind noch 12 Moleküle stark.- Lithography: Beleuchtung mit Elektronen statt Licht.- Vertikale Transistoren.- Neue Isolierschichten.- Neue Materialien.- Neue Herstellungstechnologien- Cores = Bundling von hochspezialisierten Chips.- MEMS: micro-electromechanical systems als Interfaces zwischen Silicon Chips

und optischen Systemen.

(Low) Power Consumption:- Gadolinium Oxid auf einem GaAs Halbleiter: DSPs for PDAs und Handys mit

100 MHz und 1 V Spannungsversorgung.

High Networking Speed:- Legierung aus Silizium und Germanium für SDH Networks, 10 Gb Ethernets,

40 Gb Ethernets

Datenbusbreite: - intern derzeit 32 bit bis 256 bit, räumliche Begrenzung ?

Derzeit werden etwa 3 Milliarden Transistoren pro Sekunde hergestellt.Es wird erwartet, dass die „Silizium“ Technologie bis 2015 die Basis der Prozessoren sein wird. Danach könnten optische oder biologische Prozessoren Anwendung finden.

Performance, Ausführungszeit (Response Time), Durchsatz (Throughput)

Performance = 1 / Ausführungszeit

Ausführungszeit des Programms = Anzahl benötigter Taktzyklen * Zeit eines TaktzyklusAusführungszeit des Programms = Anzahl benötigter Taktzyklen / Taktrate

Beispiel:Wie lange benötigt ein Programm mit 109 Taktzyklen und 2.000 MHz Taktrate ?Ausführungszeit des Programms = 0,5 s

mehr Performance bedeutet weniger Taktzyklen oder höhere Taktrate.

Alte Prozessoren benötigen für manche Instructions länger als 1 Taktzyklus.Moderne Prozessoren verarbeiten mehrere Instructions in einem Taktzyklus.

Clock cycles per Instruction (CPI): - Pentium 4: 1-2 instructions per cycle, CPI = 1 bis 0,5

Mikroprozessoren und Mikrocomputer, 2: Teil 32/ 35 Version: 1.1, tt.05.jjjj

Page 33: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

- Itanium: 6 instructions per cycle, CPI = 1/ 6- Alte Pentiums: CPI = 1,35 (ist abhängig vom geschriebenen Programm)

Ausführungszeit des Programms = Anzahl der Instructions * CPI * Zeit eines TaktzyklusAusführungszeit des Programms = Anzahl der Instructions * CPI / Taktrate

Beispiel:Wie lange benötigt ein Programm mit 1010 Instructions, CPI=2 und 2.000 MHz Taktrate ?Ausführungszeit des Programms = 1010 *2 / 2.000 MHz = 10 s

Beispiel:Prozessor A: Taktzyklus = 1ns, CPI = 2,0 für Programm XProzessor B: Taktzyklus = 2ns, CPI = 1,2 für Programm XWelche CPU ist schneller ?

Durchsatz (Throughput) durch einen ProzessorMillion instructions per second (MIPS),

Durchsatz (MIPS) = Anzahl der Instructions / Ausführungszeit des Programms / 106

Beispiel:Häufigkeit pro Befehlsklasse

1 CPI 2 CPI 3 CPICode von Compiler 1 4 * 109 2 * 109 2 * 109

Code von Compiler 2 10 * 109 1 * 109 1 * 109

Welcher Code ist schneller ?Was sind die MIPS bei 2 GHz Prozessortakt ?

(MOPS = million operations per second)(MFLOPS = million FP operations per second)

SPEC (System Performance Evaluation Cooperative) Score:Vergleich der Performance durch ein definiertes SW-Bündel an einem Referenzsystem (derzeit: SunSparc Station 10/40).

Durchsatz (Throughput) durch einen BusIn Byte pro Sekunde, GB/s.

Durchsatz = Datenbus Breite (Bit) / 8 * Taktfrequenz des Busses.

Beispiel:Datenbus = 64 Bit, 800 MHz Durchsatz = 64 / 8 * 800000000 = 6,4 GB/s (z.B. Pentium 4 FSB)

Mikroprozessoren und Mikrocomputer, 2: Teil 33/ 35 Version: 1.1, tt.05.jjjj

Page 34: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Wichtige Konzepte in der Computer Architektur Pipelines:

Mutter’s Wasch-Pipeline:

Ohne Pipelining würde die Waschmaschine erst dann wieder befüllt werden, wenn die erste Wäschepartie schon im Schrank einsortiert ist.Mit Pipelining kann die Waschmaschine bereits befüllt werden, wenn die erste Partie im Trockner ist.

4-stage processor instruction pipeline:

Vorteile: - mehrere Arbeitsgänge zugleich- Paralleles Abarbeiten Verbesserungen des Durchsatzes,

aber nicht der Ausführungszeit eines einzelnen ArbeitsschrittesNachteile:

- Länge der Arbeitsgänge nicht gleich angleichen- Ausführungszeit wird nur dann um die Anzahl der Pipeline-Stufen schneller,

wenn die Länge der Arbeitsgänge gleich ist und genug Arbeit vorhanden ist, um alle Stufen zu beschäftigen

Singlecycle versus Pipelined Performance:Singlecycle: ein Befehl wird innerhalb eines Taktzyklus ausgeführt die Taktzykluszeit orientiert sich an jener Anweisung, deren Ausführung am längsten benötigt und ist für alle Befehle gleich lang.Pipelining: alle Stufen müssen gleich lang sein und orientieren sich ebenfalls an der langsamsten Anweisung und der am zeitaufwendigsten Stufe.

4-stage pipeline:

Mikroprozessoren und Mikrocomputer, 2: Teil 34/ 35 Version: 1.1, tt.05.jjjj

Waschmaschine mit Schmutzwäsche

befüllen und waschen

nasse Wäsche in den Trockner geben und

trocknen lassen

trockene Wäsche in die Bügelmaschine geben

und bügeln lassen

Wäsche in den Kleiderschrank

einsortieren

Instruction Fetch Decode Operand FetchExecute

(ALU Op. and Writeback)

Page 35: Adressdecodierungmembers.aon.at/harald-swoboda/Microprocessors_modern_V7… · Web viewIntel® NetBurst Micro-architecture Designed to deliver highest performance in video, graphics,

Lehrbehelf für Prozessregelung und Rechnerverbund

Ausführungszeit des Programms = (ungefähr)Anzahl der Befehle des Programms * Zeitdauer der am längsten dauernden Stufe

Mikroprozessoren und Mikrocomputer, 2: Teil 35/ 35 Version: 1.1, tt.05.jjjj