e-mail: [email protected] man.poznan.pl

1e-mail: [email protected] http://www.man.poznan.pl/

2

POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER

Plan wykładow / LaboratoriaPlan wykładow / Laboratoria

•IOIO

3


Plan wykładow / LaboratoriaPlan wykładow / Laboratoria

•IOIO

4


WprowadzenieWprowadzenie

• Środowisko: homogeniczne, heterogeniczneŚrodowisko: homogeniczne, heterogeniczne

• ZasobyZasoby

• Klastry, metakomputer, GRIDKlastry, metakomputer, GRID

• Systemy kolejkoweSystemy kolejkowe

• Globus, LegionGlobus, Legion

5


Homogeniczne i heterogeniczne środowiskaHomogeniczne i heterogeniczne środowiska

• Środowisko homogeniczne:Środowisko homogeniczne:• jednorodnejednorodne

• elementy składowe charakteryzują się tymi samymi elementy składowe charakteryzują się tymi samymi

wartościami, cechamiwartościami, cechami

• skalowalneskalowalne

• Środowisko heterogeniczne:Środowisko heterogeniczne:• różnorodność elementów składowychróżnorodność elementów składowych

• zróżnicowany zbiór parametrów, cechzróżnicowany zbiór parametrów, cech

• skalowalneskalowalne

• trudne w zarządzaniutrudne w zarządzaniu

• Różne systemy

operacyjne

• Różne architektury

• Różni producenci

6


Zasoby Zasoby

• procesor (cpu, rodzaj)procesor (cpu, rodzaj)• częstotliwość (zróżnicowane płyty CPU),częstotliwość (zróżnicowane płyty CPU),

• typ, np. skalarny, wektorowy , graficznytyp, np. skalarny, wektorowy , graficzny

• RAM (typ, wielkość)RAM (typ, wielkość)

• we/wywe/wy• interfejsy sieciowe,interfejsy sieciowe,

• dyski,dyski,

• ‘ ‘graphics engines’graphics engines’

• pamięć masowapamięć masowa

• pojedyncze systemy (węzły w sieci)pojedyncze systemy (węzły w sieci)• specjalizowane systemy (obliczeniowe, graficzne, archiwizacji, etc.)specjalizowane systemy (obliczeniowe, graficzne, archiwizacji, etc.)

7


Poziomy zarządzania zasobami Poziomy zarządzania zasobami

GRID

Poziom systemu operacyjnego

Specjalizowane moduły zarządzania zasobami (moduły powyżej systemu operacyjnego

Zarządzanie w środowisku

homogenicznym

‹ ‹

8


Zapotrzebowanie na zasoby 1/2 Zapotrzebowanie na zasoby 1/2

ComputeCompute

VisualizeVisualizeDataData

BIG Compute Problems•Computing•Visualization •Data Handling

BIG Visualization Problems•Computing•Visualization •Data Handling

BIG Data Problems•Computing•Visualization •Data Handling

9


Zapotrzebowanie na zasoby 2/2 Zapotrzebowanie na zasoby 2/2

I/O

Web serving

Weather simulation CPU

Storage

Repository / archive

Signal processing

Media streaming

Traditional big supercomputer

Scale in Any and All Dimensions

10

C-brickCPU Module

D-brickDisk Storage

R-brickRouter Interconnect

X-brickXIO Expansion

P-brickPCI Expansion

I-brickBase I/O Module

G-brickGraphics Expansion

Stopień złożonościStopień złożoności

11


Elementy zarządzania

ZŁOŻONOŚĆZŁOŻONOŚĆ

• Partycjonowanie

• strojenie na poziomie systemu operacyjnego

• systemy wielozadaniowe

• systemy kolejkowe

• jeden lub wielu użytkowników

12


Klastry homogeniczne

• GigaRing, SuperCluster GigaRing, SuperCluster

• PowerChallengeArrayPowerChallengeArray

• Zarządzanie dużymi ilościami danychZarządzanie dużymi ilościami danych

• Systemy archiwizacjiSystemy archiwizacji

GigaRing ChannelGigaRing Channel• The GigaRing channel architecture is a modification of Scalable

Coherent Interface (SCI) specification and is designed to be the common channel that carries information between Input/Output Nodes (ION)

• This channel consists of a pair of 500 MB/s. channels configured as counter-rotating rings

• The two rings form a single logical channel with a maximum bandwidth of 1.0 GB/s. Protocol overhead lowers the channel rate to 920 MB/s.

• A client connects to the GigaRing channel through the ION via a 64-bit full-duplex interface

• Detection of lost packets and cyclic redundancy checksums

Poznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

GigaRing ChannelGigaRing ChannelThe counter rotating rings provide two forms of system resiliency:

• Ring folding

• Ring masking

GigaRing Node Interface


Client-specificChip

GigaRing NodeChip

64 - bit Client Port

GigaRing Node

Positive In Link Positive Out Link

Negative In LinkNegative Out Link

Ring Folding• The GigaRing channel can be software configured to map out one or

more IONs from the system. Ring folding converts the counter-rotating rings to form a single ring

• The maximum channel bandwith for a folded ring is approximately 500 MB/s

GigaRing ChannelGigaRing Channel


ION

ION

ION

IONION

ION GiGaRingChannel

Ring Masking• Ring masking removes one of the counter-rotating rings from the

system, which results in one fully connected, uniderectional ring

• The maximum channel bandwidth = 500 MB/s



IONION

ION

ION

GigaRingGigaRingChannelChannel

Input/Output Nodes (ION)• All devices that connect directly to the GigaRing channel are

considered to be IONs

• There are three types of IONs :

Single-purpose Node (SPN)

Multipurpose node (MPN)

Mainframe node • Available mainframe nodes :



Cray T3ECray T3ECray J90seCray J90se

Cray T90Cray T90



GigaRing Channel

Cray T3E

Cray T3E

Cray T90

Cray J90se

HPN-2 (HIPPI)

HIPPI Network

Disk Array

Cray J90se

Cray J90

Massively Parallel Processing (MPP)Massively Parallel Processing (MPP)• Massively parallel approaches achieve high processing rates by

assembling large numbers of relatively slow processors

• Traditional approaches focus on improving the speed of individual processors and assembly only a few of these powerfull processors for a complete machine

• Improving network speed and communication overheads

• Examples :

– Thinking Machines (CM-2, CM-5)

– Intel Paragon

– Kendall Square (KS-1)

– SGI Origin 2000

– Cray T3D, T3E


Some commonly used network topologies

MPP’s network topologies MPP’s network topologies


Ring

2

2-DimensionalMesh

44

3-DimensionalMesh

66

N=3

Hypercube2N Nodes

2N

Nodes

TopologyTopology ConnectivityConnectivity

Cray T3E, T3DCray T3E, T3D• The Cray MPP system contains four types of components: processing

element nodes, the interconnect network, I/O gateways and a clock

• Network topology: 3D Mesh


-Y

+Y

+X

-X +Z

-Z

Node B

Node A

Cray T3D Cray T3D System ComponentsSystem Components

InterconnectNetwork

Processing ElementNode

I/O Gateway

Processing Element Nodes (PE)• Each PE contains a microprocessor, local memory and support circuitry

• 64-bit DEC Alpha RISC processor

• Very high scalability (8 ... 2048 CPUs)

Cray T3ECray T3E


Memory

CPU Switch

Links

Node B

Node A

Interconnect Network

• The interconnect network provides communication paths between PEs

• There is formed a three dimensional matrix of paths that connect the nodes in X, Y and Z dimensions

• A communication linkcommunication link transfers data and control information between two network routers, connects two nodes in one dimension.

A communication link is actually two unidirectional channels. Each channel in the link contains data, control and acknowledge signals.

• Dimension order routing (predefined methods of information traveling)

• Fault tolerance

Cray T3ECray T3E


Distributed operating system (Unicos/microkernel) • Unicos/mk does not require a common memory architecture. Unlike

Unicos, the functions of Unicos/mk are devided between a microkernel and numerous servers. For this reason, Unicos/mk is referred to as a serverized operating system.

• Serverized operating systems offer a distinct advantage for the Cray T3E system because of its distributed memory architecture. Within these systems, the local memory of each PE is not required to hold the entire set of OS code

• The operating system can be distributed across the PEs in the whole system • Under Unicos/mk, traditional UNICOS processes are implemented as

actors. Actors represents a resource allocation entity. The microkernel views all user processes, servers and daemons as actors

• A multiple PE application has one actor per PE. User and daemon actors reside in user address space; server actors reside in supervisory (kernel address) space.

Cray T3ECray T3EPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Distributed operating system (Unicos/mk) In the CRAY T3E systems, the local memory of each PE must contain a

copy of the microkernel and one or more servers. Under Unicos/mk each PE is configured as one of the following types of PEs:

• Support PEs

The local memory of support PEs contains a copy of the microkernel and servers. The exact number and type of servers vary depending on configuration tuning.

• User PEs

The local memory of user PEs contains a copy of the microkernel and a minimum number of servers. Because it contains a limited amount of operating system code, most of a user PE’s local memory is available to the user. User PEs include command and application PEs

• Redundant PE

A redundant PE is not configured into the system until an active PE fails.

Cray T3ECray T3EPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

SuperCluster EnvironmentSuperCluster EnvironmentPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Parallel Vector Supercomputers J90

Cray T3E Cray T90

HIPPI Switch

HIPPI Disk Array

PVM

NQE

NFS

DFS

DCE

EthernetFDDI

ATM

HeterogenousWorkstation

Servers

HIPPI

• Job distribution and load balancing

Cray NQX (NQE for Unicos)

• Open systems remote file access:

NFS

• Standard, secured distributed file system:

DCE DFS Server

• Client/server based distributed computing:

DCE Client Services

• Cray Message Passing Toolkit (MPT):

PVM, MPI

• High performance, resilient file sharing: opt.

Shared File System (SFS)

• Client/server hierarchical storage management: opt.

Data Migration Facility (DMF)

SuperCluster Software ComponentsSuperCluster Software ComponentsPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

Network Queuing Environment (NQE)• NQE consists of four components :

Network Queuing System (NQS), Network Load Balancer (NLB)

File Transfer Agent (FTA), Network Qeuing Environment clients

• NQE is a batch queuing system that automatically load balances jobs across heterogenous systems on a network. It runs each job submitted to the network as efficiently as possible on the ressources available.

• This provides faster turnaround for users and automatic load balancing to ensure that all systems on the network are used effectively.

SuperCluster Software ComponentsSuperCluster Software ComponentsPoznań Supercomputing and Networking CenterPoznań Supercomputing and Networking Center

NQS

NLB server

FTA Collector

NQS FTA

Collector

NQE Clients NQE master server NQE execution servers

RequirementsRequirements


Requirement for Interprocesscommunications : GB/s

Ethernet 10Mb/s

(1,25 MB/s.)

FDDI 100 Mb/s(12,5 MB/s)

ATM 155 Mb/s(19,4 MB/s)

ATM 622 Mb/s(77,8 MB/s)

HIPPI 800 Mb/s(100 MB/s)

HIPPI 1600 Mb/s(200 MB/s)

GigaRing channel1 GB/s

• Consists of up to eight Power Challenge or Power Onyx (POWERnode) supercomputing systems connected by a high performance HIPPI interconnect

• Two level communication hierarchy, whereas CPUs within a POWERnode communicate via a fast shared bus interconnect and CPUs across POWERnode communicate via HIPPI interconnect

POWER CHALLENGEarrayPOWER CHALLENGEarray


M

P PP

M

P PP

M

P PP

M

P PP

HiPPIswitch

Parallel programming models supported:

• Shared memory with n processes inside a POWERnode

• Message passing with n processes inside a POWERnode

• Hybrid model with n processes inside a POWERnode, using a combination of shared memory and message passing

• Message passing with n processes over p POWERnodes

• Hybrid model with n processes over p POWERnodes, using a combination of shared memory within a POWERnode system and message passing between POWERnodes



Shared Memory

MPI Task

MPI Task

Communicationvia sockets

MPI Task

MPI Task MPI Task

MPI Task

Shared Memory

Multiparallel Memory Sharing

Message Passing MPI Model


Software:• Native POWERnode tools

IRIX 6.x, XFS, NFS, MIPSpro compilers, scientific and math libraries,

development environment

• Array services

Allows to manage and administer the array as a single system

• Distributed program development tools

HPF, MPI and PVM libraries, tools for distributed program visualization and debugging (Upshot, XPVM)

• Distributed batch processing tools

LSF, CODINE

• Distributed system management tools

IRIXPro, Performance Co-Pilot (PCP)



An array session is a set of processes, possibly running across several POWERnodes, that are related to another by a single, unique identifier called the Array Session Handle (ASH). A local ASH is assigned by the kernel and is guaranteed to be unique within a single POWERnode, whereas a global ASH is assigned by the array services daemon

and is unique across the entire POWER CHALLENGEarray.


POWERnode4

arrayservicesdaemon

POWERnode3

arrayservicesdaemon

POWERnode1

arrayservicesdaemon

POWERnode2

arrayservicesdaemon

ARRAY 1

ArraySession

Process 2

Process 1

Process 3

35


Zarządzanie dużymi ilościami danych Zarządzanie dużymi ilościami danych

Główne problemy:

• duże ilości danych

• czas odpowiedzi

• przepustowość istniejących sieci

• opóźnienia

• odnalezienie źródła danych

• kompatybilność formatów

• spójność danych

36

Konfiguracja Archiwizatora• Pojemność 5,2 TB bez kompresji• Serwer Sun Enterprise 450

– 2 proc., 512 MB RAM, 100 GB dysków– interfejsy - ATM, FDDI, Ethernet 10/100– oprogramowanie UniTree

• Robot ATL - 198 taśm (10/20 i 35/70 GB)• Roboty dysków magneto-optycznych HP

– 660ex - 128 płytek po 5,2 GB– 165st - 128 płytek po 1,3 GB

37

Hierarchiczny system pamięci masowej

• Poziom 1 - pamięć dyskowa (cache)– szybki dostęp, drogi nośnik

• Poziom 2 - dyski magneto-optyczne– dostęp w kilkanaście sekund, tańszy nośnik

• Poziom 3 - taśmy– dostęp do kilku minut, najtańszy nośnik

(taśma CompactTape IV 35/70 GB - 100USD)

Cen

a nośn

ika

Czas d

ostępu

38

Zarządzanie UniTree• Dostęp (ftp, nfs)• Widoczny normalny system plików• Cache

– „dolny i górny wysoki znacznik poziomu wody”– wirtualny cache - aktualnie ponad 80 GB

• Polityka migracji (wielkość, wiek)• Repakowanie (defragmentacja) nośników (zapis

sekwencyjny także na płytkach M-O)• Backup baz systemu archiwizacji na taśmy

39

Ustalenie polityki migracji

• Analiza rozkładu danych, ilości plików o ustalonej wielkości

• Równomierne obciążenie dostępnych mediów wszystkich poziomów (nie licząc pamięci dyskowej)

• Pliki zapisywane są na poszczególne media w zależności od wielkości

• Zdefiniowanie polityki równoległego zapisu dalszych kopii; ważne, aby kopia znajdowała się w innej bibliotece

• Analiza dynamiki przyrostu ilości i wielkości plików

• Definiowanie czasu po jakim nieużywane pliki przenoszone są na tańsze media

40

Problemy i ograniczenia

• Przepustowość - liczba napędów (robotów)

• Występowanie kolejki taśm

• „nieograniczony rozmiar pliku” – praktycznie zależy od wielkości cache

• duże zasoby dyskowe PCSS

• okna czasowe dla backupów

• równoległy dostęp użytkowników

41

Zarządzanie rozproszonymi systemami archiwizacji

• Wszystkie systemy widoczne jako jeden wielki system pamięci masowej

• Wybór najszybciej dostępnego systemu – analiza obciążenia i przepustowości sieci

• Replika wybranych danych pomiędzy systemami – problem spójności danych

• Polityka rozliczania użytkowników z rozproszonymi danymi

42

Rozproszony system pamięci masowej

DistributedDistributedStorageStorage

Data backupData backupData recoveryData recovery

- Even data distribution - Even data distribution

- Geographical - Geographical mirrormirror

- Fast backup- Fast backup

- Fast recovery- Fast recovery

mirror

43

•Łatwy, zdalny dostęp do archiwizatora przez WWW

•Automatyczny i okresowy backup systemów

•Bezpieczna transmisja

•Zwiększona odporność na błędy

•Kontrola stanu systemu archiwizacji

•Dedykowany serwer i klient ftp

•Zdefiniowane okno czasowe

System Automatycznej Archiwizacji - główne cele

44

System Automatycznej Archiwizacji - działanie

single or periodic backups

Data baseData baseData baseData baseDistributedDistributed

ArchiveArchive

ManagerManagerServerServer


WWWbrowser

Secure transmission

e-mail

single or periodic backups

Data baseData baseData baseData baseDistributedDistributed

StorageStorage



WWW

45


Środowisko heterogeniczne - przykłady

46


Metacomputer at PSNC

47


National Computing Grid

GDAŃSK

ŁÓDŹ

KRAKÓW

POZNAŃ

WROCŁAW

48


National Computing Grid - PLATFORMS

GDAŃSK

POZNAŃ

ŁÓDŹ

WROCŁAW

SILESIA

KRAKÓW

• Cray systems

• SGI systems (Origin2000,

Onyx2, Pchallenge)

• other platforms (i.e. SUN)

49


Systemy kolejkowe

Jest to system zarządzania zadaniami umożliwiający: Jest to system zarządzania zadaniami umożliwiający: • wykonanie większej ilości zadań w mniejszym czasie poprzez wykonanie większej ilości zadań w mniejszym czasie poprzez dopasowanie ich wymagań obliczeniowych do dostępnych dopasowanie ich wymagań obliczeniowych do dostępnych zasobów - lepsze wykorzystanie mocy obliczeniowejzasobów - lepsze wykorzystanie mocy obliczeniowej• łatwe zarządzanie równym obciążeniem procesorówłatwe zarządzanie równym obciążeniem procesorów• sprawiedliwy przydział zasobów procesom użytkownikówsprawiedliwy przydział zasobów procesom użytkowników• restartowanie zadań zatrzymanych w przypadku awarii sprzętu restartowanie zadań zatrzymanych w przypadku awarii sprzętu lub czynności administracyjnychlub czynności administracyjnych• warunkowe wykonywanie ciągów programówwarunkowe wykonywanie ciągów programów

Systemy zarządzania zadaniami w trybie wsadowym.Systemy zarządzania zadaniami w trybie wsadowym.

50

Struktura systemu kolejkowego

– Maszyna Przetwarzająca (ang. Executing Machines)

– Maszyna Zlecająca (ang. Submitting Machines)

– Maszyna Szeregująca (ang. Scheduling Machines)

– Centralnego Zarządca (ang. Central Manager)

Wszystkie w/w funkcje mogą być realizowane na jednej

maszynie

51

Przepływ zadania

Centralny ZarządcaCentralny Zarządca

informacjeo maszynie

Maszyna Przetwarzająca

Maszyna Przetwarzająca

Maszyna Szeregująca

Maszyna Szeregująca

dołączenie zadania informacjeo zadaniu

status zadania

Maszyna Zlecająca

Maszyna Zlecająca

52

Rozwój systemów kolejkowych

LL

LSF

NQE

53

Kolejki typu pipe• Kolejki „organizacyjne”

• Przekazują zadania do kolejek typu batch, w zależności od parametrów zadania i aktualnego stanu kolejek

day

night

day_small

day_medium

day_large

night_small

night_large

Kolejkitypupipe

Kolejkitypubatch

54

Kolejki typu batch• Kolejki obliczeniowe

• Każda kolejka ma określony priorytet i limit zasobów, które zadanie może wykorzystywać

• Definiowana jest maksymalna liczba uruchomionych zadań w kolejce. Pozostałe zadania oczekują i uruchamiane są w razie możliwości.

55

Kolejki typu interaktywnego• Kolejki zadań interaktywnych (np. vi, ABAQUS, Matlab)

- zadania nie wymagają wiele czasu CPU

• Ubieganie się o zasoby w systemie wsadowo-interakcyjnym - sterowanie parametrami kolejek wsadowych w celu uniknięcia rezerwacji wszystkich dostępnych zasobów

• Najważniejsza jest minimalizacja liczby dostępów do pamięci wirtualnej, im jest ona większa, tym czas odpowiedzi systemu mniejszy

• Niektóre systemy kolejkowe dostarczają narzędzia uruchamiającego zadania ‘w klastrze’ bez konieczności specyfikowania nazwy serwera

56

Równoważenie obciążenia• Statyczny przydział zasobów do zadania na podstawie

wiedzy o bieżącym obciążeniu wszystkich systemów

• Usypianie i budzenie zadań w związku z ich priorytetami

• Usypianie zadań w kolejce aktywnej np. tylko w nocy

• Dynamiczna migracja zadań pomiędzy mocno - słabo obciążonymi serwerami

• Migracja zadań na serwery o bardziej odpowiednich zasobach

• Wada migracji - niekompatybilność obrazów pamięci procesów pomiędzy architekturami komputerów

57


Systemy kolejkowe - podsumowanie

LSFLSF

NQENQE

LLLL

• równoważenie obciążeniarównoważenie obciążenia• praca w trybie wsadowym i interaktywnympraca w trybie wsadowym i interaktywnym• interfejsy do innych systemów kolejkowychinterfejsy do innych systemów kolejkowych• checkpointingcheckpointing• możliwość migracji zadańmożliwość migracji zadań• budowanie klastrów (środowiska budowanie klastrów (środowiska heterogenicznego)heterogenicznego)• nie wspierają zadań rozproszonychnie wspierają zadań rozproszonych• migracja zadań możliwa tylko w środowiskumigracja zadań możliwa tylko w środowisku homogenicznym (systemy binarnie homogenicznym (systemy binarnie kompatybilne)kompatybilne)

58


GLOBUS

System metakomputerowy

59


The Computational Grid

• Dependable: can provide

performance and functionality

guarantees

• Consistent: uniform interfaces to wide variety of resources

• Pervasive: ability to „plug-in” from anywhere

"Dependable, consistent, pervasive access to resources"

60


Globus - goals

• Metacomputer = networked virtual supercomputer• Provide basic infrastructure that can be used to

construct portable, high-performance implementations

• Understand application requirements and develop the essential technologies required to meet these requirements

61


Globus toolkit - overview

• The toolkit comprises a set of components that implement basic services of security, resource management, communication, etc.

• The toolkit distinguishes between local services, and global services (on top of local).

• Interfaces are defined so as to manage heterogeneity, rather than hiding it.

• An information service is an integral component of the toolkit

62


Globus Toolkit

63


Core Globus Services

• Resource management (GRAM)

• Information services (MDS)

• Communication infrastructure (Nexus)

• Remote file and executable managment (GASS and GEM)

• Process monitoring (HBM)

• Security (GSI)

64


Resource Management

• RSL - used to express requests• Resource brokers - take high-level RSL and

transform it into more concrete specification• Co-allocator - responsible for coordinating the

allocation and management of resources at multiple sites

• Information service - provides efficient and pervasive access to information about the current availability and capability of resources

65


Resource Management

66


GRAM functions

• Processing RSL specifications representing resource requests, by either denying the request or by cerating one or more processes

• Enabling remote monitoring and management of jobs, created in response to a resource request

• Periodically updating the MDS information service with information about the current availability and capabilities of the resources that it manages

e-mail: [email protected] man.poznan.pl

Documents