processamento paralelo arquitetura de sistemas paralelos e distribuídos prof. joão paulo a....

Processamento ParaleloArquitetura de Sistemas Paralelos e Distribuídos

Prof. João Paulo A. Almeida ([email protected])

2011/01 - INF02799

Informações gerais

• Página web: http://nemo.inf.ufes.br/jpalmeida/ensino/2011-01-processamento-paralelo

• Carga horária semestral total: 60 horas• Horário: terças e quintas-feiras: 15:00-17:00• Local: CT-IX sala 202 (por enquanto)

Avaliação

• Duas provas parciais e trabalhos• A média parcial (MP) é calculada por:

MP = 0,6*P + 0,4*Tonde: P é a média aritmética das provas parciais eT é a média aritmética das notas dos trabalhos.

• A média final (MF) será:MF = MP, se MP ≥ 7,0 (e houver presença)MF = (PF + MP)/2, se MP < 7,0

(PF é a nota da prova final)

• Se MF ≥ 5,0 -> Aprovado• Se MF < 5,0 -> Reprovado

Material didático

• COULOURIS, George F.; DOLLIMORE, Jean; KINDBERG, Tim. Sistemas distribuídos: conceitos e projeto. 4. ed. Porto Alegre: Bookman, 2007.

• Distributed Systems: Concepts and Design, 4. ed. Addison Wesley, 2005.

• Pelo menos os capítulos: – 1, 2, 4, 5, 9, 19, 20

Material didático

• Artigos e tutoriais online:– P.A. Bernstein. Middleware. Communications of the ACM,

Vol. 39, No. 2, February 1996, 86-98.– P. Eugster, P. Felber, R. Gerraoui, A.M. Kermarrec, The

Many Faces of Publish/Subscribe, ACM Computing Surveys, Vol. 35, No. 2, June 2003, pp. 114–131.

– http://java.sun.com/docs/books/tutorial/rmi/index.html– http://java.sun.com/j2ee/1.4/docs/tutorial/doc/JMS.html#wp

84181

O que é um sistema distribuído?

Rede B

Rede C

Rede A

Fonte: Luís Ferreira Pires, Universidade de Twente

Distribuição é um fato, parte do problema

• Usuários e recursos estão fisicamente distribuídos

• Temos que lidar com a distribuição• Exemplos:

– Páginas na Internet– Usuários de e-mail

Distribuição é parte da solução

• Podemos explorar distribuição– Distribuição não é requisito da aplicação ou dos

usuários, mas explora-se a distribuição para obter:

– Aplicações mais rápidas: por exemplo, com uma pesquisa de banco de dados com menor tempo de resposta; cálculos complexos / computação científica, etc.

– Aplicações mais confiáveis: sistemas de bancos, seguradoras, indústrias, etc.

– Aplicações de maior capacidade: número de caixas eletrônicos e clientes na Internet fazendo operações bancárias / pedidos / pesquisas

Compartilhamento de recursos

• Capacidade de processamento• Memória• Armazenamento• Banda de rede / acesso• Disponibilidade• Dispositivos (impressoras, monitores)• Bateria

Níveis de paralelismo

1. Paralelismo no nível de instrução2. Várias linhas de execução em um mesmo

processador3. Várias linhas de execução em diferentes

processadores (SMP, dual, quad core)4. Computadores paralelos

• interconectados com redes dedicadas de alta velocidade

5. Cluster de computadores6. Computadores na Internet

• Redes compartilhadas, comunicação peer-to-peer, máquinas heterogêneas, problemas de segurança, …

Autonomia

Paralelismo no nível de instrução

• Velocidade (throughput) versus custo• Metodologias básicas para melhorar a

velocidade (fixando circuito e ISA): – Simplificar organização da máquina de modo a

reduzir o período do clock;– Reduzir número de ciclos de clock necessários

para executar uma instrução;– Sobrepor a execução das instruções (pipelines!!!)

• Uma CPU, fazendo uso mais adequado do hardware


• Exemplo da lavanderia• Patrícia, Fernanda, Pedro, João

têm cada um saco de roupas para lavar, secar e dobrar

• O ciclo de lavagem leva 30 minutos• O de secagem leva 30 minutos• O tempo para dobrar é de 30 minutos • O funcionário leva 30 minutos

para colocar as roupas no armário

A

Lavanderia sequencial

30

B

C

D

ATempo

30 30 3030 30 3030 30 30 3030 30 30 3030

6 PM 7 8 9 10 11 12 1 2 AM

•De maneira sequencial, eles levam 8 horas para 4 cargas•Quanto tempo levaria se eles utilizassem a técnica de pipeline?

Lavanderia paralela (pipeline)

•Lavanderia Pipelined leva 3.5 horas para 4 cargas!

Task

Order

12 2 AM6 PM 7 8 9 10 11 1

Tempo

B

C

D

A

3030 30 3030 30 30


• 5 estágios básicos– Carrega (fetch)

instrução (F)– decodifica instrução

instruction / lê registradores (R)

– executa (X)– acessa memória (M)– armazena resultados

nos registradores (W)

I-Fetch

Decode

Execute

Memory

WriteResult


F

Inst

ruçã

o

R X M W

F R X M W

F R X M W

F R X M W

F R X M

F R X


• Pipelining é um mecanismo que permite a sobreposição temporal das diversas fases da execução de instruções

• Aumenta o throughput das instruções (mais instruções são executadas por unidade de tempo). Porém, pipeline não ajuda na latência da execução de uma única instrução


• Assume independência entre fases da execução da instrução

• Não é sempre o caso (ex., saltos condicionais) levam a ociosidade

• Afeta a eficiência

• Um assuntos para arquitetura de computadores...








Autonomia

Várias linhas de execução: um processador• Paralelismo

“simulado”– processos– threads

• “Logicamente” há várias linhas de execução

• “Fisicamente” não há• Um assunto de

sistemas operacionais...

• ... mas uso de multi-threading / processos é muito importante na programação de sistemas distribuídos

Fonte: Douglas Schmidt http://www.cs.wustl.edu/~schmidt/PDF/mt-unix4.pdf








Autonomia

Vários processadores, memória compartilhada

Parallel Programming Techniques & Applications Using Networked Workstations & Parallel Computers 2nd ed. ,by B. Wilkinson & M. Allen,

Vários processadores, memória compartilhada


Symmetric Multiprocessing / SMP: Processadores idênticos / multi core Memória compartilhada

Quad Pentiummulti-core: vários processadores, mesmo chip


Processador de 3 cores Xenon no Xbox 360

Multi-computadores / Computadores paralelosMemória Local

Processador de 1+1+6 cores Cell no PS3

http://beautifulpixels.blogspot.com/2008/08/multi-platform-multi-core-architecture.html

Memória Compartilhada Distribuída

NUMA (Non-Uniform Memory Access)Acesso à memória local é mais rápido que acesso à memória remota

Supercomputadores

• O termo não tem muito sentido arquitetural• Só para identificar os (multi)computadores que

tem maior poder de processamento quando são construídos

• Ou usado para falar sobre “computação de alto desempenho”

Supercomputadores (nov. 2010)

http://en.wikipedia.org/wiki/Top500

Rank Site Computer/Year Vendor Cores Rmax Rpeak TFlops Power (KW)

1National Supercomputing Center in Tianjin

China

Tianhe-1A - NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA GPU, FT-1000 8C / 2010NUDT

186368 2566.00 4701.00 4040.00

2DOE/SC/Oak Ridge National Laboratory

United States

Jaguar - Cray XT5-HE Opteron 6-core 2.6 GHz / 2009Cray Inc.

224162 1759.00 2331.00 6950.60

3National Supercomputing Centre in Shenzhen (NSCS)

China

Nebulae - Dawning TC3600 Blade, Intel X5650, NVidia Tesla C2050 GPU / 2010Dawning

120640 1271.00 2984.30 2580.00

4GSIC Center, Tokyo Institute of Technology

Japan

TSUBAME 2.0 - HP ProLiant SL390s G7 Xeon 6C X5670, Nvidia GPU, Linux/Windows / 2010NEC/HP

73278 1192.00 2287.63 1398.61

5DOE/SC/LBNL/NERSC

United States

Hopper - Cray XE6 12-core 2.1 GHz / 2010Cray Inc.

153408 1054.00 1288.63 2910.00

In 2010, the fastest PC processors six-core has a theoretical peak performance of 0.107 TFLOPS (Intel Core i7 980 XE)

http://www.top500.org/lists/2010/11/performance_development

i7 20106-cores

No Brasil

• #29– National Institute for Space Research (INPE)– Tupã - Cray XT6 (AMD) 12-core 2.1 GHz / 2010

Cray Inc.– 30720 cores– Rmax 205.10 Tflops– Rpeak 258.05 Tflops

– http://www.top500.org/system/10619

No Brasil

• #116 NACAD/COPPE/UFRJBrazil

• 6464 cores• Intel EM64T Xeon X55xx (Nehalem-EP)

Cyclops64 (Blue Gene/C)Arquitetura celular

Objetivo: 1.1 Pflops

Cyclops64 (Blue Gene/C)

• Cada chip contém 80 processadores de 64-bits / 500 MHz, cada processador suporta 2 linhas de execução (threads).

• 80 gigaflops por chip (desempenho teórico de pico)


x4


x48

x4


x4

x48

x72

Para quem perdeu as contas...

• 2 x 80 x 4 x 48 x 72• 2.211.840 linhas de execução• 1.1 Pflops• 13.8 TB RAM

Taxonomia de Flynn

SingleInstruction

MultipleInstruction

SingleData

SISD(PCs /

Mainframes)

MISD(redundância, ex:

avião)

MultipleData

SIMD(vector / array)

MIMD(maioria dos

supercomputadores atuais)

SIMD

• Single Instruction Multiple Data• Computadores vetoriais

http://en.wikipedia.org/wiki/Image:Processor_board_cray-1_hg.jpg

Cluster (MIMD)

Blade server farms

http://en.wikipedia.org/wiki/Image:IBM_bladecenter_%28front%29.jpg

Wikimedia server farm

Cluster x “farms”

• Esta terminologia não é usada de forma rígida• Mas, tipicamente, farms tem alimentação

compartilhada, algumas facilidades de gerenciamente em hardware (hot swapping)

• Disponibilidade além de capacidade de processamento

• Problemas de fácil paralelização– Servidores web– Distribuição de carga (load balancing)

Dificuldades

• HVAC - heating, ventilating, and air conditioning• Refrigeração

– desempenho por watt dissipado

• Antigo Cluster do LCAD– dois ar-condicionados (totalizando 30.000 BTU's)

+ ventilador de teto + ventiladores das CPUs– sensores de temperatura

• Refrigeração a líquido• Muitos farms têm refrigeração compartilhada

Dificuldades

• Falhas• Com muitos elementos não há como não haver

falhas• Faça um cálculo de probabilidade:

– 1024 máquinas, com taxa λ de falha...– Qual a taxa de falha da máquina como um todo,

se a máquina tivesse que funcionar a todo momento?

Computação de alto desempenho na Internet

• Formação de clusters virtuais (grid) (na Internet)• BOINC• SETI@home, FOLDING@home, Einstein@home• 500 Tflop/s (média), Jan. 2007• 925 Tflops/s (média), Fev. 2008• 1.287 Pflops, Dez. 2008

– Com 565000 computadores

• 5.1 PFLOPS as of April 21, 2010• Universidade da Califórnia, Berkeley • http://en.wikipedia.org/wiki/BOINC

BotnetsDate created Name Estimated no. of bots Spam capacity Aliases

2009 (May) BredoLab 30,000,000 3.6 billion/day Oficla

2008 (around) Mariposa 12,000,000 0 ?

? Conficker 10,500,000+ 10 billion/dayDownUp, DownAndUp, DownAdUp, Kido

? Zeus 3,600,000 (US Only) -1n/aZbot, PRG, Wsnpoem, Gorhax, Kneber

2007 (Around) Cutwail 1,500,000 74 billion/dayPandex, Mutant (related to: Wigon, Pushdo)

? Grum 560,000 39.9 billion/day Tedroo

? Mega-D 509,000 10 billion/day Ozdok

? Kraken 495,000 9 billion/day Kracken

http://en.wikipedia.org/wiki/Botnet

Aplicações distribuídas: interação entre partes

• A complexidade às vezes está na forma de interação ou na coordenação entre as partes distribuídas

Rede B

Rede C

Rede A

Diferentes modelos de interação

• RPC – Remote Procedure Call• Orientado a objetos distribuídos

– Distributed Objects– Remote Method Invocation

• Orientado a passagem de mensagem• Orientado a eventos (publish/subscribe)• Orientado a streams (fluxo de dados)

– Multimedia streams: áudio e vídeo

• Orientado a serviços

Falhas independentes

• Partes de um sistema podem falhar por diversos motivos– banais: falta de energia elétrica– erros de projeto (programação) no

desenvolvimento de uma parte do sistema– crashes de sistemas operacionais– falha de hardware

Falhas independentes

• “A distributed system is one in which the failure of a computer you didn’t even know existed can render your own computer unusable.” (Lesley Lamport, 1992)

Particionamento de rede

Rede B

Rede C

Rede A

Atraso, limitações de banda

• Redes impões atraso na comunicação• Não somente pela capacidade de transmissão

(banda) mas também pela distância geográfica

Escalabilidade

• O sistema deverá permanecer eficiente mesmo com um aumento no número de usuários (carga) e recursos:– Sistema deverá comportar aumento de recursos– Custo de adicionar recursos deve ser razoável– Perda de desempenho com aumento de

usuários/carga deve ser limitado

• Escalabilidade de sistemas distribuídos agrega valor:– Imagina uma web que fosse limitada no número

de páginas, usuários conectados simultaneamente…

Heterogeneidade

• Diferentes arquiteturas de hardware– Intel, Apple, telefones celulares, …

• Diferentes sistemas operacionais– Windows (e suas versões), UNIX (e suas variantes),

VMS e outros sistemas legados, sistemas operacionais de tempo real, sistemas operacionais para dispositivos móveis (e.g., Symbian, Windows Mobile)

• Diferentes tipos de rede– Apesar do TCP/IP ter dominado os níveis de

transporte/rede

• Diferentes linguagens de programação• Diferentes implementações

Heterogeneidade

Fonte: http://www.cs.wustl.edu/~schmidt/PDF/MT-Orbix4.pdf

Padronização

• Padronização de algumas partes necessárias para interoperabilidade

• Interoperabilidade: capacidade de sistemas de trabalhar em conjunto

• Padronização necessária para portabilidade• Portabilidade: capacidade de

(partes/componentes de) sistemas de serem usados em vários contextos

• Não há como padronizar tudo• E os padrões também mudam com o tempo

Padronização e “Abertura” (Openness)

• Interfaces mais importantes são publicadas (documentadas)

• Mecanismo de comunicação uniforme, compartilhado

• Cada parte pode ser construída independentemente por diferentes vendedores/desenvolvedores– Portanto devem se adequar a padrões e

interfaces publicadas

Segurança

Rede B

Rede C

Rede A

Segurança

• Confidentiality- Confidencialidade• Integrity - Integridade• Availability – Disponibilidade• ... da informação e de serviços• Confidencialidade - propriedade que limita o acesso

somente às entidades legítimas, ou seja, àquelas autorizadas pelo proprietário da informação

• Integridade - propriedade que garante que a informação e serviços mantenham as características originais estabelecidas pelo proprietário

• Disponibilidade - propriedade que garante que a informação e serviços estejam sempre disponíveis para o uso legítimo

Segurança

• Hackers também podem explorar a distribuição para seu benefício– Ataques de larga escala que levam à

indisponibilidade de sistemas (Denial Of Service attacks)

– Acesso a sistemas mau configurados e seus recursos; pense em:

• Disco e Banda (pirataria, material ilegal)• Processamento (para quebra de criptografia)• Processamento e Banda (SPAM)

Diferentes domínios de administração

• Partes do sistema podem pertencer a diferentes organizações

• Autonomia no nível organizacional• Diferentes tecnologias e padrões• Diferentes procedimentos de manutenção• Exacerba o problema de heterogeneidade• Exacerba o problema de falhas independentes• Exacerba o problema de segurança

≥≥

Aplicações centralizadas x Aplicações distribuídas

Custo de comunicação entre partes do sistema

Falhas Particionamento

Aplicações Centralizadas

Baixo Todas partes do sistema falham em conjunto

Não há

Aplicações Distribuídas

Mais alto / Variável

Partes falham independentemente

Partes podem ficar sem comunicação

Aplicações centralizadas x Aplicações distribuídas

Segurança Escalabilidade …

Aplicações Centralizadas

Controle mais simples

Limitada por natureza

…

Aplicações Distribuídas

Vários pontos de entrada

Depende de projeto adequado

…

Próxima Aula

• Vamos pisar no chão: middleware

Rede B

Rede C

Rede A

processamento paralelo arquitetura de sistemas paralelos e distribuídos prof. joão paulo a....

Documents