big data - pós graduação arquitetura de nuvem - ufrn - 2014

137
Especialização em ARQUITETURA DE NUVEM Disciplina: Big Data Carga Horária: 20h Prof. Marcos Luiz Lins Filho Setembro/2014

Upload: marcos-luiz-lins-filho

Post on 05-Dec-2014

277 views

Category:

Technology


1 download

DESCRIPTION

Slides da Disciplina Big Data Pós Graduação em Arquitetura de Nuvem - UFRN Setembro 2014

TRANSCRIPT

Page 1: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

Especialização em

ARQUITETURA DE NUVEM

Disciplina: Big Data

Carga Horária: 20h

Prof. Marcos Luiz Lins Filho

Setembro/2014

Prof. Marcos Luiz Lins Filho

Page 2: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Programação ::.

� 1ᵒ Dia (17/09) – Apresentação e Motivação

– Apresentação da Disciplina (Estrutura, Materiais, Avaliação)

– Histórico e conceitos de Big Data

– Tipos e Fontes de Dados

– Estudos de Caso – Vídeo e Slides

– Os 4 desafios do Big Data (Atividade)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– Os 4 desafios do Big Data (Atividade)

� 2ᵒ Dia (18/09) – Infraestrutura de Big Data

– Considerações sobre Cloud Computing, Internet das Coisas e SOLOMO

– Arquitetura e Governança de Big Data

– Bases de dados Relacionais, NoSQL e in-memory

– Hadoop e seus agregados

– Atividade

Page 3: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Programação ::.

� 3ᵒ Dia (19/09) – Análise de Big Data

– O que é?

– Oportunidades e Dificuldades da Análise de Big Data

– Atividade

� 4ᵒ Dia (20/09) – Big Data no Futuro

– Novas tendências (BYOD, Consumerização, Crowdsourcing e

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– Novas tendências (BYOD, Consumerização, Crowdsourcing e Crowdfunding, Gamificação)

– Futuro do Big Data

– Encerramento da Disciplina

Page 4: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: 1° Dia – 17/09/2014

Apresentação e Motivação para Apresentação e Motivação para

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Apresentação e Motivação para Apresentação e Motivação para estudar BIG DATAestudar BIG DATA

Page 5: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Por que Big Data?

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

Page 6: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Por que Big Data?

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

Page 7: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Histórico do Big Data

� Se divide em dois momentos

� Expansão no campo científico e de negócios basicamente através do uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)

� Difusão do termo já com viés tecnológico e econômico, estudo de tecnologias, desenvolvimento de ferramentas para análise de dados etc (meados de 2008)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012

Page 8: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Histórico do Big Data

� Se divide em dois momentos

� Expansão no campo científico e de negócios basicamente através do uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)

� (Tilly, 1984) usa pela primeira vez o termo Big Data em textos acadêmicos;

� Uma primeira pesquisa publicada em 1987 relativa a uma técnica de programação chamada small code, big data;

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

de programação chamada small code, big data;

� Em 1989 e 1993 pesquisas começam a tratar de aplicações de Big Data;

� (Laney , 2001) publica trabalho com o título os 3 V´s do Big Data (Volume, Variedade e Velocidade)

Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012

Page 9: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Histórico do Big Data

� Se divide em dois momentos

� Difusão do termo já com viés tecnológico e econômico, estudo de tecnologias, desenvolvimento de ferramentas para análise de dados etc (meados de 2008)

� (Lohr, 2008) Jornalista do New York Times publicou artigo em que citava que cientistas de computação e executivos da indústria já enxergavam que o termo Big Data saia da esfera acadêmica e já

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012

enxergavam que o termo Big Data saia da esfera acadêmica e já começava a trazer resultados econômicos.

� A Wired publica em junho de 2008 um artigo “The Petabyte Age: because more isn’t just more, more is different”, que apresenta as oportunidades e implicações do Big Data

� (Lohr, 2012) – Início do uso do termo Big data pela IBM em 2008 na sua estratégia de Marketing. Em 2011, no Twitter. Em 2012, com a publicação do 1ᵒ ebook sobre tecnologias de Big Data.

Page 10: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Histórico do Big Data

� Dilbert, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Dilbert, 2012 – Disponível em: http://dilbert.com/strips/comic/2012-07-29/

Page 11: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Motivação para o Big Data

“A verdadeira questão não é que você está

coletando grandes quantidades de dados, mas

sim o que você faz com eles. As organizações

terão que ser capazes de aproveitar os dados

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011

terão que ser capazes de aproveitar os dados

relevantes e usá-los para tomar as melhores

decisões.” (IDC, 2011)

Page 12: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Conceitos ..: O que é Big Data?

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

FONTE: EMC

Page 13: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Definição de Big Data

� Não há unanimidade quanto a definição de Big Data, apesar de haver consenso quanto a sua força modificadora no contexto de dados (Joyanes, 2013)

� Alguns conceitos:

� (Gartner, 2012) “Big Data é tudo que ultrapassa as capacidades de hardware e de ferramentas de softwares de captura, gerenciamento e processamento de dados num tempo razoável para os usuários”

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

processamento de dados num tempo razoável para os usuários” (McKinsey, 2011; Deloitte, 2012)

� (IDC, 2011) “Big Data é uma nova geração de tecnologias, arquiteturas e estratégias para capturar e analisar grandes volumes de dados provenientes de fontes múltiplas e heterogêneas com o objetivo de extrair valor econômico desses dados”

� Há que se separar a definição mercadológica dada ao Big Data da origem do problema (Quebra de Paradigma)

Page 14: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: De onde vem a necessidade de quebrar paradigma?

� Aumento na quantidade de Dados Científicos

� Maior demanda por Computação Distribuída

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

� Limitação dos Bancos de Dados Relacionais

Page 15: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: De onde vem a necessidade de quebrar paradigma?

� Aumento na quantidade de Dados Científicos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: EMC

Page 16: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: De onde vem a necessidade de quebrar paradigma?

� Maior demanda por Computação Distribuída

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf

Page 17: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: De onde vem a necessidade de quebrar paradigma?

� Maior demanda por Computação Distribuída

Computação distribuída significa pegar uma

tarefa, dividi-la em pedaços menores e dar cada

pedaço a um servidor diferente, depois pegar cada

resultado, uni-los (de maneira coerente) e

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: https://under-linux.org/entry.php?b=2603

resultado, uni-los (de maneira coerente) e

apresentá-lo.

Dificuldade

Processamento X Distribuição (Divisão)

Integridade e Disponibilidade em Cloud Computing

Page 18: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: De onde vem a necessidade de quebrar paradigma?

� Limitações dos Bancos de Dados Relacionais

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: IMD

Page 19: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Definição de Big Data

� O que mais se utiliza como definição remete ao trabalho de (Laney, 2001) sobre os 3 V´s do Big Data (Volume, Variedade e Velocidade) ;

� “Big Data são os grandes conjuntos de dados que possuem três características principais: volume, velocidade e variedade.”

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: IBM

Page 20: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Volume, Velocidade e Variedade

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Page 21: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Volume, Velocidade e Variedade

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Page 22: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: + 3 V’s do Big Data

VeracidadeVeracidade

ValorValor

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/

VeracidadeVeracidade

ViabilidadeViabilidade

Page 23: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Curiosidades

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

� From “Using Private Cloud to solve Big Data problems”, disponível emhttps://www.panasas.com/sites/default/files/uploads/docs/Panasas_Private_Cloud_Storage_by%20Intersect360_wp_1074.PDF

Page 24: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Curiosidades

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

� Fonte: “Big Data and the Web: Algorithms for Data Intensive Scalable Computing”, Ph.D Thesis, Gianmarco

Page 25: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Os dados são de 3 tipos

– Estruturados

– Semi-estruturados

– Não estruturados

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

Page 26: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Estruturados

– Dados que possuem esquema de campos fixos

– Formato bem definido

– Normalmente armazenado em BD Relacionais

– Conhecimento prévio da estrutura dos dados

– São gerados em uma ordem especificada

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– São gerados em uma ordem especificada

Fonte: Joyanes, 2013

Page 27: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Semi-estruturados

– Possuem um fluxo lógico

– O formato pode ser bem definido, mas não necessariamente é fixo

– Não possui fácil compreensão por parte do usuário leigo

– Tem como característica marcante o uso de etiquetas e marcadores para separar elementos dos dados

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

para separar elementos dos dados

– Regras complexas para manipulação dos dados

Fonte: Joyanes, 2013

Page 28: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Não estruturados

– Sem tipo predefinido;

– Não possuem estrutura uniforme (ex. Documentos, objetos);

– Pouco ou nenhum controle sobre eles;

– Dificuldade de “manipulação” para extração de informação

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

Page 29: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� De onde vem os dados do Big Data?

– Web e Redes Sociais (clicks, cookies, twitter, facebook)

– Mobilidade

– Internet das Coisas (RFID/NFC, Sensores, GPS e Telemetria)

– Biometria (Reconhecimento fácil, impressão digital, dados genéticos)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– Biometria (Reconhecimento fácil, impressão digital, dados genéticos)

– Dados gerados por pessoas (Voz, email, SMS, etc)

– Dados gerados por governos, institutos de pesquisas e empresas

Fonte: Soares, 2012

Page 30: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Dados da WEB

– Maior fonte de Big Data utilizada na atualidade;

– Facilidade para mapear comportamento e fazer predição

– Possui conhecimento importante para tomada de decisão pelas empresas

– Gera informação objetiva e de impacto, que é dificil de se obter sem

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– Gera informação objetiva e de impacto, que é dificil de se obter sem uma comunicação direta

– Possibilidade de captura de diversos tipos de eventos (Compras, visualização de produtos e vídeos, buscas etc)

Fonte: Joyanes, 2013

Page 31: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Dados de Texto

– Tipo mais comum e “simples” de dados

– Origina-se praticamente em todas as fontes de dados do Big Data

– Pode ser tratado como um tipo de dado “Estruturado”

– Estruturado + Muitas fontes = DIFICULDADE

– Possui ferramentas e aparato científico bem estruturado para análise

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– Possui ferramentas e aparato científico bem estruturado para análise

– Processamento de linguagem natural

– Análise sintática

– Mineração de texto

Fonte: Joyanes, 2013

Page 32: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Dados de Sensores

– Peças chave da Internet das Coisas

– Monitoramento Autônomo e Ubíquo

– Complexidade de manipulação dos sensores

– Captura muito influenciada por fatores externos (Ex. Delay)

– Dados normalmente estruturados, mas já há redes de sensores com

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– Dados normalmente estruturados, mas já há redes de sensores com dados não estruturados

Fonte: Joyanes, 2013

Page 33: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Dados de Geolocalização

– Localização e Tempo são dois atributos de grande VALOR (Ex. Google Location History)

– Possibilildades diversas para desenvolvimento de aplicações

– Muito sensível para o Big Data em Volume e Velocidade

– Binômio crítico com relação a questão de privacidade

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– Binômio crítico com relação a questão de privacidade

Fonte: Joyanes, 2013

Page 34: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Dados de RFID e NFC

– Sofrem também efeito da privacidade

– NFC foi criada para comunicação entre objetos próximos e com pouca transmissão de dados

– Inclusão de NFC em celulares mudou a perspectiva do trafégo de dados (Ex. Pagamentos, controle de acesso)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

(Ex. Pagamentos, controle de acesso)

Qual a diferença então entre Redes de Sensores e RFID/NFC?

Fonte: Joyanes, 2013

Page 35: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Fontes e Tipos de Dados

� Dados de Redes Sociais

– Tão complexo que criou um novo ramo na análise de dados: Análise Social

– Volume de dados para análise de um único indivíduo na rede

– Amplitude gerando complexidade: (Ex: Eu -> Meus amigos -> Amigos dos meus Amigos)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

dos meus Amigos)

– Dados crescendo indefinidamente e de forma heterogênea

– Como separar o joio do trigo nesse dilúvio de dados?

Fonte: Joyanes, 2013

Page 36: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Palavra-chave - Tecnologia

IntegraçãoIntegração

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

IntegraçãoIntegração

Page 37: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Palavra-chave – Mercado / Negócios

EstratégiaEstratégia

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

EstratégiaEstratégia

Page 38: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: E a gestão?

O que muda?O que muda?

TOMADA DE TOMADA DE

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

TOMADA DE TOMADA DE DECISÃODECISÃO

Page 39: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: E a gestão?

BIBIx x

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

x x

BIG DATABIG DATA

Page 40: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: E a gestão?

BIBI

• Bases de dados e Datawarehouse

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Cubo OLAP (On-line Analytical Processing)

• Bases de dados e Datawarehouse• Ferramentas OLAP• Mineração de Dados• Sistemas de apoio a decisão• Relatórios • Visualização

Page 41: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: E a gestão?

BI x BIG DATABI x BIG DATADados transacionais Dados transacionais + outros dados

Decisão baseada Decisão baseada em dados em dados passados tempo real

Análise Intuitiva Análise voltada a predição

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Análise Intuitiva Análise voltada a predição

Universo de dados limitado Universo de dados ilimita do

Busca analisar dados Busca aprendizado a partir dos dados

A diferença está nos 3V’sA diferença está nos 3V’s

Page 42: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Estudos de Caso

Vídeo: Vídeo: TheThe age age ofof Big DataBig Data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Vídeo: Vídeo: TheThe age age ofof Big DataBig Data

Fonte: BBC, 2013

Page 43: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Estudos de Caso

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: INFO, 2014

Page 44: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Estudos de Caso

� Ferramenta Match Analytics

– Coleta e Análise de informações de treino e jogos

– Analisa desde esquema tático até informação de precisão de chutes

– Avalia situações de jogo e predizem o melhor treinamento para cada jogador

– Possui interface que facilita o uso inclusive pelos jogadores

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

– Possui interface que facilita o uso inclusive pelos jogadores

– Roda sob a plataforma HANA da SAP

– De quebra, faz análise de redes sociais analisando sentimento de torcedores com relação ao desempenho da equipe e dos atletas

Fonte: INFO, 2014

Page 45: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Estudos de Caso

� ROLLS ROYCE

– Inclusão de sensores nos motores

– Informação em tempo real de peças

– Vantagem competitiva: Substituição de produto por SERVIÇO

� SMART METERS - IBM

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

� SMART METERS - IBM

– Medições de consumo de energia

– Sensores enviam dados em tempo real

– Hábitos de consumo e mudança de estratégias com premiação

– Criação das chamadas Smart Grids

Fonte: JOYANES, 2013

Page 46: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Estudos de Caso

� GOOGLE - FluTrends

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: GOOGLE

Page 47: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Estudos de Caso

� GOOGLE - FluTrends

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: GOOGLE

Page 48: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O 4 desafios do Big Data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: AMAZON AWS

Page 49: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Os 4 desafios do Big Data (Atividade)

� Dividir a turma em grupos de 5 alunos

� Cada grupo será responsável por estudar uma ferramenta específica e preparar uma apresentação para discussão em sala

� Ferramentas de Aquisição (Facebook Scribe, FluentD, Apache Flume, Apache Chukwa)

� Ferramentas de Aquisição de uma API (Facebook Likes, Tweets, Google Analytics)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Google Analytics)

� Crawlers (Apache Nutch, Crawler4J, Scrapy (python), Anemone (ruby))

� Armazenamento (Cassandra, Neo4J, MongoDB, Hbase, Redis)

� Análise (Rstudio, Matlab, Julia, Ipython)

� Processamento de Stream (Splunk, Amazon Kinesis)

Page 50: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: 2° Dia – 18/09/2014

InfraestruturaInfraestrutura de BIG DATAde BIG DATA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

InfraestruturaInfraestrutura de BIG DATAde BIG DATA

Page 51: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Cloud Computing, IoT e SoLoMo

� O que Cloud Computing tem a ver com Big Data?

� Nova infraestrutura para computação sob demanda

� Tornou o Big Data mais próximo da realidade

� Big Data evolui em paralelo com a consolidação da computação emNuvem

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Nuvem

� SoLoMo e IoT convergem com Cloud Computing e Big Data criando novas perspectivas para as empresas

Page 52: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Cloud Computing, IoT e SoLoMo

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: NIST, 2011

Page 53: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Cloud Computing, IoT e SoLoMo

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: CONTROL4.COM

Page 54: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Cloud Computing, IoT e SoLoMo

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: IBM, 2012

Page 55: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Arquitetura de Big Data da Oracle

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Oracle, 2012

Page 56: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Arquitetura de Big Data da Oracle

• Sistema de Armazenamento e Gestão de Dados

• Hadoop Distributed File System (HDFS)

• Cloudera Manager

• Bancos de Dados

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Oracle, 2012

• Bancos de Dados

• Oracle NoSQL

• Apache Hbase

• Apache Cassandra

• Apache Hive (ETL)

Page 57: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Arquitetura de Big Data da Oracle

• Processamento

• MapReduce

• Apache Hadoop

• Integração de Dados

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Oracle, 2012

• Integração de Dados

• Oracle Big Data Connectors, Oracle Loader for Hadoop, Oracle Data Integrator

• Análises Estatísticas

• Oracle Enterprise R

Page 58: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: IHBW, 2012

Page 59: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

Page 60: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Fontes de Big Data

� Dados tradicionais das empresas

� Datos gerados por máquinas (M2M) e Internet das Coisas

� Dados sociais

� Dados de Biometría e genética

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Dados pessoais e dados gerados por pessoas

Page 61: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Bases de Dados

� SQL

� NoSQL (Not only SQL)

� In-memory

� Legadas

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Tendência de DBaaS (Database as a Service)

� Amazon RDS, DynamoDB, SImpleDB, PostgreSQL

� Xeround(MySQL)

� Salesforce Database.com (Oracle)

� Google App Engine (NoSQL)

Page 62: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Datawarehouses e Data Marts

� Surgimento de novos Datawarehouses e Data Marts para tratar dados de Big Data

� Uso massivo de ferramentas de ETL (Extraction, Transformation, Load)

� Novas ferramentas de inteligência de negócio, relatórios e visualizaçãode informações

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

de informações

� Adaptar infraestrutura para soluções Híbridas

� Integrar Hadoop e NoSQL as tecnologias tradicionais

Page 63: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Componentes do Hadoop

� Surgimento de diversas distribuições devido a plataforma ser de códigoaberto

� Necessidade de definir um caminho a seguir

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Integração de Dados

� Movimentação de dados brutos (DB1 + DB2 = DBNew)

� Replicação de dados (Sincronismo)

� Federação de dados (Vários dados separados = Um único dado)

Page 64: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Gov. de Big Data = Gov. de TI + Gov. de Informação + Big Data

� Organização

� Metadados

� Privacidade

� Qualidade dos Dados

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Integração com processos de negócios

� Integração com dados mestres

� Gestão do ciclo de vida da informação

Page 65: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Arquitetura e Governança de Big Data

� Deve se relacionar diretamente com as iniciativas de Governança da Informação já existentes na empresa

� Metadados – Definir bons metadados para evitar dados emduplicidade

� Políticas de Privacidade – Definir políticas de privacidade ao mesmotempo que busca alavancar análise de mídias sociais

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

tempo que busca alavancar análise de mídias sociais

� Qualidade dos dados – Definir o nível de qualidade dos dados (Volume e Velocidade)

� Gerenciamento do ciclo de vida da Informação – Definir bem as políticas de arquivamento (Armazenamento x Custos)

� Manejo – Recrutar grandes administradores de Dados para evitardados inconsistentes (Ex. Setor de Petróleo – adm de dados sísmicos e metadados)

Page 66: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� BD Relacionais

� Largamente utilizados atualmente pelas empresas

� Utiliza relações (tabelas) como elementos básicos

� Tabelas compostas por linhas e colunas

� Faz uso de restrições para manutenção de integridade

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Faz uso de restrições para manutenção de integridade(chaves)

� Utiliza NORMALIZAÇÃO

� SQL é a linguagem de consulta

� Os SGBDs relacionais implementam outras funções(controle de concorrência, segurança, controle de transações, recuperação de falhas etc)

Page 67: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� BD Relacionais – Limitações

ESCALABILIDADE

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

é a maior

Page 68: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� BD Relacionais – Limitações

Servidor

BD

Servidor

BD

ServidorServidor

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Ricardo Brito - UFC, 2012

BD BD BD

Aplicação

Page 69: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� BDs No SQL

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Page 70: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� BDs No SQL

� De volta ao passado… (Sistemas de Arquivos)

� Estrutura mais flexível

� Melhor adaptado para questões de escalabilidade

� Não veio para acabar com o Modelo Relacional

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Não veio para acabar com o Modelo Relacional

� Abandonou a NORMALIZAÇÃO

� São livres de esquemas de tabelas e sem JOINs

� Iniciou em 2004 Big Table (Google), 2007 Dynamo (Amazon), 2008 Cassandra (Facebook)

� Escalabilidade Linear, Acesso rápido, Manipulação de dados não estruturados

Page 71: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Dividida em 4 Categorias

� Orientadas a Chave-valor

� Orientadas a documentos

� Orientadas a colunas (BigTable)

� Orientada a grafos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Orientada a grafos

Page 72: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Imasters

Page 73: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas a chave-valor

� Uso do conceito de tabela hash (chave única identificando

um valor)

� Simplicidade

� Maior escalabilidade

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Maior escalabilidade

� Consultas O(1) independente do volume de dados

� Problemas???

Page 74: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Entendendo Tabela Hash

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Prof. Thales Castro, 2011

� Exemplo:

Page 75: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas a Chave-Valor

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Page 76: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas a documentos

� Parecido com o modelo chave-valor, porém mais complexo

� Contém todas as informações em um único documento

� Consulta utilizando métodos avançados (MapReduce)

� Livres de Esquemas

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Livres de Esquemas

� Utiliza identificadores únicos universais (UUID)

� Usa JSON (JavaScript Object Notation) para intercâmbio de dados

Page 77: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas a documentos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Yuri Adams, 2011

Page 78: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas a documentos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Page 79: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas colunas (BigTable)

� Keyspace = Databases / Schemas

� Colum Family = Tabelas

� Colunas = Registros

� Um mega BD Chave-valor

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Um mega BD Chave-valor

� Ponto forte: Velocidade e Escalabilidade

� Ponto fraco: Complexidade na forma de armazenamento

Page 80: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas colunas (BigTable)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Otávio Gonçalves, TDC 2012

Page 81: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas colunas (BigTable)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Page 82: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas a grafos

� Armazenamento em forma de grafos (nós e arcos)

� Possui ACID (Atomicidade, Consistência, Isolamento, Durabilidade)

� Os dados do registros são armazenados nos vértices

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, 2013

� Os dados do registros são armazenados nos vértices

� Os relacionamentos são armazenados nas arestas

� Muito utilizado em redes sociais

� Utiliza a teoria dos grafos para obter informações

� Flexibilidade em quantidade de atributos e longitude de buscas

� Relacionamentos fazem parte dos dados, não da estrutura

Page 83: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Eder Ignatowicz, 2012

Page 84: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados orientadas a grafos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Page 85: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory

� Avanços na tecnologia de memórias

� Aumento da capacidade associada a redução de custos

� Necessidade de acelerar buscas, leitura e gravação em BD

� Arquitetura distinta da que utiliza discos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

� Redução considerável do tempo de processamento

� Bom para grandes volumes de dados

� Usa memória principal para armazenamento

� Objetivo: Responder em tempo real sem ter que perder tempo acessando discos (LENTO)

Fonte: Joyanes, 2013

Page 86: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory

� Duas categorias principais:

� Tecnologia In-memory pura

� Carrega todos os dados na Memória RAM antes de utilizar

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

� Tecnologia in-memory just-in-time

� Carrega somente os dados necessários para umaconsulta particular

� Libera os dados de acordo com o padrão de uso

� JIT + Bases de Dados em colunas = MaiorDesempenho

Fonte: Joyanes, 2013

Page 87: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Por que na memória?

Barramento de altavelocidade conectado

diretamente ao

processador

MEMÓRIA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: IBM, 2012

XDISCOS

Um ou mais barramentos

Page 88: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory – Propriedades

� ACID

� Atomicidade: Transações atômicas (Se falha parte, falha o todo e BD não se altera);

� Consistência: Transações não alteram a consistência do BD (Respeitar integridade – Ex: chaves);

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

(Respeitar integridade – Ex: chaves);

� Isolamento: Uma transação não pode interferir em outra (Paralelo= Sequencial);

� Durabilidade: Depois de confirmada uma transação devepermanecer confirmada;

Fonte: WIKI

Page 89: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory – Propriedades

� Armazenamento em colunas – Recuperação de Informação

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013

Page 90: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory – Propriedades

� Armazenamento em colunas – Recuperação de Informação

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013

Page 91: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory – Propriedades

� Armazenamento em colunas – Recuperação de Informação

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013

Page 92: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory – Propriedades

� Armazenamento em colunas – Recuperação de Informação

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013

Page 93: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory – SAP HANA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: SAP, 2012

Page 94: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory – SAP HANA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: SAP, 2012

Page 95: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Bases de Dados - Relacionais, NoSQL e in-memory

� Bases de Dados in-memory – SAP HANA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: SAP, 2012

Page 96: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

“The Apache Hadoop software library is a framework that allows for the distributed

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

framework that allows for the distributed processing of large data sets across clusters

of computers using a simple Programming model

(Divide to Conquer)

Fonte: https://under-linux.org/entry.php?b=2603

Page 97: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

� Origem do Hadoop

� Lê um 1TB em 1 disco = 200 seg, em 100 discos em paralelo= ~ 2 seg

� Pesquisas do Google de novos métodos para acesso a informação, tratamento de grandes volumes de dados e processamento paralelo geraram 3 artigos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

processamento paralelo geraram 3 artigos

� “The Google File System (GFS)”

� “MapReduce: Simplified Data Processing on Large Clusters”

� “Big Table: A Distributed Storage System for Structured Data”

Page 98: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

� The Google File System

� Sistema de arquivos distribuído e escalável para aplicações com grandes volumes de dados distribuídos

� Tolerante a falhas e que pode ser executado a partir de hardware convencional e barato

� Entrega alto rendimento quando está associado a um grande número

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

� Entrega alto rendimento quando está associado a um grande númerode clientes

Page 99: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

� Map Reduce

� Modelo de programação para processamento de grandes conjuntos de dados

� Programas escritos em estilo funcional são paralelizadosautomaticamente

� Executado em cluster de máquinas básicas

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

� Executado em cluster de máquinas básicas

� Responsável pelo particionamento dos dados de entrada, divisão entre as máquinas do cluster, gerenciamento de comunicação e falhas

Page 100: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O algoritmo MapReduce

� Baseado no conceito de Dividir para Conquistar

� GRID COMPUTING

� Várias implementações existentes: Hadoop, Disco, Skynet, FileMap e Greenplum;

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: https://under-linux.org/entry.php?b=2603

Page 101: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Algoritmo MapReduce

� 1. Seleciona os dados de entrada

� 2. Aplica as duas operações em sequência (MAP/REDUCE)

Dividido em 3 passos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

� 3. Recupera os dados de saída e obtém a resposta

Page 102: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Algoritmo MapReduce

� Divide uma tarefa em pedaços menores (MAP);

� Envia as tarefas para os servidores (MAP);

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

� Coleta os resultados das tarefas (REDUCE);

� Processa os resultados obtendo uma resposta única (REDUCE)

Fonte: https://under-linux.org/entry.php?b=2603

Page 103: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Algoritmo MapReduce

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Fabiane Nardon, 2013 - QconSP

Page 104: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Algoritmo MapReduce

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: https://under-linux.org/entry.php?b=2603

Page 105: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Algoritmo MapReduce

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Fabiane Nardon, 2013 - QconSPFonte: Fabiane Nardon, 2013 - QconSP

Page 106: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

� Big Table

� Sistema de armazenamento distribuído para gestão de dados estruturados

� Muitos projetos do Google usando BigTable

� Desenhado para ser escalável até ordem de petabytes através de milhares de servidores

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

milhares de servidores

� O artigo descreve detalhes da plataforma;

� Várias bases de dados comerciais atualmente seguem característicasdesse modelo (CouchDB, MongoDB, Cassandra, Neo4J, Hypertable)

Page 107: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

� Inicialmente era uma implementação open source do MapReduce

� A medida que o projeto foi amadurecendo foram incorporadosoutros componentes para melhorar usabilidade e funcionalidade;

O que é ???

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: APACHE HADOOP

� Hoje é tido como o Ecossistema completo para resolver de modoeficiente e econômico a escalabilidade de dados

� Open source, escrito em Java

� Originalmente construído para a distribuição do projeto do motor web Apache Nutch

Page 108: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Composto pelos módulos:

• Hadoop Common• Hadoop MapReduce

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Apache Hadoop

• Hadoop MapReduce• Hadoop Distributed File System (HDFS)• Hadoop YARN

Page 109: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Composto pelos módulos:

•Hadoop Common : The common utilities that support the other Hadoopmodules.

• Hadoop Distributed File System (HDFS™) : A distributed file system

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Apache Hadoop

• Hadoop Distributed File System (HDFS™) : A distributed file system that provides high-throughput access to application data.

• Hadoop YARN : A framework for job scheduling and cluster resource management.

• Hadoop MapReduce : A YARN-based system for parallel processing of large data sets.

Page 110: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

O que é HDFS ?

� Sistema de arquivos distribuído

� Alta tolerância a falhas

� Projetado para hardware de baixo custo

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: APACHE HADOOP

� Provê alta vazão de dados

� Escalável

� Portável

� Baseado no Google File System

Page 111: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Como funciona HDFS ?

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: APACHE HADOOP

Page 112: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Como funciona o HDFS ?

� Arquitetura cliente/servidor

� Constituído por um NameNode e vários DataNodes

� Os NameNodes executam as operações no sistema de arquivos, coordena acesso a dados e metadados, mantém o sistema de

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: APACHE HADOOP

coordena acesso a dados e metadados, mantém o sistema de nomes

� Os metadados são mantidos em RAM (Velocidade)

� Organização hierárquica semelhante a outros sistemas de arquivos

� Protocolos HDFS sobre TCP/IP e comunicação através de RPC

Page 113: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Como funciona o HDFS ?

� Arquivos armazenados em blocos, maiores que os sistemas de arquivos normais, normalmente blocos de 64 megas

� Confiabilidade implementada através de replicação de dados entre os DataNodes (3 ou mais)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: APACHE HADOOP

� Não se faz cache de dados devido ao tamanho dos blocos e Streaming

Page 114: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Por que FRAMEWORK ??????

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: APACHE HADOOP

Por que Ecossistema ??????

Page 115: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

� Arquitetura Hadoop – Alto nível

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Hadoop in Practice, 2012

Page 116: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

Page 117: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: http://opensource.com/life/14/8/intro-apache-hadoop-big-data

Page 118: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Hadoop in Practice, 2012

Page 119: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Hadoop - Limitações

� Alta Disponibilidade

� O problema do NameNode único e os problemas de 2 NameNodes

� Segurança

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Hadoop in Practice, 2012

Segurança

� Oferece um modelo de segurança, mas por default está desabilitado;

� Se limita a segurança do HDFS (Permissões e Propriedades)

� Por default, todos os demais serviços do Hadoop são totalmente “abertos”

� Autenticação de clientes e Criptografia de dados devem ser configuradas a parte (Complexidade)

Page 120: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Hadoop - Limitações

� HDFS

� Problemas com Alta Disponibilidade, Arquivos Pequenos e compressão transparente

� MapReduce

� Arquitetura baseada em lotes, ruim para situações de tempo real

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Hadoop in Practice, 2012

� Arquitetura baseada em lotes, ruim para situações de tempo real

� Tarefas que exigem sincronização global e compartilhamento de dados mutáveis não são bons para MapReduce porque é uma arquitetura sem compartilhamento;

Page 121: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Outro projetos associados ao HadoopAmbari™: A web-based tool for provisioning, managing, and monitoring Apache Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari also provides a dashboard for viewing cluster health such as heatmaps and ability to view MapReduce, Pig and Hive applications visually alongwith features to diagnose their performance characteristics in a user-friendly manner.

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: APACHE HADOOP, 2014

Avro™: A data serialization system.

Cassandra™: A scalable multi-master database with no single points of failure.

Chukwa™: A data collection system for managing large distributed systems.

HBase™: A scalable, distributed database that supports structured data storage for large tables.

Page 122: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: O framework Hadoop

Outro projetos associados ao HadoopHive™: A data warehouse infrastructure that provides data summarization and ad hoc querying.

Mahout™: A Scalable machine learning and data mining library.

Pig™: A high-level data-flow language and execution framework for parallel computation.

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: APACHE HADOOP, 2014

computation.

Spark™: A fast and general compute engine for Hadoop data. Spark provides a simple and expressive programming model that supports a wide range of applications, including ETL, machine learning, stream processing, and graph computation.

ZooKeeper™: A high-performance coordination service for distributed applications.

Page 123: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: 3° Dia – 19/09/2014

Análise de BIG DATAAnálise de BIG DATA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Análise de BIG DATAAnálise de BIG DATA

Page 124: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Análise de Big Data

� O que é ?

� “É o processo de examinar grandes quantidade de dados de uma variedade de tipos para descobrir padrões ocultos,

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

uma variedade de tipos para descobrir padrões ocultos, correlações desconhecidas e outras informações de interesse de forma que essas informações possam trazer vantagens competitivas num ambiente de negócios”

Page 125: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Análise de Big Data

� Oportunidades e Desafios

� Área de maior complexidade no universo de Big Data

� Fortemente baseada em modelos estatísticos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

� Fortemente baseada em modelos estatísticos

� Exige recursos humanos muito especializados

Page 126: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Análise de Big Data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: EMC, 2013

Page 127: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Análise de Big Data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Page 128: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: 4° Dia – 20/09/2014

Tendências de BIG DATATendências de BIG DATA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Tendências de BIG DATATendências de BIG DATA

Page 129: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: No

vas Tend

ências

Mídias SociaisMídias SociaisMídias SociaisMídias Sociais

MobilidadeMobilidadeMobilidadeMobilidade

Big DataBig DataBig DataBig Data

Esp

ecialização em

AR

QU

ITE

TU

RA

DE

NU

VE

M –

Big

Data –

Set/2014

CloudCloudCloudCloud

Mídias SociaisMídias SociaisMídias SociaisMídias Sociais

MobilidadeMobilidadeMobilidadeMobilidade

Big DataBig DataBig DataBig Data

Fonte

: Gartn

er, 2

013

Page 130: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Novas Tendências

� A convergências dessas 4 forças estão gerando:

� Mudança de comportamento dos usuários

� Criando novos modelos de negócios

� Mudando a forma de decidir das empresas e de se relacionar com os clientes

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Gartner, 2013

com os clientes

� Consumidores mais ativos e com relacionamento mais próximos das empresas, obrigando mudança de cultura organizacional

Page 131: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Novas Tendências

� Soma-se a isso novas tendências tecnológicas, sociais, econômicas e de consumo

� BYOD (Bring Your Own Device)

� Gamificação

� Crowdsourcing

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Gartner, 2013

� Crowdsourcing

� Crowdfunding

� Consumerização (Apontada pelo GARTNER como mais significativa nos próximos 10 anos)

Page 132: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Novas Tendências

Vídeo: Vídeo: ConsumerizaçãoConsumerização

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Gartner, 2013

Vídeo: Vídeo: ConsumerizaçãoConsumerização

Page 133: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Novas Tendências

� Soma-se a isso novas tendências tecnológicas, sociais, econômicas e de consumo

� BYOD (Bring Your Own Device)

� Gamificação (Ex. programa de milhagens)

� Crowdsourcing

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Gartner, 2013

� Crowdsourcing

� Crowdfunding

� Consumerização (Apontada pelo GARTNER como mais significativa nos próximos 10 anos)

Page 134: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Big Data tendências

� Tim O´Reilly criador da Web 2.0 e CEO da editora O´Reilly publicou através da conferência Strata as 5 grandes predições para o Big Data

� 1ª Arquitetura Padrão para Big Data

� Decisões de melhores ferramentas para determinados propósitos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Gartner, 2013

� Decisões de melhores ferramentas para determinados propósitos

� Definição de regras apropriadas para BD Relacional, Hadoop, NoSQL e in-memory

� Métodos para combinar datawarehouses existentes e bases com Hadoop

Page 135: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Big Data tendências

� Tim O´Reilly criador da Web 2.0 e CEO da editora O´Reilly publicou através da conferência Strata as 5 grandes predições para o Big Data

� 2ª : Hadoop não será a única “oferta” profissional

� Surgimento de novas ferramentas para processamento de grandes

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Gartner, 2013

� Surgimento de novas ferramentas para processamento de grandes volumes de dados

� Ferramentas de nicho

� Suporte aos dados através de uma linguagem universal estilo SQL

� 3ª : Unificação de Plataformas de Big Data

� Objetivo de reduzir tempo de processamento em cluster Hadoop

Page 136: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Big Data tendências

� Tim O´Reilly criador da Web 2.0 e CEO da editora O´Reilly publicou através da conferência Strata as 5 grandes predições para o Big Data

� 4ª: Governança como centro das atenções

� Segurança dos dados

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Gartner, 2013

� Segurança dos dados

� Consistências dos dados

� Compliance regulatório

� 5ª: Surgimento de Soluções de Análise FIM a FIM

� Fácil de utilizar

� Universais

Page 137: Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014

.:: Big data em 2020

� Visão 360º

� Insights = 10% estruturados + 90% interação humana

� Engines de recomendação terão uma visão global de preferências, sentimentos e estado atual dos indivíduos

� Identificação de padrões futuros de forma independente

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Gartner, 2013

� Identificação de padrões futuros de forma independente