apache hadoop - introdução
Post on 06-Dec-2014
2.690 Views
Preview:
DESCRIPTION
TRANSCRIPT
Introdução
Apache Hadoop
Anne KellyDiógenes Peçanha
Glauco Vinicius
16 de Novembro de 2010
Tópicos
Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas
Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo
90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final
00's ???
O que é NoSQL?
Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal
O que é Hadoop?
Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de
dados através de computadores 'commodity'.
Dois principais componentes
HDFS Map/Reduce
Tolerância a falhasProcessamento distribuído
Auto-recuperaçãoAlto consumo de banda
Armazenamento em cluster
O que torna o Hadoop especial?
Máquinas são confiáveis
Máquinas possuem identidades
Sua análise permanece em apenas uma máquina
Como isso é possível?
Componentes
NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do
NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)
HDFS
O Modelo de Map/Reduce
Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante
Hands on
O que é Hive?
Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces
próprios Ótimo para processamento em lote de
dados imutáveis
O que Hive não é?
Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL
Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time
Hive
Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados
Hands on
Dúvidas?
Referências
Apache Hadoop: http://hadoop.apache.org/ Cloudera: http://www.cloudera.com/
Obrigado!
top related