apresentação apache tajo
TRANSCRIPT
Universidade Federal de Alagoas (UFAL)
Instituto de Computação (IC)
Apache Tajo
Michel de S. Miranda
E-mail: [email protected]
10/06/2014
Roteiro …
o O que é o Apache Tajo;
o Quem Utiliza;
o Instalação;
o Linguagem de Manipulação de Dados;
o Apresentação e;
o Demonstração em uma Base de Dados.
2
Apache Tajo ...
• É um sistema de armazenamento de dados relacional e distribuídos para
Hadoop;
• Projetado permite a consultas de baixa latência e escaláveis;
• Agregação on-line;
• ETL (extract-processo de transformar-carga) em conjuntos de dados
armazenados no HDFS (Hadoop Distributed File System) e outras fontes
de dados.
3
Apache Tajo ...
• Características:
1. Rápido e Eficiente;
2. Escalável;
3. Compatível e;
4. Fácil.
4
Apache Tajo ...
• Características: Rápido e Eficiente:
Totalmente distribuído em mecanismo de processamento de consulta SQL;
Otimização de consulta avançada e;
Análise interativa em conjunto de dados razoável.
5
Apache Tajo ...
• Características: Escalável
A tolerância a falhas e programação dinâmica para consultas de longa
duração e;
Possui algoritmos para conjuntos de dados maior do que a memória
principal.
6
Apache Tajo ...
• Características: Compatível
Conformidade com os padrões (ANSI / ISO SQL);
Suporte de acesso Hive MetaStore;
Suporte de driver JDBC e;
Vários formatos de arquivo de apoio, tais como CSV, rcfile, RowFile,
SequenceFile e Parquet.
7
Apache Tajo ...
• Características: Fácil
Funções definidas pelo usuário;
Shell interativo;
Backup e;
Asynchronous / Synchronous Java API.
8
Apache Tajo ...
• História....
Começou em 2010 no Laboratório de Banco de Dados da Universidade da
Coreia;
Entrou no Apache Incubator em Março de 2013 e;
Apache Tajo está em uso em Gruter, Universidade da Coreia, e SK
Telecom.
9
Apache Tajo ...
• História....
Software Apache Tajo é distribuído sobre a licença Apache v2.0;
O software encontra-se na Apache Tajo™. 0.8.0
10
Apache Tajo ...
• Aplicações
o Podemos aplicar o Tajo para analisar grandes conjuntos de
dados em tempo real.
Controle de trafego aéreo;
Telecomunicações;
Sistemas Financeiros;
Entre outros.
12
Apache Tajo ...
• Instalação Parte I – Downloads e Instalação dos Softwares
1. VM;
2. Maven 3.1;
3. Java 1.6
4. Make
5. Protocol buffer 2.5.0
6. Versão 2.4 do Radoop;
7. Tajo 0.8.0;
15
Apache Tajo ...
• Instalação Parte II – Configuração
1. TAJO_HOME;
2. JAVA_HOME e;
3. HADOOP_HOME.
16
Apache Tajo ...
• Demonstração em uma Base da Dados
o Dados Abertos do Brasil
o Unidade Básica de Saúde
o Atualizada em 04/2013
o A base possui 37691 linhas
o Disponível em: ABD
22
Referências
• Apache Tajo. Disponível em:<http://tajo.apache.org/>. Acessado
em 06 de Junho de 2014.
• The Apache Software Foundation Announces Apache™ Tajo™
as a Top-Level Project. Disponível em: <http://citrix.ulitzer.com/no
de/3036803>. Acessado em 06 de Junho de 2014.
• Máquina Virtual Linux com o Apache Tajo instalado e
configurado para uso. Disponível em:<https://www.dropbox.com/s/
10i401f54vxrfrb/micheldefault140214158885393776.rar>.