tcc unime bsi trajano comparando ferramentas etl para dw

Click here to load reader

Post on 10-Aug-2015

114 views

Category:

Documents

2 download

Embed Size (px)

DESCRIPTION

TCC Unime BSI Trajano Comparando Ferramentas ETL Para DW

TRANSCRIPT

UNIO METROPOLITANA DE EDUCAO E CULTURA CURSO DE BACHARELADO EM SISTEMAS DE INFORMAO

TRAJANO CARLOS MONTASSIER NETO

AVALIAO DAS FERRAMENTAS ETL OPEN-SOURCE TALEND E KETTLE PARA PROJETOS DE DATA WAREHOUSE EM EMPRESAS DE PEQUENO PORTE

LAURO DE FREITAS 2012

TRAJANO CARLOS MONTASSIER NETO

AVALIAO DAS FERRAMENTAS ETL OPEN-SOURCE TALEND E KETTLE PARA PROJETOS DE DATA WAREHOUSE EM EMPRESAS DE PEQUENO PORTETrabalho de Concluso de Curso apresentado ao curso de Bacharelado em Sistema de Informaes da UNIME, como requisito parcial para obteno de grau de Bacharel em Sistema de Informao. Orientador: Professor Pablo Passos Nascimento.

LAURO DE FREITAS 2012

AGRADECIMENTOS

Em primeiro lugar, agradeo a Deus, que me deu foras e clareou o meu caminho, ajudando-me a superar as dificuldades e os obstculos, mas no final, fui presenteado por este momento. A minha Me Cecilia (in memoriam), a quem dedico essa realizao e que, durante muitos anos, foi para mim um exemplo de fora e superao. Um especial agradecimento a minha esposa, Rosangela e ao meu filho Vitor, que me apoiaram em todos os momentos desta trajetria. Obrigado por compartilharem comigo essa caminhada; sem essa fora no seria possvel chegar ao fim. Igualmente agradeo aos meus tios Sylvio e Deolinda(in memoriam), sempre presentes na minha vida e responsveis por um apoio incondicional no momento em que mais precisei no incio de minha carreira profissional. Obrigado pelo carinho e o afeto que tm me concedido. Aos familiares e amigos, que estiveram ao meu lado ou de alguma forma fizeram parte desta histria, dando-me foras para superar e no desistir e ainda me ajudando a esquecer as dificuldades desse percurso atravs dos momentos descontrao e alegria em que passamos juntos. Tambm, no menos importante, meu agradecimento direo da empresa Morais de Castro, que me apoiou e me incentivou-me a realizar o curso superior. A todos os Mestres com quem tive o prazer de compartilhar conhecimento nesse perodo, um muito obrigado. E, em especial, ao meu orientador Professor Pablo Passos, que acreditou em meu potencial e, com dedicao e empenho, ajudou-me a realizar este trabalho alm de ser uma figura fundamental nesta orientao desde seu nascimento. Ao Coordenador Jorge Farias, que sempre se mostrou interessado em apoiar e ajudar seus alunos. Por fim, no poderia deixar de agradecer a minha Professora Cristiane Dutra por sua colaborao ajudando a engrandecer o resultado deste trabalho.

RESUMO

Ferramentas de ETL so aplicaes de software cuja funo, em termos gerais, extrair dados de diversas fontes, transformar esses dados para garantir padronizao e consistncia das informaes carreg-los para um ambiente de consulta e anlise, conhecido como data warehouse. As diversas ferramentas de ETL disponveis no mercado atualmente possuem as funes bsicas com caractersticas bem semelhantes e o nvel de sofisticao fica por conta de recursos mais especficos que vo diferenciar umas das outras. Na perspectiva das empresas de pequeno e mdio porte, s quais possuem uma capacidade de investimento em ferramental tecnolgico limitada, as ferramentas ETL open source configuram-se como uma alternativa interessante uma vez que o licenciamento e as atualizaes so gratuitos. Atravs de pesquisas realizadas por organizaes especializadas, foi possvel identificar as ferramentas Kettle e Talend como as mais importantes atualmente no universo das ferramentas ETL open-source. Tal fato expe a necessidade de desenvolver um mtodo para avaliar as ferramentas ETL open-source Talend e Kettle/Pentaho atravs da definio de critrios relativos s caractersticas e funcionalidades importantes para a construo de um projeto de DW. Os resultados de cada um dos critrios foram coletados atravs da utilizao das ferramentas em um estudo de caso prtico no mbito de uma empresa de pequeno porte. Palavras-chave: Ferramenta ETL, Kettle, Talend, CloverETL, Business Intelligence, Data Warehouse.

ABSTRACT

ETL tools are software applications whose function, in general terms, is to extract data from several sources, then transform it to ensure standardization and consistency of information, upload it to an environment of consultation and analysis, known as data warehouse. The several ETL tools available on the market these days have the basic functions with very similar characteristics and the level of sofistication is on more specific features that will differentiate one another. From the perspective of small and medium businesses, which have a limited capacity of investment in technological tools, the ETL open-source tools are an interesting alternative since the licensing and upgrades are for free. Through research conducted by organizations it was possible to identify the Kettle and Talend as the currently most important ones in the world of ETL open-source tools. This fact explains the need to develop a method to evaluate the ETL open-source Talend and Kettle / Pentaho tools by defining criteria pertaining to the characteristics and features that are important to build a DW project. The results of each of the criteria were collected through the use of tools in a practical case study within a small business. Keywords: ETL Tools, Kettle, Talend, CloverETL, Business Intelligence, Data Warehouse.

LISTA DE FIGURAS

Figura 1 O Ambiente de um Data Warehouse................................................................... 19 Figura 2 - Staging Area ou ODS .......................................................................................... 22 Figura 3 Arquitetura de Data Mart Independente ............................................................. 23 Figura 4 Arquitetura de Data Mart Integrado ................................................................... 24 Figura 5 Modelo de Implementao Top Down em Data Mart Dependente .................... 25 Figura 6 Modelo de Implementao Botton Up para Data Mart Independente ................ 27 Figura 7 Modelo Multidimensional Snowflake ................................................................. 30 Figura 8 Modelo Multidimensional Star Schema .............................................................. 31 Figura 9 Representao de Granularidade ......................................................................... 32 Figura 10 - Dimenso que Muda Lentamente Tipo-1 .......................................................... 34 Figura 11 - Dimenso que Muda Lentamente Tipo-2 .......................................................... 35 Figura 12 - Dimenso que Muda Lentamente Tipo-3 .......................................................... 36 Figura 13 - Estratgia de Carregamento de Tabelas de Fatos de Nvel Bsico .................... 37 Figura 14 Representao das Origens de Metadados ........................................................ 40 Figura 15 Modelo Clover Designer ................................................................................... 49 Figura 16 Modelo Talend Open Studio ............................................................................. 53 Figura 17 Modelo PDI / Kettle .......................................................................................... 56 Figura 18 - Ambiente OLAP - Modelagem Esquema Star .................................................. 61 Figura 19 - Ambiente Transacional Modelagem 3FN ....................................................... 62 Figura 20 Menu Conexo Banco de Dados no Kettle/Pentaho ......................................... 63 Figura 21 - Conexo Banco de Dados no Kettle/Pentaho .................................................... 63 Figura 22 Menu Conexo Banco de Dados no Talend ...................................................... 64 Figura 23 - Conexo Banco de Dados no Talend ................................................................. 64 Figura 24 - Movimentao de Dados para Staging Area no Kettle ...................................... 65 Figura 25 - Movimentao de Dados para Staging Area no Talend .................................... 66 Figura 26 Componente tMap do Talend Open Studio Tabela Cliente ........................... 67 Figura 27 Componente tMap do Talend Open Studio Calculo da Margem de Contribuio ......................................................................................................................... 67 Figura 28 Componente Database Lookup do Kettle Tabela Cliente .............................. 68

Figura 29 Componente Calculator do Kettle Calculo da Margem de Contribuio ...... 68 Figura 30 Componente Dimension Lookup/Update do Kettle SCD tipo 1 e 2 .............. 71 Figura 31 Componente tPostgreSqlSCD do Talend SCD tipo 1, 2 e 3 ....................... 72 Figura 32 Componente Database lookup do Kettle Carga Tabela Fato Vendas.......... 72 Figura 33 Componente tMap do Talend Carga Tabela Fato Vendas........................... 73 Figura 34 Modelo do Talend Carga Tabela Fato Vendas ............................................... 73 Figura 35 Exemplo Facilidade para Criar Componentes a Partir de Conexes ................ 75 Figura 36 - Controle de Verso da Transformao no Kettle............................................. 105 Figura 37 - Controle de Verso da Transformao no Talend ........................................... 106 Figura 38 - Consulta Verso de um Trabalho no Talend ................................................... 107 Figura 39 Consulta Histrico das Verses de um Trabalho no Talend ........................... 107 Figura 40 - Controle de Status das Verses de um Trabalho no Talend ......................... 108 Figura 41 Exemplo de Tratamento de Erro no Kettle ..................................................... 109 Figura 42 - Conjunto de Componentes para Manipulao de Erros no Talend ................. 110 Figura 43 - Exemplo Relatrio Anlise de Impacto no Kettle ........................................... 111 Figura 44 - Exemplo de Rastreabilidade