postgresql em projetos de business analytics e big data analytics com pentaho
TRANSCRIPT
![Page 1: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/1.jpg)
PostgreSQL em um Ambiente Híbrido de Big Data Analytics
Palestrante: Marcio Junior [email protected]
![Page 2: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/2.jpg)
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.
● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.● Fundador e CEO da Ambiente Livre Tecnologia.● Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e
MongoDB.
![Page 3: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/3.jpg)
Sobre a Ambiente Livre
● Fundada em 2004 com foco de atuar em consultoria com software livre.
● 2009 ampliou sua soluções para atender ao mercado de gestão empresarial com software livre.
● Tem 14 soluções distintas para geração de negócios com software livre.
![Page 4: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/4.jpg)
Ecosistema da Ambiente Livre
![Page 5: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/5.jpg)
Alguns clientes
![Page 6: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/6.jpg)
Big Data - Muito se fala...
![Page 7: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/7.jpg)
2005 na apresentação do Papa Bento XVI
![Page 8: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/8.jpg)
2013 na apresentação do Papa Francisco
![Page 9: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/9.jpg)
![Page 10: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/10.jpg)
IoT- Internet of Things
● Internet das Coisas se aplica a comunicação entre objetos e entre estes e a internet, sejam eles físicos ou virtuais.
![Page 11: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/11.jpg)
Elementos do IOT
● Rede de sensores sem fio (RSSF);● Radio Frequency Identification (RFID);● Gateway;● Banco de dados;● Protocolos de rede;● Gerência de processos;● Gerência de rede.
![Page 12: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/12.jpg)
Evolução das Coisas
![Page 13: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/13.jpg)
Big Data
● É um novo conceito se consolidando.● Grande armazenamento de dados e maior
velocidade
![Page 14: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/14.jpg)
Big Data
![Page 15: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/15.jpg)
Os 4 V's
● Velocidade, Volume, Variedade e Valor
![Page 16: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/16.jpg)
Volume
● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB).
● Geralmente dados não estruturados.
● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
![Page 17: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/17.jpg)
Velocidade
● Processamento de Dados● Armazenamento ● Analise de Dados
![Page 18: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/18.jpg)
Variedade
● Dados semi-estruturados● Dados não estruturados● Diferentes fontes● Diferentes formatos
![Page 19: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/19.jpg)
Valor
● Tomada de Decisão● Benefícios● Objetivo
do Negócio.
![Page 20: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/20.jpg)
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de dados que gerenciam
● 60% acreditam que precisam melhorar captura e entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade
fonte : Survey KPMG.
![Page 21: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/21.jpg)
Onde usar Big Data ?● Sistemas de
recomendação
● Redes Sociais
![Page 22: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/22.jpg)
Onde usar Big Data ?
● Analise de Risco (Crédito, Seguros , Mercado Financeiro)
● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento)
● Energia Fotovoltaica(Medições , Estudos, Resultados )
![Page 23: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/23.jpg)
Big Data X BI
● Big Data e uma evolução do BI, devem caminhar juntos
● Data Warehouses são necessários para armazenar dados estruturados
Previsão:● BI – Casos específicos● Big Data – Analise geral
![Page 24: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/24.jpg)
Ferramentas de Big Data
![Page 25: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/25.jpg)
Ecosistema - Hadoop
![Page 26: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/26.jpg)
Distribuições Hadoop
● Open Source Apache
● Comercial Open Source- Cloudera- Hortonworks- MapR- Diversas plataformas de Hadoop em Cloud
![Page 27: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/27.jpg)
O Profissional“Data Scientist”
Novo profissional: Cientista de Dados
![Page 28: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/28.jpg)
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina)
● Estima-se que apenas um terço disso será preenchido. ( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data
● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados
![Page 29: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/29.jpg)
Competências
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
![Page 30: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/30.jpg)
Data LakeData Lake
![Page 31: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/31.jpg)
Data Lake
● Fonte única● Grande Volume● Não Refinado● Pode estar tratado.
![Page 32: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/32.jpg)
Formato Tradicional
Data Mart(s)
Data Source
![Page 33: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/33.jpg)
Requisitos de um Data Lake
● Armazenar todos os dados● Satisfazer relatório e rotinas de analise● Satisfazer ad-hoc query / analises / relatórios● Balanceamento de performance e custo
![Page 34: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/34.jpg)
Arquitetura hibrida de Big Data
Data Mart(s)
Data Source
Data Lake(s)
adhoc Datawarehouse
![Page 35: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/35.jpg)
Arquitetura hibrida de Big Data
Data Mart(s)
Data Source
Data Lake(s)
adhocDatawarehouse
![Page 36: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/36.jpg)
![Page 37: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/37.jpg)
![Page 38: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/38.jpg)
PostgreSQL em nossos projetos
● OLAP ( Online Analytical Processing )● OLTP ( Online Transaction Processing)● Distribuído
BRD Postgres-XL
![Page 39: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/39.jpg)
PostgreSQL em nossos Projetos
● Datawarehouse em Projetos de BI● Bases de negócios Transacionais ( Telefonia,
Monitoramento com Zabbix , Redes de Supemercados, Redes de Varejo )
● Sistema de Gestão de Simuladores de Transito Brasileiro ( MySQL com PostgreSQL )
● Sistemas bancários de analise de crédito
![Page 40: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/40.jpg)
Software Livre
![Page 41: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/41.jpg)
Fundação Apache
● Big Data = Apache = Open Source● Apache é lider e Big Data!● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”●
![Page 42: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/42.jpg)
HBase
● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)
![Page 43: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/43.jpg)
Hive
● Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consultabaseada em SQL para consultar os dados.
![Page 44: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/44.jpg)
PIG
● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.
![Page 45: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/45.jpg)
Mahout
● O objetivo primário de criar algoritmos de aprendizagem por máquina escaláveis de fácil uso comercial para a construção de aplicativos inteligentes
● O Mahout contém implementações para armazenamento em cluster, categorização, CF, e programação evolucionária. Além disso, quando prudente, ele usa a biblioteca Apache Hadoop para permitir que o Mahout escale de forma efetiva na nuvem
● Diversidade de algorítimos
![Page 46: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/46.jpg)
Sqoop
● Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS.
![Page 47: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/47.jpg)
Apache Spark
● 100x mais rápido que Hadoop● Programação com Scala,
Java, Python ou R
![Page 48: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/48.jpg)
Apache Cassandra
● É um tipo de banco nosql que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com.
![Page 49: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/49.jpg)
MongoDB
● MongoDB é uma aplicação open source de alta performance, sem esquemas, orientado a documentos. Foi escrito na linguagem de programação C++. Além de orientado a documentos, é formado por um conjunto de documentos JSON
![Page 50: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/50.jpg)
Titan Grafh
● É um banco de dados gráfico escalável otimizado para armazenar e consultar gráficos contendo centenas de bilhões de vértices e arestas distribuídos através de um cluster multi-máquina.
● Pode suportar milhares de usuários simultâneos executando traversals gráfico complexos em tempo real.
● Suporta aos storages Apache Cassandra, Apache HBase , MapR Tables, Oracle BerkeleyDB (local)
![Page 51: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/51.jpg)
BigSQL
● Projeto Hibrido de Integração de Tecnologias de Big Data com PostgreSQL
![Page 52: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/52.jpg)
● Solução de BI Open Source.● Community Edition● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards, etc)
![Page 53: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/53.jpg)
Pentaho Orquestrando Hadoop
![Page 54: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/54.jpg)
Pentaho Data Integration
![Page 55: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/55.jpg)
![Page 56: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/56.jpg)
![Page 57: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/57.jpg)
Big Data no Brasil
![Page 58: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/58.jpg)
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem.
● Desafios dos Os 5 V !● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
![Page 59: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/59.jpg)
Recomendações
● Comece com o problema , e não com os dados
● Compartilhe dados para receber dados● Suporte gerencial e executivo● Orçamento suficiente● Melhores parceiros e fornecedores
![Page 60: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/60.jpg)
Big Data
● “Big Data hoje é o que era a Linux em 1991. Sabemos que será algo revolucionário, mas não sabemos o quanto...”
Marcio Junior Vieira
![Page 61: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho](https://reader034.vdocuments.mx/reader034/viewer/2022042618/589ff40f1a28ab46598b52a5/html5/thumbnails/61.jpg)
Contatos
● www.ambientelivre.com.br ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre ou @marciojvieira● Blog
blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre