os cinco vs do big data

5 Vs do Big Data

Como as soluções de Big Data têm revolucionado o mercado mundial

Sobre a Semantix

• Startup B2B• Fundada em 2007. Open Source desde 2010.• Parceira da LucidWorks e da Cloudera• Possui profissionais certificados Cloudera– Apenas 12 brasileiros, dos quais 3 vivem fora do

Brasil.• Especializada em busca, recomendações,

machine learning, processamento de linguagem natural e web semântica.

Nossos Serviços

• Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais.

• Consultoria Open Source personalizada com profissionais certificados.

• Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search.

• Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.

Entre em contato!

Leo OliveiraCTO & Co-Founderwww.semantix.com.brloliveira@[email protected]

Skype: lennydaysTwitter: @SemantixBRFacebook: www.facebook.com/SemantixBRLinkedIn: http://www.linkedin.com/in/leonardodiasLinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil

http://www.semantix.com.br/

mailto:[email protected]


http://www.facebook.com/SemantixBR

http://www.linkedin.com/in/leonardodias


http://www.linkedin.com/company/semantix-brasil


Agenda

Virtude

Volume

Variedade

Velocidade

Valor

Parte 1: Volume

Parte 1: Ponta do Iceberg

99% dos dados estão “debaixo d’água” e não são utilizados nas empresas

Parte 1: Onde colocar tanta informação?

Parte 1: Como processar tanta informação?

• Em 2007, o Google processava 400 PB de dados por mês;

• Em 2010, o Facebook processava 100 PB por mês;

• Tecnologia de Big Data é usada por todos os grandes players de internet.

• A partir de 2006, empresas de outros ramos passam a adotar soluções de Big Data nos EUA.

Parte 1: Como tudo começou?

“We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.”


• Google precisava:• Gravar grandes volumes de dados não-estruturados (páginas HTML);• Processar essas páginas para buscar as citações (links) e calcular o

PageRank dessas páginas de acordo com as citações;• Criar um mecanismo de busca que utilizasse regras de busca textual (TF-

IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.


• Google percebeu que:• Informações não cabiam num único servidor;• Servidores quebram eventualmente;• Não existiam mecanismos que pudessem armazenar informações não-

estruturadas ou estruturadas de forma horizontal.


• Google criou:• Google File System: sistema de arquivo distribuído entre vários servidores

que dividia os arquivos em blocos e, posteriormente, gravava cada bloco repetido em 3 máquinas diferentes para diminuir bastante a chance de perda de dados;

• MapReduce: criou um framework que facilitaria para os desenvolvedores extrair informação de dados armazenados no Google File System, de forma paralelizada para aumentar a velocidade

• Engenheiros do Google publicaram papers sobre o GFS e sobre o MapReduce nos anos de 2003 e 2004.


• Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio mecanismo de busca.

• Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena e indexa páginas na web.

• Se depara com o mesmo problema do Google: máquinas quebram.• Solução? Escrever um novo sistema baseado nos papers publicados pelos

engenheiros do Google. É criado o Hadoop Distributed File System, ou HDFS.• Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com

uma licença Open Source da Fundação Apache.• Surge também uma database NoSQL inspirada em outro projeto do Google, o

BigTable, chamada HBase.


• Não é a única ferramenta de Big Data, mas é a mais utilizada no mercado atualmente.

• Já possui conectores com grandes ferramentas de BI e analytics• Usado também para processamento semântico• Escala horizontalmente para Petabytes de dados• Cria novas necessidades de administração e novos perfis de desenvolvedores

ambientados no MapReduce• Novos sistemas de abstração de complexidade do MapReduce, como Hive (SQL)

e Pig.

HDFS + MapReduce = HADOOP


Podemos adicionar à lista também as ferramentas Solr (2006) e ElasticSearch (2010) como databases NoSQL com modelo de documentos

e voltadas para Search. Também são ferramentas de Big Data.

Parte 2: Variedade

Parte 2: Exemplos• Processar imagens de fotos para encontrar textos e catalogá-los

(MapReduce);• Fazer um “join” de dados de log do servidor web com tabelas do banco

de dados para fazer uma análise do que cada usuário está navegando no site (Pig, Hive);

• Buscar em logs de eventos de transações financeiras possíveis anomalias para detecção de fraude (Pig, Hive, MapReduce);

• Analisar o comportamento de milhões de usuários em um determinado serviço para construir data products (Pig, Hive, MapReduce, Tableau, QlikView, R);

• Criar mecanismos de machine learning a partir de avaliações de usuários feitas a produtos ou serviços para gerar recomendações inteligentes (Mahout, R, Octave, MatLab, Streaming);

• Fazer consultas semânticas de texto complexas utilizando ferramentas adequadas e obtendo rápidos resultados tanto para buscas quanto para recomendações inteligentes (Solr, ElasticSearch, Lucene);

Parte 3: VelocidadeAssumption 3: A data set fits on one machine...

Parte 3: A metáfora da colméia

Parte 3: Novos paradigmas

• Sistemas que utilizam muito memória RAM e logs de transações para aumentar a performance e garantir a confiabilidade;

• Computação paralelizada• Escalabilidade de petabytes, em vez de gigabytes• Armazenamento e processamento distribuído• Sistemas de Big Data aumentam a capacidade de sistemas

existentes em vez de substituí-los• Em alguns casos é possível substituir bancos transacionais para

algumas aplicações utilizando bancos de dados NoSQL como Riak, Voldemort, Hbase, Cassandra, MongoDB, Solr, ElasticSearch dentre outros

• Cada ferramenta de Big Data tem a sua especialização. É necessário conhecer mais do que uma para tirar vantagens.

Parte 4: Virtude

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Simplicidade: “É preciso trabalhar duro para fazer o simples.” Steve

Jobs.

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Generosidade: investir sem uma

expectativa de retorno imediata, mas com retorno

no longo prazo

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Caridade: compaixão,

entendimento dos clientes, política de privacidade,

esclarecimento do público

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Vontade: os profissionais

envolvidos devem ter muita vontade

de manipular dados. Data

jujutsu.

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Prudência: novamente os

limites da ética. Exemplo do câncer

e da Angelina Jolie. Big Data pode mudar

muitas coisas.

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Paciência: é preciso paciência. Desenvolver para Big Data lidar com exceções e muito trabalho amostral é realizado antes

do final.

Parte 4: Virtude

Simplicidade

Generosidade

Caridade

VontadePrudência

Paciência

Humildade

Humildade: Big Data é uma forma

de autoconhecimento. É necessário ter humildade para aceitar o que os dados mostram.

Parte 5: Valor

Parte 5: Valor

“A vida é a flor da qual o amor é o mel”.

Victor Hugo

Parte 5: Morgan Stanley

• Análise de Portfolio:• Sistemas de database e de grid tradicionais não funcionam• Construíram um sistema baseado em Hadoop com uma infraestrutura barata• Arquitetura escalável para processar dados ainda maiores

• Detecção de fraude:• Análise de logs de banco de dados comparada com análise de logs web• Dados alterados no banco sem correspondência na web ligam um alerta• Economia de bilhões em fraudes.

Fonte: http://www.forbes.com/sites/tomgroenfeldt/2012/05/30/morgan-stanley-takes-on-big-data-with-hadoop/

Parte 5: Facebook

• Real-Time Big Data Analytics:• Arquitetura MapReduce não é suficiente por não ser real-time• Utilizou soluções que armazenam dados em memória para exibir informações

sobre opções “curtir”• Coloca 80% dos dados em memória• RAM é 100 a 1000x mais rápida do que disco• Coloca o código onde estão os dados• Armazena os dados persistentes após serem processados em bancos como

MySQL, HBase e Cassandra

Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy

Parte 5: Crossbow

• Genoma e testes genéticos por menos de 100 dólares• Arquitetura MapReduce para processar genes• Michael Schatz desenvolveu o sistema para fazer testes genéticos por menos

de 100 dólares• Expectativa de uso na ajuda de prevenção de doenças e pesquisa genética• Técnicas: detecção de padrões, classificação e cálculo de probabilidades.

Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy

Parte 5: Netflix

• Série House of Cards• A partir da análise de navegação e reviews, Netflix percebeu que poderia

criar uma série de sucesso;• Viu que Kevin Spacey tinha grande aceitação a partir da análise de dados;• Entendeu que thrillers políticos tinham grande apelo com o seu público;

• Recomendação de filmes• Utiliza machine learning com técnicas de filtro colaborativo e k-nearest

neighbor.• Recomenda filmes com precisão com um catálogo gigantesco. No Brasil o

catálogo é menor, mas ainda assim a precisão é muito boa.

Fonte: http://www.fastcodesign.com/1671893/the-secret-sauce-behind-netflixs-hit-house-of-cards-big-data

Parte 5: LinkedIn

• Criou uma série de data products baseados em Hadoop como:• “People you may know” (2 pessoas)• “Year in review email” (1 pessoa, 1 mês)• “Network updates” (1 pessoa, 3 meses)• “Skills and Endorsements” (2 pessoas)• LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes

projetos”.

Fonte: http://www.slideshare.net/joseph_adler/how-to-win-friends-and-influence-people-with-hadoop

Parte 5: Amazon

• O grande segredo da Amazon: recomendações• Recomendações por e-mail• Recomendações no momento da compra• Compras casadas• Análise do comportamento dos usuários

Fonte: http://tech.fortune.cnn.com/2012/07/30/amazon-5/

Parte 5: Obama

• Análise de sentimento no Twitter e exército de apoiadores no Facebook• Levantamento de dados de mídias sociais• Análise de sentimento• Alcançar o eleitor certo na hora certa• Diversas técnicas de data science sendo utilizadas

Fonte: http://gigaom.com/2012/12/08/how-obamas-data-scientists-built-a-volunteer-army-on-facebook/

Parte 5: Ford

• Análise da cadeia de suprimentos e de que features colocará em cada carro• Comportamento dos usuários• Comportamento de compra• Integração com smartphones nos veículos• Carros melhores com dados analisados• Natural Language Processing para analisar comentários e sugestões de

usuários

Fonte: http://gigaom.com/2013/04/26/how-data-is-changing-the-car-game-for-ford/

Parte 5: Aetna

• Plano de saúde está analisando os seus clientes para oferecer mais saúde e prever doenças• Resultados de exames• Consultas médicas (grafo)• Prevenção de câncer

Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/

Parte 5: Globo.com

• Recomendação de notícias• Recomendação de notícias personalizada para usuários ou de acordo com os

artigos• Utiliza Hadoop, Mahout e Solr• Mais de 100 Gb por dia de log processados• Um dos maiores sites do Brasil em termos de audiência• Cliente Semantix de Big Data


Parte 5: Doinet.com.br

• Busca de documentos• Mais de 90 milhões de documentos• Consulta com relevância• Cada documento podendo conter mais de 1000 páginas de dados• Formatos variados (PDF, Texto)• Recomendação de conteúdo.


Parte 5: Catho

• Mais de 10 data products de:• Busca (vagas, CVs, Empresas etc)• Recomendação por e-mail• Recomendação no site• Geração de conteúdo• Mais de 4 milhões de currículos• Utiliza Solr para os seus aplicativos de busca.


Parte 5: Como extrair valor?

• Capacitação profissional• Formação de novos Data Scientists• Capacitação nas novas tecnologias• Entendimento das tecnologias para melhor escolha de custo-benefício

• Criação de projetos• Data Scientists criam Data Products

• Data Analytics (dashboards, análises complexas, dados na íntegra em vez de amostras)

• Servidores de Busca• Aplicativos e softwares• Machine Learning

• Fim dos relatórios “executivos” tradicionais• Entrega de produtos que podem ser analisados pelos executivos de forma ad-

hoc e não mais os antigos relatórios impressos• Mudança de cultura em toda a empresa para uma readaptação à nova

realidade.

Parte 5: E a infra?

• Prepare-se para a escalabilidade horizontal.• Privada

• Custos com data center• Masters x Slaves

• Masters requerem muita memória, mas pouco disco, com RAID e gravando dados em NFS para não perder nada.

• Slaves requerem menos memória e CPU e muitos discos. Não vale a pena usar RAID. O melhor é JBOD: Just a Bunch of Disks.

• Pública• AWS (EC2 e EMR)• Azure• Escalabilidade On-Demand

Parte 5: Sem SQL?

• NoSQL no Hadoop: Impala• Capacidade de executar queries SQL em Real-Time• Habilita conservação de dados na memória RAM do Cluster• Consultas complexas de SQL usando álgebra relacional, em vez de

MapReduce (diferente do Hive)• Lançado em 2013

Parte 5: Search & Recommendation

• Solr 4 ou SolrCloud– Escalabilidade horizontal– Habilidade e versatilidade em consulta de dados– Orientada a documentos– Capaz de alimentar sistemas de análise, pois possui

ótimo sistema de agregação de dados (facets)– Alta disponibilidade aliada a alto poder de busca– Foi incorporado pela Cloudera recentemente como

ferramenta para consultar dados em larga escala.

INFINITAS POSSIBILIDADES

Sobre a Semantix

• Startup B2B• Fundada em 2007. Open Source desde 2010.• Parceira da LucidWorks e da Cloudera• Possui profissionais certificados Cloudera– Apenas 12 brasileiros, dos quais 3 vivem fora do

Brasil.• Especializada em busca, recomendações,

machine learning, processamento de linguagem natural e web semântica.

Nossos Serviços

• Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais.

• Consultoria Open Source personalizada com profissionais certificados.

• Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search.

• Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.

Entre em contato!

Leo OliveiraCTO & Co-Founderwww.semantix.com.brloliveira@[email protected]

Skype: lennydaysTwitter: @SemantixBRFacebook: www.facebook.com/SemantixBRLinkedIn: http://www.linkedin.com/in/leonardodiasLinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil

http://www.semantix.com.br/



http://www.facebook.com/SemantixBR





os cinco vs do big data

Technology

em datas especiais

entre em contato

parceira da

como tudo

especializada

br faleconoscosemantix

br loliveirasemantix

google file