o futuro do big data
DESCRIPTION
My impressions about the next years future for Big Data and Data Science. Next few years we're going to see an increase in Real Time techniques, with new industries starting to use Big Data techniques. Apresentação dada para o evento de finalização do curso de Big Data da FIA. Nele falo sobre minhas impressões sobre o futuro do Big Data, e como vamos ver o aumento de técnicas de Real Time, como novas industrias no Brasil adotando técnicas de Big Data.TRANSCRIPT
![Page 1: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/1.jpg)
O Futuro do Big Data
![Page 2: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/2.jpg)
![Page 3: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/3.jpg)
O Futuro do Big Data
• Pesquisa Cientifica (LHC, Genética, Meteorologia) • Mercado Financeiro • Cultura (Literatura,Jornais, Netflix) • Processos industriais • … e a internet! !Alguns números: - LHC: 70 TB/dia de dados - NYSE: 1 TB/dia de trading data - Facebook: 1.5 bilhão de likes em marcas por mês - Apontador: 50 milhões de pageviews por mês - Maplink: 1.8 bilhões de coordenadas processadas por mês
age of data
:
-
![Page 4: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/4.jpg)
• Volume de dados gigante
• Grande parque computacional
• Marketing
• Internet
BIG Data
![Page 5: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/5.jpg)
![Page 6: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/6.jpg)
![Page 7: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/7.jpg)
![Page 8: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/8.jpg)
• Baixa do preço do Teraflop
• Criação do MapReduce
mas porque agora?
Processamento:
Armazenamento: • Baixa do preço do MB
• Invenção do NoSQL
![Page 9: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/9.jpg)
• Google AdSense
• Criteo (remarketing)
Onde foi usado até agora?
Publicidade:
Vendas online: • recomendação (Amazon)
Redes Sociaos
• Recomendação de amigos, posts, likes, jogos.
![Page 10: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/10.jpg)
• Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar
• O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
furacão francis
![Page 11: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/11.jpg)
• Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes
• O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
precificação do cartão de crédito
![Page 12: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/12.jpg)
• Seguradora Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas? Lugar, Clima, Preço
• O que posso usar? Histórico do clima no mundo Histórico de colheitas Informações de solo, localização
seguro de colheitas
![Page 13: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/13.jpg)
• Facilmente escalável (embarrassingly parallel) a milhares de TB.
• Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
• Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
![Page 14: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/14.jpg)
• Programação de baixo nível de abstração.
• Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
• Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
• Solução em Batch
13 de 21
Desvantagens do Map Reduce
![Page 15: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/15.jpg)
• Medidas de trânsito Veiculos enviam informação a cada instante.
• O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão)
19 de 21
estimativa de trânsito
![Page 16: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/16.jpg)
o padrão de transito - marginal pinheiros
![Page 17: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/17.jpg)
SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
![Page 18: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/18.jpg)
SOBRE O ROTEIRIZADOR o que recebemos
<Route><Category>1</Category><DateTime>2013-02-01T15:32:27</DateTime><Position xmlns:a="http://schemas.datacontract.org/2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</a:Lng></Position></Route>
![Page 19: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/19.jpg)
BRASIL
snapshot veículos rastreados, 14 nov 2012, 15:00
![Page 20: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/20.jpg)
ESTIMAÇÃO ONLINE DE VELOCIDADES
Disposi&vos móveis
veículos
posições
balanceador de cargas
posições
cálculo de rotas
rotas
es&mação de velocidades
velocidade
servidores de trânsito
mapas
índices
tempo
Centro de cálculo MapLink na nuvem
![Page 21: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/21.jpg)
SOBRE O ROTEIRIZADOR transformando posições em velocidades
![Page 22: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/22.jpg)
SOBRE O ROTEIRIZADOR segmentando os dados
Carros, motos, caminhões Como diferenciar?
![Page 23: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/23.jpg)
SOBRE O ROTEIRIZADOR diferentes usos entre categorias
Velocidade moto => velocidade carro
![Page 24: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/24.jpg)
SOBRE O ROTEIRIZADOR e a velocidade da via?
![Page 25: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/25.jpg)
SOBRE O ROTEIRIZADOR o que recebemos
- Cada update é independente e já traz novas informações - Previsões dependem da situação global - Resultado dos modelos - Altamente interligado
![Page 26: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/26.jpg)
SOBRE O ROTEIRIZADOR
![Page 27: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/27.jpg)
• Adoção em novos setores Industria, Agronomia, Medicina
• Inclusão de fatores de tempo real Trânsito, Energia
• Tecnologia Hadoop? Hadoop2 + Yarn? Spark? RealTime? Storm? Kinesis?
19 de 21
o futuro
![Page 28: O futuro do big data](https://reader034.vdocuments.mx/reader034/viewer/2022052522/5483124cb47959f10c8b4997/html5/thumbnails/28.jpg)
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracterıstica do usuario)
Caio C. Gomes Diretor Big Data e Inovação [email protected]