bigd ata - blogs.ifg.edu.brblogs.ifg.edu.br/semanactformosa/files/2014/11/bigdata.pdf · 4...
TRANSCRIPT
2
Tem experiência de mercado nas áreas de Sistemas de Informação,
Engenharia da Computação, Administração por Processos e Gestão da Qualidade,
com ênfase em Mapeamento de Processos, Inteligência nos Negócios (Business
Intelligence - BI) e Teleinformática. Atuação como analista de sistemas e consultor
independente para diversas empresas, principalmente nos temas: Análise e
Desenvolvimento, Sistemas Tutores Inteligentes, Segurança da Informação,
Infraestrutura e Redes de Computadores. Certificado Six Sigma - Lean Green Belt
e Lean Black Belt - liderou e participou de vários projetos Six Sigma. Com os
conhecimentos obtidos em Administração por Processos, já atuou em vários
projetos na área de tecnologia, melhoria da qualidade em empresa do ramo
educacional, entre outros. Atua na área acadêmica há mais de 14 anos como
docente na graduação e pós-graduação, além de ter exercido atividades de gestão
de cursos de graduação e pós-graduação. Atualmente é servidor público federal do
Instituto Federal de Goiás.
Sirlon Diniz de Carvalho, MSc.
3
BIBLIOGRAFIA • Mayer-Schönberger, Viktor; Kenneth, Cukier. Big Data: como extrair
volume, variedade, velocidade e valor da avalanche de informação cotidiana. Rio de Janeiro: Elsevier, 2013.
• Mahrt, M.; Scharkow, M. (2013) The Value of Big Data in Digital Media Research. Journal of Broadcasting & Electronic Media, 57(1), 20-33.
• Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers AH (2011) Big data: the next frontier for innovation, competition, and productivity. McKinsey Global Institute. Disponível em http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_ the_next_frontier_for_innovation. Acesso em 2014-09-01.
• Inmon, W. H., Como Construir o Data Warehouse, Campus, 1997.
• Barbieri, Carlos. BI – Business Intelligence – Modelagem & Tecnologia. Rio de Janeiro: Editora Axel Books, 2001.
• Serra, L., A Essência do Business Intelligence, Berkeley Brasil, 2002.
• Kimball, Ross. "The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition)", Wiley, 2002.
4
Conteúdo da apresentação Dos Sistemas Transacionais ao Big Data • Sistemas Transacionais e sua estrutura de
Dados; • C o n c e i t o d e B a n c o s d e D a d o s
Relacionais; • Dos Dados Transacionais ao Data
Warehouse (DW); • Além dos Dados Transacionais e do DW:
e-mails, informações de tráfego de rede, redes sociais etc.;
• O Big Data e a Business Intelligence; • O agora em Big Data: aplicações e
estudos de Casos; • A imprecisão dos dados (confusão):
ênfase no todo e não no detalhe. Big Data: Volume, Variedade, Velocidade e Valor • Os V’s do Big Data • Aceitando a Confusão: estudos de caso; • A causalidade: sem saber o “porquê”,
apenas “o quê”;
• A Dataficação: quantificação, tabulação e análise;
• Além dos dados estruturados: o valor dos dados não estruturados;
• Valor dos dados: análise de custo e benefício; • Dados: reutilização, recombinação, expansão
e depreciação; • A cadeia de valor do Big Data: Informação,
Especialista de Dados, Pessoas e Empresas com mente Big Data;
• Riscos do Big Data: Privacidade e Punições preditivas;
• Big Data e normas de regulação. Projetos de Big Data • Ferramentas de Big Data; • Dados não estruturados e o NOSQL; • Projeto de Big Data: ganham os pequenos ou
os grandes;
5
Tipos de Aplicações: Sistemas Transacionais/Operacionais
USlizado para aplicações operacionais
• Aplicações crí6cas – OLTP
• Execução do negócio
• Sistemas de controle de estoque
• Sistemas bancários
• Sistemas Financeiros
• Operações de manipulação de dados (insert, update, delete),
normalmente on-‐line e em nível detalhado.
• Sistemas de controle de vendas de mercadorias etc.
6
Banco de Dados Transacionais
Como armazenar dados
• Textos
• Sistemas de Gerenciamento de Arquivos
• Planilhas eletrônicas
• Sistemas de Gerenciamento de Bancos de Dados
o SGBD Relacional
o SGBD Orientado a Objetos etc.
7
Modelagem dos dados de aplicações transacionais
Para armazenar é necessário modelar ou projetar o BD
• Normalização
• Porque normalizar
• 1ª, 2ª, 3ª e 4ª FN
• Exemplo de normalização
• Exercício modelagem
9
Empresa informaSzada: novas demandas
Novas Demandas de T.I.
• Relatórios gerenciais: clientes por bairro, estado civil etc.
• Análise complexa — questões impossíveis de se prever
• Mais demandas para o departamento de T.I.
• Case supermercado – produtos por grupo
• Mas resumo não contradiz normalização?
• Ambiente de negócio em mudança constante
• Dados heterogêneos e inconsistentes
10
Problemas com a modelagem transacional
• Alto volume de dados e necessidade de resposta rápida
• Dados são voláteis: clientes mudam, casam, estudam etc.
Enfim:
Os modelos de dados tradicionais acabam sendo
muito complexos e di3ceis de ser entendidos pelo
usuário. Além disso, Joins de múl;plas tabelas,
frequentemente grandes, são demorados e
consomem muitos recursos do sistema.
11
Dúvidas e quesSonamentos surgem
• Conhecemos o negócio? Entendemos o processo, mas somos
incapazes de analisar situações mais complexas
• Valor da Tecnologia versus valor da Informação
• O que está sendo feito com a memória da organização
• Relatórios não atendem à Gerência
• Como resolver esse problema?
12
Com Aplicações de Tomada de Decisão
USlizadas para análise do negócio
• Sistemas de Apoio à Decisão -‐ SAD
• Exige conhecimento do negócio
• Vital para desenvolvimento de estratégias
• Extraem informações necessárias para a tomada de decisão,
u6lizando consultas complexas sobre grandes volumes de dados
(por exemplo, determinar a taxa de crescimento do faturamento
nos úl6mos 5 anos)
• Podem usar sistemas transacionais como fontes de dados
13
BI – Conceito
Business Intelligence (BI) “Refere-‐se à coleta, organização, análise, compar;lhamento e
monitoramento de informações para suporte à gestão de negócios.”
Contempla:
• Data Warehouse (DW)
• Data Mining (DM)
• Customer Rela6onship Management(CRM)
• OLAP
14
Nascimento do Data Warehouse (DW)
“Data Warehouse é um conjunto de dados:
• orientados a um assunto
• integrados • não-‐voláteis • variáveis com o tempo
• usado no apoio a decisões gerenciais”
William H. Inmon “Pai do Data Warehousing”
15
Data Warehouse: texto para leitura
CaracterísScas de um DW
• Orientado a assuntos: vendas de produtos a diferentes 6pos de clientes,
atendimentos e diagnós6cos de pacientes, rendimento de estudantes.
• Integrado: diferentes nomenclaturas, formatos e estruturas das fontes de
dados precisam ser acomodadas em um único esquema para prover uma
visão unificada e consistente da informação.
• Não voláSl: os dados de uma data warehouse não são modificados como em
sistemas transacionais (exceto para correções), mas somente carregados e
acessados para leituras, com atualizações apenas periódicas.
16
Comparação entre dados transacionais e DW
Operacionais Data Warehouse
Orientados à aplicação Orientados a assuntos
Precisão Instantânea Snapshots
Atualizáveis Somente para leitura Voláteis Históricos
Dispersos em aplicações Integrados no DW Acesso frequente Acesso esporádico
Acesso a quantidade reduzida Acesso a grande volume
0
10
20
30
40
50
60
70
80
0 1 2 3 4 5 6 7 8 9 10
Transacional
DW
17
O Data Warehouse
Afinal, o que é o DW?
• Um novo modelo de Dados
• Uma nova estrutura de armazenamento
• Infraestrutura diferente
• Acesso diferenciado
• Grandes quan6dades de dados
18
E nos departamentos: Data Mart
Data Mart
• Subconjunto dos dados corpora6vos
• Informações específicas para um grupo de usuários
• Esquemas não normalizados
Data Warehouse Corporativo
Data Mart de Marketing
Data Mart de Finanças
Data Mart de Vendas
19
Data Mart -‐ Aplicação
Aplicações de Data Mart
§ Uso departamental
§ Locais remotos (filiais, lojas etc.)
§ Acesso externo (fornecedores, clientes etc.)
§ Estals6ca/Mineração (segmentação de mercado, previsão
orçamentária, gerenciamento de campanhas etc.)
20
Problemas com Origens dos Dados
Problemas com Sistemas Legados
• Modelagem inexistente
• Programadores não pertencem mais à equipe
• Sistemas proprietários não possibilitam acesso
• Domínio de tecnologia obsoleta: cobol, adabas etc.
• Dados dependentes da aplicação: dincil dissociar
• Equipe transacional não coesa com B.I.
21
Conceito de ETL: Extração
Desafio da Extração
Ø “Somente a extração dos dados leva cerca de 60% das horas
de desenvolvimento de um DW (KIMBALL, 1998 apud ABREU,
2007).”
Ø “A maior parte do esforço exigido no desenvolvimento de um
DW é consumido neste momento e não é incomum que oitenta
por cento de todo esforço seja empregado no processo de ETL,
(INMON, 1997 apud ABREU, 2007)”
Ø A extração é afetada pelo ambiente
22
Dados Externos
“Dados Externos referem-‐se a dados essenciais para a tomada de decisão, mas que não fazem parte dos dados originados dos sistemas transacionais.”
§ Exemplos de Dados Externos: cotação de moeda estrangeira,
situações de catástrofe, cenário de mercado etc.
§ Fonte de Dados Externos: revistas especializadas, jornais, índices
governamentais etc.
23
Os Metadados: Conceito
“Essencialmente Metadados refere-‐se a um dicionário de dados, ou seja, dados que mantém informações sobre outros dados”
§ Para cada atributo no DW, há uma entrada no dicionário
§ Dados são consultados e atualizados com base nos metadados
§ Permite conhecer e entender a estrutura dos dados
§ Em BD transacional a semân6ca está na aplicação
24
OLAP: Online analyScal processing
Tipos de Ferramentas
§ MOLAP: Mul6dimensional OLAP
§ ROLAP: Rela6onal OLAP
§ HOLAP: Hybrid OLAP
§ DOLAP: Desktop OLAP
25
Ferramentas OLAP
Ferramentas OLAP
Dados Operaciona
is
Dados Externos
Warehouse Data Mart
Cuidados com soluções integradas – DW e OLAP
26
Ferramentas Mineração de Dados
Diferenças entre -‐ OLAP -‐ Data Mining
Matemática
Machine Learning
Estatística
Heurística
Inteligência Artificial
Data Mining
Business Application
27
Nova Fonte de Recursos para a empresa
§ Questões é6cas
§ A Informação como a6vo da empresa: novo conceito
§ Possibilidade de vendas de informação
§ E as novas fontes de informação?
§ Para onde vamos? Big Data?
28
O Big Data Agora
Definição
Existem várias, mas segundo Mayer-‐Schönberger,
“Big data se refere a trabalhos em grande escala que não podem
ser feitos em escala menor, para extrair novas ideias e criar novas
formas de valor de maneiras que alterem os mercados, as
organizações, a relação entre os cidadãos e governos etc.”
Origem do nome Big Data
Ciências como astronomia e genômica
29
O Big Data Agora
Caso H1N1 • CDCs (Centro de Controle de Prevenção de Doenças):
ü Dependia de resultado de exames e informações do médicos ü Cenário defasado em 01 ou 02 semanas
• Google: ü usou dados de 50 milhões de termos de busca comuns
(histórico de 2003 a 2008) ü 450 milhões de modelos matemá6cos
ü Combinação de 45 termos, num modelo matermá6co ü Encontrou correlação entre previsão e números oficiais ü Em tempo real
ü Sem teste de saliva, sem atraso
30
O Big Data Agora
Caso Forecast (Oren Etzioni) • Passagens antecipadas com preço maior?
• Como saber se comprar antecipadamente é melhor? • Coletou 12000 preços em 41 dias
• Criou uma startup • Passou para 200 bilhões de registros • Vendeu para Microsow por US$ 110 milhões
Qual a matéria-‐prima do negócio?
Revolução nos dados, não nas máquinas!
31
O Big Data Agora
Caso Sloan Digital Sky Survey • Início no ano 2000 (Novo México)
• Em 2 semanas o telescópio coletou mais dados que em toda a história da astronomia
• Em 2010 eram 140 terabytes • Uma sucessora, a Large Synop6c Survey Telescope (Chile), prevista
para 2016: coletará isso em 5 dias
32
O Big Data Agora
Projeto Genoma Humano
• Criado em 1990 nos EUA, com previsão para 15 anos
• 2003: cien6stas precisaram de uma década para sequenciar 3 bilhões de pares-‐base
• Hoje: faz-‐se em um único dia
33
O Big Data Agora
Empresas de Internet
• Google: processa 24 petabyte/dia • Facebook
ü Recebe mais de 10 milhões de fotos/hora ü Cur6r e comentar: 3 bilhões/dia ü Trilha digital é construída
• Youtube ü 800 milhões de usuários
ü > 1 hora de vídeo criada por segundo • Twi}er (2012): 400 milhões/dia
34
O Big Data Agora
Quanto há de informação? • Existem vários estudos
• Mar6n Hilbert, da Annenberg School for Communica6on and Journalism, CA, EUA, apresentou um ü Considerando Livros, imagens, e-‐mails, fotografias, música,
vídeo (analógico e digital), videogames, ligações telefônicas, cartas e sistemas de navegação para carros, além de televisão e rádio
ü Resultado: em 2007 es6mou-‐se 300 hexabytes (um bilhão de GB)
• O suficiente para ü Se impresso, cobrir os EUA com 52 camadas ü Em CD-‐ROMs empilhados: 5 pilhas até a lua
35
O Big Data Agora
Big Data • Inteligência Ar6ficial? • Aprendizado de máquina? • Ensinar um computador a pensar?
Na verdade está mais para aplicação de matemá;ca a enormes quan;dades de dados visando prever probabilidades!
36
A imprecisão dos Dados
Usar todos os dados (N1=1Tudo) • Amplia a visão, o que não era possível antes
• Fontes diversificadas • Dados normalizados e não normalizados
• SQL já não é suficiente • Não se pode abrir mão das conquistas • Há ferramentas que resolvem o problema?
• Como fica o especialista? • O conhecimento do negócio é relevante?
• E os sistemas legados?
37
Os 'Vs' do Big Data
3 ou 5 Vs • Volume: grande, crescimento
exponencial e às vezes subu6lizados
• Velocidade: tratamento dos dados (obtenção, gravação, atualização etc.) deve ser rápido -‐ muitas vezes em tempo real
• Variedade: diversidade de informações (Estruturados -‐ Bancos de Dados, DWs, Não Estruturados -‐ documentos, imagens, áudios, vídeos etc.)
38
Os 'Vs' do Big Data
3 ou 5 Vs • Veracidade: dados confiáveis, garan6r o máximo possível a
consistência dos dados? • Valor: os resultados devem trazer benencios significa6vos e que
compensem o inves6mento?
39
A confusão (inexaSdão) dos Dados
N1=1Tudo è Usar todos os dados disponíveis • Há custos • Aumento da quan6dade leva à inexa6dão • Soluções com menor volume permi6a tratar outliers
• Buscou-‐se tratá-‐los como problemas • Em big data é necessário aprender a conviver com inexa6dão • Pra6camente impossível tratá-‐los como em amostragens
• Historicamente o homem evoluiu ao medir (precisão) • Em big data imprecisão (confusão) é visto de forma posi6va
• Como entender melhor tudo isso?
40
A confusão (inexaSdão) dos Dados
Case vinhedo • Medir a temperatura com um único sensor
o Tem que ser preciso o Não permite confusão
• Medir a temperatura com um sensor a cada 100 parreiras o Pode-‐se usar sensores mais baratos (não tendenciosos) o Alguns podem apresentar confusão
o Mas a soma é mais abrangente o Mudar de uma medida por minuto
para 10 ou 100/segundo o Volume versus perda
41
A confusão (inexaSdão) dos Dados
Então em big data • Dados não totalmente incorretos
• 2 + 2 = 3,9 pode? • Pretere-‐se um pouco da precisão em favor de uma tendência
• Big data é mais probabilís6co que exato • Case algoritmos de xadrez
o Poucas modificações
o Regras conhecidas o Como melhoraram
o Jogadas finais: 6 peças mapeados o N1=todo para: mais de 1 TB
42
A confusão (inexaSdão) dos Dados
Case linguagem natural • Análise grama6cal MS Word (2000): Michele Banko e Eric Brill
buscavam melhorar o resultado • Melhorar os algoritmos ou aumentar dados?
• 1 milhão de palavras é comum (corpus texto) • 10 milhões, 100 milhões, 1 bilhão?
• O mais simples com 500 mil saiu de 75% para 95% acerto • Google em 2006 usava 1 trilhão
• Em 2012: 60 idiomas, 14 por voz • Algoritmo pouco inteligente: modelos simples “Modelos simples com muitos dados são melhores que modelos mais elaborados com menos dados”, disse Peter Norvig
43
A confusão (inexaSdão) dos Dados Mais sobre confusão • Existe porque a tecnologia não é perfeita • Dep. Americano de Estals6cas Trabalhistas faz índice de preço
ao consumidor (Federal Reserve usa para cálculo inflação) o Custo: US$ 250 milhões/ano o Dados organizados, mas defasados em função do tempo
o Crise 2008 não foi prevista com tanta precisão • Alberto Cavallo e Roberto Rigobon(MIT): alterna6va confusa
o 500 mil preços da Internet + big data: previu deflação 2 meses antes que o governo (2008)
o MIT originou a PriceStats: bancos e outros usam o The Economist usa: não confia completamente
nos cálculos de alguns países (Argen6na, p.e.)
The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If the red x still appears, you may have to delete the image and then insert it again.
44
Aceitando a causalidade Mais sobre confusão • Flickr: 6 bilhões de imagens e 75 milhões de usuários (2011)
o usou big data para rotular imagens • Maior escala: exato perde importância
o Ícone do Twi}er ou Cur6r do Face o Gmail condensa minutos, horas, dias etc. o Flexibilidade para BDs tradicionais (campos diferentes)
• SQL não é suficiente: surge NOSQL • Google criou MapReduce: modelo de programação (framework)
• Hadoop: rival Open Source Projeto Apache em Java (Distribuído) o Visa usou para segmentar 70 milhões transações
o Reduziu de um mês para 13 minutos
45
A causalidade
Sem saber o “porquê” apenas “o quê” • Ser humano sente a necessidade de entender a causa
• Crí6cas a modelos caixas pretas • Importância para modelos simbólicos e estals6cos
• Questões filosóficas sobre causalidade (é tudo causal?) • Daniel Kahneman professor de psicologia de Princeton e
ganhador do Nobel de Economia de 2002 • Ser humano: 2 6pos de raciocínio (rápido ou reflexivo)
• Rápido para sobrevivência no passado • Implica em ver causalidades inexistentes
• É cultural mas o paradigma é um problema em big data
• Correlação é fácil, causalidade é dincil
46
Dataficação
QuanSficação, Tabulação e Análise • Case Ma}hew Fontaine Maury
o Oficial da Marinha americana (1839) o Big data à moda an6ga: carta náu6ca
• Case Shigeomi Koshimizu o Ins6tuto Avançado de Tecnologia (Japão) o Forma que a pessoa se senta é quan6ficada e tabulada o Resultado: código digital único com até 98% de acerto
o Pode-‐se aplicar em segurança, cansaço etc.
47
Dataficação
QuanSficação, Tabulação e Análise • Dado: origem do grego e pode significar fato
• Dataficar: coleta de dados e disposição em formato quan6ficado de modo que possa ser tabulado e analisado
• Números Romanos versus arábicos • Itália no século XIV: balanço e origem da contabilidade
• Dataficação de imagem de texto do Google • Geoprocessamento: dataficação de um lugar (la6tude/longitude)
• GPS teve origem em 1978 e aberto para uso não militar em 1980 • Dataficação dos smartphones:
o Publicidade direcionada o Biometria
• Gráfico social
48
Além dos dados estruturados
O valor dos dados não estruturados • Digitalização versus dataficação • Luis Von Ahn (2000) criou Captcha: problemas com spambots • Yahoo implementou Captcha (Teste Completamente
Automa6zado para Separar Computadores e Humanos) • E o ReCaptcha, o que tem de diferente?
• Movimento e cliques de mouse • Conteúdo do Twi}er: entender sen6mentos e manifestações
• Conteúdo do face: entender preferências de imagens, sons, vídeos etc.
• Quando as palavras se tornam dados: literatura e estals6ca
• Custo de armazenagem jus6fica manutenção dos dados
49
Além dos dados estruturados
NOSQL • Criado por Carlo Strozzi em 1998: BD relacional código aberto
mas sem SQL • Dis6nto do modelo relacional: o termo noRel ficaria melhor
• Ressurgiu em 2009: Rackspace evento sobre BD Open Source e Distribuídos
• Termo se refere a diferentes sistemas de BDs não estruturados • Buscam performance superior e de alta escalabilidade
• Facilidade para distribuição horizontal: mais dados mais servidores
• Todas informações agrupadas no mesmo registro • Mais tolerantes a erros
• Ideal para BDs Transacionais?
50
Valor dos Dados
Análise Custo e Benetcio • Logís6ca abastecimento carro elétrico: problema para empresa e
motoristas • IBM e big data: previsão local abastecimento e construção postos
• Mas os carros já não possuem computador de bordo? • Apenas parte dos dados coletados são usados • Empresas inovadoras procuram valor oculto nos dados • Na era big data custo e benencio pode estar na reu6lização
básica, fusão de Bancos de Dados ou novas descobertas • Muitos dados se perdem ou são subu6lizados
• O valor está no que é possível extrair • Valor dos dados é a soma das possibilidades
51
Extraindo o máximo dos Dados
ReuSlização e recombinação • Reu6lização: dados de uso primário u6lizados para outros fins
o Dados das buscas: corretor ortográfico o Amazon extraiu preferência de usuários da AOL
o Reconhecimento de voz: Google versus Nuance o SWIFT: prever PIB a par6r de transferências internacionais o Operadora de Celular: dados de localização anônimos
• Recombinação: combinar fontes de dados diferentes • Uso de Celular e Câncer (Dinamarca): 3,8 milhões de dados
• Zillow (Ramo imobiliário): informações de imóveis + preços + mapas para prever valores
52
Extraindo o máximo dos Dados
Expansão e depreciação • Expansão: dados adequados a vários usos
o Câmeras: segurança e fluxo de clientes o Street View: fotos, dados de GPS (autopiloto), nomes de redes
WiFi (especula-‐se que até dados) – dois pelo preço de um • Depreciação: perda de u6lidade com o tempo
o Desafio de separar dados úteis ou manter todos o NSA mantem dados do maior número possível
• Uso exaus6vo dos dados • Case corretor: Yahoo pensou, Google agiu (veio de graça) • Treinamento de voz: aprendizado recursivo
“Gostamos de aprender com bancos de dados enormes e ‘barulhentos’” funcionário Google
53
Cadeia de Valor do Big Data
Informação • Dados da empresa auxiliam na definição do seu valor contábil
• Bancos e a Terceirização de cartões: qual o custo? • Mastercard analisa 65 bilhões de transações de 1,5 bilhão de
clientes em 210 países e até vende informações • É Capaz de descobrir: encher tanque 16h, gastar de US$ 35,00 a
US$ 50,00 na próxima hora (em mercearia ou restaurante) • Sensores sem fio em ônibus público para prever quebras
o Diminuiu o custo em até 10% o Possibilitou a subs6tuição de uma peça com 450
mil Km (antes era com 320 ou 400 mil): economia de mais de US$ 1 mil/veículo
• Origem da informação é irrelevante: mídia e dados
54
Cadeia de Valor do Big Data
Especialista de Dados • Ganha bem, trabalha duro e entrega o diamante para o dono
• Ideias e habilidades são acessórios: o valor recai sobre os dados • Valor migrou: conhecimento èideia èdados
• Morte do especialista? • Pioneiros tem origem externa ao seu domínio: especialista em
análise de dados, IA, matemá6ca, estals6ca etc. • Piada Microsow: “a qualidade das traduções aumenta sempre que
um linguista deixa a equipe” • Grupo Google é capaz de traduzir para idiomas
que não dominam
55
Cadeia de Valor do Big Data
Pessoas e Empresas com mente Big Data • Novo perfil: menos especialista, mais generalista
• Setor de videogames fatura mais/ano que Hollywood/mundo • Usam big data para entender o jogador (vendas de itens)
• Intermediários que agrupam e vendem dados • Big data pouco ú6l para empresas de porte médio: vantagens de
escala para grandes e custo e inovação para pequenas • Big data obriga médias a se tornarem grandes ou pequenas
• Veem oportunidades antes dos outros: mesmo sem dados • Cria6vo e observador: não se limita ao que é
exequível, mas ao que é possível • Em expansão e com muitas oportunidades
56
Riscos do Big Data
Privacidade e Punições PrediSvas • Dados podem se tornar instrumento de opressão
• Como saber de obje6vos que sequer existem • Case Street View: casa ofuscada • Consen6mento individual, opção de exclusão e anonimização
perderam eficiência • Aplica6vos de smartphones: solicitam autorização à localização • NSA em Fort Williams: inves6mento de US$ 1,2 bilhões
• Coleta dados o tempo todo, do maior número possível • São capazes de inves6gar assim que iden6ficam o suspeito
• Comportamento de compra pode iden6ficar uma pessoa
57
Riscos do Big Data
Privacidade e Punições PrediSvas • Cases de Anonimato quebrado
o Buscas AOL e pesquisa do New York Time o Prêmio Ne�lix disponibilizou 100 milhões de registros de 500
mil usuários e US$ 1 milhão a quem melhorasse recomendações: resultado, iden6ficaram clientes
o Ne�lix e Pesquisadores da Universidade do Texas: classificação 6 filmes obscuros (de 500 mais vistos) -‐ possível iden6ficar cliente com 84% precisão (de posse da data da classificação, sobe para 99%)
• Memphis, no Tennessee: big data aplicado na diminuição de crimes, prevendo ações (Blue CRUSH)
• Pode-‐se punir predi6vamente?
58
Big Data: Normas e Regulação
Regulação • Área nova, ainda não há regulação específica • Como inves6gar? Quem é capaz? • Algoritmistas, a nova profissão?
o Algoritmistas externos e internos • Governos também devem ser regulados? • Big data altera autocontrole da sociedade? • Para onde vamos?
59
Ferramentas Big Data
Ferramentas de Big Data • Há ferramenta ou solução específica para Big Data?
• Big Data: estruturas de indexação de dados e de visualização • Estrutura de indexação de dados
o Agrupa dados estruturados e não estruturados o É somente a composição dos dados (isso lembra algo?)
• Componente de visualização de dados: um ou vários
o IBM Cognos, QlikView, SAP Business Objects, Datameer, splunk, Oragle Business Intelligence entre outros (lembra algo também?)
60
Ferramentas Big Data
Ferramentas de Big Data • Simplificando o NOSQL (Not Only SQL)
Estruturados Não Estruturados
61
Ferramentas Big Data
NOSQL versus BD Relacional • NOSQL é não relacional (não estruturado) • NOSQL possui sua linguagem de consulta • Relembrando conceito dos BDs relacionais
• O que se ganha com o NOSQL • É aplicável a todos os casos? • Transacional tem propriedades ACID (Atomicity, Consistency,
Isola6on, Durability) • Relacional: indispensável onde há necessidade de precisão e
consistência de referências • Solução: u6lizar NOSQL conjuntamente com um relacional
62
Ferramentas Big Data
Consultas SQL em uma tabela • SELECT Lista_atributos FROM Tabela WHERE Condição
Exemplos de consultas com funções de agregação
• SELECT COUNT(*) FROM CLIENTE • SELECT COUNT(*) FROM CLIENTE WHERE sexo=’feminino’ • SELECT nome FROM CLIENTE WHERE codigo not in (SELECT
codigo FROM FONE) • SELECT nome, salario FROM CLIENTE WHERE salario > (SELECT
avg(salario) FROM CLIENTE WHERE SEXO=’MASCULINO’)
63
Ferramentas Big Data
Tipos de armazenamento NOSQL • Key/Value Store é o mais comum (uma chave, um valor), suporta
mais carga, muita escalabilidade o Ferramentas: Berkeley DB, Tokyo Cabinet, Kyoto Cabinet,
Project Voldermort, MemcacheDB, SimpleBD, Redis, Riak, entre outros
• Wide Columns Store tem inspiração no BigTable (Google), suporta várias linhas, colunas e até subcolunas o Ferramentas: Hbase (Apache), Cassandra entre outros
• Document Store baseados em documentos XML e JSON o Ferramentas: MongoDB, CouchDB (Apache)
entre outros
64
Ferramentas Big Data
Tipos de armazenamento NOSQL • Graph Store é mais complexo pois guarda objetos
o Ferramentas: Neo4J , InfoGrid e HyperGraphDB • Column Oriented Store são bancos de dados relacionais com
caracterís6cas NOSQL. Dados armazenados em colunas o Ferramentas: MonetDB, LucidDB, Infobright e
Ingres/Vectorwise • Cases:
• SimpleDB é u6lizado pela Amazon • Hbase é ligado ao Hadoop • MongoDB é u6lizado por: Disney,
MTV Networks entre outros
65
Ferramentas Big Data Exemplos de NOSQL no MongoDB • MongoDB: orientado a documentos, escalável, livre de esquema,
de alto desempenho e código aberto escrito em C++ • Dados dispostos em coleções -‐ estrutura JSON (JavaScript Object
Nota6on). Exemplo: pessoa{ name: “Marcos Paulo”, nick: “Marquinhos”, age: 30, phone:{mobile: 99998888, residencial:444433333}}
• Registros flexíveis: quando for necessário, altere • Ideal para leituras de grandes volumes não estruturados • Exemplos de consultas:
66
Projeto de Big Data
Por onde começar • Planejamento estratégico da empresa
• Definição do escopo do projeto e demais artefatos • No desenvolvimento:
o Base de dados interna transacionais o Base de dados informacionais o Flat files imprescindíveis para o negócio
o Dados externos acessíveis o Dados que precisam ser adquiridos
o Dados de máquina relevantes para o negócio o Ferramentas de indexação de dados
o Ferramentas de visualização de dados