pré-processamento de coleta, integração e dados de múltiplas...
TRANSCRIPT
![Page 1: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/1.jpg)
Coleta, Integração e Pré-processamento de Dados de Múltiplas Fontes
![Page 2: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/2.jpg)
Natércia A. BatistaEstudante de Mestrado, PPGCC/UFMG
2
Olá
Michele A. BrandãoProfessora IFMG
PosDoc, PPGCC/UFMG
Daniel H. DalipProfessor CEFET-MG
Doutor, PPGCC/UFMG
Michele BritoMestre, PPGCC/UFMG
Mirella M. MoroProfessora DCC/UFMG
Doutora, UC Riverside
![Page 3: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/3.jpg)
IntroduçãoMotivação e Tópicos Abordados
1
3
![Page 4: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/4.jpg)
DadosQuem são?
De onde vêm?Como se comportam?
É possível domesticá-los?4
![Page 5: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/5.jpg)
Quem são?
5
![Page 7: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/7.jpg)
Como se Comportam?
7Fonte: https://seobrien.com/how-big-data-is-finding-its-market-in-texas
![Page 8: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/8.jpg)
The Big Data Pipeline
8Fonte: H. V. Jagadish ACM SIGMOD Blog - 06/2012
![Page 9: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/9.jpg)
É possível domesticá-los?
9Fonte: https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says
Building training sets: 3%Cleaning and organizing data: 60%Collecting data sets: 19%Mining data for patterns: 9%Refining algorithms: 4%Other: 5%
![Page 10: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/10.jpg)
É possível domesticá-los?
10Fonte: https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says
Building training sets: 10%Cleaning and organizing data: 57%Collecting data sets: 21%Mining data for patterns: 3%Refining algorithms: 4%Other: 5%
![Page 11: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/11.jpg)
Data ScienceData Engineering
11
![Page 12: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/12.jpg)
Uma coisa é uma coisa
12
Science
knowledge or a system of knowledge covering general truths or the operation of general laws especially as obtained and tested through scientific method
Engineering
the application of science and mathematics by which the properties of matter and the sources of energy in nature are made useful to people
Fonte: https://www.merriam-webster.com
Scientists study the physical world. Engineers apply this knowledge of science to solve problems efficiently.
![Page 13: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/13.jpg)
Interessante
EngenhariaCiência
13
dados
![Page 14: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/14.jpg)
Objetivo deste TutorialEngenharia de Dados (com base na ciência) para fazer mais Ciência de Dados
14
![Page 15: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/15.jpg)
Tópicos Abordados
15
Coleta
Integração
Pré-processamento
Análise e Aplicação
![Page 16: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/16.jpg)
Coleta de DadosTipos de Fontes de Dados e Métodos de Coleta
2
16
![Page 17: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/17.jpg)
Tipos de fonte de dados 17
web
Dados Abertos
Dados Conectados
APIs
Páginas da Web
![Page 18: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/18.jpg)
Dados Abertos
18
![Page 19: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/19.jpg)
Dados Abertos 19
Fonte: https://okfn.org/opendata/
Disponibilidade e AcessibilidadeDados devem ser disponibilizados de forma completa em formato conveniente e modificável.
Reúso e RedistribuiçãoDados devem ser disponibilizados sobre termos que permitam reutilização e redistribuição, além de um formato legível por máquina.
Participação UniversalTodos devem poder reutilizar e redistribuir os dados sem discriminação quanto à campos de atuação, pessoas ou grupos.
![Page 20: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/20.jpg)
Dados Abertos - Portais 20
dados.gov.br
data.gov
europeandataportal.eu
![Page 21: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/21.jpg)
Dados Conectados
21
![Page 22: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/22.jpg)
Dados Conectados 22
![Page 23: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/23.jpg)
Resource Description Framework - RDF 23
Sujeito Objeto(Valor)
Predicado
![Page 24: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/24.jpg)
RDF com URIs 24
http://exemplo.org/pessoa/13 Joãohttp://exemplo.org/nome
![Page 26: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/26.jpg)
APIs
26
![Page 27: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/27.jpg)
APIs 27
API
Bases de Dados Aplicações
![Page 28: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/28.jpg)
APIs 28
Requisições e Respostas FormatadasRequisições e respostas são formatadas e pré-estabelecidas pelos desenvolvedores através do contrato de cada função ou endpoint.
Registro PrévioAs APIs em geral requerem um registro prévio das aplicações consumirão seus dados. Após registrar, desenvolvedor recebe uma chave para realizar e autenticar suas requisições.
Limite de RequisiçõesBoa parte das APIs disponíveis para consulta limitam o número de requisições que podem ser realizadas pelos usuários. Comumente medido em requisições/período de tempo ou tempo.
![Page 29: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/29.jpg)
APIs Disponíveis 29
![Page 30: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/30.jpg)
Páginas Web
30
![Page 31: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/31.jpg)
Páginas da Web 31
Page
Page
Page
Page
Page
Page
Page
Page
web
![Page 32: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/32.jpg)
Páginas da Web - HTML 32
![Page 33: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/33.jpg)
33
![Page 34: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/34.jpg)
Páginas da Web 34
Dados em Tags HTMLOs dados em páginas da web estão organizados tags HTML ou em seus atributos.A obtenção do dado é feita percorrendo o arquivo e extraindo os dados nesses locais.O processo muitas vezes é referido como scraping.
Limite de RequisiçõesLimite de requisições é definido no arquivo “robots.txt” presente na raíz dos websites.Geralmente medido em intervalo de tempo entre requisições (Crawl-delay).
![Page 35: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/35.jpg)
MÉTODOS DE COLETA
35
![Page 36: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/36.jpg)
Métodos de Coleta
36
◉ Breadth-First Search (BFS)
◉ Depth-First Search (DFS)
◉ SnowBall
◉ Random Walk (RW)
◉ Metropolis-Hastings Random Walk (MHRW)
![Page 37: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/37.jpg)
Métodos de Coleta
37
◉ Breadth-First Search (BFS)
◉ Depth-First Search (DFS)
◉ SnowBall
◉ Random Walk (RW)
◉ Metropolis-Hastings Random Walk (MHRW)
![Page 38: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/38.jpg)
Breadth-First Search (BFS) 38
Relashionship
Relashionship
Relashionship
Profundidade (Depth)
![Page 39: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/39.jpg)
Breadth-First Search - Redes Sociais 39
Amizade
Profundidade (Depth)
Amizade
Amizade
![Page 40: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/40.jpg)
Breadth-First Search - Páginas da Web/Wikipédia 40
Link
Profundidade (Depth)
Link
Link
![Page 41: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/41.jpg)
Breadth-First Search - Redes Sociais Acadêmicas 41
Co-autor
Profundidade (Depth)
Co-autor
Co-autor
Autor
Paper
![Page 42: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/42.jpg)
Breadth-First Search - Redes Sociais Acadêmicas 42
Co-autor
Co-autor
Co-autor
Profundidade (Depth)
![Page 43: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/43.jpg)
Integração de DadosDefinição
3
43
![Page 44: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/44.jpg)
Desafios
44
◉ Heterogêneos, não-estruturados ou semi-estruturados
◉ Modelos distintos
◉ Diferentes representações para objetos do mundo real
◉ Não confiáveis
Devido aos
próprios dados
![Page 45: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/45.jpg)
A integração de dados consiste em combinar dados de
diferentes fontes para obter informações valiosas.
![Page 46: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/46.jpg)
ETL (Extract Transform Load)
Principais etapas para integração de dados de múltiplas fontes. 46
![Page 47: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/47.jpg)
240.000 pessoasbuscam pelo termo "ETL" por mês
ETL ou Integração de dados?
74.000 pessoasbuscam por "data integration" por mês
47
![Page 48: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/48.jpg)
48
Integração de Dados
Limpeza dos dados
ETL
Perfil dos dados
Modelagem dos dados
Segurança dos dados
Dados estruturados
e não estruturados
Suporte à integração em tempo
realFusão dos dados
![Page 49: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/49.jpg)
Integração de DadosAbordagens
49
Coletar ConsultarArmazenarIntegrado
![Page 50: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/50.jpg)
Integração de DadosAbordagens
50
Coletar
Consultar
Armazenar
Integrar
![Page 51: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/51.jpg)
Integração de DadosAbordagens
51
Coletar
Consultar
Armazenar
Integrar
Lago de dados (Data Lake)
![Page 52: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/52.jpg)
Estratégias para Integração de Dados
52
◉ Sistemas de mediação - esquema global Golshan et al. [2017]
◉ Processamento de linguagem naturalMa et al. [2017]
◉ Abordagem bayesiana
Wang et al. [2017]
![Page 53: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/53.jpg)
Estratégias para Integração em BD Relacional
Vertical
Tabelas com essencialmente as mesmas informações são concatenadas.
Horizontal
Diferentes tipos de dados são combinados com o objetivo de enriquecer uma tabela existente.
53
![Page 54: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/54.jpg)
54
Exemplo: estratégia horizontal
id nome sobrenome gênero
c2 Joana Oliveira F
c5 Isis Lima F
c7 Rafael Silva M
... ... ... ...
cliente_id item_id preço
c2 i254 12,50
c5 i4245 1,99
c5 i32123 1,29
c5 i254 12,50
c5 i21435 5,99
c7 i254 12,50
... ... ...
item_id preço nome sobrenome gênero
i254 12,50 Joana Oliveira F
i4245 1,99 Isis Lima F
i32123 1,29 Isis Lima F
i254 12,50 Isis Lima F
i21435 5,99 Isis Lima F
i254 12,50 Rafael Silva M
... ... ... ... ...
![Page 55: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/55.jpg)
Pré-processamentoDesafios no pré-processamento dos dados
4
55
![Page 56: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/56.jpg)
Pré-processamento dos dados
56
◉ Dados coletados da web fornecem vários recursos para os pesquisadores
◉ Geralmente contam com alguns principais problemas:○ Dados incompletos○ Veracidade dos dados○ Duplicidade dos dados○ Ausência de padronização○ Redução de dados
![Page 57: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/57.jpg)
Pré-processamento dos dados
57
![Page 58: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/58.jpg)
Dados Incompletos
58
Nenhum valor armazenado em alguma variável○ Extrair de outra fonte?○ Remover valores?○ Substituir por default?
![Page 59: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/59.jpg)
Dados Incompletos
59
Alves et al., 2016
GHTorrentInformações sobre
quantidade de commits
![Page 60: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/60.jpg)
Dados Incompletos
60
GHTorrentDados sobre quantidade
de commits
Dados sobre linhas adicionadas e deletadas
em cada commit
Alves et al., 2016
![Page 61: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/61.jpg)
Dados Incompletos
61
Dados divergente entre si
Projetos inexistentes ou transformados em particulares
Definição dos autores
Exclusão dos commits que não possuíam informação
Alves et al, 2016
![Page 62: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/62.jpg)
Veracidade dos Dados
62
Melhoria da precisão dos dados○ Vieses○ Ruídos○ Anormalidades
![Page 63: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/63.jpg)
Veracidade dos Dados
63
Geerts et al., 2018
DeFacto - Deep Fact Validation○ Estrutura de validação tripla em bases de
conhecimento○ Reconhecimento e verbalização da entidade
nomeada
![Page 64: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/64.jpg)
Remoção de Duplicatas
64
◉ Dados duplicados podem ocorrer entre fontes distintas ou até mesmo na mesma origem
◉ Podem ser utilizados recursos de contexto para identificar duplicatas
![Page 65: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/65.jpg)
Remoção de Duplicatas
65
de Souza Silva et al., 2018
Indexação Classifica-ção
Compara-ção de
Registros
![Page 66: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/66.jpg)
Remoção de Duplicatas
66
de Souza Silva et al., 2018
◉ Seleção dos melhores atributos para a indexação○ Não utiliza técnicas de aprendizado de máquina○ Não exige a intervenção de especialistas
◉ Conjunto de métricas○ Duplicidade○ Distinção○ Densidade○ Repetição
![Page 67: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/67.jpg)
Redução dos Dados
67
◉ Problema de minimizar a quantidade de dados a serem armazenados no conjunto de dados
◉ Soluções incluem○ Minimizar dados (outra forma de
armazenamento)○ Amostragem sem perda de generalidade
![Page 68: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/68.jpg)
Redução dos Dados
68
Batista et al., 2017
Conjunto muito grande de repositórios
![Page 69: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/69.jpg)
Redução dos Dados
69
Batista et al., 2017
Seleção de linguagens de programação específicas○ Maior número de repositórios○ Apenas repositórios ativos
![Page 70: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/70.jpg)
Redução dos Dados
70
Batista et al., 2017
![Page 71: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/71.jpg)
Ausência de Padronização
71
◉ Conjunto de dados heterogêneo e com formatos diferentes
◉ Reestruturação de dados em formato comum
![Page 72: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/72.jpg)
Aplicações ReaisEstudos que utlizaram dados de mútiplas fontes
5
7272
![Page 73: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/73.jpg)
Aplicações Reais
73
◉ Identificação de dados do Perfil de Usuários em Redes Sociais
Farnardi [2018]
◉ Visualização de Dados de Pesquisadores
Brandão [2018]
◉ Predição de Efeitos Colaterais de Medicamentos
Ma et al. [2017]
◉ Arcabouço para a Estimativa Automática da Qualidade na Web 2.0
Dalip et al. [2017]
![Page 74: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/74.jpg)
Como o usuário pode determinar a qualidade da informação que ele acessa?Dalip et al., 2017
74
◉ Já existem meios manuais para tentar garantir a qualidade do conteúdo
◉ Problemas da Avaliação manual:○ Tamanho da coleção○ Velocidade que expande
◉ Possível Solução: Avaliar automaticamente a qualidade de conteúdo.
![Page 75: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/75.jpg)
Como o usuário pode determinar a qualidade da informação que ele acessa?Dalip et al., 2017
75
◉ Diversos autores definem que a qualidade pode ser vista como um conceito multidimensional
◉ Tejay, et al. [2006] agrupou dimensões de qualidade em níveis semióticos. ○ Sintático, Semântico e Pragmático
◉ Dimensões são estimadas por indicadores
◉ Indicadores são extraídos de fontes
![Page 76: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/76.jpg)
Fontes de dados - Wikipédia Dalip et al., 2017
76
![Page 77: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/77.jpg)
Fontes de dados - Wikipédia Dalip et al., 2017
77
# Seções# Citações# Imagens
...
# letras# erros ort.Métricas de legibilidade
# de R# de R feitas por U registrados
...
# de documentos editados por UMédia de edições por D de U
...
Grau de entrada de DPagerank de D
...
![Page 78: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/78.jpg)
Fontes de dados - Wikipédia Dalip et al., 2017
78
# Seções# Citações# Imagens
...
# letras# erros ort.Métricas de legibilidade
# de R# de R feitas por U registrados
...
# de documentos editados por UMédia de edições por D de U
...
Grau de entrada de DPagerank de D
...
Nível SintáticoAparênciaCorretude
OrganizaçãoLegibilidade
...
![Page 79: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/79.jpg)
Fontes de dados - Wikipédia Dalip et al., 2017
79
# Seções# Citações# Imagens
...
# letras# erros ort.Métricas de legibilidade
# de R# de R feitas por U registrados
...
# de documentos editados por UMédia de edições por D de U
...
Grau de entrada de DPagerank de D
...
Nível SemânticoCoerência
ConfiabilidadeRedundância
...
![Page 80: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/80.jpg)
Fontes de dados - Wikipédia Dalip et al., 2017
80
# Seções# Citações# Imagens
...
# letras# erros ort.Métricas de legibilidade
# de R# de R feitas por U registrados
...
# de documentos editados por UMédia de edições por D de U
...
Grau de entrada de DPagerank de D
...
Nível PragmáticoAdequabilidade
ImportânciaMaturidade
...
![Page 81: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/81.jpg)
Formas de Coleta - Wikis
◉ Dump ○ Wikipédia: https://dumps.wikimedia.org/enwiki○ Wikia:
http://starwars.wikia.com/wiki/Special:Statistics
◉ API (Wikipédia):○ https://en.wikipedia.org/wiki/Special:Export
◉ Extração do conteúdo do HTML
81
![Page 82: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/82.jpg)
Coleta de Cada Fonte - Wikipédia Dalip et al., 2017
Dump
◉ Grafo ◉ Documentos ◉ Texto atual
API
◉ Histórico de Edições ◉ Info. de Cada Usuário
82
![Page 83: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/83.jpg)
Método Multivisão para Estimativa da QualidadeDalip et al., 2017
83
ArtigoWiki
Estruturado Artigo
Grafodo Artigo
Históricodo Artigo...
Modelo 1 Modelo 2 Modelo 3
Combinador
1.3 3.3 3.5
3.5
https://github.com/daniel-hasan/multiview-method
![Page 84: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/84.jpg)
Avaliação - Amostras UtilizadasDalip et al., 2017
84
Amostra # de artigos Tamanho do Grafo Data da Coleta
WIKIPEDIA 3.294 Arestas: 86.077.675Vértices: 3.185.457 jan/2008
MUPPETS 1.550 Arestas: 282.568Vértices: 29.868 set/2009
StarWars 1.446 Arestas: 1.017.241Vértices: 106.434 out/2009
Amostras disponíveis em: http://www.lbd.dcc.ufmg.br/lbd/collections/wiki-quality
![Page 85: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/85.jpg)
Metodologia de AvaliaçãoDalip et al., 2017
85
◉ Baseline: SVR sem usar multivisão
◉ Métrica para Comparação: Mean Squared error
◉ Avaliação Manual○ Wikipedia e StarWars: Comunidade avalia
manualmente quanto a qualidade○ Muppets: Usuários pontuam artigos de 1 a 5 estrelas
![Page 86: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/86.jpg)
Avaliação - ResultadosDalip et al., 2017
86
Amostra Método MSE % Ganho
SVR 0,887
MVIEW 0,873* 1,6%
MVIEW 0,834* 5,9%
SVR 0,084
MVIEW 0,058* 30,9%
MVIEW+F0 0,068* 19%
SVR 1,69
MVIEW 1,693 -0,2%
MVIEW+F0 1,703 -0,8%
* = Diferenças estatisticamente significativas
![Page 87: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/87.jpg)
ConclusõesFinalizando
6
8787
![Page 88: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/88.jpg)
Conclusões
88
◉ PROBLEMA: lidar com fontes de dados heterogeneas
◉ Grandes DESAFIOS *antes* de fazer qualquer pesquisa ○ Coleta○ Integração○ Pré-processamento
◉ Aplicações discutidas○ Predição da qualidade de artigos em Wikis○ Efeitos colaterais em medicamentos○ Visualização de dados de pesquisadores
![Page 89: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/89.jpg)
Tem *muito* mais, inclusive em artigos publicados aqui no SBBD
89
![Page 90: Pré-processamento de Coleta, Integração e Dados de Múltiplas …sbbd.org.br/2018/wp-content/uploads/sites/5/2018/08/sbbd... · 2019-01-14 · Pré-processamento dos dados 56 Dados](https://reader034.vdocuments.mx/reader034/viewer/2022042305/5ed04780c58389601b6c9515/html5/thumbnails/90.jpg)
Dúvidas?
Contato
Links úteis
bit.ly/proj-apoena
www.labcsx.dcc.ufmg.br
Agradecimentos
90