gerência de dados da web -...
TRANSCRIPT
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Sumário
� Caracterização do Problema
� Principais Dificuldades
� Exemplo Preliminar
� Desenvolvimento de Extratores
� Taxonomia Geral
� Abordagens para Extração de Dados� Abordagens Baseadas em Contexto
� Abordagens Baseadas em Conteúdo
� Exemplos de Aplicações
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Caracterização do Problema
� Apesar do advento da linguagem XML, muitas aplicações na Web ainda dependem de wrappers (extratores) para extração de dados
� Dada uma página Web So, contendo um conjunto de objetos implícitos, um extrator W é um mapeamento capaz de gerar um repositório R com objetos de So
� Um extrator W deve ser capaz de reconhecer e extrair objetos de outras páginas Si similares a So
Wrapper
So,S1,..,Sn WR
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Principais Dificuldades
� Dados de interesse são cadeias de caracteres geralmente misturadas a marcadores (“tags”) símbolos diversos, linhas de código, entre outros tipos de informação textual não relevantes
� Não existe qualquer esquema ou estrutura previamente declarada
� A estrutura existente é apenas implícita e, quase sempre, irregular
� Não há “pistas” linguísticas a serem seguidas
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Exemplo: Resultado da Extração
<doc><cd><artista>Ten Years After</><album>Positive Vibrations</><preço>17.20</></><cd><artista>Jethro Tull</><album>Roots to Branches</><preço>18.90</></> <cd><artista>Beatles</><album>Abbey Road</><preço>17.50</></>
</>
Artista Album Preço-----------------------------------------------------------------------Ten Years After Positive Vibrations 17.20Jethro Tull Roots to Branches 18.90Beatles Abbey Road 17.50
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Extração de Dados: Classificação[Sarawagi, 2008]
� Extração de registros
� O extrator identifica os limites dos registros e extrai os atributos correspondentes
� Extração de páginas
� O extrator identifica um padrão geral e extrai todo o conteúdo da página
� Extração de sítios
� O extrator extrai dados navegando através de diferentes páginas de um sítio
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Desenvolvimento de Extratores
� Extratores de dados são geralmente desenvolvidos de forma manual (“força bruta”), o que implica em:� Esforço de programação� Necessidade de constante manutenção devido a mudanças na
estrutura das fontes de dados
� Alternativa: � Desenvolvimento de ferramentas para geração automática ou
semi-automática de extratores� Exemplos: TSIMMIS (1997), WIEN (1997), Minerva (1998), SRV
(1998), WebOQL (1998), NoDoSE (1998), WHISK (1999), RAPIER (1999), BYUTool (1999), STALKER (1999), WF4 (1999), XWRAP (1999), DEByE (1999), IEPAD (2001), RoadRunner (2001), EXALG (2003), Thresher (2005) DEPTA (2005), FLUX-CIM (2007), TextRunner (2007), WebTables (2008), XPath (2009), ViDE (2010), Ondux (2010), JUDIE (2011)
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Desenvolvimento de ExtratoresUso de Expressões Regulares
(a) - (e) são extratores para nomes de artista; (f) não(a) - (c) são extratores robustos e completos(d) é um extrator robusto mas não completo(e) é um extrator completo mas não robusto
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas para Geração de ExtratoresTaxonomia Geral [Chang et al, 2006]
� Ferramentas Manuais� TSIMMIS, Minerva, WebOQL, W4F, XWRAP, BYUTool
� Ferramentas Supervisionadas� RAPIER, WIEN, WHISK, NoDoSE, STALKER,
SoftMealey
� Ferramentas Semi-Supervisionadas� IEPAD, Thresher, DEByE
� Ferramentas Não Supervisionadas� RoadRunner, DeLa, DEPTA, FLUX-CIM, XPath,
Ondux, JUDIE
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Abordagens para Extração de Dados[Laender et al., 2002]
� Abordagens baseadas em contexto:� Linguagens especializadas
� Análise da estrutura HTML
� Processamento de linguagem natural
� Técnicas de indução
� Modelagem de dados
� Abordagens baseadas em conteúdo:� Uso de ontologias
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
� Oferecem facilidades específicas para auxiliar na tarefa de geração de extratores
� Constituem uma abordagem eficiente para extração de dados da Web
� Apresentam alguns inconvenientes:
� Desenvolvimento manual
� Dificuldades de manutenção
� Inadequadas para usuários não-especializados
� Exemplos: TSIMMIS, WebOQL, Minerva
Linguagens para Geração de Extratores
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Linguagens para Geração de ExtratoresMinerva [Crescenzi & Mecca,1998]
� Formalismo para descrição de gramáticas� Para cada tipo de documento é definida uma gramática a
partir da qual é gerado um extrator� Incorpora um mecanismo de manipulação de exceções
ao analisador sintático da gramática� Gramática é definida no estilo EBNF:
� Produções definem como um objeto é identificado na página
� Regras de exceção podem ser definidas � Recursão não é permitida
� Objetos extraídos correspondem a tuplas
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Linguagens para Geração de ExtratoresMinerva
PAGE CdNow $CdNow: *<TR>*<TR>*<TR>*<TABLE[ ]WIDTH=427[ ]CELLPADDING=0[ ]CELLSPACING=0[ ]BORDER=0>*</TR> ( $RecOfCd )+ ; $RecOfCd: <TR>*<FONT[ ]size=-1>$ArtistName</FONT>*<FONT[ ]size=-1[ ]color="#990066"> $Title { $Title.cutAll("</a>" , ""); } </FONT>*<font[ ]size=-1>$Price</font>*<B>*</B>*<B>$Discount $TP1</B>*</TR>; $ArtistName: *(?</FONT>) ; $Title: *(?</FONT>) ; $Price: *(?</font>) ; $Discount: *(?</B>) ; $TP1: [ $ArtistName, $Title, $Price,$Discount ] END
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas na Estrutura HTML
� Se utilizam das características estruturais inerentes das páginas HTML � específicas para páginas HTML
� Em geral pressupõem o uso consistente de marcadores e estruturas HTML (tabelas, listas, etc.)
� Transformam as páginas em uma árvore que representa a hierarquia de seus marcadores
� Regras de extração são geradas (semi-)automaticamente para extrair dados nas folhas da árvore
� Geralmente propiciam um bom grau de automação
� Exemplos: W4F, XWRAP, RoadRunner, EXALG, DeLa, DEPTA
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas na Estrutura HTMLRoadRunner [Crescenzi, Mecca & Merialdo, 2001]
� Explora diferenças e similaridades entre páginas de umamesma coleção para inferir um padrão (regras) de extração e gerar um extrator (wrapper)
� Tem como alvo páginas de sítios intesivos em dados (data-intensive sites)� Páginas HTML geradas automaticamente por meio de scripts a
partir do conteúdo de um banco de dados� Páginas geradas por um mesmo script definem uma classe
(coleção) � estrutura similar� Extrator gerado é uma Union-Free Regular Expression que
é generalizada a partir de uma página inicial w com base emdiferenças (mismatches) encontradas em relação a umapágina de exemplo p� String mismatches
� Tag mismatches
� Objetos extraídos podem ser hierarquicamente estruturados
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas na Estrutura HTMLRoadRunner - Páginas de Exemplo
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas na Estrutura HTMLRoadRunner - Resultado da Extração
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas na Estrutura HTMLRoadRunner - Generalização do Extrator
� String Mismatch (valores): substitui cadeias de caracteres por #PCDATA� Tag mismatch (opcional): generaliza o extrator procurando por padrões
opcionais� Tag mismatch (iterações): generaliza o extrator procurando por repetições
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em PLN
� Utilizam técnicas de processamento de linguagem natural para gerar regras de extração
� Regras de extração baseadas em restrições sintáticas e semânticas existentes nos documentos
� Usualmente requerem um pré-processamento para identificação de elementos sintáticos no documento
� Mais adequadas para documentos contendo texto livre (ex., classificados, anúncios, memorandos, etc.)
� Exemplos: WHISK, SRV, RAPIER
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em PLNRAPIER [Califf & Mooney, 1999]
� Regras de extração geradas a partir de templatespreenchidos previamente (funcionam como exemplos)
� Regras incluem padrões de prenchimento (filler) e de definição de contexto (pre-filler, pos-filler)
� Relações entre os padrões de preenchimento definidasatravés de técnicas de relational learning
� Documentos devem ser pré-processados parareconhecimento de componentes sintáticos (part-of-
speech tagger)
� WordNet usado para prover informação semântica
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em PLNRAPIER
Pre-Filler Pos-FillerFiller
Regra de Extração
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em Indução
� Utilizam técnicas de aprendizagem de máquina ou modelos probabilísticos para geração semi-automática de extratores
� Recebem como entrada exemplos do que deve ser extraído
� Regras de extração são baseadas nos separadores que delimitam os dados de interesse
� Mais convenientes para documentos HTML do que as ferramentas baseadas em PLN
� Exemplos: WEIN, STALKER, SoftMealy, IEPAD
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em InduçãoSTALKER [Muslea et. al., 1999]
� Recebe como entrada:� Conjunto de exemplos (training examples)� Descrição da estrutura da página alvo (EC-Tree)
� Gera como saída regras de extração que generalizam osexemplos fornecidos
� Para cada atributo é gerado um conjunto de regrasdisjuntivas, cada uma cobrindo um dos exemplosfornecidos
� Ao contrário de outras ferramentas baseadas emindução, consegue lidar com estruturas aninhadas
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em InduçãoSTALKER
Regras de Extração
SkipTo(Name)SkipTo(<b>)SkipTo(Name)SkipTo(HTMLTag)
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em Modelagem
� Requerem uma descrição da estrutura dos objetos(dados) a serem extraídos
� Também utilizam exemplos para geração de padrões de extração
� Procuram encontrar objetos com estrutura e contextosemelhantes aos dos exemplos nas páginas-alvo
� Usam técnicas semelhantes às das ferramentas de indução
� São, em geral, mais “leves” do que as ferramentasbaseadas em indução que requerem treinamento
� Exemplos: NoDoSE, DEByE
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE - Data Extraction By Example [Laender et al., 2002]
� Adota o paradigma de tabelas aninhada para representar a estrutura dos objetos de intereste
� Ferramenta interativa, utiliza uma interface gráfica paraespecificação de exemplos
� Exemplos extraídos de uma página de amostra� Implementa algumas operações visuais para criar tabelas,
copiar e colar examplos, e prover realimentação de exemplos� Padrões para extração de objetos gerados a partir dos
exemplos especificados� Utiliza uma estratégia de extração bottom-up que permite lidar
com atributos faltantes ou fora de ordem� Permite a extração de dados com estrutura aninhada e
apresentando variações
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE - Visão Geral
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE - Modelagem de Objetos
� Na abordagem DEByE, os dados (de páginas da Web) são vistos como objetos complexos
� Exemplo: páginas do TODS na DBLP
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE - Modelagem de Objetos
Edition
Article
Author
Volume=“20”
Number=“1”
Date=“March 1995”
Pages=“3-41”
Title=“Static...”
{“Alexander Aiken”,...}
1º Nível2º Nível
Objetos Complexos
Objetos Atomicos ouAtribute-Value Pairs (AVP)
(tuplas, listas, variantes)
Objetos complexos podem ser
representados por tabelas aninhadas
com variações (“variantes”)
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE - Interface Gráfica
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE - Resultado da Extração
<TUPLE type="TODS">
<ATOM type="Volume"><VALUE> 2 </VALUE>
</ATOM><ATOM type="Number">
<VALUE> 1 </VALUE></ATOM><ATOM type="Date">
<VALUE> March 1995 </VALUE></ATOM><LIST type="Article">
<TUPLE type="Article"><LIST type="Authors">
<ATOM type="Authors"><VALUE> Alexander Aiken </VALUE>
</ATOM>...
</LIST><ATOM type="Title">
<VALUE> Static Analysis ... </VALUE></ATOM><ATOM type="Pages">
<VALUE> 3-41 < /VALUE></ATOM>
</TUPLE></LIST>
</TUPLE>
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE - Visualização da Extração
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE – Processo de Extração
Gerador de Padrões
Extrator
Coleção de Páginas
AVP Patterns
Objetos de Exemplo
Objetos Extraídos
OE Pattern
Amostra
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE – AVP Patterns
� Padrões textuais para identificação de instâncias de um dado tipo
� Podem existir mais de um padrão para cada tipo� Gerados a partir dos exemplos retirados pelo usuário da
página de amostra
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE – Exemplo de um OE Pattern
<TUPLE type="TODS"><ATOM type="Volume">
<PATTERN><![CDATA[Volume[\s]*?([0-9]+)[\s]*?(?=,)]]></PATTERN></ATOM><ATOM type="Number">
<PATTERN><![CDATA[Number[\s]*?([0-9]+)[\s]*?(?=,)]]></PATTERN></ATOM><ATOM type="Date">
<PATTERN><![CDATA[,[\s]*?([\x20-\x3B\x3D\x3F-\x7E\xC0-xFF]+?)[\s]*?(?=</h2>)]]></PATTERN></ATOM><LIST type="Article">
<TUPLE type="Article"><LIST type="Authors">
<ATOM type="Authors"><PATTERN><![CDATA[<a name="[^"]*?" href="[^"]*?"F]+?)[\s]*?(?=</a>)]]></PATTERN>
</ATOM>....
</LIST><ATOM type="Title">
<PATTERN><![CDATA[<b>[\s]*?([\x20-\x3B\x7E\xC0-\xFF]+?)[\s]*?(?=\.)]]></PATTERN></ATOM><ATOM type="Pages">
<PATTERN><![CDATA[</b>[\s]*?([0-9]+-?[0-9]*)[\s]*?(?=,)]]></PATTERN></ATOM></TUPLE>
</LIST></TUPLE>
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em ModelagemDEByE – Extração Bottom-up
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em Ontologias
� Requerem a construção prévia de uma ontologia para o domínio de aplicação considerado
� Processo de extração consiste em encontrar nas páginas-alvo cadeias de caracteres que satisfazem as propriedadesdescritas na ontologia
� Uma vez construída, a ontologia é aplicável a qualquerpágina do domínio considerado
� Ontologia geralmente construída manualmente
� Ferramenta mais representativa: desenvolvida pelo BYU DEG (BYUTool) [Embley et al., 1999]
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em OntologiasBYUTool [Embley el al., 1999]
� Ontologia corresponde a um esquema conceitualexpandido descrito com base no modelo OSM
� A ontologia deve ser construída para cadadomínio específico definindo: � Objetos, relacionamentos e restrições� Constantes e palavras-chave
� Voltada para páginas que:� Possuam “escopo ontológico” limitado� Sejam “ricos em dados”
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em OntologiasBYUTool – Visão Geral
Database Description
Record-Level Object,
Relationships,
and Constraints
Database
Scheme
Record Extractor
Web Pager
Unstructured
Record Documents
Application Ontology
Object-Relationship
Model Instance
Data Frames
Lexicons
Constant/Keyword
Matching Rules
Populated Database
Database-Instance
Generator
Constant/Keyword
Recognizer
Data-Record Table
(Descriptor/String/Position
Ontology
Parser
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em OntologiasBYUTool – Exemplo de uma Página HTML
<html><head><title>The Salt Lake Tribune … </title></head><body bgcolor=“#FFFFFF”><h1 align=”left”>Domestic Cars</h1>…<hr><h4> ‘97 CHEVY Cavalier, Red, 5 spd, only 7,000 miles on her.Previous owner heart broken! <b>Asking only $11,995.</b> #1415JERRY SEINER MIDVALE, 566-3800 or 566-3888 </h4><hr><h4> ‘85 DODGE Daytona, needs paint, runs great. Offer. 262-7557 </h4><hr>…</body></html>
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em OntologiasBYUTool – Exemplo de uma Ontologia
Year Price
MakeMileage
Model
Feature
PhoneNr
Extension
Car
hashas
has
has
is for
has
has
has
1..*
0..1
1..*
1..* 1..*
1..*
1..*
1..*
0..1 0..10..1
0..1
0..1
0..1
0..*
1..*
Gráfica
Car [0:1] has Year [1:*];Year {regexp[2]: “\d{2} : \b’\d{2}\b, … };Car [0:1] has Make [1:*];Make {regexp[10]: “\bchev\b”, “\bchevy\b”, … };Car [0:1] has Model [1:*];Model {…};Car [0:1] has Mileage [1:*];Mileage {regexp[8] “\b[1-9]\d{1,2}k”,
“1-9]\d?,\d{3} : [^\$\d][1-9]\d?,\d{3}[^\d]” }{context: “\bmiles\b”, “\bmi\.”, “\bmi\b”};
Car [0:*] has Feature [1:*];Feature {regexp[20]:
-- Colors“\baqua\s+metallic\b”, “\bbeige\b”, …
-- Transmission“(5|6)\s*spd\b”, “auto : \bauto(\.|,)”,
-- Accessories“\broof\s+rack\b”, “\bspoiler\b”, …
...
Textual
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em OntologiasBYUTool: Analisador de Ontologia
Make : chevy…KEYWORD(Mileage) : \bmiles\b...
create table Car (Car integer,Year varchar(2),… );
create table CarFeature (Car integer,Feature varchar(10));
...
Object: Car;...Car: Year [0..1];Car: Make [0..1];…CarFeature: Car [0..*] has Feature [1..*];
ApplicationOntology
OntologyParser
Constant/KeywordMatching Rules
Record-Level Objects,Relationships, and Constraints
DatabaseScheme
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em OntologiasBYUTool – Extrator de Registros
<html>…<h4> ‘97 CHEVY Cavalier, Red, 5 spd, … </h4><hr><h4> ‘85 DODGE Daytona, needs paint, … </h4><hr>….</html>
…#####‘97 CHEVY Cavalier, Red, 5 spd, …#####‘85 DODGE Daytona, needs paint, …#####...
UnstructuredRecords
RecordExtractor
Web Page
html
head
title
body
… hr h4 b hr h4 ...h1
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em OntologiasBYUTool - Reconhecedor de Constantes e Palavras-chave
Descriptor/String/Position(start/end)
‘97 CHEVY Cavalier, Red, 5 spd, only 7,000 miles on her.Previous owner heart broken! Asking only $11,995. #1415JERRY SEINER MIDVALE, 566-3800 or 566-3888
Year|97|2|3Make|CHEV|5|8Make|CHEVY|5|9Model|Cavalier|11|18Feature|Red|21|23Feature|5 spd|26|30Mileage|7,000|38|42KEYWORD(Mileage)|miles|44|48Price|11,995|100|105Mileage|11,995|100|105PhoneNr|566-3800|136|143PhoneNr|566-3888|148|155
Constant/KeywordRecognizer
UnstructuredRecords
Constant/KeywordMatching Rules
Data-Record Table
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Ferramentas Baseadas em OntologiasBYUTool - Gerador de Instâncias
Year|97|2|3Make|CHEV|5|8Make|CHEVY|5|9Model|Cavalier|11|18Feature|Red|21|23Feature|5 spd|26|30Mileage|7,000|38|42KEYWORD(Mileage)|miles|44|48Price|11,995|100|105Mileage|11,995|100|105PhoneNr|566-3800|136|143PhoneNr|566-3888|148|155
insert into Car values(1001, “97”, “CHEVY”, “Cavalier”,“7,000”, “11,995”, “556-3800”)
insert into CarFeature values(1001, “Red”)insert into CarFeature values(1001, “5 spd”)
Database-InstanceGenerator
Data-Record Table
Record-Level Objects,Relationships, and Constraints
DatabaseScheme
PopulatedDatabase
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Comparação das Abordagens
Não
Supervisionadas
Fonte: [Laender et al, 2002]
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Exemplos de Aplicações
� Construção de bibliotecas digitais a partir de dados disponíveis na Web
� Extração de informação espacial de dados daWeb
� Extração notícias de sítios especializados� Construção de uma base de conhecimento de
larga escala a partir de dados da Web
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
O Ambiente Web-DL[Calado et al, 2003]
Combina ferramentas de extração de dados e de criação de bibliotecas digitais para coletardados bibliográficos disponíveis na Web e disponibilizá-los por meio de serviços específicos
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Estudo de Caso: NDLTDExtração e Normalização de Dados
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Estudo de Caso: NDLTDPublication dos Dados
9595 ETDs carregadosna NDLTD
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Acquisição de Informação Espacial[Borges et al, 2003]
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Estudo de Caso: Belo Horizonte Extração de Dados e Geocoficação
NAME TYPE ThNAME NUMBER NEIGHBORHOOD FIDEND
BUONA TÁVOLA TRATTORIA RUA SANTA RITA DURAO 00309 Funcionários 06127000309CANTINA FRANELLI RUA DA BAHIA 01216 Centro 08115501216DONA DERNA RUA TOME DE SOUZA 01380 Savassi 06799801380GALETO ITÁLIA RUA ALAGOAS 01417 Savassi 00167801417GALETO ITÁLIA RUA DA BAHIA 01022 Bahia Shopping Lj. 13 08115501022L'OSTERIA CASA MATTIAZZI RUA SOLEDADE 00026 Stª Efigênia 06626000026POMODORO RUA SAO PAULO 00957 Centro Shopping Cidade 06346400957SPLÊNDIDO RISTORANTE RUA LEVINDO LOPES 00251 Savassi 04083000251VECCHIO SOGNO RISTORANTE RUA MARTIM DE CARVALHO 00075 Sto Agostinho 04494400075
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Estudo de Caso: Sítios de Notícia BrasileirosResultados
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
O Ambiente YAGO-NAGO[Kasneci et al, 2008]
NAGO
YAGO usa uma variedade de técnicas de extração de dados baseadas em padrões, PNL e aprendizado de máquina
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Extrato da Ontologia YAGO
YAGO contém cerca de 20 milhões de fatos para 93 tipos diferentes de relações binárias, envolvendo mais de 2 milhões de entidades individuais de cerca de 250 mil classes
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Tópicos Específicos
� Bootstrapping� Como gerar exemplos automaticamente?
� Resiliência� Como gerar extratores resilientes?
� Adaptatividade� Como adaptar extratores para tarefas de extração
similares? � Acesso a Dados da Web Oculta
� Como ter acesso a dados armazenados em bancos de dados e torná-los disponíveis através de intefacesbaseadas em formulários?
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Bootstrapping
� Dados disponíveis em repositórios pré-existentes são usados paracompor automaticamente novos exemplos
� Premissas básicas:� Existe alguma interseção entre o conteúdo de um repositório R e
o sítio Web alvo S
� A estrutura dos objetos em R pode ser usada para modelar osobjetos implícitos existentes nas páginas de S
� Ver [Weld et al, 2008] para uma abordagem baseada na Wikipedia
Fonte: [Golgher et al, 2001]
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Extratores Adaptáveis
Ver [Gupta and Sarawagi, 2008] para uma abordagem formal para adaptaçãode extratores
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Acceso a Dados da Web Oculta
Fonte: [Barbosa and Freire, 2005]
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Referências
� Borges, K.A.V. Laender, A.H.F.; Medeiros, C.B.; Silva, A.S.; Davis Jr, C.D. The Web as a Data Source for Spatial Databases. In Proc. of the V Brazilian Symposium on Geoinformatics, Campos do Jordão, São Paulo, 2003.
� Barbosa, L.; Freire, J. Searching for Hidden-Web Databases.In Proc. of the Eight International Workshop on the Web and Databases, Baltimore, Maryland, 2005, pp. 1-6.
� Calado, P.; Gonçalves, M.A.; Fox, E.A.; Ribeiro-Neto, B.; Laender, A.H.F.; Silva, A.S.; Reis, D.C.; Roberto, P.A.; Vieira, M.V. Lage, J.P. The Web-DL Environment for Building Digital Libraries from the Web. In Proc. of the ACM/IEEE Joint Conference on Digital Libraries, Houston, Texas, 2003, pp. 346-357.
� Califf, M.E; Mooney, R.J. Relational Learning of Pattern-Match Rules for Information Extraction. In Proc. of the 16th Nat’l Conf. on Artificial Intelligence, Orlando, FL, 1999, pp. 328-334.
� Chang, C.-H.; Kayed, M.; Girgis, M. R.; Shaalan, K. F. A Survey of Web Information Extraction Systems. IEEE Trans. Knowl. Data Eng. 18, 10 (2006), 1411-1428.
� Crescenzi, V.; Mecca, G. Grammars Have Exceptions. Inf. Syst. 23, 8 (1998), 539-565.
� Crescenzi, V.; Mecca, G.; Merialdo, P. RoadRunner: Towards Automatic Data Extraction from Large Web Sites. In Proc. of the 29th Int’l Conf. on Very Large Data Bases, Rome, Italy, 2001, pp. 109-118.
� Embley, D.W. et al. Conceptual-model-based data extraction from multiple-record web pages. Data and Knowledge Eng. 31, 3 (1999), 227-251.
� Etzioni, O.; Banko, M. ; Soderland, S.; Weld, D.S. Open Information Extraction from the Web. Commun. ACM 51(12): 68-74, 2008.
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Referências
� Golgher, P.B.; Silva, A.S.; Laender, A.H.F.; Ribeiro-Neto, B. Bootstrapping for Example-Based Data Extraction. In Proc of the ACM CIKM International Conference on Information and Knowledge Management, Atlanta, Georgia, 2001, pp. 371-378.
� Gupta, R.; Sarawagi, S. Domain Adaptation of Information Extraction Models. SIGMOD Record, 37(4): 35-40, 2008.
� Kasneci, G.; Ramanath, M.; Suchanek, F.M; Weikum, G. The YAGO-NAGA Approach to KnowledgeDiscovery. SIGMOD Record 37(4): 41-47, 2008.
� Laender, A.H.L, Ribeiro-Neto, B., Silva, A.S.; Teixeira, J.S. A Brief Survey of Web Data Extraction Tools. SIGMOD Record 31, 2 (June 2002), 84-93.
� Laender, A.H.L.; Ribeiro-Neto, B.; Silva, A.S. DEByE – Data extraction by example. Data and Knowledge Eng. 40, 2 (2002), 121-154.
� McCallum, A. Information Extraction: Distilling Structured Data from Unstructured Text. ACM Queue3(9): 48-57, 2005.
� Muslea, I. et al. A Hierarchical Approach to Wrapper Induction. In Proc. of the Third Annual Conf. on Autonomous Agents, Seattle, WA, 1999, pp. 190-197.
� Reis, D.C.; Golgher, P.B.; Silva, A.S.; Laender, A.H.F. Automatic Web News Extraction Using Tree Edit Distance. In Proc. of the 13th International Conference on World Wide Web, New York, NY, 2004, pp. 502-511.
� Sarawagi, S. Information Extraction. Foundations and Trends in Databases, 1(3): 261-377, 2008.
� Weld, D.S.; Hoffmann, R.; Wu, F. Using Wikipedia to Bootstrap Open Information Extraction. SIGMOD Record, 37(4): 62-68, 2008.