gerência de dados da web -...

67
Gerência de Dados da Web Extração de Dados da Web Alberto H. F. Laender 2011

Upload: vanlien

Post on 22-Jun-2018

243 views

Category:

Documents


0 download

TRANSCRIPT

Gerência de Dados da Web

Extração de Dados da WebAlberto H. F. Laender

2011

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Sumário

� Caracterização do Problema

� Principais Dificuldades

� Exemplo Preliminar

� Desenvolvimento de Extratores

� Taxonomia Geral

� Abordagens para Extração de Dados� Abordagens Baseadas em Contexto

� Abordagens Baseadas em Conteúdo

� Exemplos de Aplicações

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Caracterização do Problema

� Apesar do advento da linguagem XML, muitas aplicações na Web ainda dependem de wrappers (extratores) para extração de dados

� Dada uma página Web So, contendo um conjunto de objetos implícitos, um extrator W é um mapeamento capaz de gerar um repositório R com objetos de So

� Um extrator W deve ser capaz de reconhecer e extrair objetos de outras páginas Si similares a So

Wrapper

So,S1,..,Sn WR

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Um Caso Típico: Como Utilizar os Dados?

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Principais Dificuldades

� Dados de interesse são cadeias de caracteres geralmente misturadas a marcadores (“tags”) símbolos diversos, linhas de código, entre outros tipos de informação textual não relevantes

� Não existe qualquer esquema ou estrutura previamente declarada

� A estrutura existente é apenas implícita e, quase sempre, irregular

� Não há “pistas” linguísticas a serem seguidas

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Exemplo: Uma Página Simples

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Exemplo: Resultado da Extração

<doc><cd><artista>Ten Years After</><album>Positive Vibrations</><preço>17.20</></><cd><artista>Jethro Tull</><album>Roots to Branches</><preço>18.90</></> <cd><artista>Beatles</><album>Abbey Road</><preço>17.50</></>

</>

Artista Album Preço-----------------------------------------------------------------------Ten Years After Positive Vibrations 17.20Jethro Tull Roots to Branches 18.90Beatles Abbey Road 17.50

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Extração de Dados: Classificação[Sarawagi, 2008]

� Extração de registros

� O extrator identifica os limites dos registros e extrai os atributos correspondentes

� Extração de páginas

� O extrator identifica um padrão geral e extrai todo o conteúdo da página

� Extração de sítios

� O extrator extrai dados navegando através de diferentes páginas de um sítio

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Desenvolvimento de Extratores

� Extratores de dados são geralmente desenvolvidos de forma manual (“força bruta”), o que implica em:� Esforço de programação� Necessidade de constante manutenção devido a mudanças na

estrutura das fontes de dados

� Alternativa: � Desenvolvimento de ferramentas para geração automática ou

semi-automática de extratores� Exemplos: TSIMMIS (1997), WIEN (1997), Minerva (1998), SRV

(1998), WebOQL (1998), NoDoSE (1998), WHISK (1999), RAPIER (1999), BYUTool (1999), STALKER (1999), WF4 (1999), XWRAP (1999), DEByE (1999), IEPAD (2001), RoadRunner (2001), EXALG (2003), Thresher (2005) DEPTA (2005), FLUX-CIM (2007), TextRunner (2007), WebTables (2008), XPath (2009), ViDE (2010), Ondux (2010), JUDIE (2011)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Desenvolvimento de ExtratoresUso de Expressões Regulares

(a) - (e) são extratores para nomes de artista; (f) não(a) - (c) são extratores robustos e completos(d) é um extrator robusto mas não completo(e) é um extrator completo mas não robusto

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas para Geração de ExtratoresTaxonomia Geral [Chang et al, 2006]

� Ferramentas Manuais� TSIMMIS, Minerva, WebOQL, W4F, XWRAP, BYUTool

� Ferramentas Supervisionadas� RAPIER, WIEN, WHISK, NoDoSE, STALKER,

SoftMealey

� Ferramentas Semi-Supervisionadas� IEPAD, Thresher, DEByE

� Ferramentas Não Supervisionadas� RoadRunner, DeLa, DEPTA, FLUX-CIM, XPath,

Ondux, JUDIE

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Taxonomia Geral[Chang et al., 2006]

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Abordagens para Extração de Dados[Laender et al., 2002]

� Abordagens baseadas em contexto:� Linguagens especializadas

� Análise da estrutura HTML

� Processamento de linguagem natural

� Técnicas de indução

� Modelagem de dados

� Abordagens baseadas em conteúdo:� Uso de ontologias

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

� Oferecem facilidades específicas para auxiliar na tarefa de geração de extratores

� Constituem uma abordagem eficiente para extração de dados da Web

� Apresentam alguns inconvenientes:

� Desenvolvimento manual

� Dificuldades de manutenção

� Inadequadas para usuários não-especializados

� Exemplos: TSIMMIS, WebOQL, Minerva

Linguagens para Geração de Extratores

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Linguagens para Geração de ExtratoresMinerva [Crescenzi & Mecca,1998]

� Formalismo para descrição de gramáticas� Para cada tipo de documento é definida uma gramática a

partir da qual é gerado um extrator� Incorpora um mecanismo de manipulação de exceções

ao analisador sintático da gramática� Gramática é definida no estilo EBNF:

� Produções definem como um objeto é identificado na página

� Regras de exceção podem ser definidas � Recursão não é permitida

� Objetos extraídos correspondem a tuplas

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Linguagens para Geração de ExtratoresMinerva

PAGE CdNow $CdNow: *<TR>*<TR>*<TR>*<TABLE[ ]WIDTH=427[ ]CELLPADDING=0[ ]CELLSPACING=0[ ]BORDER=0>*</TR> ( $RecOfCd )+ ; $RecOfCd: <TR>*<FONT[ ]size=-1>$ArtistName</FONT>*<FONT[ ]size=-1[ ]color="#990066"> $Title { $Title.cutAll("</a>" , ""); } </FONT>*<font[ ]size=-1>$Price</font>*<B>*</B>*<B>$Discount $TP1</B>*</TR>; $ArtistName: *(?</FONT>) ; $Title: *(?</FONT>) ; $Price: *(?</font>) ; $Discount: *(?</B>) ; $TP1: [ $ArtistName, $Title, $Price,$Discount ] END

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas na Estrutura HTML

� Se utilizam das características estruturais inerentes das páginas HTML � específicas para páginas HTML

� Em geral pressupõem o uso consistente de marcadores e estruturas HTML (tabelas, listas, etc.)

� Transformam as páginas em uma árvore que representa a hierarquia de seus marcadores

� Regras de extração são geradas (semi-)automaticamente para extrair dados nas folhas da árvore

� Geralmente propiciam um bom grau de automação

� Exemplos: W4F, XWRAP, RoadRunner, EXALG, DeLa, DEPTA

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas na Estrutura HTMLRoadRunner [Crescenzi, Mecca & Merialdo, 2001]

� Explora diferenças e similaridades entre páginas de umamesma coleção para inferir um padrão (regras) de extração e gerar um extrator (wrapper)

� Tem como alvo páginas de sítios intesivos em dados (data-intensive sites)� Páginas HTML geradas automaticamente por meio de scripts a

partir do conteúdo de um banco de dados� Páginas geradas por um mesmo script definem uma classe

(coleção) � estrutura similar� Extrator gerado é uma Union-Free Regular Expression que

é generalizada a partir de uma página inicial w com base emdiferenças (mismatches) encontradas em relação a umapágina de exemplo p� String mismatches

� Tag mismatches

� Objetos extraídos podem ser hierarquicamente estruturados

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas na Estrutura HTMLRoadRunner - Páginas de Exemplo

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas na Estrutura HTMLRoadRunner - Resultado da Extração

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas na Estrutura HTMLRoadRunner - Generalização do Extrator

� String Mismatch (valores): substitui cadeias de caracteres por #PCDATA� Tag mismatch (opcional): generaliza o extrator procurando por padrões

opcionais� Tag mismatch (iterações): generaliza o extrator procurando por repetições

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em PLN

� Utilizam técnicas de processamento de linguagem natural para gerar regras de extração

� Regras de extração baseadas em restrições sintáticas e semânticas existentes nos documentos

� Usualmente requerem um pré-processamento para identificação de elementos sintáticos no documento

� Mais adequadas para documentos contendo texto livre (ex., classificados, anúncios, memorandos, etc.)

� Exemplos: WHISK, SRV, RAPIER

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em PLNRAPIER [Califf & Mooney, 1999]

� Regras de extração geradas a partir de templatespreenchidos previamente (funcionam como exemplos)

� Regras incluem padrões de prenchimento (filler) e de definição de contexto (pre-filler, pos-filler)

� Relações entre os padrões de preenchimento definidasatravés de técnicas de relational learning

� Documentos devem ser pré-processados parareconhecimento de componentes sintáticos (part-of-

speech tagger)

� WordNet usado para prover informação semântica

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em PLNRAPIER

Pre-Filler Pos-FillerFiller

Regra de Extração

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em Indução

� Utilizam técnicas de aprendizagem de máquina ou modelos probabilísticos para geração semi-automática de extratores

� Recebem como entrada exemplos do que deve ser extraído

� Regras de extração são baseadas nos separadores que delimitam os dados de interesse

� Mais convenientes para documentos HTML do que as ferramentas baseadas em PLN

� Exemplos: WEIN, STALKER, SoftMealy, IEPAD

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em InduçãoSTALKER [Muslea et. al., 1999]

� Recebe como entrada:� Conjunto de exemplos (training examples)� Descrição da estrutura da página alvo (EC-Tree)

� Gera como saída regras de extração que generalizam osexemplos fornecidos

� Para cada atributo é gerado um conjunto de regrasdisjuntivas, cada uma cobrindo um dos exemplosfornecidos

� Ao contrário de outras ferramentas baseadas emindução, consegue lidar com estruturas aninhadas

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em InduçãoSTALKER

Regras de Extração

SkipTo(Name)SkipTo(<b>)SkipTo(Name)SkipTo(HTMLTag)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em Modelagem

� Requerem uma descrição da estrutura dos objetos(dados) a serem extraídos

� Também utilizam exemplos para geração de padrões de extração

� Procuram encontrar objetos com estrutura e contextosemelhantes aos dos exemplos nas páginas-alvo

� Usam técnicas semelhantes às das ferramentas de indução

� São, em geral, mais “leves” do que as ferramentasbaseadas em indução que requerem treinamento

� Exemplos: NoDoSE, DEByE

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE - Data Extraction By Example [Laender et al., 2002]

� Adota o paradigma de tabelas aninhada para representar a estrutura dos objetos de intereste

� Ferramenta interativa, utiliza uma interface gráfica paraespecificação de exemplos

� Exemplos extraídos de uma página de amostra� Implementa algumas operações visuais para criar tabelas,

copiar e colar examplos, e prover realimentação de exemplos� Padrões para extração de objetos gerados a partir dos

exemplos especificados� Utiliza uma estratégia de extração bottom-up que permite lidar

com atributos faltantes ou fora de ordem� Permite a extração de dados com estrutura aninhada e

apresentando variações

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE - Visão Geral

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE - Modelagem de Objetos

� Na abordagem DEByE, os dados (de páginas da Web) são vistos como objetos complexos

� Exemplo: páginas do TODS na DBLP

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE - Modelagem de Objetos

Edition

Article

Author

Volume=“20”

Number=“1”

Date=“March 1995”

Pages=“3-41”

Title=“Static...”

{“Alexander Aiken”,...}

1º Nível2º Nível

Objetos Complexos

Objetos Atomicos ouAtribute-Value Pairs (AVP)

(tuplas, listas, variantes)

Objetos complexos podem ser

representados por tabelas aninhadas

com variações (“variantes”)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE - Interface Gráfica

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE - Resultado da Extração

<TUPLE type="TODS">

<ATOM type="Volume"><VALUE> 2 </VALUE>

</ATOM><ATOM type="Number">

<VALUE> 1 </VALUE></ATOM><ATOM type="Date">

<VALUE> March 1995 </VALUE></ATOM><LIST type="Article">

<TUPLE type="Article"><LIST type="Authors">

<ATOM type="Authors"><VALUE> Alexander Aiken </VALUE>

</ATOM>...

</LIST><ATOM type="Title">

<VALUE> Static Analysis ... </VALUE></ATOM><ATOM type="Pages">

<VALUE> 3-41 < /VALUE></ATOM>

</TUPLE></LIST>

</TUPLE>

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE - Visualização da Extração

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE – Processo de Extração

Gerador de Padrões

Extrator

Coleção de Páginas

AVP Patterns

Objetos de Exemplo

Objetos Extraídos

OE Pattern

Amostra

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE – AVP Patterns

� Padrões textuais para identificação de instâncias de um dado tipo

� Podem existir mais de um padrão para cada tipo� Gerados a partir dos exemplos retirados pelo usuário da

página de amostra

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE – Exemplo de um OE Pattern

<TUPLE type="TODS"><ATOM type="Volume">

<PATTERN><![CDATA[Volume[\s]*?([0-9]+)[\s]*?(?=,)]]></PATTERN></ATOM><ATOM type="Number">

<PATTERN><![CDATA[Number[\s]*?([0-9]+)[\s]*?(?=,)]]></PATTERN></ATOM><ATOM type="Date">

<PATTERN><![CDATA[,[\s]*?([\x20-\x3B\x3D\x3F-\x7E\xC0-xFF]+?)[\s]*?(?=</h2>)]]></PATTERN></ATOM><LIST type="Article">

<TUPLE type="Article"><LIST type="Authors">

<ATOM type="Authors"><PATTERN><![CDATA[<a name="[^"]*?" href="[^"]*?"F]+?)[\s]*?(?=</a>)]]></PATTERN>

</ATOM>....

</LIST><ATOM type="Title">

<PATTERN><![CDATA[<b>[\s]*?([\x20-\x3B\x7E\xC0-\xFF]+?)[\s]*?(?=\.)]]></PATTERN></ATOM><ATOM type="Pages">

<PATTERN><![CDATA[</b>[\s]*?([0-9]+-?[0-9]*)[\s]*?(?=,)]]></PATTERN></ATOM></TUPLE>

</LIST></TUPLE>

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em ModelagemDEByE – Extração Bottom-up

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em Ontologias

� Requerem a construção prévia de uma ontologia para o domínio de aplicação considerado

� Processo de extração consiste em encontrar nas páginas-alvo cadeias de caracteres que satisfazem as propriedadesdescritas na ontologia

� Uma vez construída, a ontologia é aplicável a qualquerpágina do domínio considerado

� Ontologia geralmente construída manualmente

� Ferramenta mais representativa: desenvolvida pelo BYU DEG (BYUTool) [Embley et al., 1999]

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em OntologiasBYUTool [Embley el al., 1999]

� Ontologia corresponde a um esquema conceitualexpandido descrito com base no modelo OSM

� A ontologia deve ser construída para cadadomínio específico definindo: � Objetos, relacionamentos e restrições� Constantes e palavras-chave

� Voltada para páginas que:� Possuam “escopo ontológico” limitado� Sejam “ricos em dados”

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em OntologiasBYUTool – Visão Geral

Database Description

Record-Level Object,

Relationships,

and Constraints

Database

Scheme

Record Extractor

Web Pager

Unstructured

Record Documents

Application Ontology

Object-Relationship

Model Instance

Data Frames

Lexicons

Constant/Keyword

Matching Rules

Populated Database

Database-Instance

Generator

Constant/Keyword

Recognizer

Data-Record Table

(Descriptor/String/Position

Ontology

Parser

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em OntologiasBYUTool – Exemplo de uma Página HTML

<html><head><title>The Salt Lake Tribune … </title></head><body bgcolor=“#FFFFFF”><h1 align=”left”>Domestic Cars</h1>…<hr><h4> ‘97 CHEVY Cavalier, Red, 5 spd, only 7,000 miles on her.Previous owner heart broken! <b>Asking only $11,995.</b> #1415JERRY SEINER MIDVALE, 566-3800 or 566-3888 </h4><hr><h4> ‘85 DODGE Daytona, needs paint, runs great. Offer. 262-7557 </h4><hr>…</body></html>

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em OntologiasBYUTool – Exemplo de uma Ontologia

Year Price

MakeMileage

Model

Feature

PhoneNr

Extension

Car

hashas

has

has

is for

has

has

has

1..*

0..1

1..*

1..* 1..*

1..*

1..*

1..*

0..1 0..10..1

0..1

0..1

0..1

0..*

1..*

Gráfica

Car [0:1] has Year [1:*];Year {regexp[2]: “\d{2} : \b’\d{2}\b, … };Car [0:1] has Make [1:*];Make {regexp[10]: “\bchev\b”, “\bchevy\b”, … };Car [0:1] has Model [1:*];Model {…};Car [0:1] has Mileage [1:*];Mileage {regexp[8] “\b[1-9]\d{1,2}k”,

“1-9]\d?,\d{3} : [^\$\d][1-9]\d?,\d{3}[^\d]” }{context: “\bmiles\b”, “\bmi\.”, “\bmi\b”};

Car [0:*] has Feature [1:*];Feature {regexp[20]:

-- Colors“\baqua\s+metallic\b”, “\bbeige\b”, …

-- Transmission“(5|6)\s*spd\b”, “auto : \bauto(\.|,)”,

-- Accessories“\broof\s+rack\b”, “\bspoiler\b”, …

...

Textual

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em OntologiasBYUTool: Analisador de Ontologia

Make : chevy…KEYWORD(Mileage) : \bmiles\b...

create table Car (Car integer,Year varchar(2),… );

create table CarFeature (Car integer,Feature varchar(10));

...

Object: Car;...Car: Year [0..1];Car: Make [0..1];…CarFeature: Car [0..*] has Feature [1..*];

ApplicationOntology

OntologyParser

Constant/KeywordMatching Rules

Record-Level Objects,Relationships, and Constraints

DatabaseScheme

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em OntologiasBYUTool – Extrator de Registros

<html>…<h4> ‘97 CHEVY Cavalier, Red, 5 spd, … </h4><hr><h4> ‘85 DODGE Daytona, needs paint, … </h4><hr>….</html>

…#####‘97 CHEVY Cavalier, Red, 5 spd, …#####‘85 DODGE Daytona, needs paint, …#####...

UnstructuredRecords

RecordExtractor

Web Page

html

head

title

body

… hr h4 b hr h4 ...h1

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em OntologiasBYUTool - Reconhecedor de Constantes e Palavras-chave

Descriptor/String/Position(start/end)

‘97 CHEVY Cavalier, Red, 5 spd, only 7,000 miles on her.Previous owner heart broken! Asking only $11,995. #1415JERRY SEINER MIDVALE, 566-3800 or 566-3888

Year|97|2|3Make|CHEV|5|8Make|CHEVY|5|9Model|Cavalier|11|18Feature|Red|21|23Feature|5 spd|26|30Mileage|7,000|38|42KEYWORD(Mileage)|miles|44|48Price|11,995|100|105Mileage|11,995|100|105PhoneNr|566-3800|136|143PhoneNr|566-3888|148|155

Constant/KeywordRecognizer

UnstructuredRecords

Constant/KeywordMatching Rules

Data-Record Table

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Ferramentas Baseadas em OntologiasBYUTool - Gerador de Instâncias

Year|97|2|3Make|CHEV|5|8Make|CHEVY|5|9Model|Cavalier|11|18Feature|Red|21|23Feature|5 spd|26|30Mileage|7,000|38|42KEYWORD(Mileage)|miles|44|48Price|11,995|100|105Mileage|11,995|100|105PhoneNr|566-3800|136|143PhoneNr|566-3888|148|155

insert into Car values(1001, “97”, “CHEVY”, “Cavalier”,“7,000”, “11,995”, “556-3800”)

insert into CarFeature values(1001, “Red”)insert into CarFeature values(1001, “5 spd”)

Database-InstanceGenerator

Data-Record Table

Record-Level Objects,Relationships, and Constraints

DatabaseScheme

PopulatedDatabase

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Comparação das Abordagens

Não

Supervisionadas

Fonte: [Laender et al, 2002]

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Exemplos de Aplicações

� Construção de bibliotecas digitais a partir de dados disponíveis na Web

� Extração de informação espacial de dados daWeb

� Extração notícias de sítios especializados� Construção de uma base de conhecimento de

larga escala a partir de dados da Web

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

O Ambiente Web-DL[Calado et al, 2003]

Combina ferramentas de extração de dados e de criação de bibliotecas digitais para coletardados bibliográficos disponíveis na Web e disponibilizá-los por meio de serviços específicos

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Estudo de Caso: NDLTDExtração e Normalização de Dados

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Estudo de Caso: NDLTDPublication dos Dados

9595 ETDs carregadosna NDLTD

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Acquisição de Informação Espacial[Borges et al, 2003]

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Estudo de Caso: Belo Horizonte Extração de Dados e Geocoficação

NAME TYPE ThNAME NUMBER NEIGHBORHOOD FIDEND

BUONA TÁVOLA TRATTORIA RUA SANTA RITA DURAO 00309 Funcionários 06127000309CANTINA FRANELLI RUA DA BAHIA 01216 Centro 08115501216DONA DERNA RUA TOME DE SOUZA 01380 Savassi 06799801380GALETO ITÁLIA RUA ALAGOAS 01417 Savassi 00167801417GALETO ITÁLIA RUA DA BAHIA 01022 Bahia Shopping Lj. 13 08115501022L'OSTERIA CASA MATTIAZZI RUA SOLEDADE 00026 Stª Efigênia 06626000026POMODORO RUA SAO PAULO 00957 Centro Shopping Cidade 06346400957SPLÊNDIDO RISTORANTE RUA LEVINDO LOPES 00251 Savassi 04083000251VECCHIO SOGNO RISTORANTE RUA MARTIM DE CARVALHO 00075 Sto Agostinho 04494400075

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Estudo de Caso: Belo HorizonteMapas Locais

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Extração Automática de Notícias[Reis et al, 2004]

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Estudo de Caso: Sítios de Notícia BrasileirosResultados

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

O Ambiente YAGO-NAGO[Kasneci et al, 2008]

NAGO

YAGO usa uma variedade de técnicas de extração de dados baseadas em padrões, PNL e aprendizado de máquina

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Extrato da Ontologia YAGO

YAGO contém cerca de 20 milhões de fatos para 93 tipos diferentes de relações binárias, envolvendo mais de 2 milhões de entidades individuais de cerca de 250 mil classes

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Tópicos Específicos

� Bootstrapping� Como gerar exemplos automaticamente?

� Resiliência� Como gerar extratores resilientes?

� Adaptatividade� Como adaptar extratores para tarefas de extração

similares? � Acesso a Dados da Web Oculta

� Como ter acesso a dados armazenados em bancos de dados e torná-los disponíveis através de intefacesbaseadas em formulários?

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Bootstrapping

� Dados disponíveis em repositórios pré-existentes são usados paracompor automaticamente novos exemplos

� Premissas básicas:� Existe alguma interseção entre o conteúdo de um repositório R e

o sítio Web alvo S

� A estrutura dos objetos em R pode ser usada para modelar osobjetos implícitos existentes nas páginas de S

� Ver [Weld et al, 2008] para uma abordagem baseada na Wikipedia

Fonte: [Golgher et al, 2001]

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Extratores Resilientes

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Extratores Adaptáveis

Ver [Gupta and Sarawagi, 2008] para uma abordagem formal para adaptaçãode extratores

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Acceso a Dados da Web Oculta

Fonte: [Barbosa and Freire, 2005]

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Referências

� Borges, K.A.V. Laender, A.H.F.; Medeiros, C.B.; Silva, A.S.; Davis Jr, C.D. The Web as a Data Source for Spatial Databases. In Proc. of the V Brazilian Symposium on Geoinformatics, Campos do Jordão, São Paulo, 2003.

� Barbosa, L.; Freire, J. Searching for Hidden-Web Databases.In Proc. of the Eight International Workshop on the Web and Databases, Baltimore, Maryland, 2005, pp. 1-6.

� Calado, P.; Gonçalves, M.A.; Fox, E.A.; Ribeiro-Neto, B.; Laender, A.H.F.; Silva, A.S.; Reis, D.C.; Roberto, P.A.; Vieira, M.V. Lage, J.P. The Web-DL Environment for Building Digital Libraries from the Web. In Proc. of the ACM/IEEE Joint Conference on Digital Libraries, Houston, Texas, 2003, pp. 346-357.

� Califf, M.E; Mooney, R.J. Relational Learning of Pattern-Match Rules for Information Extraction. In Proc. of the 16th Nat’l Conf. on Artificial Intelligence, Orlando, FL, 1999, pp. 328-334.

� Chang, C.-H.; Kayed, M.; Girgis, M. R.; Shaalan, K. F. A Survey of Web Information Extraction Systems. IEEE Trans. Knowl. Data Eng. 18, 10 (2006), 1411-1428.

� Crescenzi, V.; Mecca, G. Grammars Have Exceptions. Inf. Syst. 23, 8 (1998), 539-565.

� Crescenzi, V.; Mecca, G.; Merialdo, P. RoadRunner: Towards Automatic Data Extraction from Large Web Sites. In Proc. of the 29th Int’l Conf. on Very Large Data Bases, Rome, Italy, 2001, pp. 109-118.

� Embley, D.W. et al. Conceptual-model-based data extraction from multiple-record web pages. Data and Knowledge Eng. 31, 3 (1999), 227-251.

� Etzioni, O.; Banko, M. ; Soderland, S.; Weld, D.S. Open Information Extraction from the Web. Commun. ACM 51(12): 68-74, 2008.

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Referências

� Golgher, P.B.; Silva, A.S.; Laender, A.H.F.; Ribeiro-Neto, B. Bootstrapping for Example-Based Data Extraction. In Proc of the ACM CIKM International Conference on Information and Knowledge Management, Atlanta, Georgia, 2001, pp. 371-378.

� Gupta, R.; Sarawagi, S. Domain Adaptation of Information Extraction Models. SIGMOD Record, 37(4): 35-40, 2008.

� Kasneci, G.; Ramanath, M.; Suchanek, F.M; Weikum, G. The YAGO-NAGA Approach to KnowledgeDiscovery. SIGMOD Record 37(4): 41-47, 2008.

� Laender, A.H.L, Ribeiro-Neto, B., Silva, A.S.; Teixeira, J.S. A Brief Survey of Web Data Extraction Tools. SIGMOD Record 31, 2 (June 2002), 84-93.

� Laender, A.H.L.; Ribeiro-Neto, B.; Silva, A.S. DEByE – Data extraction by example. Data and Knowledge Eng. 40, 2 (2002), 121-154.

� McCallum, A. Information Extraction: Distilling Structured Data from Unstructured Text. ACM Queue3(9): 48-57, 2005.

� Muslea, I. et al. A Hierarchical Approach to Wrapper Induction. In Proc. of the Third Annual Conf. on Autonomous Agents, Seattle, WA, 1999, pp. 190-197.

� Reis, D.C.; Golgher, P.B.; Silva, A.S.; Laender, A.H.F. Automatic Web News Extraction Using Tree Edit Distance. In Proc. of the 13th International Conference on World Wide Web, New York, NY, 2004, pp. 502-511.

� Sarawagi, S. Information Extraction. Foundations and Trends in Databases, 1(3): 261-377, 2008.

� Weld, D.S.; Hoffmann, R.; Wu, F. Using Wikipedia to Bootstrap Open Information Extraction. SIGMOD Record, 37(4): 62-68, 2008.