web information extraction - extrakce informací z webu
Post on 15-Mar-2016
37 Views
Preview:
DESCRIPTION
TRANSCRIPT
1
Web Information extraction- extrakce informací z webu
NSWI14015.12.2010Jan Dědek
2
Obsah Extrakce pomocí struktury
Přehled Lixto VIDOME
Lingvistická extrakce “Semantic Czech”
Pojmenované entity (názvy) KIM
3
Extraction & Annotation
Tools
WebSemantized Web
AnnotatedWebPageWeb
Page
SemanticSearchEngine
Semantic Query
Semantic Repository
Extraction
Annotation
SearchEngine
Keyword Query
WebStore & Index
Sémantizace webu(skoro) automaticky
4
Extrakce pomocí struktury HTML wrapping Regulární výrazy
Ruční návrh pravidel Trénované Chytré GUI
5
WIE – Je to těžké?
WIE
6
WIE – ručně nebo automaticky?
Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan,"A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp. 1411-1428, October, 2006.
7
Hyper-tree
WIE – Má to nějakou teorii?
Gramatiky
Pravidla
Automaty
8
WIE - Přehled nástrojů
Chia
-Hui
Cha
ng, M
oham
med
Kay
ed, M
oheb
Ram
zy G
irgis,
Kha
led
F. S
haal
an,
"A S
urve
y of
Web
Info
rmat
ion
Extr
acti
on S
yste
ms,
" IEE
E Tr
ansa
ctio
ns o
n Kn
owle
dge
and
Data
Eng
inee
ring,
vol
. 18,
no.
10,
pp.
141
1-14
28, O
ctob
er, 2
006.
Lze dohledat
9
Lixto Visual Developer
10
VIDOME MDR algoritmus Implementace Dušan Maruščák 2007 DP KSI
Hledání podobných uzlů v DOM opakování
Extrakce pomocí „regulárních výrazů“ enumeration pattern minLength, maxLength keyWords
11
3 fáze extrakce1. Identifikace Data Regions
Datové regiony2. Identifikace Data Records
Datové záznamy3. Identifikace Data Attributes
Atributy datových záznamů Pomocí regulárních výrazů
Opakování v DOM
12
Datové regiony a záznamy (1)Souhrnná stránka
Datový záznam 2(nabídka 2)
Datový záznam 1(nabídka 1)
Stránka s detaily 1
odkaz na detaily odkaz na detaily
Popisky Hodnoty
≈
≈Stránka s detaily 2
Popisky Hodnoty
Odpovídající DOM strom
≈Dat. záznam 1 Dat. záznam 2
Datový region
13
Datové regiony a záznamy (2)
Identifiying Data Records
Differences Extraction
Identifiying Data Regions
Extracted Instance
Ontology
Attribute Identification
Attribute Labels
Detection
Master PageDOM Tree
Detail Page DOM Tree &
HTML Source
14
Datové regiony - příklad
15
Hledání datových regionů1 function BFSfindDR(LevelNodes)2 begin3 NextLevelNodes = Ø;4 regions = Ø;5 for each Node in LevelNodes do6 begin 7 regions=identDataRegions(normalized(Node.children));8 NextLevelNodes=NextLevelNodes U (Node.Children not in regions);9 end10 if NextLevelNodes != Ø11 return regions U BFDfindDR(NextLevelNodes);12 else return regions;13 end
Kde hledat v dalším zanoření
Už jsme našli
Rekurze
16
Datový záznam ve vícero uzlech<table>
<tr><td>
A1</td><td>
A2</td>
</tr><tr>
<td>
B1</td>
…</table>
17
identDataRegions
Podobnost uzlů Dvojic uzlů Trojic uzlů …
Podobnost ~ Editační vzdálenost
18
Levenshteinova editační vzdálenost= matcho subst+ ins- del
+1 „+“
+1„-“
+1 / 0„o / =“
Cíl
Zdro
j
19
Mapování do ontologie(zatím nedokončeno)
20
Java regexphttp://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html
Příklad: Character classes[abc] a, b, or c (simple class)[^abc]
Any character except a, b, or c (negation)[a-zA-Z] a through z or A through Z, inclusive (range)[a-d[m-p]] a through d, or m through p: [a-dm-p] (union)[a-z&&[def]] d, e, or f (intersection)[a-z&&[^bc]] a through z, except for b and c: [ad-z] (subtraction)
[a-z&&[^m-p]] a through z, and not m through p: [a-lq-z](subtraction)
\d A digit: [0-9]
21
22
VIDOME - shrnutí K dispozici na
http://www.ksi.mff.cuni.cz/~eckhardt/vyuka/swi108/ Pouze Win Instalace – viz dokumentce Server aplikace + Firefox plugin Výstup HTML nebo MySQL
Editace (nejen) regulárních výrazů ručně ontology/vidomeontology.owl
23
SimilaritySpider Implementace Michal Šenkýř 2010 DP KSI http://www.ksi.mff.cuni.cz/~dedek/SimilaritySpider/
24
SimilaritySpider - Hlavní okno aplikace
25
SimilaritySpider - Štítkovací rozhraní
26
Lingvistická extrakce Nejprve pdf prezentace
Viz: 20101005_Dedek_Uzivatelsko-webovy_seminar.pdf
27
Extrakční pravidlo…ochrana životního prostředí
1
3
4
2
5
t_lemma = uniknout | unikat | vytéci
_name = unit
gram/sempos = adj.quant.def_name = amount
_optional = truefunctor = DIR3
_name = where
functor = MAT_name = material
Example of a linguistic tree
jihmor56559.txt-001-p1s3
litre
diesel
"into" water stream
(1)(2)
(5)(3)
(4)
"Due to the clash the throat of fuel tank tore off and 800 litres of oil (diesel)has run out to a stream."
“Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.”
29
<QueryMatches> <Match root_id="jihmor56559.txt-001-p1s3" match_string="15:0,16:4,22:1,23:2,27:3"> <Sentence>Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.</Sentence> <Data> <Value variable_name="amount" attribute_name="t_lemma">800</Value> <Value variable_name="unit" attribute_name="t_lemma">l</Value> <Value variable_name="material" attribute_name="t_lemma">nafta</Value> <Value variable_name="where" attribute_name="t_lemma">potok</Value> </Data> </Match> <Match root_id="jihmor68220.txt-001-p1s3" match_string="3:0,12:4,21:1,22:2,27:3"> <Sentence>Z palivové nádrže vozidla uniklo do půdy v příkopu vedle silnice zhruba 350 litrů nafty, a proto byli o události informováni také pracovníci odboru životního prostředí Městského úřadu ve Vyškově a České inspekce životního prostředí.</Sentence> <Data> <Value variable_name="amount" attribute_name="t_lemma">350</Value> <Value variable_name="unit" attribute_name="t_lemma">l</Value> <Value variable_name="material" attribute_name="t_lemma">nafta</Value> <Value variable_name="where" attribute_name="t_lemma">půda</Value> </Data> </Match>...
litre
dieselwater stream
soil
Experimental results – extracted data
30
Pojmenované entity
31
Pojmenované entity Lingvistický přístup
<Location>Barbados</Location> Sémantický přístup<Island ID=“http://...#Island.1234”>
Barbados</Island>
Nejčastěji využívaný framework GATEhttp://www.gate.ac.uk
32
KIM Platform Novinové články Velká KB
Integrací mnoha DB Zeměpisné Obchodní
http://www.ontotext.com/kim
33
KIM Ontology
34
KIM KB (2006)RDF Statements Small KB Full KB
- explicit 444,086 2,248,576
- after inference 1,014,409 5,200,017
Instances
- Entity: 40,804 205,287 - Location: 12,528 35,590
- Country: 261 261
- Province: 4,262 4,262
- City: 4,400 4,417
- Organization: 8,339 146,969 - Company: 7,848 146,262
- Person: 6,022 6,354
- Alias: 64,589 429,035
35
KIM funkcionalita Animace
http://ontotext.com/kim/KIM-demo.htmlhttp://ontotext.com/kim/core-timelines.htm
top related