Download - Katrien Depuydt

Transcript
Page 1: Katrien Depuydt

Katrien Depuydt

Track 3: Historische lexicondata

Page 2: Katrien Depuydt

Doel van track 3

Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboeken

Trainingmateriaal voor PoS-taggen en lemmatiseren historisch Nederlands

Page 3: Katrien Depuydt

Het historisch lexicon

Opbouw:

Toekenning “modern lemma” en woordsoort aan alle woordvormen

Attestatie-informatie bij de woordvormen Koppeling met de historische woordenboeken

Page 4: Katrien Depuydt

Toepassingen van het historisch lexicon

Gebruik bij automatische taalkundige verrijking Referentie bij interpretatie teksten Query-expansie: er kan met modern lemma als

zoeksleutel gezocht worden

Page 5: Katrien Depuydt

Toepassingen van het historisch lexicon

Bulga

rian

Czech

180

0-18

09

Czech

181

0-18

42

Czech

184

3-18

49

Czech

185

0

Dutch

Engl

ish

Fren

ch

Germ

an 1

6

Germ

an 1

7

Germ

an 1

8

Germ

an 1

9

Polis

h

Polis

h 2

Slov

ene

Span

ish

0

0.2

0.4

0.6

0.8

1

1.2

Modern lexicon coverage Match with modern lexicon and patterns (MP) Match with modern and historical lexicon (MH)Match with modern lexicon, historical lex-icon and patterns (MHP)

Page 6: Katrien Depuydt

Toepassingen van het historisch lexicon

Page 7: Katrien Depuydt

Hoe bouwen we het

WNT-gebaseerd IMPACT lexicon wordt basis Uitbreiding met gegevens uit ONW, VMNW,

MNW Onderlinge koppeling van de woordenboeken

zodat we daadwerkelijk een lexicon krijgen Uitbreiding gebaseerd op corpusmateriaal

(historisch en modern)

Page 8: Katrien Depuydt

Ingrediënten basislexicon

ONW : 9268 ingangen, 12619 definities, 30025 citaten

VMNW: 25946 ingangen, 102202 definities, 194366 citaten

MNW: 74773 ingangen, 144367 definities, 392244 citaten

WNT: 467217 ingangen, 915637 definities, 1665537 citaten

ingangen totaal: 577.204 betekenissen totaal: 1.174.825 citaten totaal: 2.282.172

Page 9: Katrien Depuydt

Werkwijze: lexiconinhoud uit woordenboekcitaten

Page 10: Katrien Depuydt

Uitgangspunt: WNT-module GiGaNT

Page 11: Katrien Depuydt

Onderlinge koppeling woordenboeklemmata

Page 12: Katrien Depuydt

Werkwijze: Corpusgebaseerde uitbreiding lexicon

Page 13: Katrien Depuydt

Trainingmateriaal voor taggen en lemmatiseren

Omvang per periode en type materiaal: te bepalen!

Werkwijze: automatische voorbewerking en correctie in CoBaLT (vgl. Kenter, Erjavec, Žorga Dulmin & Fiše 2012)

Integratie met basislexicon

Page 14: Katrien Depuydt

Deliverables

D. 1.1 Uitbreiding van het GiGaNT-lexicon met de MNW-basismodule

D. 1.2 Uitbreding van het GiGaNT-lexicon met de VMNW-basismodule

D. 1.3 Uitbreiding van het GiGaNT-lexicon met de ONW-basismodule

D. 1.4 Eventueel uitbreiding van het GiGaNT-lexicon met modern materiaal

D. 1.5 Periodespecifieke sets van spellingvariatieregels die in combinatie met het lexicon als webservice gebruikt moeten worden bij de verrijking. Tool ontwikkeld binnen IMPACT. Onderzoek nodig naar grootte van de periode.

D. 1.6 Gold Standard corpusmateriaal voor het trainen van taggers en lemmatiseerders voor nog nader te definiëren periodes, en ter aanvulling van het lexiconmateriaal van de verschillende periodes.


Top Related