Katrien Depuydt

Download Katrien Depuydt

Post on 10-Jan-2016

44 views

Category:

Documents

2 download

Embed Size (px)

DESCRIPTION

Track 3: Historische lexicondata. Katrien Depuydt. Doel van track 3. Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboeken Trainingmateriaal voor PoS-taggen en lemmatiseren historisch Nederlands. Het historisch lexicon. Opbouw : - PowerPoint PPT Presentation

TRANSCRIPT

<p>PowerPoint Presentation</p> <p>Katrien DepuydtTrack 3: Historische lexicondata Doel van track 3Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboekenTrainingmateriaal voor PoS-taggen en lemmatiseren historisch NederlandsHet historisch lexiconOpbouw:</p> <p>Toekenning modern lemma en woordsoort aan alle woordvormenAttestatie-informatie bij de woordvormenKoppeling met de historische woordenboekenToepassingen van het historisch lexiconGebruik bij automatische taalkundige verrijkingReferentie bij interpretatie tekstenQuery-expansie: er kan met modern lemma als zoeksleutel gezocht wordenToepassingen van het historisch lexiconToepassingen van het historisch lexicon</p> <p>Hoe bouwen we hetWNT-gebaseerd IMPACT lexicon wordt basisUitbreiding met gegevens uit ONW, VMNW, MNWOnderlinge koppeling van de woordenboeken zodat we daadwerkelijk een lexicon krijgenUitbreiding gebaseerd op corpusmateriaal (historisch en modern)</p> <p>Ingredinten basislexiconONW : 9268 ingangen, 12619 definities, 30025 citatenVMNW: 25946 ingangen, 102202 definities, 194366 citatenMNW: 74773 ingangen, 144367 definities, 392244 citatenWNT: 467217 ingangen, 915637 definities, 1665537 citaten</p> <p>ingangen totaal: 577.204betekenissen totaal: 1.174.825citaten totaal: 2.282.172</p> <p>Werkwijze: lexiconinhoud uit woordenboekcitaten</p> <p>Uitgangspunt: WNT-module GiGaNT</p> <p>Onderlinge koppeling woordenboeklemmata</p> <p>Werkwijze: Corpusgebaseerde uitbreiding lexicon</p> <p>Trainingmateriaal voor taggen en lemmatiserenOmvang per periode en type materiaal: te bepalen!Werkwijze: automatische voorbewerking en correctie in CoBaLT (vgl. Kenter, Erjavec, orga Dulmin &amp; Fie 2012)Integratie met basislexiconDeliverablesD. 1.1 Uitbreiding van het GiGaNT-lexicon met de MNW-basismoduleD. 1.2 Uitbreding van het GiGaNT-lexicon met de VMNW-basismoduleD. 1.3 Uitbreiding van het GiGaNT-lexicon met de ONW-basismoduleD. 1.4 Eventueel uitbreiding van het GiGaNT-lexicon met modern materiaalD. 1.5 Periodespecifieke sets van spellingvariatieregels die in combinatie met het lexicon als webservice gebruikt moeten worden bij de verrijking. Tool ontwikkeld binnen IMPACT. Onderzoek nodig naar grootte van de periode.D. 1.6 Gold Standard corpusmateriaal voor het trainen van taggers en lemmatiseerders voor nog nader te definiren periodes, en ter aanvulling van het lexiconmateriaal van de verschillende periodes.</p>