16 depuydt inl
TRANSCRIPT
Enerzijds gebruiker
• (Oudste) voorkomens van woorden/begrippen
• Opsporen nog onbekende woorden/begrippen
Anderzijds: probeer bij te dragen aan ontsluiting materiaal
• Lexica voor tekstherkenning (OCR)
• Named entity recognition
• Zoeken onafhankelijk van vormvariatie
• Zoeken naar concepten die vroegen anders benoemd werden (aap;
boer; slager; dokter, .....)
INL en KB kranten
4
Lexica voor tekstherkenning
• 18th and 19th century books, newspapers, parliamentary papers • …….. • Provinciale Overijsselsche en Zwolsche courant : staats-, handels-, nieuws- en
advertentieblad, 1852-1852 • Rechtsgeleerd advis in de zaak van den gewezen stadhouder, en over deszelfs schryven aan
de gouverneurs van de Oost- en West-Indische bezittingen van den staat [...]. Ingelevert [...] op den 7 january 1796. / By B. Voorda et al, 1796-1796
• Verhaal van het levensgevaar, waar in zig drie Rotterdamsche burgers [...] bevonden hebben, te Utrecht, 1784-1784
• Vrijmoedige aanmerkingen, over de uitsluiting van allen die door publieke armkassen bedeeld worden, als stemgerechtigden [...] bij eene oproeping van het Nederlandsche volk tot eene Nationaale Conventie, 1795-1795
Titles: Curante uyt Italien, Duytslandt, & c, 1629 amsterdamse dingsdaegse courant, 1670 courante uyt italien duytslandt, 1618
1600-1700
Historisch NE gold standard corpus:
Tool voor produktie gold standard: https://github.com/INL/AttestationTool
Dataset OCR? Genre time period number of words
CONLL no Belgian (Flemish) newspapers 20th c. 332,000
DBNL no prose, poetry, plays,
non-fiction 18th and 19th c.
18th c: 581,099
19th c: 272,720
Staten Generaal (SG) yes parliamentary proceedings 19th and 20th c. 19th c: 273,797
20th c: 280,805
Newspapers (NP) yes various Dutch newspapers 19th c. 19th c: 254,253
Named entity recognition
Named entity recognition
NE-recognition op historisch materiaal is niet noodzakelijk slechter dan op modern materiaal
Belang van overeenkomst tussen trainingset (tijd, genre) en dataset waarop NE recognition moet worden uitgevoerd
Reductie van spellingvariatie en gebruik van gazetteers verbeteren de NE recognition
• Training files die bestaan uit random geselecteerde zinnen geven een beter
resultaat dan op hele teksten gebaseerd trainingmateriaal, vooral bij heterogeen materiaal als de DBNL.
Named entity recognition http://inl-labs.inl.nl
Historisch lexicon
• Vormvarianten met gedateerde attestaties • Lexicon web service • Gebruikt in Delpher, Nederlab, DBNL N-gram viewer, .... • http://www.delpher.nl/
Historisch semantisch lexicon • Historisch wordnet • Voegt tijdsdimensie toe • Enerzijds betekenisverandering van woorden die
zowel vroeger als nu voorkwamen • Anderzijds historische equivalenten van moderne
woorden • Ontwikkelen op basis van
– Historische woordenboeken (VMNW, MNW, WNT) – Open Dutch Wordnet (vgl http://cornetto.inl.nl) – Corpusmateriaal
Volgende stap: historisch semantisch lexicon • Vormvarianten met gedateerde attestaties • Lexicon web service • Gebruikt in Delpher, Nederlab, DBNL, n-gram viewer, .... • VOORBEELD uit Delpher halen
http://cornetto.inl.nl: bier, brouwsel, gerstenat (17 soorten) /
paarde(n)zeik
WNT:
NARCOTICUM -1: middel om iemand onder narcose te brengen
Dodonaeus, Ars Medica [ed. post 1624]; [1962]
NARCOTICUM-2: drug, bedwelmend middel
[1923]; [1938]; [1962]
DRUG-1: Als genotmiddel gebruikte, veelal verslavende stof met een
verdoovende, stimuleerende of hallucineerende werking
[1968][1969][1970]
Distributionele methoden
• (Kwantitatieve) Analyse van betekenisprofielen in corpora
• “You shall know a word by the company it keeps”
• Success stories:
– Gerelateerde/verwante woorden vinden
– Vectorruimten met betekenisvolle dimensies
– Cross-lectale” correspondenties (QLVL
Uitdagingen
• OCR en spellingvariatie
• Betekenisindeling woordenboeken niet geschikt (te veel detail)
• Afbakeningen: wat is een (bijna-)synoniem, etc..
• Welke woordrelaties hebben we nodig?
• Voor corpus-gebaseerde methoden: homonymie; integreren van
token-gebaseerde benadering
• Voor oudere fasen: meer corpusmateriaal nodig
• Etc, etc...