16 depuydt inl

32
1 KB 24 maart 2015 Het INL en de KB-kranten Katrien Depuydt, hoofd Taalbank Nederlands

Upload: ingeangevaare

Post on 15-Jul-2015

56 views

Category:

Government & Nonprofit


0 download

TRANSCRIPT

1

KB 24 maart 2015

Het INL en de KB-kranten

Katrien Depuydt, hoofd Taalbank Nederlands

Bron van informatie

KB-krantenmateriaal: relatieve frequenties

Enerzijds gebruiker

• (Oudste) voorkomens van woorden/begrippen

• Opsporen nog onbekende woorden/begrippen

Anderzijds: probeer bij te dragen aan ontsluiting materiaal

• Lexica voor tekstherkenning (OCR)

• Named entity recognition

• Zoeken onafhankelijk van vormvariatie

• Zoeken naar concepten die vroegen anders benoemd werden (aap;

boer; slager; dokter, .....)

INL en KB kranten

4

Lexica voor tekstherkenning

• 18th and 19th century books, newspapers, parliamentary papers • …….. • Provinciale Overijsselsche en Zwolsche courant : staats-, handels-, nieuws- en

advertentieblad, 1852-1852 • Rechtsgeleerd advis in de zaak van den gewezen stadhouder, en over deszelfs schryven aan

de gouverneurs van de Oost- en West-Indische bezittingen van den staat [...]. Ingelevert [...] op den 7 january 1796. / By B. Voorda et al, 1796-1796

• Verhaal van het levensgevaar, waar in zig drie Rotterdamsche burgers [...] bevonden hebben, te Utrecht, 1784-1784

• Vrijmoedige aanmerkingen, over de uitsluiting van allen die door publieke armkassen bedeeld worden, als stemgerechtigden [...] bij eene oproeping van het Nederlandsche volk tot eene Nationaale Conventie, 1795-1795

5

1700-2000

Titles: Curante uyt Italien, Duytslandt, & c, 1629 amsterdamse dingsdaegse courant, 1670 courante uyt italien duytslandt, 1618

1600-1700

Historisch NE gold standard corpus:

Tool voor produktie gold standard: https://github.com/INL/AttestationTool

Dataset OCR? Genre time period number of words

CONLL no Belgian (Flemish) newspapers 20th c. 332,000

DBNL no prose, poetry, plays,

non-fiction 18th and 19th c.

18th c: 581,099

19th c: 272,720

Staten Generaal (SG) yes parliamentary proceedings 19th and 20th c. 19th c: 273,797

20th c: 280,805

Newspapers (NP) yes various Dutch newspapers 19th c. 19th c: 254,253

Named entity recognition

Named entity recognition

NE-recognition op historisch materiaal is niet noodzakelijk slechter dan op modern materiaal

Belang van overeenkomst tussen trainingset (tijd, genre) en dataset waarop NE recognition moet worden uitgevoerd

Reductie van spellingvariatie en gebruik van gazetteers verbeteren de NE recognition

• Training files die bestaan uit random geselecteerde zinnen geven een beter

resultaat dan op hele teksten gebaseerd trainingmateriaal, vooral bij heterogeen materiaal als de DBNL.

Named entity recognition http://inl-labs.inl.nl

Historisch lexicon

• Vormvarianten met gedateerde attestaties • Lexicon web service • Gebruikt in Delpher, Nederlab, DBNL N-gram viewer, .... • http://www.delpher.nl/

Historisch semantisch lexicon • Historisch wordnet • Voegt tijdsdimensie toe • Enerzijds betekenisverandering van woorden die

zowel vroeger als nu voorkwamen • Anderzijds historische equivalenten van moderne

woorden • Ontwikkelen op basis van

– Historische woordenboeken (VMNW, MNW, WNT) – Open Dutch Wordnet (vgl http://cornetto.inl.nl) – Corpusmateriaal

Volgende stap: historisch semantisch lexicon • Vormvarianten met gedateerde attestaties • Lexicon web service • Gebruikt in Delpher, Nederlab, DBNL, n-gram viewer, .... • VOORBEELD uit Delpher halen

http://cornetto.inl.nl: bier, brouwsel, gerstenat (17 soorten) /

paarde(n)zeik

13

Vanuit de woordenboeken

WNT-bier

WNT: zoeken naar “bier” in betekenisomschrijvingen van znw: 70 bieren

MNW-bier

MNW: zoeken naar “bier” in betekenisomschrijvingen van znw: 42 bieren

KB-kranten: frequenties van ‘bieren’ / thee (waterig, dun bier)

Leidsche Courant 1749

http://cornetto.inl.nl: narcoticum, drug

WNT:

NARCOTICUM -1: middel om iemand onder narcose te brengen

Dodonaeus, Ars Medica [ed. post 1624]; [1962]

NARCOTICUM-2: drug, bedwelmend middel

[1923]; [1938]; [1962]

DRUG-1: Als genotmiddel gebruikte, veelal verslavende stof met een

verdoovende, stimuleerende of hallucineerende werking

[1968][1969][1970]

Distributionele methoden

• (Kwantitatieve) Analyse van betekenisprofielen in corpora

• “You shall know a word by the company it keeps”

• Success stories:

– Gerelateerde/verwante woorden vinden

– Vectorruimten met betekenisvolle dimensies

– Cross-lectale” correspondenties (QLVL

Vector space 1 (BN)

Vector space 2 (NN)

Uitdagingen

• OCR en spellingvariatie

• Betekenisindeling woordenboeken niet geschikt (te veel detail)

• Afbakeningen: wat is een (bijna-)synoniem, etc..

• Welke woordrelaties hebben we nodig?

• Voor corpus-gebaseerde methoden: homonymie; integreren van

token-gebaseerde benadering

• Voor oudere fasen: meer corpusmateriaal nodig

• Etc, etc...

31

32