de tst-centrale is een initiatief van de nederlandse taalunie, wordt gefinancierd door de...
TRANSCRIPT
![Page 1: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/1.jpg)
De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor Nederlandse Lexicologie.
Klaar? In!
Kant-en-klare bouwstenen voor
de CLARIN-infrastructuur
Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL
![Page 2: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/2.jpg)
2
Infrastructuur
Data
Tools
Spelregels
![Page 3: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/3.jpg)
3
Infrastructuur
![Page 4: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/4.jpg)
4
Infrastructuur
• Bouwblokken uit DAM-LR– Metadata (IMDI)– Unieke ids (Handle)– Authenticatie (LDAP)– Autorisatie (Shibboleth)– Vertrouwd (PKI-certificaat)– IMDI-portal imdi.inl.nl
• Uitbreiding/aanpassing naar CLARIN• Bijv. OAI-PMH (workshop vanochtend)
![Page 5: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/5.jpg)
5
Infrastructuur
• Verbeterde technische infrastructuur (2008)– Bare metal virtualisatie met behulp van VMware ESX – Servers
• Red Hat Enterprise Linux• Windows Server 2003, Exchange en ISA Server
– MySQL en Microsoft SQL server. • Telewerken via Windows Terminal Server 2008 en
RSA tokens• Cisco switches, HP NAS en NetApp SAN• Onsite en offsite backup• Procedures volgens ITIL
![Page 6: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/6.jpg)
6
Data
![Page 7: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/7.jpg)
7
Data
• Woordenboeken (online via GTB)– Oudnederlands woordenboek (500-1200)– Vroegmiddelnederlands woordenboek (13e eeuw)– Middelnederlands woordenboek (1200-1500; te
verschijnen)– Woordenboek der Nederlandsche Taal (1500-1976)
• Algemeen Nederlands Woordenboek (eigentijds Nederlands; te verschijnen)
![Page 8: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/8.jpg)
8
Data
• Corpora– Corpus Gesproken Nederlands (900u spraak)– STEVIN
• JASMIN-CGN (115u spraak) • AUTONOMATA-namencorpus (5k uitgesproken namen)• D-Coi (54m woorden)• COREA-coreferentiecorpus (150k woorden)
– ANW-corpus (100m woorden; te verschijnen)– PAROLE distributable corpus (3m woorden)– CHOREC-spraakcorpus (130u spraak)– …
![Page 9: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/9.jpg)
9
Data
• Lexica– e-Lex (200k lemma’s, 640k woordvormen)– Bilinguale bestanden (Ar, Dn, Ind)– RBN (45k trefwoorden; 90k verbindingen)– RBBN (4k woorden)– Woordenlijst Nederlandse Taal ’05 (100k lemma's
volgens spelling ’05)– STEVIN
• DuELME (5k mwe)
![Page 10: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/10.jpg)
10
Data
• En…– Sofeer woordenboek– STEVIN
• Cornetto (lex-sem database met 92k lemma’s; 118k woordbetekenissen)
– Gedigitaliseerde Bijbelteksten • Statenvertaling, Leuvense Bijbel, Lutherse Bijbel,
Delftse Bijbel, …
– Modern Grammar of Dutch• Incl. tools voor conversie en internetschil
![Page 11: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/11.jpg)
11
Tools
![Page 12: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/12.jpg)
12
Tools
• Tagger-lemmatiser (online i.s.m. UvT)• Sofeer spellingcontrole• STEVIN
– COREA-coreferentiewebservice – DuELME-webapplicatie– AUTONOMATA-g2p-toolkit
• IMPACT– OCR & technologie t.b.v. digitalisering gedrukt cult. erfgoed
• GTB-software, ANW-software, etc.• Corex (voor CGN en D-Coi; offline en online)• …
![Page 13: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/13.jpg)
13
Spelregels
![Page 14: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/14.jpg)
14
Spelregels
• Kennisdeling IPR en licenties– Ook met Work Package 7 CLARIN (IPR and
Business Models)
![Page 15: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/15.jpg)
15
Wat is er bijna klaar?
![Page 16: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/16.jpg)
16
Bijna klaar
• STEVIN– DAESO (corpus en software voor semantiek)– DPC (parallelle corpora Nl-En en Nl-Fr)– Lassy (syntactisch geannoteerd tekstcorpus)– Midas (software voor robuuste spraakherkenning)– N-best (benchmark voor Nederlandstalige spraakherkenning) – Autonomata Too (demo POI spraakherkenningservice)– DAISY (software voor samenvattingen)– DISCO (spraakherkenning in CALL voor tweedetaalleerders)– DuOMAn (media analyse - opinie)– PaCo-MT (hybride machinevertaling Nl-En-Nl, Nl-Fr-Nl)– SoNaR (tekstcorpus 500m woorden)
• …
![Page 17: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/17.jpg)
17
Maar …
![Page 18: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/18.jpg)
18
Uitdaging
• Binnen CLARIN en CLARIN-NL zoveel mogelijk resources en tools integreren in de CLARIN-infrastructuur– Toegankelijk via single sign-on– Data zo uniform mogelijk raadpleegbaar en doorzoekbaar– Data uploadbaar en bewerkbaar– Tools zoveel mogelijk modulair en koppelbaar– Workflows zoveel mogelijk herhaalbaar
• Afschriften van bewerkingen
– Gebruikersvriendelijkheid (!)
![Page 19: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/19.jpg)
19
Zoek binnen de resultaten
voorkomens van Poldernederlands (einde = aainde)
Vraag: onderzoek het
Poldernederlands
Voorkomens van Poldernederlands in
spraakcorpora
Zoek in metadata naar Nederlandse
spraakcorpora met
orthografische en fonologische transcriptie
![Page 20: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/20.jpg)
20
Spraakcorpus
Corpus beschikbaar
binnen CLARIN
Unieke ids
Metadata
Validatie
Uploaden
![Page 21: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/21.jpg)
21
Teksten
Tekstcorpus voorzien van
diverse automatische annotaties en frequentielijst beschikbaar
binnen CLARIN
Frequentietool
Tagger-lemmatiser
Parser
Validatie
Metadata
Samenvatter
Corefwebservice
Uploaden
Unieke ids
![Page 22: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/22.jpg)
22
Waar droomt u van?
![Page 23: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/23.jpg)
23
Conclusie
• Veel mooie bouwstenen beschikbaar– Resources, tools, infrastructuur, kennis– Juist ook voor het Nederlands
• Uitdaging is deze bruikbaar te integreren in de CLARIN-infrastructuur
![Page 24: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor](https://reader035.vdocuments.mx/reader035/viewer/2022062513/5551a0ee4979591f3c8b6fff/html5/thumbnails/24.jpg)
24
Vragen?