universitetet i bergen€¦ · ”corpuscle-lex” (eigen server) 19.12.2018 universitetet i bergen...

21
Korpus og leksikografi Leksikografane i revisjonsprosjektet for Bokmålsordboka og Nynorskordboka https://ordbok.uib.no UNIVERSITETET I BERGEN

Upload: others

Post on 26-Jul-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Korpus og leksikografi

Leksikografane irevisjonsprosjektet for Bokmålsordboka og Nynorskordboka

https://ordbok.uib.no

UNIVERSITETET I BERGEN

Page 2: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Informasjonskjelder i

revisjonsprosjektet

• tekstkorpus (lemmautval, tyding, syntaktisk åtferd,

bruksdøme)

• Språkrådet (normering)

• Språksamlingane ved UiB (særleg Metaordboka)

• introspeksjon

• andre ordbøker

19.12.2018

UNIVERSITETET I BERGEN

SIDE 2

Page 3: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Relevante verktøy for å søkje i korpus

• CLARINO Bergen Center:

– Corpuscle (verktøy for søk på ordnivå)

– INESS (verktøy for søk i setningsanalysar)

• Nasjonalbiblioteket: NB n-gram og ordgalaksar

• Retriever: Atekst (avistekst)

• Universitetet i Oslo: HaBiT (norsk webkorpus)

19.12.2018

UNIVERSITETET I BERGEN

SIDE 3

Page 4: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Corpuscle – søk og analyse (ordnivå)

• http://clarino.uib.no/korpuskel/

• Grensesnitt for å tilgjengeleggjere, søkje i og

analysere tekstkorpus.

• Inngår i CLARINO Centre Bergen

(Universitetsbiblioteket ved UiB).

19.12.2018

UNIVERSITETET I BERGEN

SIDE 4

Page 5: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

”Corpuscle-Lex” (eigen server)

19.12.2018

UNIVERSITETET I BERGEN

SIDE 5

Korpusnamn SpråkStorleik (# ord) Tidsrom Sjanger

Lemma + ordklasse Tilgang

Talk Of Norwaybokmål. nynorsk

63,8 mill 1999-2016 sakprosa ja open

Aviskorpus (bokmål) bokmål 1509,1 mill 1998-2015 sakprosa (avis) open

NBs frie tekster (bokmål) bokmål 516,4 mill 1765-2013blanda: sakprosa, skjønnlitteratur

open

Leksikografiskbokmålskorpus

bokmål 102,3 mill 1985-2013blanda: sakprosa, skjønnlitteratur

ja avgrensa

Aviskorpus annotert bokmål 29,0 mill 2001-2009 sakprosa (avis) ja open

Forskning.no (2017) bokmål 21,5 mill 1998-2017 sakprosa (avis) ja avgrensa

Nynorskkorpus nynorsk 107,8 mill 1866-2012 blanda ja avgrensa

NBs frie tekster (Nynorsk)

nynorsk 46,2 mill 1850-2010 blanda open

Aviskorpus (nynorsk) nynorsk 16,1 mill 1998-2015 sakprosa (avis) open

Page 6: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Lemmautval: trunkerte søk

19.12.2018

UNIVERSITETET I BERGEN

SIDE 6

Page 7: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Lemmautval (forts.): ordlister

19.12.2018

UNIVERSITETET I BERGEN

SIDE 7

Page 8: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Kollokasjonar: bruksdøme, underoppslag

19.12.2018

UNIVERSITETET I BERGEN

SIDE 8

Page 9: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Frekvens fortel ikkje alt

• Ein høg frekvens er ikkje åleine nok:

– Korleis er ordet distribuert over tid?

– Korleis er ordet distribuert på tvers av

domene?

• Døme: søk på ”aor.*” i Aviskorpuset (bokmål)

19.12.2018

UNIVERSITETET I BERGEN

SIDE 9

Page 10: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

UNIVERSITETET I BERGEN

Page 11: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

19.12.2018

UNIVERSITETET I BERGEN

SIDE 11

Page 12: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

• ”assistenttren[a/e]r” er kjempefrekvent i korpus!

• kva er distribusjonen til dette ordet i korpus?

19.12.2018

UNIVERSITETET I BERGEN

SIDE 12

Page 13: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

INESS og NorGramBank: søk og

analyse (setningsnivå)

• Trebank: eit syntaktisk analysert tekstkorpus

der kvar setning har ein detaljert syntaktisk

analyse.

• INESS: ein infrastruktur for å bevare og gjere

trebankar tilgjengelege (søk og analyse). Del av

CLARINO Bergen Centre.

• NorGramBank: ein trebank for norsk, utvikla i

prosjektet INESS (2010-2017).

19.12.2018

UNIVERSITETET I BERGEN

SIDE 13

Page 14: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

19.12.2018

UNIVERSITETET I BERGEN

SIDE 14

Page 15: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

19.12.2018

UNIVERSITETET I BERGEN

SIDE 15

Page 16: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

19.12.2018

UNIVERSITETET I BERGEN

SIDE 16

Page 17: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

UNIVERSITETET I BERGEN

Page 18: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

19.12.2018

UNIVERSITETET I BERGEN

SIDE 18

Page 19: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

Oppsummering

Korpus er til god hjelp for leksikografen når det gjeld:

• lemmatilfang (ord inn og ord ut av ordboka)

• underoppslag

• ordtydingar

• syntaktisk åtferd

• bruksdøme

• … Men korpus må brukast klokt, og kan ikkjeerstatte leksikografiske vurderingar

• Behov for vidareutvikling av tekniske løysingar

19.12.2018

UNIVERSITETET I BERGEN

SIDE 19

Page 20: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang
Page 21: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang

UNIVERSITETET I BERGEN