universitetet i bergen€¦ · ”corpuscle-lex” (eigen server) 19.12.2018 universitetet i bergen...
TRANSCRIPT
![Page 1: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/1.jpg)
Korpus og leksikografi
Leksikografane irevisjonsprosjektet for Bokmålsordboka og Nynorskordboka
https://ordbok.uib.no
UNIVERSITETET I BERGEN
![Page 2: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/2.jpg)
Informasjonskjelder i
revisjonsprosjektet
• tekstkorpus (lemmautval, tyding, syntaktisk åtferd,
bruksdøme)
• Språkrådet (normering)
• Språksamlingane ved UiB (særleg Metaordboka)
• introspeksjon
• andre ordbøker
19.12.2018
UNIVERSITETET I BERGEN
SIDE 2
![Page 3: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/3.jpg)
Relevante verktøy for å søkje i korpus
• CLARINO Bergen Center:
– Corpuscle (verktøy for søk på ordnivå)
– INESS (verktøy for søk i setningsanalysar)
• Nasjonalbiblioteket: NB n-gram og ordgalaksar
• Retriever: Atekst (avistekst)
• Universitetet i Oslo: HaBiT (norsk webkorpus)
19.12.2018
UNIVERSITETET I BERGEN
SIDE 3
![Page 4: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/4.jpg)
Corpuscle – søk og analyse (ordnivå)
• http://clarino.uib.no/korpuskel/
• Grensesnitt for å tilgjengeleggjere, søkje i og
analysere tekstkorpus.
• Inngår i CLARINO Centre Bergen
(Universitetsbiblioteket ved UiB).
19.12.2018
UNIVERSITETET I BERGEN
SIDE 4
![Page 5: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/5.jpg)
”Corpuscle-Lex” (eigen server)
19.12.2018
UNIVERSITETET I BERGEN
SIDE 5
Korpusnamn SpråkStorleik (# ord) Tidsrom Sjanger
Lemma + ordklasse Tilgang
Talk Of Norwaybokmål. nynorsk
63,8 mill 1999-2016 sakprosa ja open
Aviskorpus (bokmål) bokmål 1509,1 mill 1998-2015 sakprosa (avis) open
NBs frie tekster (bokmål) bokmål 516,4 mill 1765-2013blanda: sakprosa, skjønnlitteratur
open
Leksikografiskbokmålskorpus
bokmål 102,3 mill 1985-2013blanda: sakprosa, skjønnlitteratur
ja avgrensa
Aviskorpus annotert bokmål 29,0 mill 2001-2009 sakprosa (avis) ja open
Forskning.no (2017) bokmål 21,5 mill 1998-2017 sakprosa (avis) ja avgrensa
Nynorskkorpus nynorsk 107,8 mill 1866-2012 blanda ja avgrensa
NBs frie tekster (Nynorsk)
nynorsk 46,2 mill 1850-2010 blanda open
Aviskorpus (nynorsk) nynorsk 16,1 mill 1998-2015 sakprosa (avis) open
![Page 6: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/6.jpg)
Lemmautval: trunkerte søk
19.12.2018
UNIVERSITETET I BERGEN
SIDE 6
![Page 7: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/7.jpg)
Lemmautval (forts.): ordlister
19.12.2018
UNIVERSITETET I BERGEN
SIDE 7
![Page 8: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/8.jpg)
Kollokasjonar: bruksdøme, underoppslag
19.12.2018
UNIVERSITETET I BERGEN
SIDE 8
![Page 9: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/9.jpg)
Frekvens fortel ikkje alt
• Ein høg frekvens er ikkje åleine nok:
– Korleis er ordet distribuert over tid?
– Korleis er ordet distribuert på tvers av
domene?
• Døme: søk på ”aor.*” i Aviskorpuset (bokmål)
19.12.2018
UNIVERSITETET I BERGEN
SIDE 9
![Page 10: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/10.jpg)
UNIVERSITETET I BERGEN
![Page 11: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/11.jpg)
19.12.2018
UNIVERSITETET I BERGEN
SIDE 11
![Page 12: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/12.jpg)
• ”assistenttren[a/e]r” er kjempefrekvent i korpus!
• kva er distribusjonen til dette ordet i korpus?
19.12.2018
UNIVERSITETET I BERGEN
SIDE 12
![Page 13: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/13.jpg)
INESS og NorGramBank: søk og
analyse (setningsnivå)
• Trebank: eit syntaktisk analysert tekstkorpus
der kvar setning har ein detaljert syntaktisk
analyse.
• INESS: ein infrastruktur for å bevare og gjere
trebankar tilgjengelege (søk og analyse). Del av
CLARINO Bergen Centre.
• NorGramBank: ein trebank for norsk, utvikla i
prosjektet INESS (2010-2017).
19.12.2018
UNIVERSITETET I BERGEN
SIDE 13
![Page 14: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/14.jpg)
19.12.2018
UNIVERSITETET I BERGEN
SIDE 14
![Page 15: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/15.jpg)
19.12.2018
UNIVERSITETET I BERGEN
SIDE 15
![Page 16: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/16.jpg)
19.12.2018
UNIVERSITETET I BERGEN
SIDE 16
![Page 17: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/17.jpg)
UNIVERSITETET I BERGEN
![Page 18: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/18.jpg)
19.12.2018
UNIVERSITETET I BERGEN
SIDE 18
![Page 19: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/19.jpg)
Oppsummering
Korpus er til god hjelp for leksikografen når det gjeld:
• lemmatilfang (ord inn og ord ut av ordboka)
• underoppslag
• ordtydingar
• syntaktisk åtferd
• bruksdøme
• … Men korpus må brukast klokt, og kan ikkjeerstatte leksikografiske vurderingar
• Behov for vidareutvikling av tekniske løysingar
19.12.2018
UNIVERSITETET I BERGEN
SIDE 19
![Page 20: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/20.jpg)
![Page 21: UNIVERSITETET I BERGEN€¦ · ”Corpuscle-Lex” (eigen server) 19.12.2018 UNIVERSITETET I BERGEN SIDE 5 Korpusnamn Språk Storleik (# ord) Tidsrom Sjanger Lemma + ordklasse Tilgang](https://reader034.vdocuments.mx/reader034/viewer/2022042923/5f71decf7a7b7a0f12798bb7/html5/thumbnails/21.jpg)
UNIVERSITETET I BERGEN