latviešu valodas korpusa koncepcija

26
Latviešu valodas korpusa koncepcija Everita Andronova LU Matemātikas un informātikas institūts [email protected] CLARIN projekta un Nacionālā korpusa seminārs 2008. gada 3. novembris

Upload: judith-holt

Post on 02-Jan-2016

70 views

Category:

Documents


0 download

DESCRIPTION

Latviešu valodas korpusa koncepcija. Everita Andronova LU Matemātikas un informātikas institūts [email protected] CLARIN projekta un Nacionālā korpusa seminārs 2008. gada 3. novembris. KORPUSA PRIEKŠROCĪBAS. Korpuss ļauj pētīt reālu valodu un tās lietojumu - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Latviešu valodas korpusa koncepcija

Latviešu valodas korpusa koncepcija

Everita AndronovaLU Matemātikas un informātikas institūts

[email protected]

CLARIN projekta un Nacionālā korpusa seminārs2008. gada 3. novembris

Page 2: Latviešu valodas korpusa koncepcija

KORPUSA PRIEKŠROCĪBAS Korpuss ļauj pētīt reālu valodu un tās lietojumu

Atskats vēsturē: jebkurš dzimtās valodas runātājs 10 minūšu laikā var izdomāt vairāk piemēru par jebkuru gramatikas jautājumu, nekā iespējams atrast nejaušu tekstu daudzajos vārdlietojumos

Neviens korpuss nesaturēs visu informāciju par man interesējošiem valodas jautājumiem; pat neliels korpuss palīdz iegūt faktus, ko nekādā citā veidā nebūtu iespējams uzzināt

Page 3: Latviešu valodas korpusa koncepcija

KĀPĒC LATVIEŠU VALODAI VAJADZĪGS KORPUSS? Jo vairāk labāku datu par latviešu valodu, jo

kvalitatīvākas zināšanas, ko izmanto valodas apstrādes tehnoloģijas

Agrāk meklējām nezināmos vārdus vārdnīcā, tagad Google meklētājā

Runas datu izmantošana GPS, dialoga sistēmās, teksta nolasīšana no ekrāna

Pilnīga valodas izpēte un pilnvērtīga attīstība nākotnē Mūsdienu lietuviešu valodas korpuss (100 milj.  vārdliet.

donelaitis.vdu.lt), Krievu valodas nacionālais korpuss (150 milj.  vārdliet. www.ruscorpora.ru), Igauņu valodas korpuss (95 milj.  vārdliet. http://www.cl.ut.ee/korpused/)

Page 4: Latviešu valodas korpusa koncepcija

KORPUSA IZMANTOŠANA

Gramatikas un citu valodniecības jautājumu izpētē Leksikogrāfijā Terminoloģijas izstrādē Valodas mācīšanā Tulkošanas studijās un tulku apmācībā, mašīntulkošanā Dabīgās valodas apstrādē (morfoloģijas, sintakses

daudznozīmības risinājumi), informācijas izguvē, precedenta mašīnmācīšanās

Psiholingvistikā, sociolingvistikā, tiesu ekspertīzēs Humanitārajās zinātnēs vispār

Page 5: Latviešu valodas korpusa koncepcija

BALTIŅŠ (www.ailab.lv/SENIE)baltiņš (1) s. m. baltiņsch (1)

Baltiņsch Ein weißer Schilling. it. Ein Setznetze, Ein blenke. Fuer1650_70_1ms, 4018.

1. ‘baltais šiliņš (šiliņš – kopš 14. gs. sudraba monēta vairākās Eiropas valstīs; acīmredzot nosaukumā norāde uz sudraba gaišo krāsu)’.

2. ‘zvejas tīkls’.

3. ‘klajums mežā, meža pļava’.

balts.

Page 6: Latviešu valodas korpusa koncepcija

BALTIŅŠ (latviešu valodas vārdnīcās) ME (1. sēj., 1923–1925):

ein weisses Pferd, gew. Ein altes, schwaches weisses Pferd

LLVV (2. sēj., 1973): Zirgs ar baltu vai ļoti gaišu apmatojumu (parasti neliels un ne visai spēcīgs)

LVV (1987): Zirgs ar baltu vai gaišpelēku spalvu

MLVV (2003–2008):

Zirgs ar baltu vai gaišpelēku spalvu

Page 7: Latviešu valodas korpusa koncepcija

KORPUSS UN REPREZENTATIVITĀTE Rakstīta teksta vai transkribētas runas kopums, ko

izmanto valodas analīzē un aprakstā Reprezentatīvs (runas transkribējumu un rakstītas

valodas) tekstu masīvs mašīnlasāmā formā, kas ir atlasīti tā, lai tiktu pārstāvēti visi valodas funkcionālie stili un pēc iespējas plašāka tematika valodas runātāju intuīcija un valodnieciskā pieredze valodas funkcionālo stilu atspoguļojums korpusā iekļauto tekstu autentiskums

Page 8: Latviešu valodas korpusa koncepcija

KĀPĒC VAJADZĪGS JAUNS ELEKTRONISKO RESURSU VEIDS? Speciāla korpusa platforma, kas, efektīvi

noindeksējot tekstus (marķētus/nemarķētus), sniedz papildu informāciju: vārdformu indeksu vārdformu (/pamatformu) biežumu sarakstu un

pārklājumu korpusā konkordances programma ļauj skatīt vārdformas

apkaimi (kontekstu), kārtot pēc biežuma, L/K konteksta

vārdu savienojumu analīzi, gramatisko attieksmju analīzi

Page 9: Latviešu valodas korpusa koncepcija

LATVIEŠU VALODAS KORPUSA KONCEPCIJA (LU MII, 2005) Latviešu valodas korpusa izveides

nepieciešamības pamatojums, iespējamo problēmu un risinājumu raksturojums, priekšlikumi korpusu izveidei Latvijā

Citu valstu pieredzes analīze Iespējamo korpusa lietotāju interešu un vajadzību

noskaidrošana ar anketas palīdzību (saņemtas 76) Korpusa izmantošanas iespēju raksturojums

Page 10: Latviešu valodas korpusa koncepcija

LATVIEŠU VALODAS KORPUSA KONCEPCIJA (LU MII, 2005) Latviešu valodas programmatūras izveides

principu piedāvājums Autortiesību jautājums un iespējamie risinājumi Korpusa sistēmas uzturēšana un paplašināšana Latviešu valodas korpusa izveidei nepieciešamā

laika plānojums un izmaksu aprēķins (minimālā un maksimālā programma)

Page 11: Latviešu valodas korpusa koncepcija

KORPUSA KONCEPCIJA

Korpusa veids un mērķis: tekstu izvēle, ieguve un apstrāde, metadatu sagatavošana

Autortiesības (korpusa izveide un korpusa izmantošana)

Valodas korpusa programmrīku nodrošinājums Korpusa arhitektūra, administrēšana un

uzturēšana

Page 12: Latviešu valodas korpusa koncepcija

KORPUSU IEDALĪJUMS

Statisks vs. dinamisks korpuss reprezentativitāte un līdzsvarotība korpusa apjoms (ne tikai vārdlietojumu skaits, bet arī teksta

kategoriju apjoms; piemēru skaits izlasē)

Marķēts vs. nemarķēts korpuss lai noskaidrotu kādu vārdu, pietiek ar strukturālo

marķējumu lai uzzinātu vairāk – svarīga ir korpusa pievienotā vērtība

(morfoloģiskais, sintaktiskais, arī semantiskais marķējums)

Page 13: Latviešu valodas korpusa koncepcija

MŪSDIENU LATVIEŠU VALODAS KORPUSS: (www.korpuss.lv) 1 miljons vārdlietojumu (1991–2008)

Page 14: Latviešu valodas korpusa koncepcija

NEMARĶĒTS KORPUSS

Page 15: Latviešu valodas korpusa koncepcija

KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)

no <Spg> nokabatas <Ncfsg4> kabatarēgojās <Vmyisii33san> rēgotiesadītas <Vmnpdfsgpsn> adītcepures <Ncfsg5> cepurestūris <Ncmsn2> stūris. viņš <Pp3msn> viņšto <Pdnfsa> tāpikti <Rpm> piktiiestūķēja <Vmnistp33san> iestūķētdziļāk <Rcp> dziļāk

Page 16: Latviešu valodas korpusa koncepcija

KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)

Page 17: Latviešu valodas korpusa koncepcija

KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)

Page 18: Latviešu valodas korpusa koncepcija

KORPUSU IEDALĪJUMS

Runas vs. rakstītas valodas korpuss Vispārīgs latviešu valodas korpuss vs. speciāls

(izlokšņu; kāda funkcionālā stila; kādas konkrētas vecuma grupas korpuss; noteikta reģiona latviešu valodas korpuss; latviešu valodas apguvēju korpuss; noteikta laika perioda tekstu korpuss)

Sinhronisks vs. diahronisks korpuss Vienvalodas vs. divu vai vairāku valodu korpuss Multimodāls korpuss, kas apvieno tekstu, skaņu un attēlu

Page 19: Latviešu valodas korpusa koncepcija

MARĶĒJUMA VEIDI

Page 20: Latviešu valodas korpusa koncepcija

LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? Pieredze valodas resursu uzkrāšanā elektroniskā veidā Daudz nesistematizētu, nestrukturētu datu dažādās vietās Izveidoti elektroniskie arhīvi, bibliotēkas, datu bāzes,

tulkošanas atmiņas Nelieli divvalodu paraugkorpusi pētniecības vajadzībām Uzkrāti audiomateriāli (10 h politisko diskusiju ieraksti,

runas analīzei sagatavots un 50 runātāju ielasīts teksts) Izstrādāti programmrīki automātiskai audio ierakstu

segmentēšanai teikumos, frāzēs vai vārdos (programma SKANDALIS) un atšifrētu audio ierakstu transkribēšanai

Page 21: Latviešu valodas korpusa koncepcija

LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? Latviešu valodas seno tekstu korpuss (2003)

ar strukturālo marķējumu (1 milj. vārdl.) Latviešu valodas korpusa koncepcija (2005) Līdzsvarots, nemarķēts miljons vārdlietojumu

liels mūsdienu latviešu valodas korpuss (ar VVA atbalstu, MII, 2007–2008): www.korpuss.lv

Neliels paraugkorpuss ar morfoloģisko marķējumu

Page 22: Latviešu valodas korpusa koncepcija

LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? ES un citu starptautisko projektu laikā izveidotie

korpusi, kuros iekļauti arī latviešu valodas dati (piem., JRC korpuss, Eur–Lex)

Nelielas iestrādes metadatu sagatavošanā, morfoloģisko (un sintaktisko) pazīmju izstrādē

Labas iestrādes automatizētu vai daļēji automatizētu anotēšanas rīku izstrādē

Page 23: Latviešu valodas korpusa koncepcija

LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR?

Page 24: Latviešu valodas korpusa koncepcija

LATVIEŠU VALODAS KORPUSS: KAS NEPIECIEŠAMS? 1 miljons vārdlietojumu pārbaudītu morfoloģiski

marķētu tekstu 20 000 teikumu ar sintaktisko marķējumu 100 milj. vārdlietojumu liels mūsdienu latviešu

valodas korpuss leksikogrāfu vajadzībām Jaunu korpusu veidu izstrāde (katra jauna

iniciatīva ir tikai apsveicama)

Page 25: Latviešu valodas korpusa koncepcija

LATVIEŠU VALODAS KORPUSS: KAS NEPIECIEŠAMS? Metadatu sagatavošana un pēc iespējas vienota

marķēšanas standarta izmantošana, lai nākotnē resursi būtu savietojami

Programmrīku izstrāde un pielāgošana latviešu valodas vajadzībām

Dažādu ar datu ieguvi un izplatīšanu saistītu jautājumu nokārtošana

Nacionālā korpusa izveide

Page 26: Latviešu valodas korpusa koncepcija

PALDIES PAR UZMANĪBU!

JAUTĀJUMI?