eesti keele morfoloogia- ja …evkk.tlu.ee/pdfs/morfoloogia.pdf · morfoloogilise analüüsi ja...

Tallinna Pedagoogikaülikool

Üld- ja rakenduslingvistika õppetool

Annika Kilgi

EESTI KEELE MORFOLOOEESTI KEELE MORFOLOO GIAGIA-- JA JA SÜNTAKSIANALÜSAATORISÜNTAKSIANALÜSAATORIDD

Referaat

Tallinn 2004

Sisukord

Sissejuhatus............................................................................................................................3

1.EKI morfoloogiaanalüsaator................................................................................................4

1.1. Koostis ja installeerimine.................................................................................................4 1.2. Töö käik ..........................................................................................................................5 1.2.1. Kombinatoorika............................................................................................................6 1.2.2. Tüvemuutused ..............................................................................................................6 1.2.3. Tuvastus .......................................................................................................................7

2.Filosofti morfoloogiaanalüsaator .........................................................................................8

2.1. Koostis ja installeerimine.................................................................................................8 2.2. Töö käik ..........................................................................................................................9

3.Süntaksianalüsaator ...........................................................................................................12

3.1. Morfoloogiline ühestamine ...........................................................................................12 3.2. Osalausete piiride määramine ........................................................................................12 3.3. Süntaktiline märgendamine............................................................................................13 3.4. Süntaktiline ühestamine.................................................................................................14

4.Rakendused .......................................................................................................................17

4.1. Morfoloogiaanalüsaatori rakendusi ................................................................................17 4.2. Süntaksianalüsaatori rakendusi ......................................................................................17

4.2.1. Senini .........................................................................................................................17 4.2.2. Tulevikus....................................................................................................................18

............................................................................................................................................19

Kirjandus .............................................................................................................................20

Lisa. Valikbibliograafia........................................................................................................21

Sissejuhatus

Morfoloogiliseks analüsaatoriks nimetatakse arvutiprogrammi, mis määrab sõnavormi

algvormi ja grammatilise tähenduse. Eesti keele jaoks on olemas kaks avalikku kasutusse

antud morfoloogiaanalüsaatorit. Referaadi esimene peatükk tutvustab Eesti Keele Instituudis

loodud avatud morfoloogiamudelil põhinevat morfoloogiaanalüsaatorit, teine peatükk

tekstikorpuse abil loodud Filosofti morfoloogiaanalüsaatorit ESTMORF. Lisaks

morfoloogilise analüüsi ja sünteesi programmidele on eesti keele tarvis välja töötatud ka

kitsenduste grammatikal põhinev süntaksi pindanalüüsi programm, millest räägib kolmas

peatükk. Neljandas peatükk kajastab eesti keele analüsaatorite seniseid ning võimalikke

rakendusi. Lisa sisaldab olulisimaid temaatilisi kirjutisi Eesti autoritelt.

1. EKI morfoloogiaanalüsaator

1.1. Koostis ja installeerimine

Eesti Keele Instituudi automaatne morfoloogiasüsteem koosneb suhteliselt iseseisvatest

moodulitest. Iga mooduli jaoks on koostatud formaalsed grammatikad (silbitus,

tüvemuutused, tüübi- ja sõnaliigituvastus, sõnavormide analüüs ja süntees) ning vastavate

reeglite interpretaatorid (arvutiprogrammid reeglite rakendamiseks). Morfoloogiaanalüsaator

on kättesaadav vabavarana EKI kodulehel http://www.eki.ee.

Analüüsiks tuleb arvutisse laadida

1) moodulid:

• silbitus,

• tüübituvastus,

• vormimoodustus,

• ana.dll (analüüsimoodul);

2) programmid (ana_bin.zip);

3) andmefailid (est_morpho_data.zip), näiteks:

• yla-tab (kriipsu ja apostroofi järgsed käändelõpud),

• form-tab (formatiivide reeglid),

• form.exc (formatiivide erandid),

• der-tab (tuletusreeglid),

• der.exc (tuletuserandid),

• liitsõnareeglid ja -erandid: erandid.ls, fonoer.ls, indekl.ls, kompo.ls, osad.ls,

osised.ls, reeglid.ls, tervik.ls, yh_verb.ls,

• fcodes.ini (vormikoodide esitus väljundis),

• kasutaja.dic (provisoorne kasutajasõnastik),

• lemma.dic (lemmasõnastik, kasutatakse nõudmisel).

Kõik reeglid ja erandid on tekstifailides ja neid saab vajaduse korral muuta. See võimaldab

kohandada süsteemi nt konkreetse ainevaldkonna sõnavaraga või kohandada reegleid nt

pärisnimede jaoks (mis võivad käänduda teisiti kui vastavad üldnimed, vrd saag: sae, aga

Saag: Saagi). Reeglite muutmine ilma autoritega konsulteerimata ei ole siiski soovitatav.

1.2. Töö käik

EKI morfoloogiaanalüsaator toimib antud järjekorras. Liitsõna analüüsil üritatakse sõnavormi

sobivalt jupitada (arvesse tulevad liitsõnapiiri reeglid) ja korratakse samme alates teisest

rekursiivselt.

1. Üritatakse eraldada sõnavormil gi/ki lõppu.

2. Üritatakse eraldada kõik failis form-tab lubatud lõpud ja leitakse sealt

oletatav muuttüüp, tüvekood ja vormikood.

3. Tüve ja tüvekoodi kombinatsiooni alusel tagastab vormimoodustus

(funktsioon createlemma) sobiva(d) algvormi(d)

4. Kui ei tekkinud erandit (meesi ei saa olla mees omastavas) ja ka

tüübituvastus kinnitab tuletatud lemma kohta sama muuttüübi, siis

analüüsi tulemused väljastatakse

5. Kui analüüsilt eeldatakse tuletisliidete eraldamist tüvest, käib analüüs

läbi järgmised etapid:

failist der-tab otsitakse võimalikke sufikseid tüve ja tüvekoodi kombinatsiooni alusel tagastab

vormimoodustus (funktsioon createlemma) sobiva(d) algvormi(d)

kui erandit ei tekkinud ja ka tüübituvastus kinnitab tuletatud lemma kohta sama muuttüübi, siis analüüsi tulemused väljastatakse

Kõigepealt läbib sisendiks olev sõnavorm kombinatoorika mooduli, kus saadakse iga

liigendatud formatiivi jaoks allotaktiliselt võimalikud tüvevariantide koodid. Sellele järgneb

tüvemuutuste moodul, kus liigendamisel saadud tüvevariandist moodustatakse kõik

võimalikud lemmad. Viimasena kontrollitakse tuvastusmoodulis, kas saadud lemmad sobivad

vastava tüübi sõnaks. (Viks 2000: 29)

Teisisõnu toimub sõnavormi analüüs nii:

SISEND jalgade KOMBINATOORIKA MOODUL tüvi ja formatiiv

TÜVEMUUTUSTE MOODUL lemmad

TUVASTUSMOODUL tüüp, sõnaliik

VÄLJUND JALG & ´22_S’ & ’pl g’

(Viks 2000: 29)

1.2.1. Kombinatoorika

Sõnavormi analüüsimiseks jaotab analüsaator selle kõigepealt üksusteks ning otsib neid

üksusi sõnastikust. Minimaalne liigendus jagab sõnavormi tüveks ja formatiiviks, kusjuures

formatiiv kannab kõiki grammatilisi tähendusi, nt hammas/tega – HAMMAS + ’pl kom’.

Detailsem liigendus jagab sõnatüve vajadusel juureks ja tuletusliideteks (kala/ke), formatiivi

aga eraldi grammatilisi tähendusi kandvateks morfeemideks. Liitsõnad jaotatakse

leksikaaltähendusi kandvateks osadeks (kaitse+vägi). (Viks 1994: 153)

Tuletusi pole tarvis sõnastikus hoida, sest analüsaator tunneb tuletussufiksid ära ning

juured on sõnastikus olemas. Sõnastiku mahtu aitab kokku hoida ka liitsõnaliigendus: kui

morfoloogiline analüsaator tunneb ära liitsõnaosade piirid, pole vaja säilitada liitsõnu, mille

komponendid on ilmselt juba sõnastikus olemas. (Viks 1994: 154)

Analüüsi suundadest on EKI analüsaator valinud tagant ette analüüsi, sest see sobib

sufiksilisele keelele paremini kui vastupidine suund. Grammatiliste üksuste sõnastikus toimub

otsing kiiresti ning sõnaosa, mida sealt ei leitud, otsitakse lõpuks tüvesõnastikust. (Viks 1994:

154) Kuigi eesti keelele sobib selline liigendamine üldiselt hästi, tekib ka probleeme. Sageli

osutub keeruliseks tüve ja formatiivi piiri leidmine, nt jalul → jal/ul või jalu/l, jooksin →

jooks/in või joo/ksi/n. Raskeimaks osutub aga nii tüvede kui grammatiliste üksuste

varieerumise formaliseerimine. (Viks 1994: 156)

1.2.2. Tüvemuutused

Fonoloogiliselt varieeruvate üksuste käsitlemise jaoks tuleb liigendusanalüüsi täiendada

teisendustega. Sõnavormi analüüsimiseks tuleb eristatud koostisosad teisendada algvormi

kujule ning leida algvormid sõnastikest. Eesti keel vajab tüvemuutuste süsteemi keerulisusest

lähtuvalt häid teisendusreegleid. Formaliseerida tuleb mitmesugused tüve astmemuutused

(paika/ma: paiga/ta), tüve lõpumuutused (sipelgas: sipelga), mõlemad koos (kannel: kandle)

ning tüve ja formatiivi piiril morfonoloogilistel põhjustel toimuv (idee + id → ideid, naer + v → naerev, hüpel + ta → hüpelda). (Viks 1994: 158)

Teisendusreeglite kasutamisel tekitavad probleeme kohad, kus varieerumine pole

fonoloogiliselt määratletav (kraadima: kraadib, praadima: praeb). EKI

morfoloogiaanalüsaator ületab need raskused kasutades morfoloogilist klassifikatsiooni, mis

on meile tuttav „Väikesest vormisõnastikust“. Iga tüvede sõnastikus oleva sõna juures on

tüübinumber, mis viib tüübikirjelduse juurde. Tüübikirjeldus fikseerib kõik vastava tüübi

variandikombinatsioonid: tüve astmevaheldusmalli, lõpuvaheldusmalli ning

formatiivivariantide kasutuse vormistikus. (Viks 1994: 160)

1.2.3. Tuvastus

Tuvastusreeglite abil tehakse kindlaks sõna tüübikuuluvus ja sõnaliik. Passiivses

morfoloogias rakenduvad teatud reeglid sõnale vaid juhul, kui sõna on markeeritud vastavaid

reegleid käivitava infoga. Aktiivses morfoloogias ei otsita sõna sõnastikust, piisab vaid

fonoloogilise kuju analüüsist, et reegleid rakendada. Aktiivsesse morfoloogiasse kuuluval

sõnal määrab tüve struktuur otseselt selle muuttüübi. Tuvastusreeglid kontrollivad kõigepealt,

kas sõna kuulub passiivsesse morfoloogiasse. Kui mitte, määratakse sõna muuttüüp selle

fonoloogilise kuju järgi. Seega võimaldab tuvastusreeglite kasutamine piirduda sõnastikus

vaid irregulaarsete tüvedega ning analüüsida uusi sõnu, mis võtavad tavaliselt omaks aktiivse

morfoloogia muutumisviisid. EKI morfoloogiasüsteemi avatus tähendabki seda, et see on

suuteline formaalse grammatika reeglite abil andma õige tõlgenduse ka sõnastikus

fikseerimata sõnavarale. (Viks 1994: 161)

2. Filosofti morfoloogiaanalüsaator

2.1. Koostis ja installeerimine ESTMORF on arvutiprogramm suvalise eestikeelse teksti morfoloogiliseks analüüsiks ning seda saab kasutada interneti kaudu aadressil http://www.filosoft.ee/html_morf_et/. Arvutiprogrammi loomisel kasutati samuti Ülle Viksi „Väikese vormisõnastiku“ elektroonilist versiooni. ESTMORFi sõnastik on jätnud VVS-st mitu tuhat sõna välja (arhaisme, murdesõnu, liigseid tuletisi) ning lisanud mitu tuhat sõna (pärisnimesid, lühendeid, algoritmiliselt raskesti kirjeldatavaid liitsõnu) (Kaalep 1998: 26). Sarnaselt EKI morfoloogiaanalüsaatoriga pole ka ESTMORFi sõnastikus reeglina produktiivselt moodustatavaid tuletisi ja liitsõnu (Kaalep 1998: 23). ESMORF koosneb (http://www.eki.ee/keeletehnoloogia/projektid/estmorf/estmorf.html, Kaalep 1996: 88) 1) analüsaatorist estmorf.exe; 2) sõnastikust eesti.dct, mis on vormistatud loenditena

• 67000 tüve 39 000 sõnast, • 163 lõppu, • 150 eesliidet ja levinuimat alguskomponenti, • 150 järelliidet ja 200 levinuimat järelkomponenti, • 240 lõppude komplekti konkreetse sõnarühma tarvis, • 2000 ebatavalisemat liitsõna alguskomponenti, • 44 gi- või ki-lõpulist sõna, kus tegu pole liitega, • 100 käändumatut lühendit, • 140 käänduvat lühendit, • 100 akronüümi, • 80 mitmesõnaliste võõrkohanimede esimest komponenti, • 10 mitmesõnaliste võõrkohanimede komponenti, • 10 kohanimede eesliidet, • 20 häälikujärjendit, mis ei saa lugeda liitsõnakomponentideks (nt ist, oid), sest

siis tuleks paljudel juhtudel tõmmata sõnapiir sobimatusse kohta. (Kaalep 1996: 83–84);

3) ülejäänud failidest

• eesti.udr (kasutaja-sõnastiku näidisfail),

• txt2wrd.exe (tavalise tekstifaili teisendaja kujule ‘sõna real’),

• baltic.cnv (täpitähtede teisendusfail balti kooditabelist Win 1257 Filosofti

sisemisele kujule),

• html.cnv (täpitähtede teisendusfail html-kujult Filosofti sisemisele kujule),

• baltic-h.cnv (täpitähtede teisendusfail balti kooditabelist Win 1257 Filosofti

sisemisele kujule),

• baltic-k.cnv (täpitähtede teisendusfail balti kooditabelist Win 1257 Filosofti

sisemisele kujule),

• balt_tst.txt (testfail balti kooditabelis esitatud sõnade analüüsiks)

• html_tst.txt (testfail html-kujul esitatud sõnade analüüsiks). Ülalnimetatut koondab estmorf.zip, mida saab tasuta laadida aadressil http://www.eki.ee/keeletehnoloogia/projektid/estmorf/estmorf.html. ESTMORFi sisend peaks olema DOS-i tekstifail, kus iga sõna on eraldi real ning nende vahel pole tühikuid. Sellise faili saamiseks võib kasutada programmi TXT2WRD, mida kasutatakse TXT2WRD file_name ja mis annab tulemuseks analüsaatori sisendiks sobiva faili file_name.wrd. ESTMORFi väljundiks on samanimeline fail laiendiga .MRF ehk praeguse näite puhul file_name.mrf. Selles on iga sisestatud sõnavormile antud tõlgendus eraldi real. Kui tahta, et samale vormile antud tõlgendused oleks ühel real, tuleb kasutada programmi MRF2LINE käsuga MRF2LINE file_name. Tulemuseks on file_name.lin. Kõik eelnev on võimalik kokku panna ning aktiveerida käsureaga MORFBAT file_name ja saada hõlpsasti tulemuseks file_name.lin. (Kaalep 1996: 91–92)

2.2. Töö käik ESTMORF võrdleb sisendit sõnastikus olevate lekseemide kombinatsioonidega. Et

enamiku1 eestikeelsest tekstist moodustavad lihtsõnad, kontrollib ESTMORF kõigepealt, kas sõne on sõnastikus olemas. Nii saadakse 40 protsendil juhtudest positiivne vastus esimesel katsel, mis andis tulemuseks kiire spelleri. Kui sõnet ei leita sõnastikust, tuleb kontrollida, millise liitsõna või tuletisega on tegemist. Liitsõnade eri struktuure töötlevad moodulid on analüsaatoris järjestatud nii, et enne proovitakse lihtsamaid ja seega tõenäolisemaid struktuurimalle. (Kaalep 1998: 28) Programmi katsetades selgus, et vähim vigu põhjustab järgnevate etappidega analüüsi-algoritm (Kaalep 1996: 85–86, Kaalep 1998: 26, näited Kaalep 1996: 73–82):

I. Esimene etapp. Kas string algab mitmesõnalise pärisnimega, nt New York? II. Teine etapp. Kas string on tavaline eestikeelse teksti ühik? Kas string on tekstis harvaesinev märk, nt %, &? Kas string on rooma number?

Kas string on initsiaal? Kas string sisaldab numbreid? (Kui stringi lõpus on punkt, siis praegu see kustutatakse.)

1 Kaalep 1996: 84 järgi moodustavad lihtsõnad eestikeelsest tekstist 75–85%. Liitsõnad ja tuletised moodustavad 10–20% tekstist, ülejäänud 5% ei kuulu tegelikult sõnavara hulka (nimed, lühendid, akronüümid, numbrid jm).

Kas string on käändumatu lühend? Kas string on käänduv lühend? Kas string on akronüüm käändelõpuga? Kas string on pärisnimi? (Sõna kirjutatakse väikeste tähtedega.) Kas string on mingi kombinatsioon numbritega? (Kui string koosneb ainult suurtest või ainult väikestest tähtedest või kui see

algab suure tähega, siis muudetakse kõik tähed väikeseks ja kontrollitakse, kas see on eestikeelne sõna ehk minnakse kolmandasse etappi.)

Kas string on väiketäheline sõna, mis sisaldab sidekriipsu? Kas string on suurtäheline sõna, mis sisaldab sidekriipsu? Kas string on akronüüm ilma käändelõputa? (Kui string lõpeb ki- või gi-ga, lõigatakse need kaks tähte maha ja

kontrollitakse, kas ülejäänu on eesti keele sõna. III. Kolmas etapp. Kas string on eesti keele sõna?

1. Kas sõna on lihtsõna? 2. Kas sõna struktuur on tüvi + liide (või tüvi + järelkomponent)?

kahelda+v, tantsi+ja, võime+kus 3. Kas sõna struktuur on eesliide + tüvi (või esikomponent + tüvi)?

a+sümmetria, eba+aus, üli+soe 4. Kas sõna struktuur on tüvi + tüvi?

pika+jalgne, plehku+panek, pärast+lõuna 5. Kas sõna struktuur on tüvi + tüvi + liide (või tüvi + tüvi + järelkomponent)?

lame+ussi+line, leiva+puru+kene, tasku+panda+v 6. Kas sõna struktuur on eesliide + tüvi + liide (või esikomponent + tüvi + liide või

eesliide + tüvi + järelkomponent või esikomponent + tüvi + järelkomponent)? 7. Kas sõna struktuur on tüvi + tüvi + tüvi?

kolmanda+järgu+materjal, plehku+paneku+mõte, laia+ääre+kübar 8. Kas sõna struktuur on tüvi + lõpp + tüvi?

ranna+l+jooks, las+te+aed, söö+mata+olek 9. Kas sõna struktuur on tüvi + lõpp + tüvi + liide (või tüvi + lõpp + tüvi +

järelkomponent)? ranna+l+jooks+mine, las+te+aia+ke, maga+mata+ole+mine

10. Kas sõna struktuur on tüvi + liide + tüvi (või tüvi + liide + tüvi + liide või tüvi + liide + tüvi + järelkomponent)?

ehita+ja+riietus, stiil+sus+kool, aadel+likkuse+proov 11. Kas sõna struktuur on eesliide + järelkomponent (või esikomponent +

järelkomponent)?“ Analüüsimata jäävad lühendid, terminid, slängisõnad, paljud pärisnimed jt haruldasemad sõnad.

3. Süntaksianalüsaator

Eesti keele jaoks on olemas üks süntaktiline analüsaator. See põhineb kitsenduste

grammatikal, milletaolisi on kirjutatud ka baski, inglise, norra, portugali, rootsi ja türgi

keelele (Roosmaa jt 2001: 107). Kitsenduste grammatikal baseeruva süntaksianalüsaatori töö

põhisisuks on ühestamine ehk mitme tõlgenduse seast õige valimine. Kõigepealt valitakse

morfoloogilisel ühestamisel sõnavormi tõlgenduste seast konteksti sobiv, siis määratakse

osalausete piirid, järgmisena omistatakse igale sõnale kõik võimalikud süntaktilised

märgendid ning lõpuks rakendatakse süntaktilisi kitsendusi, mis kaotavad konteksti sobimatud

märgendid. (Müürisep 1998: 47)

3.1. Morfoloogiline ühestamine

Analüsaatori morfoloogilise ühestamise osa sisaldab 1240 morfoloogilist kitsendust

(Roosmaa jt 2001: 91). Töö hindamiseks kasutati käsitsi märgendatud 9663-sõnalist

testkorpust, mis koosnes aja- ja ilukirjandustekstidest ning mille abil polnud varem

grammatikareegleid hinnatud (Roosmaa jt 2001: 89). Ühestaja tegi testkorpuses 180 viga, s.t

kustutas 1,9 protsendil sõnadest õige tõlgenduse. Kõige rohkem eksis analüsaator nimetava,

omastava, osastava ja lühikese sisseütleva eristamisel. Raskuselt järgmiseks osutus

partitsiipide määramine omadussõnaks või verbiks ning sellega seotud verbi olema

määramine kas põhi- või abiverbiks. (Roosmaa jt 2001: 92)

Pärast automaatset ühestamist jäi mitmesus kõige suuremaks sõnadel ta (tõlgendused

nominatiiv ja genitiiv, 24 korda), siis (sidesõna ja määrsõna, 17 koda) ja on (ainsus ja mitmus,

15 korda) (Roosmaa jt 2001: 94). Pärast ühestamist on levinuim nimisõna käänete mitmesus:

nominatiiv ja genitiiv (nt kodu, 56 esinemiskorda), partitiiv ja aditiiv (juttu, 46 korda) vm

(Roosmaa jt 2001: 95).

3.2. Osalausete piiride määramine

Lausepiiride määramine pole nii lihtne, kui esmapilgul tundub. Punkt numbri, initsiaali või

lühendi järel ei pruugi tähistada lause lõppu. Lauselõpupunktile võivad aga järgneda sulud,

jutumärgid või muud sümbolid. (Kaalep, Vaino 2000: 90) Osalause piirid määratakse

sidesõnade, kirjavahemärkide ja verbide abil. Põhireegel ütleb, et kui sõnale eelneb vastav

kirjavahemärk ja/ või sõna ise on sidesõna ning vasakul ja paremal pool seda sõna leidub

verbi pöördeline vorm, siis on see sõna osalauses esimene. Koma ja rinnastavate sidesõnade

ja, ning, ega, või, ehk abil saab eraldada nii osalauseid kui ka koondlause korduvaid liikmeid,

seetõttu lisatakse nendele sõnadele oletatava osalause tunnus. Eesti keele formaalses

grammatikas on 47 osalausepiiride määramise reeglit2. (Roosmaa jt 2001: 48)

Osalausete piiride määramist on peetud üheks kitsenduste grammatika puuduseks.

Nimelt on vaja teada sõnade süntaktilisi funktsioone, mille kohta sel analüüsietapil aga infot

veel pole. Näiteks lauses Trepikoda haises keedetud kapsa ja vanade kaltsumattide järgi on

märgitud algselt uus osalause algavat sidesõnast ja, sest sõnavormi järgi on võimalik

tõlgendada verbina. Hiljem küll kustutakse vormi järgi tõlgendus verbina, kuid osalausepiiri

märgendit sõnalt ja eemaldada pole enam võimalik. (Müürisep 1998: 55)

3.3. Süntaktiline märgendamine

Eesti keele kitsenduste grammatika süntaksianalüsaatoris (ESTKG) on 180 märgendite

lisamise reeglit. Need saadi EKG-st võetud reegleid arvutile sobivaks kirjutades. Analüsaatori

väljundi võrdlus käsitsi märgendatud tekstiga aitas hakkama saada erandjuhtudega. Umbes

pool märgendite lisamise reeglitest lisab märgendi ainult sõnaliigi ning käände või pöörde

põhjal, ülejäänud arvestavad ka konteksti. Reeglid on kirjutatud nii, et need lisavad pigem

mõne ülearuse märgendi kui jätavad midagi välja. Katsetest on selgunud, et peale märgendite

lisamist on sõnal keskmiselt 3,8 märgendit. (Roosmaa jt 2001: 48, Müürisep 1998: 50)

Eesti keele lauseliikmete märgendid on järgnevad (kusjuures öeldise iga sõna saab

eraldi märgendi):

@SUBJ – alus;

@OBJ – sihitis;

@PRD – öeldistäide;

@ADVL – määrus;

@+FMV – finiitne öeldis;

@-FMV – infiniitne öeldis;

@+FCV – olema liitaegades, modaalverbid jt ahelverbides, finiitne vorm;

@-FCV – olema liitaegades, modaalverbid jt ahelverbides, infiniitne vorm;

2 Roosmaa jt 2001: 91 öeldakse, et osalause määramise reegleid on eesti keele kitsenduste grammatikas hoopis 38.

@NEG – tegusõna eitus (Müürisep 1998: 48).

Süntaktiliselt ei analüüsita õigesti öeldiseks olevaid ühend- ja väljendverbe, sest

nendes sisalduvaid nimi- ja määrsõnu ei tunta eelneva morfoloogilise analüüsi käigus ära ning

neid analüüsitakse öeldisest lahus. (Müürisep 1998: 48)

Täiendi märgend annab infot sõnaliigi ning paiknemise kohta. Nõnda tähendab

@AN>, et omadussõna on eestäiend (tühi tänav) ning @<AN, et omadussõna on järeltäiend

(midagi sobivat). Täiendite märgendid on taolised:

@AN>, @<AN – omadussõna ees- ja järeltäiendina;

@AD>, @<AD – määrsõna ees- ja järeltäiendina;

@PN>, @<PN – kaassõna ees- ja järeltäiendina;

@NN>, @<NN – nimisõna ees- ja järeltäiendina, ees- ja järellisand;

@VN>, @<VN – partitsiip ees- ja järeltäiendina;

@INF_N>, @<INF_N – infinitiiv ees- ja järeltäiendina (Müürisep 1998: 49)

Sidendit märgitakse @J, hüüatust @I ja morfoloogiaanalüsaatori leksikonis puuduvat

sõna @??? (Müürisep 1998: 49).

3.4. Süntaktiline ühestamine

Peale märgendite lisamist valib analüsaator välja õiged märgendid. Selleks kasutatakse

süntaktilisi kitsendusi, mis näitavad, millistel tingimustel on sõnal just see süntaktiline

funktsioon (1) või mis tingimustel tal seda funktsiooni olla ei saa (2).

(1) Reegli (@w=s! (@AN>) (0 SgNom)(1 JaVõi)(2 SgNom)(2C AN>)) järgi on sõna

omadussõnaline eestäiend, kui ta on ainsuse nimetavas, järgmine sõna on ja,

ning, ega, või ning ülejärgmine sõna on samuti ainsuse nimetavas ning üheselt

määratud omadussõnaliseks eestäiendiks.

(2) Reegli (@w=s0 (@AN>) (NOT *1 SubstPron)) järgi tuleb sõnalt eemaldada

omadussõnalise eestäiendi märgend, kui kontekstis ei leidu paremal pool nimi-

ega asesõnu. (Müürisep 1998: 51)

Praegu on eesti keele arvutigrammatikas 1118 süntaktilist kitsendust, mis

moodustavad 2–20-liikmelisi kitsenduste gruppe, kusjuures iga kitsendus koosneb kuni

viieteistkümnest kontekstitingimusest. (Roosmaa jt 2001: 50) Palju kontekstitingimusi on

reeglitel, mis otsustavad, kas kolmes esimeses käändes olev nimisõna saab olla määruseks.

Näiteks nimetavas käändes nimisõna pole määrus juhul, kui ta põhivorm ei kuulu umbes

kahekümnesõnalisse ajamääruste loetellu; kui ta pole arvsõna, nimisõnaline kvantor ega

lauselaiend; kui talle ei eelne asesõna iga ega järgarv; kui tema ees pole võrdlust

väljendavaid sidesõnu kui ja nagu (Roosmaa jt 2001: 33).

Mõned reeglid on koostatud ainult statistika põhjal. Kõik ESTKG-s hõlmatud reeglid

pole sajaprotsendiliselt täpsed, kuid nende kasutegur on väga kõrge. Reeglite paikapidavust

kontrollitakse käsitsi süntaktiliselt märgendatud testkorpuse abil. Kui testitav reegel eemaldab

korrektse märgendi, lisatakse veateade ning täiendatakse reegli kontekstitingimusi. (Roosmaa

jt 2001: 34–35) Analüüsil rakendatakse esmalt kõige kindlamaid reegleid. Allesjäänud

mitmesuste eemaldamiseks kasutatakse usaldusväärsuselt järgmisi reegleid jne. (Roosmaa jt

2001: 34)

9663-sõnalisest ja 750-lauselisest testkorpusest analüüsis ESTKG veatult 85,6%

lausetest. Kõige raskem oli analüsaatoril eristada

• määrust ja järeltäiendit (309 korda)

kui ... esimene hämmeldus uuest olukorrast vaibuma hakkas;

• sihitist ja eestäiendit (91 korda)

kas lauavirnade seisund koputab ta südamele • määrust ja eestäiendit (89 korda)

ta võttis vasest ahjuroobi • alust ja sihitist (85 korda)

tal ei olnud enamasti midagi ütelda (Roosmaa jt 2001: 97–98).

Testkorpuses tekitas enim vigu (kaheksa) kaassõnalt järeltäiendi eemaldamise reegel,

tihti eemaldatakse valesti sihitise märgendit ning eksitakse öeldistäite analüüsil (Roosmaa jt

2001: 100–101). Kaili Müürisep, kes katsetas ESTKG-d EKG näitelausete peal, nentis, et

lisaks märgendilisamisreeglite vigadele said analüsaatorile komistuskiviks eba-

traditsioonilised laused. Näiteks pidas analüsaator lauses Eks nad varsti tee jälle süst i tegusõna käskiva kõneviisi teiseks pöördeks, kustutas seetõttu asesõnavormilt nad aluse

märgendi ja tõlgendab seda sihitisena. Seetõttu tuli kustutada ka õige sihitise märgend vormilt

süsti, sest lauses saab olla vaid üks sihitis. Lauses Lähme jala ja kõik ei osanud analüsaator

pidada sõna kõik määruseks ning pakkus seda olevat hoopis alus või sihitis. (Müürisep 1998:

53) Ülalmainitud testkorpuse lausetest keerulisimaid oli Kuid mis raske ta tühi ikka on,

mille sõnadest analüüsiti valesti neli: mis, raske, ta, tühi (Roosmaa jt 1998: 101).

4. Rakendused

4.1. Morfoloogiaanalüsaatori rakendusi

Morfoloogiline analüüs on aluseks kõigile teistele tekstitöötluse programmidele.

Morfoloogiaanalüsaatorid, olles ise lingvistilised töövahendid, on saanud ka mitme

kommertsrakenduse aluseks. Filosofti morfoloogiline analüsaator on olnud aluseks

lemmatiseerijale3, poolitajale ja mitmele õigekirjakontrollijale. Morfoloogiaanalüsaator on

teiste keeletehnoloogiliste vahendite hädavajalikuks etapiks (nt morfoloogiline ühestaja,

süntaksianalüsaator). Morfoloogiaanalüsaatorit on kasutatud ka keeleressursside loomisel, nt

morfoloogiliselt märgendatud korpuse tegemisel. TÜ reeglipõhine morfoloogiline ühestaja oli

abiks kirjakeele sagedussõnastiku koostamisel, seda kasutatakse ka difoonidel põhinevas

eesti keele sünteesis.

EKI analüsaatori olulisimaid praktilisi rakendusi on grammatiline kirjegeneraator.

Selle tarkvarasüsteemi abil saab tavalise sõnaraamatu sõnaartiklitesse poolautomaatselt lisada

eesti märksõnade (või vastete) grammatilised andmed: sõnaliik, muuttüüp, muutevormid,

üksuste piirid, grammatilised viited jne. Põhiliselt on loodud morfoloogiamooduleid kasutatud

siiski lingvistilises uurimistöös: tüvemuutuste ja tüübituvastuse süsteemi modelleerimisel,

silpide andmebaasi loomisel, sõnavormide kasutuse ja grammatilise homonüümia uurimisel.

(Viks 2000: 35)

4.2. Süntaksianalüsaatori rakendusi

4.2.1. Senini

Eesti keele süntaksianalüsaatorit on kasutatud sisukokkuvõtete automaatseks tegemiseks ja

nimisõnafraaside automaatseks tuvastamiseks.

Andres Lippuri bakalaureusetööna valmis eestikeelsetest tekstidest automaatseid

sisukokkuvõtteid tegev programm. Programm arvestas sõnade sagedust ning olulisust:

koefitsient arvutati sõltuvalt süntaktilisest funktsioonist. Arvuti ei pea mõistma teksti sisu,

vaid oskama valida tekstist välja olulisimad laused, mida on kerge teha näiteks paiknemise

järgi tekstis (ajaleheartiklis kokkuvõtvad laused alguses, essees lõigu alguses ja lõpus jne).

Lisaks lausete paiknemisele arvestavad automaatsed resümeerijad tavaliselt sõnade sagedust

3 Lemmatiseerimine tähendab algvormi ehk lemma tuvastamist, mis võimaldab saada edasist infot sõnastikust.

ning süntaktilist funktsiooni, nagu tegi ka Kaili Müürisepa juhendatav (Roosmaa jt 2001:

108–109).

Eksperimentaalne nimisõnafraaside tuvastaja EstNPTool 19994 määrab süntaktiliselt

analüüsitud tekstis fraasipiirid. Kõigepealt märgendab tuvastaja nimisõnafraaside põhja ja

laiendi. Seejärel kasutab ta mitmesuse kõrvaldamiseks oletusi: näiteks kui märgenditeks oli

pakutud nii järeltäiend kui põhi, eelistab ta põhja märgendit. Suure vigade protsenti aitaks

vähendada fraasituvastamisgrammatika kasutamine süntaktilise analüüsi järel. Selleks

lisatakse igale fraasi kuuluda võivale sõnale märgendid „fraasi algus“, „fraasis sees“ ja

„fraasist väljas“, mis seejärel ühestatakse. (Roosmaa jt 2001: 109–110)

4.2.2. Tulevikus

Lõppkasutaja vajadused, mida aitab täita süntaktiline automaatanalüüs, on järgnevad.

1. Infootsing täistekstidest mõistete, mitte ainult konkreetse sõnavormi järgi. Kasutaja ei

pea mõtlema morfoloogiale, vaid saab tulemuseks niihästi tekstid, mis sisaldavad

päringusõna mistahes vormis kui ka tekstid, mis sisaldavad olulisel määral

päringusõnaga seonduvaid märksõnu. Paljud terminid on nimisõnafraasid, seega on

nende tuvastamiseks süntaktilise analüsaatori kasutamine vältimatu. Tarvis oleks

töökindlat morfoloogilist oletajat ja ühestajat, sest tihti otsitakse sõnastikes puuduvaid

sõnu ja fraase: pärisnimesid (nt isikud, tooted, firmad, institutsioonid), teoste pealkirju

ja uhiuusi termineid. Loomulikult aitaks terminite tesaurus, mis võimaldaks otsingut

korraldada lisaks vahetult antud terminite ka nendega relevantsetes semantilistes

seostes olevate terminite ja muude väljendite kaudu. Otsing, mis võimaldaks infot

leida mitmekeelsest tekstist, vajab lisaks ülalnimetatule ka mitmekeelseid sõnastikke

ning tesaurusi.

2. Dokumentide refereerimine eeldab lisaks ülalmainitule vastava ainevaldkonna

mõistelist liigendust ja lisaks morfoloogilisele analüüsile süntaktilist analüüsi lause

ulatuses.

3. Tõlkeabi võimaldab süntaksianalüüs esialgu pakkuda tõlkemälu kujul. Tõlkemälus

hoitakse tõlgitud ja süntaktiliselt analüüsitud tekstide paralleelkorpust. Uue teksti

tõlkimisel vaadatakse, ega mõnd selles leiduvat fraasi pole juba varem tõlgitud.

Kvaliteetse masintõlke väljatöötamiseks on vaja paralleelkorpusi, mitmekeelseid

sõnastikke, väga head morfoloogilist, süntaktilist ning semantilist analüüsi ja sünteesi.

4 http://www.eki.ee/keeletehnoloogia/projektid/EstNPTool/estnp.html

4. Grammatikakorrektor võimaldab pärast morfoloogilist ühestamist ja süntaktilist

analüüsi kontrollida rektsiooni- ja ühildumisvigu.

Keeleteadlase ja -tehnoloogi vajadused ja unistused on järgnevad.

5. Ebastandardsete sõnavormide analüüs ja süntees vajab suurt tekstikorpust ja

täiendavaid reegleid. Vaja on hakkama saada ka lühendite, arvude, valemite,

kirjavigadega sõnade, haruldaste erialaterminite ja pärisnimedega.

6. Grammatiline analüüs ja süntees võiks muutuda senisest põhjalikumaks. Praegune

süntaksianalüsaator piirdub pindanalüüsiga, edaspidi võiks lause süntaktilist struktuuri

täpsemalt kirjeldada. Muuhulgas tuleks parandada olemasolevate morfoloogiliste

ühestajate kvaliteeti ning luua morfoloogilised ühestajad lisaks kirjakeelele ka kõne

jaoks. Kunagi ehk jõutakse ka süntaktilise süntesaatori loomiseni. Enne on vaja aga

ulatuslikku süntaktiliselt ja morfoloogiliselt märgendatud korpust ning formaliseeritud

grammatikakirjeldust. Paraku ei ole eesti süntaks siiani veel keeletehnoloogilisest

vaatenurgast piisavalt kirjeldatud.

7. Sünteeskõne mõjub loomulikuna, kui selle hääldus on keelepärane. Selleks on

olulised morfoloogiline ühestamine (määrab välte), fraasipiiride tuvastamine (määrab

sõnade vahele sobiva pikkusega pausid), süntaktiliste funktsioonide leidmine (määrab

lausetüübiga sobiva intonatsiooni) ning lauseliikmete asukoha võrdlemine (määrab,

millist sõna tuleb eriti rõhutada). Hakkama tuleb saada ka tekstis esinevate mitte-

sõnade (numbrid, lühendid, valemid jne) analüüsi ja sünteesiga.

(Roosmaa jt 2001: 110–111; Eesti keele tehnoloogilised ressursid ja vahendid 2003: 69–75)

Kirjandus

Kaalep, Heiki-Jaan. 1996. ESTMORF: a morphology analyzer for Estonian. – Estonian in the

Changing World. Toim. H. Õim. Tartu.

Kaalep, Heiki-Jaan. 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. –

Keel ja Kirjandus 1, lk 22–29.

Kaalep, Vaino 2000 = Heiki-Jaan Kaalep, Tarmo Vaino. 2000. Teksti täielik morfoloogiline

analüüs lingvisti töövahendite komplektis. – Arvutuslingvistikalt inimesele. Toim. T.

Hennoste. (= Tartu ülikooli üldkeeleteaduse õppetooli toimetised 1). Tartu, lk 37–72.

Müürisep, Kaili. 1998. Eesti keele süntaksianalüsaator. – Keel ja Kirjandus 1, lk 47–56.

Roosmaa jt 2001 = Tiit Roosmaa, Mare Koit, Kadri Muischnek, Kaili Müürisep, Tiina

Puolakainen, Heli Uibo. Eesti keele formaalne grammatika. Tartu ülikooli

arvutiteaduse instituut. Tartu.

Viks, Ülle. 1994. Eesti keele morfoloogiline analüsaator. Automaatanalüüsi võimalused

ja võimatused. – Keel ja Kirjandus 3, lk 150–163.

Viks, Ülle. 2000. Eesti keele avatud morfoloogiamudel. – Arvutuslingvistikalt inimesele.

Toim. T. Hennoste. (= Tartu ülikooli üldkeeleteaduse õppetooli toimetised 1). Tartu, lk

9–36.

Lisa. Valikbibliograafia

Hein, Indrek. 1994. Practical realisation of the morphological analysis. – Automatic

Morphology of Estonian 1. Research Reports. Toim. Ü.Viks. Tallinn: Eesti Keele

Instituut, lk 29–35.

Hein, Indrek 1995. Rules for finding boundaries in compound words. – Automatic

Morphology of Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele

Instituut, lk 7–22.

Kaalep, Heiki-Jaan. 1996. ESTMORF: A Morphological Analyzer for Estonian – Estonian in

the Changing World. Toim. H.Õim. Tartu: Tartu Ülikooli Kirjastus, 43–98.

Kaalep, Heiki-Jaan. 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. –

Keel ja Kirjandus 1, lk 22–29.

Kaalep, Heiki-Jaan; Vaino, Tarmo. 1998. Kas vale meetodiga õiged tulemused? Statistikale

tuginev eesti keele morfoloogiline ühestamine. – Keel ja Kirjandus 1, lk 30–38.

Kaalep, Heiki-Jaan. 1999. Eesti keele ressursside loomine ja kasutamine keeletehnoloogilises

arendustöös. = Dissertationes Philologiae Estonicae Universitatis Tartuensis 7. Tartu.

Kaalep, Heiki-Jaan; Vaino, Tarmo. 2000a. Full morphological analysis in the toolbox of a

linguist. – Congressus Nonus Internationalis Fenno–Ugristarum. 7.–13.8.2000 Tartu.

Pars II: Summaria acroasium in sectionibus et symposiis factaru, lk 342–343.

Kaalep, Vaino 2000 = Heiki-Jaan Kaalep, Tarmo Vaino. 2000b. Teksti täielik morfoloogiline

analüüs lingvisti töövahendite komplektis. – Arvutuslingvistikalt inimesele. Toim. T.

Hennoste. (= Tartu ülikooli üldkeeleteaduse õppetooli toimetised 1). Tartu, lk 37–72.

Kaalep jt 2000 = Heiki-Jaan Kaalep, Kadri Muischnek, Kaili Müürisep, Andriela Rääbis,

Külli Habicht. Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti

kirjakeele testkorpuse morfosüntaktilise märgendamise kogemusest. – Keel ja

Kirjandus 9, lk 623–633.

Kuusik, Evelin 1994. Morphological synthesis of Estonian based on the agglutination

strategy. – Automatic Morphology of Estonian 1. (Research Reports.) Toim. Ü.Viks.

Tallinn: Eesti Keele Instituut, 36–48.

Kuusik, Evelin 1995. Automatic recognition of the Estonian stem changes. – Automatic

Morphology of Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele

Instituut, 46–71.

Kuusik, Evelin 1996. Eesti tüvemuutuste süsteemi modelleerimine. Magistriväitekiri. Käsikiri

Eesti Keele Instituudis.

Lippur, Andres. 2000. Eesti keele automaatne sisukokkuvõtete tegemine. Bakalaureusetöö.

Käsikiri Tartu ülikooli arvutiteaduste instituudis.

Müürisep, Kaili. 1996. Eesti keele kitsenduste grammatika süntaksianalüsaator. Magistritöö.

Müürisep, Kaili. 1999. Developing a syntactic analyser for Estonian Software technology. –

Proceedings of the Fenno–Ugric symposium FUSST'99: technical report CS 104/99. ’

Tallinn: Institute of Cybernetics at Tallinn Technical University, lk 13–220.

Puolakainen, Tiina. 1996. Eesti keele morfoloogiline ühestamine kitsenduste grammatika abil.

Magistritöö (käsikiri Tartu Ülikooli arvutiteaduse instituudis).

Puolakainen, Tiina. 1998. Eesti keele kitsenduste grammatika morfoloogiline ühestaja. – Keel

ja Kirjandus 1, lk 37–46.

Puolakainen, Tiina. 2000. Eesti keele reeglipõhise morfoloogilise ühestamise probleemseid

kohti. – Arvutuslingvistikalt inimesele. Toim. T. Hennoste. (= Tartu ülikooli

üldkeeleteaduse õppetooli toimetised 1). Tartu, lk 73–86.

Puolakainen, Tiina. 2001. Eesti keele arvutigrammatika: morfoloogiline ühestamine. (=

Dissertationes Mathematicae Universitatis Tartuensis 27). Tartu.

Roosmaa jt 2001 = Tiit Roosmaa, Mare Koit, Kadri Muischnek, Kaili Müürisep, Tiina

Puolakainen, Heli Uibo. Eesti keele formaalne grammatika. Tartu ülikooli

arvutiteaduse instituut. Tartu.

Tiits, Mai (toim). 1983. Symposium on Grammars of Analysis and Synthesis and their

Representation in Computational Structures (Tallinn, November 28–30, 1983).

Summaries.

Uibo, Heli. 1998. Kahetasemeline morfoloogiamudel ja eesti keel. – Keel ja Kirjandus 1, lk

13–21.

Uibo, Heli. 1999. Eesti keele sõnavormide arvutianalüüs ja -süntees kahetasemelist

morfoloogiamudelit rakendades. Magistritöö.

http://www.cs.ut.ee/~heli_u/magistritoo.html.

Uibo, Heli. 2000. Kahetasemeline morfoloogiamudel eesti keele arvutimorfoloogia alusena. –

Arvutuslingvistikalt inimesele. Toim. T. Hennoste. (= Tartu ülikooli üldkeeleteaduse

õppetooli toimetised 1). Tartu, lk 37–72.

Uibo, Udo. 1980. Morfoloogilise analüüsi seiku. – Keel ja Kirjandus 6, lk 339–348.

Viks, Ülle. 1977. Klassifikatoorse morfoloogia põhimõtted. (Preprint KKI–9.) Tallinn: Eesti

Keele Instituut.

Viks, Ülle. 1982. Ühest morfoloogilisest klassifikatsioonist. – Keel ja Kirjandus 10, lk 517–

525; 11, lk 575–586.

Viks, Ülle (toim). 1994a. Automatic morphology of Estonian 1. Research Report. Tallinn:

Estonian Academy of Scinces, Institute of the Estonian Language.

Viks, Ülle. 1994b. Eesti keele morfoloogiline analüsaator. Automaatanalüüsi võimalused ja

võimatused. – Keel ja Kirjandus 3, lk 150–163.

Viks, Ülle 1995a. About rule–oriented morphology of Estonian. – Abstracts of Posters

Presented at the 10th Nordic Conference of Computational Linguistics NODALIDA–

95. Helsinki, lk 28–30.

Viks, Ülle (toim). 1995b. Automatic morphology of Estonian 2. Research Report. Tallinn:

Estonian Academy of Scinces, Institute of the Estonian Language.

Viks, Ülle 1995c. Rules for recognition of inflection types. – Automatic Morphology of

Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele Instituut, lk 23–45.

M.Sedrik, E.Uuspõld. Tartu: Tartu Ülikooli Kirjastus, 244–254.

Viks, Ülle. 1997. Erand, reegel ja sõnastik avatud morfoloogiamudelis. – Pühendusteos Huno

Rätsepale. 28.12.1997. Tartu Ülikooli eesti keele õppetooli toimetised 7. Toim.

M.Erelt, M.Sedrik, E.Uuspõld. Tartu: Tartu ülikooli kirjastus, lk 244–254.

Viks, Ülle. 2000. Eesti keele avatud morfoloogiamudel. – Arvutuslingvistikalt inimesele.

Toim. T. Hennoste. (= Tartu ülikooli üldkeeleteaduse õppetooli toimetised 1). Tartu, lk

9–36.

eesti keele morfoloogia- ja …evkk.tlu.ee/pdfs/morfoloogia.pdf · morfoloogilise analüüsi ja...

Documents