eesti keele morfoloogia- ja …evkk.tlu.ee/pdfs/morfoloogia.pdf · morfoloogilise analüüsi ja...
TRANSCRIPT
Tallinna Pedagoogikaülikool
Üld- ja rakenduslingvistika õppetool
Annika Kilgi
EESTI KEELE MORFOLOOEESTI KEELE MORFOLOO GIAGIA-- JA JA SÜNTAKSIANALÜSAATORISÜNTAKSIANALÜSAATORIDD
Referaat
Tallinn 2004
Sisukord
Sissejuhatus............................................................................................................................3
1.EKI morfoloogiaanalüsaator................................................................................................4
1.1. Koostis ja installeerimine.................................................................................................4 1.2. Töö käik ..........................................................................................................................5 1.2.1. Kombinatoorika............................................................................................................6 1.2.2. Tüvemuutused ..............................................................................................................6 1.2.3. Tuvastus .......................................................................................................................7
2.Filosofti morfoloogiaanalüsaator .........................................................................................8
2.1. Koostis ja installeerimine.................................................................................................8 2.2. Töö käik ..........................................................................................................................9
3.Süntaksianalüsaator ...........................................................................................................12
3.1. Morfoloogiline ühestamine ...........................................................................................12 3.2. Osalausete piiride määramine ........................................................................................12 3.3. Süntaktiline märgendamine............................................................................................13 3.4. Süntaktiline ühestamine.................................................................................................14
4.Rakendused .......................................................................................................................17
4.1. Morfoloogiaanalüsaatori rakendusi ................................................................................17 4.2. Süntaksianalüsaatori rakendusi ......................................................................................17
4.2.1. Senini .........................................................................................................................17 4.2.2. Tulevikus....................................................................................................................18
............................................................................................................................................19
Kirjandus .............................................................................................................................20
Lisa. Valikbibliograafia........................................................................................................21
Sissejuhatus
Morfoloogiliseks analüsaatoriks nimetatakse arvutiprogrammi, mis määrab sõnavormi
algvormi ja grammatilise tähenduse. Eesti keele jaoks on olemas kaks avalikku kasutusse
antud morfoloogiaanalüsaatorit. Referaadi esimene peatükk tutvustab Eesti Keele Instituudis
loodud avatud morfoloogiamudelil põhinevat morfoloogiaanalüsaatorit, teine peatükk
tekstikorpuse abil loodud Filosofti morfoloogiaanalüsaatorit ESTMORF. Lisaks
morfoloogilise analüüsi ja sünteesi programmidele on eesti keele tarvis välja töötatud ka
kitsenduste grammatikal põhinev süntaksi pindanalüüsi programm, millest räägib kolmas
peatükk. Neljandas peatükk kajastab eesti keele analüsaatorite seniseid ning võimalikke
rakendusi. Lisa sisaldab olulisimaid temaatilisi kirjutisi Eesti autoritelt.
1. EKI morfoloogiaanalüsaator
1.1. Koostis ja installeerimine
Eesti Keele Instituudi automaatne morfoloogiasüsteem koosneb suhteliselt iseseisvatest
moodulitest. Iga mooduli jaoks on koostatud formaalsed grammatikad (silbitus,
tüvemuutused, tüübi- ja sõnaliigituvastus, sõnavormide analüüs ja süntees) ning vastavate
reeglite interpretaatorid (arvutiprogrammid reeglite rakendamiseks). Morfoloogiaanalüsaator
on kättesaadav vabavarana EKI kodulehel http://www.eki.ee.
Analüüsiks tuleb arvutisse laadida
1) moodulid:
• silbitus,
• tüübituvastus,
• vormimoodustus,
• ana.dll (analüüsimoodul);
2) programmid (ana_bin.zip);
3) andmefailid (est_morpho_data.zip), näiteks:
• yla-tab (kriipsu ja apostroofi järgsed käändelõpud),
• form-tab (formatiivide reeglid),
• form.exc (formatiivide erandid),
• der-tab (tuletusreeglid),
• der.exc (tuletuserandid),
• liitsõnareeglid ja -erandid: erandid.ls, fonoer.ls, indekl.ls, kompo.ls, osad.ls,
osised.ls, reeglid.ls, tervik.ls, yh_verb.ls,
• fcodes.ini (vormikoodide esitus väljundis),
• kasutaja.dic (provisoorne kasutajasõnastik),
• lemma.dic (lemmasõnastik, kasutatakse nõudmisel).
Kõik reeglid ja erandid on tekstifailides ja neid saab vajaduse korral muuta. See võimaldab
kohandada süsteemi nt konkreetse ainevaldkonna sõnavaraga või kohandada reegleid nt
pärisnimede jaoks (mis võivad käänduda teisiti kui vastavad üldnimed, vrd saag: sae, aga
Saag: Saagi). Reeglite muutmine ilma autoritega konsulteerimata ei ole siiski soovitatav.
1.2. Töö käik
EKI morfoloogiaanalüsaator toimib antud järjekorras. Liitsõna analüüsil üritatakse sõnavormi
sobivalt jupitada (arvesse tulevad liitsõnapiiri reeglid) ja korratakse samme alates teisest
rekursiivselt.
1. Üritatakse eraldada sõnavormil gi/ki lõppu.
2. Üritatakse eraldada kõik failis form-tab lubatud lõpud ja leitakse sealt
oletatav muuttüüp, tüvekood ja vormikood.
3. Tüve ja tüvekoodi kombinatsiooni alusel tagastab vormimoodustus
(funktsioon createlemma) sobiva(d) algvormi(d)
4. Kui ei tekkinud erandit (meesi ei saa olla mees omastavas) ja ka
tüübituvastus kinnitab tuletatud lemma kohta sama muuttüübi, siis
analüüsi tulemused väljastatakse
5. Kui analüüsilt eeldatakse tuletisliidete eraldamist tüvest, käib analüüs
läbi järgmised etapid:
failist der-tab otsitakse võimalikke sufikseid tüve ja tüvekoodi kombinatsiooni alusel tagastab
vormimoodustus (funktsioon createlemma) sobiva(d) algvormi(d)
kui erandit ei tekkinud ja ka tüübituvastus kinnitab tuletatud lemma kohta sama muuttüübi, siis analüüsi tulemused väljastatakse
Kõigepealt läbib sisendiks olev sõnavorm kombinatoorika mooduli, kus saadakse iga
liigendatud formatiivi jaoks allotaktiliselt võimalikud tüvevariantide koodid. Sellele järgneb
tüvemuutuste moodul, kus liigendamisel saadud tüvevariandist moodustatakse kõik
võimalikud lemmad. Viimasena kontrollitakse tuvastusmoodulis, kas saadud lemmad sobivad
vastava tüübi sõnaks. (Viks 2000: 29)
Teisisõnu toimub sõnavormi analüüs nii:
SISEND jalgade KOMBINATOORIKA MOODUL tüvi ja formatiiv
TÜVEMUUTUSTE MOODUL lemmad
TUVASTUSMOODUL tüüp, sõnaliik
VÄLJUND JALG & ´22_S’ & ’pl g’
(Viks 2000: 29)
1.2.1. Kombinatoorika
Sõnavormi analüüsimiseks jaotab analüsaator selle kõigepealt üksusteks ning otsib neid
üksusi sõnastikust. Minimaalne liigendus jagab sõnavormi tüveks ja formatiiviks, kusjuures
formatiiv kannab kõiki grammatilisi tähendusi, nt hammas/tega – HAMMAS + ’pl kom’.
Detailsem liigendus jagab sõnatüve vajadusel juureks ja tuletusliideteks (kala/ke), formatiivi
aga eraldi grammatilisi tähendusi kandvateks morfeemideks. Liitsõnad jaotatakse
leksikaaltähendusi kandvateks osadeks (kaitse+vägi). (Viks 1994: 153)
Tuletusi pole tarvis sõnastikus hoida, sest analüsaator tunneb tuletussufiksid ära ning
juured on sõnastikus olemas. Sõnastiku mahtu aitab kokku hoida ka liitsõnaliigendus: kui
morfoloogiline analüsaator tunneb ära liitsõnaosade piirid, pole vaja säilitada liitsõnu, mille
komponendid on ilmselt juba sõnastikus olemas. (Viks 1994: 154)
Analüüsi suundadest on EKI analüsaator valinud tagant ette analüüsi, sest see sobib
sufiksilisele keelele paremini kui vastupidine suund. Grammatiliste üksuste sõnastikus toimub
otsing kiiresti ning sõnaosa, mida sealt ei leitud, otsitakse lõpuks tüvesõnastikust. (Viks 1994:
154) Kuigi eesti keelele sobib selline liigendamine üldiselt hästi, tekib ka probleeme. Sageli
osutub keeruliseks tüve ja formatiivi piiri leidmine, nt jalul → jal/ul või jalu/l, jooksin →
jooks/in või joo/ksi/n. Raskeimaks osutub aga nii tüvede kui grammatiliste üksuste
varieerumise formaliseerimine. (Viks 1994: 156)
1.2.2. Tüvemuutused
Fonoloogiliselt varieeruvate üksuste käsitlemise jaoks tuleb liigendusanalüüsi täiendada
teisendustega. Sõnavormi analüüsimiseks tuleb eristatud koostisosad teisendada algvormi
kujule ning leida algvormid sõnastikest. Eesti keel vajab tüvemuutuste süsteemi keerulisusest
lähtuvalt häid teisendusreegleid. Formaliseerida tuleb mitmesugused tüve astmemuutused
(paika/ma: paiga/ta), tüve lõpumuutused (sipelgas: sipelga), mõlemad koos (kannel: kandle)
ning tüve ja formatiivi piiril morfonoloogilistel põhjustel toimuv (idee + id → ideid, naer + v → naerev, hüpel + ta → hüpelda). (Viks 1994: 158)
Teisendusreeglite kasutamisel tekitavad probleeme kohad, kus varieerumine pole
fonoloogiliselt määratletav (kraadima: kraadib, praadima: praeb). EKI
morfoloogiaanalüsaator ületab need raskused kasutades morfoloogilist klassifikatsiooni, mis
on meile tuttav „Väikesest vormisõnastikust“. Iga tüvede sõnastikus oleva sõna juures on
tüübinumber, mis viib tüübikirjelduse juurde. Tüübikirjeldus fikseerib kõik vastava tüübi
variandikombinatsioonid: tüve astmevaheldusmalli, lõpuvaheldusmalli ning
formatiivivariantide kasutuse vormistikus. (Viks 1994: 160)
1.2.3. Tuvastus
Tuvastusreeglite abil tehakse kindlaks sõna tüübikuuluvus ja sõnaliik. Passiivses
morfoloogias rakenduvad teatud reeglid sõnale vaid juhul, kui sõna on markeeritud vastavaid
reegleid käivitava infoga. Aktiivses morfoloogias ei otsita sõna sõnastikust, piisab vaid
fonoloogilise kuju analüüsist, et reegleid rakendada. Aktiivsesse morfoloogiasse kuuluval
sõnal määrab tüve struktuur otseselt selle muuttüübi. Tuvastusreeglid kontrollivad kõigepealt,
kas sõna kuulub passiivsesse morfoloogiasse. Kui mitte, määratakse sõna muuttüüp selle
fonoloogilise kuju järgi. Seega võimaldab tuvastusreeglite kasutamine piirduda sõnastikus
vaid irregulaarsete tüvedega ning analüüsida uusi sõnu, mis võtavad tavaliselt omaks aktiivse
morfoloogia muutumisviisid. EKI morfoloogiasüsteemi avatus tähendabki seda, et see on
suuteline formaalse grammatika reeglite abil andma õige tõlgenduse ka sõnastikus
fikseerimata sõnavarale. (Viks 1994: 161)
2. Filosofti morfoloogiaanalüsaator
2.1. Koostis ja installeerimine ESTMORF on arvutiprogramm suvalise eestikeelse teksti morfoloogiliseks analüüsiks ning seda saab kasutada interneti kaudu aadressil http://www.filosoft.ee/html_morf_et/. Arvutiprogrammi loomisel kasutati samuti Ülle Viksi „Väikese vormisõnastiku“ elektroonilist versiooni. ESTMORFi sõnastik on jätnud VVS-st mitu tuhat sõna välja (arhaisme, murdesõnu, liigseid tuletisi) ning lisanud mitu tuhat sõna (pärisnimesid, lühendeid, algoritmiliselt raskesti kirjeldatavaid liitsõnu) (Kaalep 1998: 26). Sarnaselt EKI morfoloogiaanalüsaatoriga pole ka ESTMORFi sõnastikus reeglina produktiivselt moodustatavaid tuletisi ja liitsõnu (Kaalep 1998: 23). ESMORF koosneb (http://www.eki.ee/keeletehnoloogia/projektid/estmorf/estmorf.html, Kaalep 1996: 88) 1) analüsaatorist estmorf.exe; 2) sõnastikust eesti.dct, mis on vormistatud loenditena
• 67000 tüve 39 000 sõnast, • 163 lõppu, • 150 eesliidet ja levinuimat alguskomponenti, • 150 järelliidet ja 200 levinuimat järelkomponenti, • 240 lõppude komplekti konkreetse sõnarühma tarvis, • 2000 ebatavalisemat liitsõna alguskomponenti, • 44 gi- või ki-lõpulist sõna, kus tegu pole liitega, • 100 käändumatut lühendit, • 140 käänduvat lühendit, • 100 akronüümi, • 80 mitmesõnaliste võõrkohanimede esimest komponenti, • 10 mitmesõnaliste võõrkohanimede komponenti, • 10 kohanimede eesliidet, • 20 häälikujärjendit, mis ei saa lugeda liitsõnakomponentideks (nt ist, oid), sest
siis tuleks paljudel juhtudel tõmmata sõnapiir sobimatusse kohta. (Kaalep 1996: 83–84);
3) ülejäänud failidest
• eesti.udr (kasutaja-sõnastiku näidisfail),
• txt2wrd.exe (tavalise tekstifaili teisendaja kujule ‘sõna real’),
• baltic.cnv (täpitähtede teisendusfail balti kooditabelist Win 1257 Filosofti
sisemisele kujule),
• html.cnv (täpitähtede teisendusfail html-kujult Filosofti sisemisele kujule),
• baltic-h.cnv (täpitähtede teisendusfail balti kooditabelist Win 1257 Filosofti
sisemisele kujule),
• baltic-k.cnv (täpitähtede teisendusfail balti kooditabelist Win 1257 Filosofti
sisemisele kujule),
• balt_tst.txt (testfail balti kooditabelis esitatud sõnade analüüsiks)
• html_tst.txt (testfail html-kujul esitatud sõnade analüüsiks). Ülalnimetatut koondab estmorf.zip, mida saab tasuta laadida aadressil http://www.eki.ee/keeletehnoloogia/projektid/estmorf/estmorf.html. ESTMORFi sisend peaks olema DOS-i tekstifail, kus iga sõna on eraldi real ning nende vahel pole tühikuid. Sellise faili saamiseks võib kasutada programmi TXT2WRD, mida kasutatakse TXT2WRD file_name ja mis annab tulemuseks analüsaatori sisendiks sobiva faili file_name.wrd. ESTMORFi väljundiks on samanimeline fail laiendiga .MRF ehk praeguse näite puhul file_name.mrf. Selles on iga sisestatud sõnavormile antud tõlgendus eraldi real. Kui tahta, et samale vormile antud tõlgendused oleks ühel real, tuleb kasutada programmi MRF2LINE käsuga MRF2LINE file_name. Tulemuseks on file_name.lin. Kõik eelnev on võimalik kokku panna ning aktiveerida käsureaga MORFBAT file_name ja saada hõlpsasti tulemuseks file_name.lin. (Kaalep 1996: 91–92)
2.2. Töö käik ESTMORF võrdleb sisendit sõnastikus olevate lekseemide kombinatsioonidega. Et
enamiku1 eestikeelsest tekstist moodustavad lihtsõnad, kontrollib ESTMORF kõigepealt, kas sõne on sõnastikus olemas. Nii saadakse 40 protsendil juhtudest positiivne vastus esimesel katsel, mis andis tulemuseks kiire spelleri. Kui sõnet ei leita sõnastikust, tuleb kontrollida, millise liitsõna või tuletisega on tegemist. Liitsõnade eri struktuure töötlevad moodulid on analüsaatoris järjestatud nii, et enne proovitakse lihtsamaid ja seega tõenäolisemaid struktuurimalle. (Kaalep 1998: 28) Programmi katsetades selgus, et vähim vigu põhjustab järgnevate etappidega analüüsi-algoritm (Kaalep 1996: 85–86, Kaalep 1998: 26, näited Kaalep 1996: 73–82):
I. Esimene etapp. Kas string algab mitmesõnalise pärisnimega, nt New York? II. Teine etapp. Kas string on tavaline eestikeelse teksti ühik? Kas string on tekstis harvaesinev märk, nt %, &? Kas string on rooma number?
Kas string on initsiaal? Kas string sisaldab numbreid? (Kui stringi lõpus on punkt, siis praegu see kustutatakse.)
1 Kaalep 1996: 84 järgi moodustavad lihtsõnad eestikeelsest tekstist 75–85%. Liitsõnad ja tuletised moodustavad 10–20% tekstist, ülejäänud 5% ei kuulu tegelikult sõnavara hulka (nimed, lühendid, akronüümid, numbrid jm).
Kas string on käändumatu lühend? Kas string on käänduv lühend? Kas string on akronüüm käändelõpuga? Kas string on pärisnimi? (Sõna kirjutatakse väikeste tähtedega.) Kas string on mingi kombinatsioon numbritega? (Kui string koosneb ainult suurtest või ainult väikestest tähtedest või kui see
algab suure tähega, siis muudetakse kõik tähed väikeseks ja kontrollitakse, kas see on eestikeelne sõna ehk minnakse kolmandasse etappi.)
Kas string on väiketäheline sõna, mis sisaldab sidekriipsu? Kas string on suurtäheline sõna, mis sisaldab sidekriipsu? Kas string on akronüüm ilma käändelõputa? (Kui string lõpeb ki- või gi-ga, lõigatakse need kaks tähte maha ja
kontrollitakse, kas ülejäänu on eesti keele sõna. III. Kolmas etapp. Kas string on eesti keele sõna?
1. Kas sõna on lihtsõna? 2. Kas sõna struktuur on tüvi + liide (või tüvi + järelkomponent)?
kahelda+v, tantsi+ja, võime+kus 3. Kas sõna struktuur on eesliide + tüvi (või esikomponent + tüvi)?
a+sümmetria, eba+aus, üli+soe 4. Kas sõna struktuur on tüvi + tüvi?
pika+jalgne, plehku+panek, pärast+lõuna 5. Kas sõna struktuur on tüvi + tüvi + liide (või tüvi + tüvi + järelkomponent)?
lame+ussi+line, leiva+puru+kene, tasku+panda+v 6. Kas sõna struktuur on eesliide + tüvi + liide (või esikomponent + tüvi + liide või
eesliide + tüvi + järelkomponent või esikomponent + tüvi + järelkomponent)? 7. Kas sõna struktuur on tüvi + tüvi + tüvi?
kolmanda+järgu+materjal, plehku+paneku+mõte, laia+ääre+kübar 8. Kas sõna struktuur on tüvi + lõpp + tüvi?
ranna+l+jooks, las+te+aed, söö+mata+olek 9. Kas sõna struktuur on tüvi + lõpp + tüvi + liide (või tüvi + lõpp + tüvi +
järelkomponent)? ranna+l+jooks+mine, las+te+aia+ke, maga+mata+ole+mine
10. Kas sõna struktuur on tüvi + liide + tüvi (või tüvi + liide + tüvi + liide või tüvi + liide + tüvi + järelkomponent)?
ehita+ja+riietus, stiil+sus+kool, aadel+likkuse+proov 11. Kas sõna struktuur on eesliide + järelkomponent (või esikomponent +
järelkomponent)?“ Analüüsimata jäävad lühendid, terminid, slängisõnad, paljud pärisnimed jt haruldasemad sõnad.
3. Süntaksianalüsaator
Eesti keele jaoks on olemas üks süntaktiline analüsaator. See põhineb kitsenduste
grammatikal, milletaolisi on kirjutatud ka baski, inglise, norra, portugali, rootsi ja türgi
keelele (Roosmaa jt 2001: 107). Kitsenduste grammatikal baseeruva süntaksianalüsaatori töö
põhisisuks on ühestamine ehk mitme tõlgenduse seast õige valimine. Kõigepealt valitakse
morfoloogilisel ühestamisel sõnavormi tõlgenduste seast konteksti sobiv, siis määratakse
osalausete piirid, järgmisena omistatakse igale sõnale kõik võimalikud süntaktilised
märgendid ning lõpuks rakendatakse süntaktilisi kitsendusi, mis kaotavad konteksti sobimatud
märgendid. (Müürisep 1998: 47)
3.1. Morfoloogiline ühestamine
Analüsaatori morfoloogilise ühestamise osa sisaldab 1240 morfoloogilist kitsendust
(Roosmaa jt 2001: 91). Töö hindamiseks kasutati käsitsi märgendatud 9663-sõnalist
testkorpust, mis koosnes aja- ja ilukirjandustekstidest ning mille abil polnud varem
grammatikareegleid hinnatud (Roosmaa jt 2001: 89). Ühestaja tegi testkorpuses 180 viga, s.t
kustutas 1,9 protsendil sõnadest õige tõlgenduse. Kõige rohkem eksis analüsaator nimetava,
omastava, osastava ja lühikese sisseütleva eristamisel. Raskuselt järgmiseks osutus
partitsiipide määramine omadussõnaks või verbiks ning sellega seotud verbi olema
määramine kas põhi- või abiverbiks. (Roosmaa jt 2001: 92)
Pärast automaatset ühestamist jäi mitmesus kõige suuremaks sõnadel ta (tõlgendused
nominatiiv ja genitiiv, 24 korda), siis (sidesõna ja määrsõna, 17 koda) ja on (ainsus ja mitmus,
15 korda) (Roosmaa jt 2001: 94). Pärast ühestamist on levinuim nimisõna käänete mitmesus:
nominatiiv ja genitiiv (nt kodu, 56 esinemiskorda), partitiiv ja aditiiv (juttu, 46 korda) vm
(Roosmaa jt 2001: 95).
3.2. Osalausete piiride määramine
Lausepiiride määramine pole nii lihtne, kui esmapilgul tundub. Punkt numbri, initsiaali või
lühendi järel ei pruugi tähistada lause lõppu. Lauselõpupunktile võivad aga järgneda sulud,
jutumärgid või muud sümbolid. (Kaalep, Vaino 2000: 90) Osalause piirid määratakse
sidesõnade, kirjavahemärkide ja verbide abil. Põhireegel ütleb, et kui sõnale eelneb vastav
kirjavahemärk ja/ või sõna ise on sidesõna ning vasakul ja paremal pool seda sõna leidub
verbi pöördeline vorm, siis on see sõna osalauses esimene. Koma ja rinnastavate sidesõnade
ja, ning, ega, või, ehk abil saab eraldada nii osalauseid kui ka koondlause korduvaid liikmeid,
seetõttu lisatakse nendele sõnadele oletatava osalause tunnus. Eesti keele formaalses
grammatikas on 47 osalausepiiride määramise reeglit2. (Roosmaa jt 2001: 48)
Osalausete piiride määramist on peetud üheks kitsenduste grammatika puuduseks.
Nimelt on vaja teada sõnade süntaktilisi funktsioone, mille kohta sel analüüsietapil aga infot
veel pole. Näiteks lauses Trepikoda haises keedetud kapsa ja vanade kaltsumattide järgi on
märgitud algselt uus osalause algavat sidesõnast ja, sest sõnavormi järgi on võimalik
tõlgendada verbina. Hiljem küll kustutakse vormi järgi tõlgendus verbina, kuid osalausepiiri
märgendit sõnalt ja eemaldada pole enam võimalik. (Müürisep 1998: 55)
3.3. Süntaktiline märgendamine
Eesti keele kitsenduste grammatika süntaksianalüsaatoris (ESTKG) on 180 märgendite
lisamise reeglit. Need saadi EKG-st võetud reegleid arvutile sobivaks kirjutades. Analüsaatori
väljundi võrdlus käsitsi märgendatud tekstiga aitas hakkama saada erandjuhtudega. Umbes
pool märgendite lisamise reeglitest lisab märgendi ainult sõnaliigi ning käände või pöörde
põhjal, ülejäänud arvestavad ka konteksti. Reeglid on kirjutatud nii, et need lisavad pigem
mõne ülearuse märgendi kui jätavad midagi välja. Katsetest on selgunud, et peale märgendite
lisamist on sõnal keskmiselt 3,8 märgendit. (Roosmaa jt 2001: 48, Müürisep 1998: 50)
Eesti keele lauseliikmete märgendid on järgnevad (kusjuures öeldise iga sõna saab
eraldi märgendi):
@SUBJ – alus;
@OBJ – sihitis;
@PRD – öeldistäide;
@ADVL – määrus;
@+FMV – finiitne öeldis;
@-FMV – infiniitne öeldis;
@+FCV – olema liitaegades, modaalverbid jt ahelverbides, finiitne vorm;
@-FCV – olema liitaegades, modaalverbid jt ahelverbides, infiniitne vorm;
2 Roosmaa jt 2001: 91 öeldakse, et osalause määramise reegleid on eesti keele kitsenduste grammatikas hoopis 38.
@NEG – tegusõna eitus (Müürisep 1998: 48).
Süntaktiliselt ei analüüsita õigesti öeldiseks olevaid ühend- ja väljendverbe, sest
nendes sisalduvaid nimi- ja määrsõnu ei tunta eelneva morfoloogilise analüüsi käigus ära ning
neid analüüsitakse öeldisest lahus. (Müürisep 1998: 48)
Täiendi märgend annab infot sõnaliigi ning paiknemise kohta. Nõnda tähendab
@AN>, et omadussõna on eestäiend (tühi tänav) ning @<AN, et omadussõna on järeltäiend
(midagi sobivat). Täiendite märgendid on taolised:
@AN>, @<AN – omadussõna ees- ja järeltäiendina;
@AD>, @<AD – määrsõna ees- ja järeltäiendina;
@PN>, @<PN – kaassõna ees- ja järeltäiendina;
@NN>, @<NN – nimisõna ees- ja järeltäiendina, ees- ja järellisand;
@VN>, @<VN – partitsiip ees- ja järeltäiendina;
@INF_N>, @<INF_N – infinitiiv ees- ja järeltäiendina (Müürisep 1998: 49)
Sidendit märgitakse @J, hüüatust @I ja morfoloogiaanalüsaatori leksikonis puuduvat
sõna @??? (Müürisep 1998: 49).
3.4. Süntaktiline ühestamine
Peale märgendite lisamist valib analüsaator välja õiged märgendid. Selleks kasutatakse
süntaktilisi kitsendusi, mis näitavad, millistel tingimustel on sõnal just see süntaktiline
funktsioon (1) või mis tingimustel tal seda funktsiooni olla ei saa (2).
(1) Reegli (@w=s! (@AN>) (0 SgNom)(1 JaVõi)(2 SgNom)(2C AN>)) järgi on sõna
omadussõnaline eestäiend, kui ta on ainsuse nimetavas, järgmine sõna on ja,
ning, ega, või ning ülejärgmine sõna on samuti ainsuse nimetavas ning üheselt
määratud omadussõnaliseks eestäiendiks.
(2) Reegli (@w=s0 (@AN>) (NOT *1 SubstPron)) järgi tuleb sõnalt eemaldada
omadussõnalise eestäiendi märgend, kui kontekstis ei leidu paremal pool nimi-
ega asesõnu. (Müürisep 1998: 51)
Praegu on eesti keele arvutigrammatikas 1118 süntaktilist kitsendust, mis
moodustavad 2–20-liikmelisi kitsenduste gruppe, kusjuures iga kitsendus koosneb kuni
viieteistkümnest kontekstitingimusest. (Roosmaa jt 2001: 50) Palju kontekstitingimusi on
reeglitel, mis otsustavad, kas kolmes esimeses käändes olev nimisõna saab olla määruseks.
Näiteks nimetavas käändes nimisõna pole määrus juhul, kui ta põhivorm ei kuulu umbes
kahekümnesõnalisse ajamääruste loetellu; kui ta pole arvsõna, nimisõnaline kvantor ega
lauselaiend; kui talle ei eelne asesõna iga ega järgarv; kui tema ees pole võrdlust
väljendavaid sidesõnu kui ja nagu (Roosmaa jt 2001: 33).
Mõned reeglid on koostatud ainult statistika põhjal. Kõik ESTKG-s hõlmatud reeglid
pole sajaprotsendiliselt täpsed, kuid nende kasutegur on väga kõrge. Reeglite paikapidavust
kontrollitakse käsitsi süntaktiliselt märgendatud testkorpuse abil. Kui testitav reegel eemaldab
korrektse märgendi, lisatakse veateade ning täiendatakse reegli kontekstitingimusi. (Roosmaa
jt 2001: 34–35) Analüüsil rakendatakse esmalt kõige kindlamaid reegleid. Allesjäänud
mitmesuste eemaldamiseks kasutatakse usaldusväärsuselt järgmisi reegleid jne. (Roosmaa jt
2001: 34)
9663-sõnalisest ja 750-lauselisest testkorpusest analüüsis ESTKG veatult 85,6%
lausetest. Kõige raskem oli analüsaatoril eristada
• määrust ja järeltäiendit (309 korda)
kui ... esimene hämmeldus uuest olukorrast vaibuma hakkas;
• sihitist ja eestäiendit (91 korda)
kas lauavirnade seisund koputab ta südamele • määrust ja eestäiendit (89 korda)
ta võttis vasest ahjuroobi • alust ja sihitist (85 korda)
tal ei olnud enamasti midagi ütelda (Roosmaa jt 2001: 97–98).
Testkorpuses tekitas enim vigu (kaheksa) kaassõnalt järeltäiendi eemaldamise reegel,
tihti eemaldatakse valesti sihitise märgendit ning eksitakse öeldistäite analüüsil (Roosmaa jt
2001: 100–101). Kaili Müürisep, kes katsetas ESTKG-d EKG näitelausete peal, nentis, et
lisaks märgendilisamisreeglite vigadele said analüsaatorile komistuskiviks eba-
traditsioonilised laused. Näiteks pidas analüsaator lauses Eks nad varsti tee jälle süst i tegusõna käskiva kõneviisi teiseks pöördeks, kustutas seetõttu asesõnavormilt nad aluse
märgendi ja tõlgendab seda sihitisena. Seetõttu tuli kustutada ka õige sihitise märgend vormilt
süsti, sest lauses saab olla vaid üks sihitis. Lauses Lähme jala ja kõik ei osanud analüsaator
pidada sõna kõik määruseks ning pakkus seda olevat hoopis alus või sihitis. (Müürisep 1998:
53) Ülalmainitud testkorpuse lausetest keerulisimaid oli Kuid mis raske ta tühi ikka on,
mille sõnadest analüüsiti valesti neli: mis, raske, ta, tühi (Roosmaa jt 1998: 101).
4. Rakendused
4.1. Morfoloogiaanalüsaatori rakendusi
Morfoloogiline analüüs on aluseks kõigile teistele tekstitöötluse programmidele.
Morfoloogiaanalüsaatorid, olles ise lingvistilised töövahendid, on saanud ka mitme
kommertsrakenduse aluseks. Filosofti morfoloogiline analüsaator on olnud aluseks
lemmatiseerijale3, poolitajale ja mitmele õigekirjakontrollijale. Morfoloogiaanalüsaator on
teiste keeletehnoloogiliste vahendite hädavajalikuks etapiks (nt morfoloogiline ühestaja,
süntaksianalüsaator). Morfoloogiaanalüsaatorit on kasutatud ka keeleressursside loomisel, nt
morfoloogiliselt märgendatud korpuse tegemisel. TÜ reeglipõhine morfoloogiline ühestaja oli
abiks kirjakeele sagedussõnastiku koostamisel, seda kasutatakse ka difoonidel põhinevas
eesti keele sünteesis.
EKI analüsaatori olulisimaid praktilisi rakendusi on grammatiline kirjegeneraator.
Selle tarkvarasüsteemi abil saab tavalise sõnaraamatu sõnaartiklitesse poolautomaatselt lisada
eesti märksõnade (või vastete) grammatilised andmed: sõnaliik, muuttüüp, muutevormid,
üksuste piirid, grammatilised viited jne. Põhiliselt on loodud morfoloogiamooduleid kasutatud
siiski lingvistilises uurimistöös: tüvemuutuste ja tüübituvastuse süsteemi modelleerimisel,
silpide andmebaasi loomisel, sõnavormide kasutuse ja grammatilise homonüümia uurimisel.
(Viks 2000: 35)
4.2. Süntaksianalüsaatori rakendusi
4.2.1. Senini
Eesti keele süntaksianalüsaatorit on kasutatud sisukokkuvõtete automaatseks tegemiseks ja
nimisõnafraaside automaatseks tuvastamiseks.
Andres Lippuri bakalaureusetööna valmis eestikeelsetest tekstidest automaatseid
sisukokkuvõtteid tegev programm. Programm arvestas sõnade sagedust ning olulisust:
koefitsient arvutati sõltuvalt süntaktilisest funktsioonist. Arvuti ei pea mõistma teksti sisu,
vaid oskama valida tekstist välja olulisimad laused, mida on kerge teha näiteks paiknemise
järgi tekstis (ajaleheartiklis kokkuvõtvad laused alguses, essees lõigu alguses ja lõpus jne).
Lisaks lausete paiknemisele arvestavad automaatsed resümeerijad tavaliselt sõnade sagedust
3 Lemmatiseerimine tähendab algvormi ehk lemma tuvastamist, mis võimaldab saada edasist infot sõnastikust.
ning süntaktilist funktsiooni, nagu tegi ka Kaili Müürisepa juhendatav (Roosmaa jt 2001:
108–109).
Eksperimentaalne nimisõnafraaside tuvastaja EstNPTool 19994 määrab süntaktiliselt
analüüsitud tekstis fraasipiirid. Kõigepealt märgendab tuvastaja nimisõnafraaside põhja ja
laiendi. Seejärel kasutab ta mitmesuse kõrvaldamiseks oletusi: näiteks kui märgenditeks oli
pakutud nii järeltäiend kui põhi, eelistab ta põhja märgendit. Suure vigade protsenti aitaks
vähendada fraasituvastamisgrammatika kasutamine süntaktilise analüüsi järel. Selleks
lisatakse igale fraasi kuuluda võivale sõnale märgendid „fraasi algus“, „fraasis sees“ ja
„fraasist väljas“, mis seejärel ühestatakse. (Roosmaa jt 2001: 109–110)
4.2.2. Tulevikus
Lõppkasutaja vajadused, mida aitab täita süntaktiline automaatanalüüs, on järgnevad.
1. Infootsing täistekstidest mõistete, mitte ainult konkreetse sõnavormi järgi. Kasutaja ei
pea mõtlema morfoloogiale, vaid saab tulemuseks niihästi tekstid, mis sisaldavad
päringusõna mistahes vormis kui ka tekstid, mis sisaldavad olulisel määral
päringusõnaga seonduvaid märksõnu. Paljud terminid on nimisõnafraasid, seega on
nende tuvastamiseks süntaktilise analüsaatori kasutamine vältimatu. Tarvis oleks
töökindlat morfoloogilist oletajat ja ühestajat, sest tihti otsitakse sõnastikes puuduvaid
sõnu ja fraase: pärisnimesid (nt isikud, tooted, firmad, institutsioonid), teoste pealkirju
ja uhiuusi termineid. Loomulikult aitaks terminite tesaurus, mis võimaldaks otsingut
korraldada lisaks vahetult antud terminite ka nendega relevantsetes semantilistes
seostes olevate terminite ja muude väljendite kaudu. Otsing, mis võimaldaks infot
leida mitmekeelsest tekstist, vajab lisaks ülalnimetatule ka mitmekeelseid sõnastikke
ning tesaurusi.
2. Dokumentide refereerimine eeldab lisaks ülalmainitule vastava ainevaldkonna
mõistelist liigendust ja lisaks morfoloogilisele analüüsile süntaktilist analüüsi lause
ulatuses.
3. Tõlkeabi võimaldab süntaksianalüüs esialgu pakkuda tõlkemälu kujul. Tõlkemälus
hoitakse tõlgitud ja süntaktiliselt analüüsitud tekstide paralleelkorpust. Uue teksti
tõlkimisel vaadatakse, ega mõnd selles leiduvat fraasi pole juba varem tõlgitud.
Kvaliteetse masintõlke väljatöötamiseks on vaja paralleelkorpusi, mitmekeelseid
sõnastikke, väga head morfoloogilist, süntaktilist ning semantilist analüüsi ja sünteesi.
4 http://www.eki.ee/keeletehnoloogia/projektid/EstNPTool/estnp.html
4. Grammatikakorrektor võimaldab pärast morfoloogilist ühestamist ja süntaktilist
analüüsi kontrollida rektsiooni- ja ühildumisvigu.
Keeleteadlase ja -tehnoloogi vajadused ja unistused on järgnevad.
5. Ebastandardsete sõnavormide analüüs ja süntees vajab suurt tekstikorpust ja
täiendavaid reegleid. Vaja on hakkama saada ka lühendite, arvude, valemite,
kirjavigadega sõnade, haruldaste erialaterminite ja pärisnimedega.
6. Grammatiline analüüs ja süntees võiks muutuda senisest põhjalikumaks. Praegune
süntaksianalüsaator piirdub pindanalüüsiga, edaspidi võiks lause süntaktilist struktuuri
täpsemalt kirjeldada. Muuhulgas tuleks parandada olemasolevate morfoloogiliste
ühestajate kvaliteeti ning luua morfoloogilised ühestajad lisaks kirjakeelele ka kõne
jaoks. Kunagi ehk jõutakse ka süntaktilise süntesaatori loomiseni. Enne on vaja aga
ulatuslikku süntaktiliselt ja morfoloogiliselt märgendatud korpust ning formaliseeritud
grammatikakirjeldust. Paraku ei ole eesti süntaks siiani veel keeletehnoloogilisest
vaatenurgast piisavalt kirjeldatud.
7. Sünteeskõne mõjub loomulikuna, kui selle hääldus on keelepärane. Selleks on
olulised morfoloogiline ühestamine (määrab välte), fraasipiiride tuvastamine (määrab
sõnade vahele sobiva pikkusega pausid), süntaktiliste funktsioonide leidmine (määrab
lausetüübiga sobiva intonatsiooni) ning lauseliikmete asukoha võrdlemine (määrab,
millist sõna tuleb eriti rõhutada). Hakkama tuleb saada ka tekstis esinevate mitte-
sõnade (numbrid, lühendid, valemid jne) analüüsi ja sünteesiga.
(Roosmaa jt 2001: 110–111; Eesti keele tehnoloogilised ressursid ja vahendid 2003: 69–75)
Kirjandus
Kaalep, Heiki-Jaan. 1996. ESTMORF: a morphology analyzer for Estonian. – Estonian in the
Changing World. Toim. H. Õim. Tartu.
Kaalep, Heiki-Jaan. 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. –
Keel ja Kirjandus 1, lk 22–29.
Kaalep, Vaino 2000 = Heiki-Jaan Kaalep, Tarmo Vaino. 2000. Teksti täielik morfoloogiline
analüüs lingvisti töövahendite komplektis. – Arvutuslingvistikalt inimesele. Toim. T.
Hennoste. (= Tartu ülikooli üldkeeleteaduse õppetooli toimetised 1). Tartu, lk 37–72.
Müürisep, Kaili. 1998. Eesti keele süntaksianalüsaator. – Keel ja Kirjandus 1, lk 47–56.
Roosmaa jt 2001 = Tiit Roosmaa, Mare Koit, Kadri Muischnek, Kaili Müürisep, Tiina
Puolakainen, Heli Uibo. Eesti keele formaalne grammatika. Tartu ülikooli
arvutiteaduse instituut. Tartu.
Viks, Ülle. 1994. Eesti keele morfoloogiline analüsaator. Automaatanalüüsi võimalused
ja võimatused. – Keel ja Kirjandus 3, lk 150–163.
Viks, Ülle. 2000. Eesti keele avatud morfoloogiamudel. – Arvutuslingvistikalt inimesele.
Toim. T. Hennoste. (= Tartu ülikooli üldkeeleteaduse õppetooli toimetised 1). Tartu, lk
9–36.
Lisa. Valikbibliograafia
Hein, Indrek. 1994. Practical realisation of the morphological analysis. – Automatic
Morphology of Estonian 1. Research Reports. Toim. Ü.Viks. Tallinn: Eesti Keele
Instituut, lk 29–35.
Hein, Indrek 1995. Rules for finding boundaries in compound words. – Automatic
Morphology of Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele
Instituut, lk 7–22.
Kaalep, Heiki-Jaan. 1996. ESTMORF: A Morphological Analyzer for Estonian – Estonian in
the Changing World. Toim. H.Õim. Tartu: Tartu Ülikooli Kirjastus, 43–98.
Kaalep, Heiki-Jaan. 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. –
Keel ja Kirjandus 1, lk 22–29.
Kaalep, Heiki-Jaan; Vaino, Tarmo. 1998. Kas vale meetodiga õiged tulemused? Statistikale
tuginev eesti keele morfoloogiline ühestamine. – Keel ja Kirjandus 1, lk 30–38.
Kaalep, Heiki-Jaan. 1999. Eesti keele ressursside loomine ja kasutamine keeletehnoloogilises
arendustöös. = Dissertationes Philologiae Estonicae Universitatis Tartuensis 7. Tartu.
Kaalep, Heiki-Jaan; Vaino, Tarmo. 2000a. Full morphological analysis in the toolbox of a
linguist. – Congressus Nonus Internationalis Fenno–Ugristarum. 7.–13.8.2000 Tartu.
Pars II: Summaria acroasium in sectionibus et symposiis factaru, lk 342–343.
Kaalep, Vaino 2000 = Heiki-Jaan Kaalep, Tarmo Vaino. 2000b. Teksti täielik morfoloogiline
analüüs lingvisti töövahendite komplektis. – Arvutuslingvistikalt inimesele. Toim. T.
Hennoste. (= Tartu ülikooli üldkeeleteaduse õppetooli toimetised 1). Tartu, lk 37–72.
Kaalep jt 2000 = Heiki-Jaan Kaalep, Kadri Muischnek, Kaili Müürisep, Andriela Rääbis,
Külli Habicht. Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti
kirjakeele testkorpuse morfosüntaktilise märgendamise kogemusest. – Keel ja
Kirjandus 9, lk 623–633.
Kuusik, Evelin 1994. Morphological synthesis of Estonian based on the agglutination
strategy. – Automatic Morphology of Estonian 1. (Research Reports.) Toim. Ü.Viks.
Tallinn: Eesti Keele Instituut, 36–48.
Kuusik, Evelin 1995. Automatic recognition of the Estonian stem changes. – Automatic
Morphology of Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele
Instituut, 46–71.
Kuusik, Evelin 1996. Eesti tüvemuutuste süsteemi modelleerimine. Magistriväitekiri. Käsikiri
Eesti Keele Instituudis.
Lippur, Andres. 2000. Eesti keele automaatne sisukokkuvõtete tegemine. Bakalaureusetöö.
Käsikiri Tartu ülikooli arvutiteaduste instituudis.
Müürisep, Kaili. 1996. Eesti keele kitsenduste grammatika süntaksianalüsaator. Magistritöö.
Müürisep, Kaili. 1999. Developing a syntactic analyser for Estonian Software technology. –
Proceedings of the Fenno–Ugric symposium FUSST'99: technical report CS 104/99. ’
Tallinn: Institute of Cybernetics at Tallinn Technical University, lk 13–220.
Puolakainen, Tiina. 1996. Eesti keele morfoloogiline ühestamine kitsenduste grammatika abil.
Magistritöö (käsikiri Tartu Ülikooli arvutiteaduse instituudis).
Puolakainen, Tiina. 1998. Eesti keele kitsenduste grammatika morfoloogiline ühestaja. – Keel
ja Kirjandus 1, lk 37–46.
Puolakainen, Tiina. 2000. Eesti keele reeglipõhise morfoloogilise ühestamise probleemseid
kohti. – Arvutuslingvistikalt inimesele. Toim. T. Hennoste. (= Tartu ülikooli
üldkeeleteaduse õppetooli toimetised 1). Tartu, lk 73–86.
Puolakainen, Tiina. 2001. Eesti keele arvutigrammatika: morfoloogiline ühestamine. (=
Dissertationes Mathematicae Universitatis Tartuensis 27). Tartu.
Roosmaa jt 2001 = Tiit Roosmaa, Mare Koit, Kadri Muischnek, Kaili Müürisep, Tiina
Puolakainen, Heli Uibo. Eesti keele formaalne grammatika. Tartu ülikooli
arvutiteaduse instituut. Tartu.
Tiits, Mai (toim). 1983. Symposium on Grammars of Analysis and Synthesis and their
Representation in Computational Structures (Tallinn, November 28–30, 1983).
Summaries.
Uibo, Heli. 1998. Kahetasemeline morfoloogiamudel ja eesti keel. – Keel ja Kirjandus 1, lk
13–21.
Uibo, Heli. 1999. Eesti keele sõnavormide arvutianalüüs ja -süntees kahetasemelist
morfoloogiamudelit rakendades. Magistritöö.
http://www.cs.ut.ee/~heli_u/magistritoo.html.
Uibo, Heli. 2000. Kahetasemeline morfoloogiamudel eesti keele arvutimorfoloogia alusena. –
Arvutuslingvistikalt inimesele. Toim. T. Hennoste. (= Tartu ülikooli üldkeeleteaduse
õppetooli toimetised 1). Tartu, lk 37–72.
Uibo, Udo. 1980. Morfoloogilise analüüsi seiku. – Keel ja Kirjandus 6, lk 339–348.
Viks, Ülle. 1977. Klassifikatoorse morfoloogia põhimõtted. (Preprint KKI–9.) Tallinn: Eesti
Keele Instituut.
Viks, Ülle. 1982. Ühest morfoloogilisest klassifikatsioonist. – Keel ja Kirjandus 10, lk 517–
525; 11, lk 575–586.
Viks, Ülle (toim). 1994a. Automatic morphology of Estonian 1. Research Report. Tallinn:
Estonian Academy of Scinces, Institute of the Estonian Language.
Viks, Ülle. 1994b. Eesti keele morfoloogiline analüsaator. Automaatanalüüsi võimalused ja
võimatused. – Keel ja Kirjandus 3, lk 150–163.
Viks, Ülle 1995a. About rule–oriented morphology of Estonian. – Abstracts of Posters
Presented at the 10th Nordic Conference of Computational Linguistics NODALIDA–
95. Helsinki, lk 28–30.
Viks, Ülle (toim). 1995b. Automatic morphology of Estonian 2. Research Report. Tallinn:
Estonian Academy of Scinces, Institute of the Estonian Language.
Viks, Ülle 1995c. Rules for recognition of inflection types. – Automatic Morphology of
Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele Instituut, lk 23–45.
M.Sedrik, E.Uuspõld. Tartu: Tartu Ülikooli Kirjastus, 244–254.
Viks, Ülle. 1997. Erand, reegel ja sõnastik avatud morfoloogiamudelis. – Pühendusteos Huno
Rätsepale. 28.12.1997. Tartu Ülikooli eesti keele õppetooli toimetised 7. Toim.
M.Erelt, M.Sedrik, E.Uuspõld. Tartu: Tartu ülikooli kirjastus, lk 244–254.
Viks, Ülle. 2000. Eesti keele avatud morfoloogiamudel. – Arvutuslingvistikalt inimesele.
Toim. T. Hennoste. (= Tartu ülikooli üldkeeleteaduse õppetooli toimetised 1). Tartu, lk
9–36.