eesti keel digiajastul

Click here to load reader

Post on 18-Dec-2016

247 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • White Paper Series

    THE ESTONIANLANGUAGE IN

    THE DIGITALAGE

    Valge raamatu sari

    EESTIKEELDIGIAJASTUL

    Krista LiinKadri MuischnekKaili MrisepKadri Vider

  • White Paper Series

    THE ESTONIANLANGUAGE IN

    THE DIGITALAGE

    Valge raamatu sari

    EESTIKEELDIGIAJASTUL

    Krista Liin Tartu likoolKadri Muischnek Tartu likoolKaili Mrisep Tartu likoolKadri Vider Tartu likool

    Georg Rehm, Hans Uszkoreit(toimetajad, editors)

  • EESSNA PREFACE

    Eesti keele raport kuulub META-NETi vljaannete is white paper is part of a series that promotessarja,mille eesmrgiks on tutvustadakeeletehnoloogia- knowledge about language technology and its poten-alaseid teadmisi ja selle ala potentsiaali. Vljaande siht- tial. It addresses journalists, politicians, language com-grupiks on petajad, ajakirjanikud, poliitikud, kogu munities, educators and others. e availability andkeelekogukond ja teised teemast huvitatud. use of language technology in Europe varies betweenKeeletehnoloogia kttesaadavus ja kasutamine on Eu- languages. Consequently, the actions that are requiredroopa keeliti vga erinev. Nii on ka meetmed, mida on to further support research and development of lan-vaja rakendada keeletehnoloogia arendamise ja uuri- guage technologies also differ. e required actionsmise edasiseks toetamiseks, erinevatele keeltele vga depend on many factors, such as the complexity of aerinevad, sltudes niteks keele keerukusest ja selle k- given language and the size of its community.nelejate arvust. META-NET, a Network of Excellence funded by theEuroopa Komisjoni rahastatud tippteadmiste vrgus- European Commission, has conducted an analysis oftik META-NET viis lbi keeleressursside ja -tehno- current language resources and technologies in thisloogiate alase uurimuse, mis keskendus 23 ametlikule white paper series (p. 75). e analysis focused on theEuroopa keelele ja ka teistele olulistele regionaalsetele 23 official European languages as well as other impor-keeltele Euroopas (vt lk 75). Analsi tulemus nitas, tant national and regional languages in Europe. e re-et kigi keelte tehnoloogiates leidub mrkimisvrseid sults of this analysis suggest that there are tremendouspuudujke. Tpne ekspertanals ja olukorra hinda- deficits in technology support and significant researchmine aitavad panustada edasise uurimist mju suu- gaps for each language. e given detailed expert anal-rendamisse ja vhendada riske. ysis and assessment of the current situation will helpMETA-NET koosneb 33 riigi 54 uurimiskeskusest (vt maximise the impact of additional research.lk 71), mis teevad koostd tstuse, valitsusasutuste, As of January 2012, META-NET consists of 54 re-likoolide ja uurimisasutuste esindajatega. Koost search centres from 33 European countries (p. 71).tulemusena valmib hine tehnoloogiline visioon, mis META-NET is working with stakeholders from econ-osana strateegilisest uurimiskavast nitab, kuidas kee- omy (soware companies, technologyproviders, users),letehnoloogilised rakendused saavad katta praegused government agencies, research organisations, non-uurimist puudujgid aastaks 2020. governmental organisations, language communities

    and European universities. Together with these com-munities, META-NET is creating a common technol-ogy vision and strategic research agenda for multilin-gual Europe 2020.

    III

  • META-NET [email protected] http://www.meta-net.eu

    Selle dokumendi autorid tnavad saksa keele valge raamatu au-toreid loa eest kasutada nende vljaandes sisaldunud keelestsltumatuid materjale [1].

    Selle keeleraporti koostamist rahastas 7. raamprogramm

    ja Euroopa Komisjoni IKT poliitika toetusprogramm le-

    pingute T4ME (toetusleping 249 119), CESAR (toetusle-

    ping 271 022), METANET4U (toetusleping 270 893) ja

    META-NORD (toetusleping 270 899) kaudu.

    e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

    e development of this White Paper has been funded by the

    Seventh Framework Programme and the ICT Policy Support

    Programme of the European Commission under the contracts

    T4ME (Grant Agreement 249 119), CESAR (Grant Agree-

    ment 271 022), METANET4U (Grant Agreement 270 893)

    and META-NORD (Grant Agreement 270 899).

    IV

  • SISUKORD CONTENTS

    EESTI KEEL DIGIAJASTUL

    1 Kokkuvte 1

    2 Oht meie keeltele ja vljakutse keeletehnoloogiale 42.1 Keelepiirid tkestavad Euroopa infohiskonda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Meie keeled on ohus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Keeletehnoloogia on vtmetehnoloogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 Keeletehnoloogia vimalused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Keeletehnoloogia vljakutsed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6 Kuidas inimesed ja masinad keelt omandavad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3 Eesti keel Euroopa infohiskonnas 93.1 ldinfo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Eesti keele eriprad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3 Viimase aja arengud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.4 Keelehoole Eestis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.5 Keel ja haridus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.6 Rahvusvahelised aspektid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.7 Eesti keel internetis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    4 Eesti keele keeletehnoloogiline tugi 144.1 Rakenduste arhitektuur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.2 Kesksed rakendused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.3 Muud rakendusalad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.4 Haridusprogrammid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.5 Riiklikud programmid ja algatused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.6 Vahendite ja ressursside kttesaadavus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.7 Keeltevaheline vrdlus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.8 Jreldused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    5 META-NETist 31

  • THE ESTONIAN LANGUAGE IN THE DIGITAL AGE

    1 Executive Summary 33

    2 Languages at Risk: a Challenge for Language Technology 362.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 372.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 382.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    3 The Estonian Language in the European Information Society 413.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2 Particularities of the Estonian Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.4 Language Cultivation in Estonia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.7 Estonian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    4 Language Technology Support for Estonian 474.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.5 National Programmes and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5 About META-NET 65

    A Kirjandus --- References 67

    B META-NETi liikmed -- META-NET Members 71

    C META-NETi Valge raamatu sari -- The META-NET White Paper Series 75

  • 1

    KOKKUVTE

    Viimase 60 aasta jooksul on Euroopas vlja kujunenudkll htne poliitiline jamajanduslik struktuur, kuid kul-tuuri ja keelte osas on mitmekesisus silinud. Keeleli-sed takistused prsivad nii Euroopa kodanike omavahe-list kui ka ri- ja poliitikaringkondade suhtlust erine-vates keeltes - portugali keelest poola keeleni ja kreekakeelest keldi keeleni. Euroopa Liidu asutused kuluta-vad aastas miljoneid eurosid mitmekeelsuspoliitika ta-gamiseks, s.t tlgitakse tekste ja suulisi vestlusi. Aga kasmeil oleks vimalik neid kulutusi vltida? Tnapevakeeletehnoloogia ja keeleteadus annavad suure panusekeelebarjri lhkumiseks. Tulevikus aitab keeletehno-loogia koos nutikate seadmete ja programmidega eu-rooplastel ksteisega suhelda ja ri ajada isegi siis, kuinad ei rgi sama keelt.

    Keeletehnoloogia ehitab sillad Euroopa tulevikku.

    ks vimalus (kuid seejuures meldamatu vimalus)Euroopamitmekeelsuse probleemi lahendamiseks olekskasutusele vtta ks domineeriv keel ja sellega teisedkeeled asendada.Klassikaline moodus keelebarjri letamiseks on vr-keelte ppimine. Ent tehnilise toeta on majanduse, po-liitvitluste ja teadusarenduse tarbeks kigi EuroopaLiidu 23 ametliku liikmesriigi keele ja 60 muu Euroopakeele omandamine kodanikele letamatu takistus.Lahenduseks on vtmetehnoloogiate vlja arendamine.Digitaalne keeletehnoloogia hlmab kiki kirjaliku jasuulise keele suhtluse vorme. Seega soodustab ta koos-td, ritegevust, teadmiste jagamist ning hiskondli-

    kus ja poliitilises diskussioonis osalemist, sltumata see-juures kasutaja vimalikust keelebarjrist ja arvutikasu-tamise oskuse tasemest. Sageli on keeletehnoloogia jubakeerulistesse ssteemidesse limitud. Tulevikus vikskeeletehnoloogilistest lahendustest moodustuda ainu-laadne Euroopa keelte vaheline sild.Eesmrgi saavutamiseks ja samas Euroopa kultuurilise jakeelelise mitmekesisuse silitamiseks tuleb esmalt sste-maatiliselt analsida iga Euroopa keele lingvistilist eri-pra ja seda toetava keeletehnoloogia hetkeseisu.Eesti keelt kneleb emakeelena umbes miljon inimest jasee on Eesti Vabariigi ainuke ametlik keel. Eesti keeleigapevast kasutust reguleerib keeleseadus. Samas onEesti tuntud e-valitsuse ja e-riigi poliitika poolest. Eestikeel teaduse ja krghariduse keelena tugineb pikaajali-sele eestikeelse krghariduse ja teadust traditsioonile.Erinevalt enamusest Euroopa keeltest ei kuulu eesti keelindoeuroopa keelkonda. Eesti keele eripradeks vib lu-geda tishlikute rohkust, tis- ja kaashlikute kolmepikkust, artiklite ja grammatilise soo puudumist. Samution eesti keelele iseloomulik rikkalikmuutemorfoloogia.Eesti keele liitsnamoodustus on vaba ja produktiivne.Snajrg lauses on kllaltki vaba.

    Keeletehnoloogia kui vti tulevikku.

    Praegu turul kttesaadavad automaattlke- ja kne-ttlusvahendid selle eesmrgini veel ei kndi. Phi-lised turul tegutsejad on kasumi saamisele suunatudPhja-Ameerika eraettevtted. 1970ndatel hakati Eu-roopa Liidus thtsustama keeletehnoloogiat kui Eu-

    1

  • roopat hendavat judu ja samal ajal alustati ka riik-like projektidega, mis andsid kll vrtuslikke tulemusi,kuid ei aidanud kaasa Euroopa histegevusele. Tnumitmete varasemate ja jtkuvate teadus- ja arendustprogrammide toetusele onkeeletehnoloogiline uurimis-maastik Eestis olemas.

    Inimkeele keerukus raskendab loomuliku keele model-leerimist tarkvaras ning rakenduse tegelikus elukesk-konnas testimine on pikk ja kulukas protsess. Kahjuksei ole niteks inglise keelele arendatud keelemudelideesti keelele lekantavad, sest eesti keelel on vabam s-najrg, peaaegu piiranguteta liitsnade moodustaminening suurem knde- ja prdelppude hulk. Ometi onaastatepikkuse t tulemusena loodud tkindel eestikeele igekirjakontroll (speller), mis on limitud ka le-vinumatesse kontoritarkvara pakettidesse.

    Eestikeelne infootsing Google otsimootoriga on veebi-kasutajate seas niivrd levinud, et 2009. aastast alates onsna guugeldama lisatud ka Eesti igekeelsussnaraa-matusse. Keelest sltumatud otsinguvahendid suudavadleida ainult snavorme, millel on pringusnaga tpseltsama kuju vi mis sisaldavad pringusna alamsnena.Kuidkuna eesti keelemorfoloogia on rikas ja lisaks lpp-udele vib ka sna tvi muutuda, siis on edukaks ot-singuks ja indekseerimiseks vaja keelespetsiifilisi vahen-deid. Keelespetsiifilised indekseerijad leiavad enne s-nade indeksisse lisamist nende algvormid ehk lemmati-seerivad otsisnad. Eesti Infossteemide Amet on avali-kult soovitanud kasutada Eesti avaliku sektori infoss-teemide infootsingul ja indekseerimisel lemmatiseeri-mismoodulit [2].

    Kaks peamist keeletehnoloogiassteemides kasutatavatmeetodit omandavad keelelised oskused inimestegasarnasel viisil. Statistilised ehk andmejuhitud meetodidomandavad keelelise teadmuse suurtest nidistekstidekogudest. Teine meetod on reegliphiste ssteemideloomine, mille suureks eeliseks on asjaolu, et eksperti-del on keele ttluse le tpsem kontroll. Toetudes se-

    nistele thelepanekutele, nib, et tnapeva hbriidnekeeletehnoloogia, mis hendab keele svattluse sta-tistiliste meetoditega, suudab letada kigi Euroopa jamuudegi keelte vahelise lhe.

    Keeletehnoloogia valdkonnas on Euroopa teadust ol-nud edukas. Niteks kasutatakse Euroopa Liidu tlke-teenustes avatud lhtekoodiga masintlke tarkvara Mo-ses, mida arendati peamiselt Euroopa teadusprojektideraames. Eesti keele masintlge on tsine vljakutse. S-nastikuphise analsi muudab keeruliseks vaba liits-namoodustus, uusi snu saab liitmise teel alati juurdetekitada. Analsiprobleeme phjustavad ka vaba sna-jrg ja mitmeosalised tegusnad (hend- ning vljend-verbid). Lisaks kigele muule on piiratud ka paralleel-sete tekstide hulk. Vaatamata sellele kuulub Eesti keelnende ligi 50maailma keele hulka, mida saab arvuti abiltlkida.

    Tulevikus on oodata mrkimisvrseid muutusi k-netehnoloogia arengus. Juba praegu pakutakse Eestisnutitelefonide kasutajatele tsentraliseeritud teenustenakne dikteerimist. Sarnased TT Kberneetika Ins-tituudis vlja ttatud eestikeelsed knetuvastusraken-dused nutitelefonidele vitsid 2011. aasta parima keele-teo auhinna.

    Kesolev keeleraportite sari nitab, et Euroopa Liiduliikmesriikides on keeletehnoloogilised lahendused jateadust erineval tasemel. Teliselt efektiivsete tehno-loogiliste lahendusteni judmiseks vajavad phjaliku-mat uurimistd veel isegi Euroopa suurimad keeled,rkimata eesti keele keeletehnoloogia arendamisest.

    Eesti keele keeletehnoloogilise olukorra hinnang an-nab phjust ettevaatlikuks optimismiks. Eesti keelejaoks on olemas nii knetuvastuse kui ka -snteesi va-hendid. Nende edasine arendust on hetkel aktiiv-selt kimas. Vaatamata eesti keele keerulisele morfoloo-giale, on eesti keele morfoloogiaanalsaatori efektiivsusvrreldav teiste Euroopa keelte vastavate vahenditega,kuid sntaksianalsaatoritel on veel palju arenguruumi.

    2

  • Keele genereerimise vahenditest on olemas ainult mor-foloogilise snteesi programmid. Laiem ldsus kasu-tabmasintlkeksGooglei tlketeenust, Tartulikoolison arendamisel ka eesti-inglise masintlkessteem. Ilm-selt oleks suur nudlus ka eesti-vene-eesti masintlkele.Enamik neist vahenditest on loodud uurimisasutustesja neid vib pidada pigem prototpideks, mitte val-mis toodeteks. Kahjuks esindavad Eesti keeletehnoloo-giatstust ainult mned ksikud vikeettevtted naguFiloso. Viimastel kmnenditel on loodud mrkimis-vrne hulk Eesti keele ressursse (korpused, leksikonid,WordNet), seega olukord keelelise andmestiku osas onkllaltki hea.

    Keeletehnoloogia aitab Euroopat hendada.

    Mis puutub keerukamatesse valdkondadesse nagu teks-tisemantika, keele genereerimine jamrgendatudmulti-modaalsed ressursid, siis eesti keele jaoks phivahendidja -ressursid puuduvad. Eesti keele keeletehnoloogilistuurimistd ja arendustegevust on toetanud mitmedriiklikud keeletehnoloogia-alased uurimisprogrammid,seetttu on nii loodud ressursid kui vahendid vabaks ka-sutamiseks.Kesolev keeleraportite sari tiendab teisiMETA-NETistrateegilisi tegevusi (levaade on saadaval raporti li-sas).META-NETikodulehelt http://www.meta-net.euleiab uuemat informatsiooni, niteks META-NETi vi-siooni [3] vi strateegilise uurimiskava (SRA) uusimaversiooni. META-NETi pika-ajalisem eesmrk on vi-maldada kigile keeltele krgekvaliteedilist keeletehno-loogiat ja kultuurilise mitmekesisuse kaudu saavutadapoliitiline ja majanduslik htsus.

    3

    http://www.meta-net.eu

  • 2

    OHT MEIE KEELTELE JA VLJAKUTSEKEELETEHNOLOOGIALE

    Oleme tunnistajateks digirevolutsioonile, mis avaldabtohutut mju meie suhtlusele ja hiskonnale. Viimastarengut digitaalses info- ja kommunikatsioonitehno-loogias vrreldakse Gutenbergi trkipressi leiutamisemjuga. Mida tleb see analoogia meile Euroopa in-fohiskonna, tpsemalt meie keelte tuleviku kohta?

    Me oleme tunnistajaks digitaalselerevolutsioonile, mis on vrreldav Gutenbergi

    trkipressi leiutamisega.

    Prast Gutenbergi leiutist toimus teline lbimurrekommunikatsioonis ja teadmiste jagamises, niteks tl-kis Luther Piibli rahvakeelde. Sellele jrgnenud sajandi-tel on arendatud kultuuritehnoloogiaid keelettluse jateadmistevahetuse edendamiseks:

    suuremate keelte igekirja ja grammatika standardi-seerimine tegi vimalikuks teaduse ja ideede kiire le-viku;

    ametlike keelte areng vimaldas kodanikel teatud(sageli poliitiliste) piiride raames suhelda;

    keelte petamine ja tlkimine tegi vimalikuks keel-telese suhtluse;

    kirjutiste toimetamise ja bibliograafiaalaste juhtn-ride loomine kindlustas trkimaterjalide kvaliteedija kttesaadavuse;

    uut liiki meedia ajalehtede, raadio, televisiooni,raamatute ja muude formaatide teke rahuldas eri-nevaid kommunikatsioonivajadusi;

    Viimase kahekmne aasta jooksul on infotehnoloogiaaidanud kaasa mitme protsessi automatiseerimisele jalihtsustamisele, nt:

    kirjastustarkvara on asendanud masinakirja ja trki-ladumise;

    Microso PowerPoint on asendanud lmikud jagrafoprojektorid;

    meilidega saadetakse ja saadakse dokumente kiire-mini kui faksi teel;

    Skype annab vimaluse odavateks internetikne-deks ja virtuaalsete koosolekute pidamiseks;

    audio- ja videokodeeringud lihtsustavad multimee-dia jagamist;

    otsingumootorid lubavad veebilehtedeni judamrksnade kaudu;

    veebiteenused, nagu niteksGoogleTranslate, anna-vad kiireid ligikaudseid tlkeid;

    sotsiaalmeedia platvormid, niteks Facebook, Twit-ter ja Google+, lihtsustavad suhtlust, koostd ja in-fovahetust.

    Kuigi neist triistadest ja rakendustest on abi, ei suudaneed veel toetada jtkusuutlikku mitmekeelset Euroopahiskonda, kus info ja kaup liiguksid vabalt.

    4

  • 2.1 KEELEPIIRID TKESTAVADEUROOPA INFOHISKONDAMe ei oska tpselt ennustada, milline neb vlja tu-leviku infohiskond. Kuid on vga tenoline, etkommunikatsioonitehnoloogia revolutsioon hendabuuel moel eri keeli knelevaid inimesi. See paneb ini-mesed uusi keeli ppima ja arendajad looma uusi raken-dusi, mis aitaksid kaasa ksteisemistmisele ja vimal-daksid juurdepsu jagatud teadmisele. Uued meedia-liigid seovad ha rohkem keeli, knelejaid ja teavet, misliigub lemaailmses majandus- ja infosfris. Sotsiaal-meedia (Wikipedia, Facebook, Twitter, YouTube, vii-masel ajal ka Google+) praegune populaarsus on vaidjme tipp.Tnapeval saame saata gigabaitides teksti mber maa-ilma kigest paari sekundiga, enne kui taipame, et seeoli kirjutatud keeles, mida me ei mista. Euroopa Ko-misjoni hiljutise uuringu kohaselt ostab 57% interneti-kasutajatest Euroopas tooteid ja teenuseid keeltes, misei ole nende emakeel. Kige levinum vrkeel on inglisekeel, sellele jrgnevad prantsuse, saksa ja hispaania keel.55% kasutajatest loeb vrkeelseid materjale, samas kuivaid 35% kasutab teist keelt ise meilide kirjutamisel viveebikommentaaride postitamisel [4].Mned aastad ta-gasi oli inglise keel interneti lingua anca valdav ena-mus veebist oli inglisekeelne ent praeguseks on olu-kord drastiliseltmuutunud. Teistes Euroopa keeltes (agakaAasia ja Lhis-Ida keeltes) olevamaterjalimaht on in-ternetis plahvatuslikult kasvanud.llataval kombel pole see keelepiiridest tulenev ldlevi-nud digitaalne lhe plvinud kuigi suurt avalikkuse t-helepanu. Samas tstatab see pakilise ksimuse: milli-seid Euroopa keeli saadab vrguphises info- ja tead-mushiskonnas edu ja millised on mratud kaduma?

    Maailmamajandus ja inforuum seavad meidvastamisi erinevate keelte, knelejate ja sisuga.

    2.2 MEIE KEELED ON OHUSKuigi trkipress aitas kaasa Euroopasisese infovahetusekiirenemisele, viis see ka paljud Euroopa keeled vlja-suremiseni. Piirkondlikke ja vhemuskeeli trkiti harva,nii silisid niteks korni ja dalmaatsia keel vaid suuli-sel kujul, see omakorda piiras oluliselt nende kasutus-valdkonda. Kas interneti mju meie keeltele on samasu-gune?Euroopa ligi 80 keelt on ks tema vrtuslikumaid jathtsamaid kultuurivrtusi ning eluline osa tema ainu-laadsest hiskonnamudelist [5]. Samal ajal kui inglisevi hispaania keelel pole tenoliselt probleeme tekkivaldigitaalsel turul ellujmisega, vivad mitmed Euroopakeeled vrguhiskonnas vhethtsaks jda. See oma-korda aga nrgestaks kogu Euroopa positsiooni maa-ilmas ja oleks vastuolus meie strateegilise eesmrgigakindlustada vrdsed vimalused kigile Euroopa koda-nikele, olenemata nende emakeelest.

    Euroopa keeleline mitmekesisus on meie ksrikkamaid ja olulisimaid kultuurivarasid.

    UNESCO mitmekeelsuse raporti jrgi on keeled hda-vajalik vahend oma phiiguste, niteks poliitilise vl-jendusvabaduse, hariduse ja hiskonnas osalemise taga-miseks [6].

    2.3 KEELETEHNOLOOGIA ONVTMETEHNOLOOGIAVarem thendas keele silitamine keeleppele ja tl-kele keskendumist. Arvatakse, et 2008. aastal oli tlki-mise, tarkvara lokaliseerimise ja veebilehtede globalisee-rimise turuosa Euroopas 8,4 miljardit eurot, ning en-nustatakse, et see kasvab 10% aastas [7]. Samas katabsee summa vaid vikese osa praegusest ja tulevasest keel-tevahelisest kommunikatsioonivajadusest. Ahvatlev la-

    5

  • hendus tagamaks tuleviku Euroopas keelekasutuse laiakatvust ja head kvaliteeti oleks keeletehnoloogia kasu-tamine, samamoodi nagu me kasutame tehnoloogiattranspordi- ja energiavajaduste rahuldamiseks.

    Digitaalne keeletehnoloogia hlmab kiki kirjaliku jasuulise keele suhtluse vorme. Seega soodustab ta koos-td, ritegevust, teadmiste jagamist ning hiskondli-kus ja poliitilises diskussioonis osalemist, sltumata see-juures kasutaja vimalikust keelebarjrist ja arvutikasu-tamise oskuse tasemest. Sageli on keeletehnoloogia jubakeerulistesse ssteemidesse limitud ja see aitab meil:

    otsimootori abil veebist informatsiooni leida;

    tekstiredaktoriga igekirja ja grammatikat kontrol-lida;

    veebipoes tootesoovitusi nha;

    auto navissteemi hljuhiseid kuulda;

    internetiteenuste abil veebilehti tlkida.

    Keeletehnoloogia koosneb mitmetest kesksetest raken-dustest, mis suuremas rakenduste raamistikus on vaja-likud teiste programmide tks. META-NETi keele-raportite eesmrgiks vlja selgitada iga Euroopa keeletuumikrakenduste tase.

    Euroopa vajab veakindlat ja kttesaadavatkeeletehnoloogiat kigi Euroopa keelte jaoks.

    Jtkuvalt lemaailmselt innovatiivseks eeskujuks ole-miseks vajab Euroopa kigile oma keeltele kohanda-tud keeletehnoloogiat, mis oleks nii robustne (vea-kindel) kui taskukohane ja samas olulisematesse IT-ssteemidesse tihedalt limitud. Lhitulevikus ei jutailma keeletehnoloogiata mitmekeelse ning teliseltefektiivse ja interaktiivse multimeediaphise kasutaja-kogemuseni.

    2.4 KEELETEHNOLOOGIAVIMALUSEDTrkitehnika lbimurdeks oli vimalus teksti (lehe-klge) trkipressi abil kiiresti kopeerida. Teadmiste ot-simise, lugemise, tlkimise ja kokkuvtmise raske tji inimestele. Kne salvestamiseks tuli oodata Edisoni ja ka tema tehnoloogia suutis luua kigest analoog-koopiaid. Kaasaegne keeletehnoloogia vimaldab auto-matiseerida kigis Euroopa keeltes tlkimise, sisutoot-mise ja teadmushalduse. Tnu sellele on vimalik luuakoduelektroonikale, masinatele, sidukitele, arvutiteleja robotitele intuitiivseid keelel ja knel phinevaid ka-sutajaliideseid. Reaalselt kasutatavad ri- ja tstusra-kendused on praegu alles arendamise algusjrgus. Kuidsaavutused teadusvallas on tekitanud rakenduste loo-miseks uusi vimalusi. Nii niteks ttab masintlgekindla valdkonna raames juba mistliku tpsusega ningon olemas eksperimentaalseid rakendusi, mis pakuvadmitmekeelset infot, teadmushaldust ning sisutootmistpaljudes Euroopa keeltes.

    Nagu teistegi tehnoloogiatega, loodi ka esimesed kee-letehnoloogia rakendused (knephised kasutajaliide-sed ja dialoogissteemid) kindlatele valdkondadelening seetttu oli nende efektiivsus sageli piiratud.Tohutu turupotentsiaaliga on haridus- ja meelelahu-tuststus. Keeletehnoloogiat limitakse mngudesse,harivasse meelelahutusse, raamatukogudesse, simulat-sioonidesse ja treeningprogrammidesse. Keeletehno-loogia mngib olulist rolli mobiilsetes infoteenus-tes, arvutiphises keeleppetarkvaras, e-ppe keskkon-nas, enesehindamisprogrammides, plagiaatide tuvasta-mise tarkvaras ning paljudes teistes rakendusvaldkon-dades. Twitteri- ja Facebookilaadsete sotsiaalmeedia-rakenduste populaarsusega kaasneb suurenenud vaja-dus keeletehnoloogia jrele, mis peaks jlgima posti-tusi, vtma kokku arutelusid, hindama arvamustrende,leidma emotsionaalseid vastuseid, tuvastama ja jlitamaautoriiguse rikkumisi ja vrkasutust.

    6

  • Keeletehnoloogia loob Euroopa Liidule tohutuid vi-malusi. See aitab lahendada keerulisi mitmekeelsuseprobleeme, mis tekivad Euroopa ettevtetes, asutustesja koolides erinevate keelte koos kasutamise tttu. Kee-letehnoloogia vimaldab kodanike suhtlust Euroopahisturul, krvaldades takistavad keelebarjrid, ent sa-mas toetades ksikute keelte vaba kasutust.

    Keeletehnoloogia aitab saada le keelelisemitmekesisuse puudest.

    Tulevikus on Euroopa innovaatiline mitmekeelne kee-letehnoloogia eeskujuks meie lemaailmsetele partneri-tele, kui nad alustavad omamitmekeelsete kogukondadetoetamisega. Keeletehnoloogiat vib pidada tugitehno-loogiaks, mis aitab jagu saada keelelise mitmekesisusepuudest ja muudab keelekogukonnad ksteisele liht-samini ligipsetavateks.Lpuks veel hest aktuaalsest uurimisvaldkonnast keeletehnoloogia kasutamisest katastroofipiirkondadepsteoperatsioonidel. Kriisiolukorras tegutseminevib olla elu ja surma ksimus, seega keelest sltuma-tute oskustega intelligentsed robotid suudaksid pstaelusid.

    2.5 KEELETEHNOLOOGIAVLJAKUTSEDKuigi viimastel aastatel on keeletehnoloogia mrkimis-vrselt arenenud, on praegune tehnoloogiline edasimi-nek ja tooteinnovatsioon siiski liiga aeglased. Laialdaseltkasutatavad tehnoloogiad, nagu tekstiredaktorite spel-lerid ja grammatikakorrektorid, on tpiliselt kskeel-sed ja saadaval vaid loetud keeltele.

    Praegune tehnoloogilise arengutempo on liiga aeglane.

    Veebiphisedmasintlketeenused onkll kasulikuddo-kumendi sisust kiire levaate saamiseks, ent nad jvadhtta tpse ja tieliku tlkega. Inimkeele keerukus ras-kendab loomuliku keele modelleerimist tarkvaras ningrakenduse tegelikus elukeskkonnas testimine on pikkja kulukas protsess, mis vajab jrjepidevat rahalist toe-tust. Selleks, et Euroopa oleks endiselt mitmekeelse ko-gukonna tehnoloogia teerajaja rollis, tuleb leiutada uusimeetodeid arengu kiirendamiseks. Need hlmavad niitarkvaralisi uuendusi kui crowdsourcingu stiilis tehni-kaid.

    2.6 KUIDAS INIMESED JAMASINAD KEELT OMANDAVADEt nitlikustada, kuidas arvutid keelt ksitlevad ja mikson nii raske arvuteid loomuliku keele kasutamiseksprogrammeerida, anname lhikese levaate sellest, kui-das inimesed keelt omandavad ning kuidas keeletehno-loogiassteemid ttavad.

    Inimesed omandavad keeleoskusekahel viisil: ppides nidetest ja

    ppides keelereegleid.

    Inimesed omandavad keeli kahel erineval viisil. Vike-lapsed omandavad emakeele vanemate, dede-vendadeja teiste pereliikmete vahelist suhtlust kuulates. Umbesteisel eluaastal lausuvad lapsed oma esimesi snu ja lhi-kesi fraase. Keelepe on vimalik tnu inimeste geneeti-lisele soodumusele kuuldut imiteerida ja mtestada.

    Vanemas eas nuab teise keele omandamine suurematpingutust, peamiselt seetttu, et ppija ei kuulu emakee-lena knelejate kogukonda. Koolis pitakse vrkeele-tundides tavaliselt selgeks keele grammatiline struktuur,snavara ja igekiri. ppimiseks kasutatakse harjutusi,mis kirjeldavad keelelist teadmust abstraktsete reeglite,

    7

  • tabelite ja nidete abil. Vanemaks saades muutub vr-keele omandamine raskemaks.Kaks peamist keeletehnoloogiassteemides kasutatavatmeetodit omandavad keelelised oskused sarnasel viisil.Statistilised ehk andmejuhitud meetodid omandavadkeelelise teadmuse suurtest nidistekstide kogudest. Kuiniteks spelleri treenimiseks piisab kskeelsetest teks-tidest, siis masintlkessteemi treenimiseks lheb vajaparalleeltekste kahes vi enamas keeles. Treeningteksti-dest pib masintlkealgoritm snade, fraaside ja lau-sete tlkimiseks mustreid.Selline statistiline lhenemine vajab toimimiseks mil-joneid lauseid. Mida rohkem nitetekste analsitakse,seda parem tlketulemus saadakse. Tekstiredaktoritesolev speller ning niteks Googlei otsingumootor jatlge kasutavad statistilist lhenemist. Andmejuhitudmeetodi eeliseks on see, et masin pib jrjestikustestreeningtsklites kiiresti, kuigi tulemuse kvaliteet viboluliselt varieeruda.Teine meetod, mida keeletehnoloogias ja kitsamalt kamasintlkes kasutatakse, on reegliphiste ssteemideloomine. Keeleteaduse, arvutuslingvistika ja arvutitea-duse valdkonna eksperdid kodeerivad esmalt gramma-tilised analsid (tlkereeglid) ja koostavad snade ni-mestikud (leksikonid). See on vgagi aeganudev ja t-mahukas tegevus. Mnda juhtivat tlkessteemi on pi-devalt arendatud juba le kahekmne aasta. Reeglip-histe ssteemide suureks eeliseks on asjaolu, et eksperti-

    del on keele ttluse le tpsem kontroll. See teeb vi-malikuks tarkvaras leiduvate vigade sstemaatilise pa-randamise ja kasutajale tpsema tagasiside andmise, sedaeriti siis, kui reegliphised ssteemid on kasutuses keele-ppe abina. Krge kulu tttu on seni reegliphiseid ss-teeme arendatud ksnes suuremate keelte jaoks.

    Keeletehnoloogiassteemide kaks peamist tpiomandavad keelt samal viisil.

    Kuna statistiliste ja reegliphiste ssteemide plussid jamiinused kalduvad teineteist tiendama, siis uuemaduurimused keskenduvad neid lhenemisi kombineeriva-tele hbriidssteemidele. Kahjuks pole need ssteemidseni tstusrakendustes sama edukad olnud kui teadus-laborites.Kesolevast peatkist selgus, et paljud tnapeva in-fohiskonnas laialt levinud rakendused on tihedalt seo-tud keeletehnoloogiaga. Vttes arvessemeiemitmekeel-set kogukonda, kehtib see vide iseranis selgelt Eu-roopa majandus- ja infosfri puhul. Kuigi keeletehno-loogia on viimastel aastatel mrkimisvrselt arenenud,on veel kvasti arenguruumi ssteemide kvaliteedi pa-randamise osas.Jrgnevalt toome vlja eesti keele rolli Euroopa infohis-konnas ja hindame eesti keele keeletehnoloogilise toepraegust seisu.

    8

  • 3

    EESTI KEELEUROOPA INFOHISKONNAS

    3.1 LDINFOEesti keelt kneleb emakeelena umbes miljon inimest.Peamiselt rgitakse seda Eestis (922 000 knelejat), agaligi 160 000 eesti keele knelejat kasutab seda ka Vene-maal, Ameerika hendriikides, Rootsis, Kanadas, Soo-mes ja mitmetes teistes maades [8]. 2000. aasta rahva-loenduse andmetel on Eestis 1 370 052 elanikku, kellest167 804 knelevad eesti keelt vrkeelena [9]. Eesti keelon Eesti Vabariigi ainuke ametlik keel.

    Eesti keelt kneleb emakeelenaumbes miljon inimest.

    Eesti keele variantide hulka kuuluvad eesti keele piir-kondlikud variandid (murded ja nende kirjakeeled, eri-nevates vlisriikides kneldavad keelevariandid), erine-vate hiskonnagruppide keelevariandid - sotsiolektidning keelealaste erivajadustega inimeste keelevariandid(sh. viipekeel).

    Eesti keele piirkondlike variantide alla kuuluvad eestimurded ja nende kirjakeeled. Kige suuremad erinevu-sed on Phja-Eesti ja Luna-Eesti murrete vahel. Needkeeleerinevused on prit juba meie ajaarvamise eelsestajast, mil Uurali keelte lnemeresoome harust hakka-sid eristuma iseseisvad keeled. Asjaolu, et siinsed elani-kud elasid kuni 19. sajandi lpuni vga paikset elu, ai-tas kaasa piirkondlike murrete tekkele; eristatakse kunisadat kohalikku murrakut. Tnapeva eesti keel arenes

    vlja Phja-Eesti murrete phjal, toetudes osaliselt kaLuna-Eesti murrakutele [10].Tnapeval kneldakse murdekeelt peamiselt Luna-Eestis ja lnepoolsetel saartel. Vru ja setu murdedvrivad eraldi mainimist kui standardsest kirjakeelestkige erinevamad. Riik toetab eesti keele piirkondlikevariantide kasutamist ja nende silitamist kultuurivr-tusena, kirjakeele allikana ning kohalike eestlaste iden-titeedi kandjatena. Paljudes koolides Vru- ja Viljandi-maal petatakse kohalikke keeli (vastavalt vru, setu jamulgi keelt) valikainena.Vliseesti keel on eesti keele variant, igemini kll va-riandid, mida rgivad psivalt vljaspool Eestit elavadkeeleknelejad esimese vi teise keelena. Mnel juhulon Eestist vljarnnanute emakeel silinud ja iseseisvaltarenenud rohkem kui sajandi vltel. Loomulikult m-jutavad neid variante tugevalt asukohamaal kneldavadkeeled. Ligi 2000 Eestis elava kurdi emakeeleks vi pea-miseks suhtlusvahendiks on eesti viipekeel (igeminieesti viipekeel ja viibeldud eesti keel), mida kasutavad kakuulmispuudega eestlased ning kurtide ja kuulmispuu-dega inimeste hooldajad [11].

    3.2 EESTI KEELE ERIPRADEesti keel kuulubUurali keelkonna lnemeresoome ha-russe koos soome, karjala ja muude lhisugulaskeeltega.Eesti keel onkaugemalt sugulanekaungari keelega.Olu-line aspekt on see, et erinevalt enamusest Euroopa keel-test ei kuulu Uurali keeled indoeuroopa keelkonda.

    9

  • Tpoloogiliselt esindab eesti keel leminekuvormi aglu-tineerivalt keelelt fusiivsele keelele. Lbi ajaloo on talleavaldanud suurt mju saksa keel, seda nii snavara kuisntaksi osas.Eesti keele eripradeks vib lugeda rhu esinemist esi-mesel silbil, tishlikute rohkust, kolme eristatavat pik-kust tis- ja kaashlikutel (vlted), artiklite ja gram-matilise soo puudumist (ka asesnades) ning indoeu-roopa keeltest erinevat baassnavara. Samuti on eestikeelele iseloomulik rikkalik muutemorfoloogia: knd-snadmuutuvad 14 kndes ja kahes arvus, prdsnadajas, isikus, kneviisis, tegumoes ja kneliigis.Kuigi eesti keeles on 14 knet, ei kuulu sinna hulkaakusatiivi sihitis vib kontekstist olenevalt esineda niiosastavas, omastavas kui nimetavas kndes. Eesti keeleliitsnamoodustus on vaba ja produktiivne, nn juhuliit-snu moodustatakse vastavalt vajadusele ja jrelikult eiole kiki tekstides esinevaid liitsnu vimalik snaraa-matus les lugeda. Teine produktiivne snamoodustus-viis on tuletamine.

    Erinevalt enamusest Euroopa keeltest ei kuulueesti keel indoeuroopa keelkonda.

    Eesti keeles ei ole grammatilist aega tuleviku jaoks ja tu-levikus toimuvat vljendatakse sageli tegusnaga olevi-kus, tegevuse toimumisaeg selgub kontekstist.

    Ta saabub homme.

    Euroopa keeltega vrreldes on kllaltki erilised ka eestikeele tingiv ja kaudne kneviis. Tingiva kneviisi tun-nuseks on liide -ks(i)-, sellega vljendatakse hpoteeti-list olukorda vi ebamrast/ebakindlat olukorda.

    Kui ta treeniks rohkem, jookseks ta kiiremini.

    Kaudse kneviisi tunnuseks on tegusna lpus olev -vat.Selle kneviisiga vljendatakse sndmusi, millest tea-takse kuulu jrgi.

    Ta jooksvat kiiresti.

    Kuigi eesti keelt on kategoriseeritud SVO keeleks, onsnajrg kllaltki vaba, kusjuures tpiliselt asub verblauses teisel kohal. Snajrge mjutab lause infostruk-tuur tuntud ja uue informatsiooni eristamine.

    Ta jooksis kiiresti koju.

    Kiiresti jooksis ta koju.

    Koju jooksis ta kiiresti.

    Jooksis ta kiiresti koju?

    Kui ta kiiresti koju jooksis, siis

    Kuigi eesti keel on lhedane soome keelele, on pikaaja-line saksa keele mju seda oluliselt muutnud ja lhen-danud nn keskmisele Euroopa keelele (Standard Ave-rage European, SAE) [12]. Soome keelest erinevateSAE-praste joontena viks nimetada snajrge tea-tud krvallausetpides vi hendverbide rohket kasu-tust ldse ja eriti aspekti (tegevuse lpetatuse) vljenda-miseks, vrd eesti Ta tegi selle ra ja soome Hn teki sen.Samuti on eesti keeles tunduvalt rohkem vrsnu ja hi-liseid laensnu kui soome keeles.Eesti keele ortograafia aluseks on foneetiline ehk hl-duslheduse phimte, mille jrgi taotletakse igekirjavimalikult head vastavust hldusele. Eesti keele kir-japanekuks kasutatakse ladina thestikku, mille baasva-riandile on lisatud thed , , ja , vrsnades kasu-takse ka thti ja .Eestikeelne lugeja leiab levaate eesti keele struktuu-rist ning igekeelsusnormidestMati Erelti, Tiiu Erelti jaKristiina Rossi Eesti keele ksiraamatust [13]. Inglis-keelsele lugejale viks soovitada Mati Erelti toimetatudteost Estonian Language [14].

    3.3 VIIMASE AJA ARENGUDEesti keelt on mjutanud saksa (alguses keskalamsaksa,hiljem saksa kirjakeel), vene ja inglise keel, kuigi kskineist pole eesti keelega suguluses.

    10

  • Prast Teist Maailmasda viidi Eestis lbi venestamine.Alates iseseisvuse saavutamisest aastal 1918 riigikeeleksolnud eesti keele thtust vhendati. Prast NukogudeLiidu kokkuvarisemist aastal 1991 sai eesti keel jlle ain-saks riigikeeleks.

    Paljudele teistele keeltele tuntud probleemid onsaanud ohuks ka eesti keelele: vhenebemakeelsete knelejate arv, hgustuvadkeelenormid, vrkeelte tugev mju, eriti

    ingliskeelsete suhtlusvrgustike ja ingliskeelselaiatarbekultuuri pealetung.

    Eesti keel, sarnaselt niteks islandi keelele, onks vikse-maid keeli maailmas, mis toimib ametliku keelena sellekigis kasutusaspektides: administratiivkeelena, mee-dias, kirjanduses, teatris, ettevtluses, koolides, likoo-lides, teaduses ja mujal.

    Viimastel aastakmnetel, prast Eesti iseseisvumist, onhest kljest eesti keele positsioon paranenud: eesti kee-lel on riigikeele staatus ja tema psimine on tagatud sea-dustega. Teisalt on aga leilmastumise ja infohiskonnaarengu tulemusena eesti keele osathtsus vhenenud.Paljudele teistele keeltele tuntud probleemid on saanudohuks ka eesti keelele: vheneb emakeelsete knelejatearv, hgustuvad keelenormid, vrkeelte tugev mju,eriti ingliskeelsete suhtlusvrgustike ja ingliskeelse laia-tarbekultuuri pealetung. Keeletehnoloogia alal on raskesuuremate keeltega sammu pidada.

    Eesti keele kaitseks on loodud mitu riiklikku organi-satsiooni. Keeleinspektsioon hoiab silma peal keelesea-duse titmisel. Haridus- ja teadusministeeriumi keele-osakondplaneeribEesti keelepoliitikat ja hoolitsebmeiekeele maailmale tutvustamise eest. Ministeeriumi hal-dusalas olev Eesti Keelenukogu on koostanud Eestikeele arengukava.

    3.4 KEELEHOOLE EESTISPhiseaduse kohaselt onEestiVabariigi riigikeeleks eestikeel ja riigi kohus on tagada eesti rahvuse, keele ja kul-tuuri silimine lbi aegade. Eesti keele silitamiseks jaarenguks vajalikud meetmed on stestatud Eesti keelearendamise strateegias (20042010) [10] ja valmivasEesti keele arengukavas (20112017) [15]. Eesti keeleigapevast kasutust reguleerib keeleseadus ja sellel phi-nev seadusandlus.

    Eesti keele igapevast kasutust reguleeribkeeleseadus ja sellel phinev seadusandlus.

    Eesti keele (ja teiste keelte) arengu ja kasutusega seo-tud tegevusi koordineerib Haridus- ja teadusministee-rium. Eesti keelenukogu jlgib ja analsib Eesti keele-olukorda ning koostab keelestrateegia seiret ja jtkustra-teegiaid. Haridus- ja teadusministeeriumi osakondadesttegelevad keeleksimustega lisaks keeleosakonnale kaRiiklik Eksami- ja Kvalifikatsioonikeskus ja Keeleins-pektsioon. Ministeeriumi hallatavatest ksustest tege-leb nende ksimustega Eesti Keele Instituut. Keelekor-raldusega tegelevad veel Emakeele Seltsi keeletoimkond,Tartu keelehooldekeskus ning Tartu ja Tallinna likoo-lide ppejud.Eesti keel onksEuroopaLiidu ametlikke keeli, eesti ELterminoloogia areng toimub koosts Eesti Keele Ins-tituudi terminoloogiaosakonnaga ning Eesti Termino-loogia hinguga.2003. aastal koostas Eesti Keelenukogu eesti keelearendamise strateegia aastateks 20042010,mis sisaldaseesti keele olukorra, seatud eesmrkide ja nende saavuta-miseks vajalikke sammude ja asutuste teadusphist kir-jeldust [10]. Esimene eesti keele arendamise strateegiaoli planeeritud katma kiki peamisi keelekasutuse vald-kondi, sealhulgas ka keeletehnoloogiat.Jrgmine eesti keele arendamise strateegia koostati EestiKeelenukogu poolt aastal 2010 [15]. Eesti keele aren-

    11

  • gukava 20112017 on dokument, mis paneb paikapeamised strateegilised suunad eesti keele arenguks,petamiseks, uurimiseks ja kaitseks. Koos oma ra-kenduskava, vastavate seadusandlike dokumentide jamuude toetavate tegevustega (nt. rahastamine) kindlus-tab eesti keele arengukava eesti keele staatuse riigikee-lena ja selle jtkuva positsiooni Eesti Vabariigi peamisesuhtluskeelena.

    3.5 KEEL JA HARIDUSHaridus on ks thtsamaid vahendeid keele arengu jastabiilse positsiooni tagamiseks. ks hariduse lesan-deid on tagada ldine ja erialane kirjaoskus ning luuamitte-eestlastes positiivne hoiak eesti keele suhtes. ld-haridus, iseranis kohustuslik ldharidus, on rmiseltthtis, sest just seemjutab keelekasutust kige rohkem.Seaduse jrgi vib phiharidust omandada kskik mil-lises keeles. Praegu kasutatakse gmnaasiumides kahteppekeelt: kolmveerand koolidest pib eesti, veerandvene keeles. Eesmrgiga parandada eesti keele oskustmitte-eestlastest gmnaasiumilpetajate seas alustati2007. aastal muukeelsetes keskkoolides leminekuprot-sessiga, kus osasid aineid petatakse eesti keeles.Eesti keel on kigis phikoolides ja gmnaasiumides (shvastava taseme haridust andvates kutsekoolides) kohus-tuslik ppeaine. 2009/2010 ppeaastal oli eestikeelsetesphikoolides 90 837 pilast (neist u. 84 000 rahvuselteestlased), keskharidust andvates ppeasutustes oli seearv 23 769 (neist 22 741 eesti rahvusest) [15].

    Eesti keel teaduse ja krghariduse keelenatugineb pikaajalisele eestikeelse krghariduse ja

    teadust traditsioonile.

    Eesti keel teaduse ja krghariduse keelena tugineb pi-kaajalisele eestikeelse krghariduse ja teadust tradit-sioonile. Samas on likoolide rahvusvahelistumine too-nud kaasa nii vrkeelse ppe osakaalu suurenemise

    kui ka vlismaalt prit tudengite ja ppejudude arvukasvu. Eesti likoolides on pea kiki erialasid vima-lik ppida eesti keeles. Bakalaureuseppes saab tudengpeaaegu alati omandada oma eriala eesti keeles, kuigimnda erialaspetsiifilist ainet vidakse petada ka m-nes muus keeles. Siiski on teaduse rahvusvahelistumisetttu olemas erialakeelte taandumise ja populaarteadusetasemele jmise oht - paljudel teadusaladel kirjutatakseka Eestis kik doktoritd jamuud arvestatavad teadus-publikatsioonid inglise keeles.Mitte-eestlastest tiskasvanute jaoks korraldatakse eestikeele kursusi peamiselt suurema suhtlusvajadusega ame-tite (meditsiinied, politseinikud) esindajatele ja neile,kes taotlevad Eesti kodakondsust (edukatele ppijatelekompenseeritakse pingukulud). Samuti korraldatakseeesti keele kursusi telesaadetena.

    3.6 RAHVUSVAHELISEDASPEKTIDEesti keel on kuulunud Euroopa Liidu ametlike keeltehulka 2004. aastast alates. See thendab, et eesti keeltsaab kasutada rahvusvahelise suhtluse keelena.Eesti muutub turistide seas jrjest populaarsemaks. Sa-muti on viimastel aastatel suurenenud eesti keele ja kul-tuuri vastu huvi tundvate inimeste arv.Eesti riik toetab eesti keele petamist vlismaal hetkelon le 30 likooli, mis pakuvad eesti keele pet erinevaltasemel [16].

    3.7 EESTI KEEL INTERNETISStatistikaameti andmetel oli Eestis 2010. a ligi 381 300perekonnal kodune internetihendus ja 758 100 ini-mest (55% elanikkonnast) kasutab internetti regulaar-selt [17].Eesti on tuntud e-valitsuse ja e-riigi poliitika poolest. E-riigi poliitika koosnebkahest osast: helt poolt interneti

    12

  • kaudu toimuvad valitsustegevused (valimised, riigi valit-semises osalemine) ja teiselt poolt ligips avalikele tee-nustele. Eesti kodanikud saavad interneti teel niteks va-limistel hli anda, makse deklareerida, arstiaegu kinnipanna ja isegi jlgida oma lapse edasijudmist koolis.

    Eesti on tuntud e-valitsuse jae-riigi poliitika poolest.

    Enamuse siinsete ettevtete kodulehed on eestikeelsed,ajalehtedel ja -kirjadel on oma uudiste edastamiseksveebiportaalid (http://postimees.ee, http://ohtuleht.ee, http://paevaleht.ee jpm) [18]. On palju teemaphi-seid internetifoorumeid, kus kasutajad suhtlevad eestikeeles. Suhtlusportaalid nagu Orkut ja Facebook oneesti keelde lokaliseeritud. Lisaks leidub palju jututuba-sid, milles sageli suheldakse kirjakeele normidele mitte-vastavas keeles kirjalikus slngis. Vikipeediasse on va-batahtlikud lisanud le 88 900 eestikeelse artikli.Keeletehnoloogia vaatepunktist on interneti suurenevosathtsus oluline kahest aspektist. hest kljest kuju-tab see suur hulk digitaalselt kttesaadavaid keeleand-meid endast rikkalikku materjali loomuliku keele tt-luseks, eriti statistilise info kogumiseks. Teisest kljestpakub internet laialdaselt erinevaid vimalusi keeleteh-noloogia rakenduseks.

    Enim kasutatav veebirakendus on kahtlemata otsingu-mootor, mis sisaldab keele automaatttlust erinevateltasemetel, nagu kesoleva raporti teises pooles tpsemaltvib lugeda. Otsingumootor hlmab arenenud keele-tehnoloogiat, sealjuures iga keele jaoks erinevalt.

    Nii Eestis kui mujal Euroopas on vlja eldud, et heksmeie poliitiliseks eesmrgiks on kigile vrdsete vima-luste tagamine. Avalikel asutustel on kohustus kindlus-tada puuetega inimestele piiranguteta juurdeps omaveebilehtedele ja -teenustele. Selle stte titmisel on abikasutajasbralikest keeletehnoloogiarakendustest, ni-teks pimedatele meldud knesnteesist.

    Internetikasutajad ja sisupakkujad saavad keeletehno-loogiast kasu ka vhem ilmsel viisil, niteks saab sedakasutada veebilehtede automaatselt teise keelde tlki-misel. Arvestades inimtlke krget hinda, on nudlu-sega vrreldes reaalselt kasutatavat keeletehnoloogiatvrdlemisi vhe arendatud ja rakendatud. Selle phju-seks vib olla eesti keele suhteline keerukus ja tpilis-tes keeletehnoloogiarakendustes kasutatavate tehnoloo-giate paljusus.

    Jrgmises peatkis anname sissejuhatuse keeletehno-loogiasse ja selle phivaldkondadesse, samuti hinnangueesti keelt toetava keeletehnoloogia hetkeolukorrakohta.

    13

    http://postimees.eehttp://ohtuleht.eehttp://ohtuleht.eehttp://paevaleht.ee

  • 4

    EESTI KEELE KEELETEHNOLOOGILINE TUGI

    Keeletehnoloogiaks, sageli kasutatakse ka nimetustinimkeeletehnoloogia (ingl k human language tech-nology), nimetatakse inimkeele ksitlemiseks loodudtarkvarassteeme. Keelel on nii suuline kui ka kirjalikvorm. Kne on neist vanem ja evolutsiooniliselt loo-mulikum, samas just kirjalikud tekstid silitavad kee-rukat informatsiooni ja enamikku inimeste teadmis-test. Kne- ja tekstitehnoloogiad ttlevad (ja ka gene-reerivad) keele eri vorme, kasutades selleks snastikke,grammatikareegleid ja semantikat. Seega vljendavastmeediast (kne vi tekst) sltumata hendab keeleteh-noloogia keele erinevaid teadmisi. Joonis 1 illustreeribkeeletehnoloogia maastikku.Suheldes kombineerime keelt teiste kommunikatsiooni-ja informatsioonimeediatega, niteks vestluses kasu-tame este ja miimikat. Digitaalne tekst on henda-tud pildi ja heliga. Film sisaldab nii suulises kui kirja-likus vormis olevat keelt. Teisiti eldes, kne- ja teksti-tehnoloogiad kattuvad teineteisega ja on omakorda seo-tudmultimodaalset suhtlust jamultimeedia dokumentettlevate tehnoloogiatega.Jrgnevalt vaatleme peamisi keeletehnoloogia raken-duste valdkondi: keeleline kontroll, veebiotsing, kne-tehnoloogia ja masintlge. Nad hlmavad rakendusi jabaastehnoloogiaid, nagu niteks:

    igekirjakontroll,

    kirjutaja abivahendid,

    arvutitoetatud keelepe,

    infootsing,

    info ekstraheerimine,

    automaatne sisukokkuvtete tegemine,

    ksimustele vastamine,

    knetuvastus,

    knesntees.

    Keeletehnoloogia on vljakujunenud uurimisala, millelon mrkimisvrne hulk sissejuhatavat kirjandust. Hu-vitatud lugeja vib tutvuda jrgmiste viidetega: [19, 20,21, 22, 23].Ennemainitud rakenduste tutvustamist kirjeldame t-pilise keeletehnoloogilise ssteemi arhitektuuri.

    4.1 RAKENDUSTE ARHITEKTUURKeelettlustarkvara komponendid vastavad keele eri-nevatele tahkudele. Joonis 2 illustreerib tpilise teksti-ttlusssteemi lihtsustatud arhitektuuri. Kolm esimestmoodulit tegelevad tekstisisendi struktuuri ja thendu-sega:

    1. Eelttlus puhastab andmed, analsib vi eemal-dab vorminduse, tuvastab sisendkeele jne.

    2. Grammatiline anals leiab snaliigid, eldise, sihi-tise, laiendid, teised lauseliikmed ning tuvastab lausestruktuuri.

    3. Semantilise analsi kigus toimub hestamine(s.o snade konteksti sobivate thenduste tuvasta-mine), anafooride lahendamine (nimisnade vasta-vusse seadmine asesnadega), vljendite asendaminening lause thenduse esitamine masinloetaval kujul.

    Tekstianalsi jrel alustavad td lesandespetsiifili-sed moodulid nagu automaatne sisukokkuvtte tegija ja

    14

  • Multimeedia- ja multimodaalsed tehnoloogiad

    Keele-tehnoloogiad

    Knetehnoloogiad

    Tekstitehnoloogiad

    Teadmustehnoloogiad

    1: Keeletehnoloogia infotehnoloogia kontekstis

    andmebaasiotsing. See lihtsustatud ja idealiseeritud kir-jeldus nitlikustab keeletehnoloogiliste rakenduste arhi-tektuuri keerukust.Prast kesksete keeletehnoloogiliste rakenduste tutvus-tamist anname levaate keeletehnoloogia-alasest uuri-mistst ja haridusest ning olnud ja kimasolevatestuurimisprogrammidest. Anname ka eksperthinnangukesksete rakenduste ja ressursside hetkeseisule erineva-tes kategooriates, niteks kttesaadavus, kpsus ja kvali-teet. Tabelis vtame kokku eesti keele keeletehnoloogialdise hetkeolukorra.

    4.2 KESKSED RAKENDUSEDSelles peatkis keskendume kige olulisemate keeleteh-noloogiliste vahendite ja ressursside kirjeldamisele ja an-name levaate keeletehnoloogia-alasest tegevusest Ees-

    tis. Tekstis rhutatud vahendeid ja ressursse on kirjelda-tud ka peatki lpus olevas tabelis.

    4.2.1 Keeleline kontroll

    Igaks, kes on kasutanud tekstiredaktorit (nt MicrosoWordi), teab, et sellel on olemas igekirjakontrollija,mis joonib alla kirjavead ja annab soovitusi nende pa-randamiseks. Esimesedigekirjakorrektorid (ehk spelle-rid) vrdlesid sisestatud snu leksikonis olevate korrekt-sete snadega. Tnapevased spellerid on keerulisemad.Keelespetsiifilisi grammatikaanalsi algoritme kasu-tades leitakse morfoloogilised vead (nt mitmuse moo-dustamine), sntaksivead, niteks lausest puuduv tegu-sna vi aluse ja eldise hildumise konflikt (nt nad kir-jutas kirja). Kuid enamik spellereid ei suuda leida vigusellisest inglisekeelsest tekstist [24] nagu:

    Sisendtekst

    Eelttlus Grammatiline analsSemantiline

    analslesandephised

    moodulid

    Vljund

    2: Tpiline keelettluse arhitektuur

    15

  • Sisendtekst igekirjakontroll Grammatikakontroll Parandusettepanekud

    Statistiline keelemudel

    3: Keeleline kontroll (leval: statistiline; all: reegliphine)

    I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea

    (Siin on tegemist snademnguga, snad on asendatudteiste samasuguse hldusega snadega, nii et iga ksikusna kirjapilt on korrektne.)Taoliste vigade tuvastamine vajab kontekstianalsi. Sa-geli juhtub, et hooletu npulk klaviatuuril jtab s-nast ra eesti keele mitmusetunnuse -d:

    vrvilise ied

    vrvilised ied

    Sellist tpi vigade anals vajab kas ekspertide pooltksitsi koostatud grammatikat ja seda kasutavat tark-vara vi statistilisi keelemudeleid. Viimasel juhul arvu-tabmudel vastava sna lauses paiknemise tenosuse (stsna eelneva ja jrgneva sna vahel paiknemise teno-suse). Niteks vrvilise ie on tunduvalt tenolisem s-nade jrjend kui vrvilise ied. Samuti parandab spellerotsinguteenuste pringuid, niteks Googlei Kas mt-lesite -soovitused.Automaatselt saab statistilist keelemudelit genereeridasiis, kui on olemas suur (korrektsete) tekstide kogum(seda nimetatakse tekstikorpuseks). Kirjeldatud mee-todeid on kasutatud inglise keele analsimiseks. Kah-juks ei ole nad otseselt eesti keelele lekantavad, sesteesti keelel on vabam snajrg, peaaegu piiranguteta liit-snade moodustamine ning suurem knde- ja prde-lppude hulk.

    Keelelist kontrolli kasutatakse ka mujal kuitekstiredaktorites.

    Eesti keele spelleri loomine algas 1991. aastal ning see onolnud tihedalt seotud eesti keele morfoloogiaanalsaa-tori ESTMORF arenguga. Spelleri ja morfoloogiaana-lsaatori aluseks on 36000-snaline leksikon ja reeglidkikide snavormidemoodustamiseks. 1994. aastal antivlja esimene versioon eesti keele spellerist. Hilisematesversioonides on leksikoni tiendatud nimede, lhenditeja neologismidega.Speller on integreeritud kontoritarkvarapakettidesseMS Office, Open Office.org ja IBM Lotus Notes. Spel-lerit arendab erafirma Filoso O [25].Eesti keele jaoks on ptud luua ka teisi, vabavaralisispellereid. Tuntuim neist on leksikon ispelli jaoks. Kah-juks ei suuda need spellerid piisavalt edukalt liitsnuanalsida.Grammatikakontrollija kontrollib lause struktuuri japunktuatsiooni. Eesti keele grammatikakontrollija aren-dustga alustati Tartu likoolis 2007. aastal. Hetkelon olemas selle prototpversioon, mis suudab tuvas-tada komavigu 95% tpsusega.Lisaks tekstiredaktorile kasutatakse keelelist kontrollika kirjutaja abivahendites. Need on tarkvarassteemid,millega koostatakse etteantud formaadis infotehnoloo-gia, meditsiini- ja tehnoloogiavaldkondade kasutajaju-hendeid ning dokumentatsiooni. Ettevtted on haka-nud oluliselt suuremat thelepanuprama nii rahvus-

    16

  • vahelise turu vajadustele tlkimise ja lokaliseerimise val-las kui ka tehnilise dokumentatsiooni kvaliteedile. Keh-vasti koostatud kasutusjuhendid phjustavad toodetevalesti kasutamist ning sellega kaasnevad klientide kah-junuded. Keeletehnoloogia arengu kigus on loodudkirjutajaabivahendeid, mis aitavad tehnilise dokumen-tatsiooni koostajal kasutada piiratud snavara ja lause-struktuure, mis vastavad firma kehtestatud nuetele ja(korporatiiv)terminoloogiale.Spellerite ja kirjutajaabivahendite krval vajab keelelistkontrolli ka arvutitoetatav keelepe.

    4.2.2 Veebiotsing

    Keeletehnoloogia kige laialtlevinum rakendus on ot-sing, nii veebis, sisevrkudes kui ka digitaalsetes raa-matukogudes. 1998. aastast tegutsev Googlei otsingu-mootor teostab praegu umbes 80% kigist pringutest[26]. 2009. aastast alates on sna guugeldama lisatudka Eesti igekeelsussnaraamatusse. Googlei otsingu-liidese ja vastuse kuvamise leheklje kujundus ei olealgusaegadega vrreldes oluliselt muutunud, kuid ontoimunud sisulised muutused. Praegune versioon pa-kub valesti kirjutatud snadele igekirjasoovitusi ningotsingu korrektsust parandab semantiline otsing, misseisneb pringu konteksti snade thenduste analsis[27]. Googlei edulugu testab, et suure hulga andmeteja efektiivse indekseerimistehnikaga annab statistilinelhenemine hid tulemusi.

    Jrgmise plvkonna otsimootorid peavadkasutama palju keerulisemat keeletehnoloogiat.

    Keerulisema informatsioonivajaduse rahuldamisekstiendatakse teksti tlgendamise ssteeme sgavamalingvistilise teabega. Eksperimendid leksikaalsete res-sursside (masinloetavad tesaurused vi ontoloogilisedkeeleressursid, nt wordnet) kasutamiseks otsingutel onnidanud, et sobivate leheklgede leidmine paraneb,

    sest leitakse ka snonme ja nrgemaid seosetpesisaldavad lehed, niteks on seotud aatomienergia jatuumaenergia.

    Vtmesnade nimekirja asemel ksimustena vi muudtpi lausetena esitatud pringute ttlemiseks peaksidjrgmise plvkonna otsingumootorid sisaldama paljukeerulisemat keeletehnoloogiat. Et vastata pringuleAnna mulle nimekiri kigist neist ettevtetest, milleon teised ettevtted viimase viie aasta jooksul le vt-nud, peabKT ssteem tegema lauses nii sntaktilise kuika semantilise analsi ning andma kiiresti vastavatedokumentide indeksi. Vastuse andmiseks tuleb kige-pealt analsida lause grammatilist struktuuri ja mista,et kasutaja tahab just nimekirju levetud ettevtetest,mitte ettevtete omandajatest. Rahuldamaks vljenditviimase viie aasta jooksul, peab ssteem leidma sobivaaastate vahemiku. Seejrel tkk tki haaval informat-siooni leidmiseks on vaja sobitada pring meeletu hulgastruktureerimata andmetega. Kirjeldatud protsessi ni-metatakse infootsinguks, see sisaldab nii otsimist kuika leitud dokumentide jrjestamist. Ettevtete nime-kirja genereerimiseks kasutatakse nimeksuste tuvasta-mise protsessi, mille kigus tuvastab ssteem dokumen-tidest ettevtte nimeks sobiva snajrjendi.

    Tunduvalt keerulisem on leida pringule vastust teiseskeeles olevate dokumentide hulgast. Keeltevaheline in-footsing eeldab pringu automaatset tlkimist kigissevimalikesse lhtekeeltesse ja hiljem saadud tulemustetlkimist sihtkeelde.

    Tnapeval suureneb pidevalt andmete hulk, mis esi-nevad mingil muul kujul kui kirjalik tekst ja on tek-kinud vajadus multimeedia infootsingu teenuse jrele,mis otsiks pilte, audiofaile ja videoandmeid.Audio-ja vi-deofailidest otsimiseks teisendab knetuvastusmoodulkne tekstiks vi selle foneetiliseks esituseks, mida saabkasutaja pringuga sobitada.

    Keelest sltumatud otsinguvahendid suudavad leida ai-nult snavorme, millel on pringusnaga tpselt sama

    17

  • Kasutaja pring

    Veebilehed

    Eelttlus Pringu anals

    Eelttlus Semantiline ttlus Indekseerimine

    Vastavusse viimine &

    olulisus/jrjestamine

    Otsingutulemused

    4: Veebiotsing

    kuju vi mis sisaldavad pringusna alamsnena. Kunaeesti keele morfoloogia on rikas ja lisaks lppudele vibka sna tvi muutuda, siis on edukaks otsinguks ja in-dekseerimiseks vaja keelespetsiifilisi vahendeid.

    Dokumente hoitakse arvutis kui suur tekstilist andme-baasi. Tistekstiotsing jagatakse kaheks alamlesandeks:indekseerimiseks ja otsimiseks. Indekseerimise protses-sis analsitakse tekste sna-snalt ja luuakse otsisnadenimekiri ehk indeks. Otsimisfaasis kasutatakse konk-reetse pringu ttlemiseks ainult indeksit, mitte koguteksti. Indekseerija loob kirje iga dokumendist leitudsna vi termini jaoks, kirjesse salvestatakse ka doku-mendi viide ja vahel ka selle sna asukoht dokumendis.Keelespetsiifilised indekseerijad leiavad enne snade in-deksisse lisamist nende algvormid ehk lemmatiseerivadotsisnad. Niteks snavormid ksi, ke, ktt esitatakseindeksis ainult tvisna ehk lemma ksi kirjena. Mneljuhul leiab lemmatiseerija hele snavormile mitu alg-vormi, nt kuue algvormideks on nii kuub kui ka kuus.Sellise mitmesuse lahendamiseks otsib ssteem snade

    konteksti phjal ige algvormi (protsessi nimetataksemorfoloogiliseks hestamiseks).Eesti Infossteemide Amet on avalikult soovitanud ka-sutada Eesti avaliku sektori infossteemide infootsingulja indekseerimisel lemmatiseerimismoodulit [2].Esimene lemmatiseerijat kasutav otsingumootor oli ka-sutusel 19972001 aastal Riigikantselei infossteemis.Ka Googlei otsingumootor kasutab eesti keele jaoksmningast lemmatiseerimist, niteks pringule ma-jandusminister antakse vastuses viiteid ka dokumen-tidele, milles esineb ainsuse omastavas kndes vormmajandusministri.

    4.2.3 Suuline suhtlus

    Suuline suhtlus on rakendusvaldkond, mis sltub k-netehnoloogiast ehk suulise keele ttlemise tehnoloo-giast. Suulise suhtluse tehnoloogiat kasutatakse sellisekasutajaliidese loomiseks, kus traditsioonilise graafilisekujunduse, hiire ja klaviatuuri asemel suheldakse arvu-tiga suulist knet kasutades. Tnapeval kasutatakse ni-

    18

  • teks hljuhitavaid kasutajaliideseid osaliselt vi tieli-kult automatiseeritud telefoniteenustes. Hljuhitavadkasutajaliidesed on kasutusel panganduses, tarneahelatejuhtimises, histranspordis, telekommunikatsioonis jateistes rivaldkondades. Suulise suhtluse tehnoloogiatkasutatakse ka autode navigeerimisssteemides ning nu-titelefonides graafilise puutetundliku kasutajaliidese al-ternatiivina.

    Suulise suhtluse tehnoloogiat kasutatakse sellisekasutajaliidese loomiseks, kus traditsioonilise

    graafilise kujunduse, hiire ja klaviatuuri asemelsuheldakse arvutiga suulist knet kasutades.

    Suuline suhtlus hlmab nelja tehnoloogiat:

    1. Automaatne knetuvastus teeb kasutaja poolt kuul-davale toodud helijrjendi phjal kindlaks tegelikulteldud snad.

    2. Loomulikukeelemistmise protsess analsib eldusntaktilist struktuuri ja tlgendab seda vastavaltssteemi vajadustele.

    3. Dialoogi haldamise moodul mrab ssteemi funkt-sionaalsust arvestades selle, milline tegevus algata-takse vastuseks kasutaja sisendile.

    4. Knesntees teisendab ssteemi vastuse helideks.

    Knetuvastusssteemi suurimaks vljakutseks on kasu-taja eldud snade tuvastamine. Probleemi lahenda-miseks piiratakse vimalike tluste hulka konkreetsetevtmesnadega vi siis luuakse ksitsi rohkelt loomu-liku keele tlusi sisaldav keelemudel. Masinppeteh-noloogiaga on vimalik keelemudeleid ka automaat-selt luua, selleks kasutatakse knekorpust, mis koos-neb suurest hulgast knet sisaldavatest audiofailidest jateksti transkriptsioonidest. Snavara piiramine sunnibinimesi kasutama vga jika hljuhitavat kasutajalii-dest. Kasutajatele ei pruugi see kll meeldida, kuid sa-mas rikkama snavaraga keelemudeli loomine, sobita-mine ja ka haldamine on oluliselt kallim. Kasutajatele

    on vastuvetavamad keelemudelil phinevad kasutaja-liidesed, mis lubavad neil oma soove vimalikult paind-likult vljendada, niteks kasutajaliides alustab dialoogilausega Kuidas ma saan sind aidata?.

    Hljuhitavate kasutajaliideste tootjad eelistavad vl-jundi genereerimisel kasutada eelsalvestatud professio-naalsete diktorite tlusi. Staatiliste tluste korral,mil s-nastus ei sltu kontekstist ega kasutaja andmetest, annabsee parema tulemuse. Dnaamilise sisu korral on tule-mus ebaloomuliku intonatsiooniga, sest audiofaili tkidliidetakse lihtsalt kokku. Tnapeva knesnteesiss-teemides on loomulikult klavate dnaamiliste tlustegenereerimine muutunud ha paremaks, kuid arengu-ruumi veel on.

    Turul olevate knetehnoloogialiideste komponendidon viimase kmnendi jooksul standardiseerunud ningknetuvastuse ja knesnteesi turg on mrkimisvr-selt konsolideerunud. G20 riikide rahvuslikel turgudeldomineerivad viis globaalset tegijat, Euroopas on neisttuntuimad Nuance (USA) ja Loquendo (Itaalia). 2011.aastal teatas Nuance, et omandas Loquendo, see mrgibkonsolideerumise jtkumist.

    Eesti keele automaatse knetuvastusega tegeleb peami-selt Tallinna Tehnikalikooli Kberneetika Instituudifoneetika ja knetehnoloogia labor. 2000. aastal valmisprototp isoleeritud snade tuvastamiseks (eestikeel-sed numbrite ja thtede nimetused), 20022004 valmispiiratud snavaraga peidetudMarkovimudelil (HMM)phinev sidusa kne tuvastusssteem. Viimane kne-tuvastusssteemi versioon (2010) vimaldab tuvastadapiiramata snavara 6385% tpsusega. Tulemus sltubkne anrist, snavarast ja signaali kvaliteedist (mra ta-semest) [28].

    On loodud knetuvastaja veebirakendus, mis vimal-dab automaatselt transkribeeritud raadiovestlussaateidlehitseda, neid kuulata ja nendest otsida. Samuti onolemas veebiteenus, millega kasutaja saab saata sstee-mile oma helifaile transkribeerimiseks. Arendamisjr-

    19

  • Knesisend Signaalittlus

    Knevljund KnesnteesFoneetilised vasted

    & intonatsiooni kavandamine Loomuliku keele

    mistmine ja dialoog

    Tuvastamine

    5: Knephine dialoogssteem

    gus on radioloogidele sobiva knetuvastusssteemi loo-mine, millega on vimalik dikteerida ka spetsiifilisematsnavara. Esialgsed eksperimenditulemused on paljulu-bavad (10% vigu reaalajalisel tuvastamisel).

    Aastatel 19972002 loodi kolme organisatsiooni(TT Kberneetika Instituut, Eesti Keele Instituut jaO Filoso) poolt eesti keele tekst-knesntesaator.See knesntesaatori versioon kuulub n. sntesaato-rite esimesse plvkonda, kasutatakse difoone, iga kne-ksus vastab tpselt hele andmebaasis olevale difoo-nile (helilt helile leminekule). Sntesaatori vljund onarusaadav, kuid on monotoonne, veidi hakitud ja pisutebaloomuliku klaga. Sntesaator on kohandatud kasu-tamiseks pimedatele. Sntesaator on avatud lhtekoo-diga, seda vib kasutada mitterilistel ja mittesjalisteleesmrkidel [29].

    Eesti Keele Instituut arendab hetkel ka korpusephiseknesntesaatori versiooni, milles lisaks difoonidele ka-sutatakse ka pikemaid kneksusi (snu ja fraase).

    Haridus- ja teadusministeeriumi parima keeleteo au-hinna vitsid 2010. aastal MT Jumalalaegas ja EestiHoiuraamatukogu trhm, kes lid eestikeelse hlju-hendamise pimedate tehnilistele abivahenditele. Nenderakendused kasutavad soome knesntesaatorit.

    Tulevikus on oodata mrkimisvrseid muutusi kne-tehnoloogia arengus. Knetehnoloogia kasutamist m-jutab ka laialt levima hakanud nutitelefon, mis on ta-valise telefoniside, interneti ja e-maili krval uus so-

    biv platvorm kliendisuhete halduseks. Ilmselt on tulevi-kutelefonis vhem hljuhitavaid kasutajaliideseid ningsuuline kne hakkab mngima nutitelefonides suure-mat rolli kasutajasbraliku sisendina. Arengu protsesssltub knelejast sltumatute knetuvastusssteemidekorrektsuse paranemisest. Juba praegu pakutakse nutite-lefonide kasutajatele tsentraliseeritud teenustena knedikteerimist. Sarnased Tanel Alume ja Kaarel Kal-juranna TT Kberneetika Instituudis vlja tta-tud eestikeelsed knetuvastusrakendused nutitelefoni-dele vitsid 2011. aasta parima keeleteo auhinna.

    4.2.4 Masintlge

    Mte kasutada arvuteid loomuliku keele tlkimisekstekkis juba 1946. aastal. Olulisel mral rahastati sedauurimissuunda viiekmnendatel ja kaheksakmnenda-tel aastatel, kuid vaatamata pikale ajaloole ei tida isegitnapevane masintlge algselt talle seatud eesmrki,milleks oli automaatne piirideta tlge.

    Kige sirgjoonelisem masintlke viis seisneb hekeele snade asendamises teise keele snadega.

    Kige sirgjoonelisem masintlke viis seisneb he keelesnade asendamises teise keele snadega. Selline lhe-nemine sobib piiratud snavaraga valdkondade tekstide(nt ilmateadete) tlkimiseks. Vhem standardiseeritud

    20

  • teksti kvaliteetseks tlkeks on vajalik suuremale teksti-ksusele (fraasile, lausele vi tervele ligule) sobiva siht-keelse vaste leidmine.Peamiseks takistuseks on inimkeele mitmesus, mis esi-tab vljakutse erinevatel analsitasanditel, niteks s-nathenduse mitmesus leksikaalsel tasandil (hiir vibolla nii loom kui arvuti osa) vi lause struktuuri mitme-sus sntaktilisel tasandil, vt alljrgnevaid tlkeid inglisekeelest:

    e woman saw the car and her husband, too.

    [Naine ngi autot ja tema abikaasa samuti.]

    [Naine ngi autot ja samuti oma abikaasat.]

    Masintlkessteemvibphinedaka lingvistilistel reeg-litel. Lhedalt seotud keelte tlkimisel saab kasutada ot-sest asendamist. Reegliphised (vi lingvistiliste tead-miste phised) masintlkessteemid analsivad lhte-keelset teksti ning loovad selle phjal vahepealse sm-bolilise esituse hilisemaks sihtkeelsesse teksti generee-rimiseks. Taolised ssteemid vajavad heaks tlkeks niiphjalikke leksikone, milles on esitatudmorfoloogiline,sntaktiline ja semantiline informatsioon kui ka mahu-kaid ksitsi koostatud grammatikaid. Vajalike vahenditeloomise protsess on pikk ja seetttu ka kallis.Hilistel kaheksakmnendatel, kui arvutusvimsus suu-renes ja htlasi ka odavnes, tekkis huvi statistiliste ma-sintlkemudelite loomise vastu. Statistilised mudelidsaadakse kakskeelsete tekstikorpuste analsil. NiteksEuroparli paralleelkorpus sisaldab Euroopa Parlamendivljaandeid 21 Euroopa keeles. Piisava andmehulga kor-ral leiab masintlkessteem vrkeelsele tekstile sellisetlke, mis annab edasi teksti ligikaudse thenduse. Eri-nevalt reegliphistest ssteemidest genereerib statisti-line masintlkessteem sageli grammatiliselt mittekor-rektse vljundi. Samas statistilise ssteemi loomiseks onvaja vhem inimtjudu ning see katab ka teatud keeleeriprasid (nt idiomaatilised vljendid), mida teadmis-tephised ssteemid ignoreerivad.

    Eesti keele masintlge on tsine vljakutse.

    Statistiliste ja reegliphiste masintlkessteemide tu-gevad ja nrgad kljed kompenseerivad ksteist, see-tttu pratakse hetkel suurt thelepanu mlemat l-henemist kombineerivale hbriidsele meetodile. heksselle rakendamise vimaluseks on tlkida paralleelseltlingvistilist ja statistilist tlget kasutades ja hiljem va-likumoodulis otsustada, kumb tlge on parem. Pike-mate lausete (le 12 sna) korral on tulemused perfekt-susest kaugel. Kvaliteetsema tulemuse saaks kombinee-rides kummagi tlke parimaid osi, samas on see kllaltkikeeruline ning alati ei ilmne omavahel tpses vastavusesolevad osad.Eesti keele masintlge on tsine vljakutse. Snastiku-phise analsi muudab keeruliseks vaba liitsnamoo-dustus, uusi snu saab liitmise teel alati juurde tekitada.Analsiprobleemephjustavadka vaba snajrg jamit-meosalised tegusnad (hend- ning vljendverbid). Li-saks kigele muule on piiratud ka paralleelsete tekstidehulk. Vaatamata sellele kuulub Eesti keel nende ligi 50maailma keele hulka, mida saab arvuti abil tlkida [30].Eesti keele masintlke ajalugu ulatub tagasi 50ndatesse,kui Tartu likooli matemaatikud katsetasid matemaa-tiliste tekstide tlkimist vene keelest eesti keelde. Tolle-aegne riistvara (arvutiUral) ttas kiirusega 100operat-siooni sekundis. Nrk arvutusvimsus oligi ks katsetekatkestamise phjustest.Praegu on eesti keele jaoks olemas kaks masintlkess-teemi.Tuntuimneist onGooglei tlketeenus. Selle kva-liteet ei ole kll alati kllaldane, kuid vimaldab siiskiaru saada teksti ldisest teemast ja phifaktidest.Teist masintlkessteemi arendab Tartu likooli uuri-misgrupp. Nende uurimist keskendub hetkel eesti-inglise masintlkesuunale. Ssteem (http://masintolge.ut.ee) tlgib piiratud pikkusega lauseid eesti keelest ing-lise keelde. Masintlkessteem kasutab avatud lhte-koodiga Mosese dekodeerimismooduleid ja seda tree-

    21

    http://masintolge.ut.eehttp://masintolge.ut.ee

  • Statistiline masintlge

    Lhtetekst

    Sihttekst

    Tekstianals (formaatimine, morfoloogia, sntaks jms)

    Jrelttlus (formaatimine, kontekst jms)

    Tlkereeglid

    6: Masintlge (vasakul: statistiline; paremal: reegliphine)

    nitakse erinevatel eesti-inglise paralleelkorpustel, kaasaarvatud JRC-Acquis ning OPUS.

    Masintlkessteem suurendab oluliselt t produktiiv-sust, eriti siis, kui ssteem on integreeritud tvooguning kohandatud kasutajaspetsiifilise terminoloogiaga.Niteks Siemens kasutab interaktiivset tlget toetavaidssteeme jaVolkswagen kasutab keeleportaali,mis tagabligipsu snaraamatutele, ettevttespetsiifilisele termi-noloogiale, tlkemlule ja masintlketoele.

    Masintlkessteemide kvaliteedi parandamisel on veelpalju arenguruumi. Vljakutseks on keeleressursside ko-handamine konkreetse sektori vajadustega ning tehno-loogia integreerimine tvoo protsessidesse, mis jubakasutavad terminoloogiabaasi ja tlkemlu.

    Hindamiskampaaniad vrdlevadmasintlkessteemidekvaliteeti, erinevaid lhenemisi ja ssteemide eri kee-lepaaride olukorda. Euromatrix+ projekti kigus loo-dud tabelis (vt joonis 7) on koondatud keelepaariti (iirikeelt ei vrreldud) 22ELi ametliku keele tulemused.Tu-lemusi on hinnatud BLEU-punktidega, milles parematlke skoor on alati krgem [31]. Inimtlkija kogukslesandest keskmiselt 80 punkti. Parimad punktisum-mad (tabelis rohelise ja sinise vrviga thistatud) saidkeeled, millesse on koostprojektides palju panusta-tud ning mille jaoks leidub rohkelt paralleeltekste (ntinglise, prantsuse, hollandi, hispaania ja saksa keel). Ta-belis on punasega mrgitud halvimad tulemused. Nen-dele keeltele kas ei ole piisavalt thelepanu pratud vi

    need keeled erinevad struktuurilt oluliselt teistest keel-test (niteks ungari, malta, soome keel ja eesti keel).

    4.3 MUUD RAKENDUSALADKeeletehnoloogiliste rakenduste loomisel tuleb lahen-dada suur hulk ssteemis paiknevaid alamlesandeid,mida vahel ei ole kasutajaga suhtlemisel isegi nha.Need moodulid on vastavuses arvutilingvistika erine-vate alamteemade uurimisobjektidega.

    Keeletehnoloogilised rakendused on sagelisuuremate tarkvarassteemide osad, tstes nende

    funktsionaalsust kulisside tagant.

    Niteks on aktiivne uurimisteema ksimustele vasta-mine, selle jaoks luuakse eraldi mrgendatud korpusining korraldatakse teaduslikke vistlusi. Ksimustelevastamise kontseptsioon arenes vlja vtmesnadep-hisest otsingust, mille korral vljastab otsingumootorvastuseks sobivad dokumendid. Idee kohaselt esitab ka-sutaja konkreetse ksimuse, millele ssteem annab hevastuse. Niteks:

    Ksimus: Kui vana oli Neil Armstrong sel ajal, kui taastus Kuu pinnale?

    Vastus: 38.

    22

  • Sihtkeeled Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

    EN 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5

    7: Masintlge 22 Euroopa Liidu keele vahel Machine translation between 22 EU-languages [32]

    Kuigi ilmselgelt kuulub ksimustele vastamine veebiot-singu valdkonda, on see praegu katusterminiks sellisteleuurimisteemadele naguksimuste erinevad liigid, nendeksitlemine ja oletatavat vastet sisaldavate dokumentideanalsimine ja vrdlemine (kas nad annavad vastand-likke vastuseid?) ning konteksti ignoreerimata spetsiifi-lise informatsiooni (vastuse) tekstist vlja filtreerimine.

    Eelnev on omakorda seotud informatsiooni ekstraheeri-mise (IE, kasutatakse ka mistet info kurnamine) vald-konnaga, mis oli vga populaarne ja oluline 90ndatealguses, mil arvutilingvistikas hakati eelistama statis-tilisi meetodeid. IE eesmrgiks on dokumentidest vi-keste spetsiifiliste infokildude tuvastamine, niteks tu-vastada uudisartiklitest firmade levtmise phitegijad.Teine tuntud lesanne seisneb terroriaktide identifitsee-rimises. Tekstis leiduv info esitatakse tabelina, milles onnidatud akti sooritaja, sihtmrk, aeg, koht ja intsidenditulemus. IE keskseks teemaks on valdkonnaspetsiifilise

    vormi titmine andmetega. IE on ks nide tagaplaa-nil ttavast tehnoloogiast, mida saab praktikas erine-vatesse rakenduskeskkondadesse limida.

    Automaatne sisukokkuvtete tegemine ja teksti gene-reerimine on kaks sellist piiripealset ala, mille raken-dused toimivad nii iseseisvate programmidena kui katoetavas rollis n. kulisside taga. Automaatse sisukokku-vtete tegemise kigus leitakse pikast tekstist oluline in-formatsioon ja esitatakse see lhema tekstina. Seda vi-malust pakubkaniteks tekstiredaktorMicrosoWord.Statistilisi meetodeid kasutatakse teksti oluliste snade(snad, mis esinevad tekstis vga sageli, kuid ei ole niisagedased tavalises keelekasutuses) kindlaks tegemiseksja enim neid olulisi snu sisaldavate lausete leidmiseks.Teksti sisukokkuvttena esitataksegi just need laused.Kuna sisukokkuvtte tekst koosneb muutmata kujulalgse teksti lausetest, siis on kirjeldatud stsenaariumi jr-givad programmid pigem tekstist lausete ekstraheerijad,

    23

  • vljavtete tegijad. Teiseks vimaluseks on genereeridatiesti uusi lauseid, mida lhtetekstis ei leidu. See lhe-nemine nuab aga teksti sgavamat mistmist ning see-tttu ei ole ta ei piisavalt robustne ega veakindel.Teksti genereerimise programmid on harva iseseisvadrakendused. Enamasti on nad integreeritud suurema-tesse tarkvarassteemidesse, niteks haiglate info- ss-teemi, mis kogub, salvestab ja ttleb patsientide and-meid. Andmete phjal aruannete koostamine on kspaljudest sisukokkuvtte tegemise rakendustest.Eesti keele jaoks leidub sisukokkuvtete tegemiseks ai-nult prototpvahend. Eesti keele automaatne sisukok-kuvtja (EstSum) teeb vljavtted he dokumendi pii-res. Tekstianr on samuti piiratud EstSum eeldab, etsisendtekst kuulub uudiste valdkonda.

    4.4 HARIDUSPROGRAMMIDKeeletehnoloogia on vga interdistsiplinaarne uurimis-ala, milles on kombineeritud keeleteaduse, arvutitea-duse, matemaatika, filosoofia, pshholingvistika ja neu-roteaduste hised kogemused.Keeletehnoloogia-alast haridust annavad Eestis kakslikooli: Tartulikool ja Tallinna Tehnikalikool [33].

    Tartu likooli eesti ja soome-ugri keeleteaduse li-pilased vivad ppida arvutilingvistika moodulitnii bakalaureuse- kui ka magistrippes. See moo-dul sisaldab keeleteooria ja arvutiteaduse alaseidkursuseid, niteks programmeerimist lingvistidele.Infotehnoloogia eriala bakalaureuse- ja magist-rippe tudengid vivad ppida keeletehnoloo-giat eraldi moodulina. Paljud keeletehnoloogia-ja arvutilingvistika-alased kursused on loodudmatemaatika-informaatikateaduskonna ja filosoo-fiateaduskonna koosts.

    Tallinna Tehnikalikoolis ei ole lipilastekeeletehnoloogia-alane juhendamine nii laialdane.Mned informatsioonitehnoloogia doktorandid

    spetsialiseeruvad knetehnoloogia ppele, kasuta-des selleks individuaalseid ppeprogramme.

    2009. a-l rajati kaks doktorikooli, milles osale-vad keeleteaduse ja keeletehnoloogia doktorandid:informatsiooni- ja kommunikatsioonitehnoloogia dok-torikool (keeletehnoloogia doktorantidele) ja keele-teooria, filosoofia ja semiootika doktorikool (arvuti-lingvistika doktorantidele).

    4.5 RIIKLIKUD PROGRAMMID JAALGATUSEDKeeletehnoloogia-alase uurimistga alustati Eestisjuba 1950ndatel, kui likoolidesse ja uurimislaboritessejudsid esimesed suurarvutid. 1990ndate alguses muu-tusid oluliselt senised finantseerimisviisid ja ka uuri-misteemad ning jrjepidevas uurimists tekkis taga-silangus. Tnu rahvusvahelistes projektides (nt Coper-nicus) osalemisele elasid keeletehnoloogia uurimisrh-mad keerulised ajad siiski kllaltki hsti le [33].1990ndate lpul avanesid uued rahastamisvimalused:

    Eesti Informaatikakeskuse poolt (19982000) al-gatatud programm Eesti keeletehnoloogia. Selleprogrammi raames loodi ka 1999. aastal esimeneeesti keele keeletehnoloogia arendamise kava.

    Riiklikud programmid Eesti keel ja kultuurimlu(19992003) ja Eesti keel ja rahvuslik mlu(20042008) sisaldasid keeletehnoloogia alamprog-ramme.

    Keeletehnoloogia vtmeisikud olid samuti kaasa-tud EL 5. raamprogrammi projekti eVikingsII: Vir-tuaalse infohiskonna tehnoloogiate teadus- ja aren-duskeskuse asutamine Eestis (20022005).

    2005. aastal koostati riikliku programmi Eesti keelekeeletehnoloogiline tugi (EKKTT) kava. 2006. aas-tal kivitas haridusministeerium selle programmi viieks

    24

  • aastaks (20062010). Programmi peaeesmrk oli aren-dada eesti keele keeletehnoloogilist tuge tasemele, mislubaks eesti keelel moodsas infohiskonnas vabaltfunktsioneerida. EKKTT rahastas keeletehnoloogia-alast teadus- ja arendustd, kaasa arvatud taaskasu-tatavate keeleressursside loomist ja keeletehnoloogilisebaastarkvara arendamist, ning keeletehnoloogilise inf-rastruktuuri kaasajastamist. Programmis rahastatud res-sursid ja prototbid on vabaks kasutamiseks [34].

    he projektina kasvas EKKTT riiklikust program-mist vlja Eesti Keeleressursside Keskus (http://www.keeleressursid.ee), mille eesmrgiks on luua infrastruk-tuur, mis teeb eestikeelsed keeleressursid ja keeletehno-loogilise tarkvara huvilistele kttesaadavaks. 2011. aastalpul moodustati Eesti Keeleressursside Keskus kon-sortsiumina, kuhu kuuluvad kolm partnerit: Tartu li-kool, Tallinna Tehnikalikooli Kberneetika Instituutja Eesti Keele Instituut.

    Hetkel on kimas uus riiklik keeletehnoloogiat toetavprogramm Eesti keeletehnoloogia (20112017) [35].Programm eristub eelnenud EKKTT riiklikust prog-rammist selle poolest, et lisaks tarkvaraprototpide jakeeleressursside arendamisele pratakse eriliselt the-lepanu just keeletehnoloogia rakenduste loomisele.Ole-masolevad ning programmi kigus loodavad ressurssidning tarkvara tehakse kttesaadavaks Eesti Keeleressurs-side Keskuse kaudu.

    Haridus- ja teadusministeerium rahastab ka rohkem tea-dusele orienteeritud keeletehnoloogilisi projekte, pak-kudes sihtfinantseerimist ja Eesti Teadusfondi grante.Arvutiteaduse tippkeskuse (20082015) tsse on kaa-satud samuti arvutilingviste nii Tartu likoolist kui kaTallinna Tehnikalikooli Kberneetika Instituudist.

    Eesti on osalenud le-euroopalise keeleressursside ja -tehnoloogia vrgustikuCLARIN (Common LanguageResources and Technology Infrastructure, http://www.clarin.eu) tegevuses alates 2008. aastast. 29. veebruarist2012 on CLARINi organisatsioonivormiks ERIC (Eu-

    ropean Research Infrastructure Consortium) ning Eestikui CLARIN ERICu liikme kohustusi hakkab elluviima Eesti Keeleressursside Keskus, mis kuulub riiklikuthtsusega teaduse infrastruktuuri objektide hulka.

    4.6 VAHENDITE JA RESSURSSIDEKTTESAADAVUSTabel 8 vtab kokku eesti keele keeletehnoloogilise toehetkeseisu. Oma ala eksperdid hindasid olemasolevaidvahendeid ja ressursse vastavalt seitsmele kriteeriumileskaalal 0 (vga madal) kuni 6 (vga krge).Eesti keeletehnoloogia hetkeseisu analsi vib vttakokku jrgnevalt:

    Eesti keele jaoks on olemas nii knetuvastuse kuika -snteesi vahendid.Nende edasine arendust onhetkel aktiivselt kimas. Knetuvastuse ja knesn-teesi vahendid on loodud uurimisasutustes, seetttuon nad pigem prototbid kui valmis tooted.

    Vaatamata eesti keele keerulisele morfoloogiale, oneesti keele morfoloogiaanalsaatori efektiivsus vr-reldav teiste Euroopa keelte vastavate vahenditega.Kuna parim morfoloogiaanalsaator on loodudkommertstarkvarana, siis ei ole see laiemale ldsuselevabalt kasutatav. Teised, vaba tarkvarana loodud ana-lsaatorid, on tagasihoidlikumate nitajatega ningpole laialdases kasutuses. Eesti keele sntaksianal-saatorid phinevad hel samal reegliphisel forma-lismil, selle baasil loodud grammatika on kohanda-tud erinevate tekstiliikide analsiks. Sntaksiana-lsaatoritel on edaspidi veel palju arenguruumi. Se-mantikat on raskem analsida kui sntaksit ningtekstisemantika ttlus on keerulisem kui sna- jalausesemantika. ldiselt on semantilised vahendidja ressursid saanud madalad hinded. Seega oleks vajaprogramme ja algatusi, et kiirendada selle ala arengutnii baasuurimist kui ka korpuste mahu suurenda-mise osas.

    25

    http://www.keeleressursid.eehttp://www.keeleressursid.eehttp://www.clarin.euhttp://www.clarin.eu

  • Tekstitlgendamise programmid vajavad mahukatsemantilist analsi ning eesti keele jaoks on need al-les loomisjrgus.

    Keele genereerimise vahenditest on olemas ainultmorfoloogilise snteesi programmid.

    Laiem ldsus kasutab masintlkeks Googlei tlke-teenust. Tartu likoolis on arendamisel ka eesti-inglise masintlkessteem. Ilmselt oleks suur nud-lus ka eesti-vene-eesti masintlkele.

    Viimastel kmnenditel on loodud mrkimisvrnehulk Eesti keele ressursse (korpused, leksikonid,WordNet), seega olukord on kllaltki hea. Eestikeele ldkorpused on vga mahukad ja krge kvali-teediga, kuid sntaktiliselt ja semantiliselt mrgen-datud korpuste maht on veel vike. Alles hiljutialustati td multimeedia korpustega.

    Sageli ei ole uurimist tulemusel valminud kr-gekvaliteediline tarkvara vi ressurss piisavalt stan-dardiseeritud vi on puudu toetav dokumentat-sioon. Samuti ei pruugi selle ressursi vi vahendiedaspidine hooldus ja silitamine olla garanteeritud.

    Kokkuvtvalt nitavad tulemused, et eesti keele keele-tehnoloogia baastehnoloogiat ja -ressursse (morfoloo-giaanalsaator, morfoloogiline hestaja, sntaksiana-lsaator, knetehnoloogia programmid, ldkorpused,puudepank, leksikaalne andmebaas ja knekorpused)puudutav olukord on kllaltki hea. Lisaks on loodudprogramme ning vajalikke ressursse sisukokkuvtete au-tomaatseks loomiseks, masintlkeks ning dialoogss-teemideks. Kuid need vahendid ja ressursid on pigemlihtsakoelised vi piiratud funktsionaalsusega. Niteksleidub paralleelkorpusi vaid vheste keelepaaride jaoksning needki on piiratud tekstianrites.Mis puutub keerukamatesse valdkondadesse nagu teks-tisemantika, keele genereerimine jamrgendatudmulti-modaalsed ressursid, siis eesti keele jaoks phivahendidja -ressursid puuduvad. Uurimist kige komplitseeri-tumate vahendite ja ressursside loomiseks nagu diskur-

    suse ttlus, dialoogihaldus, semantilised ja diskursusekorpused on juba saanud esimesi tulemusi, kuid needressursid vajavad tiendamist ning ka vahendite kvali-teedi ulatus on piiratud. Enamik neist vahenditest (v.amorfoloogiaanalsaator) on loodud uurimisasutustes janeid vib pidada pigem prototpideks, mitte valmistoodeteks. Nende arendamist on toetanudmitmed riik-likud keeletehnoloogia-alased uurimisprogrammid, see-tttu on need vahendid vabaks kasutamiseks.

    4.7 KEELTEVAHELINE VRDLUSPraegune keeletehnoloogiline tugi varieerub keelitimrkimisvrselt. Erinevate keelte olukorra vrdle-miseks hinnatakse selles peatkis kahte rakendusvald-konda (masintlget ja knettlust) ning nende baas-tehnoloogiat (tekstianalsi), samuti keeletehnoloogi-liste rakenduste loomiseks vajalike ressursside taset. 5-pallissteemis hindamistulemuste phjal jagunesid kee-led keeletehnoloogilise toe taseme poolest viie hin-nangu vahel:

    1. Suureprane

    2. Hea

    3. Rahuldav

    4. Osaline

    5. Nrk vi puuduv

    Keeletehnoloogist tuge hinnati jrgmiste kriteeriumitephjal:Knettlus: olemasolevate knetuvastustehnoloo-giate kvaliteet, olemasolevate knesnteesitehnoloo-giate kvaliteet, valdkondade katvus, knekorpuste arvja maht, knetehnoloogiliste rakenduste arv ja kttesaa-davus.Masintlge: olemasolevate masintlketehnoloogiatekvaliteet, kaetud keelepaaride arv, lingvistiliste nhtusteja valdkondade katvus, olemasolevate paralleelkorpustekvaliteet ja maht, masintlkerakenduste arv ja varieeru-vus.

    26

  • Kog

    us

    Kttesa

    adav

    us

    Kvalite

    et

    Kat

    vus

    Kp

    sus

    Jtk

    usuu

    tlikk

    us

    Koh

    anda

    tavu

    s

    Keeletehnoloogia: vahendid, tehnoloogiad ja rakendused

    Knetuvastus 2 5 2.8 2.8 3 3 3

    Knesntees 2 5 2.8 2.8 3 2 3

    Grammatiline anals 2.5 3.5 3.2 2.8 4 2.5 3.5

    Semantiline anals 1 1.3 0.9 0.9 1.3 1.3 1.7

    Teksti genereerimine 0 0 0 0 0 0 0

    Masintlge 3 3 1.4 2.1 3 4 2

    Keeleressursid: ressursid, andmed ja teadmusbaasid

    Tekstikorpused 3 5 2.5 2.1 3 3 2.5

    Knekorpused 2 5 2.1 2.8 4 4 4

    Paralleelkorpused 2 2 2.1 1.4 3 3 2

    Leksikaalsed ressursid 3.5 4 3.2 2.8 3.5 3.5 3.5

    Grammatikad 2 5 2.8 2.8 3 3 3

    8: Eesti keele keeletehnoloogilise toe olukord

    Tekstianals: olemasolevate tekstianalsitehnoloo-giate kvaliteet ja katvus (morfoloogia, sntaks, semna-tika), lingvistiliste nhtuste ja valdkondade katvus, kt-tesaadavate r