lietuvių kalba skaitmeniniame amžiuje

93
White Paper Series THE LITHUANIAN LANGUAGE IN THE DIGITAL AGE Baltųjų knygų serija LIETUVIŲ KALBA SKAIT- MENINIAME AMŽIUJE Daiva Vaišnienė Jolanta Zabarskaitė

Upload: truongnhi

Post on 11-Feb-2017

290 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: Lietuvių kalba skaitmeniniame amžiuje

White Paper Series

THELITHUANIAN

LANGUAGE INTHE DIGITAL

AGE

Baltųjų knygų serija

LIETUVIŲKALBA SKAIT-MENINIAMEAMŽIUJE

Daiva VaišnienėJolanta Zabarskaitė

Page 2: Lietuvių kalba skaitmeniniame amžiuje
Page 3: Lietuvių kalba skaitmeniniame amžiuje

White Paper Series

THELITHUANIAN

LANGUAGE INTHE DIGITAL

AGE

Baltųjų knygų serija

LIETUVIŲKALBA SKAIT-MENINIAMEAMŽIUJE

Daiva Vaišnienė Lietuvių kalbos institutas

Jolanta Zabarskaitė Lietuvių kalbos institutas

Georg Rehm, Hans Uszkoreit(redaktoriai, editors)

Page 4: Lietuvių kalba skaitmeniniame amžiuje

ĮŽANGA PREFACE

ŠiBaltoji knyga yra viena iš knygų serijos, skleidžiančios is white paper is part of a series that promotesžinias apie kalbos technologijas (toliau –KT) ir jų gali- knowledge about language technology and its poten-mybes. Ji skirta pedagogams, žurnalistams, politikams, tial. It addresses journalists, politicians, language com-kalbos vartotojų bendruomenėms ir pan. munities, educators and others.Europos kalboms sukurtų bei pritaikytų technologijų e availability and use of language technology in Eu-skaičius ir jų pritaikymo lygmuo yra gana skirtingas. rope varies between languages. Consequently, the ac-Žinoma, skiriasi ir veiksmai, kurių reikėtų imtis norint tions that are required to further support research andpaskatinti konkrečios KTmokslinius tyrimus ir plėtrą. development of language technologies also differ. eŠie veiksmai priklauso nuo daugelio veiksnių, tokių required actions depend on many factors, such as thekaip kalbos sudėtingumas ir jos vartotojų skaičius. complexity of a given language and the size of its com-META-NET, Europos Komisijos finansuojamas kom- munity.petencijos tinklas, šioje Baltųjų knygų serijoje atliko META-NET, a Network of Excellence funded by theturimų kalbos išteklių ir technologijų analizę, į kurią European Commission, has conducted an analysis ofįtrauktos visos 23 oficialiosios bei kitos svarbios na- current language resources and technologies in thiscionalinės ir regioninės Europos kalbos (p. 85). Re- white paper series (p. 85). e analysis focused on themiantis analizės rezultatais, konstatuotina, kad kiek- 23 official European languages as well as other impor-vienos kalbos moksliniai tyrimai turi rimtų spragų. tant national and regional languages in Europe. e re-Ekspertų atlikta išsamesnė esamos padėties analizė ir sults of this analysis suggest that there are tremendousįvertinimas galėtų padėti padidinti papildomų tyrimų deficits in technology support and significant researchpoveikį ir sumažinti galimą riziką. gaps for each language. e given detailed expert anal-2011 metų lapkričio mėnesio duomenimis, META- ysis and assessment of the current situation will helpNET tinklą sudaro 33 šalyse veikiantys 54 mokslinių maximise the impact of additional research.tyrimų centrai (p. 81), bendradarbiaujantys su suin- As of November 2011, META-NET consists of 54teresuotomis šalimis – verslo įmonių (programinės research centres from 33 European countries (p. 81).įrangos gamintojų, technologijų tiekėjų ir vartotojų), META-NET is working with stakeholders from econ-vyriausybės įstaigų, pramonės, tyrimų organizacijų, omy (soware companies, technologyproviders, users),nevyriausybinių organizacijų, kalbos vartotojų ben- government agencies, research organisations, non-druomenių ir Europos universitetų atstovais. Dirb- governmental organisations, language communitiesdamas kartu su šiomis bendruomenėmis, META-NET and European universities. Together with these com-kuria bendrą technologijų viziją ir rengia strateginę munities, META-NET is creating a common technol-mokslinių tyrimųdarbotvarkę2020metųdaugiakalbei ogy vision and strategic research agenda for multilin-Europai. gual Europe 2020.

III

Page 5: Lietuvių kalba skaitmeniniame amžiuje

META-NET – [email protected] – http://www.meta-net.eu

Šio dokumento autorės nuoširdžiai dėkoja vokiečių Baltosiosknygos [1] autoriams, suteikusiems galimybę pasinaudoti me-džiaga, kurioje aptariami bendrieji kalbos technologijų daly-kai.

Šios Baltosios knygos sudarymas buvo finansuotas pagal Euro-

pos Komisijos septintąją bendrąją programą ir IKT politikos

paramos programą: T4ME (subsidijų sutartis Nr. 249 119),

CESAR (subsidijų sutartis Nr. 271 022), METANET4U

(subsidijų sutartis Nr. 270 893) ir META-NORD (subsidijų

sutartis Nr. 270 899).

e authors of this document are grateful to the authors of theWhite Paper on German [1] for permission to reuse selectedlanguage-independent materials from their document.

e development of this white paper has been funded by the

Seventh Framework Programme and the ICT Policy Support

Programme of the European Commission under the contracts

T4ME (Grant Agreement 249 119), CESAR (Grant Agree-

ment 271 022), METANET4U (Grant Agreement 270 893)

and META-NORD (Grant Agreement 270 899).

IV

Page 6: Lietuvių kalba skaitmeniniame amžiuje

TURINYS CONTENTS

LIETUVIŲ KALBA SKAITMENINIAME AMŽIUJE

1 Santrauka 1

2 Grėsmės kalbai: iššūkis kalbos technologijoms 52.1 Kalbų barjerai – kliuvinys Europos informacinei visuomenei . . . . . . . . . . . . . . . . . . . . . 62.2 Grėsmė kalboms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3 Kalbos technologijos – naujų galimybių kūrėjos . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.4 Kalbos technologijų galimybės . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.5 Iššūkiai, kuriuos turi įveikti kalbos technologijos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.6 Kalbos įvaldymas: žmonės ir mašinos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Lietuvių kalba Europos informacinėje visuomenėje 103.1 Bendrieji duomenys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.2 Lietuvių kalbos ypatybės . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3 Dabartinė raida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.4 Kalbos padėtis ir vartojimas Lietuvoje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.5 Kalba švietimo srityje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.6 Tarptautiniai aspektai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.7 Lietuvių kalba internete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4 Lietuvių kalbai pritaikytos kalbos technologijos 184.1 Kalbos technologijų taikymo architektūra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.2 Pagrindinės taikymo sritys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.3 Kitos taikymo sritys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.4 Švietimo programos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.5 Nacionaliniai projektai ir iniciatyvos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.6 Turimi kalbos ištekliai ir įrankiai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.7 Kalbų palyginimas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.8 Išvados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 Apie META-NET tinklą 37

Page 7: Lietuvių kalba skaitmeniniame amžiuje

THE LITHUANIAN LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 39

2 Languages at Risk: a Challenge for Language Technology 432.1 Language Borders Holding Back the European Information Society . . . . . . . . . . . . . . . . . 442.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 452.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 The Lithuanian Language in the European Information Society 483.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.2 Particularities of the Lithuanian Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.4 Official Language Protection in Lithuania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.7 Lithuanian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4 Language Technology Support for Lithuanian 574.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.7 Cross-language Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 714.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5 About META-NET 76

A Literatūra -- References 77

B META-NET nariai -- META-NET Members 81

C META-NET Baltųjų knygų serija -- The META-NET White Paper Series 85

Page 8: Lietuvių kalba skaitmeniniame amžiuje

1

SANTRAUKA

Per pastaruosius 60 metų Europa įgijo aiškią politinę irekonominę struktūrą, tačiau kultūros ir kalbų požiūriuji vis dar labai skirtinga. Taigi nuo portugalų iki lenkų,nuo italų iki islandų – kiekvieną dieną bendraudami vi-suomenės, verslo ir politikos srityse Europos piliečiai ne-išvengiamai susiduria su kalbų barjerais. Europos Sąjun-gos institucijos per metus išleidžia apie milijardą eurųdaugiakalbystės politikai įgyvendinti, t. y. versti rašyti-nius tekstus ir žodinę komunikaciją. Tačiau ar ši naštaturėtų būti tokia milžiniška? Šiuolaikinės kalbos tech-nologijos ir moksliniai kalbų tyrimai gali labai padėtigriaunant tokius kalbų barjerus. Kalbos technologi-jos, įdiegtos išmaniuosiuose prietaisuose ir programose,ateityje galės padėti europiečiams lengvai susikalbėti irbendradarbiauti, net jei jie kalba skirtingomis kalbomis.

Lietuvos ūkis turi didžiulės naudos iš Europos bendro-sios rinkos: 2010 metais prekyba su Europos Sąjungasudarė 61 proc., o su kitomis Europos šalimis – dar 3proc. viso Lietuvos eksporto. Tačiau kalbų barjerai galistabdyti verslą, ypač jei kalbame apie mažas ir vidutiniodydžio įmones, neturinčias lėšų pakeisti situaciją.

Alternatyva tokiai daugiakalbei Europai būtų leisti įsiga-lėti vienai kalbai, kuri ilgainiui pakeistų visas kitas kal-bas. Tačiau tai sukeltų sunkumų įvairiakalbiams Euro-pos piliečiams.

Klasikinis būdas įveikti kalbų barjerus – mokytis užsie-nio kalbų. Tačiau išmokti 23 oficialiąsias ir dar beveik60 kitų Europos kalbų nesinaudojant technologijomiseuropiečiams būtų neįveikiama užduotis ir kliūtis sie-kiant Europos ekonominės, politinės ir mokslinės pa-žangos. Geriausia išeitis – kurti plačių galimybių tech-

nologijas (angl. key enabling technology). Jos suteikiaEuropos rinkos dalyviams didžiulio pranašumo ne tikEuropos bendrojoje rinkoje, bet ir palaikant prekybiniusryšius su trečiųjų šalių besivystančiomis rinkomis. Paga-liau kalbos technologijų sprendiniai turėtų tapti tiltais,jungiančiais įvairias Europos kalbas.

Kalbos technologijos – ateities raktas.

Informacinės technologijos keičia mūsų kasdienį gyve-nimą. Paprastai kompiuterius naudojame tekstams ra-šyti, redaguoti, skaičiuoti, ieškoti informacijos ir vis daž-niau – klausytis muzikos, peržiūrinėti nuotraukas ir fil-mus. Su savimi nešiojamės kišeninius kompiuterius, ku-riais galime skambinti, rašyti elektroninius laiškus, gautiinformacijos ir susirasti pramogų, kur bebūtume. Kokiayra šio plataus informacijos, žinių ir kasdienio bendra-vimo skaitmeninimo įtaka mūsų kalbai? Ar mūsų kalbapasikeis, o gal iš viso išnyks?Dauguma šiuo metu pasaulyje egzistuojančių 6 000kalbų globalizuotoje skaitmeninėje informacinėje vi-suomenėje neišgyvens. Manoma, kad ne mažiau nei 2tūkst. kalbų artimiausiais dešimtmečiais lemta išnykti.Kitos bus vartojamos šeimose irmiestų rajonuose, tačiautikrai ne platesniame verslo ir mokslo pasaulyje. Kokiosyra lietuvių kalbos galimybės išlikti? Kalbos statusas pri-klauso ne vien nuo ja kalbančių žmonių ar ja parašytųknygų, sukurtų kino filmų ir ja transliuojančių televizi-jos stočių skaičiaus, bet ir nuo kalbos vartojimo skait-meninėje informacinėje erdvėje bei programinei įrangaikurti. Tai aktualu lietuvių kalbai, kuri yra viena iš ma-

1

Page 9: Lietuvių kalba skaitmeniniame amžiuje

žiau vartojamų, ne tokių patrauklių rinkos požiūriu Eu-ropos kalbų – ja kalba apie 4 mln. žmonių, daugumajų gyvena Lietuvos Respublikoje. Lietuvių kalba turivalstybinės kalbos statusą, įtvirtintą Lietuvos Respubli-kos Konstitucijoje, šio statuso apsaugą ir valstybinės kal-bos vartojimą reglamentuoja Valstybinės lietuvių kalbosįstatymas bei kiti teisės aktai. Be to, kalba, kaip kul-tūrinės tapatybės dalis, įtraukta į kultūrinio ir etniniopaveldo apsaugos teisės aktus. „Lietuvos informacinėsvisuomenės plėtros“ 2011–2019 metų programoje yraiškeltas strateginis tikslas – pagerinti Lietuvos gyven-tojų gyvenimo kokybę ir įmonių veiklos aplinką nau-dojantis informacinių ir ryšių technologijų (IRT) tei-kiamomis galimybėmis ir pasiekti, kad iki 2019 metųne mažiau kaip 85 proc. Lietuvos gyventojų naudotųsiinternetu. Šio tikslo prioritetas yra elektroninio turi-nio ir paslaugų plėtra, jų naudojimo skatinimas. Prio-ritetui pasiekti Lietuvos Vyriausybė kelia du uždavinius:1. skaitmeninti Lietuvos kultūros paveldo objektus ir jųpagrindu kurti viešai prieinamus skaitmeninius produk-tus, taip užtikrinti skaitmeninio turinio išsaugojimą irsklaidą elektroninėje erdvėje; 2. diegti lietuvių kalbosskaitmeninius produktus į IRT, siekiant užtikrinti visa-vertį lietuvių kalbos (rašytinės ir šnekamosios) funkcio-navimą visose valstybės gyvenimo srityse. Ar šių politi-nių pastangų pakaks įtvirtinant lietuvių kalbą Europosdaugiakalbėje informacinėje erdvėje?

Lietuvai tapus Europos Sąjungos nare, prasidėjo nau-jas lietuvių kalbos raidos etapas – įgytas oficialios Eu-ropos Sąjungos kalbos statusas užtikrino lietuvių kalbosvartojimą ir sklaidą Europos Sąjungos institucijose, pa-spartėjo kalbos išteklių bei technologijų, reikalingų vi-saverčiam kalbos funkcionavimui daugiakalbėje aplin-koje, kūrimas ir diegimas. Vis dėlto lietuvių kalba yraviena iš vadinamųjų „nekomercinių“ Europos kalbų, to-dėl plėtojant kalbos technologijas ji susiduria su sun-kumais ir problemomis, būdingomis mažiau vartojamųkalbų raidai. Šių technologijų plėtra labai priklauso nuo

kitų šalių patirties ir jų paramos bei tarptautinio bend-radarbiavimo. Kita vertus, kalbos technologijų plėtoji-mas yra svarbiausia lietuvių kalbos funkcionalumo, ži-nomumo ir studijų bei lietuviškos kultūros sklaidos dau-giakalbėje Europoje stiprinimo proceso sudedamoji da-lis. Lietuvių kalbos visavertis funkcionavimas skaitme-ninėje erdvėje tapo ypač svarbiu lietuvių kalbos išlikimoir sklaidos veiksniu. Informacinėje visuomenėje kalbosgyvybingumą ir patrauklumą lemia galimybės greitai irpatogiai keistis daugiakalbe informacija, gauti paslaugasir pan. Informacinės technologijos lietuvių kalbai at-veria naujus bendravimo, tekstų rengimo, informacijossklaidos ir paieškos būdus. Šiuolaikinių komunikacijųgreitis ir geografinė aprėptis palengvina bendravimą lie-tuvių kalba, daugėja lietuviško turinio ir paslaugų in-ternete, kuriami įrankiai, padedantys vartoti taisyklingąkalbą, tenkinantys specialiuosius vartotojų poreikius irpan. Kita vertus, pokyčiai šioje srityje tokie spartūs,kad lietuvių kalbos planavimas ir plėtra nebespėja laikuspręsti visų iššūkių. Vartotojams greičiau ir paprasčiaupasiekiami produktai ir informacija anglų kalba lemiapalyginti menką lituanizuotos programinės įrangos po-puliarumą, lėtą kalbos technologijų ir įrankių diegimąbei sklaidą, nepakankamą skaitmeninių kalbos ištekliųir įrankių plėtrą.

Lietuvoje, kaip ir daugelyje Europos šalių, kalbos tech-nologijų erdvė yra netolygiai plėtojama. Moksliniai ty-rimai leido sėkmingai sukurti gana kokybišką progra-minę įrangą bazinei teksto analizei, pavyzdžiui, įrankiusmorfologinei ir sintaksinei analizei. Tačiau pažanges-nių technologijų, kurioms reikia nuodugnesnio lingvis-tinio apdorojimo ir semantinių žinių, kol kas tėra tikužuomazgos. Parengta nemažai pirminių skaitmeniniųkalbos išteklių (elektroninių žodynų, tekstynų, termi-nynų) ir pagrindinių kalbos analizės priemonių (morfo-loginių požymių nustatymo ir generavimo, rašybos tik-rinimo įrankių), sukurtas lietuviškas sintezatorius, lietu-vių ir anglų kalbų automatinio vertimo sistemos, sulie-

2

Page 10: Lietuvių kalba skaitmeniniame amžiuje

tuvinta programinė įranga, sukurtas originalus lietuviš-kas kompiuterinis šrias Palemonas, pritaikytas moksloreikmėms. Tačiau daugelį sukurtų išteklių, produktų irsistemų reikia nuolat atnaujinti ir plėtoti, kad jie atitiktųkintančius vartotojų poreikius. Menkai išplėtoti seman-tikos tyrimai lėmė mažesnę kalbos generavimo, tekstointerpretavimo ir teksto analizės pažangą. Nors sukaup-tos gana gausios ir išsamios leksikos duomenų bazės, ta-čiau nėra WordNet, tezauro ir pan. Taip pat trūksta rei-kiamo lygio kalbos technologijoms pritaikytos lietuviųkalbos gramatikos, sintaksiškai anotuotų tekstynų.

Kuriant išmanesnes ir sudėtingesnes priemones, tokiaskaip automatinis vertimas, reikia išteklių ir technolo-gijų, kurie apimtų daugiau lingvistinių aspektų ir leistųsemantiškai nuodugniau analizuoti įvedamą tekstą. Ge-rindami kai kurių bazinių išteklių kokybę ir aprėptį, tu-rėtume gebėti atverti naujas galimybes įsiveržti į pažan-gesnių technologijų taikymo sritis.

Kol kas lietuvių kalbai pritaikytų technologijų erdvė ko-kybiškai gana fragmentuota ir menkai sąveiki. Esamikalbos ištekliai, kurie galėtų būti pritaikyti kalbos tech-nologijoms, sukurti atskirų institucijų, mokslininkųgrupių ar verslo įmonių nesilaikant bendrų standartų,todėl jų pritaikomumas kalbos technologijoms yra ribo-tas arba ekonomiškai neefektyvus, turint galvoje ištek-lių pertvarkymą pagal naujus standartus. Šiuometu Lie-tuvoje vykdoma keletas projektų, pagal kuriuos tarptau-tiniai standartai diegiami senesniuose ištekliuose (pvz.,Dabartinės lietuvių kalbos tekstyne) ar kuriami naujiproduktai. Didesnis sąveikumas leistų lengviau kurtibendrai Europos kalbinei erdvei būtinus integruotusproduktus, tokius kaip daugiakalbiai automatinio ver-timo įrankiai, žodynai, semantinės informacijos paieš-kos priemonės, mažintų lietuviškai kalbančios visuome-nės atskirtį, didintų lietuvių kalbos tarptautinį prestižąir prieinamumą.

Lietuvoje spartesnė informacinės visuomenės plėtra, su-sidomėjimas kalbos technologijomis ir išteklių kaupi-mas prasidėjo vos prieš keletą dešimtmečių, todėl norintsukurti tikrai veiksmingų, kasdieniam vartojimui skirtųkalbos technologijų, reikės atlikti nemažaimokslinių ty-rimų. Nedidelė kalbos technologijų ir įrankių naudo-tojų rinka, neišplėtota ir susiskaidžiusi mokslo tyrimų irstudijų infrastruktūra, aiškių prioritetų ir koordinavimotrūkumas neskatina privataus verslo iniciatyvų. Šiuometu kalbos technologijų srityje dirba keletas įmonių,verslas mažai užsako mokslinių tyrimų.Kalbos technologijų būklė Lietuvoje teikia pagrindonuosaikiam optimizmui. Lietuvos Respublikos Vyriau-sybė pabrėžia siekį užtikrinti kalbos technologijų plėtrą– tai rodo įvairių vyriausybinių institucijų ir EuroposSąjungos struktūrinių fondų finansuojamos programos,pagal kurias kuriamos ir tobulinamos kalbos technolo-gijos. Proveržiai kalbos technologijų srityje skatintų jųdiegimą pramonėje, padėtų plėsti ir gerinti viešąsias pa-slaugas ir pan., taip pat suteiktų galimybę lietuvių kalbąvartoti visose gyvenimo srityse ir komunikacijos terpėse.

Kalbos technologijos padeda Europai vienytis.

Europos kalboms sukurtų ir pritaikytų technologijųskaičius ir jų pritaikymo lygmuo yra gana skirtingas. Ži-noma, skiriasi ir veiksmai, kurių reikėtų imtis norint pas-katinti konkrečios kalbos technologijų mokslinius tyri-mus ir plėtrą, pasirengimas taikyti kalbinius sprendiniusir mokslinių tyrimų lygis. Norint sukurti tikrai veiks-mingų, kasdieniam vartojimui skirtų kalbos technolo-gijų, Lietuvai reikės atlikti nemažai tyrimų ir sukurti pa-pildomų išteklių, įrankių, integruoti juos, užtikrinantkuo didesnę sąveiką. Šie tikslai numatyti 2011 metaisprasidėjusioje nacionalinėje programoje „Lietuvių kalbainformacinėje visuomenėje“.META-NET tinklo ilgalaikis uždavinys – pristatyti ko-kybiškas kalbos technologijas, taikomas visose Europos

3

Page 11: Lietuvių kalba skaitmeniniame amžiuje

kalbose, siekiant kultūrine įvairove pagrįstos politinėsir ekonominės vienybės. Šios technologijos padės su-griauti dabartinius barjerus ir nutiesti tiltus tarp Euro-pos kalbų. Visos suinteresuotosios šalys – politikai, ty-rėjai, verslo ir visuomenės atstovai – turi suvienyti savopastangas, kurdami bendrą ateitį.

Ši Baltųjų knygų serija papildo kitusMETA-NETtinklostrateginius veiksmus, apžvelgiamus šio dokumentopriede. Aktualios informacijos, pavyzdžiui, META-NET tinklo vizijos dokumento naujausią versiją arbastrateginių mokslinių tyrimų darbotvarkę galima rastiMETA-NET tinklalapyje: http://www.meta-net.eu.

4

Page 12: Lietuvių kalba skaitmeniniame amžiuje

2

GRĖSMĖS KALBAI:IŠŠŪKIS KALBOS TECHNOLOGIJOMS

Gyvename skaitmeninės revoliucijos, turinčios didžiulįpoveikį bendravimui ir visuomenės raidai, metu. Nau-jausi skaitmeninės informacijos pateikimo ir bendra-vimo technologijų išradimai kartais prilyginami Johan-neso Gutenbergo spausdinimo mašinos išradimui. Kąši analogija gali byloti apie Europos informacinės visuo-menės ir ypač apie mūsų kalbų ateitį?

Esame skaitmeninės revoliucijos liudininkai.Ši revoliucija prilygsta Gutenbergo

spausdinimo mašinos išradimui.

Gutenbergo išradimas lėmė svarbius proveržius komu-nikacijos ir žinių mainų srityje, tokius kaipMartino Lu-therio atliktą Biblijos vertimą į gimtąją kalbą ir kt. Vė-lesniais amžiais buvo sukurta kultūrinių metodologijų,lengvinančių kalbos apdorojimą ir žinių mainus:

‚ Ortografinis ir gramatinis labiausiai paplitusių kalbųstandartizavimas suteikė galimybių sparčiau plistinaujoms mokslinėms ir intelektinėms idėjoms.

‚ Bendrinių kalbų susiformavimas suteikė piliečiamsgalimybių bendrauti tam tikruose (dažniausiai poli-tinių valstybių sienų apibrėžtuose) plotuose.

‚ Kalbųmokymas ir vertimai iš vienos kalbos į kitą su-teikė galimybių keistis informacija skirtingomis kal-bomis.

‚ Redagavimo ir bibliografinės gairės užtikrino spaus-dintos informacijos kokybę bei prieinamumą.

‚ Skirtingų žiniasklaidos priemonių – laikraščių, ra-dijo, televizijos, knygų ir kitokių – atsiradimas ten-kino skirtingus komunikavimo poreikius.

Per pastarąjį dvidešimtmetį informacinės technologijospadėjo automatizuoti ir palengvinti daugybę procesų:

‚ Kompiuterinė programinė įranga pakeitė spausdi-nimą mašinėle ir rankinį tekstų rinkimą.

‚ Programa Microso PowerPoint pakeitė projekto-riumi rodomas skaidres.

‚ Elektroniniu paštu siųsti ir gauti dokumentus galimesparčiau nei faksu.

‚ Programa Skype teikia galimybę pigiai skambinti in-ternetu ir rengti virtualius susitikimus.

‚ Garso ir vaizdo kodavimo formatai palengvina dau-gialypės terpės turinio keitimą.

‚ Paieškos sistemos teikia galimybių naudojant esmi-nius žodžius pasiekti reikiamus tinklalapius.

‚ Internetinės paslaugos, tokios kaipGoogle Translate,teikia galimybių sparčiai, nors ir ne visada tiksliai,versti tekstus.

‚ Socialinės terpės, tokios kaip Facebook, Twitter irGoogle+, lengvina bendravimą, bendradarbiavimą irkeitimąsi informacija.

Nors tokios priemonės ir programos yra naudingos, kolkas jos nepajėgia išlaikyti visapusiškai tvarios daugia-kalbės Europos visuomenės, kurioje galėtų vykti netrik-doma informacijos ir prekių sklaida.

5

Page 13: Lietuvių kalba skaitmeniniame amžiuje

2.1 KALBŲ BARJERAI –KLIUVINYS EUROPOSINFORMACINEI VISUOMENEINegalime tiksliai numatyti, kokia bus ateities informa-cinė visuomenė. Tačiau tikėtina, kad komunikaciniųtechnologijų revoliucija skirtingomis kalbomis kalban-tiems žmonėms teikia naujų būdų suartėti. Dėl to žmo-nės patiria spaudimą mokytis naujų kalbų, o programi-nės įrangos kūrėjai – kurti naujus technologinius spren-dinius, kurie užtikrintų susikalbėjimą ir prieigą priebendrų žinių. Dėl naujų medijų rūšių pasaulinėje eko-nominėje ir informacinėje erdvėje sąveikauja vis daugiaukalbų ir jomis kalbančių žmonių informacijos.

Pasaulinėje ekonominėje ir informacinėje erdvėjesąveikauja vis daugiau kalbų ir jomis kalbančių

žmonių informacijos.

Šiuo metu išpopuliarėjusios bendrauti skirtos priemo-nės (Wikipedia, Facebook, Twitter, YouTube ir visai ne-seniai – Google+) yra vos ledkalnio viršūnė.Šiandien galime akimirksniu iš kito pasaulio krašto par-sisiųsti keletą gigabaitų teksto ir tik po to pamatyti, kadjis parašytas kalba, kurios nesuprantame. Anot vienosiš Europos Komisijos pastarojo laikotarpio ataskaitų, 57proc. interneto naudotojų Europoje perka prekes ir pa-slaugas ne savo gimtąja kalba (anglų kalba yra labiau-siai paplitusi užsienio kalba, po jos – prancūzų, vokie-čių ir ispanų kalbos). 55 proc. naudotojų skaito inter-nete pateikiamą informaciją užsienio kalbomis ir vos 35proc. užsienio kalbomis rašo elektroninius laiškus arbakomentarus interneto tinklalapiuose [2]. Prieš keleriusmetus anglų kalba gal ir buvo interneto lingua anca –didžioji dalis internete pateikiamos informacijos buvo japarašyta – tačiau dabar padėtis radikaliai pasikeitė. In-ternetą užplūdo informacija kitomis Europos, taip patAzijos ir Vidurio Rytų kalbomis.

Neįtikėtina, bet atrodo, kad ši skaitmeninė takoskyra dėlkalbų barjerų nesulaukė labai daug visuomenės dėmesio.Tačiau ji kelia itin aktualų klausimą: kurios Europos kal-bos klestės į tinklą sujungtoje informacinėje ir žinių vi-suomenėje, o kurioms lemta išnykti?

2.2 GRĖSMĖ KALBOMSNors spausdinimo mašina ir palengvino keitimąsi in-formacija, tai lėmė kai kurių Europos kalbų išnykimą.Spaudinių regioninėmis irmažumos kalbomis buvoma-žai, o tokios kalbos kaip kornų ir dalmatų išvis neturėjoraštijos ir tai labai apribojo jų vartojimo sritis. Ar ir in-terneto poveikis mūsų kalboms bus toks pats?Europoje kalbama apie 80 kalbų. Jos yra vienas iš gau-siausių ir svarbiausių regiono kultūros turtų bei esminėEuropos unikalaus socialinio modelio dalis [3]. Norstokios kalbos kaip anglų ir ispanų greičiausiai išliks be-sivystančioje skaitmeninėje rinkoje, daugelis Europoskalbų gali tapti nereikalingos į tinklą susietoje visuome-nėje. Tai susilpnintų Europos padėtį pasaulyje ir pa-kenktų strateginiam tikslui užtikrinti kiekvieno Euro-pos piliečio neatsižvelgiant į vartojamą kalbą galimybesbūti visateisiu Sąjungos nariu.

Europos kalbų įvairovė – svarbi joskultūros turto dalis.

Anot UNESCO ataskaitos apie daugiakalbystę, kalbossudaro esminę terpę džiaugtis pamatinėmis teisėmis, to-kiomis kaip teisė į politinę raišką, švietimą ir dalyvavimąvisuomenės gyvenime [4].

2.3 KALBOS TECHNOLOGIJOS– NAUJŲ GALIMYBIŲ KŪRĖJOSAnksčiau investicijos ir pastangos išsaugoti kalbų įvai-rovę buvo skiriamos kalbųmokymui ir vertimams. Apy-

6

Page 14: Lietuvių kalba skaitmeniniame amžiuje

tikriais skaičiavimais, 2008 m. Europos vertimų raštuir žodžiu, programinės įrangos lokalizavimo ir interne-tinių tinklalapių vertimo rinkos vertė sudarė 8,4 mlrd.eurų, tikėtinas jos metinis augimas yra 10 proc. [5].Deja, šie skaičiai atspindi tik nedidelę dalį dabartinioir būsimo poreikio bendrauti skirtingomis kalbomis.Pagrindinis būdas užtikrinti kalbų vartojimo plėtrą irsklaidą rytdienos Europoje – pasitelkti tinkamas tech-nologijas. Juk būtent technologijos padeda mums ten-kinti transporto, energetinius ir kitokius poreikius.

Europai reikia stabilių, lengvai prieinamų kalbostechnologijų, pritaikytų visoms Europos kalboms.

Skaitmeninės KT (skirtos visoms rašomosios ir šneka-mosios kalbos formoms) padeda žmonėms bendradar-biauti, dirbti, dalytis žiniomis ir dalyvauti socialinėse beipolitinėse diskusijose, nepaisant kalbų barjerų ar darbokompiuteriu įgūdžių. Šios technologijos neretai būnanepastebimos sudėtingų programinės įrangos sistemųdalys, padedančios:

‚ rasti informacijos naudojantis internetinės paieškossistema;

‚ patikrinti, ar tekste nėra rašybos, skyrybos ir grama-tinių klaidų;

‚ peržiūrėti produktų rekomendacijas internetinėjeparduotuvėje;

‚ suprasti automobilio navigacinės sistemos žodinesinstrukcijas;

‚ versti tinklalapius naudojant internetines progra-mas.

KT sudaro aibė pagrindinių programų, veikiančių di-desnėse programinės įrangos sistemose. META-NETBaltųjų knygų tikslas – apžvelgti, kaip šios pagrindinėsprogramos yra išplėtotos ir pritaikytos kiekvienai iš Eu-ropos kalbų.

Jei norės neprarasti pozicijos tarp pasaulio inovacijų ly-derių, Europai reikės stabilių, lengvai prieinamų ir į svar-biausias programinės įrangos terpes integruotų KT, pri-taikytų visoms Europos kalboms. Neturėdami reikiamolygio KT, artimiausioje ateityje nesugebėsime užtikrintikalbos vartotojams interaktyvaus daugiakalbio bendra-vimo daugialypėje terpėje.

2.4 KALBOS TECHNOLOGIJŲGALIMYBĖSSpausdinto žodžio pasaulyje didysis technologinis pro-veržis buvo galimybė greitai kopijuoti vaizdą ar tekstątinkamo galingumo spausdinimo mašina. Žmonėmsteko sunkus darbas – ieškoti žinių, jas skaityti, versti irapibendrinti. Mes turėjome lauktiomo Edisono išra-dimų, padėjusių įrašyti šnekamąją kalbą. Ši technologijasuteikė galimybių gaminti analogines kopijas.

Dabar turint skaitmeninių technologijų galima automa-tizuoti vertimą, informacijos kūrimą ir žinių tvarkymąvisomis Europos kalbomis. Be to, jos gali būti pritaiky-tos kuriant intuityvias kalbos / šnekos pagrindu veikian-čias buities elektronikos, mechanizmų, transporto prie-monių, kompiuterių ir robotų sąsajas. Verslo ir pramo-nės programos vis dar yra ankstyvosios plėtros lygmens,tačiau mokslinių tyrimų ir taikomosios veiklos pažangaatveria naujų galimybių. Pavyzdžiui, konkrečių sričiųtekstų automatinis vertimas jau dabar yra gana tikslus,o eksperimentinės programos teikia galimybių tvarkytiinformaciją ir žinias bei kurti naują turinį daugeliu Eu-ropos kalbų.

Kaip ir daugumos technologijų atveju, pirmosios kal-binės programos, pavyzdžiui, balsu valdomos naudo-tojų sąsajos ir dialogų sistemos, buvo skirtos itin spe-cializuotoms sritims, jų veikimas gana ribotas. Tačiaušvietimo ir pramogų rinkoje esama didžiulių galimy-bių diegti KT žaidimams, kultūrinio paveldo sąvokoms,mokomosioms ir pramoginėms priemonėms, bibliote-

7

Page 15: Lietuvių kalba skaitmeniniame amžiuje

koms, imitacinėms aplinkoms ir mokomosioms progra-moms. Mobiliosios informavimo paslaugos, kompiute-rinė programinė kalbų mokymo įranga, e.mokymo ap-linka, vertinimo priemonės ir programos plagiatui ap-tikti, tai vos kelios sritys, kuriose KT gali būti ypač ver-tingos. Tokių daugialypės terpės bendravimo platformųkaip Twitter ir Facebook populiarumas leidžia manyti,kad ateityje prireiks ir pažangių KT, skirtų stebėti da-lyvių žinutes, apibendrinti diskusijas, rodyti nuomoniųtendencijas, aptikti emocingus atsakymus, nustatyti au-torių teisių pažeidimus arba susekti netinkamo naudo-jimo atvejus.

Kalbos technologijos padeda įveikti kalbųįvairovės „negalią“.

KT teikia daug galimybių Europos Sąjungai. Jos gali pa-dėti išspręsti sudėtingą Europos daugiakalbystės prob-lemą – skirtingos kalbos gali kartu gyvuoti Europosįmonėse, organizacijose ir mokyklose. Gyventojai turibendrauti be Europos bendrąją rinką skaidančių kalbųbarjerų, o KT gali padėti jiems įveikti šią kliūtį bei teiktidaugiau galimybių laisvai ir viešai kalbėti savomis kal-bomis. Žvelgiant dar toliau į priekį, Europos novato-riškos daugiakalbės technologijos pažymės gaires mūsųtarptautiniams partneriams, pradėsiantiems kurti tech-nologijas savoms daugiakalbėms bendruomenėms. KTgali būti vertinamos kaip „pagalbinės“, padedančios vi-siems įveikti kalbų įvairovės „negalią“ ir suteikiančiosskirtingoms kalbos vartotojų bendruomenėms daugiaugalimybių bendrauti. Galiausiai viena iš aktualių moks-linių tyrimų sričių yra KT pritaikymas vykdant gelbė-jimo operacijas nelaimių zonose, kur kiekvienas veiks-mas gali lemti gyvybę ir mirtį: ateityje sumanieji robo-tai, galintys bendrauti įvairiomis kalbomis, turės daugdaugiau galimybių gelbėti gyvybes.

2.5 IŠŠŪKIAI, KURIUOS TURIĮVEIKTI KALBOSTECHNOLOGIJOSNors KT pastaraisiais metais padarė nemažą pažangą,dabartiniai technologinės pažangos ir produkcijos nau-jovių taikymo tempai yra pernelyg lėti. Plačiau taikomostekstų rašymo sistemų rašybos ir gramatikos tikrintuvėspaprastai yra vienakalbės, o ir įdiegtos toli gražu ne vi-soms kalboms.

Šiuo metu technologinė pažangayra pernelyg lėta.

Internetinės automatinio vertimo paslaugos yra naudin-gos, kai norima greitai gauti apytikslį dokumento turi-nio vertimą, tačiau susiduriama su sunkumais, kai rei-kia itin tikslaus ir išsamaus vertimo. Dėl natūralio-sios kalbos sudėtingumo kalbųmodeliavimas programi-nėje įrangoje ir jų testavimas realioje aplinkoje yra il-gas, brangus procesas, kurį reikia nuolat finansuoti. Visdėlto Europa privalo išsaugoti lyderės pozicijas spręs-dama daugiakalbės bendruomenės technologines prob-lemas ir rasti naujų būdų spartinti plėtrą visose srityse.Metodai galėtų būti susiję tiek su pažanga skaitmeni-nėje (kompiuterių) srityje, tiek su tokiomis metodiko-mis kaip individualių užduočių perdavimas žmonių gru-pėms ar bendruomenei (angl. crowdsourcing).

2.6 KALBOS ĮVALDYMAS:ŽMONĖS IR MAŠINOSNorėdami suprasti, kaip kompiuteriai „išmoksta“ kalbąir kodėl juos taip sunku užprogramuoti ją vartoti, trum-pai pažvelkime į tai, kaip pirmąją ir antrąją kalbą iš-moksta žmonės, o po to – kaip veikia KT sistemos.Žmonės įgyja kalbos įgūdžių dviem skirtingais būdais.Kūdikiai išmoksta kalbą girdėdami, kaip bendrauja jų

8

Page 16: Lietuvių kalba skaitmeniniame amžiuje

tėvai, broliai, seserys ir kiti šeimos nariai. Dvejų metųamžiaus vaikai pradeda patys kalbėti – iš pradžių taibūna atskiri žodžiai ir trumpos frazės. Tai įmanoma to-dėl, kad žmonės genetiškai gali mėgdžioti ir praktiškaitaikyti, ką išgirdo.Vyresnio amžiaus vaikams išmokti antrąją kalbą yra kieksunkiau, ypač jeigu vaikas auga bendruomenėje, kuriaita antroji kalba nėra gimtoji. Mokyklose paprastai mo-koma užsienio kalbos gramatinės struktūros, žodyno irrašybos taisyklių, t. y. atliekami pratimai, kuriais kalbosžinios įtvirtinamos pagal abstrakčias taisykles, lenteles irpavyzdžius.Dviejų pagrindinių tipų KT sistemos kalbos išmokstapanašiais būdais. Statistiniais (arba pagrįstais duomeni-mis) metodais duomenys surenkami iš gausybės konk-rečių tekstų pavyzdžių. Vienakalbiai tekstai gali būtinaudojami tos pačios kalbos mokymo tikslais, pavyz-džiui, tikrinti, ar nėra rašybos klaidų, tačiau automati-nio vertimo sistemai „išmokyti“ būtini lygiagretūs teks-tai dviem ar daugiau kalbų. Iš tokių tekstų automatiniovertimo algoritmas „išmoksta“ žodžių, trumpų frazių irvisų sakinių vertimo modelius.

Žmonės įgyja kalbos įgūdžių dvejopai:mokydamiesi iš pavyzdžių ir mokydamiesi

pagrindinių kalbos taisyklių.

Tokiam statistiniais metodais pagrįstam vertimui galiprireikti milijonų sakinių, o vertimo kokybė gerėja didė-jant išanalizuotų tekstų kiekiui. Tai viena iš priežasčių,kodėl paieškos sistemų teikėjai pageidauja sukaupti kaipgalima daugiau rašytinės informacijos. Tekstų rašymoir tokių paslaugų kaip Google Search ir Google Trans-late rašybos klaidų taisymo funkcijos pagrįstos statisti-niais metodais. Didžiausias statistikos pranašumas yra

tas, kadmašina „mokosi“ greitai, įveikdama nesibaigian-čius mokomuosius ciklus, nors kartais kokybė gali būtilabai įvairi.Antrasis KT ir ypač automatinio vertimo metodas yrakurti taisyklėmis pagrįstas sistemas. Lingvistikos, kom-piuterinės lingvistikos ir kompiuterių mokslo ekspertaivisų pirma turi užkoduoti gramatinę analizę (vertimotaisykles) ir sudaryti žodyno sąrašus (leksikonus). Tamreikia daug pastangų, intensyvaus darbo ir laiko. Kai ku-rios pagrindinės taisyklėmis pagrįstos automatinio ver-timo sistemos buvo tobulinamos daugiau nei du dešimt-mečius. Pagrindinis taisyklėmis pagrįstų sistemų prana-šumas yra tas, kad ekspertai gali geriau kontroliuoti kal-bos apdorojimą. Tai leidžia nuosekliai taisyti programi-nės įrangos klaidas ir palaikyti grįžtamąjį ryšį su naudo-toju, ypač tuo atveju, kai taisyklėmis pagrįstos sistemostaikomos kalbų mokymui. Tačiau dėl didelių finansiniųsąnaudų taisyklėmis pagrįstųKT turi susikūrusios tik di-džiosios kalbos.Kadangi paprastai statistinių ir taisyklėmis pagrįstų sis-temų pranašumai ir trūkumai kompensuoja vieni kitus,šiuo metu atliekami tyrimai siekiant sukurti hibridiniusbūdus, sujungsiančius šias dvimetodologijas. Tačiau kolkas didesnės sėkmės pasiekta ne taikant šiuos metodusverslo poreikiams, bet tyrimų laboratorijose.Taigi galima konstatuoti, kad didžioji dalis programų,kurias šiuo metu naudoja informacinė visuomenė, la-bai priklauso nuo KT. Tai ypač pasakytina apie Euro-pos ekonominę ir informacinę erdvę su jos daugiakalbebendruomene. Nors pastaraisiais metais KT srityje pa-daryta reikšminga pažanga, vis dar egzistuoja daugybėgalimybių gerinti KT sistemų kokybę. Kituose sky-riuose aptarsime lietuvių kalbos vietą Europos informa-cinėje visuomenėje ir įvertinsime dabartinę lietuvių KTbūklę.

9

Page 17: Lietuvių kalba skaitmeniniame amžiuje

3

LIETUVIŲ KALBAEUROPOS INFORMACINĖJEVISUOMENĖJE

3.1 BENDRIEJI DUOMENYSLietuvių kalba yra viena iš mažiau vartojamų Europoskalbų – ja kalba apie 4 mln. žmonių, dauguma jų gy-vena Lietuvos Respublikoje. Valstybinė lietuvių kalbayra bendra rašomoji ir šnekamoji visiems Lietuvos Res-publikos piliečiams, kurių, 2011 m. duomenimis, yraapie 3,2 mln., iš jų lietuvių tautybės – apie 2,7 mln.84 proc. Lietuvos gyventojų yra lietuviai, 6,1 proc. –lenkai, 4,9 proc. – rusai, 1,1 proc. – baltarusiai, 0,6proc. – ukrainiečiai, dar po 0,1 proc. sudaro žydų, vo-kiečių, latvių, totorių, karaimų kilmės piliečiai. Be to,Lietuvoje gyvena apie 3 tūkst. romų bendruomenė, ku-rios didžiausia koncentracija yra Vilniaus regione (2001m. surašymo duomenimis). Deja, nuo 2007m. Lietuvosgyventojų skaičius kasmetmažėja. Šiuos pokyčius lemiamažėjantis gimstamumas bei emigracija, mažinanti Lie-tuvoje gyvenančių kalbos vartotojų skaičių.

Lietuvių kalba yra viena iš mažiau vartojamųEuropos kalbų. Ja kalba vos apie 4 mln. žmonių,

dauguma jų gyvena Lietuvos Respublikoje.

Kiek lietuviškai kalbančiųjų yra pasaulyje, gana sudė-tinga nustatyti. Spėjama, kad užsienyje gali gyventi per500 tūkst. lietuviškai kalbančiųjų, kituose šaltiniuosenurodoma, kad nemažiau nei 15 proc. kalbėtojų. Lietu-vių kalba šneka lietuvių tautinės mažumos, gyvenančios

Baltarusijoje, Lenkijoje, Latvijoje, bei didelės emigrantųbendruomenės JAV, Kanadoje, Jungtinėje Karalystėje,Airijoje, Ispanijoje, Pietų Amerikoje ir kitur. Pagal kal-bančiųjų skaičių lietuvių kalba užima 144 vietą pasau-lyje.Lietuvių kalba priklauso indoeuropiečių kalbų šeimosbaltų šakai. Jos artimiausia giminaitė yra latvių kalba,kuria kalbama kaimyninėje Latvijoje.Pagal socialinės Europos kalbų raidos istoriją, kalbasskirstant į dominuojančiąsias ir dominuojamąsias, lie-tuvių kalba priskirtina prie antrųjų. Dominuojančio-sios kalbos vieną tarmę bendrinėms kalboms formuotipaprastai buvo pasirinkusios ne vėliau kaip Renesansolaikotarpiu (anglų, prancūzų, italų, portugalų), o domi-nuojamosios susiformavoXIX amžiuje, Tautų pavasariometu (bulgarų, kroatų, lietuvių, slovakų). Bendrinė lie-tuvių kalba susiformavo XIX amžiaus pabaigoje – XXamžiaus pradžioje.Lietuvių kalbai būdinga didelė regioninių kalbos at-mainų įvairovė. Dvi pagrindinės tarmės – aukštaičių iržemaičių – skiriasi ne tik fonetinėmis ypatybėmis, betir gramatika bei leksika. Šios tarmės skirstomos į ketu-riolika stambesnių regioninių patarmių, o šios – į smul-kesnių teritorinių vienetų šnektas. Patarmės viena nuokitos skiriasi garsais, žodžių formomis ir kitokiomis sa-vybėmis.Bendrinė lietuvių kalba susiformavo XX amžiaus pra-džioje vienos iš aukštaičių patarmių pagrindu, tačiau re-

10

Page 18: Lietuvių kalba skaitmeniniame amžiuje

gioninis tapatumas ir tarminiai skirtumai vis dar labairyškūs.Nuo 1995 metų gestų kalba oficialiai pripažinta Lietu-vos Respublikos kurčiųjų gimtąja kalba. Nuo to laikolietuvių gestų kalba vystosi kaip nepriklausoma kalba.

3.2 LIETUVIŲ KALBOS YPATYBĖSXIX amžiuje indoeuropeistai išgarsino stebėtiną lietu-vių kalbos panašumą į sanskritą, ja imta didžiuotis kaipmažiausiai pakitusios struktūros gyvąja indoeuropiečiųkalba. Dėl tos priežasties besimokantys klasikines Euro-pos kalbas (lotynų, senąją graikų) lengviau supranta lie-tuvių kalbos gramatiką. Lietuvoje didžiuojamasi pran-cūzų lingvistoAntoine’oMeillet posakiu, jog kiekvienas,norintis išgirsti, kaip kalbėjo indoeuropiečių protėviai,turi važiuoti pasiklausyti lietuvio valstiečio.Lietuvių kalba – pati konservatyviausia iš indoeuropie-čių gyvųjų kalbų, jai pavyko geriausiai išsaugoti daugelįsavo archajiškų savybių. Tipologijos požiūriu, lietuviųkalba yra svarbi dėl daugybės unikalių savybių, įskaitantgausias kaitybos formas, charakteringą toninio ir dina-minio kirčio sintezę bei itin įvairialypę žodžių tvarką,atspindinčią sudėtingus diskurso bendravimo ir sintak-sinio lygmens santykius.Rašomojoje lietuvių kalboje milijonus žodžių sudaronet 32 raidės. Būtent tiek jų ir yra norminės lietuvių kal-bos abėcėlėje. Šį skaičių nustatė Jonas Jablonskis savo„Lietuviškos kalbos gramatikoje“ (1901 m.). Taigi da-bartinei abėcėlei yra daugiau nei šimtas metų, tačiau josatsiradimo istorija apima dar ilgesnį laiką. Lietuvių kal-bos abėcėlė yra paremta lotynų kalbos rašmenimis, norsjoje yra ir unikalių ženklų – kai kurie iš jų yra originalūs(pavyzdžiui, raidė „ė“). Kiti yra pasiskolinti iš užsieniokalbų (pavyzdžiui, „š“, „ž“ – iš čekų, ar „ą“, „ę“ – iš lenkųkalbos). Tačiau kol kas sunku išspręsti sudėtingą lietu-vių kalbos kirčiuotų balsių problemą, kuri tampa itin ak-tuali norint perkelti įvairius žodynus ar kirčiuotus teks-tynus į skaitmeninę erdvę – kirtis lietuvių kalboje yra

skiriamasis (distinktyvinis), jo vieta nėra fiksuota, taigijis gali lemti leksinę ar gramatinę žodžio reikšmę (pvz.,nãmo vns. kilm. – namõ adv.). Be to, visi ilgieji skieme-nys turi vieną iš dviejų priegaidžių, kurios taip pat skiriažodžių reikšmes (pvz., áukštas – aũkštas ir pan.). Į šiuosdalykus turi atsižvelgti ir garso technologijų kūrėjai.

Lietuvių kalboje, kuriai būdingos linksniuotės, dau-guma žodžių formų yra sudaromos naudojant afiksus,t. y. galūnes. Galūnės yra svarbiausia priemonė pažymėtižodžių sintagminius santykius sakinyje ir (arba) žodžiųformų santykius paradigmoje. Galūnės dažniausiai yranevienareikšmės, t. y. galūnė apima dvi ar daugiau gra-matinių funkcijų, ir dėl to žodžio forma priskiriama to-kiam pačiam morfologinių kategorijų kiekiui.

Priesagos taip pat plačiai vartojamos lietuvių kalbosžodžių formoms sudaryti. Jos dažniausiai reiškia žo-džių formų paradigminius, o ne sintagminius ryšius.Kaitybinės priesagos naudojamos pažymėti būdvardžiųir daugelio prieveiksmių laipsnius, veiksmažodžių lai-kus ir nuosakas bei neasmenines veiksmažodžių for-mas: bendratį, dalyvius ir veiksmažodinius prieveiks-mius (būdinius).

Sudarant naujas žodžių formas, afiksai (ypač veiksma-žodžių paradigmoje) dažnai derinami su šaknies balsiųkaita.

Be paprastųjų (sintetinių) žodžių formų, sudaromų suafiksais, paradigmoje galima aptikti ir aprašomųjų (ana-litinių) žodžių formų, kurias sudaro pagrindinis ir pa-galbinis žodis.

Pagal bendrąsias morfologines, sintaksines ir semanti-nes savybes žodžiai skirstomi į gramatines klases, tradi-ciškai vadinamas kalbos dalimis. Lietuvių kalboje ski-riama 11 kalbos dalių: daiktavardis, būdvardis, skaitvar-dis, įvardis, veiksmažodis, prieveiksmis, dalelytė, prie-linksnis, jungtukas, jaustukas ir ištiktukas.

Sintaksinis ryšys apibrėžia betarpišką santykį tarp saki-nio žodžių formų, žodžių grupių ir dėmenų. Lietuviųkalboje sintaksinius ryšius reiškia galūnės ir, kiek rečiau,

11

Page 19: Lietuvių kalba skaitmeniniame amžiuje

kaitybinės priesagos, kurias dažnai papildo struktūri-niai žodžiai – prielinksniai, jungtukai ir dalelytės. Žo-džių eilės tvarka nėra tokia svarbi gramatiniams ryšiamsparodyti. Pavyzdžiui, žodžių eiliškumas parodo būd-vardžio sintaksinę funkciją tokiuose žodžių junginiuosekaip Gražios gėlės (pažyminys) ir Gėlės gražios (predika-tyvas). Sakinyje žodžių formas į grupes susieja intona-cija, sustiprinanti jų sintaksinį ryšį (betarpiškai susiju-sios žodžių formos paprastai sudaro intonacinį vienetą);be to, ji parodo ir sakinių tipus. Skiriami trijų tipų sin-taksiniai ryšiai: tarpusavio sąsaja, derinimas ir šliejimas.Lietuvių kalbos žodžių tvarka yra laisva, taigi tą pačiąmintį įmanoma pasakyti įvairiais būdais (nors kai kuriosstruktūros gali būti vartojamos tik stilistiniais sumeti-mais). Ką jau kalbėti apie eliptinius sakinius, kuriuosepraleisti žodžiai gali būti tik numanomi iš konteksto. Beto, sakiniai gali būti labai ilgi ir sudėtingos struktūros,tai taip pat sunkina automatinį apdorojimą.Gausudaugiareikšmių žodžių, todėl besimokančiam lie-tuvių kalbos gali būti sudėtinga atpažinti vieno ar kitožodžio reikšmę ir formą.Nemažai gramatinių formų, pavyzdžiui, lietuvių kalbosvardažodžiai turi linksnio, giminės ir skaičiaus gramati-nes kategorijas. Be to, būdvardžiai gali būti įvardžiuo-tiniai / neįvardžiuotiniai, kaitomi laipsniais, būti bevar-dės giminės ir pan.Dar sudėtingesnis lietuvių kalbos veiksmažodis, nes yraasmenuojamųjų ir neasmenuojamųjų formų, kurios turiir vardažodžių, ir veiksmažodžių savybių, t. y. jos kaito-mos skaičiais, laikais, rūšimis, linksniais, giminėmis.

Kai kurios lietuvių kalbos ypatybės sunkinaskaitmeninį kalbos apdorojimą.

3.3 DABARTINĖ RAIDANors turinti raštijos tradiciją nuo XVI amžiaus, lietuviųkalba buvo sunorminta tik XX amžiaus pradžioje – tuo

metu parašyta norminamoji lietuvių kalbos gramatika,pradėtas leisti žodynas (tezauras), kurio paskutinis 20tomas pasirodė 2002 metais.

Tik pradėjusi įsitvirtinti bendrinė lietuvių kalba patyrėnemažai iššūkių. Nuo pačios raštijos pradžios jai didelęįtaką darė slavų kalbos. Sovietiniu laikotarpiu buvo re-miamas ir skatinamas rusų kalbos mokymasis ir vartoji-mas, o lietuvių kalbos vaidmuo kai kuriose srityse, pa-vyzdžiui, mokslo ir valstybės administravimo, buvo ri-bojamas. Dabartinė vyresnioji ir vidurinioji gyventojųkarta išaugo apsupta rusų kalbos ir kultūros. Kadangisvetimos kilmės žodžiai yra ne vien kalbos, bet ir visuo-menės gyvenimo atspindys, tuometu į lietuvių kalbą pa-teko nemažai skolinių, ypač terminų, administracinėskalbos konstrukcijų ir pan. Rusų kalbos įtaka vis darstipriai juntama kai kuriose periferinėse kalbos atmai-nose: žargone, nenorminėje leksikoje ir pan.

Pastarųjų keliolikos metų Lietuvos politiniai, ekono-miniai, socialiniai ir kultūriniai procesai lėmė itin stai-gius lietuvių kalbos žodyno pokyčius. Per 1993–1997m. spaudoje užfiksuota daugiau nei 700 naujų svetimųžodžių šaknų [6]. Dažniausiai tai skoliniai iš anglų kal-bos arba žodžiai, į lietuvių kalbą patekę per šią kalbą. Tailėmė po nepriklausomybės atkūrimo prasidėjusi spartiinformacinių technologijų plėtra bei naujų kultūrinių,socialinių ir ekonominių galimybių atsiradimas. Da-bartinio lietuvių kalbos tekstyno duomenimis, vien per1991–1996 m. lietuvių kalbos žodyną papildė per 10tūkst. naujažodžių, tikėtina, kad dabar šie procesai darspartesni. Nuo 1990m. informacinę erdvę užplūdo ang-lakalbė, ypač amerikietiškoji, populiarioji kultūra: seria-lai, laidos, muzika ir pan. Nors užsienio filmai, serialaiar televizijos laidos verčiami į lietuvių kalbą, toks kul-tūrinis pasikeitimas turėjo nemažos įtakos lietuvių kal-bai ir kultūrai. Anglų kalba laikoma svarbiausia pasau-linės materialinės ir intelektinės rinkos tarpininke, tadjos vaidmuo didėja ir Lietuvos ekonominiame, sociali-niame ir kultūriniame gyvenime: stiprėja ne tik anglų

12

Page 20: Lietuvių kalba skaitmeniniame amžiuje

kalbos mokymosi, bet ir specialybės įgijimo, darbo, in-telektinės kūrybos šia kalba motyvacija. Šiuo metu jau-najai kartai artimesnė ir didesnį prestižą turi anglų kalbakaip lingua anca, su kuria siejama ne tik kultūrinė inte-gracija, bet ir studijos, karjeros perspektyvos ir pan. Kolkas nėra atlikta pakankamai tyrimų, bet tikėtina, kaddaugiausia anglų kalbos skolinių ar ištisų konstrukcijųvartojama jaunimo, ypač priklausančio tam tikroms sub-kultūroms, kalboje.

Lietuvoje anglų kalba veikia tas pačias kalbos vartojimosritis, kaip ir kitur. Bene dažniausiai anglų kalba varto-jama ten, kur kreipiamasi į jaunimo auditoriją, pavyz-džiui, 75 proc. kino anonsų pateikiama angliškai arbayra mišrūs. Kitur padėtis yra geresnė, pavyzdžiui, Lie-tuvos televizijos transliuoja daugiau nei 60 proc. lietu-viškos reklamos, o mišriose reklamose angliškas dažnaibūna tik produkto pavadinimas [6].

Nemažą rūpestį kelia mokslo kalbos raida. Siekianttarptautinio pripažinimo ir sklaidos, kai kurios mokslosritys beveik nepublikuoja savo tyrimų rezultatų Lietu-voje lietuvių kalba. Mokslo tarptautiškumas ypač ska-tinamas, nepaisant nuogąstavimų, kad taip skurdinamalietuviška mokslo terminija, lietuvių kalba išstumiamaiš specifinių vartojimo sričių, menkėja motyvacija tobu-linti specialybės kalbą aukštosiose mokyklose.

Diskutuojant, kokia turėtų būti tolesnė lietuvių kalbosraida ir perspektyvos, lietuvių kalbos įsitvirtinimas in-formacinėje visuomenėje būtų geras argumentas, kad jiyra moderni ir funkcionali komunikacijos priemonė.

3.4 KALBOS PADĖTIS IRVARTOJIMAS LIETUVOJELietuvių kalba turi valstybinės kalbos statusą, įtvirtintąLietuvos Respublikos Konstitucijoje. Šio statuso įgy-vendinimą, t. y. valstybinės kalbos vartojimą viešajamegyvenime, jos apsaugą ir kontrolę, taip pat atsakomybęuž pažeidimus reglamentuoja Valstybinės lietuvių kal-

bos įstatymas (1995 m.). Už šio įstatymo nuostatųvykdymą yra atsakinga Valstybinė lietuvių kalbos komi-sija, kuri teikia pasiūlymus dėl juridinio reguliavimo irsvarsto kalbos norminimo ir vartojimo klausimus.

Lietuvių kalba yra valstybinė – toks jos statusasįtvirtintas Lietuvos Respublikos Konstitucijoje.

Valstybės ir savivaldos institucijos, įmonės ir organizaci-jos privalo tarpusavyje bendrauti valstybine kalba. Ko-munikacijos, transporto, sveikatos priežiūros ir sociali-nės apsaugos, policijos ir teisėtvarkos tarnybų bei kito-kių įstaigų, teikiančių paslaugas gyventojams, vadovaituri užtikrinti, kad atitinkamos paslaugos gyventojamsbūtų teikiamos valstybine kalba.Lietuviškai transliuojamos 34 nacionalinės ir vietinėsTV programos, 52 radijo stotys [7]. Vaizdo ir garsoprogramos ir kino filmai, viešai demonstruojami Lietu-voje, turi būti išversti į valstybinę kalbą arba rodomi sulietuviškais subtitrais. Taigi vertimai yra labai aktualiir svarbi sritis, atsižvelgiant ir į tai, kad verstinės kny-gos sudaro apie trečdalį visų lietuviškai išleistų knygų(2010 m. duomenimis, iš 2962 lietuvių kalba išleistųknygų 982 buvo vertimai [8]). Beje, Lietuvos žinias-klaida (spauda, televizija, radijas ir pan.), visi knygų ir ki-tokie leidėjai privalo laikytis taisyklingos lietuvių kalbosnormų. Kaip laikomasi valstybinės kalbos vartojimo irtaisyklingumo reikalavimų, kontroliuoja Valstybinė lie-tuvių kalbos inspekcija.Svarbiausios lietuvių kalbos politikos nuostatos yra šios:

‚ Lietuvių kalba yra valstybės ir jos gyventojų bendra-vimo priemonė visose viešojo gyvenimo srityse, vie-nas svarbiausių valstybės suverenumo ir vientisumopožymių.

‚ Lietuvių kalbos politika turi tenkinti visuomenės,įskaitant ir užsienyje gyvenančius tautiečius, sociali-nės, nacionalinės ir kultūrinės vienybės poreikį.

13

Page 21: Lietuvių kalba skaitmeniniame amžiuje

‚ Lietuvių kalbos politika turi derėti su Europos Są-jungos kalbų politika, skatinančia išlaikyti daugia-kultūrės Europos kalbų įvairovę, laikomą viena di-džiausių Europos vertybių.

‚ Lietuvių kalbos politika turi ugdyti sąmoningą ir kū-rybišką visuomenės požiūrį į lietuvių kalbos varto-jimą, lietuvių kalbos vertės ir savitumo suvokimą.

‚ Lietuvių kalbos tarmės yra lietuvių kalbos ir kultūrosturtas, todėl yra saugotinos bei palaikytinos.

‚ Valstybinės kalbos politika turi apimti komunikaci-jos sistemas, skirtas specialiųjų poreikių turintiemsžmonėms.

‚ Lietuvių kalbos plėtros prioritetai – skaitmeninėskalbos sistemos ir ištekliai internete. Lietuvių kalbaturi plėtotis kaipEuropos Sąjungos daugiakalbių ter-minologinių bei vartojimo išteklių sudedamoji dalis.Automatinis vertimas iš / į lietuvių kalbą – svarbikalbos vartojimo Europos Sąjungos erdvėje sudeda-moji dalis.

Politinių pastangų apsaugoti ir remti lietuvių kalbą taippat pakanka: valstybinės kalbos vartojimą ir statuso ap-saugą reglamentuoja Valstybinės lietuvių kalbos įstaty-mas (1995 m.), vartojimo ir taisyklingumo kontrolę –Valstybinės lietuvių kalbos inspekcijos įstatymas (2001m.), terminologijos išteklių plėtrą–Terminųbanko įsta-tymas (2003m.). Be to, kalba, kaip kultūrinės tapatybėsdalis, įtraukta į kultūrinio ir etninio paveldo apsaugosteisės aktus.

Lietuvių kalbos politika turi derėti su EuroposSąjungos kalbų politika, skatinančia išlaikyti

daugiakultūrės Europos kalbų įvairovę, laikomąviena didžiausių Europos vertybių.

Lietuvai tapus Europos Sąjungos nare, prasidėjo naujaslietuvių kalbos raidos etapas – įgytas oficialios Europos

Sąjungos kalbos statusas užtikrino lietuvių kalbos var-tojimą ir sklaidą daugiakalbėje Europos Sąjungos erd-vėje, paspartėjo kalbos išteklių, reikalingų visaverčiamkalbos funkcionavimui daugiakalbėje aplinkoje, kaupi-mas ir pan.Lietuvių kalbos vartojimą bei plėtrą remia įvairiosvalstybinės institucijos bei visuomeninės organizacijos:Valstybinė lietuvių kalbos komisija, Valstybinė lietuviųkalbos inspekcija, Lietuvių kalbos draugija ir kt. Įgyven-dinama nemažai valstybės remiamų programų, skirtųkalbos tyrimams ir sklaidai skatinti. Vienas iš svarbių lie-tuvių kalbos tyrimų ir sklaidos centrų yra Lietuvių kal-bos institutas, kuriame veikia visuomenei atviras Kalbosmuziejus. Įvairiais aspektais lietuvių kalba tiriama Lie-tuvos universitetuose –nuo tradicinių empirinių tyrimųiki KT taikymo galimybių.Be to, visuomenė, ypač moksleiviai ir jaunimas, taip patįtraukiama į lietuvių kalbos vartojimo ir sklaidos inicia-tyvas, kurias organizuoja valstybės institucijos, moksloįstaigos ir verslo įmonės, pavyzdžiui, rašomas Nacio-nalinis diktantas, rengiami įvairūs konkursai: dailyraš-čio, svetimžodžių keitimo lietuviškais žodžiais konkur-sas „Kalbą kuriu AŠ“, taisyklingos lietuvių kalbos var-tojimo informacinėse technologijose konkursas „Švarikalba – švari galva“, kuriuo siekiama skatintimoksleiviuselektroninėje terpėje vartoti lietuviškus rašmenis bei tai-syklingą lietuvių kalbą. Kasmet renkamos taisyklingiau-sios metų knygos, gražiausias lietuviškas įmonės pavadi-nimas, gražiausias lietuviškas žodis ir pan.

3.5 KALBA ŠVIETIMO SRITYJEPagal Valstybinės lietuvių kalbos įstatymą valstybė ga-rantuoja visų pakopų išsilavinimą gimtąja lietuvių kalba.Valstybinis baigiamasis lietuvių kalbos egzaminas yravienintelis privalomas visoms vidurinio lavinimo mo-kykloms, kurių dėstomoji kalba yra lietuvių. Tokį pat eg-zaminą laikys ir tautinių mažumų mokyklų moksleiviai.Šalyje veikia mokyklos tautinių mažumų mokiniams,

14

Page 22: Lietuvių kalba skaitmeniniame amžiuje

kuriose mokoma nevalstybine – rusų, lenkų, baltarusių– kalba bei mišrios mokyklos. Yra mokyklų anglų, vo-kiečių, prancūzų, hebrajų kalbomis [9].Nepaisant, regis, nemažo dėmesio lietuvių kalbosmoky-mui, kiekvienais metais prastėja lietuvių kalbos mokė-jimo rezultatai visuose mokymosi koncentruose. 2007m. nacionalinio tyrimo duomenimis, tik 39 proc. aštun-tokų tepasiekė pagrindinį lietuvių kalbosmokėjimo lyg-menį [9].Lietuvių kalbos pasiekimai yra labai išsibarstę, o lygi-nant su 2006 m. duomenimis, gerokai sumažėję [10].Pagal OECD PISA tyrimą, penkiolikmečių Lietuvosmokinių skaitymo gebėjimų vidutiniai rezultatai 2009m. taip pat buvo gerokai žemesni nei tarptautinis vi-durkis [11]. Beje, ypač suprastėjo berniukų skaitymogebėjimai. Kiek geresni pradinio mokymo rezultatai:net 99 proc. IV klasės Lietuvos mokinių pasiekė že-miausią 2006m. tarptautinio skaitymogebėjimų tyrimoPIRLS (angl. Progress in International Reading Lite-racy Study) lygmenį, tačiau aukščiausią lygį pasiekia tik5 proc. (tarptautinis vidurkis – 9 proc.) [12].Nemaža dalis mokinių mano, kad nėra gabūs lietu-vių kalbai: 2008 m. nacionalinio mokinių lietuvių kal-bos mokėjimo tyrimo duomenimis, 52 proc. dešimtokųteigė manantys, kad nėra gabūs lietuvių kalbai, tik pusėmokinių teigė, kad jiems patinka lietuvių kalbos pamo-kos [11].

Lietuvių kalba strategijoje suvokiama kaipmoderni visuomenės bendravimo priemonė,

vartojama ir vartotina visose gyvenimosrityse ir terpėse.

Proveržio tikimasi iš besikeičiančio požiūrio į lietuviųkalbos ir literatūros mokymą. 2010 m. patvirtinta „Lie-tuvių kalbos ugdymobendrojo lavinimoprogramas vyk-dančiose mokyklose 2010–2014 metų strategija“ [13],kurioje numatyta, kad mokykla turi plėtoti tokią lietu-vybę, kuri suteikia viską, koXXI amžiaus žmogui reikia,

kad jis augtų laisvas, pasitikintis savimi, kritiškai mąs-tantis, kūrybingas, atsakingas. Lietuvių kalba strategi-joje suvokiama kaip moderni visuomenės bendravimopriemonė, vartojama ir vartotina visose gyvenimo srityseir terpėse. Kalbos kitimas, pritaikymas šiuolaikinės in-formacinės visuomenės reikmėms, atvirumas ir gebėji-mas atsinaujinti yra jos išlikimo sąlyga.Daug dėmesio skiriama lietuvių kalbos mokymui irsklaidai Lietuvoje bei pasaulyje. Intensyvėjant migraci-jai, stengiamasi sudaryti sąlygas iš užsienio grįžtantiemsvaikams mokytis lietuvių kalbos ir toliau tęsti moksląLietuvoje, o ketinantieji išvykti gali pasirinkti savaran-kiško ar nuotolinio mokymosi būdą [13]. Tačiau pri-pažįstama, kad nesukūrus šiuolaikinių nuotolinio mo-kymo sistemų nemaža dalis išvykusių vaikų praras ryšįsu lietuvių kalba ir kultūra.Plečiamas lietuvių kalbos mokymas tautinių mažumųmokyklose, taip suteikiant daugiau galimybių kitakal-biams integruotis į Lietuvos darbo rinką, gauti informa-ciją ir bendrauti viešojoje erdvėje.

3.6 TARPTAUTINIAI ASPEKTAINors nemaža dalis lietuvių, paklausti, kuo garsi Lietuvapasaulyje, ilgai nemąstydami atsakys – krepšiniu (iš tik-rųjų garsių krepšininkų ar trenerių lietuviški vardai arpavardės yra nebloga lietuviškos tarties treniruotė ir pir-moji pažintis su lietuvių kalba krepšinio mėgėjams vi-samepasaulyje), vis dėlto tradiciškai viena iš pagrindiniųnacionalinių vertybių ir Lietuvos prisistatymo pasauliuiobjektų laikoma pati lietuvių kalba. Kai kuriems Lietu-vos gyventojams jų tautiškumo supratimas ligi šiol aso-cijuojasi su kalbine tapatybe.

Lietuvių kalbą, jos tarmes, tautosaką yra tyrę iraprašę įvairių tautybių mokslininkai – šių tyrimųgeografija apima nuo kaimyninių valstybių iki

Japonijos, Australijos, JAV.

15

Page 23: Lietuvių kalba skaitmeniniame amžiuje

Ne tik kalbos archajiškumu, bet ir pagoniško tikėjimotradicijomis, originalia tautosaka Lietuva traukė garsiusmenininkus Adomą Mickevičių, Prosperą Mérimée, Jo-hanną Wolfgangą von Goethe ir kt. Bene ilgiausiai Eu-ropoje išlaikytas pagoniškas tikėjimas ir papročiai itindomino mitologus, ne veltui iš Lietuvos kilusi vienaiš žymiausių Europos proistorės tyrėjų Marija Gimbu-tienė, mitologija domėjosi ir Paryžiaus semiotikos mo-kyklos kūrėjas Algirdas Julius Greimas.Lietuvių kalbą, jos tarmes, tautosaką yra tyrę ir ap-rašę įvairių tautybių mokslininkai – šių tyrimų geo-grafija apima nuo kaimyninių valstybių iki Japonijos,Australijos, JAV. Tradicija svarbiausiuose indoeuropeis-tikos centruose studijuoti lietuvių kalbą išlaikyta ir šian-dien. Užsienio universitetuose veikia apie 10 lituanisti-kos centrų, šiuo metu vykdančių savarankiškas lituanis-tikos ar baltistikos studijų programas. Pasaulyje, dau-giausia Europoje, iš viso veikia per 30 įvairaus dydžiocentrų, kuriuose tiriama ar dėstoma lietuvių ar baltų kal-bos ir kultūra.

Tradicija svarbiausiuose indoeuropeistikoscentruose studijuoti lietuvių kalbą

išlaikyta ir šiandien.

Lietuvos Respublikos švietimo ir mokslo ministerija re-mia ir skatina lituanistikos centrus. Kasmet teikiamosKazimieroBūgos vardo stipendijos užsieniečiams, užsie-nio šalių aukštosiose mokyklose studijuojantiems lietu-vių kalbą.

3.7 LIETUVIŲ KALBA INTERNETE2011 m. duomenimis, beveik 64,1 proc. Lietuvos gy-ventojų naudojasi internetu namie ar darbe, o 16–24metų amžiaus grupėje naudotojų skaičius yra dar dides-nis ir siekia 96,6 proc. [14]. Tačiau tikslių duomenų apietai, kokia kalba jie naudojasi internetu, nėra. Itin ge-

rai išvystyta IRT infrastruktūra – Lietuva pirmauja Eu-ropoje pagal šviesolaidinio plačiajuosčio tinklo skverbtį(23 proc.), užima pirmąją vietą pasaulyje pagal mobi-liojo ryšio abonentų skaičių, tenkantį 100 gyventojų,užima antrąją vietą pasaulyje pagal interneto ryšio greitįir turi tankiausią Europoje belaidžio interneto prieigostaškų tinklą Europoje (875) [15].

Lietuva pirmauja Europoje pagal šviesolaidinioplačiajuosčio tinklo skverbtį, užima pirmąją vietąpasaulyje pagal mobiliojo ryšio abonentų skaičių,

tenkantį 100 gyventojų, užima antrąją vietąpasaulyje pagal interneto ryšio greitį ir turi

tankiausią Europoje belaidžio interneto prieigostaškų tinklą Europoje.

2010 metais registruota 126 tūkstančių .lt sričių vardų,iš jų apie 1 400 – su specifiniais lietuviškais rašmenimis(ė, š ir pan.). Daugumos jų turinys yra lietuviškas. Lie-tuviško turinio puslapių yra ir .eu, .org, .com sričių var-duose.Internete vis daugiau atsiranda viešųjų paslaugų, priei-namų lietuvių kalba. Pagrindinių viešųjų paslaugų per-kėlimo į elektroninę terpę lygis 2005 m. Lietuvoje siekė64 proc. Dar sparčiau į internetą perkeliamos versluiskirtos paslaugos – jų lygis 2005 m. siekė 76 proc., o gy-ventojams – tik 56 proc. [16]. Įgyvendinant naciona-lines programas siekiama daugiau viešųjų paslaugų per-kelti į interneto erdvę, didinti lietuviško turinio apimtįinternete skaitmeninant ir skleidžiant Lietuvos kultūrospaveldą, sudarant sąlygas Lietuvos gyventojams naudo-tis IRT, turinčiomis lietuviškas sąsajas. Taip mažinamaskaitmeninė atskirtis, užtikrinama, kad technologijomisbūtų lengva naudotis, jos būtų pritaikytos žmonėms sunegalia.

2010 metais registruota 126 tūkstančių .lt sričiųvardų, iš jų apie 1 400 – su specifiniais

lietuviškais rašmenimis.

16

Page 24: Lietuvių kalba skaitmeniniame amžiuje

Vis populiaresni tampa žinių portalai, internetu pasie-kiami pagrindiniai lietuviški spaudos leidiniai, kai ku-rie mokslo žurnalai ir pan. Iš svarbiausių lietuviškoturinio sklaidos projektų minėtinas kultūros paveldoportalas www.epaveldas.lt, virtualioje erdvėje jungian-tis bibliotekų,muziejų, kitų paveldo institucijų išteklius,mokomųjų išteklių portalai www.emokykla.lt, www.

emokymas.lt ir pan. Planuojama sukurti portalą, ku-riame būtų dedami atvirai prieinami kalbos ištekliaiir technologijos, sukurti pagal prasidedančią programą„Lietuvių kalba informacinėje visuomenėje“.Kitame skyriuje pristatomos KT ir pagrindinės jų tai-kymo sritys bei lietuvių kalbai pritaikytų KT įvertini-mas.

17

Page 25: Lietuvių kalba skaitmeniniame amžiuje

4

LIETUVIŲ KALBAI PRITAIKYTOSKALBOS TECHNOLOGIJOS

KT– tai programinės įrangos sistemos, skirtos apdorotižmonių kalbą, kuri gali būti šnekamoji ir rašomoji. Norsžmogaus evoliucijos požiūriu šnekamoji kalba yra se-niausia kalbinio bendravimo forma, sudėtinga informa-cija ir didžioji dalis žmonėms žinomų faktų yra saugomabei perduodama rašytiniais tekstais. Šnekamajai kalbaiir tekstams skirtos technologijos apdoroja arba atkuriakalbos formas skirtingai, nors visos jos yra pagrįstos žo-dynais, gramatikos ir semantikos taisyklėmis. Taigi KTsujungia kalbą su įvairių formų žiniomis, neatsižvelgda-mos į raiškos priemones. Dešinėje pusėje pateiktamepaveiksle pavaizduota KT aplinka. Bendraudami su-jungiame kalbą su kitomis bendravimo terpėmis ir in-formacijos perdavimo priemonėmis, pavyzdžiui, kalbė-dami galime gestikuliuoti, keisti veido išraišką. Skait-meniniai tekstai susiję su vaizdais ir garsais. Filmuosegali būti naudojama šnekamoji ir rašomoji kalba. Kitaiptariant, šnekos ir teksto technologijos jungiasi ir sąvei-kauja su kitomis technologijomis, lengvinančiomis įvai-riarūšio bendravimo ir daugialypės terpės dokumentųapdorojimą (žr. 1 paveikslą).Toliau aptarsime pagrindines KT taikymo sritis, pavyz-džiui, kalbos taisyklingumo tikrinimą, paiešką inter-nete, šnekamosios KT ir automatinį vertimą, kurios ap-ima tokius technologijų pritaikymo būdus:

‚ rašybos ir gramatikos tikrinimą;

‚ pagalbą kuriant dokumentus;

‚ kalbų mokymąsi;

‚ informacijos paiešką;

‚ informacijos išgavimą;

‚ tekstų santraukų kūrimą;

‚ atsakymus į klausimus;

‚ šnekos atpažinimą;

‚ šnekos sintezę.

KT tyrimo sritis yra gerai įsitvirtinusi ir įvadinės litera-tūros galima rasti vis daugiau. Susidomėjusiems skaity-tojams siūlomos šios publikacijos: [17, 18, 19, 20, 21].Prieš aptardami išvardytas pritaikymo sritis, trumpai pa-kalbėkime apie tipinės KT sistemos architektūrą.

4.1 KALBOS TECHNOLOGIJŲTAIKYMO ARCHITEKTŪRAKalbos apdorojimo programinę įrangą paprastai sudarokeletas komponentų, atspindinčių skirtingus kalbos as-pektus. 2 paveiksle parodyta itin supaprastinta tipinėsteksto apdorojimo sistemos struktūra. Pirmieji trys mo-duliai apdoroja įvedamo teksto struktūrą ir nustato pra-dinius semantikos duomenis:

1. Pirminis duomenų apdorojimas (angl. pre-processing): duomenys „išvalomi“, išanalizuojamasarba pašalinamas formatavimas, nustatoma įvestieskalba ir pan.

2. Gramatinė analizė: atliekama žodžių morfologinėanalizė, nustatomos kalbos dalys ir pagrindinės žo-džių formos, surandamas veiksmažodis, jo papildi-

18

Page 26: Lietuvių kalba skaitmeniniame amžiuje

Daugialypės terpės ir įvairiarūšės technologijos

Kalbos technologijos

Šnekamosios kalbos technologijos

Teksto technologijos

Žinių technologijos

1: Kalbos technologijos

niai, aplinkybės ir kitos kalbos dalys, nustatoma sa-kinio struktūra.

3. Semantinė analizė: nustatoma žodžio reikšmė(t. y. išanalizuojama apytikslė žodžių reikšmė tiria-mame kontekste); išsprendžiamos anaforos (t. y. nu-statoma, kurie įvardžiai sakinyje atitinka kuriuosdaiktavardžius) ir posakių pakeitimo problemos; sa-kinio prasmė pateikiama kompiuteriui suvokiamubūdu.

Išanalizavus tekstą, specialioms užduotims sukurti mo-duliai gali atlikti ir kitokius veiksmus, pavyzdžiui, su-kurti teksto santrauką ar ieškoti informacijos duomenųbazėse.Pristatę pagrindines sritis, kuriose taikomos KT, trum-pai apžvelgsime dabartinę KT tyrimų ir švietimo būklę,jau įgyvendintas ir šiuo metu vykdomas mokslinių ty-

rimų programas. Po to pateiksime profesionalų atliktąpagrindinių KT įrankių ir išteklių įvertinimą įvairiaisaspektais – prieinamumo, išbaigtumo, kokybės ir pan.Bendroji lietuvių kalbos KT būklė pateikiama 8 lente-lėje.

4.2 PAGRINDINĖS TAIKYMOSRITYS

Šiame skyriuje daugiausia dėmesio skirsime svarbiau-siems KT įrankiams ir ištekliams, apžvelgsime KT pa-dėtį Lietuvoje. Įrankius ir išteklius, kurių pavadinimaitekste paryškinti, galima rasti ir šio skyriaus pabaigojepateiktoje 8 lentelėje.

Įvedamas tekstas

Pirminis duomenų apdorojimas

Gramatinė analizė

Semantinė analizė

Specializuoti moduliai

Išvestis

2: Tipinė teksto apdorojimo programos architektūra

19

Page 27: Lietuvių kalba skaitmeniniame amžiuje

Įvedamas tekstas Rašybos tikrinimas Gramatikos tikrinimas Taisymų siūlymai

Statistinis kalbos modelis

3: Kalbos taisyklingumo tikrinimas (viršuje – pagrįstas statistiniais metodais, apačioje – taisyklėmis)

4.2.1 Rašybos ir gramatikos tikrinimas

Kam yra tekę naudotis teksto rašymo programa, pavyz-džiui, Microso Word, žino, kad joje yra funkcija tik-rinti, ar nėra rašybos klaidų. Ji klaidas randa, parodo irsiūlo taisymo variantus. Pirmosios rašybos klaidų tai-symo programos palygindavo atrinktus žodžius su tai-syklingos rašybos žodynu. Šiandien tokios programosyra kur kas sudėtingesnės. Naudodamos su konkrečiakalba susietus teksto analizės algoritmus, jos aptinkamorfologines (pvz., daugiskaitos darybos klaidas) ir sin-taksines (pvz., praleistus veiksmažodžius arba nesude-rintus veiksnius ir tarinius, pvz., ji *rašyti laišką) klaidas.Tačiau dauguma rašybos klaidų taisymo programųnerasjokių klaidų tokiame tekste anglų kalba [22]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Tokiai analizei atlikti reikalinga arba ekspertų į progra-minę įrangą kruopščiai perkelta konkrečios kalbos gra-matika, arba statistinis kalbos modelis. Šiuo atveju mo-delis apskaičiuoja tam tikro žodžio vartojimo kitų žo-džių apsuptyje tikimybę. Statistinį kalbosmodelį galimasukurti automatiškai, panaudojant didelį skaičių taisyk-lingų kalbos duomenų (tekstyną). Šie du metodai dau-giausia buvo išplėtoti naudojant anglų kalbos duomenis.Taigi nė vienometodo negalima lengvai pritaikyti lietu-vių kalbai, kadangi lietuvių kalbos žodžių tvarka nėra

fiksuota, o kaitybos sistema yra kur kas sudėtingesnė(nuo 2002m. VDUmokslininkai nemažai dirbo su sta-tistiniu lietuvių kalbos modeliu, įrankius galima nemo-kamai atsisiųsti [23]).

Kalbos taisyklingumo tikrinimo programosnaudojamos ne tik rašant tekstus,

jas galima pritaikyti ir dokumentų kūrimopagalbinėse sistemose.

Kalbos taisyklingumo tikrinimo programos naudoja-mos ne tik rašant tekstus, jas galima pritaikyti ir doku-mentų kūrimo pagalbinėse sistemose (angl. authoringsupport systems), t. y. programinėje terpėje, kurioje lai-kantis ypatingų standartų kuriami sudėtingų informa-cinių technologijų sistemų, sveikatos priežiūros, inži-nerijos ir kitokių sričių vadovai bei kitokie dokumen-tai. Nuogąstaudamos, kad klientai pradės skųstis dėlto, jog produktas bus naudojamas ne taip, kaip reikia, odėl nesuprantamų instrukcijų bus pateikta reikalavimųkompensuoti žalą, bendrovės vis daugiau dėmesio skiriatechninės dokumentacijos kokybės gerinimui, tuo patmetu orientuodamosios į tarptautines rinkas (versda-mos tekstus arba juos pritaikydamos konkrečiai kalbai).Pažanga, pasiekta apdorojant natūralią kalbą, paskatinoplėtoti dokumentų kūrimo pagalbines sistemas. Šios sis-temos padeda techninių dokumentų autoriui naudotitos srities žodyną ir sakinių struktūras, atitinkančias sri-ties taisykles, verslo terminiją.

20

Page 28: Lietuvių kalba skaitmeniniame amžiuje

Šioje srityje ką pasiūlyti turi vos keletas Lietuvos bend-rovių. 1992–1994 m. UAB „Fotonija“ sukūrė rašybostikrinimo programą Juodos Avys, kuri buvo nuolat to-bulinama. Automatinio rašybos tikrinimo metu veikiaalgoritmas, padedantis išvengti savaiminio pavardės arpavadinimo pakeitimo į kitą. Atpažįstami neteiktini žo-džiai ir siūloma juos keisti į tinkamus. Teikiami pasiūly-mai dėl trūkstamų specifinių lietuviškų rašmenų, tokiųkaip š, ž, ū, ė taisymo. Į tikrintuvę integruotas lietuviškųskiemenų rašymo su brūkšneliu įrankis.

UAB „Tilde IT“ lietuvių kalbos rašybos tikrinimo prog-ramą sukūrė 2001 m. Ši bendrovė tobulina rašybos tik-rinimo programą ir kuria naują gramatikos tikrinimoprogramą, kuri analizuos sakinio struktūrą, atpažins pra-leistus arba nereikalingus kablelius ir kitokius skyrybosženklus, tikrins, ar nėra sintaksės ir leksikos klaidų. Gra-matikos tikrintuvė veiks ne tik su platforma MicrosoOffice, bet ir su platforma Open Office ar internetinėmisprogramomis. Ji bus nesunkiai suderinama su kitomisprogramomis, kuriose naudojamos su kalba susijusiosfunkcijos (pvz., įmonės išteklių tvarkymoprogramomis,verslo sprendimais ir pan.). Naudotojai turės galimybęišbandyti naująją gramatikos klaidų taisymo programą2012 metais.

Kalbos tikrinimo funkcija svarbi ne tik rašybos tikri-nimo ir dokumentų kūrimo programose – ji reikalingair skaitmeninėje terpėje mokantis kalbų. Be to, kal-bos tikrinimo įrankiai automatiškai taiso į paieškos siste-mas įvedamas užklausas, teikia teisingų užklausų pasiū-lymus – čia kaip pavyzdį galime paminėti sistemos Go-ogle įrankį Galbūt jūs norėjote ieškoti... (angl. Did youmean…).

4.2.2 Paieška internete

Paieška internete, vidaus tinkluose ar skaitmeninėse bi-bliotekose šiandien turbūt yra plačiausia, tačiaumažiau-siai išplėtota KT pritaikymo sritis. Paieškos sistema Go-ogle, kuri buvo pristatyta 1998 metais, šiuo metu apdo-

roja apie 80 proc. visų užklausų [24]. Sistemos Googlepaieškos sąsaja ir langas, kuriame pateikiami rezultatai,ne itinpasikeitė palyginti supirmąja sistemos versija. Ta-čiau dabartinėGoogle versija turi rašybos klaidų taisymoir esminių semantinės paieškos funkcijų, analizuojančiųužklausos terminų kontekstinę reikšmę ir galinčių pa-didinti paieškos tikslumą [25]. Sistemos Google sėkmėrodo, kad gausybė sukauptų duomenų ir veiksmingi ro-dyklių sudarymo įrankiai gali padėti pasiekti neblogų re-zultatų taikant statistinį metodą.

Norint apdoroti įmantresnes informacijos užklausas,būtinos nuodugnesnės lingvistinės tekstų interpreta-vimo žinios. Eksperimentai su leksikos ištekliais, pa-vyzdžiui, kompiuteriui suprantamais tezaurais ar onto-loginiais kalbų ištekliais (pvz., WordNet anglų kalba arGermaNet vokiečių kalba), parodė, kad vartojant pirmi-nių terminų sinonimus, tokius kaipAtomkra [atominėenergija], Kernenergie [atominė galia] ir Nuklearenergie[branduolinė energija], ar net ne taip glaudžiai tarpusa-vyje susijusius terminus, randama vis daugiau interneti-nių puslapių.

Naujosios kartos paieškos sistemos turės būti grindžia-mos kur kas pažangesnėmis KT, ypač turint galvoje už-klausas, kurias sudaro klausimas ar kitoks sakinys, o nekeli esminiai žodžiai. Apdorodama užklausą „Pateikiteman sąrašą bendrovių, kurias per pastaruosius penke-rius metus įsigijo kitos bendrovės“, KT sistema turi iša-nalizuoti sakinį sintaksės ir semantikos požiūriu bei pa-teikti rodyklę, kuri leistų operatyviai rasti reikiamus do-kumentus. Norint pateikti patenkinamą atsakymą, pri-reiks išnagrinėti sakinio sintaksę nustatant, kad naudo-tojas prašo pateikti sąrašą bendrovių, kurios buvo įsigy-tos, o ne kurios įsigijo kitų bendrovių. Apdorodama po-sakį pastaruosius penkerius metus, sistema turi nustatytireikiamusmetus. Be to, užklausą reikia palyginti su gau-sybenesusistemintųduomenų, ieškantnaudotojo pagei-daujamos informacijos. Šis procesas vadinamas infor-macijos paieška, jį sudaro tam tikrų dokumentų paieška

21

Page 29: Lietuvių kalba skaitmeniniame amžiuje

Užklausa

Tinklalapiai

Pirminis duomenų apdorojimas Užklausos analizė

Pirminis duomenų apdorojimas Semantinis apdorojimas Indeksavimas

Atitiktis ir

suderinimas

Paieškos rezultatas

4: Paieškos internete architektūra

ir vertinimas. Rengdama bendrovių sąrašą sistema darturi atpažinti ir konkrečią žodžių seką dokumente, pa-vyzdžiui, bendrovės pavadinimą – toks procesas vadina-mas įvardytų subjektų atpažinimu.

Naujosios kartos paieškos sistemos turės būtigrindžiamos kur kas pažangesnėmis kalbos

technologijomis.

Dar sunkesnis darbas – derinti užklausą, pateiktą vienakalba, ir dokumentus, skelbiamus kita kalba. Informaci-jos skirtingomis kalbomis paieška reiškia, kad reikės au-tomatiškai išversti užklausą į visas įmanomas informaci-jos šaltinių kalbas, o po to rezultatus vėl išversti į užklau-sos kalbą.

Dabar duomenys vis dažniau pateikiami ne tekstiniaisformatais, tad didėja daugialypėje terpėje – paveikslė-liuose, garso ir vaizdo bylose – esančios informacijos pa-ieškos poreikis. Garso ir vaizdo bylų informaciją kalbosatpažinimo modulis turi paversti tekstu (arba fonetine

transkripcija), kuris galės būti palygintas su naudotojoužklausa.

Lietuvių kalbos pritaikymui šios technologijos tik pra-dedamos intensyviau plėtoti. Su šia sritimi susijusius ty-rimus ir projektus vykdo Vytauto Didžiojo universite-tas (projektą „Informacijos valdymo semantinė sistema“pagal Ekonomikos augimo veiksmųprogramą remia Eu-ropos Sąjungos struktūriniai fondai), Vilniaus univer-siteto Matematikos ir informatikos institutas, Kaunotechnologijos universitetas. Semantinių tinklų, ontolo-gijų kūrimo, žinių ir dokumentų tvarkymo srityje pra-deda dirbti kai kurios KT srityje dirbančios verslo kom-panijos, pavyzdžiui, UAB „Sintagma“, sukūrusi doku-mentų tvarkymo sistemą Avilys. UAB „Tilde IT“ nuo2008 metų plėtoja semantinių sistemų srities projektusir šiuo metu įgyvendina lingvistinio semantinio tinklokūrimo projektą SemTi, taip pat dalyvauja tarptauti-niame SOLIM projekte (angl. Spatial Ontology Lan-guage for Multimedia Information Modeling). Atskirųsričių, pavyzdžiui, bibliotekų, mokslo, ontologijos pra-dedamos intensyviau diegti tik pastaruoju metu.

22

Page 30: Lietuvių kalba skaitmeniniame amžiuje

Kol kas šioje srityje pastangos fragmentiškos ir dides-nio proveržio tikimasi iš Lietuvos RespublikosVyriausy-bės inicijuotos „Lietuvių kalbos informacinėje visuome-nėje“ 2009–2013 metų programos, pagal kurią numa-toma sukurti priemones, pritaikytas teikti sintaksinės-semantinės analizės paslaugą, analizuoti lietuviškų inter-neto svetainių turinį, atlikti pagal jį paiešką ir pan.

4.2.3 Šnekamosios kalbos technologijos

Šnekamosios KT taikomos norint sukurti sąsajas, lei-siančias naudotojams bendrauti su kompiuteriu balsu, one naudojantis grafiniu ekranu, klaviatūra ir pele. Šian-dien naudotojo balso sąsajos (angl. oice user interfaces,VUI) paprastai naudojamos teikiant iš dalies arba visiš-kai automatizuotas telefono paslaugas klientams, dar-buotojams ar partneriams. Naudotojo balso sąsajos yraitin aktualios bankininkystėje, tiekimo sistemose, vieša-jame transporte ir telekomunikacijose. Kitos sritys, ku-riose taikomos šnekamosios KT, yra automobilių navi-gacijos sistemų sąsajos ir šnekamosios kalbos sąsaja vie-toje išmaniųjų telefonų grafinių arba liečiamųjų ekranųsąsajų.

Šnekamosios kalbos technologijos taikomosnorint sukurti sąsajas, leisiančias naudotojams

bendrauti su kompiuteriu balsu, o ne naudojantisekranu, klaviatūra ir pele.

Šnekamajai kalbai skirtos keturios technologijos:

1. Automatinis kalbos atpažinimas (angl. automaticspeech recognition, ASR) nustato, kokius žodžius su-daro naudotojo ištarta garsų seka.

2. Natūralios kalbos suvokimo technologija analizuojanaudotojo ištartos frazės morfologinę ir sintaksinęstruktūrą ir ją interpretuoja pagal atitinkamos siste-mos taisykles.

3. Dialogo valdymo technologija nustato, kokiųveiksmų imtis atsižvelgiant į naudotojo įvestus duo-menis ir sistemos funkcijas.

4. Kalbos sintezė (rašytinio teksto pavertimas šneka-mąja kalba, angl. text-to-speech, TTS) sistemos atsa-kymą naudotojui transformuoja į garsą.

Vienas iš didžiausių keblumų, su kuriais susiduria au-tomatinio kalbos atpažinimo sistemos, yra tikslus nau-dotojo ištartų žodžių atpažinimas. Reikia apriboti ga-limų naudotojo pasakymų skaičių iki tam tikro esminiųžodžių sąrašo arba rankiniu būdu sukurti kalbos mode-lius, apimančius daugybę natūralios kalbos pasakymų.„Mokant“ kompiuterines programas, kalbos modeliusgalima kurti ir automatiškai, pasitelkiant šnekamosioskalbos garsynus – gausias kalbos garsinių bylų ir tekstųtranskripcijų rinkinius. Apribojus ištariamų pasakymųskaičių, žmonės verčiami naudotis balso sąsajomis itintiksliai ir dėl tos priežasties tokios sistemos gali tapti ne-patogios naudotojams. Kita vertus, sukurti, priderinti irprižiūrėti turiningus bei išsamius kalbųmodelius galimatik labai padidinus išlaidas. Kalbų modeliais pagrįstosir naudotojui galimybę lanksčiau išreikšti pageidavimussuteikiančios (vartojant posakį Kuo galiu jums padėti?)naudotojo balso sąsajos dažniausiai būna automatinės irgerokai priimtinesnės.Bendrovės, kurdamos naudotojo balso sąsajų išvestis,linkusios naudoti profesionalių diktorių iš anksto įra-šytas frazes. Statinių pasakymų atveju, kai žodžiai ne-priklauso nuo konkretaus konteksto ar naudotojo asme-ninių duomenų, tokia sistema gali pasirodyti itin pa-traukli. Tačiau dinamiškesnis turinys gali nukentėti dėlnenatūralios intonacijos, kadangi atskiri garsinių bylųsegmentai būna tiesiog susieti vienas su kitu. Dabarti-nės kalbos sintezės sistemos vis tobulėja (nors jas vis darreikia gerinti), jos sugeba atkurti natūraliai skambančiądinamišką kalbą.Per pastarąjį dešimtmetį buvo gerokai standartizuotirinkoje turimų šnekamosios KT sąsajų įvairūs techno-

23

Page 31: Lietuvių kalba skaitmeniniame amžiuje

Signalo įvedimas Signalo apdorojimas

Išvestis Kalbos sintezė Fonetinė paieška ir intonacijos planavimas

Natūralios kalbos suvokimas ir

dialogas

Atpažinimas

5: Nesudėtingo balsinio dialogo architektūra

loginiai komponentai. Be to, kalbos atpažinimo bei kal-bos sintezės rinkos ir toliau intensyviai konsolidavosi.Dvidešimties didžiųjų šalių G20 (ekonomiškai stabi-lių šalių, pasižyminčių dideliu gyventojų skaičiumi) rin-kose vyravo vos penki pasauliniai dalyviai, iš kurių Eu-ropoje aktyviausios buvo bendrovės „Nuance“ ( JAV) ir„Loquendo“ (Italija). 2011 metais bendrovė „Nuance“paskelbė įsigijusi bendrovę „Loquendo“ – tai yra dar vie-nas rinkos konsolidacijos žingsnis.

Lietuvoje šnekamosios KT moksliniai tyrimai nuo1980 metų atliekami Kauno technologijos universitete(KTU). Jau daugelį metų šie darbai dirbami Vilniausuniversiteto Matematikos ir informatikos institute, taippat tyrimai atliekami Vytauto Didžiojo universitete.

Kauno technologijos universitetoKalbos tyrimų labora-torijoje automatinio kalbos atpažinimo tyrimai tęsiaminuo 1980 m. Laboratorija yra sukūrusi komandų irskaitmeninių sekų garsyną. Kuriami lietuviški kompiu-teriniai dialogai, sukauptas ir tobulinamas lietuvių šne-kamosios kalbos garsynas LTDIGITS. Jį sudaro ištisinėsskaičių sekos ir lietuviški žodžiai kompiuteriui valdyti.Lietuvių kalbos ženklų tyrimai atliekami irVilniaus uni-versiteto Matematikos ir informatikos institute, sukau-pusiame Lietuvos radijo žinių garsyną LRNO. VytautoDidžiojo universitete sukauptas universalus šnekamo-sios lietuvių kalbos garsynas (čia kaupiama ir mažes-nės apimties specialiųjų tekstynų, skirtų kalbomsmoky-tis, pavyzdžiui, jaunuolių sakytinės kalbos tekstynas SA-

CODEYL ir pan.). Vyksta ir šnekamosios lietuvių kal-bos automatinio skaidymo tyrimai, kuriama šnekamo-sios lietuvių kalbos automatinė transkripcija.

Nors tyrimai ir toliau vyksta siekiant gerinti kokybę,automatinio kalbos atpažinimo programinė įranga šiuometu sėkmingai taikoma teisėsaugoje, telefonijoje, švie-time, transporte, internete ir kitur.

Vilniaus universitete atlikti šnekamosios kalbos sinte-zės ir tokių sistemų pritaikymo akliesiems ir silpnare-giams tyrimai. Lietuviškos balso sintezės programosAistis svarbiausi komponentai yra šie: a) automatinis lie-tuviškų žodžių skaidymas skiemenimis; b) žodžių lietu-vių kalba parašytame tekste automatinis kirčiavimas; c)automatinis lietuviškų tekstų transkribavimas; d) fone-tinių vienetų bazė; e) lietuviškų tekstų pavertimo šne-kamąja kalba kokybės įvertinimas. Šia programa lengvanaudotis, ji skirta specialiųjų poreikių, pavyzdžiui, fizinęnegalią turintiems naudotojams ar senyvo amžiaus žmo-nėms. Balso sintezatoriųMBROLAgalima lengvai rastiinternete, jis yra pagrįstas Vilniaus universitete AleksoGirdenio ir PijausKasparaičio sukurta fonetinių vienetųbaze.

Programos Aistis komponentai buvo pritaikyti kuriantlietuvių kalbos sintezatorių WinTalker Voice, kuriamebuvo įdiegti du balsai: Gintaras ir Aistis2. Šią prog-ramą Lietuvos aklųjų ir silpnaregių draugijos užsakymuišleido čekų bendrovė „Rosaso“. Derėtų paminėti, kadLietuvoje yra apie 7 tūkst. žmonių, turinčių specialiųjų

24

Page 32: Lietuvių kalba skaitmeniniame amžiuje

poreikių, o 2010 m. kovo 1 d. duomenimis, visoje Lie-tuvoje kompiuteriu naudojosi 258 aklieji ir silpnaregiai.Dar vieną nemokamą balso sintezatorių sukūrė UAB„Etalinkas“. Šis sintezatorius yra pritaikytas dirbti suoperacinėmis sistemomis Windows ir Linux.Vytauto Didžiojo universitete šnekos atpažinimui teks-tyno pagrindu sukurti statistiniai lietuvių kalbos mode-liai, ištisinės šnekos atpažintuvo prototipas, apimantisdaugiau nei 1 mln. žodžių formų, automatinio kirčia-vimo programa su homografų vienareikšminimu, priei-nama internete, bei lietuvių kalbos garsų trukmių mo-deliai.

Vis labiau populiarėjantys išmanieji telefonai, kaipnauja bendravimo sunaudotojais priemonė greta fiksuo-tųjų telefonų, interneto ir elektroninio pašto, ateityjelems didžiulius pokyčius. Tai turės įtakos ir šnekamo-sios KT taikymui. Ilgainiui telefoninės naudotojo balsosąsajos sustiprės, o šnekamoji kalba taps naudotojamsdar svarbesne ir patogesne priemone duomenims į išma-niuosius telefonus įvesti. Šiuos pokyčius skatins vis tiks-lesnis nuo kalbėtojo nepriklausantis kalbos atpažinimas,panaudojant šnekos diktavimo paslaugas. Tokios cent-ralizuotos paslaugos jau dabar yra siūlomos išmaniųjųtelefonų naudotojams.

4.2.4 Automatinis vertimas

Sumanymas pritaikyti kompiuterius versti iš vienos kal-bos į kitą kilo 1946m., o šeštajame ir vėliau devintajamepraėjusio amžiaus dešimtmetyje šiems tyrimams buvoskirta nemažai lėšų. Tačiau ir šiuo metu automatinisvertimas vis dar negali tenkinti visuotinio vertimo po-reikių.

Paprasčiausias automatinio vertimo būdas – automatiš-kai pakeisti vienos kalbos žodžius kitos kalbos žodžiais.Šis būdas gali būti naudingas tose srityse, kurių kalbayra labai standartizuota ir šabloniška, pavyzdžiui, ren-giant orų prognozes. Tačiau norint gauti kokybišką netokių standartinių tekstų vertimą, didesni teksto viene-

tai (frazės, sakiniai ar net visos pastraipos) turi būti su-gretinti su jų artimiausiais atitikmenimis ta kalba, į ku-rią verčiama. Sunkiausia įveikti žmonių kalbos polise-miją, kuris kelia problemų skirtingiems kalbos lygme-nims, pavyzdžiui, nustatant daugiareikšmių žodžių lek-sinę reikšmę (jaguaras gali būti ir automobilio markė,ir gyvūnas) arba linksnį ar reikiamą formą sintaksinėsekonstrukcijose, pavyzdžiui:

‚ I was happy to read a book.

‚ Aš buvau laimingas:

1. perskaitęs knygą.

2. skaitydamas knygą.

3. galėdamas perskaityti knygą.

Vienas iš būdų sukurti automatinio vertimo sistemą –pasinaudoti kalbos taisyklėmis. Verčiant iš vienos kalbosį jai giminingą kalbą, kaip jau minėta, galima būtų tie-siog pakeisti žodžius, tačiau taisyklėmis pagrįstos (arbaį lingvistines žinias orientuotos) sistemos dažniausiaianalizuoja įvedamą tekstą ir sukuria jo tarpinį simbolinįpavidalą, pagal kurį gali būti sukurtas išverstasis tekstas.Tokių metodų sėkmė itin priklauso nuo galimybės tu-rėti išsamius žodynus, kuriuose pateikiamamorfologinė,sintaksinė ir semantinė informacija, bei gausius grama-tikos taisyklių rinkinius, parengtus profesionalių kalbi-ninkų. Tai labai ilgas ir, žinoma, labai daug kainuojantisdarbas.

Paprasčiausios automatinio vertimo programostiesiog pakeičia vienos kalbos žodžius kitos

kalbos žodžiais.

Praėjusio amžiaus devintojo dešimtmečio pabaigoje,pradėjus kurti galingesnius kompiuterius ir jiems atpi-gus, imta labiau domėtis automatinio vertimo statisti-niais modeliais. Statistiniai modeliai išplėtoti analizuo-jant dvikalbius tekstynus, pavyzdžiui, lygiagretųjį teks-tynąEuroparl, kuriame pateikiamaEuropos Parlamento

25

Page 33: Lietuvių kalba skaitmeniniame amžiuje

Statistinis automatinis

vertimas

Verčiamas tekstas

Išverstas tekstas

Teksto analizė (formatavimas, morfologinė, sintaksinė analizė ir pan.)

Teksto generavimas

Vertimo taisyklės

6: Automatinis vertimas (kairėje – pagrįstas statistiniais metodais, dešinėje – taisyklėmis)

posėdžių medžiaga vienuolika Europos kalbų. Turėda-mos pakankamai duomenų, statistinės automatinio ver-timo sistemos apdoroja lygiagrečias tekstų skirtingomiskalbomis versijas ir randa galimus žodžių modelius –dėl to jos tinka apytiksliams vertimams iš vienos kal-bos į kitą. Tačiau, kitaip nei taisyklėmis pagrįstos sis-temos, statistinės (arba duomenimis pagrįstos) automa-tinio vertimo sistemos dažnai pateikia gramatiškai ne-taisyklingų tekstų. Duomenimis pagrįstos automatiniovertimo sistemos yra pranašesnės, kadangi reikia mažiaužmogaus indėlio ir pastangų, be to, tokios sistemos galiatsižvelgti į tam tikras kalbos ypatybes (pvz., idiomas),kurių kalbos žiniomis pagrįstos sistemos gali ir nepaste-bėti.

Automatinis vertimas iš lietuvių kalbos – itindidelis iššūkis.

Ir taisyklėmis, ir duomenimis pagrįstų automatinio ver-timo sistemų pranašumai ir trūkumai paprastai kom-pensuoja vieni kitus, todėl šiuo metu tyrėjai daugiausiadėmesio skiria hibridiniams metodams, susiejantiemsšias dvi technologijas. Vienas toksmetodas yra pagrįstasir į taisykles, ir į duomenis orientuotomis sistemomis, beto, turi modulį, sugebantį pasirinkti, kuris būdas geriau-siai tinka konkrečiam sakiniui išversti. Tačiau sakinių,ilgesnių nei, tarkim, 12 žodžių, vertimo rezultatai tik-rai nebus tobuli. Tokiu atveju geriausiai pasirinkti pagal

prasmę tinkamiausias kiekvieno vertimo varianto dalis.Šis procesas gali būti gana sudėtingas, kadangi alternaty-vių variantų sutampančios dalys ne visuomet yra aiškios,jas reikia papildomai sugretinti.

Automatinis vertimas iš lietuvių kalbos – itin didelis iš-šūkis. Laisva žodžių tvarka ir veiksmažodinės konstruk-cijos sunkina analizę, o dėl linksniuočių įvairovės sunkuparinkti reikiamos giminės ir linksnio žodžius.

Mažiau vartojamų kalbų, tokių kaip baltų kalbos, au-tomatinio vertimo tyrimų įrankiai, kaip ir apskritai pa-čios KT, nėra labai gerai išplėtoti. Lietuvoje atlikta ke-letas su automatiniu vertimu susijusių darbų. Internetešiuo metu galima rasti tris vertimo įrankius: projektąWIFTA [26], sistemą Google translator ir Vertimo vedlį[27]. Pirmoji sistema buvo sukurta 2008 metais draugesu Rusijos bendrove „ProMT“, jos pagrindu tapo taisyk-lėmis pagrįsta technologija. Ši sistema verčia atsižvelg-dama į tekstomorfologines, sintaksines ir semantines sa-vybes. Projektas sėkmingai baigtas ir nuo 2008 m. pri-einamas internetu: http://vertimas.vdu.lt. Į ją kreipia-masi 127mln. kartų permetus ir ja naudojasimaždaug 1mln. unikalių vartotojų per metus. Registruotiems var-totojams suteikta galimybė naudotis kompiuterinių ter-minų ir verslo žodynais.

Atvirai internetu prieinamas Vytauto Didžiojo univer-sitete sukauptas dabartinės rašomosios lietuvių kalbostekstynas, turintis apie 140 mln. žodžių [28]. Be to, su-daromas lygiagretusis lietuvių kalbos ir kitų (anglų, vo-

26

Page 34: Lietuvių kalba skaitmeniniame amžiuje

kiečių, čekų) kalbų tekstynas, rengiama ir daugiau spe-cialioms sritims skirtų tekstynų (pavyzdžiui, Vilniausuniversitete sukauptas lietuvių mokslo kalbos teksty-nas CorALit [29]). Deja, dabartinio lietuvių kalbostekstyno modernioms lietuvių KT (informacijos paieš-kos, automatinio vertimo ir kitoms sistemoms) nebepa-kanka. Esamiesiems ir būsimiesiems tekstynams reikiabendros lietuvių kalbai pritaikytos programinės įrangos,kuri leistų kuo geriau išnaudoti turimus kalbos ištek-lius ir iš jų gaunamus skaitmeninius aprašus. Viena išprivalomų sąlygų klasikinėms automatinio vertimo sis-temoms yra galimybė naudotis didžiuliu lygiagrečiuojutekstynu, iš kurio kompiuteris gali mokytis. Didelių ly-giagrečiųjų tekstynų trūkumas yra pagrindinė priežastis,dėl kurios Baltijos šalys tik dabar pradeda eksperimen-tuoti su automatinio vertimo sistemomis.

Sistemos Google automatinio vertimo programinėįranga yra pagrįsta statistiniu metodu, o jos galimybėsapima apie 30 kalbų, taip pat ir lietuvių.

Vertimo vedlys – tai eksperimentinis automatinio ver-timo įrankis, kurį sukūrėLietuvių kalbos institutas kartusu UAB „Tilde IT“. Bandomoji versija verčia iš lietuviųkalbos į anglų kalbą. Automatizuota vertimo priemonėanalizuoja sakinių struktūrą ir automatiškai siūlo saki-nio, jo dalies ar atskirų žodžių vertimą. Ji yra pagrįstastatistine vertimo technologija ir sistemomis Giza++ irMoses. Bendrovė „Tilde IT“ kuria lietuvių–anglų kalbųautomatinio vertimo sistemą, integruodama statistiniusir taisyklėmis pagrįstus automatinio vertimo metodus,diegdama novatoriškas iš keleto žodžių sudarytų fraziųapdorojimo funkcijas. Vertimo tikslumas – 30 proc., osistema yra nuolat tobulinama. Bendrovės „Tilde IT“automatinio vertimo sistema naudojama ne tik tekstamsversti, bet ir ieškoti informacijos skirtingų kalbų šalti-niuose.

Tikimasi, kad automatinio vertimo sistemų kokybę dargalima labai pagerinti. Paprastai šioje srityje susidu-riama su tokiomis problemomis, kaip galimybės pritai-

kyti kalbos išteklius tam tikrai sričiai ar naudotojo porei-kiams, sukurti jų darbinę sąveiką su terminijos bazėmisir vertimų atmintimi. Be to, dauguma šiuo metu egzis-tuojančių sistemų yra pritaikytos anglų kalbai, galimy-bės versti iš lietuvių kalbos į kitokias kalbas ir iš kitokiųkalbų į lietuvių kalbą yra ribotos, dėl to stringa bend-ras vertimų srautas, taip pat naudotojai privalo mokytisskirtingose sistemose taikomų skirtingų priemonių žo-dynams koduoti.Vertinimas padeda palyginti automatinio vertimo sis-temų kokybę, skirtingus metodus ir šių sistemų būklęskirtingose kalbų porose. Pateiktoje 7 lentelėje, kurisudaryta Europos Komisijos projekto „Euromatrix+“metu, parodyti dvidešimt dviejų iš dvidešimt trijų ofi-cialiųjų Europos Sąjungos kalbų (airių kalba į lyginimąnebuvo įtraukta) lyginimo rezultatai. Rezultatai išdės-tyti eilės tvarka, remiantis įvertinimo skale BLEU, pagalkurią už geresnį vertimą skiriamas aukštesnis balas [30].Vertėjas žmogus gautų apie 80 balų įvertinimą.Geriausi rezultatai (pažymėti žalia ir mėlyna spalva)buvo pasiekti verčiant kalbas, kurios yra išsamiai ištirtospagal koordinuotas programas ir turinčios daugybę ly-giagrečiųjų tekstynų (pvz., anglų, prancūzų, olandų, is-panų ir vokiečiųkalbos). Kalbos, kurių įvertinimo rezul-tatai prastesni, pažymėtos raudona spalva. Šios kalbosarba nepakankamai ištirtos, arba jų struktūra smarkiaiskiriasi nuo kitų kalbų (pvz., vengrų, maltiečių ir suo-mių kalbos).

4.3 KITOS TAIKYMO SRITYSKT taikomųjų programų kūrimas yra susijęs su aibe pa-pildomų užduočių, kurios ne visuomet matomos siste-mos naudotojui, tačiau suteikia sistemai daugiau funk-cionalumo. Visos šios užduotys yra svarbūs moksliniųtyrimų objektai, pastaruoju metu tapę kompiuterinėslingvistikos atšakomis.Pavyzdžiui, atsakymai į klausimus šiuo metu yra aktyvimokslinių tyrimų sritis, kuriai parengta anotuotų teks-

27

Page 35: Lietuvių kalba skaitmeniniame amžiuje

Kalba, į kurią verčiama – Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

7: 22 Europos Sąjungos kalbų automatinio vertimo rezultatai – Machine translation for 22 EU-languages [31]

tynų ir paskelbtamokslinių konkursų. Atsakymų į klau-simus sąvoka apima daugiau nei vien paiešką pagal esmi-nius žodžius (kurios metu paieškos sistema pateikia ga-limai tinkamų dokumentų rinkinį), ji suteikia naudoto-jams galimybę užduoti konkretų klausimą, į kurį sistemapateikia vienintelį atsakymą. Pavyzdžiui:

Klausimas: Kiekmetų turėjoNeilasArmstrongas, kaijis išsilaipino Mėnulyje?

Atsakymas: 38.

Akivaizdu, kad atsakymai į klausimus yra susiję su in-ternetine paieška, tačiau šiuo metu šis terminas apima irmokslinių tyrimų problemas – kokie gali būti skirtingiklausimų tipai ir būdai į juos atsakyti; kaip turi būti ana-lizuojami ir palyginami dokumentai, kuriuose gali sly-pėti atsakymas (ar tokiuose dokumentuose pateikiamiprieštaringi atsakymai); kaip galima konkrečią informa-ciją (atsakymo) patikimai išgauti iš dokumento, neigno-ruojant konteksto.

Kalbos technologijų taikomosios programos,įdiegtos didesnėse programinėse sistemose, gali

atlikti labai svarbias funkcijas.

Savo ruožtu tai yra susiję su informacijos išgavimu(angl. information extraction), sritimi, kuri buvo itinpopuliari ir daranti poveikį, kai praėjusio amžiaus de-šimtojo dešimtmečio pradžioje kompiuterinė lingvis-tika pasuko statistikos linkme. Informacijos išgavimotikslas – nustatyti tam tikruose dokumentuose glūdin-čią konkrečią informaciją, pavyzdžiui, nustatyti pagrin-dinius bendrovių įsigijimo proceso dalyvius, apie ku-riuos buvo rašoma laikraščių straipsniuose. Kita įprastatyrimų erdvė – teroristų išpuolių ataskaitos. Čia svar-biausia tekstą užpildyti pagal šabloną, kuriame nuro-domas kaltininkas, taikinys, išpuolio laikas, vieta ir re-zultatai. Konkrečioms sritims pritaikytų šablonų pil-dymas yra svarbiausias bruožas, dėl kurio informacijos

28

Page 36: Lietuvių kalba skaitmeniniame amžiuje

išgavimas priskiriamas „užkulisinėms“ technologijoms,formuojančioms dar vieną tiksliai apibrėžtą tyrimų sritį,kuri praktiškai turi būti įtvirtinta tinkamoje taikomo-joje terpėje.

Santraukų kūrimas ir tekstų generavimas – dvi tarpinėstechnologijos, kurios gali veikti ir savarankiškai, ir at-likti pagalbinę funkciją didesnėse sistemose. Santraukosglaustai pateikia ilgo teksto esmę, tai yra viena iš prog-ramos Microso Word funkcijų. Paprastai pagal šį me-todą statistiniu būdu nustatomi „svarbiausi“ teksto žo-džiai (t. y. žodžiai, kurie apdorojamame tekste pasitaikodažniausiai, nors šiaip kalboje jie gerokai retesni) ir sa-kiniai, kuriuose tokių „svarbių“ žodžių yra daugiausia.Tokie sakiniai paimami iš teksto ir sudedami, suformuo-jant santrauką. Itin paplitusiame komerciniame mode-lyje santraukos kūrimas yra tiesiog būdas sakiniams iš-rinkti, suskaidant tekstą į jo sakinių poaibį. Alternaty-vus, kol kas nedaug ištirtas metodas yra generuoti visiš-kai naujus sakinius, kurių pirminiame tekste nėra. Tuoatveju reikia gerai išanalizuoti ir suvokti tekstą, taigi kolkas šis metodas nėra labai patrauklus ir visuotinai tai-komas. Paprastai tekstų generatorius retai kada funk-cionuoja kaip savarankiška programa, jis būna įdiegtas įdidesnių sistemų terpę. Pavyzdžiui, teksto generatoriųgalima rasti klinikinės informacijos sistemose, kaupian-čiose, saugančiose ir apdorojančiose ligonių duomenis.Ataskaitų rengimas yra tik dar viena sritis, kurioje galibūti pritaikoma santraukų kūrimo technologija.

Lietuvių kalbai šios technologijos nėra pakankamai iš-plėtotos, palyginti su anglų kalba, ir kol kas yra tik eks-perimentinio lygmens: Vytauto Didžiojo universiteteatliekami pavieniai lietuviškų tekstų santraukų rengimo,švietimo ir mokslo terminų automatinio identifikavimotyrimai ir pan.

Lietuvių kalba įtraukta į tarptautinius projektus. Lat-vijos bendrovė SIA „Tilde“ įgyvendina FP5 pro-jektą CLARITY: „Pasiūlymas dėl informacijos pa-ieškos skirtingomis kalbomis ir tekstų bei garsinių

dokumentų organizavimo“. Informacijos paieškosskirtingomis kalbomis sistema CLARITY buvo su-kurta anglų–latvių, latvių–anglų, vokiečių–latvių, lat-vių–vokiečių, rusų–latvių, latvių–rusų, lietuvių–anglų,anglų–lietuvių, vokiečių–lietuvių, lietuvių–vokiečių,lietuvių–rusų ir rusų–vokiečių kalbų poroms. Kalbantapie baltų kalbas, dokumentų paieškos naudojant tie-sioginio užklausos vertimo funkciją rezultatai rodo, kadtikslumo vidurkis gali siekti daugiau nei 70 proc., paly-ginti su vienakalbės paieškos rezultatais.

4.4 ŠVIETIMO PROGRAMOSKT – tarpdalykinė sritis, jungianti kalbos mokslą, in-formatiką,matematiką, filosofiją, psicholingvistiką ir ki-tus susijusius mokslus. Kaip atskira disciplina ji kolkas nėra įtvirtinta Lietuvos aukštojo mokslo sistemoje.Keletas universitetų yra įsteigę atskirus kompiuterinėslingvistikos centrus (pvz., VytautoDidžiojouniversitetoKompiuterinės lingvistikos centras) arba laboratorijas(pvz., Kauno technologijos universiteto Kalbos tyrimųlaboratorija). Šiuo metu Kauno technologijos universi-teto Humanitarinių mokslų fakultete dėstoma vienin-telė kompiuterinės lingvistikos bakalauro studijų prog-rama. Ši programa buvo pradėta 2003 metais, o iki2010 metų ją baigė 73 studentai. Toks nedidelis absol-ventų skaičius negali patenkinti nuolat didėjančios kva-lifikuotų KT srities darbuotojų paklausos.Vilniaus universitete ir Vytauto Didžiojo universiteteartimos srities studijų programose dėstoma kompiute-rinės lingvistikos ir KT kursų. Nuo 2011 metų Vil-niaus universiteto Kauno humanitarinių mokslų fakul-tete pradėta audiovizualinių vertimų magistro studijųprograma. Vytauto Didžiojo universitete nuo 2006m. veikia skaitmeninės lingvistikos magistro studijųprograma. Kol kas nė vienas universitetas nesiūlo nuo-seklių visų lygmenų studijų, dėl toKT srityje dažniausiaidirbamokslininkai, baigę lingvistines ir (arba) informa-tikos studijas.

29

Page 37: Lietuvių kalba skaitmeniniame amžiuje

Mokslinė tyrimų bazė formuojama ir ištekliai kaupiamiMatematikos ir informatikos bei Lietuvių kalbos insti-tutuose (pastarajame 2010 m. įkurta Skaitmeninių kal-bos išteklių laboratorija).

4.5 NACIONALINIAI PROJEKTAIIR INICIATYVOSLietuvoje spartesnė informacinės visuomenės plėtra, su-sidomėjimas KT ir išteklių kaupimas prasidėjo vos prieškeletą dešimtmečių. Kadangi kalbančiųjų lietuvių kalbanėra daug, KT komercinė rinka nėra labai didelė, be to,Lietuvoje nėra tokių šiuolaikinių technologijos gigantųkaip BMW ar NOKIA, o KT srityje dirba vos keletasverslo įmonių.

Didžioji dalis iniciatyvų ir įsipareigojimų dėl lietuviųkalbos funkcionavimo informacinėje visuomenėje irKTkūrimo atsiranda nacionaliniu lygmeniu. 2000 me-tais pradėta įgyvendinti pirmoji nacionalinė programa„Lietuvių kalba informacinėje visuomenėje“, apimanti2000–2006 m. laikotarpį. Šią programą koordinavoValstybinė lietuvių kalbos komisija, ją įgyvendinantbuvo sprendžiamos lokalizavimo, išteklių kūrimo ir ki-tos problemos:

‚ Automatinio kalbos atpažinimo plėtra, įskaitant lie-tuvių kalbos ypatybių tyrimą, atskirų šnekamosioskalbos žodžių atpažinimo priemonės prototipo kū-rimą, Lietuvos radijo naujienų transliacijų garsynoLRNO tobulinimą, kompiuterinių dialogų lietuviųkalba tyrimus, kalbos sintezės kokybės gerinimą, lie-tuvių kalbos balso technologijų bandomųjų prog-ramų kūrimą, automatinį lietuvių šnekamosios kal-bos skaidymą ir lietuvių kalbos automatinės tran-skripcijos kūrimą.

‚ Lietuvių kalbos elementų standartizavimas informa-cinėse technologijose, įskaitant kompiuterinio šrioPalemonas sukūrimą, lokalizaciją ir pan.

‚ Reikalingų išteklių vertimas ir priemonių kūrimas,įskaitant specializuotų tekstų pažodinio vertimokompiuterinę sistemą, lietuvių ir čekų kalbų lygia-grečiojo tekstyno sudarymą ir atnaujinimą, morfo-loginės analizės ir generavimo įrankio sukūrimą.

‚ Pradėti lietuviškų tekstų sintaksinės ir semantinėsanalizės darbai.

Už programos „Lietuvių kalba informacinėje visuome-nėje“ antrąjį etapą (2009–2013 metų) atsakingas Infor-macinės visuomenės plėtros komitetas prie Susisiekimoministerijos. Programoje numatyta sukurti internetoportalą, kuriame bus galima nemokamai naudotis visaisturimais kalbos ištekliais ir technologijomis, plėtoti tu-rimus ir kurti naujus kalbos išteklius, gerinti automa-tinio kalbos atpažinimo ir kalbos sintezės technologi-jas, kurti naujus automatinio vertimo įrankius, gerinti irkurti semantinės analizės ir informacijos paieškos prie-mones.Skatinami šios srities moksliniai tyrimai bei išteklių kū-rimas. Lietuvos mokslo taryba pradėjo pirmąją nacio-nalinę programą „Valstybė ir tauta: paveldas ir tapa-tumas“, apimančią ir paveldo skaitmeninimą, lituanis-tinio paveldo ir tapatumo vieningos informacinės inf-rastruktūros koncepcijos parengimą (šioje programojeįgyvendintas projektas „Lituanistinių skaitmeninių iš-teklių metaduomenų sistemos sukūrimas ir suderinimassu CLARIN“). Lietuvos mokslo taryba taip pat finan-suoja „Nacionalinės lituanistikos plėtros“ 2009–2015metų programą, kurios paskirtis – plėtoti ir skatinti li-tuanistikos mokslinius tyrimus, padėti įgyvendinti litu-anistikos mokslinių tyrimų prioritetą, sustiprinti litu-anistikos mokslinių tyrimų rezultatų indėlį į valstybėshumanistikos plėtrą, suteiktimokslinį pagrindą tautinėssavimonės ugdymui ir lituanistinio paveldo apsaugai.Verslo įmonių, veikiančių KT srityje, nėra gausu. Ga-lima būtų paminėti šias įmones: „Tilde IT“ , „Fotonija“,„Microso Lietuva“, „CID Baltic“, „Synergium“, „Sin-tagma“, „TokenMill“, „HLTech“.

30

Page 38: Lietuvių kalba skaitmeniniame amžiuje

Neabejotinas lyderis KT srityje yra UAB „Tilde IT“,kuri Lietuvos rinkoje dirba jau 12 metų. Bendrovė daugdėmesio skiria programinės įrangos lokalizavimui, tech-ninių dokumentų vertimams, lietuvių kalbai pritaikytosprograminės įrangos kūrimui. „Tilde IT“ yra viena di-džiausių lokalizacijos paslaugų teikėjų Lietuvoje. Bend-rovė nuolatos bendradarbiauja su tarptautinėmis lokali-zacijos ir vertimų įmonėmis.

Šiuo metu „Tilde IT“ gerina automatinio vertimo ko-kybę, kuria ir tobulina rašybos bei gramatikos tikrinimosistemas. Kartu su Lietuvių kalbos institutu, Matema-tikos ir informatikos institutu bei Vilniaus universitetoFilologijos fakultetu bendrovė inicijuoja ir įgyvendinamokslinių tyrimų ir plėtros projektus, kurių tikslas – su-kurti programinės įrangos prototipų.

Semantinių sistemų projektus bendrovė „Tilde IT“ įgy-vendina nuo 2008 m. Kadangi „Tilde IT“ Europos rin-kai tiekia automatinio vertimo technologijas, naujosiostechnologijos bus naudojamos kartu sumetodika, skirtagerinti automatinio vertimo rezultatus. „Tilde IT“ sie-kia sukurti lietuvių kalbos žodžių sąsajų duomenų bazę– lingvistinę semantikos bazę. Lietuvių kalbos seman-tikos informacinis tinklas galėtų padėti rinkodaros pro-fesionalams prognozuoti visuomenės reakcijas į siūlo-mas produktų reklamos akcijas, pakuotes ar pavadini-mus. Tokį mąstymo modelį galima pritaikyti kuriantnaujus produktus ir generuojant naujas ar nestandarti-nes idėjas. Vienas žodis gali turėti daugiau nei 15 sino-nimų, nors paprastai žmonės žino vos 5 ar 6 iš jų. Išsa-mus semantikos tinklas padėtų išsaugoti lietuvių kalbossinonimų įvairovę.

„Tilde IT“ prisijungė prie programosEurostars projektoSOLIM (angl. Spatial Ontology Language for multi-media Information Modeling – „Daugialypės terpės in-formacijos modeliavimo erdvinės ontologijos kalba“).Projektas skirtas tobulinti informacijos analizę atsižvel-giant į kontekstą ir pasitelkus erdvės ir pokyčių sąvo-kas peržengti statiško pasaulio ribas. Šio projekto tiks-

las – internetinę ontologijos kalbą (angl. Web OntologyLanguage) pritaikyti veiksmingam erdvinės informaci-jos saugojimui ir aiškinimui bei pademonstruoti tokiopritaikymo naudą automatiškai apdorojant tekstinę irgrafinę informaciją.

Nuo 1991 metų UAB „Fotonija“ diegė lietuvių kalbąskaitmeninėje terpėje, kurdama ir tobulindama tvarkyk-les WinLika, Lika, projektuodama lietuvių kalbos šriąAistika, kurdama teksto tvarkymo programą Mainu-kai, dokumentų konvertavimo priemonę Korektorius,tekstų kūrimo, redagavimo ir korektūros programą Re-daktorius, rašybos klaidų taisymoprogramą JuodosAvys.Svarbi bendrovės „Fotonija“ darbo sritis – vienakalbiųir daugiakalbių žodynų sudarymas. Tai tarptautinių žo-džių žodynas Interleksis, anglų–lietuvių kalbų žodynasAnglonas ir jo atitikmuo prancūzų kalba Frankonas.Lokalizavimo, ontologijų kūrimo ir kitose KT srityseprojektus įgyvendina ir kitos verslo įmonės, pavyzdžiui,„Microso Lietuva”, „CID Baltic“, „Synergium“, „Sin-tagma“, „TokenMill“, „HLTech“ ir kt.

Įgyvendinus ankstesnes programas ir projektus buvo su-kurta ir išplėtota keletas svarbių lietuvių kalbai pritai-kytų priemonių ir išteklių. Kitame skyriuje apibendri-nama dabartinė lietuvių KT būklė.

4.6 TURIMI KALBOS IŠTEKLIAI IRĮRANKIAI8 lentelėje apibendrinama dabartinė KT pritaikymo lie-tuvių kalbai būklė. Turimų įrankių ir išteklių įvertinimobalai pagrįsti konkrečios srities ekspertų nuomone, ku-rie pateikė vertinimus pagal septynis parametrus nuo 0(labai žemas) iki 6 (labai aukštas).

Lietuvių kalbos būklės rezultatus apibendrintai galimapateikti taip:

‚ Moksliniai tyrimai leido sėkmingai sukurti gana ko-kybišką programinę įrangą bazinei teksto analizei,

31

Page 39: Lietuvių kalba skaitmeniniame amžiuje

Kieky

Priein

amum

as

Kok

ybė

Apr

ėptis

Išbaigt

umas

Tvar

umas

Prita

ikom

umas

Kalbos technologijos (įrankiai, technologijos ir pritaikymo sprendiniai)

Kalbos atpažinimas 2 0 2 1 1 0 2

Kalbos sintezė 3 2 2,5 2,5 1,5 1 2

Gramatinė analizė 2 1,5 2,5 2 1,5 1 2

Semantinė analizė 1,3 1 1,3 1 0 0 0,3

Teksto generavimas 0 0 0 0 0 0 0

Automatinis vertimas 2 3 2,5 2,5 2 2 2

Kalbos ištekliai (ištekliai, duomenys ir žinių bazės)

Tekstynai 1,5 1,5 2,5 2,5 2 2,5 2,5

Garsynai 2 1 2 2 1 1 2

Lygiagretieji tekstynai 2 2 1,5 1,5 2 2 4

Leksikos ištekliai 2,5 2 2,5 2 2 0,5 2,5

Gramatikos 0 0 0 0 0 0 0

8: Kalbos technologijų pritaikymo lietuvių kalbai būklė

pavyzdžiui, įrankius morfologinei ir sintaksinei ana-lizei. Tačiau pažangesnių technologijų, kurioms rei-kia nuodugnesnio lingvistinio apdorojimo ir seman-tinių žinių, kol kas tėra tik užuomazgos.

‚ Kuo daugiau lingvistinių ar semantinių žinių reikiasričiai plėtoti, tuo daugiau esama spragų (pvz., infor-macijos paieškos, teksto semantikos sritys ir pan.),daugiau dėmesio reikia skirti nuodugnesniam ling-vistiniam apdorojimui.

‚ Nors sukaupta neblogos kokybės specializuotų teks-tynų ar garsynų, jie nepakankamai parengti, kai ku-rie iš jų yra pasiekiami tik naudojantis specializuoto-mis, individualiomis prieigos priemonėmis, kai ku-riais naudotis galimybių iš viso nėra.

‚ Nemaža dalis išteklių ir įrankių nestandartizuoti, jųtvarumas nėra efektyviai užtikrinamas. Norint stan-

dartizuoti duomenis ir jų perdavimo formatus būti-nos koordinacinės programos ir iniciatyvos.

‚ Trūksta automatiniam vertimui skirtų lygiagrečiųjųtekstynų. Kol kas labiau išplėtotas vertimas iš lie-tuvių į anglų kalbą, kadangi šiai kalbų porai yra su-kaupta daugiausia duomenų.

‚ Labai trūksta daugialypės terpės duomenų.

Apibendrinant galima teigti, kad daugelyje lietuvių kal-bos tyrimų specifinių sričių šiandien turime tik ribotofunkcionalumo programinę įrangą. Sudėtingesni įran-kiai (angl. advanced tools), pavyzdžiui, sintaksiškai ano-tuoti tekstynai (angl. treebanks), leksinės semantinės ži-nių bazės ar sąvokų taksonomijos, tokios kaip Word-Net ir pan., lietuvių kalbai dar nesukurti arba tik ku-riami. Nors neseniai sukurti automatinio vertimo įran-kiai, pažangiausi ištekliai, vadinamieji bendrieji taiky-

32

Page 40: Lietuvių kalba skaitmeniniame amžiuje

mai (angl. general applications), tik dabar pradedamiplėtoti [32]. Akivaizdu, tolesni tyrimai turėtų užpildytiišsamesnės semantinės tekstų analizės spragą ir pasirū-pinti trūkstamų išteklių, tokių kaip lygiagretieji tekstaiautomatiniam vertimui, WordNet ir pan., kaupimu.

4.7 KALBŲ PALYGINIMASĮvairiose kalbos vartotojų bendruomenėse KT taikymolygmuo ir būklė yra skirtingi. Šiame skirsnyje Euro-pos kalbos bus lyginamos pagal šias taikymo kategori-jas: automatinį vertimą ir šnekamosios kalbos apdoro-jimą, teksto analizę, taip pat bus vertinami pamatiniaiištekliai, būtini KT plėtoti. Kalbos suskirstytos į pen-kias sankaupas:

1. Puikus palaikymas

2. Geras palaikymas

3. Vidutinis palaikymas

4. Fragmentiškas palaikymas

5. Menkas palaikymas arba jo visai nėra

KT palaikymo lygmuo nustatomas remiantis šiais krite-rijais:Šnekamosios kalbos apdorojimas: kalbos atpažinimotechnologijų kokybė, kalbos sintezės technologijų ko-kybė, sričių aprėptis, garsynų skaičius ir dydis, šneka-mąja kalba paremtų technologijų pritaikymo mastas irįvairovė.Automatinis vertimas: automatinio vertimo kokybė,kalbų porų kiekis, kalbos sričių ir reiškinių aprėptis (lin-guistic phenomena and domains), lygiagrečiųjų tekstynųdydis ir kokybė, automatinio vertimo pritaikymų kiekisir įvairovė.Teksto analizė: teksto analizės technologijų (morfolo-gijos, sintaksės, semantikos) kokybė ir aprėptis, lingvis-tinių reiškinių ir sričių aprėptis, pritaikymųkiekis ir įvai-rovė, anotuotų tekstynų kokybė ir dydis, leksinių ištek-lių (pvz., WordNet) ir gramatikų kokybė ir aprėptis.

Ištekliai: tekstynų, garsynų ir lygiagrečiųjų tekstynųko-kybė ir dydis, leksinių išteklių ir gramatikų kokybė ir ap-rėptis.9–12 lentelėse matyti, kad lietuvių kalba gerokai atsi-lieka nuoKT lyderių, pavyzdžiui, anglų kalbos, kuri pir-mauja bemaž visose sankaupose. Lietuvių kalba daž-niausiai atsiduria toje pačioje sankaupoje, kaip ir kitosmažiau vartotojų turinčios, taigi ne taip komerciškai pa-trauklios Europos kalbos, tokios kaip latvių, slovakų,slovėnų. Kita vertus, lietuvių kalbos ištekliai ir techno-logijos labai netolygiai išplėtoti, pavyzdžiui, sukauptosgana gausios ir išsamios terminų duomenų bazės, tačiaunėraWordNet, tezauro ir pan. Visai nėra KT pritaikytoslietuvių kalbos gramatikos. Tai trukdo sėkmingai kurtikalbos modelius.Itin silpnai išplėtoti semantikos tyrimai lėmė lėtesnę kal-bos generavimo, teksto interpretavimo ir teksto analizėspažangą. Tuo tarpu šnekamosios kalbos apdorojimo kaikurios technologijos veikia pakankamai gerai ir sėkmin-gai integruojamos versle. Sparčiau plėtojami šnekos sin-tezės tyrimai ir taikymas, o kalbos atpažinimas gerokaisudėtingesnis.Vis dėlto kuriant išmanesnes ir sudėtingesnes priemo-nes, tokias kaip automatinis vertimas, reikia ištekliųir technologijų, kurie apimtų daugiau lingvistinių as-pektų ir leistų semantiškai nuodugniau analizuoti įve-damą tekstą. Gerindami kai kurių bazinių išteklių ko-kybę ir aprėptį, turėtume gebėti atverti naujas galimybesįsiveržti į pažangesnių technologijų taikymo sritis, tarpjų ir itin geros kokybės automatinį vertimą.

4.8 IŠVADOSŠioje Baltųjų knygų serijoje pirmą kartą mėginome įver-tinti, kokiu lygiuKT yra pritaikomos 30Europos kalbų iratlikti lyginamąją analizę. Žinodamos spragas, poreikiusir trūkumus, Europos bendruomenė, plėtojanti KT, susi-jusios verslo įmonės dabar turi galimybių inicijuoti pla-tesniomastomokslinius tyrimus ir plėtros programas, kad

33

Page 41: Lietuvių kalba skaitmeniniame amžiuje

būtų sukurta iš tikrųjų daugiakalbė ir technologiškai pa-žangi Europa.Atskleidėme didžiulius skirtumus tarp Europos kalbų.Kai kurios kalbos turi gana geros kokybės programinęįrangą ir išteklius, tačiau kitoms (dažniausiai „mažes-nėms“ kalboms) to trūksta. Daugelis kalbų neturi svar-biausių teksto analizės technologijų ir būtiniausių iš-teklių toms technologijoms plėtoti. Kitos kalbos turipagrindinių įrankių ir išteklių, tačiau kol kas nepajėgtainvestuoti į semantinį teksto apdorojimą. Mums bū-tina sutelkti visas įmanomas pastangas, kad įgyvendin-tume itin ambicingą tikslą – sukurtume Europos kal-boms aukštos kokybės automatinį vertimą.KT būklė Lietuvoje teikia pagrindo nuosaikiam op-timizmui. Lietuvos Respublikos Vyriausybė pabrėžiasiekį užtikrinti KT plėtrą – tai rodo įvairių vyriau-sybinių institucijų ir Europos Sąjungos struktūriniųfondų finansuojamos programos, pagal kurias kuriamosir tobulinamos KT. Keturi Lietuvos universitetai ir dumokslinių tyrimų institutai kuria KT mokslinę bazę.Verslo sektoriuje „Tilde IT“ yra pagrindinis dalyvis, ku-riantis lietuvių kalbai pritaikytas technologijas.Turima keletas bendrinei lietuvių kalbai skirtų techno-logijų, tai toli gražu neprilygsta pirmaujančiai šioje sri-tyje anglų kalbai. Lietuvių kalba yra viena iš vadina-mųjų „nekomercinių“ Europos kalbų, todėl plėtodamaKT ji susiduria su sunkumais ir problemomis, būdin-gomis mažiau vartojamos kalbos raidai. Šių technolo-gijų plėtra labai priklauso nuo kitų šalių patirties ir jųparamos bei tarptautinio bendradarbiavimo. Kita ver-tus, KT plėtojimas yra svarbiausia lietuvių kalbos funk-cionalumo, žinomumo ir studijų bei lietuviškos kultūros

sklaidos daugiakalbėje Europoje stiprinimo proceso su-dedamoji dalis.Tai rodo, kad būtina stengtis kaupti lietuvių kalbos iš-teklius, atlikti daugiaumokslinių tyrimų ir diegti naujo-ves. Be to, dėl būtinybės sukaupti didelį kiekį duomenųir KT sistemų sudėtingumo reikia sukurti naujų infor-macijos mainų ir bendradarbiavimo infrastruktūrų.Mūsų įžvalgos rodo, kad vienintelė alternatyva – su-telkti pastangas lietuvių kalbos išteklių kūrimui ir juosefektyviai panaudoti moksliniams tyrimams, inovaci-joms ir plėtrai. Didesnių išteklių sankaupų poreikiuitenkinti ir ypač sudėtingoms KT sistemoms kurti būti-nos naujos infrastruktūros ir sutelktesnė mokslinių ty-rimų organizacija, užtikrinanti didesnę sklaidą ir bend-radarbiavimą.Be to, mokslinių tyrimų ir plėtros finansavimas dažnaitrumpalaikis. Paprastai trumpalaikes suderintas progra-mas keičia menko finansavimo ar netgi visiško nefinan-savimo laikotarpis. Taip pat akivaizdžiai trūksta Euro-pos Sąjungos šalių inicijuotų ir Europos Komisijos vyk-domų programų koordinavimo.Galime daryti išvadą, kad būtina didelės aprėpties koor-dinuota iniciatyva, skirta įveikti KTparengtumo skirtu-mus visose Europos kalbose.META-NET tinklo ilgalaikis uždavinys – pristatyti ko-kybiškas KT, taikomas visose Europos kalbose, siekiantkultūrine įvairove pagrįstos politinės ir ekonominės vie-nybės. Šios technologijos padės sugriauti dabartiniusbarjerus ir nutiesti tiltus tarp Europos kalbų. Visos suin-teresuotos šalys – politikai, tyrėjai, verslo ir visuomenėsatstovai – turi suvienyti savo pastangas, kurdami bendrąateitį.

34

Page 42: Lietuvių kalba skaitmeniniame amžiuje

Puikus Geras Vidutinis Fragmentiškas Menkas/nėrapalaikymas palaikymas palaikymas palaikymas palaikymo

anglų vokiečiųitalųsuomiųprancūzųolandųportugalųispanųčekų

baskųbulgarųdanųestųgalisųgraikųairiųkatalonųnorvegųlenkųšvedųserbųslovakųslovėnųvengrų

islandųkroatųlatviųlietuviųmaltiečiųrumunų

9: Šnekamosios kalbos apdorojimas: 30 Europos kalbų būklė

Puikus Geras Vidutinis Fragmentiškas Menkas/jokiopalaikymas palaikymas palaikymas palaikymas palaikymo

anglų prancūzųispanų

vokiečiųitalųkatalonųolandųlenkųrumunųvengrų

baskųbulgarųdanųestųsuomiųgalisųgraikųairiųislandųkroatųlatviųlietuviųmaltiečiųnorvegųportugalųšvedųserbųslovakųslovėnųčekų

10: Automatinis vertimas: 30 Europos kalbų būklė

35

Page 43: Lietuvių kalba skaitmeniniame amžiuje

Puikus Geras Vidutinis Fragmentiškas Menkas/nėrapalaikymas palaikymas palaikymas palaikymas palaikymo

anglų vokiečiųprancūzųitalųolandųispanų

baskųbulgarųdanųsuomiųgalisųgraikųkatalonųnorvegųlenkųportugalųrumunųšvedųslovakųslovėnųčekųvengrų

estųairiųislandųkroatųlatviųlietuviųmaltiečiųserbų

11: Teksto analizė: 30 Europos kalbų būklė

Puikus Geras Vidutinis Fragmentiškas Menkas/nėrapalaikymas palaikymas palaikymas palaikymas palaikymo

anglų vokiečiųprancūzųitalųolandųlenkųšvedųispanųčekųvengrų

baskųbulgarųdanųestųsuomiųgalisųgraikųkatalonųkroatųnorvegųportugalųrumunųserbųslovakųslovėnų

airiųislandųlatviųlietuviųmaltiečių

12: Kalbos ir teksto ištekliai: 30 Europos kalbų būklė

36

Page 44: Lietuvių kalba skaitmeniniame amžiuje

5

APIE META-NET TINKLĄ

META-NET yra kompetencijos tinklas, finansuojamasEuropos Komisijos [33]. Šiuo metu tinklą sudaro 54nariai iš 33 Europos šalių. META-NET puoselėja Dau-giakalbės Europos technologijos aljansą (angl.Multilin-gual Europe Technology Alliance, META) – gausėjančiąKT profesionalų ir organizacijų bendruomenę.META-NET bendradarbiauja su kitomis programo-mis, pavyzdžiui, CLARIN, Bendrąja kalbos išteklių irtechnologijų inastruktūra (angl. Common LanguageResources and Technology Inastructure), padedančiaatlikti skaitmeninius humanitarinių mokslų tyrimus.META-NET puoselėja realiai daugiakalbės Europos in-formacinės visuomenės technologinius pagrindus, ku-rie:

‚ suteiks galimybę bendrauti ir bendradarbiauti skir-tingomis kalbomis;

‚ užtikrins lygias galimybes naudotis informacija ir ži-niomis, pateiktomis bet kuria kalba;

‚ pasiūlys Europos gyventojams pažangių, į tinklą su-jungtų informacinių technologijų.

META-NET skatina ir propaguoja visoms Europos kal-boms skirtas KT. Šios technologijos teikia galimybių at-likti įvairių sričių automatinį vertimą, kurti produktus,apdoroti informaciją ir valdyti žinias, naudojantis skir-tingomis taikomosiomis programomis. Šio tinklo tiks-las – tobulinti šiuo metu taikomus metodus, kad bend-rauti ir bendradarbiauti skirtingomis kalbomis taptųlengviau. Europiečiai turi lygias teises į informaciją ir ži-nias, nesvarbu, kokia kalba jie kalba.META-NET buvo pristatytas 2010 m. vasario 1 dieną.Tikslas – remti KT mokslinius tyrimus. Tinklas remia

Europą, susijungusią į vieną skaitmeninę rinką ir infor-macinę erdvę. META-NET veikla apima kelias kryp-tis, padedančias siekti savo tikslų. Šios veiklos kryp-tys yra susijusios su KT plėtros vizijos kūrimu (META-VISION), sklaida (META-SHARE) ir moksliniais ty-rimais (META-RESEARCH).META-VISION skirta telkti dinamišką ir įtakingą su-interesuotųjų šalių bendruomenę, numatant KT plėt-ros viziją ir strateginių mokslinių tyrimų darbotvarkę(angl. Strategic Research Agenda, SRA). Pagrindinis šiosveiklos tikslas – suburti susijusią ir darnią Europos KTbendruomenę, suvienijant itin suskaidytų ir skirtingųsuinteresuotųjų šalių atstovus. Kartu su šia Baltąjaknyga buvo parengti dar 29 tomai kitomis kalbomis.Bendrąją technologiją sukūrė trijų sektorių vizijų gru-pės. Rengiant šią viziją glaudžiai bendradarbiauta su visaKT bendruomene. Tuo tikslu buvo įsteigta ir METAtechnologijų taryba.META-SHARE kuria atvirą, visiems prieinamą įrankįkeistis ir dalytis ištekliais. Saugyklų tinkle, kuriame iš-tekliais galės keistis visi naudotojai (angl. peer-to-peer),bus pateikiami kalbų duomenys, priemonės, teikiamosinternetinės paslaugos, pagrįstos itin aukštos kokybėsmetaduomenimis ir suskirstytos į standartines katego-rijas. Šiais ištekliais lengva naudotis, paieška galima pa-gal vienodus kriterijus. Tarp turimų išteklių – ir nemo-kama, atvirojo kodomedžiaga, ir riboto naudojimomo-kami duomenys.META-RESEARCH tiesia tiltus į su kalbos technolo-gijomis susijusių technologijų sritis. Siekiama pasinau-doti kitų sričių pranašumais ir inovatyviais tyrimais, ku-rie galėtų praversti KT.

[email protected] – http://www.meta-net.eu

37

Page 45: Lietuvių kalba skaitmeniniame amžiuje
Page 46: Lietuvių kalba skaitmeniniame amžiuje

1

EXECUTIVE SUMMARY

During the last 60 years, Europe has become a distinctpolitical and economic structure, yet culturally and lin-guistically it is still very diverse. is means that fromPortuguese to Polish, Italian to Icelandic, everyday com-munication between Europe’s citizens as well as com-munication in the spheres of business and politics is in-evitably confrontedby language barriers. eEU’s insti-tutions spend about a billion euros a year on maintain-ing their policy of multilingualism, i. e., translating textsand interpreting spoken communication. Yet does thishave to be such a burden? Modern language technol-ogy and linguistic research canmake a significant contri-bution to pulling down these linguistic borders. Whencombinedwith intelligent devices and applications, lan-guage technologywill in the future be able to help Euro-peans talk easily to each other and do business with eachother even if they do not speak a common language.

Language technology builds bridges.

e Lithuanian economy takes greater advantage thanothers of the European single market: in 2010, tradewithin the EU accounted for 61% of Lithuanian ex-ports, and trade with other European countries totalledanother 3%. But language barriers can bring business toa halt, especially for SMEswho do not have the financialmeans to reverse the situation.e alternative to this kind of multilingual Europewould be to allow a single language to take a dominantposition and end up replacing all other languages. How-ever, this would create difficulties for the multilingual

citizens of Europe. One classic way of overcoming thelanguage barrier is to learn foreign languages. Yet with-out technological support, mastering the 23 official lan-guages of themember states of the EuropeanUnion andsome60otherEuropean languages is an insurmountableobstacle for the citizens of Europe and its economy, po-litical debate, and scientific progress.e solution is to build key enabling technologies.ese will offer European actors tremendous advan-tages, not only within the common European marketbut also in trade relationswith third countries, especiallyemerging economies. In the long run, language technol-ogy solutionswill eventually serve as a unique bridge be-tween Europe’s languages.

Language technology is a key for the future.

Information technology changes our everyday lives. Wetypically use computers for writing, editing, calculating,and information searching, and increasingly for reading,listening tomusic, viewing photos andwatchingmovies.We carry small computers in our pockets and use themto make phone calls, write emails, get information andentertain ourselves, wherever we are. How does thismassive digitization of information, knowledge and ev-eryday communication affect our language? Will ourlanguage change or even disappear?Many of the world’s 6,000 languages will not survive ina globalized digital information society. It is estimatedthat at least 2,000 languages are doomed to extinction inthe decades ahead. Others will continue to play a role in

39

Page 47: Lietuvių kalba skaitmeniniame amžiuje

families and neighbourhoods, but not in the wider busi-ness and academic world. What are the Lithuanian lan-guage’s chances of survival? e status of the languagedepends not only on the number of speakers or books,films and TV stations that use it, but also on the pres-ence of the language in the digital information space andsoware applications.

is is important to the Lithuanian language, which isone of the European languages that have a somewhatlower market appeal and a small user base, with just 4million people speaking it, most of them residents of theRepublic of Lithuania. e Lithuanian language enjoysthe status of the state language, which is embedded inthe Constitution. e enforcement of this status is reg-ulated by the Law on the State Language and other leg-islation items. On top of that, the language has been in-cluded in the legislation on protecting cultural and eth-nic heritage as part of the cultural identity. e Pro-gramme on theExpansion of theLithuanian InformationSociety in 2011–2019 lists a strategic goal of improvingthe quality of living for the Lithuanian people and thecondition of the corporate environment when it comesto using IRT possibilities and to achieve that at least 85per cent of Lithuanian population have Internet accessby 2019. is goal prioritises on expanding electroniccontent and services and promoting their usage. To thatend, the government ofLithuania has set twoobjectives:(1) digitalising Lithuanian cultural heritage objects anduse them as a basis for the development of digital prod-ucts that would be available to the public, thus ensuringthe conservation and dissemination of digital contentin the electronic space; (2) integrating digital productsof the Lithuanian language into IRT to ensure the full-scale functioning of the Lithuanian language in both itswritten and spoken form across the spheres of life of thenation. Will these political efforts be enough for theLithuanian language to gain a toehold in the Europeanmultilingual information space?

Aer Lithuania had joined the European Union, theLithuanian language entered a new phase of develop-ment, its new status of an official EU language stand-ing as a guarantee that the Lithuanian language will beused and dispersed at EuropeanUnion institutions. edevelopment and application of language resources andtechnologies needed to ensure the full-scale function-ing of the language in a multilingual environment haspicked up pace as well. Still, the Lithuanian languageis one of the so-called non-commercial European lan-guages and is therefore facing the challenges and diffi-culties that are typical of the development of a languagethat has limited use. e development of such technol-ogy relies heavily on the experience of and assistancefromother countries and international cooperation. Onthe other hand, developing language technologies is themost important element in the process of strengthen-ing the functionality, recognition and learning of theLithuanian language as well as the dissemination of theLithuanian culture across the multilingual Europe. efull-on functioning of the Lithuanian language has be-come a particularly relevant consideration for the sur-viving and the development of the language.

Within the information society, the viability and ap-peal of a language is determined by the possibility toexchangemultilingual information, receive services, andso on, in a prompt and convenientmanner. Informationtechnology is opening up new ways of communication,corpus development, information dissemination and re-trieval for the Lithuanian language. e speed and ge-ographical reach of modern communications makes iteasier to use the Lithuanian language for human inter-action, the quantity of Lithuanian content and servicesavailable on the Internet is growing and there are toolsbeing developed that will help people use the languagecorrectly, will serve to satisfy the special needs of theusers, etc. On the other hand, the rate of change in thisarea is so high that the efforts aimed at the planning

40

Page 48: Lietuvių kalba skaitmeniniame amžiuje

and expansion of the Lithuanian language are no longerable to address every challenge on time. e fact thatthe users are able to access products and information inthe English language faster and in a more user-friendlyway result in the relatively low popularity of Lithuani-anized soware, the slow deployment and dispersion oflanguage technology and tools, the inadequate develop-ment of digital language resources and tools.

Just like in many other European states, the develop-ment of the space of language technology in Lithua-nia is rather bumpy. Research has allowed designing,with some success, acceptable soware for basic textualanalysis, like parsers. However, advanced technologyrequiring more thorough knowledge of linguistic pro-cessing and semantics is still in its embryonic stage. edevelopment efforts have produced quite a few digi-tal language resources (e-dictionaries, corpuses, termi-nological dictionaries) and essential linguistic analysistools (tools for determining and generating morpho-logical attributes, spellcheckers), a Lithuanian synthe-siser, Lithuanian –Englishmachine translation systems,Lithuanianized soware, an original Lithuanian com-puter font called Palemonas, which is geared towardsscientific applications. Yet a lot of the available re-sources, products and systems require ongoing upgradesand development to keep up with the shiing user de-mands. e low grade of development of semantics re-search has resulted in stunted advancement on the fieldof language generation, textual interpretation and tex-tual analysis. Even though there are quite voluminousand thorough lexicological databases available, there isstill no WordNet, thesaurus, etc. Furthermore, there isno adequate Lithuanian grammar geared towards lan-guage technology or treebanks available.

Development of smart and sophisticated tools like ma-chine translation requires resources and technology tocover more linguistic aspects and allow for a more de-tailed semantic analysis of text input. Improvement of

the quality and scope of some basic resources should en-able us to find new ways to blast our way into the areasof application of advanced technology.So far, in terms of the quality, the space of Lithuanianlanguage technology is rather fragmented and possessedof a very low degree of interaction. e available lan-guage resources that could be used as a basis to buildlanguage technology on have been developed by sepa-rate institutions, groups of researchers or businesses thatdid not necessarily follow the generally accepted stan-dards, and therefore their compatibility with languagetechnology is somewhat limited or economically not vi-able, bearing in mind that the resources should have tobe rearranged to conform to the new standards.Currently, there are several projects in progress inLithuania aimed at applying the international stan-dards to the older resources (like the Corpus of Mod-ern Lithuanian) or designing new products. A higherdegree of interaction would allow building integratedproducts that the common European linguistic spaceneeds, such as machine translation tools, dictionaries,tools to search for semantic information, and would re-duce the isolation of the Lithuanian-speaking commu-nity as well as boost the international prestige and acces-sibility of the Lithuanian language.

Language technology helps to unify Europe.

e expansion of the information society started pick-ing up pace and a lively interest in language technologiesoccurred and the development of resources in Lithuaniabegan just a fewdecades ago, and therefore, building lan-guage technology that is really effective and can be read-ily used in everyday lifewill require a substantial amountof research. e small market of users of language tech-nology and tools, the underdeveloped and fragmentedinfrastructure of research and studies, the lack of clearpriorities and coordination does little to promote ini-

41

Page 49: Lietuvių kalba skaitmeniniame amžiuje

tiative in private business. Currently, there are severalcompanies involved in the field of language technology,and the number of orders for research coming from thebusiness is really very small indeed.e condition of language technology in Lithuaniaprompts cautious optimism. e government of the Re-public of Lithuania emphasises the goal to ensure the ex-pansion of language technology, as demonstrated by theprogrammes funded by various governmental institu-tions and the European Union structural funds, whichare aimed at designing and improving language technol-ogy. Breakthroughs in language technology would pro-mote its industrial application, help developing and im-proving public services and so on, andwould allowusingthe Lithuanian language in every sphere of life and com-munication media.e number and the applicability of technologies de-signed for and customised to European languages varyby quite a margin. Obviously, there is also a dramaticdifference between Europe’s member states in the ef-forts needed to promote research and development ofthe technology for specific languages as well as in terms

of both the maturity of the research and in the stateof readiness with respect to language solutions. Beforetruly effective language technology solutions are readyfor everyday use, Lithuania still needs to conduct fur-ther research and come up with additional resources,tools, which will need to be integrated to ensure thehighest degree of interaction possible.

META-NET’s long-term goal is to introduce high-quality language technology for all European lan-guages in order to achieve political and economic unitythrough cultural diversity. e technologywill help teardown the existing barriers and build bridges betweenEurope’s languages. is requires all stakeholders – inpolitics, research, business, and society – to join theirefforts for the future.

is white paper series complements other strategic ac-tions taken by META-NET (see the appendix for anoverview). Up-to-date information such as the currentversion of theMETA-NET vision paper or the StrategicResearch Agenda (SRA) can be found on the META-NET website: http://www.meta-net.eu.

42

Page 50: Lietuvių kalba skaitmeniniame amžiuje

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnessing a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in information and communication tech-nology are sometimes compared to Gutenberg’s inven-tion of the printing press. What can this analogy tellus about the future of the European information soci-ety and our languages in particular?

The digital revolution is comparable toGutenberg’s invention of the printing press.

Aer Gutenberg’s invention, real breakthroughs incommunication were accomplished by efforts such asLuther’s translation of the Bible into vernacular lan-guage. In subsequent centuries, cultural techniques havebeen developed to better handle language processingand knowledge exchange:

‚ the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

‚ the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

‚ the teaching and translation of languages enabled ex-changes across languages;

‚ the creationof editorial andbibliographic guidelinesassured the quality of printed material;

‚ the creation of different media like newspapers, ra-dio, television, books, and other formats satisfieddifferent communication needs.

In the past twenty years, information technology hashelped to automate and facilitate many processes:

‚ desktop publishing soware has replaced typewrit-ing and typesetting;

‚ Microso PowerPoint has replaced overhead projec-tor transparencies;

‚ e-mail allows documents to be sent and receivedmore quickly than using a fax machine;

‚ Skype offers cheap Internet phone calls and hostsvirtual meetings;

‚ audio and video encoding formatsmake it easy to ex-change multimedia content;

‚ web search engines provide keyword-based access;

‚ online services like Google Translate produce quick,approximate translations;

‚ social media platforms such as Facebook, Twitterand Google+ facilitate communication, collabora-tion, and information sharing.

Although these tools and applications are helpful, theyare not yet capable of supporting a fully-sustainable,multilingual European society in which informationand goods can flow freely.

43

Page 51: Lietuvių kalba skaitmeniniame amžiuje

2.1 LANGUAGE BORDERSHOLDING BACK THEEUROPEAN INFORMATIONSOCIETYWe cannot predict exactly what the future informationsociety will look like. However, there is a strong like-lihood that the revolution in communication technol-ogy is bringing together people who speak different lan-guages in new ways. is is putting pressure both on in-dividuals to learnnew languages and especially ondevel-opers to create new technology applications to ensuremutual understanding and access to shareable knowl-edge. In the global economic and information space,there is an increasing interaction between different lan-guages, speakers and content thanks to new types ofme-dia. e current popularity of social media (Wikipedia,Facebook, Twitter, YouTube, and, recently, Google+) isonly the tip of the iceberg.

The global economy and information spaceconfronts us with different languages, speakers

and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language that we do not understand. According to arecent report from the European Commission, 57% ofInternet users in Europe purchase goods and services innon-native languages; English is the most common for-eign language followed byFrench,German andSpanish.55% of users read content in a foreign language while35% use another language to write e-mails or post com-ments on the web [2]. A few years ago, English mighthave been the lingua franca of the web—the vast major-ity of content on the web was in English—but the situa-tion has now drastically changed. e amount of online

content in other European (as well as Asian and MiddleEastern) languages has exploded.

Surprisingly, this ubiquitous digital linguistic dividehas not gained much public attention; yet, it raises avery pressing question: Which European languages willthrive in the networked information and knowledge so-ciety, and which are doomed to disappear?

2.2 OUR LANGUAGES AT RISKWhile the printing press helped step up the exchange ofinformation in Europe, it also led to the extinction ofmany European languages. Regional and minority lan-guages were rarely printed and languages such as Cor-nish and Dalmatian were limited to oral forms of trans-mission, which in turn restricted their scope of use. Willthe Internet have the same impact on our modern lan-guages?

Europe’s approximately 80 languages are one of our rich-est andmost important cultural assets, and a vital part ofthis unique social model [3].

The variety of languages in Europe is one of itsrichest and most important cultural assets.

While languages such as English and Spanish are likelyto survive in the emerging digital marketplace, manyEuropean languages could become irrelevant in a net-worked society. is would weaken Europe’s globalstanding, and run counter to the strategic goal of en-suring equal participation for every European citizen re-gardless of language. According to a UNESCO reporton multilingualism, languages are an essential mediumfor the enjoyment of fundamental rights, such as polit-ical expression, education and participation in society[4].

44

Page 52: Lietuvių kalba skaitmeniniame amžiuje

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investments in language preservation fo-cussed primarily on language education and transla-tion. According to one estimate, the European mar-ket for translation, interpretation, soware localisationand website globalisation was €8.4 billion in 2008 andis expected to grow by 10% per annum [5]. Yet this fig-ure covers just a small proportion of current and futureneeds in communicating between languages. e mostcompelling solution for ensuring the breadth and depthof language usage in Europe tomorrow is to use the ap-propriate technology, just as we use technology to solveour transport and energy needs, among others.

Europe needs robust and affordable languagetechnology for all European languages.

Language technology targeting all forms of written textand verbal discourse can help people collaborate, con-duct business, share knowledge and participate in socialand political debate regardless of language barriers andcomputer skills. It already oen operates invisibly insidecomplex soware systems to help us to:

‚ find information with a search engine;

‚ check spelling and grammar in a word processor;

‚ view product recommendations in an online shop;

‚ follow the spoken directions of a navigation system;

‚ translate web pages via an online service.

Language technology consists of a number of core ap-plications that enable processes within a larger applica-tion framework. e purpose of the META-NET lan-guage white papers is to focus on how ready these coreenabling technologies are for each European language.

Tomaintain our position at the frontline of global inno-vation, Europe will need language technology, tailoredto all European languages, that is robust and affordableand can be tightly integrated within key soware envi-ronments. Without language technology, we will notbe able to achieve a really effective interactive, multime-dia and multilingual user experience in the near future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image or a text using a suit-ably powered printing press. Human beings had to dothe hard work of looking up, assessing, translating, andsummarising knowledge. We had to wait until Edisoncame along to be able to record spoken language – andagain his technology simply made analogue copies.

Language technology can now simplify and automatethe processes of translation, content production, andknowledge management for all European languages. Itcan also empower intuitive speech-based interfaces forhousehold electronics, machinery, vehicles, computersand robots. Real-world commercial and industrial ap-plications are still in the early stages of development,yet R&D achievements are creating a genuine windowof opportunity. For example, machine translation is al-ready reasonably accurate in specific domains, and ex-perimental applications provide multilingual informa-tion and knowledge management, as well as contentproduction, in many European languages.

As with most technologies, the first language applica-tions such as voice-based user interfaces and dialoguesystems were developed for specialised domains, and of-ten exhibit limited performance. However, there arehuge market opportunities in the education and enter-tainment industries for integrating language technolo-gies into games, edutainment packages, libraries, simu-

45

Page 53: Lietuvių kalba skaitmeniniame amžiuje

lation environments and training programmes. Mobileinformation services, computer-assisted language learn-ing soware, eLearning environments, self-assessmenttools and plagiarism detection soware are just some ofthe application areas in which language technology canplay an important role. e popularity of social me-dia applications like Twitter and Facebook suggests aneed for sophisticated language technologies that canmonitor posts, summarise discussions, suggest opiniontrends, detect emotional responses, identify copyrightinfringements or track misuse.

Language technology helps overcome the“disability” of linguistic diversity.

Language technology represents a tremendous opportu-nity for the European Union. It can help address thecomplex issue of multilingualism in Europe – the factthat different languages coexist naturally in Europeanbusinesses, organisations and schools. However, citi-zens need to communicate across the language bordersof the European Common Market, and language tech-nology can help overcome this final barrier, while sup-porting the free and open use of individual languages.Looking even further ahead, innovative European mul-tilingual language technology will provide a benchmarkfor our global partners when they begin to supporttheir own multilingual communities. Language tech-nology can be seen as a form of “assistive” technologythat helps overcome the “disability” of linguistic diver-sity andmakes language communitiesmore accessible toeach other. Finally, one active field of research is the useof language technology for rescue operations in disas-ter areas, where performance can be a matter of life anddeath: future intelligent robots with cross-lingual lan-guage capabilities have the potential to save lives.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.Widely-used technologies such as the spelling and gram-mar correctors in word processors are typically mono-lingual, and are only available for a handful of languages.Online machine translation services, although usefulfor quickly generating a reasonable approximation of adocument’s contents, are fraught with difficulties whenhighly accurate and complete translations are required.Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business that requires sustainedfunding commitments. Europe must therefore main-tain its pioneering role in facing the technological chal-lenges of a multiple-language community by inventingnewmethods to accelerate development right across themap. ese could include both computational advancesand techniques such as crowdsourcing.

Technological progress needs to be accelerated.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them toprocess different tongues,let’s look briefly at the way humans acquire first and sec-ond languages, and then see how language technologysystems work.Humans acquire language skills in two different ways.Babies acquire a language by listening to the real inter-actions between their parents, siblings and other familymembers. From the age of about two, children produce

46

Page 54: Lietuvių kalba skaitmeniniame amžiuje

their first words and short phrases. is is only possi-ble because humans have a genetic disposition to imitateand then rationalise what they hear.Learning a second language at an older age requiresmore cognitive effort, largely because the child is not im-mersed in a language community of native speakers. Atschool, foreign languages are usually acquired by learn-ing grammatical structure, vocabulary and spelling usingdrills that describe linguistic knowledge in terms of ab-stract rules, tables and examples.

Humans acquire language skills in two differentways: learning from examples and learning the

underlying language rules.

Moving now to language technology, the two maintypes of systems ‘acquire’ language capabilities in a simi-lar manner. Statistical (or ‘data-driven’) approaches ob-tain linguistic knowledge from vast collections of con-crete sample texts. While it is sufficient to use text in asingle language for training, e. g., a spell checker, paral-lel texts in two (or more) languages have to be availablefor training a machine translation system. e machinelearning algorithm then “learns” patterns of how words,short phrases and complete sentences are translated.is statistical approach usually requiresmillions of sen-tences to boost performance quality. is is one rea-son why search engine providers are eager to collect asmuch written material as possible. Spelling correctionin word processors, and services such as Google Searchand Google Translate, all rely on statistical approaches.e great advantage of statistics is that the machinelearns quickly in a continuous series of training cycles,even though quality can vary randomly.

e second approach to language technology, and tomachine translation in particular, is to build rule-basedsystems. Experts in the fields of linguistics, computa-tional linguistics and computer science first have to en-code grammatical analyses (translation rules) and com-pile vocabulary lists (lexicons). is is very time con-suming and labour intensive. Some of the leading rule-basedmachine translation systems have been under con-stant development for more than 20 years. e greatadvantage of rule-based systems is that the experts havemore detailed control over the language processing.is makes it possible to systematically correct errors inthe soware and give detailed feedback to the user, es-pecially when rule-based systems are used for languagelearning. However, due to the high cost of this work,rule-based language technology has so far only been de-veloped for a few major languages.

As the strengths and weaknesses of statistical and rule-based systems tend to be complementary, current re-search focusses on hybrid approaches that combine thetwomethodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.

As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology, particularly in Europe’s eco-nomic and information space. Although this technol-ogy hasmade considerable progress in the last few years,there is still huge potential to improve the quality of lan-guage technology systems. In the next section, we willdescribe the role of Lithuanian in the European infor-mation society and assess the current state of languagetechnology for the Lithuanian language.

47

Page 55: Lietuvių kalba skaitmeniniame amžiuje

3

THE LITHUANIAN LANGUAGE IN THEEUROPEAN INFORMATION SOCIETY

3.1 GENERAL FACTSe Lithuanian language is one of the least commonlyused European languages. Only about fourmillion peo-ple speak it, and most of them live in the Republicof Lithuania. Lithuanian, as the state language, is thecommon written and spoken language for all citizens ofthe Republic of Lithuania. Based on the 2011 census,Lithuania’s population totals about 3,2 million, includ-ing roughly 2,7 million people who are Lithuanian bynationality.

e population of Lithuania consists of: Lithuani-ans (84%), Poles (6.1%), Russians (4.9%), Belaru-sians (1.1%), Ukrainians (0.6%), Jews (0.1%), Germans(0.1%), Latvians (0.1%), Tatars (0.1%), Karaits amongothers. ere is also a Roma community of about 3,000people, mainly settled in the Vilnius region (2001 cen-sus). Unfortunately, the Lithuanian population hasbeen decreasing by the year since 2007 and the 2011data indicate a figure of around 3.2million people. Suchchanges are caused by the shrinking birth rate and emi-gration, which leads to a decrease in the number of usersof the language who live in Lithuania.

Providing an accurate number of people who speakLithuanian all over the world is quite difficult. It is es-timated that some 500,000 Lithuanian speakers couldbe living abroad, while other sources point to at least 15per cent of speakers. e Lithuanian language is spo-ken by Lithuanian ethnic minorities in Belarus, Poland,Latvia as well as the vast emigrant communities in the

United States, Canada, the United Kingdom, Ireland,Spain, South America, etc. By the number of its speak-ers, the Lithuanian language places 144th in the world.

The Lithuanian language is one of the leastcommonly used European languages. Only

about four million people speak it, and most ofthem live in the Republic of Lithuania.

e Lithuanian language is part of the Baltic branch ofthe Indo-European language family. Its next-of-kin isthe Latvian language, which is spoken in neighbouringLatvia.

When it comes to classing languages into dominant anddominated in terms of the history of social developmentof European languages, the Lithuanian language shouldbe considered as one of the latter. As a rule, dominantlanguages picked up one dialect as a basis for the forma-tion of the standard language not later than during theRenaissance (as was the case with the English, French,Italian, Portuguese languages), while dominated lan-guages, such as Bulgarian, Croatian, Lithuanian, Slo-vakian took shape during the Spring of Nations inthe 19th century. e Lithuanian standard languageevolved in the late 19th century – early 20th century.

e vast variety of regional strains is a defining feature ofthe Lithuanian language. ere are two major dialects,the Highland (aukštaičiai) and the Lowland (žemaičiai,Samogitians). e strains of the Lithuanian language

48

Page 56: Lietuvių kalba skaitmeniniame amžiuje

are different both in terms of their phonetic character-istics and grammar as well as vocabulary. ese dialectsbreak down into fourteen sizeable regional sub-dialects,each consisting of branches typical of smaller regionalunits. Sub-dialects differ from each other by varioussounds, word forms and other characteristics.e common Lithuanian language evolved on the ba-sis of one of the Higher Lithuanian sub-dialects in early20th century; however, the regional identity and dialec-tal differences are still very obvious.As of 1995, sign languagewas officially recognised as thevernacular of the deaf in theRepublic of Lithuania. Eversince then, the Lithuanian sign language has been evolv-ing as an independent language.

3.2 PARTICULARITIES OF THELITHUANIAN LANGUAGEIn the 19th century, Indo-European linguists glorifiedthe remarkable resemblance between the Lithuanianlanguage and Sanskrit, and the language was honouredas a spoken Indo-European language with the least mu-tated structure. is is why those who can speak classi-cal European languages (Latin, ancient Greek) tend tounderstand the Lithuanian grammar easier. Lithuaniatakes pride in the statement by French linguist AntoineMeillet that everyone who wants to hear the way theforefathers of the Indo-Europeans used to talk shouldgo and listen to a Lithuanian peasant.

Certain linguistic characteristics of Lithuanian arechallenges for computational processing.

Lithuanian is the most conservative of the living Indo-European languages: it has best preservedmany of its ar-chaic features. From the typological viewpoint, Lithua-nian is important because of its many unique features,including its rich inflection, a distinctive synthesis of

tonic and dynamic accent and an extremely variableword order that reflects the complicated relations be-tween the communicative and the syntactic levels of dis-course.Letters make up millions of words of written Lithua-nian. ese millions require as many as 32 letters. isis the exact number of letters in the alphabet of Stan-dard Lithuanian. It was fixed by Jonas Jablonskis in hisLithuanian Grammar (1901). erefore, the present al-phabet is over a hundred years old, but the history of itsevolution is much longer. e alphabet of the Lithua-nian language is based on Latin; nevertheless, it has itsown peculiar characters, some of them original (like theletter ė). Others are borrowed from other languages(like the Czech š, ž or ą, ę borrowed fromPolish). How-ever, it is as yet difficult to resolve the complicated issueof stressed vowels in the Lithuanian language, which hasparticular relevance when it comes to transferring vari-ous dictionaries or stressed corpuses to the digital space– emphasis in the Lithuanian language is free and dis-tinctive, which means that it can determine the lexicalor grammatical meaning of the word, e. g.:

nãmo gen. sg. ‘house’ – namõ adv. ‘home’.

Besides, all long syllables have one of two accents thatalso distinguish the meaning of words, e. g.:

áukštas ‘high, tall’ – aũkštas ‘storey’, etc.

ese are the things to consider for developers of speechtechnologies as well.InLithuanian, which is an inflectional language, thema-jority of word forms are constructed with affixes, viz.endings and inflectional suffixes. e endings are theprincipal means of marking the syntagmatic relationsbetween words in a sentence and/or the relations be-tween word forms in a paradigm.Endingsmostly are fused, i. e., an ending encodes two ormore grammatical meanings and thus a word form en-ters into the same number of morphological categories.

49

Page 57: Lietuvių kalba skaitmeniniame amžiuje

Suffixes are also widely used in Lithuanian to make upword forms. ey mainly indicate paradigmatic rela-tions between word forms rather than syntagmatic re-lations. Inflectional suffixes are used to mark the de-grees of comparison in adjectives and many adverbs,some tense and mood forms in verbs, and also the non-finite verb forms: the infinitive, participles (includinggerunds) and verbal adverbs (būdinys).In word forms affixation is oen (especially in the verbalparadigm) conjoined with changes in the root.

The grammatical means of marking syntacticrelations in Lithuanian are endings and, less

commonly, inflectional suffixes, oftensupplemented by structural words, viz.

prepositions, conjunctions, and particles.

Alongside simple (synthetic) word forms, made with af-fixes, a paradigm may contain periphrastic (analytical)word forms comprised of the main word and an auxil-iary. According to the shared morphological, syntacticand semantic properties, words are classified into gram-matical classes, traditionally termed parts of speech. InLithuanian 11 parts of speech are distinguished: thenoun, the adjective, the numeral, the pronoun, the verb,the adverb, the particle, the preposition, the conjunc-tion, the interjection and onomatopoeic words.e term syntactic relation is used here to refer to theimmediate relations between word forms, word group,and clauses in a sentence. e grammatical means ofmarking syntactic relations in Lithuanian are endingsand, less commonly, inflectional suffixes, oen supple-mented by structural words, viz. prepositions, conjunc-tions, and particles.Word order is of secondary importance as ameans of ex-pressing grammatical relationships in Lithuanian. Forinstance, it signals the syntactic function of the adjectivein phrases like Gražios gėlės (attribute; cf. Gražios gėlėsauga sode ‘Beautiful flowers grow in the garden’) and

Gėlės gražios (predicative), meaning Gėlės yra gražios‘e flowers are beautiful.’ Within a sentence, intona-tion binds word forms into groups and serves to rein-force their syntactic relations (immediately relatedwordforms usually form an intonational unit); it also signalscommunicative sentence types. ree principal types ofsyntactic relations are distinguished: interdependence,subordination and coordination.

Furthermore, theLithuanian language canbedefinedbya free order of words, which means that the same ideacan be expressed in different ways (even though thereare structures that can only be used for the purposes ofstylistics).

en there are elliptical sentences, where missing wordscan only be guessed from the context. Besides, sentencescan be very long and have a complex structure, whichalso leads to some difficulties in automated processing.

Lithuanian language can be defined by a freeorder of words.

ere are plenty of polysemantic words and therefore alearner of the Lithuanian language might find it diffi-cult to recognise the meaning and form of one word oranother.

Many grammatical forms, like Lithuanian nominalwords, have the grammatical categories of case, genderand number. Furthermore, adjectives can be pronomi-nal or not and have degrees of inflection as well as beingneuter.

e verb of the Lithuanian language is even more com-plicated as it has inflective and non-inflective forms thatpossess the qualities of both nominal words and verbs,i. e., they can be inflected by type, time, number, genderand case.

50

Page 58: Lietuvių kalba skaitmeniniame amžiuje

3.3 RECENT DEVELOPMENTSEven though its written tradition stems from the 16thcentury, the Lithuanian language became a standardlanguage as late as in the beginning of the 20th cen-tury, when its first normative grammar was written anda Lithuanian thesaurus was launched, with its final vol-ume (20) published in 2002.

Just as it started to gain a foothold, the commonLithua-nian language was faced with a lot of challenges. Sincethe very beginning of writing, it had been heavily af-fected by Slavic languages. e Soviet era saw the learn-ing and usage of the Russian language being promoted,while the role of the Lithuanian language in certain ar-eas, like science and governmental administration, wasquite limited. e current senior and middle-aged gen-eration of the public grew up naturally surrounded bythe Russian language and culture. As words of a for-eign origin reflect both the language and the social life,a lot of borrowed words, and terms, and administrativelanguage structures and so on found their way into theLithuanian language at that time. e influence of theRussian language is still very strong when one consid-ers some of the peripheral species of the language: slang,substandard vocabulary, etc.

e political, economic, social and cultural processesof the most recent fieen years in Lithuania have ledto particularly drastic changes in the Lithuanian vocab-ulary. Over 700 new foreign roots were registered inpress in 1993-1997 [6]. Mostly these were words bor-rowed from or through the English language. is wascaused by the rapid expansion of information technolo-gies that started aer the restoration of independence,as well as by the emergence of new cultural, social andeconomic options. e current Lithuanian corpus indi-cates that better than 10,000 new words were added tothe vocabulary of the Lithuanian language over the pe-riod between 1991 and 1996 alone. It is therefore likelythat these processes are currently progressing at an even

faster pace. Ever since 1990, the information space hasbeen flushed with pop culture in the form of televisionseries, shows, music, etc., mostly of American export.Even though foreign films and television series or showscome with translation into Lithuanian, such a culturalshihas had significant influence on theLithuanian lan-guage and culture. e English language is seen as themost important mediator on the global tangible and in-tellectual market and hence its role in the economic, so-cial and cultural life of Lithuania is growing as well, andalongwith it is themotivation to learn this language anduse it in specialty studies, work and intellectual work.Presently the English language is more acceptable andprestigious to the younger generation as a lingua anca,which connects bothwith cultural integration and stud-ies, career opportunities, and so on. So far, there havenot been any sufficient studies, but it is probable thatmost of the words and entire structures that have beenborrowed from the English language are used by youngpeople, and by those who belong to certain subculturesin particular.

In Lithuania the English language affects the same ar-eas of usage of the language as everywhere else. Englishprobably has the broadest use when it comes to address-ing a young audience. For instance, 75% of movie trail-ers are presented in English or in mixed languages. esituation in other areas is better. For instance, Lithua-nian television channels broadcast more than 60% ofcommercials in Lithuanian. Mixed commercials usuallyonly feature English product names [6].

e development of scientific language is a major con-cern. To attain international recognition and dissemi-nation, some scientific fields publish very little of theirresearch results in the Lithuanian language in Lithua-nia. e internationalism of science is greatly encour-aged in spite of there being fears that this impoverishesthe scientific terminology of the Lithuanian languageand causes the Lithuanian language to be pushed out of

51

Page 59: Lietuvių kalba skaitmeniniame amžiuje

specific areas of usage, leading to reduced motivation tobrush up the specialty language skills at the universitylevel.When discussing the possible future development andoutlook of the Lithuanian language, it would be aproper argument that the language anchoring itselfwithin the information society would be a modern andfunctional tool of communication.

3.4 OFFICIAL LANGUAGEPROTECTION IN LITHUANIAe Lithuanian language enjoys the status of state lan-guage, which is fixed in the Constitution of the Repub-lic of Lithuania. e enforcement of this status, i. e., theusage of the state language in public life, as well as itsprotection and control and the liability for its violations,is regulated by the Law on the State language (1995).Its enforcement rests with the State Commission of theLithuanian Language, which files motions with regardto legal regulation and deliberates matters of normalisa-tion and the usage of the language.State and municipal institutions, establishments, enter-prises and organizations must conduct correspondencewith each other in the state language. Heads of com-munications, transportation, health and social security,police and law-enforcement services, trade and other es-tablishments providing services to the population mustensure that the population were provided with servicesin the state language.

The Lithuanian language enjoys the status of statelanguage, which is fixed in the Constitution of the

Republic of Lithuania.

ere are 34 national and local television channelsand 52 radio stations that broadcast in Lithuanian [7].Audio-visual programmes andmotion pictures publicly

shown inLithuaniamust be translated into the state lan-guage or shown with subtitles in Lithuanian. So, trans-lation is a very relevant and important area consideringthat translated books account for nearly a third of allbooks that are published in Lithuanian (according to2010 data, of the 2,962 books published in the Lithua-nian language, 982 were translated books [8]). By theway, the mass media of Lithuania (the press, television,radio, etc.), all publishers of books and other publica-tions must observe the norms of the correct Lithuanianlanguage. Compliance with the requirements for usageand correctness of the state language ismonitored by theState Language Inspectorate.

eprincipal guidelines of theLithuanian language pol-icy are the following:

‚ e Lithuanian language is an instrument of com-munication of the state and its people in every areaof social life and one of the critical characteristics ofthe sovereignty and integrity of the state.

‚ e policy of the Lithuanian language must satisfythe need for social, national and cultural unity ofthe public, including Lithuanian nationals residingabroad.

‚ epolicy of the Lithuanian languagemust stand inharmony with the European Union policy on lan-guages that encourages the preservation of a linguis-tic variety in multicultural Europe, which is seen asone of the greatest values in Europe.

‚ e policy of the Lithuanian language must nurturea conscious and creative attitude towards the usageof the Lithuanian language as well as an understand-ing of the value and distinction of the Lithuanianlanguage within the society.

‚ e dialects of the Lithuanian language are thewealth of the Lithuanian language and culture andtherefore they should be protected and maintainedas such.

52

Page 60: Lietuvių kalba skaitmeniniame amžiuje

‚ e policy of the state language must extend to sys-tems of communication designed for people withspecial needs.

‚ eexpansion of theLithuanian language prioritisesdigital linguistic systems and resources available onthe Internet. e Lithuanian language should be de-veloped as a constituent part of multilingual termi-nologies and usage resources of the EU. Automatedtranslation to and from the Lithuanian language isan important element of using the language in theEU space.

The policy of the Lithuanian language must standin harmony with the European Union policy on

languages that encourages the preservation of alinguistic variety in multicultural Europe, which is

seen as one of the greatest values in Europe.

e amount of political effort to protect and supportthe Lithuanian language is also enough: the usage of thestate language and the protection of its status is regu-lated by the Law on the State language (1995), the con-trol of its usage and correctness is governed by the Lawon the State language Inspectorate (2001), and the ex-pansion of terminological resources is the subject of theLaw on Term Bank (2003). Besides, as part of culturalidentity, the language is also covered by legislation onprotection of cultural and ethnic heritage.AerLithuania joined theEuropeanUnion, theLithua-nian language entered a new phase of development: itsnewly acquired status of an official EU language ensuredthat the Lithuanian language will be used and dissem-inated across the multilingual space of the EU, devel-opment of language resources required for the languageto function properly in the multilingual environmentpicked up pace, and so on.e usage and promotion of the Lithuanian languagehas the support of governmental bodies and public or-

ganisations, like the State Lithuanian Language Com-mission, the State Language Inspectorate, the Lithua-nianLanguageFellowship, etc. ere are a lot of govern-ment supported programmes aimed at promoting lin-guistic research and dissemination underway as well.e Institute of the Lithuanian Language with its Lan-guageMuseum,which is open to the public, is one of theimportant centres for research and the dissemination ofthe Lithuanian language. Various aspects of the Lithua-nian language are the subjects of different university re-searchprogrammes, ranging fromtraditional empiric re-search to language technologies.To top it off, efforts are being made to involve the pub-lic, school students, and young people in particular,into initiatives on the usage and dissemination of theLithuanian language. ese initiatives are staged by gov-ernmental bodies, educational establishments and busi-nesses. Such initiatives include the National Dictationand various competitions, like calligraphy contests, acontest titled “I Create the Language” to replace for-eign words with Lithuanian counterparts, and a contestfor usage of the correct Lithuanian language in infor-mation technologies that goes under the title of “CleanLanguage – Clear Head” and is aimed at encouragingschool students to use Lithuanian letters and the correctLithuanian language in the digital space. Furthermore,there are annual contests to elect themost beautiful cor-porate name, the most beautiful Lithuanian word, etc.

3.5 LANGUAGE IN EDUCATIONAccording to the Law on the State Language, the stateguarantees education of all degrees in Lithuanian, themother-tongue. e state final exam of the Lithuanianlanguage is the only obligatory exam in all schools ofsecondary education that teach in Lithuanian. e verysame kind of examination will be taken by pupils in eth-nicminority schools aswell. e country has schools forthe children of ethnicminorities that teach in languages

53

Page 61: Lietuvių kalba skaitmeniniame amžiuje

other than the state language, like Russian, Polish, Be-larusian, or in mixed languages [9]. Furthermore, thereare schools that teach in English, German, French andHebraic.

Despite the apparently significant degree of attention tothe teaching of the Lithuanian language, achievementsin learning the language deteriorate across all educa-tional concentres every year. According to a 2007 na-tional survey, only 39% of eight-graders managed to at-tain the general level of skill in the Lithuanian language[9].

Achievements in mastering the Lithuanian languageare very scattered and, compared to the 2006 results,are much worse as well [10]. An OECD PISA re-search study has shown the average results of readingskills among fieen-year-old Lithuanian pupils to berather below the international average as well [11]. Bythe way, there has been a significant decline in read-ing skill achievements among boys. e results ofprimary education are somewhat better: as many as99% of Lithuanian fourth-graders attained the thresh-old level in the 2006 international reading skills sur-vey PIRLS (Progress in International Reading LiteracyStudy); however, only 5% made it to the top level com-pared to the international average of 9% [12].

uite a few pupils believe they have no aptitude for theLithuanian language: the results of the 2008 nationalpupils’ achievement study are that 52% of tenth-graderssaid they did not consider themselves apt at learning theLithuanian language and only one-half of all pupils saidthey enjoyed their Lithuanian language classes [11].

However, the shiing attitude towards the teaching ofthe Lithuanian language and literature is expected tobring some break-through. e Strategy for Teachingthe Lithuanian Language in Comprehensive Schoolsin 2010–2014 [13] was approved in 2010; the strat-egy provides that the school must develop the kind ofLithuanian identity that gives the 21st century human

being everything they need to grow free, confident, andto think critically, creatively and responsibly. e strat-egy perceives the Lithuanian language as a modern toolof communication in the society that is and should beused in all areas and settings of life. e mutation ofthe language and its customisation to the needs of themodern information society, as well as its openness andability to replenish itself, is considered to be the precon-dition for its survival.

Lithuanian language must be perceived asa modern tool of communication in society

that is and should be used inall areas and environments of life.

A lot of attention is being paid to the teaching and dis-semination of the Lithuanian language in Lithuania andabroad. With the extent ofmigration growing, attemptsare being made to provide conditions for children whoare returning from abroad to learn the Lithuanian lan-guage and to continue their studies in Lithuania, whilethose who are leaving are free to choose between self-or long-distance education [13]. However, there is aconsensus that without there being any modern long-distance education systems a part of emigrant childrenlose their ties with the Lithuanian language and culture.ere are efforts to expand the teaching of the Lithua-nian language in ethnic minority schools, thus offeringspeakers of other languages the possibility of integrationinto the Lithuanian labour market, of obtaining infor-mation and communicating in social space.

3.6 INTERNATIONAL ASPECTSAlthough when asked about what puts Lithuanian onthe worldmap, a substantial part of the Lithuanians willsay, without much consideration, that it is basketball(in fact, the Lithuanian names of famous Lithuanianbasketball players and coaches is a proper exercise in

54

Page 62: Lietuvių kalba skaitmeniniame amžiuje

Lithuanian pronunciation and a chance to get to knowthe Lithuanian language for basketball fans all over theworld), it is the Lithuanian language itself that is tradi-tionally considered one of the core national values andobjects of presenting Lithuania to the world.To this day, to someLithuanians, their understanding oftheir nationality is based on their linguistic identity.

The Lithuanian language, its dialects, and itsfolklore, has been described and studied by

scholars from various countries withthe geography of such studies ranging

from the neighbouring countries to Japan,Australia, and the United States.

Lithuania has been luring the famous artists AdamMickiewicz, Prosper Mérimée, Johann Wolfgang vonGoethe and others both with the archaic character ofits language and the traditions of pagan religions. epagan beliefs and customs that probably persevered inLithuania the longest in Europe have always greatly in-terested mythologists and it is no accident that MarijaGimbutas, one of Europe’s most prominent researchersof prehistory originated fromLithuania; mythology fellinto the field of studies of Algirdas Julien Greimas, thefounder of the Parisian school of semiotics as well.

The tradition of studying the Lithuanianlanguage at major centres of Indo-European

studies lives to this day.

e Lithuanian language, its dialects, and its folklore,has been described and studied by scholars from variouscountries, the geography of such studies ranging fromthe neighbouring countries to Japan, Australia, and theUnited States. e tradition of studying the Lithuanianlanguage atmajor centres of Indo-European studies livesto this day. Foreign universities have some 10 lituanis-tic centres that currently offer independent curricula of

lituanistics and baltistics. On the global scale, there area total of over 30 lituanistics centres of varying sizes,most of them clustered in Europe that study or teach theLithuanian and the Baltic languages and culture.e Ministry of Education and Science supports andpromotes centres of lituanistics. e scholarship ofKaz-imieras Būga is granted to foreigners who study theLithuanian language in foreign colleges and universitiesevery year.

3.7 LITHUANIAN ON THEINTERNETFigures for 2011 show that almost 64.1% of Lithuanianpeople use the Internet in their home or workplace, andthe percentage of users amongst those 16-24 years of agewas even higher – 96.6% [14]. However, no accuratefigures are available as to which language these peopleuse to access the Internet. e IRT infrastructure is de-veloped particularly well: Lithuania is leading by pene-tration of light-diode broadband network (23%) in Eu-rope, places first in theworld in termsofmobile commu-nications subscribers per population 100 and second bythe speed of the Internet connection; on top of that, thecountry has themost dense network of wireless Internetaccess points (875) in Europe [15].

Lithuania is leading by penetration of light-diodebroadband network in Europe, places first in the

world in terms of mobile communicationssubscribers per population and second by the

speed of the Internet connection.

A total of 126,000 domains ending with .lt were regis-tered in 2010. Of those some 1,400 are registered usingspecific Lithuanian characters (ė, š, etc.). Most of themdisplay Lithuanian content. One can find websites of-fering Lithuanian content in domains ending with .eu,.org, .com as well.

55

Page 63: Lietuvių kalba skaitmeniniame amžiuje

A total of 126,000 domains ending with .lt wereregistered in 2010. Of those some 1,400 areregistered using specific Lithuanian characters.

e abundance of public services available on the Inter-net in the Lithuanian language is growing. e levelof transfer of the main public services to electronic me-dia in Lithuania stood at 64% in 2005. e rate atwhich business-driven services are being transferred onto the Internet is even higher, their level standing at76% in 2005 compared to 56% of public-driven ser-vices [16]. Within the framework of implementing var-ious national programmes, more public services will betransferred to the web, expanding the volume of Lithua-nian content on the Internet: digitalising anddispersingLithuanian cultural heritage, creating conditions for thepeople in Lithuania to use IRT with Lithuanian links.Moreover, efforts are made to reduce digital isolationand to make technologies user-friendly and easily acces-sible for people with disabilities.e popularity of news portals, the websites of Lithua-nia’s main periodicals, some of the scientific magazines,

among other things, is increasing. Of all the majorprojects on the dissemination of Lithuanian content,the most noteworthy are the cultural heritage portalwww.epaveldas.lt, which offers the resources of libraries,museums and other heritage institutions in a virtualspace, the teaching resource portal www.emokykla.lt,www.emokymas.lt, etc. ere are plans to develop a por-tal that would host easily accessible linguistic resourcesand technologies designed under the programme of theLithuanian Language in the Information Society, whichhas been launched recently.

Within the framework of implementing variousnational programmes, more public services will

be transferred to the web, expanding the volumeof Lithuanian content on the Internet.

enext chapter gives an introduction to language tech-nology and its core application areas, together with anevaluation of current language technology support forLithuanian.

56

Page 64: Lietuvių kalba skaitmeniniame amžiuje

4

LANGUAGE TECHNOLOGY SUPPORTFOR LITHUANIAN

Language technology is used to develop soware sys-tems designed to handle human language and is there-fore oen called “human language technology”. Humanlanguage comes in spoken and written forms. Whilespeech is the oldest and, in terms of human evolu-tion, the most natural form of language communica-tion, complex information and most human knowledgeis stored and transmitted through the written word.Speech and text technologies process or produce thesedifferent forms of language, using dictionaries, rulesof grammar, and semantics. is means that languagetechnology (LT) links language to various forms ofknowledge, independently of themedia (speech or text)in which it is expressed. Figure 1 illustrates the LT land-scape.When we communicate, we combine language withother modes of communication and information media– for example speaking can involve gestures and facialexpressions. Digital texts link to pictures and sounds.Movies may contain language in spoken and writtenform. Inotherwords, speech and text technologies over-lap and interact with other multimodal communicationand multimedia technologies.In this section, we will discuss the main applicationareas of language technology, i. e., language checking,web search, speech interaction, and machine transla-tion. ese applications and basic technologies include:

‚ spelling correction

‚ authoring support

‚ computer-assisted language learning

‚ information retrieval

‚ information extraction

‚ text summarisation

‚ question answering

‚ speech recognition

‚ speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. oseinterested in finding out more about it should see thefollowing references: [17, 18, 19, 20, 21].

Before discussing the above application areas, we willbriefly describe the architecture of a typical LT system.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. While such applications tend to bevery complex, figure 2 shows a highly simplified archi-tecture of a typical text processing system. efirst threemodules handle the structure and meaning of the textinput:

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, and so on.

57

Page 65: Lietuvių kalba skaitmeniniame amžiuje

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

1: Language technology in context

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure.

3. Semantic analysis: performs disambiguation (i. e.,computes the appropriate meaning of words in agiven context); resolves anaphora (i. e., which pro-nouns refer to which nouns in the sentence); rep-resents the meaning of the sentence in a machine-readable way.

Aer analysing the text, task-specific modules can per-form other operations, such as automatic summarisa-tion and database look-ups.

In the remainder of this section, wewill firstly introducethe core application areas for language technology, andwill follow this with a brief overview of the state of LTresearch and education today, and a description of pastand present research programmes. Finally, we presentan expert estimate of core LT tools and resources forLithuanian in terms of various dimensions such as avail-ability, maturity and quality. e general situation ofLT for the Lithuanian language is summarised in fig-ure 7 (p. 70) at the end of this chapter. is table listsall tools and resources that are boldfaced in the text. LTsupport for Lithuanian is also compared to other lan-guages that are part of this series.

4.2 CORE APPLICATION AREASIn this section, we focus on themost important LT toolsand resources, and provide an overview of LT activitiesin Lithuania.

4.2.1 Language Checking

Anyone who has used a word processor such as Mi-crosoWord knows that it has a spell checker that high-lights spelling errors and proposes corrections. efirst spelling correction programs compared a list of ex-tracted words against a dictionary of correctly spelledwords. Today these programs are farmore sophisticated.Using language-dependent algorithms for grammaticalanalysis, they detect errors related tomorphology (e. g.,plural formation) as well as syntax–related errors, suchas a missing verb or a conflict of verb-subject agreement(e. g., she *write a letter). However, most spell checkerswill not find any errors in the following text [22]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

is type of analysis either needs to draw on language-specific grammars laboriously coded into the sowareby experts, or on a statistical language model. In this

58

Page 66: Lietuvių kalba skaitmeniniame amžiuje

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

2: A typical text processing architecture

case, a model calculates the probability of a particularword as it occurs in a specific position (e. g., betweenthe words that precede and follow it). For example: en-glische Buch is a much more probable word sequencethan Englisch Buch. A statistical language model can beautomatically created by using a large amount of (cor-rect) language data, a text corpus. Most of these twoapproaches have been developed around data from En-glish. Neither approach can transfer easily to Lithua-nian because the language has a flexible word order anda richer inflection system (ever since 2002, scientists atVytautas Magnus University have worked consistentlywith the statistical model of the Lithuanian language,which has its tools available for download [23]).

Language checking is not limited to word processors;it is also used in “authoring support systems”, i. e., so-ware environments in which manuals and other typesof technical documentation for complex IT, healthcare,engineering and other products, are written. To off-set customer complaints about incorrect use and dam-

age claims resulting from poorly understood instruc-tions, companies are increasingly focusing on the qual-ity of technical documentation while targeting the in-ternational market (via translation or localisation) atthe same time. Advances in natural language process-ing have led to the development of authoring supportsoware, which helps the writer of technical documen-tation to use vocabulary and sentence structures that areconsistentwith industry rules and (corporate) terminol-ogy restrictions.

Language checking is not limited toword processors but also applies to

authoring support systems.

Only a few Lithuanian companies offer products inthis area. In 1992-1994, Fotonija, UAB developed aspellchecking program JuodosAvys, which has been sub-jected to ongoing upgrades. Automated spellcheckingis based on an algorithm that helps avoiding sponta-

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

3: Language checking (statistical; rule-based)

59

Page 67: Lietuvių kalba skaitmeniniame amžiuje

neous correction of a name or title for something else.Erroneous words are recognised and their correct ver-sions are prompted. e program also prompts to cor-rect missing specific Lithuanian characters like š, ž, ū, ė.e spellchecker has an integrated hyphenation tool forLithuanian syllables.

In 2001, a spelling checker for Lithuanian was devel-oped by Tilde IT, UAB. Tilde IT is continuously im-proving its spelling checker and is developing a newgrammar checker that will analyse the sentence struc-ture, identify missing and unnecessary commas or otherpunctuation marks, and check the syntax and lexical er-rors. e grammar checker will operate not only in Mi-croso Office, but also in Open Office and on the In-ternet. It will be easily installable in other programsthat use language items (e. g., enterprise resource man-agement system, e. business solutions, etc.). Users willbe able to try out the new grammar checker in 2012.

Beside spell checkers and authoring support, languagechecking is also important in the field of computer as-sisted language learning. Language checking applica-tions also automatically correct search engine queries, asfound in Google’s Did you mean… prompts.

4.2.2 Web Search

Searching the web, intranets or digital libraries is proba-bly themostwidely used yet largely underdeveloped lan-guage technology application today. e Google searchengine, whichwas launched in 1998, nowhandles about80% of all search queries [24]. Since 2004, the verbgoogeln has even had an entry in the Duden dictionary.eGoogle search interface and results page display hasnot significantly changed since the first version. How-ever, in the current version, Google offers spelling cor-rection for misspelled words and incorporates basic se-mantic search capabilities that can improve search ac-curacy by analysing the meaning of terms in a searchquery context [25]. e Google success story shows

that a large volume of data and efficient indexing tech-niques can deliver satisfactory results using a statisticalapproach to language processing.For more sophisticated information requests, it is essen-tial to integrate deeper linguistic knowledge to facilitatetext interpretation. Experiments using lexical resourcessuch as machine-readable thesauri or ontological lan-guage resources (e. g., WordNet for English or Ger-maNet for German) have demonstrated improvementsin finding pages using synonyms of the original searchterms, such as Atomkra [atomic energy], Kernenergie[atomic power] andNuklearenergie [nuclear energy], oreven more loosely related terms.

The next generation of search engines will haveto integrate much more sophisticated language

technology.

e next generation of search engines will have to inte-gratemuchmore sophisticated language technology, es-pecially to deal with search queries consisting of a ques-tion or other sentence type rather than a list of key-words. For the query, Give me a list of all companies thatwere taken over by other companies in the last five years,a syntactic as well as semantic analysis is required. esystem also needs to provide an index to quickly retrieverelevant documents. A satisfactory answer will requiresyntactic parsing to analyse the grammatical structureof the sentence and determine that the user wants com-panies that have been acquired, rather than companiesthat have acquired other companies. For the expressionlast five years, the systemneeds to determine the relevantrange of years, taking into account the present year. equery then needs to be matched against a huge amountof unstructured data to find the pieces of informationthat are relevant to the user’s request. is process iscalled information retrieval, and involves searching andranking relevant documents. To generate a list of com-panies, the system also needs to recognise a particular

60

Page 68: Lietuvių kalba skaitmeniniame amžiuje

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

4: Web search

string ofwords in a document represents that a companyname, using a process called named entity recognition.

A more demanding challenge is matching a query inone language with documents in another language.Cross-lingual information retrieval involves automati-cally translating the query into all possible source lan-guages and then translating the results back into theuser’s target language.

Now that data can be found in non-textual formats, in-creasingly oen there is a need for services that delivermultimedia information retrieval by searching images,audio files and video data. In the case of audio andvideo files, a speech recognition module must convertthe speech content into text (or into a phonetic rep-resentation) that can then be matched against a userquery.

In terms of the Lithuanian language, such technologyis only in its early stage of development. Research andprojects related to this area are conducted by Vytau-tas Magnus University (project Semantic Engine for In-formation Management is supported by EU Structural

Funds within the programme of economic growth ac-tivities), the Institute of Mathematics and Informat-ics of the University of Vilnius, Kaunas University ofTechnology. Several IT companies, such as Sintagma,UAB that has designed the document handling systemAvilys are taking their first steps in the field of designingontologies, knowledge and document handling. TildeIT, UAB has been developing semantic system projectssince 2008 and is currently involved in the linguistic se-mantic network project SemTi as well as the interna-tional project SOLIM (Spatial Ontology Language forMultimedia InformationModeling). Implementation ofontologies for some areas, like in library science is onlynow gaining speed.

So far, any efforts in this area have been fragmented andany greater breakthrough is expected from the 2009-2013 programme of the Lithuanian Language in In-formation Society as initiated by the government ofthe Republic of Lithuania, which programme envis-ages the development of tools designed to accommodatethe providing of the syntactic/semantic analysis service,

61

Page 69: Lietuvių kalba skaitmeniniame amžiuje

analysing Lithuanian website content, using it as a filterin searches, etc.

4.2.3 Speech Interaction

Speech interaction is one of many application areas thatdependon speech technology, i. e., technologies for pro-cessing spoken language. Speech interaction technol-ogy is used to create interfaces that enable users to in-teract in spoken language instead of using a graphicaldisplay, keyboard and mouse. Today, these voice userinterfaces (VUI) are used for partially or fully auto-mated telephone services provided by companies to cus-tomers, employees or partners. Business domains thatrely heavily on VUIs include banking, supply chain,public transportation, and telecommunications. Otheruses of speech interaction technology include interfaceswith car navigation systems and the use of spoken lan-guage as an alternative to the graphical or touchscreeninterfaces in smartphones.Speech interaction technology comprises four tech-nologies:

1. Automatic speech recognition (ASR) determineswhich words are actually spoken in a given sequenceof sounds uttered by a user.

2. Natural language understanding analyses the syntac-tic structure of a user’s utterance and interprets it ac-cording to the system in question.

3. Dialogue management determines which action totake given the user input and system functionality.

4. Speech synthesis (text-to-speech or TTS) trans-forms the system’s reply into sounds for the user.

One of the major challenges for ASR systems is to ac-curately recognise the words a user utters. is meansrestricting the range of possible user utterances to alimited set of keywords, or manually creating languagemodels that cover a large range of natural language ut-terances. Using machine learning techniques, language

models can also be generated automatically from speechcorpora, i. e., large collections of speech audio files andtext transcriptions. Restricting utterances usually forcespeople to use the voice user interface in a rigid way andcan damage user acceptance; but the creation, tuningand maintenance of rich language models will signifi-cantly increase costs. VUIs that employ language mod-els and initially allow a user to express their intent moreflexibly — prompted by a How may I help you? greet-ing — tend to be automated and are better received byusers.

Speech interaction is the basis for interfaces thatallow a user to interact with spoken language.

Companies tend to use utterances pre-recorded by pro-fessional speakers for generating the output of the voiceuser interface. For static utterances where the word-ing does not depend on particular contexts of use orpersonal user data, this can deliver a rich user experi-ence. But more dynamic content in an utterance maysuffer from unnatural intonation because different partsof audio files have simply been strung together. roughoptimisation, today’s TTS systems are getting better atproducing natural-sounding dynamic utterances.Interfaces in speech interaction have been considerablystandardised during the last decade in terms of their var-ious technological components. ere has also beenstrong market consolidation in speech recognition andspeech synthesis. enationalmarkets in theG20 coun-tries (economically resilient countries with high popu-lations) have been dominated by just five global play-ers, withNuance (USA) andLoquendo (Italy) being themost prominent players in Europe. In 2011,Nuance an-nounced the acquisition of Loquendo, which representsa further step in market consolidation.Research into speech technology in Lithuania has beencarried out at Kaunas University of Technology since

62

Page 70: Lietuvių kalba skaitmeniniame amžiuje

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

5: Speech-based dialogue system

1980, with the Institute of Mathematics and Informat-ics of the University of Vilnius working in this fieldfor many years as well; research in this area has beenlaunched at Vytautas Magnus University too.

In the Speech Research Laboratory (Kaunas Universityof Technology), ASR research was first started in 1980.e Laboratory has developed a corpus of commandsand digital sequences. Lithuanian computer dialogs arebeing developed and a Lithuanian speech corpus, LT-DIGITS, has been compiled and is now undergoingimprovements. It contains continuous digit sequencesand Lithuanian computer control words. Characteris-tics of Lithuanian speech are being researched at the In-stitute of Mathematics and Informatics of the Univer-sity of Vilnius, which has compiled a corpus of broad-cast news called LRNO. A universal corpus of spokenLithuanianhas been compiledbyVytautasMagnusUni-versity, which also compiles corpora of a smaller ex-tent, like those designed to study the language, suchas SACODEYL, a corpus of spoken teenager language,etc., and research automated segmentation of spokenLithuanian; development of automated transcription ofspoken Lithuanian language is underway as well.

Even though speech recognition research continueswith the aim of improving the quality of this service,ASR soware already has found successful applicationin law enforcement, telephony, education, transport,the Internet, etc.

Investigations in the text-to-speech synthesis and its ap-plication for the blind and partially sighted were car-ried out at Vilnius University. e most importantcomponents of the Lithuanian text-to-speech synthe-siser Aistis are: a) the automatic division of Lithuanianwords into syllables; b) the automatic stressing of wordsin a Lithuanian text; c) the automatic transcription ofLithuanian text; d) a phonetic units base; e) Lithuaniantext-to-speech synthesis quality evaluation. It is easilyaccessible and developed with a focus on applicationsfor user groups with specific demands, such as physi-cally handicapped people and the elderly. e synthe-siser MBROLA is easily accessible on the Internet andruns on a base of phonetic units developed at theVilniusUniversity by Aleksas Girdenis and Pijus Kasparaitis.

e components ofAistiswere used in the developmentof the Lithuanian language synthesiserWinTalker Voicewith two voices, Gintaras and Aistis2, which was pro-duced by the Czech company Rosaso on order fromthe Lithuanian Association of the Blind and PartiallySighted (there are a total of some 7,000 people with spe-cial needs in Lithuania and as of March 1, 2010 therewere 258 blind persons using computers across Lithua-nia). Another free TTS synthesiser has been developedby Etalinkas, UAB. e synthesiser runs under Win-dows and Linux OS.

For the purposes of speech recognition, Vytautas Mag-nus University has developed corpus-based statistical

63

Page 71: Lietuvių kalba skaitmeniniame amžiuje

models of the Lithuanian language, a prototype of acontinuous speech recognition tool that encompassesmore than 1 million word forms, an automated accen-tuation programme with unambiguous homographs,which is available on the Internet, and models of dura-tions of the Lithuanian language sounds.Looking ahead, there will be significant changes, due tothe spread of smartphones as a new platform for man-aging customer relationships, in addition to fixed tele-phones, the Internet and e-mail. is will also affecthow speech interaction technology is used. In the longterm, there will be fewer telephone-based VUIs, andspoken language apps will play a far more central roleas a user-friendly input for smartphones. is will belargely driven by stepwise improvements in the accu-racy of speaker-independent speech recognition via thespeech dictation services already offered as centralisedservices to smartphone users.

4.2.4 Machine Translation

e idea of using digital computers to translate naturallanguages can be traced back to 1946 and was followedby substantial funding for research during the 1950s andagain in the 1980s. Yetmachine translation (MT) stillcannot deliver on its initial promise of providing across-the-board automated translation.

At its basic level, Machine Translation simplysubstitutes words in one natural language with

words in another language.

e most basic approach to machine translation is theautomatic replacement of the words in a text writtenin one natural language with the equivalent words ofanother language. is can be useful in subject do-mains that have a very restricted, formulaic languagesuch as weather reports. However, in order to produce agood translation of less restricted texts, larger text units

(phrases, sentences, or even whole passages) need to bematched to their closest counterparts in the target lan-guage. e major difficulty is that human language isambiguous. Ambiguity creates challenges on multiplelevels, such as word sense disambiguation at the lexicallevel (a jaguar is a brand of car or an animal) or the as-signment of case on the syntactic level, for example:

‚ I was happy to read a book.

‚ Aš buvau laimingas:

1. perskaitęs knygą.

2. skaitydamas knygą.

3. galėdamas perskaityti knygą.

One way to build an MT system is to use linguis-tic rules. For translations between closely related lan-guages, a translation using direct substitution may befeasible in cases such as the above example. However,rule-based (or linguistic knowledge-driven) systems of-ten analyse the input text and create an intermediarysymbolic representation fromwhich the target languagetext can be generated. e success of these methods ishighly dependent on the availability of extensive lex-icons with morphological, syntactic, and semantic in-formation, and large sets of grammar rules carefully de-signed by skilled linguists. is is a very long and there-fore costly process.In the late 1980s, when computational power increasedand became cheaper, interest in statistical models formachine translation began to grow. Statistical modelsare derived from analysing bilingual text corpora, paral-lel corpora, such as the Europarl parallel corpus, whichcontains the proceedings of the European Parliament in21 European languages. Given enough data, statisticalMT works well enough to derive an approximate mean-ing of a foreign language text by processing parallel ver-sions and finding plausible patterns of words. Unlikeknowledge-driven systems, however, statistical (or data-driven) MT systems oen generate ungrammatical out-

64

Page 72: Lietuvių kalba skaitmeniniame amžiuje

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

6: Machine translation (statistical; rule-based)

put. Data-driven MT is advantageous because less hu-man effort is required, and it can also cover special par-ticularities of the language (e. g., idiomatic expressions)that are oen ignored in knowledge-driven systems.e strengths and weaknesses of knowledge-driven anddata-drivenmachine translation tend to be complemen-tary, so that nowadays researchers focus on hybrid ap-proaches that combine both methodologies. One suchapproach uses both knowledge-driven and data-drivensystems, together with a selection module that decideson the best output for each sentence. However, resultsfor sentences longer than, say, 12 words, will oen befar from perfect. A more effective solution is to com-bine the best parts of each sentence from multiple out-puts; this can be fairly complex, as corresponding partsof multiple alternatives are not always obvious and needto be aligned.

Machine Translation is particularly challengingfor the Lithuanian language.

Machine translation is particularly challenging for theLithuanian language. Free word order and verb con-structions pose problems for analysis, and inflection is achallenge for generating words with proper gender andcase markings.With languages that have a smaller user base, such asthe Baltic languages MT research tools, as well as lan-

guage technologies in general, are less developed. erehave been several activities related to MT in Lithuania.ere are three translation tools currently available onthe web: WIFTA project [26], Google translator andVertimo Vedlys [27]. e first system was developed in2008 in cooperation with the Russian company ProMTand is based on rule-based technology. It performs MTthat takes into account themorphological, syntactic andsemantic properties of texts. is project was finishedsuccessfully. e English-Lithuanian MT system hasbeen in operation at http://vertimas.vdu.lt since 2008.It generates 127 million hits and attracts approximately1 million unique users yearly. Registered users have ac-cess to computer and business thesauruses.

e Corpus of the Modern Lithuanian, which has beencompiled at Vytautas Magnus University and containsap. 140 million words, is open to the public over theInternet [28]. Furthermore, a parallel corpus of theLithuanian language and other languages (English, Ger-man, Czech) is being compiled, other special corporahave beendeveloped aswell (for instance, theUniversityof Vilnius has compiled a Corpus of Academic Lithua-nianCorALit [29]). However, the current corpus of theLithuanian language cannot accommodate the needs ofthe development of modern technologies (like searchfor information, automated translation and other sys-tems) of the Lithuanian language. e existing and fu-ture corpora require soware customised to the Lithua-

65

Page 73: Lietuvių kalba skaitmeniniame amžiuje

nian language that would allowmaking better use of theavailable language resources and the digital descriptionsthat they produce. One of the prerequisites for clas-sical SMT systems is the availability of a large parallelcorpus which computer then uses in the training pro-cess. e lack of a large parallel corpus is the main rea-son why experiments with SMT in the Baltic countrieshave only started recently. e Google MT sowareuses the SMT approach and provides MT for about 30languages, including the Lithuanian language.

Vertimo Vedlys is an experimental machine translationtool developed by the Institute of the Lithuanian Lan-guage in association with Tilde IT, UAB. e trial ver-sion provides translation from Lithuanian to English.e automated translation tool analyses the structureof sentences and automatically prompts a translationof a sentence, its part or individual words. It is basedon SMT and uses Giza ++ and Moses engines. TildeIT is developing a Lithuanian-English machine transla-tion system by integrating statistical and rule-basedMTmethods as well as by applying an innovative processingof multiword expressions. e accuracy of translation is30%. e system is constantly improved. Tilde IT’sMTtool has been used not only for full text translation butalso in cross-lingual search applications.

ere is still a huge potential for improving the qual-ity of MT systems. e challenges involve adapting lan-guage resources to a given subject domain or user area,and integrating the technology into workflows that al-ready have term bases and translation memories. An-other problem is that most of the current systems areEnglish-centred and only support a few languages thatcan be translated to Lithuanian and vice – versa. isleads to friction in the translation workflow and forcesMT users to learn different lexicon coding tools for dif-ferent systems.

Evaluation campaigns help to compare the quality ofMT systems, the different approaches and the status

of the systems for different language pairs. Figure 7(p. 28), whichwas prepared during theECEuromatrix+project, shows the pair-wise performances obtained for22 of the 23 official EU languages (Irish was not com-pared). e results are ranked according to a BLEUscore, which indicates higher scores for better transla-tions [30]. A human translator would normally achievea score of around 80 points.e best results highlighted (in green and blue) wereachieved by languages that benefit from a considerableresearch effort in coordinated programmes and the ex-istence of many parallel corpora (e. g., English, French,Dutch, Spanish and German). e languages withpoorer results are shown in red. ese languages eitherlack such development efforts or are structurally verydifferent from other languages (e. g., Hungarian, Mal-tese and Finnish).

4.3 OTHER APPLICATION AREASBuilding language technology applications involves arange of subtasks that do not always surface at the levelof interaction with the user, but they provide significantservice functionalities “behind the scenes” of the systemin question. ey all form important research issuesthat have now evolved into individual sub-disciplines ofcomputational linguistics.uestion answering, for example, is an active area of re-search for which annotated corpora have been built andscientific competitions have been initiated. e con-cept of question answering goes beyond keyword-basedsearches (in which the search engine responds by de-livering a collection of potentially relevant documents)and enables users to ask a concrete question towhich thesystem provides a single answer. For example:

Question: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

66

Page 74: Lietuvių kalba skaitmeniniame amžiuje

While question answering is obviously related to thecore area of web search, it is nowadays an umbrella termfor such research issues as which different types of ques-tions exist, and how they should be handled; how a setof documents that potentially contain the answer can beanalysed and compared (do they provide conflicting an-swers?); and how specific information (the answer) canbe reliably extracted from a document without ignoringthe context.

Language technology applications often providesignificant service functionalities behind the

scenes of larger software systems.

uestion answering is in turn related to information ex-traction (IE), an area that was extremely popular and in-fluential when computational linguistics took a statis-tical turn in the early 1990s. IE aims to identify spe-cific pieces of information in specific classes of docu-ments, such as the key players in company takeovers asreported in newspaper stories. Another common sce-nario that has been studied is reports on terrorist in-cidents. e task here consists of mapping appropri-ate parts of the text to a template that specifies the per-petrator, target, time, location and results of the in-cident. Domain-specific template-filling is the centralcharacteristic of IE, which makes it another exampleof a “behind the scenes” technology that forms a well-demarcated research area, which in practice needs to beembedded into a suitable application environment.Text summarisation and text generation are two bor-derline areas that can act either as standalone applica-tions or play a supporting role. Summarisation attemptsto give the essentials of a long text in a short form, andis one of the features available in Microso Word. Itmostly uses a statistical approach to identify the “im-portant” words in a text (i. e., words that occur very fre-quently in the text in question but less frequently in gen-

eral language use) and determine which sentences con-tain the most of these “important” words. ese sen-tences are then extracted and put together to create asummary. In this very common commercial scenario,summarisation is simply a form of sentence extraction,and the text is reduced to a subset of its sentences. Analternative approach, for which some research has beencarried out, is to generate brand new sentences that donot exist in the source text.

is requires a deeper understanding of the text, whichmeans that so far this approach is far less robust. On thewhole, a text generator is rarely used as a stand-alone ap-plicationbut is embedded into a larger soware environ-ment, such as a clinical information system that collects,stores andprocesses patient data. Creating reports is justone of many applications for text summarisation.

For Lithuanian, the situation in all these research ar-eas is much less developed than it is with the Englishlanguage: some experiments have been performed onLithuanian text summarization, automatic identifica-tion of educational and scientific terminology (in Vy-tautas Magnus University), etc.

Lithuanian has been included in the internationalprojects that the Latvia-based CIA Tilde carries out.Prototypes of Lithuanian information retrieval engineswere developed as part of FP5 project CLARITY: Aproposal for cross-language information retrieval andorganisation of text and audio documents. e CLAR-ITY cross-language information retrieval system wasdeveloped for the following language pairs: English-Latvian, Latvian-English, German-Latvian, Latvian-German, Russian-Latvian, Latvian-Russian, Lithua-nian English, English-Lithuanian, German-Lithuanian,Lithuanian-German, Lithuanian-Russian and RussianGerman. With respect to the Baltic languages, the re-sults for document retrieval using direct query transla-tion indicate that the average precision can reach a levelof more than 70% compared to monolingual retrieval.

67

Page 75: Lietuvių kalba skaitmeniniame amžiuje

4.4 EDUCATIONALPROGRAMMES

Language technology is a very interdisciplinary fieldthat involves the combined expertise of linguists, com-puter scientists, mathematicians, philosophers, psy-cholinguists, and neuroscientists among others. As a re-sult, it has not acquired a clear, independent existence inthe Lithuanian faculty system. Some universities haveestablished separate centres, e. g., Centre for Computa-tional Linguistics (CL) in Vytautas Magnus University,or laboratories, e. g., the Speech Research Laboratoryin Kaunas University of Technology. Currently, thereis only one curriculum for bachelor studies of Com-putational Linguistics in the Faculty of Humanities inKaunas University of Technologies. e program waslaunched in 2003, and had had 73 graduates by 2010.e steadily rising demand of qualified personnel spe-cialised in the field of language technology cannot bemet by the comparably low number of graduates.

In Vilnius University and Vytautas Magnus Universitysome CL- and LT-related courses are taught as part ofother studies. As of 2011, the Kaunas Humanities Fac-ulty of the University of Vilnius offers master coursesof audiovisual translation. Vytautas Magnus Universityhas had a master programme of digital linguistics since2006 (accredited until 2015). As yet, no university of-fers consistent studies of every level, and therefore thefield of linguistic technologies employs scientists whohave completed linguistic or informatics studies (someof them both).

A scientific research base is being developed and re-sources compiled at the Institute ofMathematics and In-formatics and the Institute of the Lithuanian Language;the latter establishment founded aDigital LanguageRe-sources Laboratory in 2010.

4.5 NATIONAL PROJECTS ANDINITIATIVESA higher degree of expansion of the information soci-ety, a lively interest in language technologies, and thedevelopmentof resources inLithuania only started a fewdecades ago. Since the Lithuanian language has a ratherlimited number of users, the commercial market for lan-guage technologies is not very big and besides, Lithua-nia has no such modern technological giants as BMWorNOKIA, and there aremerely a few commercial busi-nesses operating on the LT field.Most of the initiative and commitment with regard tothe functioning of the Lithuanian language within theinformation society and LT development originates onthe national level. e year 2000 saw the launch of thefirst national programme of the Lithuanian Language inthe Information Society for the period of 2000–2006.e programme was coordinated by the State Commis-sion of the Lithuanian Language and dealt with locali-sation, resource and tool creation, documentation andsome other activities:

‚ ASR expansion, involving research of the traits ofthe Lithuanian speech, development of a proto-type recognition tool for separate spoken words,improvement of the spoken corpus of Lithuanianbroadcast news LRNO, studies of Lithuanian com-puterised voice dialogs, improvement of the qualityof TTS synthesis, development of pilot samples ofapplications of Lithuanian speech technologies, au-tomated segmentationof theLithuanian spoken lan-guage and development of automated transcriptionof the Lithuanian speech.

‚ Standardisation of the Lithuanian language subjectsin IT (e. g., development of the computer font Pale-monas, localisation, etc).

‚ Translation and development of the necessary re-sources and tools, involving the development of a

68

Page 76: Lietuvių kalba skaitmeniniame amžiuje

computerised system for literal translation of spe-cialised texts, development of a parallel corpus ofthe Lithuanian and theCzech languages, as later up-dated, development of a tool of morphological anal-ysis and generation.

‚ Workhas been started in the field of syntactic and se-mantic analysis of texts in the Lithuanian language.

e Information Society Development Committee un-der the Ministry of Transport and Communications isresponsible for the second phase of the program of theLithuanian Language in the Information Society 2009-2013. e programme provides for the creation of anInternet portal with free access to all the available lan-guage resources and technologies, augmentation of theexisting andnewly created linguistic resources, improve-ment of the ASR andTTS technologies, newMT tools,improvement and development of semantic and syntac-tic analysis and search tools.Research any resource generation in this area is pro-moted as well. e Research Council of Lithuania haslaunched the first national program ”State and Nation:Heritage and Identity” that encompasses digitalizationof intangible heritage (this program saw the implemen-tation of the project called ”Development of a Lituanis-tic Digital Resource Metadata System and its Compati-bility withCLARIN”). Recently, the ResearchCouncilof Lithuania also finances the programme for theDevel-opment of National Lituanistics 2009–2015, aimed atdeveloping and promoting lituanistic research, helpingmeet the priority of lituanistic research, strengtheningthe input of lituanistic research data into the overall ex-pansion of nation-wide humanistic, providing a scien-tific base for nurturing national self-consciousness andprotecting lituanistic heritage. Companies doing busi-ness on the field of language technology are few and in-cludeTilde IT, Fotonija,MicrosoLietuva, CIDBaltic,Synergium, Sintagma, TokenMill, HLTech. Tilde IT,UAB is the clear leader in the area of language tech-

nology, with 12 years of experience of operating on theLithuanian market. e company is giving a lot of at-tention to soware localisation, translations of techni-cal documentation, development of soware to supportthe Lithuanian language. Tilde IT is one of the largestproviders of localisation services in Lithuania. e com-pany works together with international localisation andtranslation companies on a continuous basis.

At this time, Tilde IT is engaged in improving the qual-ity of machine translation and the development and up-grade of spellchecking systems. e company initiatesresearch and technological development projects aimedat developing prototype soware in cooperation withthe Institute of the Lithuanian Language and the Insti-tute of Mathematics of Informatics, as well as the Philo-logical Faculty of the University of Vilnius.

Tilde IT has been conducting semantic system projectssince 2008. Since Tilde IT is involved in providing ma-chine translation technologies for the Europeanmarket,the new technology will be used as an addition to theset of techniques that improve machine translation re-sults. Tilde IT aims to create a database of links be-tween Lithuanian words, also known as a linguistic se-mantic database. A Lithuanian semantic web wouldgreatly help marketing professionals because it wouldhelp to predict public reaction to the proposed prod-uct promotions, packaging or name. erefore, such athinking map can be used to create new products andthe generation of new or original ideas. One word canhave more than 15 synonyms, although ordinarily peo-ple only know just 5 to 6 of them. A detailed semanticweb will help save the Lithuanian language’s synonymicdiversity.

Tilde IT has joined SOLIM (Spatial Ontology Lan-guage for Multimedia Information Modelling) projectof the Eurostars program. e project is aimed to im-prove context aware information analysis to venture be-yond a static world, by adding the concepts of space and

69

Page 77: Lietuvių kalba skaitmeniniame amžiuje

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Tools, Technologies and Applications

Speech recognition 2 0 2 1 1 0 2

Speech synthesis 3 2 2,5 2,5 1,5 1 2

Grammatical analysis 2 1,5 2,5 2 1,5 1 2

Semantic analysis 1,3 1 1,3 1 0 0 0,3

Text generation 0 0 0 0 0 0 0

Machine translation 2 3 2,5 2,5 2 2 2

Language Resources (Resources, Data and Knowledge Bases)

Text corpora 1,5 1,5 2,5 2,5 2 2,5 2,5

Speech corpora 2 1 2 2 1 1 2

Parallel corpora 2 2 1,5 1,5 2 2 4

Lexical resources 2,5 2 2,5 2 2 0,5 2,5

Grammars 0 0 0 0 0 0 0

7: State of language technology support for Lithuanian

change. e goal of the project is to extend theWebOn-tology Language OWL to support effective storage andreasoning on spatial information, and to demonstratethe power of such extension for automatic processing oftextual and graphical information in real proof of con-cept applications.

As of 1991, Fotonija, UAB has been integratingLithuanian into computers by developing and upgrad-ing drivers (WinLika, Lika), designing a Lithuanianfont dubbed Aistika, the text management applicationMainukai, the document converter, the text creation,editing and proofing application, and the spellcheckerJuodos Avys. An important area of Fotonija’s business isthe development of monolingual and multilingual dic-tionaries, which include the international dictionary In-terleksis, TŽŽ, the English-Lithuanian dictionary An-glonas, and its French counterpart, Frankonas.

ere are other companies engaging in localisation, on-tology development and other LT projects as well, in-cludingMicroso Lietuva, CIDBaltic, Synergium, Sin-tagma, TokenMill, HLTech,and so on.As we have seen, previous programmes have led to thedevelopment of a number of LT tools and resourcesfor the Lithuanian language. In the following section,the current state of LT support for Lithuanian is sum-marised.

4.6 AVAILABILITY OF TOOLSAND RESOURCESFigure 7 provides a rating for language technology sup-port for the Lithuanian language. is rating of existingtools and resources was generated by leading experts inthe field who provided estimates based on a scale from

70

Page 78: Lietuvių kalba skaitmeniniame amžiuje

0 (very low) to 6 (very high) using seven criteria. ekey results for Lithuanian language technology can besummed up as follows:

‚ Research has successfully led to the design ofmedium-quality soware for basic text analysis, suchas tools for morphological analysis and syntacticparsing. But advanced technologies that requiredeep linguistic processing and semantic knowledgeare still in their infancy.

‚ e more linguistic and semantic knowledge a tooltakes into account, the more gaps exist (see, e. g., in-formation retrieval, text semantics, etc.), and moreefforts for supporting deep linguistic processing areneeded.

‚ While some specific corpora of comparably goodquality exist, they are not fully developed, some ofthem are available only via specialised, individual ac-cess tools, or even inaccessible. A very large syntac-tically annotated corpus is not available.

‚ Many of these tools, resources and data formats donotmeet industry standards and cannot be sustainedeffectively. A concerted programme is required tostandardise data formats and APIs.

‚ ere is a lack of parallel corpora for machine trans-lation. Translation from Lithuanian to Englishworks best because this language pair has the mostdata available.

‚ ere is a huge gap in multimedia data.

In a number of specific areas of Lithuanian languageresearch, we have soware with limited functionalityavailable today. Advanced tools, like treebanks, lex-ical semantic knowledge base or taxonomies of con-cepts, such as WordNet are yet to be designed for theLithuanian language. Even though automated transla-tion tools have recently been developed, the most ad-vanced resources, or general applications, are only enter-ing the phase of development [32]. Obviously, further

researchwill probably fill in the gap of detailed semanticanalysis of texts and see to it that the missing resources,such as parallel texts for machine translation, WordNet,etc. are compiled.

4.7 CROSS-LANGUAGECOMPARISONecurrent state of LT support varies considerably fromone language community to another. In order to com-pare the situation between languages, this section willpresent an evaluation based on two sample applica-tion areas (machine translation and speech processing)and one underlying technology (text analysis), as wellas basic resources needed for building LT applications.e languages were categorised using the following five-point scale:

1. Excellent support

2. Good support

3. Moderate support

4. Fragmentary support

5. Weak or no support

LTsupportwasmeasured according to the following cri-teria:Speech Processing: uality of existing speech recog-nition technologies, quality of existing speech synthesistechnologies, coverage of domains, number and size ofexisting speech corpora, amount and variety of availablespeech-based applications.Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, coverage oflinguistic phenomena and domains, quality and size ofexistingparallel corpora, amount andvariety of availableMT applications.Text Analysis: uality and coverage of existing textanalysis technologies (morphology, syntax, semantics),

71

Page 79: Lietuvių kalba skaitmeniniame amžiuje

coverage of linguistic phenomena and domains, amountand variety of available applications, quality and size ofexisting (annotated) text corpora, quality and coverageof existing lexical resources (e. g., WordNet) and gram-mars.

Resources: uality and size of existing text corpora,speech corpora and parallel corpora, quality and cover-age of existing lexical resources and grammars.

Figures 8 to 11 show that Lithuanian is falling behindthe LT leaders, such as the English language, whichis in the lead in almost all LT areas. When it comesto clusters, it is faced with other European languagesthat have fewer users and are hence not so commerciallyattractive, like Latvian, Slovakian, Slovenian. On theother hand, theLithuanian language resources and tech-nologies are developed quite unevenly, for instance, inthe resource domain there are a few rather sizeable ter-minology databases, yet there is no WordNet or the-saurus. Moreover, no Lithuanian grammar suitable forlanguage technologies exists. is inhibits successful de-velopment of language models that could be applied tospecific language technologies.

e extremely low level of semantics research has re-sulted in stunted advancement in the areas of languagegeneration, textual interpretation and analysis. Forspeech processing current technologies perform wellenough to be successfully integrated into a number ofindustrial applications. With speech synthesis researchand application progressing at a quicker pace, speechrecognition still represents a rather more complicatedfield.

However, for building more sophisticated applications,such as machine translation, there is a clear need for re-sources and technologies that cover a wider range of lin-guistic aspects and allow a deep semantic analysis of theinput text. By improving the quality and coverage ofthese basic resources and technologies, we shall be ableto openupnewopportunities for tackling a vast range of

advanced application areas, including high-quality ma-chine translation.

4.8 CONCLUSIONSIn this series of white papers, we have made an impor-tant effort by assessing the language technology supportfor 30 European languages, and by providing a high-leel comparison across these languages. By identifyingthe gaps, needs and deficits, the European language tech-nology community and its related stakeholders are nowin a position to design a large-scale research and develop-ment programme aimed at building a truly multilingual,technology-enabled communication across Europe.e results of this white paper series show that there isa dramatic difference in language technology supportamong the various European languages. While there isgood-quality soware and resources available for somelanguages and application areas, others, usually smallerlanguages, have substantial gaps. Many languages lackbasic technologies for text analysis and the essential re-sources. Others have basic tools and resources but theimplementation of, for example, semantic methods isstill far away. erefore a large-scale effort is needed toattain the ambitious goal of providing high-quality lan-guage technology support for all European languages,for example through high quality machine translation.e situation of Lithuania concerning language tech-nology support gives rise to cautious optimism. egovernment of the Republic of Lithuania has placed anexclusive emphasis ondeveloping language technologiesas evidenced by programmes funded by various govern-mental institutions and the European structural funds’financial resources for the development of LT. A sci-entific base for language technologies is being devel-oped by four universities and two research institutes ofLithuania. Within the business sector, Tilde IT is thekey player on the field of developing the Lithuanian LT.For standard Lithuanian, a number of technologies and

72

Page 80: Lietuvių kalba skaitmeniniame amžiuje

resources exist, albeit much fewer than for English.e Lithuanian language is one of the so-called non-commercial European languages and is therefore facingthe IT challenges and difficulties that are typical of thedevelopment of a less widely used language. e devel-opment of the Lithuanian LT relies heavily on the ex-perience of and assistance from other countries and in-ternational cooperation. On the other hand, developinglanguage technologies is the most important element inthe process of strengthening the functionality, recogni-tion and learning of the Lithuanian language as well asthe dissemination of the Lithuanian culture across themultilingual Europe.From this, it is clear thatmore efforts need to be directedinto the creation of resources for Lithuanian and into re-search, innovation, and development.Our findings show that the only alternative is to make asubstantial effort to create LT resources for Lithuanian,and use them to drive research, innovation and develop-

ment forward. e need for large amounts of data andthe extreme complexity of language technology systemsmakes it vital to develop a new infrastructure and amorecoherent research organization to spur greater sharingand cooperation.Finally there is a lack of continuity in research anddevel-opment funding. Short-term coordinated programmestend to alternate with periods of sparse or zero funding.In addition, there is an overall lack of coordination withprogrammes in other EU countries and at the EuropeanCommission level.e long term goal of META-NET is to enable the cre-ation of high-quality language technology for all lan-guages. is requires all stakeholders - in politics, re-search, business, and society - to unite their efforts. eresulting technology will help tear down the existingbarriers and build bridges between Europe’s languages,paving theway for political and economic unity throughcultural diversity.

73

Page 81: Lietuvių kalba skaitmeniniame amžiuje

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFinnishFrenchGermanItalianPortugueseSpanish

BasqueBulgarianCatalanDanishEstonianGalicianGreekHungarianIrishNorwegianPolishSerbianSlovakSloveneSwedish

CroatianIcelandicLatvianLithuanianMalteseRomanian

8: Speech processing: State of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English FrenchSpanish

CatalanDutchGermanHungarianItalianPolishRomanian

BasqueBulgarianCroatianCzechDanishEstonianFinnishGalicianGreekIcelandicIrishLatvianLithuanianMalteseNorwegianPortugueseSerbianSlovakSloveneSwedish

9: Machine translation: State of language technology support for 30 European languages

74

Page 82: Lietuvių kalba skaitmeniniame amžiuje

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English DutchFrenchGermanItalianSpanish

BasqueBulgarianCatalanCzechDanishFinnishGalicianGreekHungarianNorwegianPolishPortugueseRomanianSlovakSloveneSwedish

CroatianEstonianIcelandicIrishLatvianLithuanianMalteseSerbian

10: Text analysis: State of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFrenchGermanHungarianItalianPolishSpanishSwedish

BasqueBulgarianCatalanCroatianDanishEstonianFinnishGalicianGreekNorwegianPortugueseRomanianSerbianSlovakSlovene

IcelandicIrishLatvianLithuanianMaltese

11: Speech and text resources: State of support for 30 European languages

75

Page 83: Lietuvių kalba skaitmeniniame amžiuje

5

ABOUT META-NET

META-NET is a Network of Excellence partiallyfunded by the European Commission [33]. e net-work currently consists of 54 research centres in 33 Eu-ropean countries. META-NET forgesMETA, theMul-tilingual Europe Technology Alliance, a growing com-munity of language technology professionals and or-ganisations in Europe. META-NET fosters the techno-logical foundations for a trulymultilingual European in-formation society that:

‚ makes communication and cooperation possibleacross languages;

‚ grants all Europeans equal access to information andknowledge regardless of their language;

‚ builds upon and advances functionalities of net-worked information technology.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimulatesand promotes multilingual technologies for all Euro-pean languages. ese technologies support automatictranslation, content production, information process-ing and knowledge management for a wide variety ofsubject domains and applications. ey also enable in-tuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehi-cles to computers and robots. Launched on 1 February2010,META-NEThas already conducted various activ-ities in its three lines of actionMETA-VISION,META-SHARE and META-RESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that centers around a shared vi-sion and a common strategic research agenda (SRA).

e main focus of this activity is to build a coherentand cohesive LT community in Europe by bringing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present white paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peer-to-peer network of repositories will contain language data,tools and web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.META-RESEARCH builds bridges to related tech-nology fields. is activity seeks to leverage advancesin other fields and to capitalise on innovative researchthat can benefit language technology. In particular, theaction line focuses on conducting leading-edge researchin machine translation, collecting data, preparing datasets and organising language resources for evaluationpurposes; compiling inventories of tools and methods;and organising workshops and training events formem-bers of the community.

[email protected] – http://www.meta-net.eu

76

Page 84: Lietuvių kalba skaitmeniniame amžiuje

A

LITERATŪRA REFERENCES

[1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann,Georg Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeital-ter – e German Language in the Digital Age. META-NET White Paper Series. Georg Rehm and HansUszkoreit (Series Editors). Springer, 2012.

[2] User Language Preferences Online (Vartotojo kalbos pasirinkimas internete), 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[3] Multilingualism: anAsset for Europe and a SharedCommitment (Daugiakalbystė –Europos turtas ir bendrasrūpestis), 2008. http://ec.europa.eu/languages/pdf/comm2008_en.pdf.

[4] Intersectoral Mid-term Strategy on Languages and Multilingualism (Tarpsektorinė kalbų ir daugiakalbystėsstrategija), 2007. http://ec.europa.eu/dgs/translation/publications/studies.

[5] Size of the language industry in the EU (Kalbos industrijos mastas Europos Sąjungoje), 2009. http://ec.europa.eu/dgs/translation/publications/studies.

[6] LoretaVaicekauskienė. Naujieji lietuvių kalbos svetimžodžiai (NewBorowings inLithuanian). Lietuvių kalbosinstitutas (Institute of the Lithuanian Language), 2007.

[7] Source: Lietuvos radijo ir televizijos Licencijavimo ir kontrolės skyrius (Licensing and Control Department,Radio and Television Commission of Lithuania).

[8] Source: Nacionalinės Martyno Mažvydo bibliotekos Bibliografijos ir knygotyros centras (Bibliography andBook Science Centre, Martynas Mažvydas National Library of Lithuania).

[9] Lietuvos švietimas. Tik faktai (Education in Lithuania), 2010. http://www.smm.lt/svietimo_bukle/docs/apzvalgos/Lietuvos%20svietimas%202010.pdf.

[10] Bendrosios 2008 m. nacionalinio 6 ir 10 klasių mokinių pasiekimų tyrimo išvados (e general findings ofthe 2008 national 6th and 10th grade student achievement test), 2008. http://www.smm.lt/svietimo_bukle/docs/tyrimai/nmp/2008%20metu%20pagrindines%20tyrimo%20isvados.pdf.

[11] Tarptautinis penkiolikmečių tyrimas. Programme for International Student Assesment OECD PISA 2009,2010. http://www.nec.lt/failai/1810_PISA_Rezultatai.pdf.

77

Page 85: Lietuvių kalba skaitmeniniame amžiuje

[12] Tarptautinio skaitymo gebėjimų tyrimo ataskaita (Progress in International Reading Literacy Study), 2007.http://www.smm.lt/svietimo_bukle/docs/tyrimai/sb/PIRLS_ataskaita.pdf.

[13] Lietuvių kalbos ugdymo bendrojo lavinimo programas vykdančiose mokyklose 2010–2014 metų strategija(e Strategy for Teaching the Lithuanian Language in Comprehensive Schools in 2010–2014), 2010. http://www.smm.lt/ugdymas/docs/Lietuviu%20kalbos%20strategija%20(1).pdf.

[14] 16–74 m. amžiaus asmenys, kurie naudojosi kompiuteriu, internetu (Computer and internet users aged 16 to74), 2011. http://db1.stat.gov.lt/statbank/selectvarval/saveselections.asp.

[15] Investuok Lietuvoje (Invest Lithuania). http://www.investlithuania.com/lt/investuok/isvystyta-infrastruktura.

[16] 2007–2013 m. Ekonomikos augimo veiksmų programa (e economy growth action programme for2007–2013). http://www.esparama.lt/es_parama_pletra/failai/fm/teises_aktai/Stebesenos_komiteto_nutarimai/VP2-2009-05-14.pdf.

[17] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Hagen Langer, and Ralf Klabunde, ed-itors. Computerlinguistik und Sprachtechnologie: Eine Einführung (Computational Linguistics and LanguageTechnology: An Introduction). Spektrum Akademischer Verlag, 2009.

[18] Daniel Jurafsky and James H. Martin. Speech and Language Processing (2nd Edition). Prentice Hall, 2009.

[19] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MITPress, 1999.

[20] Language Technology World (LT World). http://www.lt-world.org/.

[21] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam-polli, editors. Survey of the State of the Art in Human Language Technology (Studies in Natural LanguageProcessing). Cambridge University Press, 1998.

[22] Jerrold H. Zar. Candidate for a pullet surprise. Journal of Irreproducible Results, page 13, 1994.

[23] Statistiniai kalbos modeliavimo įrankiai (Statistical language modeling tools). http://donelaitis.vdu.lt/~airenas.

[24] Google zieht weiter davon. Spiegel Online, 2009. http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html.

[25] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities, 2009. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[26] Mašininio (automatinio) vertimo sistema (English–Lithuanianmachine translation). http://vertimas.vdu.lt.

[27] Mašininio vertimo laboratorija (Machine Translation Laboratory). http://mvlab.lki.lt.

78

Page 86: Lietuvių kalba skaitmeniniame amžiuje

[28] Dabartinės lietuvių kalbos tekstynas (Corpus of the Contemporary Lithuanian Language). http://tekstynas.vdu.lt/tekstynas/.

[29] CorALit: Lietuvių mokslo kalbos tekstynas (CorALit: the Corpus of Academic Lithuanian). http://coralit.lt.

[30] Kishore Papineni, SalimRoukos, ToddWard, andWei-JingZhu. BLEU:AMethod forAutomatic Evaluationof Machine Translation. In Proceedings of the 40th Annual Meeting of ACL, Philadelphia, PA, 2002.

[31] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 machine translation systems for europe. In Pro-ceedings of MT Summit XII, 2009.

[32] Rūta Marcinkevičienė. Two decades of lithuanian hlt. In Proceedings of 17th Nordic Conference of Computa-tional Linguistics, 2009.

[33] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech. MultiLingual,22(3):51–52, April/May 2011.

79

Page 87: Lietuvių kalba skaitmeniniame amžiuje
Page 88: Lietuvių kalba skaitmeniniame amžiuje

B

META-NET NARIAI META-NET MEMBERS

Airija Ireland School of Computing, Dublin City University: Josef van Genabith

Austrija Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Belgija Belgium Computational Linguistics and Psycholinguistics Research Centre, University ofAntwerp: Walter Daelemans

Centre forProcessing Speech and Images,University ofLeuven: Dirk vanCompernolle

Bulgarija Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Čekija Czech Republic Institute of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič

Danija Denmark Centre for Language Technology, University of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

JK UK School of Computer Science, University of Manchester: Sophia Ananiadou

Institute for Language, Cognition and Computation, Center for Speech TechnologyResearch, University of Edinburgh: Steve Renals

Research Institute of Informatics andLanguageProcessing,University ofWolverhamp-ton: Ruslan Mitkov

Estija Estonia Institute of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider

Graikija Greece R.C. “Athena”, Institute for Language and Speech Processing: Stelios Piperidis

Islandija Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson

Ispanija Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, University of the Basque Country:Inma Hernaez Rioja

Center for Language and Speech Technologies and Applications, Universitat Politèc-nica de Catalunya: Asunción Moreno

Department of Signal Processing and Communications, University of Vigo:Carmen García Mateo

Italija Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “AntonioZampolli”: Nicoletta Calzolari

Human Language Technology Research Unit, Fondazione Bruno Kessler:Bernardo Magnini

Kipras Cyprus Language Centre, School of Humanities: Jack Burston

81

Page 89: Lietuvių kalba skaitmeniniame amžiuje

Kroatija Croatia Institute of Linguistics, Faculty of Humanities and Social Science, University of Za-greb: Marko Tadić

Latvija Latvia Tilde: Andrejs Vasiļjevs

Institute ofMathematics andComputer Science, University of Latvia: Inguna Skadiņa

Lenkija Poland Institute of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski,Maciej Ogrodniczuk

University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Department of Computer Linguistics and Artificial Intelligence, Adam MickiewiczUniversity: Zygmunt Vetulani

Lietuva Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Liuksemburgas Luxembourg Arax Ltd.: Vartkes Goetcherian

Malta Malta Department Intelligent Computer Systems, University of Malta: Mike Rosner

Nyderlandai Netherlands Utrecht Institute of Linguistics, Utrecht University: Jan Odijk

Computational Linguistics, University of Groningen: Gertjan van Noord

Norvegija Norway Department of Linguistic, Literary and Aesthetic Studies, University of Bergen:Koenraad De Smedt

Department of Informatics, Language Technology Group, University of Oslo:Stephan Oepen

Portugalija Portugal University of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering andComput-ers: Isabel Trancoso

Prancūzija France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour la Mé-canique et les Sciences de l’Ingénieur and Institute for Multilingual and MultimediaInformation: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Rumunija Romania Research Institute for Artificial Intelligence, Romanian Academy of Sciences:Dan Tufiș

Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea

Serbija Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vranes

Slovakija Slovakia Ľudovít Štúr Institute of Linguistics, Slovak Academy of Sciences: Radovan Garabík

Slovėnija Slovenia Jožef Stefan Institute: Marko Grobelnik

Suomija Finland Computational Cognitive Systems Research Group, Aalto University: Timo Honkela

82

Page 90: Lietuvių kalba skaitmeniniame amžiuje

Department of Modern Languages, University of Helsinki: Kimmo Koskenniemi,Krister Lindén

Švedija Sweden Department of Swedish, University of Gothenburg: Lars Borin

Šveicarija Switzerland Idiap Research Institute: Hervé Bourlard

Vengrija Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Department of Telecommunications and Media Informatics, Budapest University ofTechnology and Economics: Géza Németh, Gábor Olaszy

Vokietija Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen University:Hermann Ney

Department of Computational Linguistics, Saarland University: Manfred Pinkal

Apie šimtą kalbos technologijų ekspertų – META-NET tinkle dalyvaujančių šalių ir kalbų atstovų – diskutavo irapibendrino Baltųjų knygų serijos rezultatus META-NET susitikime Berlyne (2011 m. spalio 21–22 d.) — About100 language technology experts representing the countries and languages covered by META-NET discussedand finalised the key results and messages of the white paper series at a META-NET meeting in Berlin, Germany,on October 21/22, 2011.

83

Page 91: Lietuvių kalba skaitmeniniame amžiuje
Page 92: Lietuvių kalba skaitmeniniame amžiuje

C

META-NET BALTŲJŲKNYGŲ SERIJA

THE META-NETWHITE PAPER SERIES

Airių Irish GaeilgeAnglų English EnglishBaskų Basque euskaraBulgarų Bulgarian българскиČekų Czech češtinaDanų Danish danskEstų Estonian eestiGalisų Galician galegoGraikų Greek εηνικάIslandų Icelandic íslenskaIspanų Spanish españolItalų Italian italianoKatalonų Catalan catalàKroatų Croatian hrvatskiLatvių Latvian latviešu valodaLenkų Polish polskiLietuvių Lithuanian lietuvių kalbaMaltiečių Maltese MaltiNorvegų Bokmål Norwegian Bokmål bokmålNorvegų Nynorsk Norwegian Nynorsk nynorskOlandų Dutch NederlandsPortugalų Portuguese portuguêsPrancūzų French françaisRumunų Romanian românăSerbų Serbian српскиSlovakų Slovak slovenčinaSlovėnų Slovene slovenščinaSuomių Finnish suomiŠvedų Swedish svenskaVengrų Hungarian magyarVokiečių German Deutsch

85

Page 93: Lietuvių kalba skaitmeniniame amžiuje

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the po-tential to overcome these barriers and to provide inno-vative interfaces to technologies and knowledge. Thiswhite paper presents the state of language technologysupport for the Lithuanian language. It is part of a se-ries that analyses the available language resources andtechnologies for 30 European languages. The analysiswas carried out by META-NET, a Network of Excellencefunded by the European Commission. META-NET con-sists of 54 research centres in 33 countries, who cooper-ate with stakeholders from economy, government agen-cies, research organisations and others. META-NET’svision is high-quality language technology for all Euro-pean languages.

Kiekvieną dieną bendraudami tarpusavyje, Europosgyventojai, verslo partneriai ir politikai neišvengiamaisusiduria su kalbos barjerais. Kalbos technologijosgali įveikti tokius barjerus ir pateikti novatoriškų tech-nologinių sąsajų ir žinių. Šioje Baltojoje knygoje pri-statoma lietuvių kalbos technologijų būklė. Tai - Bal-tųjų knygų, kuriose nagrinėjami 30 Europos kalbų iš-tekliai ir technologijos, serijos dalis. Analizę atlikoMETA-NET, Europos Komisijos finansuojamas meis-triškumo tinklas. META-NET tinklą sudaro 54 moksli-nių tyrimų centrai 33 šalyse, bendradarbiaujantys suverslo atstovais, vyriausybinėmis institucijomis, tyrimųorganizacijomis ir kitokiomis suinteresuotomis šalimis.META-NET tinklo vizija – sukurti kokybiškų kalbostechnologijų, skirtų visoms Europos kalboms.

“Having preserved a close link with the old Indo-European parent languages, the Lithuanian language todaysatisfies the needs of the modern society perfectly well. However, active users of the Lithuanian language onlyamount to several million. Conserving it for future generations is a responsibility of the whole of the EuropeanUnion. How we proceed with developing information technology will pretty much determine the future of theLithuanian language.”— Andrius Kubilius (Prime Minister of the Republic of Lithuania)