white paper series Серија белих књига the serbian СРПСКИ ... ·...

92
White Paper Series THE SERBIAN LANGUAGE IN THE DIGITAL AGE Серија белих књига СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ Duško Vitas Ljubomir Popović Cvetana Krstev Ivan Obradović Gordana Pavlović-Lažetić Mladen Stanojević

Upload: others

Post on 07-Jan-2020

22 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

White Paper Series

THE SERBIANLANGUAGE IN

THE DIGITALAGE

Серија белих књига

СРПСКИЈЕЗИК УДИГИТАЛНОМДОБУ

Duško VitasLjubomir PopovićCvetana KrstevIvan ObradovićGordana Pavlović-LažetićMladen Stanojević

Page 2: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме
Page 3: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

White Paper Series

THE SERBIANLANGUAGE IN

THE DIGITALAGE

Серија белих књига

СРПСКИЈЕЗИК УДИГИТАЛНОМДОБУ

Duško Vitas University of Belgrade

Ljubomir Popović University of Belgrade

Cvetana Krstev University of Belgrade

Ivan Obradović University of Belgrade

Gordana Pavlović-Lažetić University of Belgrade

Mladen Stanojević University of Belgrade

Georg Rehm, Hans Uszkoreit(уредници, editors)

Page 4: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

ПРЕДГОВОР PREFACE

Ова ела књига је део серије која промовише знање is white paper is part of a series that promotesо језичким технологијама и њиховим могућно- knowledge about language technology and its poten-стима. Намењена је наставницима језика, новина- tial. It addresses journalists, politicians, language com-рима, политичарима, језичким заједницама и дру- munities, educators and others. e availability andгима. Покривеност језичким технологијама и на- use of language technology in Europe varies betweenчин њихове употрее се у Европи разликују од је- languages. Consequently, the actions that are requiredзика до језика. Зог тога се разликују и активности to further support research and development of lan-које је потрено спровести да и се подржала истра- guage technologies also differ. e required actionsживањаиразвој, а неопходникораци зависе одмно- depend on many factors, such as the complexity of aгих фактора, као што су сложеност језика или вели- given language and the size of its community.чина заједнице која га користи. Пројекат МЕТА- META-NET, a Network of Excellence funded by theНЕТ, мрежа изврсности коју финансира Европска European Commission, has conducted an analysis ofкомисија, спровео је анализу текућих језичких ре- current language resources and technologies in thisсурса и технологија. Анализа је ила усмерена на white paper series (p. 84). e analysis focuses on the23 званична европска језика, као и на друге значајне 23 official European languages as well as other impor-националне и регионалне језике у Европи. Резул- tant national and regional languages in Europe. e re-тати анализе сугеришу постојање многих значајних sults of this analysis suggest that there are tremendousпразнина у истраживањима за сваки језик. Детаљ- deficits in technology support and significant researchнија експертска анализа и процена текуће ситуације gaps for each language. e given detailed expert anal-за сваки језик помоћи ће да се повећа утицај нових ysis and assessment of the current situation will helpистраживања и умање могући ризици. Према стању maximise the impact of future research.из новемра 2011, META-НЕТ повезује 54 истра- As of November 2011, META-NET consists of 54живачка центра из 33 земље (стр. 81), који сарађују research centres in 33 European countries (p. 81).са заинтересованим странама из сфера предузетни- META-NET is working with stakeholders from econ-штва, државних институција, привреде, истражи- omy (soware companies, technology providers andвачких организација, софтверских компанија, по- users), government agencies, research organisations,нуђача технологија и европских универзитета. Они non-governmental organisations, language communi-заједно граде технолошку визију кроз развој стра- ties and European universities. Together with theseтешкихистраживачкихпрограма којипоказују како communities,META-NET is creating a common tech-ће примене језичких технологија попунити посто- nology vision and strategic research agenda for multi-јеће празнине у истраживањима до 2020. године. lingual Europe 2020.

III

Page 5: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

META-NET – [email protected] – http://www.meta-net.eu

Захваљујемо се ауторима еле књиге о немачком језику [1]што су дозволили да језичкинезависне деловењиховог тек-ста користимо у овом раду.

Израду ове еле књиге финансирали су Седмиоквирни програм (FP7) и Програм подршке поли-тици информационо-комуникационих технологијаЕвропске комисије преко уговора T4ME (Уговор офинансирању 249 119), CESAR (Уговор о финансирању271 022), METANET4U (Уговор о финансирању 270 893)и META-NORD (Уговор о финансирању 270 899).

e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

e development of this White Paper has been funded by theSeventh Framework Programme and the ICT Policy SupportProgramme of the European Commission under the contractsT4ME (Grant Agreement 249 119), CESAR (Grant Agree-ment 271 022), METANET4U (Grant Agreement 270 893)and META-NORD (Grant Agreement 270 899).

IV

Page 6: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

САДРЖАЈ CONTENTS

СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ

1 Резиме 1

2 Опасност по наше језике и изазови пред језичким технологијама 42.1 Језичке границе представљају сметњу за европско информационо друштво . . . . . . . . . . 52.2 Наши језици су угрожени . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Језичке технологије су кључне потпорне технологије . . . . . . . . . . . . . . . . . . . . . . . . 62.4 Могућности језичких технологија . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Изазови пред језичким технологијама . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6 Усвајање језика код људи и машина . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Српски језик у европском информационом друштву 103.1 Општи подаци . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.2 Специфичности српског језика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3 Савремени развој . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4 Неговање језика у Србији . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.5 Језик и образовање . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.6 Међународни аспекти . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.7 Српски језик на интернету . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Jезичкe технологијe за српски језик 204.1 Архитектуре апликација . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.2 Основна поља примене . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.3 Друге области примене . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.4 Образовни програми . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.5 Национални пројекти и иницијативе . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.6 Доступност алата и ресурса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.7 Поређење језика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.8 Закључци . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5 МЕТА-НЕТ (META-NET) 40

Page 7: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

THE SERBIAN LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 41

2 Languages at Risk: a Challenge for Language Technology 432.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 442.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 442.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 The Serbian language in the European Information Society 483.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.2 Particularities of the Serbian Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.4 Official Language Protection in Serbia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.7 Serbian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4 Language Technology Support for Serbian 584.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 714.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5 About META-NET 76

A Литература --- References 77

B Чланице МЕТА-НЕТ-а --- META-NET Members 81

C МЕТА-НЕТ серија белих књига --- The META-NET White Paper Series 84

Page 8: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

1

РЕЗИМЕ

У последњих 60 година Европа је постала једин-ствена политичка и економска структура, мада је кул-турно и језички веома разноврсна. То значи да је, одпортугалског до пољског, од италијанског до исланд-ског, свакодневна комуникација становника Европе,као и комуникација у сфери пословања и политике,нужно суочена са језичким препрекама. Институ-ције Европске уније троше око милијарду евра го-дишње на одржавање своје политике вишејезично-сти, тј. на превођење текстова и говорне комуника-ције. Питање које се поставља јесте да ли је толикооптерећење неопходно. Модерне језичке техноло-гије и лингвистичка истраживања могу значајно дадопринесу рисању језичких граница. Језичке тех-нологије у коминацији са интелигентним уређајимаи апликацијама могу у удућности да помогну Евро-пљанима да се међусоно споразумевају једноставнои лако и да оављају послове и кад не говоре истимјезиком.

Jeзичке технологије градемостове за европску будућност.

Главни трговинскипартнериСрије су земљеЕвроп-ске уније, са уделом од преко 50% у укупној трговин-ској размени, при чему је извоз из Срије на тржи-ште ЕУ ослоођен царине у складу са Споразумомо стаилизацији и придруживању. Али језичке пре-преке могу да зауставе пословање, посено за СМП(средња и мала предузећа) која немају финансијскихсредстава да их превазиђу. Једина (незамислива) ал-

тернатива за вишејезичну Европу ила и да један је-зик почне да доминира и на крају замени све осталејезике.Један традиционални начин превазилажења језич-ких аријера јесте учење страних језика. Међутим,ез технолошке подршке, савладавање 23 званичнајезика земаља чланица Европске уније и око 60 дру-гих европских језика, за становнике Европе предста-вља непремостиву препреку, аш као и за њену еко-номију, политичке деате и научни напредак.Решење лежи у изградњи кључних потпорних тех-нологија. Оне ће европским актерима понудитиогромне предности, не само у оквиру заједничкогевропског тржишта већ и у трговинским односимаса трећим земљама, посено са привредама које серзо развијају. Да и се постигао тај циљ и очу-вала европска културна и језичка разноврсност, не-опходно је да се прво спроведе систематска анализајезичких специфичности свих европских језика, каои текућег стања њихове опремљености језичким тех-нологијама. На тај начин ће језичке технологије по-служити као јединствени мост међу европским јези-цима.

Језичке технологије као решење за будућност.

Алати за аутоматско превођење и ораду говора којисе могу наћи на тржишту још увек не омогућавајуостварење овог амициозног циља. Главни актери наовомпољу супре свега приватнапрофитнапредузећаиз Северне Америке. Још крајем 1970-их Европска

1

Page 9: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

унија је препознала суштински значај језичких тех-нологија као покретача европског јединства, и по-чела је са финансирањем првих истраживачких про-јеката као што је ио пројекат EUROTRA. У истовреме, започели су национални пројекти, који судали вредне резултате, али нису покренули и зајед-ничку усклађену европску акцију. Насупрот овимпојединачним и неповезаним напорима у финанси-рању, друга вишејезична друштва, као што суИндија(22 званична језика) и Јужна Африка (11 званичнихјезика) [2], недавно су почела дугорочне националнепрограме језичких истраживања и технолошког ра-звоја.

Данас се главни актери на подручју језичких тех-нологија ослањају на непрецизне статистичке при-ступе, који не користе дуље лингвистичке методе изнања. На пример, реченице се аутоматски преводетако што се нове реченице пореде са хиљадама прет-ходно „ручно” преведених реченица. Квалитет ре-зултата у великој мери зависи од квантитета и квали-тета расположивог корпуса узорака. Мадамашинскопревођење једноставних реченица може да пружиупотрељиве резултате у језицима са довољном ко-личином расположивог текстуелног материјала, овеплитке статистичке методе нужно доживљавају неу-спех у случају језика са мањим оимом узорака или услучају реченица комплексне структуре.

Европска унија је зог тога одлучила да финансирапројекте као што су EuroMatrix и EuroMatrixPlus (од2006) и iTranslate4 (од 2010) који спроводе основнаи примењена истраживања и стварају ресурсе зауспостављање језичкотехнолошких решења високогквалитета за све европске језике. Анализа дуљихструктурних својстава језика је једининачинда сеиз-граде апликације које дају доре резултате на целомраспону европских језика.

Европска истраживања у овој оласти већ су по-стигла ројне успехе. На пример, преводилачки

сервиси Европске уније користе софтвер отвореногкода за машинско превођење MOSES, који је прете-жно развијен кроз европске истраживачке пројекте.Суштински проој у оласти синтезе и препозна-вања говора на српском језику начинила је група саФакултета техничких наука Универзитета у НовомСаду. Развијен је низ апликација у оласти TTS иASR на ази говорних и лексичких аза података ак-центованих олика речи. Препознавање и генери-сање говора за српски комерцијализовала је фирмаAlfaNum која је потекла са Универзитета у НовомСаду. AlfaNum има значајан рој корисника међусрпским фирмама. С друге стране, први корпус са-временог српског језика, електронски морфолошкиречник, паралелни француско-српски и енглеско-српски корпуси литерарних текстова, као и разли-чити софтверски алати развијени су у оквиру зајед-ничких пројеката Математичког факултета и Одсеказа српски језик Филолошког факултета у Београду.

Језичке технологијепомажу уједињењу Европе.

Према увиду у досадашње стање, сви су изгледи даће „хиридне” језичке технологије које коминују ду-инску ораду са статистичким методама ити у мо-гућности да премосте јаз између свих европских је-зика, и шире. Како показује ова серија елих књига,постоји драматична разлика у степену припремље-ности када су у питању језичка решења и стање ис-траживања међу европским језицима. Српски језикје један од „мањих” европских језика и потрена судаљаистраживања која ће омогућити да ефикасна ре-шења која нуде језичке технологије уђу у свакодневнуупотреу.Дугорочни циљ МЕТА-НЕТ-а јесте да уведе језичкетехнологије високог квалитета за све језике, како исе постигло политичко и економско јединство кроз

2

Page 10: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

културну разноврсност. Те технологије ће помоћида се уклоне постојеће аријере и да се изграде мо-стови међу европским језицима. Ово захтева од свихзаинтересованих учесника – у политици, истражи-вању, привреди и друштву – да уједине своје напореза удућност. Ова серија елих књига допуњује друге

стратешке активности које предузима МЕТА-НЕТ(видети преглед у додатку). Ажурне информацијекао што су текућа верзија текста МЕТА-НЕТ визије[2] или стратешкиистраживачкипланрада (StrategicResearch Agenda, SRA) могу се наћи на META-НЕТве локацији: http://www.meta-net.eu.

3

Page 11: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

2

ОПАСНОСТ ПО НАШЕ ЈЕЗИКЕИ ИЗАЗОВИ ПРЕД ЈЕЗИЧКИМТЕХНОЛОГИЈАМА

Сведоци смо дигиталне револуције која драматичноутиче на комуникацију и друштво. Најновија до-стигнућа на подручју дигиталних информационих икомуникационих технологија могу да се пореде саГутенерговим изумом штампарске пресе. Шта овааналогија може да нам каже о удућности европскогинформационог друштва и посено наших језика?

Дигитална револуција се може упоредити саГутенберговим изумом штампарске пресе.

После Гутенерговог изума, стварне продоре у кому-никацији и размени знања остварила су дела каоштоје ио Лутеров превод Билије. Током наредних ве-кова у култури су развијене технике за ољу орадујезика и размену знања:

‚ правописна и граматичка стандардизација већихјезика омогућила је рзо преношење нових науч-них и интелектуалних идеја;

‚ развој званичних језика омогућио је становни-цима да међусоно комуницирају унутар (честополитичких) граница;

‚ подучавање и превођење језика омогућило је ко-муникацију која превазилази језичке границе;

‚ стварање уредничких и илиографских упут-става оезедило је квалитет и расположивостштампаног материјала;

‚ појавом различитих медија, као што су новине,радио, телевизија, књиге и други олици, задово-љене су различите потрее за комуникацијом.

У последњих двадесет година информационе техно-логије помогле су да се аутоматизују и поједноставеројни процеси:

‚ софтвер за стоно издаваштво је заменио писаћумашину и слагање текста;

‚ Microsoft PowerPoint је заменио графоскопскефолије;

‚ документа се шаљу и примају електронском по-штом често рже него факс машином;

‚ Skype се користи за јефтино телефонирање прекоинтернета и организовање виртуелних састанака;

‚ формати аудио и видео записа олакшавају раз-мену мултимедијалних садржаја;

‚ претраживачке машине оезеђују приступ вестранама преко кључних речи;

‚ онлајн услуге као што је Google Translate прои-зводе рз и прилижни превод;

‚ друштвенимедији каошто су Facebook, Twitter, иGoogle+ поједостављују комуникацију, сарадњу иразмену информација.

Мада су сви ови алати и апликације од велике по-моћи, они још нису довољни да остваре одрживо ви-

4

Page 12: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

шејезично европскодруштво у коме је свакомемогућслоодан приступ информацијама и рои.

2.1 ЈЕЗИЧКЕ ГРАНИЦЕПРЕДСТАВЉАЈУ СМЕТЊУ ЗАЕВРОПСКОИНФОРМАЦИОНО ДРУШТВОНе можемо тачно да предвидимо како ће изгледатиудуће информационо друштво. Али постоје великиизгледи да ће револуција у комуникационој техноло-гији повезати на нове начине људе који говоре разли-читим језицима. То ствара притисак на појединцеда уче нове језике и посено на развојне тимове дастварају нове технолошке производе који ће оез-едити узајамно разумевање и приступ заједничкомзнању. У глоалном привредном и информациономпростору, нови типови медија омогућавају ржу раз-мену у којој учествују ројни језици, говорници и са-држаји. Актуелна популарност друштвених медијакао што је Википедија (Wikipedia), Фејсук (Face-book), Твитер (Twitter), Јутју (YouTube) и, одне-давно, Гугл+ (Google+) само је врх леденог рега.

Глобална економија и информациони просторсуочавају нас са различитим језицима,

говорницима и садржајима.

Данас можемо да допремимо гигаајте текста из це-лог света за свега неколико секунди, пре него штосхватимо да је текст на језику који не разумемо.Према недавном извештају Европске комисије, 57%корисника интернета наручује роу и услуге на јези-цима који им нису матерњи. (Енглески је најчешћистрани језик а за њим следе француски, немачки ишпански.) 55% корисника чита садржаје на страномјезику, док само 35% користи страни језик за писање

електронских порука или коментара на мрежи [3].До пре неколико година енглески језик је ио linguafranca веа – огромна већина садржаја на веу илаје на енглеском језику. Ситуација је данас драстичнопромењена. Количина онлајн садржаја и на другимевропским (као и азијским и средњоисточним) јези-цима доживела је праву експлозију.Ова свеприсутна дигитална подељеност као после-дица језичких граница изазвала је изненађујуће малопажње у јавности. Ипак, она поставља неодложнопитање: „Који ће европски језици напредовати и оп-стати у умреженом друштву информација и знања, акоји су осуђени да нестану?”

2.2 НАШИ ЈЕЗИЦИ СУУГРОЖЕНИПроналазак штампарске пресе допринео је пове-ћању оима размене информација у Европи, али јетакође довео доизумирањамногих европских језика.На регионалним језицима и језицима мањина реткосе штампало. Ово је довело до тога да су многи је-зици, каошто су корнвалски или далматски, сведенина усмене олике преношења, што је довело до тогада су се све мање користили. Да ли ће интернет до-вести до истих последица када су наши језици у пи-тању?

Разноврсност језика у Европи јестеједно од њених најдрагоценијих инајзначајнијих културних добара.

Око80 језика Европе представља једно одњених нај-огатијих инајважнијих културних доара и суштин-ски чинилац њеног друштвеног модела [4]. Докће језици као што су енглески или шпански веро-ватно преживети на дигиталном тржишту у наста-јању, многи и европски језици могли да постану не-

5

Page 13: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

итни у умреженом друштву. Овакав развој ствариослаио и позицију Европе у свету, а то и ило иу супротности са стратешким циљем да се оезедиподједнако учешће за сваког становника Европе езозира на језик. Према УНЕСКО-вом извештајуо вишејезичности, језици су суштински медијум зауживање основних људских права као што су изра-жавање политичких опредељења, оразовање и уче-ствовање у друштву [5].

2.3 ЈЕЗИЧКЕ ТЕХНОЛОГИЈЕ СУКЉУЧНЕ ПОТПОРНЕТЕХНОЛОГИЈЕУ прошлости, инвестиције у очување језика усмера-ване су на учење и превођење језика. Према некимпроценама, европско тржиштепревода, усменогпре-вођења, локализације софтвераи глоализације стра-ница на веу 2008. год. је износило 8,4 милијардеевра, са очекиваним растом од 10% годишње [6]. Тајизнос покрива само мањи део садашњих и удућихпотреа у међујезичкој комуникацији. Најуедљи-вије решење које ће оезедити дуину и ширинукоришћења језика у Европи сутрашњице јесте кори-шћење одговарајуће технологије на исти начин накоји се користе технологије за потрее транспорта,у енергетици или за осое са посеним потреама.Дигиталне језичке технологије (којима је циљ даовладају свим олицима писаног и говорног језика)помажу људима да сарађују, послују, размењују знањеи учествују у политичким и друштвеним деатамаез озира на језичке аријере или њихове инфор-матичке вештине. Технологије су често невидљиве усложеним софтверским системима који нам помажуда:

‚ нађемо информацију помоћу претраживачкихмашина;

‚ користимо правописне и граматичке провере упрограмима за ораду текста;

‚ разгледамо препоруке о производима у мрежнимпродавницама;

‚ саслушамо гласовна упутства у навигационим си-стемима аутомоила;

‚ преводимо ве странице помоћу мрежних прево-дилаца.

Језичке технологије чине већи рој основних аплика-ција које омогућавају ораду језика у оквирима ши-рих програмских система. Сврха елих књига, саста-вљених уоквируМЕТА-НЕТ-а, јесте да се опише сте-пен развоја основних језичких технологија за свакиод европских језика.

Европи су потребне робусне и приступачнејезичке технологије за све европске језике.

Да и одржала свој положај у првим редовима свет-скеиновативности, Европићеитипотрене језичкетехнологије прилагођене свим европским језицимакоје ће ити роусне, свима приступачне и потпуноинтегрисане у кључна софтверска решења. Без је-зичких технологија нећемо ити у стању да у ско-рој удућности остваримо одиста ефикасно интерак-тивно, мултимедијално и вишејезично корисничкоискуство.

2.4 МОГУЋНОСТИ ЈЕЗИЧКИХТЕХНОЛОГИЈАУ свету штампане речи, рзо умножавање слике тек-ста (стране) коришћењем штампарске пресе пред-стављало је технолошки проој. Људима је ио пре-пуштен тешки посао прегледања, читања, превођењаи апстраховања знања. Треало је да дочекамо Еди-сонадаисмоснимили говорни језик, причему јење-гова технологија производила само аналогне копије.

6

Page 14: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Дигиталне језичке технологије данас могу да ауто-матизују сам процес превођења, генерисање садр-жаја и управљање знањем за све европске језике. Сњима је могуће опремити кориснику лиске, тек-стуалне или говорне, сумеђе (интерфејс) за кућнеелектричне апарате, машине, возила, рачунаре и ро-оте. Иако достигнућа истраживања и развоја омо-гућавају да се наслуте широке могућности, комерци-јалне и индустријске примене су још у раној фази ра-звоја. На пример, за многе европске језике машин-ско превођење достиже задовољавајући ниво тачно-сти у оквиру специфичних домена, а експеримен-талне апликације оезеђују вишејезичне информа-ције, управљање знањем и генерисање садржаја.

Језичке технологије помажу да се превазиђе„хендикеп” језичке разноликости.

Као што је то случај са већином технологија, прве је-зичке апликације, као што су гласовне корисничкесумеђе и дијалошки системи, развијене су за ускоспецијализоване домене, а њихова употрељивост јеила често ограничена. Међутим, у оразовној ин-дустрији и индустрији зааве леже огромне тржи-шне могућности за интеграцију језичких техноло-гија уигре, странице везане за културнонаслеђе, про-изводе за оразовање кроз зааву, илиотеке, симу-лациона окружења или програме оуке. Моилнеинформационе услуге, софтвер за рачунарски пот-помогнуто учење језика, окружења за електронскоучење, алати за самооцењивање и откривање плаги-јата само су неки од примера где језичке техноло-гије могу да одиграју важну улогу. Популарност дру-штвених мрежа као што су Твитер (Twitter) и Фејс-ук (Facebook) указује да постоје потрее за језич-ким технологијама које омогућавају надгледање по-ште, резимирање дискусија, детекцију трендова у ис-пољеним ставовима, препознавање емотивних реак-

ција, идентификацију повреда ауторских права илипраћење злоупотреа.

Језичке технологије представљају огромну приликуза Европску унију. Оне могу да помогну у реша-вању комплексног питања вишејезичности у Европи– чињенице да различити језици природно коегзи-стирају у европском пословању, организацијама ишколама. Али грађани желе да комуницирају из-ван језичких граница које још увек постоје на једин-ственом европском тржишту. Језичке технологијемогу да помогну у превазилажењу ове последње пре-преке својом подршком слоодном и отвореном ко-ришћењу појединачних језика. Ако гледамо и ко-рак даље, иновативне европске вишејезичне техно-логије представљаће узор за наше партнере по светукада они уду почели да оезеђују ове технологијеза своје вишејезичне заједнице. Језичке технологијемогу се посматрати као олик „потпорних” техноло-гија које помажу да се превазиђе „хендикеп” језичкеразноликости и да језичке заједнице постану ли-скије. Најзад, jедно активно истраживачко подручјејесте коришћење језичких технологија у операцијамаспасавања у оластима погођеним катастрофама, гдеуспешно деловање може одлучивати о животу илисмрти: удући интелигентни рооти са вишејезич-нимспосоностима умогућности су да спасуживоте.

2.5 ИЗАЗОВИ ПРЕДЈЕЗИЧКИМ ТЕХНОЛОГИЈАМАМада су језичке технологије последњих неколико го-дина оствариле значајан напредак, текући темпо тех-нолошког напретка ииновације производа је сувишеспор. Језичке технологије које су у широкој упо-треи, као што су граматичке и правописне провере,по правилу су једнојезичне, и постоје само за малирој језика. Онлајн услуге машинског превођења,мада су корисне да се рзо произведе прихватљи-

7

Page 15: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

ва апроксимација садржаја документа, стварају пунопотешкоћа када је потрено да се произведу високопрецизни и потпуни преводи. Зог комплексностиприродног језика, његово софтверско моделирање итестирање у реалном свету је дуг и скуп посао, којизахтева дугорочно финансирање. Европа мора даодржи своју пионирску улогу у суочавању са техно-лошкимизазовимавишејезичне заједницеизналаже-њем нових метода којима ће урзати развој на целојсвојој територији. У њих и спадале и иновације уоласти рачунарства и технике које користе потен-цијале великог роја учесника (crowdsourcing).

Текући темпо технолошкогнапретка сувише је спор.

2.6 УСВАЈАЊЕ ЈЕЗИКА КОДЉУДИ И МАШИНАДа исмо илустровали начин на који рачунари по-ступају са језиком и зашто их је тако тешко испро-грамирати да употрељавају језик, ацимо поглед наначин како људи усвајају матерњи и страни језик, аонда погледајмо и како ради језичкотехнолошки си-стем.

Људи стичу језичке вештине на два различита на-чина. Бее уче језик слушајући разговоре измеђуродитеља, раће и сестара и других чланова поро-дице. У узрасту од прилижно две године деца из-говарају своје прве речи или кратке фразе. То је мо-гуће само захваљујући посеној генетској предиспо-зицији људи да опонашају, а потом и осмисле оношто чују.

Учење страног језика у старијем узрасту захтева вишенапора, углавном зато што дете не припада језичкојзаједници оних којима је тај језик матерњи. У школи

страни језици се оично усвајају учењем граматич-ких структура, речника и правописа кроз вежањакоја описују језичко знање преко апстрактних пра-вила, таела и примера. Учење страног језика са го-динама постаје све теже.

Два главна типа система језичких технологија „усва-јају“ језичке спосоности на сличан начин као људи.Статистички приступи (или „приступи вођени по-дацима“) стичу језичко знање из огромних колекцијаконкретних примера текстова. За оучавање системаза проверу правописа, на пример, довољно је кори-шћење текстова на једном језику, али су за оучавањемашинских преводилаца потрени тзв. паралелнитекстови на два (или више) језика. Алгоритам ма-шинског учења затим „учи“ орасце превођења речи,кратких фраза и комплетних реченица.

Статистички приступи могу да захтевају милионереченица јер квалитет резултата расте са порастомроја анализираних текстова. То је један од разлогашто доављачипретраживачкихмашинажељнопри-купљају што је могуће више писаног материјала.Исправка правописних грешака у програмима за о-раду текста и сервиси каошто суGoogle Search иGo-ogle Translate, ослањају се на статистички приступ.Велика предност статистике је у томе што машинаучи рзо понављајући циклусе оуке, мада квалитетможе да варира на непредвидљив начин.

Други приступ језичким технологијама, а посеномашинском превођењу, јесте изградња система за-снованих на правилима. Експерти из лингвистике,рачунарске лингвистике и рачунарства морају најпреда граматичку анализу изразе кроз систем правила ида саставе листе речи (лексиконе). То је посао којизахтева много времена и велики труд. Неки од во-дећих система машинског превођења заснованих направилима у сталном су развоју већ више од двадесетгодина. Предност система заснованих на правилимаје у томе што експерти могу детаљније да контро-

8

Page 16: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

лишу ораду језика. То омогућује да се грешке у соф-тверу систематски поправљају, а кориснику пружедетаљне повратне информације, пре свега када се та-кви системи користе за учење језика. Зог великихтрошкова, језичке технологије засноване на прави-лима до сада су иле развијане само за велике језике.

Људи стичу језичке вештине на дваразличита начина: учењем примера

и учењем језичких правила.

Како предности и слаости статистичких система исистема заснованих на правилима теже да се допу-њују, текућа истраживања усмерена су на хириднеприступе који коминују те две методологије. Па

ипак, ови приступи су до сада или мање успешни уиндустријским применама него у лаораторији.Каошто смо видели у овомодељку, многе апликацијекоје су у широкој употреи у данашњем информаци-оном друштву ослањају се у великој мери на језичкетехнологије. С озиром на вишејезичност европскезаједнице, ово се посено односи на њен привреднии информациони простор. Мада су језичке техноло-гије значајно напредовале последњих неколико го-дина, још увек постоје огромне могућности за по-ољшање квалитета језичкотехнолошких система. Уследећем одељку описаћемо улогу српског језика уевропскоминформациономдруштвуидаћемооценутекућег стања језичких технологија за српски језик.

9

Page 17: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

3

СРПСКИ ЈЕЗИК У ЕВРОПСКОМИНФОРМАЦИОНОМ ДРУШТВУ

3.1 ОПШТИ ПОДАЦИСрпски стандардни језик је национални стандарднијезик Сра и званични језик у Репулици Срији.Формиран је на основици млађих екавских и ије-кавских штокавских јужнословенских дијалеката уформи коју му је одредио реформатор писаног језикакодСра ВукКараџић (1787–1864), који је истовре-мено реформисао и ћирилички алфает и правопис.У 20. веку, у заједничкој држави Југославији тај је-зик је оухваћен називом српскохрватски који је им-плицирао језичко заједништво са Хрватима (каснијеи другим народима чији је стандардни језик азиранна штокавским дијалектима). У последњој деценији20. века уместо назива српскохрватски у Срији јеу општој употреи назив српски језик. Устав Репу-лике Срије из 2006. прописује: „Српски језик ићирилично писмо иће у званичној употреи у Репу-лици Срији” [7].

Према попису становништва из 2002, Срија има7 498 001 становник [8], а српски је матерњи језикза 88,3% становништва [9]. Томе треа додати истановништво српске националности у другим кра-јевима ивше Југославије (чији рој није лако одре-дити). Српска дијаспора, већином настала одласкомна рад у иностранство и исељавањем зог економ-ских разлога, живи пре свега у појединим земљамацентралне и западне Европе, у САД, Канади и Ау-стралији (степен знања српског језика највише је у-словљен тиме о којој се генерацији исељеника ради).

Према попису из 2002, већина Сра ван земље живиу Немачкој (102 799), затим у Аустрији (87 844) иШвајцарској (65 751).

Стандардни српски језик је стандарднинационални језик Срба и званични

језик у Републици Србији.

Срија је вишејезична заједница. Према попису из2002, националне мањине [10] су Мађари (3,91%),Бошњаци (2,1%), Роми (1,44%), Хрвати (0,94%),Црногорци (0,92%), Аланци (0,82%), Словаци(0,79%), Југословени (1,08%) као и друге мањине(Ашкалије, Бугари, Буњевци, Цинцари, Чеси, Го-ранци, Јевреји, Македонци, Немци, Муслимани, Ру-муни, Русини, Словенци, Турци, Украјинци и Власи,2,45%). Структура мањинског становништва премајезику је следећа: 3,8% мађарски, 1,8% ошњачки,1,1% ромски, 0,8% алански, 0,8% словачки, 0,7%влашки, 0,5% румунски, 0,4% хрватски, 0,2% у-гарски и 0,2% македонски. Остале језике говори0,5% становника, док за 0,8% становника ови по-даци нису познати. За неке мањинске језике у Ср-ији постоји основно и средње оразовање, и тоза алански (55 основних/4 средње школе), мађар-ски (108/38), угарски(26/-), румунски (27/2), ру-сински (3/2), словачки (15/2), хрватски (7/1) [11].Настава је праћена и издавањем уџеника и лек-тире (нпр. у 2005. издато је укупно 526 уџеника заосновну и 283 за средњу школу) [9].

10

Page 18: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Служена употреа језика мањина је уређена зако-ном о служеној употреи језика и писама [12], којиоезеђује да се закони и прописи ојављују на је-зицима националних мањина. Ово укључује правоораћања репуличким органима на свом језику иправо да се доије одговор на том језику (у зависно-сти од величине мањинске заједнице).

Превођење на српски или са српског је значајна ак-тивност. Током 2010. године је преведено 2549 дела(са енглеског 1438, са француског 215, са немачког170, са италијанског 191, са шпанског 74, са мађар-ског 149). Део превода је са словенских језика (саруског 225, са чешког 4, са пољског 13, са словачког21, са словеначког 19, са македонског 18, са угарског12). Што се тиче превода са српског на друге језике,у Срији је током 2010. ојављен 591 наслов.

3.2 СПЕЦИФИЧНОСТИСРПСКОГ ЈЕЗИКАСрпски језик има своје специфичности, које чинењегову рачунарску ораду комплексним задатком.

3.2.1 Фонетика, фонологија,морфофонологија

Вокалски систем је једноставан (5 вокала), а кон-сонантски релативно комплексан (25 консонаната).Вирант р се у одређеним позицијама изговара каовокал и функционише као носилац слога (силаем),нпр. у речима рс или врса. У промени речи итвори речи постоји велики рој фонемских алтер-нација (консонантских, вокалских и коминованих)које се у неким случајевима коминују на такав начинда два олика једне речи могу ити веома удаљена,нпр. номинатив сингулара именице „мисао“ је мисао,а инструментал сингулара мишљу (алтернације a/ø,o/л, л+j/љ/ с/ш).

Акценатски систем од 4 акцента заснован је на дваукрштена параметра: опозиција по дужини (кратки :дуги) и по тону (силазни : узлазни). Дистриуцијаузлазних и силазних акцената је регулисана посе-ним правилима. У промени и у твори речи честе суакценатске алтернације. Пошто се акценатски знацине ележе, у писаном тексту се јављају хомографи. Например, значење речи лук се разликује према томе дали је акценат краткосилазни или дугосилазни.

У доста речи и граматичких олика кодификовананорма предвиђа изговор постакценатских дужина,али се оне у узусу све мање изговарају.

Скоро све речи су наглашене, али постоје и клитике:проклитике (већина везника и предлога, као и нега-ција уз глагол) и енклитике (ненаглашени олици за-меница и глагола и упитна партикула ли).

Изговор позајмљеница је фонетски прилагођен срп-ском језику. Коминације фонема (пре свега консо-наната) у позајмљеницама често одступају од групакоје су типичне за изворне штокавске речи, као упримерима софвер, харвер, инерфејс. Има та-кође, нарочито у свакодневном узусу, одступања и однормативне дистриуције акцената.

Код једног роја лексема и олика постоје две вари-јанте изговора – екавска и ијекавска – етимолошкивезане за некадашњи вокал звани ја, као што је по-казано у таели 1.

3.2.2 Морфологија

Постоји десет врста речи, са великим ројем под-врста. Посено су комплексни системи заменица иројева. Не постоји члан.

Именице имају род као класификациону категорију(мушки, женски или средњи). Од значаја је и класи-фикација према семантичком роду (мушки или жен-ски). На пример, именица аза се мења као именицаженског рода, али означава мушку осоу.

11

Page 19: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

екавски ијекавски

„цвет” сингулар цвет (дуго е) цвијет

плурал цветови (кратко е) цвјетови

1: Екавска и ијекавска варијанта изговора

Глаголи имају вид као класификациону категорију(свршени или несвршени). Известан рој глаголаима оа вида. Постоји више врста такозваних ре-флексивних глагола.

Постоје три типафлексије: (а) деклинација (по ројуи падежу код именица (видети таелу 2), по роду,роју, падежу и придевском виду код придева); ()конјугација (веома комплексна); и (в) компарација(код градаилних придева и прилога). Све променеимају мањи или већи рој ужих типова, као и изве-стан рој изузетака. Свуда постоје ројне фонемскеи акценатске алтернације. Посено треа истаћи ве-лики рој подударних олика, тј. олички синкрети-зам (морфолошку хомонимију). Последицафлексијеје да речнику од 120.000 лема одговара око 4,5 мили-она флективних граматичких олика (ипак нема то-лико формалних речи јер су неки олици у поједи-ним парадигмама истоветни).

Личне заменице (укључујући и рефлексивну заме-ницу) и помоћни, копулативни и егзистенцијалниглагол „јесам“ и помоћни глаголи „ити“ и „хтети“имају и енклитичке олике, који се чешће користе ододговарајућихнаглашених олика. Например, дативједнине мушког и средњег рода личне заменице тре-ћег лица гласи: њему (акцентовани олик) и му (ен-клитички олик).

Код именица, глагола и придева постоји веома ра-звијена суфиксална твора речи. Код глагола је веомаразвијена и префиксација (дорим делом повезана иса аспекатским значењима). Композиција, у целинигледано, мање је развијена.

Постоји пуристички однос према калковима и кова-ницама, као и према тзв. есоцентричним именичкимсложеницама, као нечем што не спада у аутентичнуштокавску твору. Овакав однос отежава лексичкуи терминолошку елаорацију коришћењем твореречи и један је од разлога веома великог роја позај-мљеница.

Позајмљенице се већином уклапају у постојеће мор-фолошке и творене типове, али од тога има одсту-пања. На пример, неке стране речи се не мењају, каошто су именице Мери и скво или придеви фер илираон.

Развијена твора речи (суфиксација, префиксација,у мањој мери композиција и разни коминованитворени начини) чине да се највећи рој лексемаможе груписати у творене породице односно лек-сикографска гнезда. Ту је посено важно да једандео творених веза доводи до систематске (катего-ријалне) модификације значења основне речи, штознатно олакшава лексикографску ораду таквих слу-чајева. На пример, за реч „глумац” твори се деми-нутив „глумчић” и аугментатив „глумчина”, женскиолик „глумица” и придеви „глумчев”, „глумичин”,„глумачки”, итд.

Позајмљенице су у принципу фонолошки и морфо-лошки адаптиране, тј. прилагођене изговору и мор-фологији српског језика. И од њих се оразују твор-ене породице.

12

Page 20: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

сингулар паукал (2-4) плурал

„прозор” (м. род) прозор прозора прозори

„jaje” (с. род) jaje јајета jaja

„жена” (ж. род) жена жене

„вест” (ж. род) вест вести

2: 4 типа именичке флексије

3.2.3 Лексика, фразеологија,терминологија, ономастика

Састав лексике одражава, с једне стране, штокавскуосновицу, и то не само у погледу оригиналног инвен-тара него и у погледу нових речи творених према но-воштокавскимтворениммоделима. Сдруге стране,фонд лексема одражава и језичку и културну исто-рију српског народа, укључујући позајмљенице изцрквенословенског, турског („мегдан”), руског („за-пета”), немачког („штрудла”), француског („руж”) и,поготову у данашње време, енглеског („паркинг”).Томе треа додати, поготову у стручним терминоло-гијама, интернационализме засноване на класичнимјезицима (грчком и латинском).

У оласти фразеологије посено треа споменутиидиоматске изразе, сликовита поређења, изреке исл. који одражавају аутохтону имагинацију и језичкукреативност. С друге стране, велики рој лексикали-зованихизраза је настаоинастаје и даље калкирањемстраних израза, данас пре свега енглеских.

Терминологија (и номенклатура) дорим делом сеослањала и ослања се и даље на поједине странетерминологије, путем превођења или позајмљивања(нарочито кад су у питању терминолошки интерна-ционализми). Напори да се нађу изворна српскарешења или да се постојећи термини посре имајуодређене резултате, али не могу да иду у корак са свевећим потреама у оласти терминологије и номен-клатуре.

Ономастика представља важан део вокаулара срп-ског језика, утолико више што се и овде стварајутворене породице речи.

3.2.4 Синтакса, лингвистика текста

Што се тиче распореда реченичних конституената(сујекта, предиката, ојекта итд.), српски језикспада у тзв. SVO језике са слоодним редом речи(тачније речено: са слоодним распоређивањем ре-ченичних конституената). То значи да су у прин-ципу све пермутације реченичних конституената до-звољене, а да је преферентни распоред: сујекат –предикат – ојекат. Међутим, слоодан не значи ианархичан; напротив, изор конкретног распоредаје регулисан коминацијама различитих синтаксич-ких, семантичких, прагматичкихистилскихфактора,тј. ма колико разноврсни, распореди чине један ве-ома комплексан функционални систем. Погледајмореченицу на енглеском:

‚ Mary gave John an apple. [Марија ае Јовану ја-уку.]

У српском се ова ситуација може изразити на 24 = 4!= 1*2*3*4 (рој пермутација од четири речи) разли-читих начина:

‚ Марија ае Јовану јауку.

‚ Марија ае јауку Јовану.

‚ Марија Јовану ае јауку.

13

Page 21: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

сингулар паукал плурал

Номинатив прозор прозора прозориГенитив прозора прозораДатив прозору прозоримаАкузатив прозор прозора прозореВокатив прозоре прозора прозориИнструментал прозором прозоримаЛокатив прозору прозорима

3: Пример именичке деклинације

‚ Марија јауку ае Јовану.

‚ Јовану ае Марија јауку.

‚ Јовану Марија ае јауку.

‚ Јауку Марија ае Јовану.

‚ Јауку Јовану ае Марија.

‚ Дае Марија јауку Јовану.

‚ Дае Јовану јауку Марија, итд.

Поједини конституенти се исказују и енклитикама,које се распоређују на сасвим специфичан начин. За-менички сујекат се не мора исказати, него се можесамо подразумевати (тзв. нулти сујекат), као у при-меру Ja се зовем Марко према Зовем се Марко. Знача-јан рој реченичних оразаца је формиран са разнимтиповима семантичких сујеката. Поред актива ипа-сива, постоји и специјалан начин формулисања ре-ченице са неспецификованим хуманим агенсом, ко-ришћењем олика повратног глагола. Негација сепримењује и на глагол и на заменички конституент(тзв. двострука негација), нпр. Ове не ознајем ни-ко. У српском постоји седам падежа: номинатив, ге-нитив, датив, акузатив, вокатив, инструментал и ло-катив (видети таелу 3).У српском језику постоји пет зависних падежа, којисе сви коминују и са предлозима. Сви ти па-дежи и предлошко-падежне коминације су полисе-мични. И орнуто, исто значење се у неким случаје-вима може исказати различитим падежима односно

предлошко-падежним конструкцијама (падежна си-нонимија). Постоји такође и један рој израза којиимају функцију предлога, на пример, риликом (+ге-нитив).

У српском језику постоји развијен систем личнихглаголских олика за исказивање временских и мо-далних значења (аспекат је класификациона катего-рија); сви ти олици су полисемични. Једна од спе-цифичности глаголског система је да конструкција а+ презент све више истискује инфинитив.Конгруенција у роду, роју, падежу и лицу је један одитних аспеката синтаксе српског језика, а значајнаје и за успостављање текстуалних веза. Категориза-ција контролора конгруенције (нарочито појединихтипова именица, конструкција са ројевима и коор-динативних израза), као и начини на које се та кон-трола испољава у разним конгруентним позицијамапредставља изузетно комплексно подручје.

Већина типова зависних реченица (нарочито одно-сне, временске, условне и узрочне) имају више фор-малних и семантичких подтипова.Код координативних реченица посено је комплек-сан инвентар везника за копулативне и за адверза-тивне односе.Везе међу исказима у тексту се успостављају тексту-алним координаторима и текстуалним конекторимаразних врста. Изор распореда реченичних кон-ституената важан је за информативну кохеренцију и

14

Page 22: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

прогресију, с једне, а за емфазу и истицање, с другестране. Тзв. нулти сујекат и енклитички заменичкиолици су важна средства за контекстуализацију ре-ченица.

3.2.5 Правопис

Традиционални српски алфает је ћирилица, којучини 30 графема. Данас се користи – све више – илатиница. Она такође има 30 графема (три од њих судиграми), који су у ијективном односу са ћирилич-ким графемама. Међутим, званично писмо је самоћирилица (видети таелу 4). Што се тиче графије(односа графемског и фонемског система), графемеи фонеме стоје у ијективном односу.

На нивоу кодних схема, латинични диграфи lj, nj, džмогу ити кодирани као лигатуре или као диграфи.У првом случају, Unicode [13] оезеђује, на пример,посено кодове за лигатуре LJ, Lj и lj који су у случајудиграфа представљени као коминација два ASCIIкода, нпр. L и J. Ово води у пролеме са транслите-рацијом која се, у општем случају, може извршити ау-томатски. На пример, сваки чланак на српској Вики-педији се може приказати и ћириличним и латинич-ним писмом.

Азука у српском не предвиђа употреу латиничнихкарактера q, x, y, w нити латиничних карактера зазаписивање римских ројева, што може да доведедо деградације информације приликом транслитера-ције из латинице у ћирилицу. Тако, на пример, wwwможе постати њњњ, а латинично Petar II може по-стати Пеар ИИ уместо Пеар II.

Оа алфаета се користе у савременој издавачкојпродукцији. Према подацима из Народне илио-теке Срије, током 2010. ојављене су укупно 12574књиге. Од тог роја, 6459 је на ћирилици, 6050 налатиници, а 65 на другим алфаетима. Међу днев-ним листовима са широким кругом читалаца, Поли-тика и Вечерње новости излазе на ћирилици, док је

већина других листова (Блиц, Курир, Данас, итд.) налатиници.Правопис је (квази)фонемског типа: са малим изузе-цима, реч се пише онако како се изговара (правило:„Пиши као шо овориш!”), тачније речено, премасвом фонемском саставу. Интерпункција је логич-ког, а не граматичког типа (слична француској и ен-глеској). Према правопису, стране речи се и ћири-лицом и латиницом пишу онако како се изговарају,тј. ранскриовано. И страна имена се такође тран-скриују (нпр. уместо Shakespeare пише се, и изго-вара, Шексир и Šekspir).

3.2.6 Српски и други стандардни језициштокавског порекла

Заједничка штокавска основица, међусони утицајии коегзистенција у оквиру исте државе и – концеп-туално – у оквиру заједничког српскохрватског је-зика чине да за рачунарску ораду других језикашто-кавске провенијенције (хрватског, ошњачког, цр-ногорског) треа разрешити сличне пролеме. Тоотвара велике могућности за синергију или ар запродуктивну сарадњу, као и за рационалан и еко-номичан приступ решавању заједничких пролема.Томе доприноси и постојање знатних језичких ре-сурса за некадашњи заједнички српскохрватски је-зик (граматике и речници), у којима, истина, нијепоклањана дужна пажња диференцијацијама унутарштокавског стандарднојезичког простора. У ствари,овде се не ради о превођењу текстова с једног стра-ног језика на други, него о ааирању текстова са-стављених на језицима са истом дијалекатском осно-вицом и са тесно повезаним развојем.

Стандардни језици штокавског порекла морајуда реше сличне проблеме. То отвара велике

могућности за продуктивну сарадњу.

15

Page 23: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

ћирилица А Б В Г Д Ђ Е Ж З И Ј К Л Љ М

а б в г д ђ е ж з и ј к л љ м

латиница A B V G D Đ E Ž Z I J K L Lj M

a b v g d đ e ž z i j k l lj m

ћирилица Н Њ О П Р С Т Ћ У Ф Х Ц Ч Џ Ш

н њ о п р с т ћ у ф х ц ч џ ш

латиница N Nj O P R S T Ć U F H C Č Dž Š

n nj o p r s t ć u f h c č dž š

4: Српска слова

Главни пролеми се, у ствари, тичу појава везаних заелаорацију штокавског језгра и, посено, за терми-нологију.

3.3 САВРЕМЕНИ РАЗВОЈПромене крајем двадесетог и почетком двадесет пр-вог века оухватају следеће:

‚ Уместо заједничког српскохрватског стандардногјезика, сада званично постоје четири националнастандардна језика. Конкретно, у Срији је садазванични језик српски, а не више српскохрват-ски. Зог недавних сеоа изазваних ратним зи-вањима делимично је промењена дијалекатскаслика у Хрватској и Босни и Херцеговини (у по-дручјима захваћеним ратним зивањима).

‚ Уочавају се све веће промене у лексици и фразе-ологији и у терминологији, везане за политичке,друштвене и економске промене уСрији и отва-рање према свету, али и за усклађивање законо-давства, стандарда и терминологије са законодав-ством, стандардима и терминологијом који важе

у Европској унији. Посено се уочава утицај ен-глеског језика, и то не само зог културолошких иекономских момената који важе и за друге европ-ске земље него и зато што се за усклађивање саЕвропском унијом као изворници узимају тек-стови/верзије на енглеском језику.

‚ Латиница се све више употрељава (сем у званич-ним текстовима).

‚ Текстови на српском језику се све више реализујуу дигиталном олику (употреа рачунара, елек-тронско издаваштво, интернет, SMS-поруке).

3.4 НЕГОВАЊЕ ЈЕЗИКА УСРБИЈИ3.4.1 Рад на нормирању и неговању је-

зика

Овде се може навести следеће:

‚ Године1997. створено јемеђуакадемијскоимеђу-универзитетско тело под називом Оор за сан-аризацију срско језика [14], у коме су пред-

16

Page 24: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

ставници одговарајућих институција из Срије,Црне Горе и Репулике Српске (у БиХ).

‚ Уместо раније опште српскохрватске норме, садасе спецификује норма српског језика.

‚ Нема пуризма у односу на кроатизме (речи преу-зете из хрватског).

‚ Израђен је правопис српског језика.

‚ Подржава се употреа ћирилице, која се сматраугроженом све већом употреом латинице, наро-чито код млађих генерација.

‚ Наставни програми и уџеници у основној исредњој школи усклађени су са новом стандард-нојезичком ситуацијом.

Стандардизација српског језикаинституционализована је кроз Одбор за

стандардизацију српског језика,међуакадемијско и међууниверзитетско тело.

3.4.2 Осавремењивање норме

Одор за стандардизацију српског језика је органи-зовао израду серије описно-нормативних моногра-фија које треа да прикажу савремено стање језикаи понуде нормативна решења (досада су орађене:твора речи, синтакса и фонологија). Донет је већирој нормативних препорука. Званични правопис једва пута осавремењиван.

3.4.3 Неговање језичког узуса

Одор за стандардизацију српског језика (својимпрепорукама), Друштво за српски језик и књижев-ност (пуликацијама и организовањем такмичења изсрпског језика и језичке културе за ученике основ-них и средњих школа), Матица српска (организова-њем рада на изради правописа, својим пуликаци-јама и организовањем саветовања о језику), Вукова

задужина (својим пуликацијама и организовањемтриина и саветовања о језику) и разне друге инсти-туције, поједине издавачке куће и редакције дневнихлистова и редакције радио и ТВ програма, као и је-зички стручњаци и љуитељи матерњег језика трудесе да дају свој допринос чувању правилности и чи-стоте српског језика у писаној и усменој употреи.

3.4.4 Одговор на све већи утицај енгле-ског језика

Истиче се потреа за замењивањем енглеских речи иизраза српским, као и за замењивањем калкиранихпреведеница са енглеског (аутентичним) српскимре-чима и изразима. (Шире узев, овде спада и отпор свевећој употреи латинице.)

3.4.5 Побољшање стања у области лек-сикографије

Поклања се све већа пажња лексикографији, једно-језичној и двојезичној. Израђен је велики једно-томни речник савременог српског језика, за којим сеосећала велика потреа. Модернизује се рад на из-ради великог академијског речника српског језика.Преводе се закони и прописи који важе у Европскојунији [15], као и међународни стандарди [16], укљу-чујући терминолошке стандарде.

3.5 ЈЕЗИК И ОБРАЗОВАЊЕПредмет Срски језик и књижевнос је један од ит-них предмета у основној и средњојшколи. Међутим,настава је концентрисана на правилно писање и го-вор, знање о језику (о граматици и лексици), знањео историји књижевних (писаних) језика код Сра ио постанку српског стандардног језика. На оваквојнастави су азирана и масовна такмичења из матер-њег језика (почев од виших разреда основне школе).Недовољно пажње се поклања практичној употреи

17

Page 25: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

језика и функционалној писмености. Жеља да се на-става по својим циљевима и стандардима прилижинастави у Европској унији, као и незадовољавајућиуспеси ученика на PISA тестирању представљају под-стицаје за модернизацију наставе језика и за ин-систирање на функционалној писмености и кому-никационим спосоностима. То се одражава и натекућу реформу школства (циљеви наставе језика,стандарди постигнућа, силауси), као и на поољ-шање квалитета уџеника. На факултетима углав-ном недостају курсеви из српског језика који и си-стематски оспосољавали удуће стручњаке за успе-шну професионалну комуникацију и одговарајућуфункционалну писменост. Примена језичких техно-логија свакако може допринети модернизовању на-ставе, нпр. применом система за рачунарски потпо-могнуто учење језика (CALL).

3.6 МЕЂУНАРОДНИ АСПЕКТИЗванична употреа и настава српског језика у др-жавама у којима живе делови српског народа ре-гулисана је законодавством тих држава. Нестанакзаједничког српскохрватског језика и званично по-стојање посених језика штокавске провенијенцијеодразило се на организацију наставе некадашњегсрпскохрватског језика на иностраним универзите-тима, као и на називе факултетских одсека на којимасе држала та настава: сада за те језике, дакле и засрпски језик (и књижевност), постоје посени про-грами и дипломе, са већим или мањим коминова-њем предмета, а одсеци имају зирне називе. У Ср-ији се наставља пракса организовања летњих школаза странце, али сада за српски, а не српскохрват-ски језик. Такође се шаљу домаћи наставници дараде као лектори на катедрама у иностранству. Задецу српског порекла организује се у појединим зе-мљама додатна настава из матерњег језика. Потреаусклађивања законодавства и терминологије са оним

у Европској унији, утицај англо-америчке културе уоласти зааве и медија и ефекти глоализације свејаче доводе српски језик у везу са другим језицима,нарочито енглеским, и дају преводилаштву све већиподстицај и значај.

3.7 СРПСКИ ЈЕЗИК НАИНТЕРНЕТУАнкета [17] извршена 2010. године говори да 50,8%становништва редовно користи рачунар и интернет,а 43,7% становништва никада није користило ра-чунар. Према другом извору [18], чак 55,9% по-пулације користи интернет, при чему је стопа ра-ста 926,8% у периоду 2000–2010. Према истомизвору, у Срији на дан 31. августа 2010. илоје 2 237 680 корисника Фејсука, што представља30,5% укупне популације. Електронске услуге јавнеадминистрације (e-government) користи свега 13,2%становништва, док 38,5% не и никада користилоове услуге. Трговину преко интернета користилоје свега 13% становништва. Према Репуличкомзаводу за статистику Репулике Срије [19], кори-шћење информационо-комуникационе опреме по-казује раст.

Према истом извору, 96,8% фирми користило је ин-тернет 2010. године у поређењу са 90,2% у 2006, докје 67,5% фирми имало своју ве локацију 2010. го-дине у поређењу са 52,9% у 2006. У 2010. години70,6% користило је услуге јавне администрације.

Подаци Репуличког завода за статистику из истра-живања из 2010. на узорку од 2.400 домаћинставаи исто толико појединаца старости од 16 до 74 го-дине показују да интернет прикључак има 39 одстоанкетираних, највише у Београду – 51 одсто [20].Да приступ глоалној мрежи не зависи само од тех-ничких могућности него и од зараде, види се из по-датка да 83% домаћинстава са месечним приходима

18

Page 26: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

вишим од 600 евра има интернет, док га код оних сапримањима нижим од 300 евра има 29% домаћин-става. Највише људи, 91%, светској мрежи приступаса десктоп рачунара, петина са моилног телефона, анешто мање од тога са лаптопа.Кад је реч о типу везе, скоро половина домаћинставау Срији која користе интернет има ADSL прикљу-чак, четвртина каловски интернет, а моилне уре-ђаје за повезивање користи 29% испитаника. Нај-чешће се приступа од куће (84%), затим с посла, одкуће друге осое, у школи и на факултету, а тек 3,8%из интернет кафеа. Најзаступљенија категорија намрежи су студенти, чак 95%. Ако није реч о послов-ним оавезама, интернет се највише користи за елек-тронску пошту – 78%, затим за зааву (игре, фил-мови, музика) – 55%, за читање штампе – 41% иза учење – 23%. Најпопуларније српске ве стра-нице су портали са вестима (Блиц [21], Б92 [22], На-слови [23] и РТС [24]). Најпосећенији домаћи пор-тал је Krstarica [25], која укључује претраживачку ма-шину, ажурне дневне вести изСрије, каталог локал-них страница груписаних по тематици и разноврснедруге садржаје.Експеримент започет 2005. увођењем локалне пре-траживачке машине Pogodak, која је претрагу прила-гођавала морфологији српског, окончан је 2010. каонепрофитаилан.Википедија на српском представља извор разновр-сних језичких података. Она садржи око 142.000чланака и налази се на 28. месту [26] у свету у погледуроја ојављених чланака. Википедија на српскохр-

ватском [27] је мања и има око 40.000 чланака. Сло-одан приступ језичким подацима је могућ и прекопортала Раско [28], Анолоија срске књижевно-си [29] и Трансоеика [30], који садрже углавномкњижевне текстове.Видљивост појединих страна са садржајем насрпском је привремено драматично пала током2010. као последица преласка са топ-домена yu наrs.Најчешће коришћена ве апликација је претрагавеа. Она укључује аутоматску ораду језика на вишенивоа, што ће ити детаљније описано у другом делуовог текста. Оваква орада укључује префињене је-зичке технологије које се разликују за сваки језик.За српски, како је већ поменуто, пролеми настајузог односа између латиничног и ћириличног писма,екавских и ијекавских варијација, графемских вари-јација у олику леме, као и морфолошког огатства.Користи које корисници интернета и доављачи са-држаја на веу могу да имају од језичких технологијаможда су мање очигледне, на пример, у аутоматскомпревођењу ве садржаја са једног језика на други.Упркос високој цени ручног превођења, релативномало језичких технологија је развијено и примењеноу односу на уочене потрее. Разлог за то може итиу сложености српског језика и ројним технологи-јама које је потрено упослити за развој типичне је-зичке апликације. У следећемодељкупредставићемопреглед језичких технологија и основне оластипри-мене, као и оцену текуће ситуације у подршци језич-ким технологијама српског језика.

19

Page 27: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

4

JЕЗИЧКE ТЕХНОЛОГИЈE ЗА СРПСКИЈЕЗИК

Језичке технологије су софтверски системипројекто-вани за рад са природним језицима. Зог тога се оветехнологије често подводе под термин „технологијаприродних језика“. Природни језици се јављају у го-ворном и писаном олику. Иако је говор најстаријии са становишта човекове еволуције најприроднијиначин језичке комуникације, комплексне информа-ције и свеоухватно људско знање се ележе и пре-носе у писаном олику.

Говорне и текстуалне технологије орађују и про-изводе језик у ова два олика и оа користе реч-нике и граматичка и семантичка правила. То значида језичке технологије повезују језик са различитимолицима знања независно од медија (говорних илитекстуалних) којима су представљена. Слика 5 илу-струје пејзаж језичких технологија.

Када комуницирамо, ми коминујемо језик са дру-гим начинима комуникације и другим информаци-оним медијима. Говор се, на пример, коминује сагестикулацијом и мимиком. Дигитални текстови сеповезују са сликама и звуком. Филмови могу да са-држе језик и у говорном и у писаном олику. Прематоме, говорне и текстуалне технологије се прекла-пају и кооперирају са многим другим технологијамакоје олакшавају ораду мултимодалне комуникацијеи мултимедијалних докумената.

У тексту који следи размотрићемо главне оластипримене језичких технологија, а то су језичке про-вере, претраживање веа, технологију говора и ма-

шинско превођење. Ово укључује апликације иосновне технологије као што су:

‚ исправљање правописних грешака;

‚ подршка састављању текста;

‚ рачунарски потпомогнуто учење језика;

‚ претраживање информација;

‚ екстракција информација;

‚ одговори на питања;

‚ резимирање текста;

‚ препознавање говора, и

‚ синтеза говора.

Језичке технологије представљају доро дефинисануистраживачку оласт са оимном општом литерату-ром. Заинтересовани читаоци се упућују на следећереференце: [31, 32, 33, 34].Пре него што размотримо наведене оласти при-мене, укратко ћемо ојаснити архитектуру типичногјезичкотехнолошког система.

4.1 АРХИТЕКТУРЕАПЛИКАЦИЈАТипичне софтверске апликације за ораду језика са-стоје се од неколико компонената, које одражавајуразличите аспекте језика. Слика 6 приказује веомапоједностављену архитектуру на коју се може наићиу типичном систему за ораду текста. Прва три мо-дула орађују структуру и значење улазног текста:

20

Page 28: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

мултимедијалне и мултимодалне

технологије

језичке технологије

технологије обраде говора

технологије обраде текста

технологије знања

5: Контекст језичких технологија

1. Припремна орада: чишћење података, анали-зирање или уклањање форматирања и откри-вање улазног језика. У српском језику овај мо-дул може да помогне у разрешавању ћириличко-латиничког двојства, као и екавско-ијекавскогдвојства.

2. Граматичка анализа: проналажење глагола и ње-гових ојеката, модификатора и осталих консти-туената, као и откривање структуре реченице.

3. Семантичка анализа: разрешавање вишезначно-сти (тј. утврђивање одговарајућег значења речиу датом контексту); разрешавање анафора (тј. нашта се односе заменице) и референци у изразима;и представљање значења у машински читљивомолику.

Након анализе текста, модули посвећени специфич-ним задацима оављају многе различите операције,каошто су аутоматскорезимирањеипрегледање азаподатака. Овај поједностављен и идеализован описархитектуре апликација илуструје сложеност апли-кација језичких технологија.Пошто уведемо основна поља примене, даћемо кра-так преглед стања у истраживању и оразовању зајезичке технологије, а закључићемо прегледом про-шлих и текућих истраживачких програма. Накрају овог одељка представићемо како по проценамастручњака изгледа позиција основних језичких алата

и ресурса у простору чије димензије мере доступ-ност, зрелост, квалитет и слично. Општа ситуацијајезичких технологија за српски језик резимирана јетаелом 12.

4.2 ОСНОВНА ПОЉАПРИМЕНЕУ овом одељку посветићемо пажњу најважнијим је-зичкотехнолошким алатима и ресурсима и даћемопреглед активности на подручју језичких техноло-гија у Срији.

4.2.1 Провера језика

Свако ко користи алат за ораду речи какав је Mi-crosoft Word наишао је на компоненту за проверу,која указује на грешке у правопису и нуди исправке.Први програми за исправку правописних грешакапоредили су листу речи извађених из текста са реч-ником правилно исписаних речи. Данас су ти про-грами постали веома напредни. Коришћењем је-зички зависних алгоритама за граматичку анализумогу да се препознају грешке везане за морфологију(нпр. олици множине), синтаксу, као што је одсу-ство глагола или неслагање глагола са сујектом улицу, роју или роду, на пример у ‘*Они је исало и-смо.’Паипак, већинапрограма запроверуправописа

21

Page 29: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

улазни текст

припремна обрада

граматичка анализа

семантичка анализа

модули за специфичне

задатке

излаз

6: Типична архитектура система за обраду текста

неће пронаћи грешке у следећем тексту [35]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Да и семогле уочитиовакве грешке, умногим случа-јевима је потрена и анализа контекста. На пример:да ли реч треа да уде написана великим словом усрпском језику или не:

‚ Дивио се Ружи.

‚ Дивио се ружи.

Да и се ово постигло, могу се користити граматикеспецифичне за дати језик, што захтева много радаврхунских стручњака да и се оне уградиле у соф-твер, или се могу користити такозвани статистичкијезички модели. Такви модели се заснивају на из-рачунавању вероватноће да се одређена реч појави успецифичном окружењу (нпр., испред или иза одре-ђених речи). На пример, секвенција речи лава ла-уна много је вероватнија од секвенције лава Ла-уна (Лауна је издавач). Статистички језички мо-дели се могу аутоматски извести из велике количине(исправних) језичких података (који се зову тексту-ални корпуси). До сада су ови приступи коришћении процењивани за податке на енглеском језику. Онисе, међутим, не могу увек директно применити на

српски језик имајући у видуњегов слоодан ред речии огату флексију.

Провера језика се не користи само уалатима за обраду текста; она се примењује

и у системима за подршку писању.

Први покушаји да се развије софтвер за проверу пра-вописа за српски језик учињени су још крајем 1970-их [36] и или су мотивисани пролемима на којесу наилазиле велике издавачке куће. Данас је слоо-дан модул за проверу правописа за српски језик до-ступан за OpenOffice [37] на различитим оператив-ним системима, а постоји и занатски израђени про-извод, пакет RAS [38], који је развила компанија Sr-bosof и који се мора засено инсталирати за свакогкорисника.Провера језика се не користи само у алатима за о-раду речи; она се примењује и у „системима за подр-шку писању текста”, тј. софтверским окружењима укојима се пишу приручници и друга документацијаза сложене производе информационих технологија,здравствене заштите, инжењерства и др. Плашећи сежали купаца зог погрешног коришћења и захтеваза одштетом до којих и могло доћи јер су инструк-ције за употреу иле лоше или их они нису дороразумели, компаније су почеле све више пажње дапосвећују техничкој документацији усредсређујући

22

Page 30: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

улазни текст

провера правописа

провера граматике

предложене исправке

статистички језички модел

7: Провера језика (статистичка; заснована на правилима)

се истовремено на међународно тржиште (кроз пре-вод или локализацију). Напредак у оради природ-них језика довео је до стварања софтвера за подршкуписању текста који помаже ауторима техничке доку-ментације да користе речник и реченичне структуреусклађене са правилима струке и да поштују терми-нолошка ограничења која њихова компанија намеће.Провера језика није потрена само у системима запроверуправописаи заподршкуписању текста већ јеважна и за рачунарски потпомогнуто учење језика, апримењује се и за аутоматску корекцију упита који сепостављајумашинама за претраживање веа, каоштосу Гуглови предлози типа ‘Да ли сте мислили на...’

4.2.2 Претраживање веба

Данас је претраживање веа, интранета и дигитал-них илиотека вероватно најраспрострањеније ко-ришћење језичких технологија, које је ипак недо-вољно развијено. Машина за претраживање Гугл(Google), која је отпочела са радом 1998, данас се ко-ристи за око 80% свих упита на веу широм света[39]. Глаголи „гуглати/изгуглати” су у редовној упо-треи у српском језику. Ни сумеђа (интерфејс) запретраживање ниприказ пронађених резултата нисусе значајно променили од прве верзије. У текућојверзији Гугл нуди могућност исправке погрешно на-писаних речи, а такође је уградио и основне могућ-ности за семантичку претрагу које могу да поољ-шају тачност претраге анализирањем значења упит-

них термина у контексту [40]. Успех Гугла показуједа уз велику количину расположивих података и узкоришћење ефикасних техника за индексирање тихподатака, приступ који се заснива углавном на стати-стици може да доведе до задовољавајућих резултата.

Па ипак, за озиљније захтеве за информацијаманеопходно је укључивање и дуљег лингвистичкогзнања за семантичку анализу. Експерименти са ко-ришћењем лексичких ресурса као што су тезаурусиу машински читљивом олику и онтолошки језичкиресурси (нпр. WordNet за енглески или СрпНетза српски), доводили су до поољшања у пронала-жењу страница коришћењем синонимних термина,нпр. аомска енерија и нуклеарна енерија, или пре-траживањем преко још слаије повезаних терминакакви су ели лук и чешњак.

Следећа генерација машина за претраживање ће мо-рати да укључи још много напредније језичке техно-логије, посено да и могле да се изоре са упитимакоји се састоје од питања или неке друге врсте рече-нице уместо од листе кључних речи. На пример, закорисников упит Дај ми лису команија које су ре-узее о сране руих команија у ослењих е о-ина, језичкотехнолошки систем мора да анализирареченицуна синтаксичкоми семантичкомнивоу, каои да оезеди индекс који омогућава рзо пронала-жење релевантних докумената. За доијање задово-љавајућег одговора треа да се примени синтаксичкопарсирање да и се анализирала граматичка струк-

23

Page 31: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

корисников упит

веб странице

припремна обрада анализа упита

припремна обрада семантичка обрада индексирање

сравњивање и

релевантност

резултати претраживања

8: Претраживање веба

тура реченице и да и се утврдило да се траже ком-паније које су преузете, а не оне које су преузеледруге компаније. Такође, израз у ослењих е о-ина треа да се оради да и се утврдило на којесе године односи. Коначно, упит који се орађујетреа да се сравни са огромном количином неструк-турираних података да и се пронашли делићи ин-формација које корисник тражи. Ово се оично на-зива „проналажење информација”, што укључује пре-траживање и рангирање релевантнијих докумената.Осим тога, да и се генерисала листа компанија, по-трено је да се из документа изваде информације дасе одређена ниска речи односи на име компаније.Овај процес зове се „препознавање именованих ен-титета”.

Још захтевнији су покушаји сравњивања упита садокументима који су записани на различитим јези-цима. За вишејезично проналажење информацијапотрено је да се аутоматски преведе упит на све мо-гуће изворне језике, а затим да се пронађена инфор-мација преведе на циљни језик.

Следећа генерација претраживачкихмашина мораће да укључи многонапреднију језичку технологију.

Све већи проценат података је доступан у форматукоји није текстуалан, што повећава захтеве за серви-сима који омогућавају мултимедијално проналажењеинформација, нпр. проналажење информација у сли-кама и аудио и видео подацима. За аудио и видео да-тотеке то укључује модул за препознавање говора, даи се конвертовао говорни садржај у текст или фо-нетску репрезентацију са којом се корисников упитможе сравњивати.Популарне локације у Срији које нуде могућностипретраживања, као што су B92 и Крстарица, осла-њају се углавном на сервисе Гугла [41]. Покушај да сеуведе машина за претраживање која и оављала ис-кључивопретрагу надоле домена .rs и која и ила де-лимично прилагођена специфичним својствима срп-ског језика напуштен је 2010. године као непрофи-таилан. Одређен рој малих и средњих предузећа

24

Page 32: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

ради на проширивању претраживачких сервиса, алиуглавном за стране партнере и за енглески језик.У истраживачком окружењу су оављени експери-менти са системима за проширивање упита који сумашинама за претраживање слали упите прошири-ване морфолошким речницима и вишејезичним се-мантичким мрежама. Ови експерименти су дали за-нимљиве и корисне резултате у разноврсним доме-нима.

4.2.3 Говорна интеракција

Говорна интеракција је једно од многих подручјапримене која зависе од говорне технологије, тј. тех-нологија за ораду говорног језика. Технологија го-ворне интеракције је основа за израду сумеђа коједозвољавају кориснику да комуницира са машинамакористећи говорни језик уместо графичког дисплеја,тастатуре или миша. Данас се такве гласовне кори-сничке сумеђе (voice user interfaces – VUIs) оичнокористе за потпуно или делимично аутоматизованесервисе које компаније преко телефона нуде кори-сницима, запосленима или партнерима. Пословнидомени који се у великој мери ослањају на гласовнукорисничку сумеђу јесу анкарство, логистика, јавнипревоз и телекомуникације. Технологија за говорнуинтеракцију се осим тога користи и за сумеђе саодређеним уређајима, нпр. у навигационим систе-мима у колима, и за коришћење говора као алтерна-тиве графичким или осетљивим на додир кориснич-ким сумеђама, нпр. у паметним телефонима.Говорна интеракција састоји се од четири техноло-гије:

1. Аутоматско препознавање говора (Automaticspeech recognition – ASR) је задужено за утврђи-вање које речи су стварно изговорене када је датасеквенција звукова коју је произвео корисник.

2. Разумевање природног језика подразумева ана-лизу синтаксичке структуре корисниковог исказа

и његову интерпретацију у складу са наменомодређеног система.

3. Управљање дијалогом одређује коју акцију треапредузети за дати корисников улаз и дате функ-ционалности система.

4. Синтеза говора (текст у говор, или Text-to-Speech, TTS) се користи за трансформацију одго-вора система у звукове које ће корисник примитикао излаз.

Главни изазов је поседовање система за аутоматскопрепознавање говора који препознаје речи које је ко-рисник изговорио што је прецизније могуће. Овозахтева или да се ограничи опсег могућих корисни-кових исказа на ограничен скуп кључних речи илида се ручно изграде језички модели који покривајушироки опсег корисникових исказа на природномјезику. Коришћењем техника машинског учења, је-зички модели могу да се изграђују аутоматски из го-ворних корпуса, тј. великих колекција говорних ау-дио датотека и њихових текстуалних транскрипција.Ограничавање исказа даје као резултат прилично ри-гидну и нефлексиилну гласовну корисничку сумеђукоју корисници невољно прихватају. С друге стране,креирање, подешавање и одржавање огатих језич-ких модела може значајно да увећа трошкове. Паипак, гласовне корисничке сумеђе које користе је-зичке моделе на почетку дозвољавају кориснику даслоодно изразе своје намере – подстичући га, например, питањем Како Вам моу омоћи? – показујувећи степен аутоматизованости и прихватања.

Технологија говора је основа за изградњусумеђа које омогућују кориснику да

комуницира говорним језиком.

За генерисањеизлазног дела гласовне корисничке су-међе компаније теже коришћењу унапред снимље-них исказа професионалних говорника. За статичке

25

Page 33: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

говорни улаз обрада сигнала

говорни излаз синтеза говора фонетско проналажење и планирање интонације

разумевање природног језика и

дијалог

препознавање

9: Дијалошки систем заснован на говору

исказе код којих коришћене речи не зависе од кон-кретног контекста у коме се користе нити од лич-них података датог корисника, резултат може итиза корисника сасвим задовољавајући. Међутим, штоје садржај исказа динамичнији, утолико више можеда расте корисниково незадовољство зог лоше про-зодије до које долази зог спајања појединачнихаудио-датотека. Насупрот томе, данашњи системи затрансформацију текста у говор су супериорнији у по-гледу прозодијске природности динамичких исказа,иако их је још потрено оптимизовати.

Сумеђе на тржишту говорне интеракције су значајностандардизоване у току последње деценије када су упитању њихове различите технолошке компоненте.Дошло је и до велике консолидације тржишта, по-сено у домену система за аутоматско препознавањеговора и за претварање текста у говор. На овомпољу,националним тржиштима земаља G20 – што значиекономски јаких земаља са значајном популацијом –доминира свега 5 актера из целог света, при чему суNuance (САД) и Loquendo (Италија) најприсутнијиуЕвропи. У2011. год. Nuance је ојавиопреузимањеLoquendo, што представља даљи корак у консолида-цији тржишта.

Методе за препознавање и синтезу говора су у Ср-ији, каоинаширемпростору ивше Југославије, ра-звијане углавном у електроинжењерском окружењууз сарадњу стручњака за фонетику. Први напори

су или усмерени на препознавање изолованих фо-нема. Значајан помак је у овом домену учинила групаса Техничког факултета Универзитета у Новом Садукада је израдила, поред говорних аза података, лек-сичку азу од преко 4 милиона акцентованих оликаречи српског језика и више од 3 милиона оликаречи хрватског језика. Коришћењем ових ресурсаразвијене су различите апликације из домена ауто-матског препознавања говора и претварања текстау говор. Препознавање и синтеза говора за српскису ушли у комерцијалну употреу кроз фирму Alfa-Num, која је потекла са Универзитета у Новом Саду.Ова компанија успешнопослује и у другим државамакоје су насталенапростору ивше Југославије – уХр-ватској, Македонији, Босни и Херцеговини и ЦрнојГори. Компанија AlfaNum има значајан рој кори-сника међу српским компанијама.

Када преводи на српски, Гуглов преводилац такођенуди основне могућности претварања текста у говорза резултате превођења, али ез уграђених акцената.

Гледајући даље од данашњег технолошког стања,може се рећи да ће доћи до значајних промена за-хваљујућиширењу паметних телефона као нове плат-форме за управљање корисничким односима, која ћесе користити поред већ постојећих канала – теле-фона, интернета и електронске поште. Ова тенден-ција ће утицати и на коришћење технологије за го-ворну интеракцију. С једне стране, на дуже стазе

26

Page 34: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

ће опадати потражња за гласовном корисничком су-међом за телефонске услуге. С друге стране, кори-шћење говорних могућности као приступ паметнимтелефонима доиће на значају. Ову тенденцију по-држава напредак који се већ може уочити у тачностипрепознавања говора независних говорника помоћуговорних сервиса за диктирање који се већ нуде каоцентрализоване услуге корисницима паметних теле-фона.

4.2.4 Машинско превођење

Идеја да и се дигитални рачунари могли користитиза превођење природних језика настала је 1946, по-сле чега је уследило значајно финансирање истражи-вања у овој оласти педесетих година и потом осам-десетих година прошлог века. И поред свега, ма-шинско превођење (Machine Translation – MT) идаље не успева да испуни велика очекивања која јеподстакло у тим раним данима.На основном нивоу, машинско превођење једно-ставно замењује речи из једног природног језика ре-чима из неког другог. Овоможе да уде корисно у не-ким предметним доменима који користе веома огра-ничен формализован језик, као што је језик времен-ских прогноза. Међутим, за доар превод текстовакоји нису толико стандардизовани, треа сравнитивеће текстуалне јединице (фразе, реченице или целепасусе) са најлижим паром у циљном језику.

На основном нивоу, машинско превођењеједноставно замењује речи једног природног

језика речима другог језика.

Овде највећа потешкоћа лежи у томе што су при-родни језици вишезначни, што ствара изазове наразличитим нивоима, јер треа, на пример, откло-нити вишезначност речи на лексичком нивоу („ја-гуар” може да уде назив животиње и аутомоила)

или утврдити повезаност предлошких фраза на син-таксичком нивоу, као у:

‚ Полицајац је усео а римеи човека ез волеа.

‚ Полицајац је усео а римеи човека ез револ-вера.

Један начин да се изгради систем машинског прево-ђења заснива се на лингвистичким правилима. Запревођење између сродних језика могуће је и ди-ректно превођење у случајевима који наликују на-веденим примерима. Ипак, системи засновани направилима (или на знању) анализирају улазни тексти креирају посредну симоличку интерпретацију,из које се потом генерише текст на циљном језику.Успех ових метода веома зависи од постојања исцрп-них лексикона са морфолошким, синтаксичким и се-мантичким информацијама, и великих скупова гра-матичких правила које су пажљиво израдили иску-сни лингвисти. Ово је веома дуг и скуп процес.Како је крајем осамдесетих година прошлог векаснага рачунара порасла и појефтинила, дошло је довећег интересовања за статистичке методе у машин-ском превођењу. Статистички модели се изводе изанализе двојезичних текстуалних корпуса, какав је,на пример, паралелни корпус Europarl, који садржитекстовеЕвропскогпарламентана двадесетједном је-зику.Под условом да постоји довољно података, стати-стичко машинско превођење може да изведе до-вољно доро прилижно значење текста на страномјезику, тако што орађује паралелне верзије и про-налази прихватљиве речи. Међутим, за разлику одсистема заснованих на знању, статистичко машин-ско превођење (или превођење засновано на пода-цима) често генерише неграматички излаз. С другестране, осимшто захтева мање људског напора за пи-сање граматика, превођење засновано на подацимаможе да покрије специфичности језика које измичу

27

Page 35: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

статистичко машинско превођење

изворни текст

циљни текст

анализа текста (форматирање, морфологија,

синтакса, итд.)

Генерисање текста

правила превођења

10: Машинско превођење (статистичко; засновано на правилима)

системима заснованимна знању, каошто су идиомат-ски изрази.Пошто се јаке и слае стране машинских система за-снованих на знању, односно подацима, допуњују, ис-траживачи данас једногласно теже хиридним при-ступима који коминују ое методологије. То семоже урадити на више начина. Један начин је да секористе и системи засновани на знању и системи за-сновани на подацима, а да засеан модул за селек-цију одлучи шта је најољи излаз за сваку реченицу.Међутим, за дугачке реченице, дуже од, рецимо, два-наест речи, код оваквог приступа ни један резултатнеће ити савршен.Боље је решење које коминује најоље делове свакереченице доијене из различитих извора, што можеити доста сложено јер није увек очигледно шта суодговарајући делови код вишеструких могућности ијер их, осим тога, треа и поравнати.

Машинско превођење представљапосебан изазов за српски језик.

Што се тиче везе српског и страних језика, пролемизависе од природе специфичног језика (да ли има ра-звијену морфологију, да ли има слоодну или фик-сирану дистриуцију реченичних конституената, дали користи чланове, да ли је записан ћириличнимили латиничним писмом, да ли користи логичку или

граматичку интерпункцију итд.). Међутим, овде сене ради само о томе шта су пролеми већ и о мо-гућности да се сарађује на решавању сличних про-лема. У том смислу и сарадња са пројектима веза-ним за рачунарску ораду других словенских језикаила посено корисна. Овде су такође важне лек-сичке и терминолошке везе, наиме у коликој мери јенеки страни језик утицао на развој српског. У овомподручју и треало тражити сарадњу са пројектимачији је циљ рачунарска орада оних језика који суслужили и још увек служе као кичма развоја српског,а то су, пре свега, енглески, француски, немачки и ру-ски.

Треало и додати да се одвијају и контрастивна ис-траживања српског и неких страних језика. Нажа-лост, има недовољно сарадње између лингвиста којисе аве српским као матерњим језиком и оних лин-гвиста који се као стручњаци за стране језике укљу-чују у контрастивна истраживања. Други пролем јенедовољан рој великих двојезичних речника.

Највећа потреа за језичким технологијама у Сријије на пољу превођења. Постоје нека специјализованадруштва (Друштво књижевних преводилацаСрије,Друштво научних и стручних преводилаца Срије),нека локална мала и средња предузећа (нпр. Elitenceи Proverbum) и неке стране компаније (нпр. World-Lingo) које нуде професионалне преводилачке услугеили слоодан машински превод заснован на фразама

28

Page 36: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

(нпр. Google Translate, WorldLingo). Неке од њихкористе власничке електронске речнике за свој рад,а WorldLingo нуди и шире услуге машинског пре-вођења (ве локације, текст, документа, електронскепоруке, API итд.).

Осим доро познатог и слоодно доступног Гугло-вог статистичког система за превођење, који укљу-чује и српски, ниједан други систем за машинскопревођење за српски није произведен, осим некихпочетних радова (нпр. у оквиру пројекта SEE-ERA)и малих експерименталних система.

Међутим, генерички статистички системи замашин-ско превођење какав је Google Translate подржавајусрпски у значајној мери, посено за превођење на ен-глески и са енглеског. Ипак, за друге језичке паровеперформансе су слае, а доијени превод је често не-разумљив, а понекад и смешан. То је резултат недо-вољне величине паралелних корпуса који је за те је-зичке парове коришћен за оуку система за стати-стичко машинско превођење.

Још увек се сматра да се много може урадити на по-ољшањуквалитета система замашинскопревођење.Изазови оухватају прилагођавање језичких ресурсадатом предметном или корисничком домену и укљу-чивање терминолошких аза и преводилачких мемо-рија у постојеће радне процесе.

Акције за процењивање омогућавају да се поредеквалитет система за машинско превођење, разли-чити приступи, као и статус система за машинскопревођење за различите језичке парове. Следећа та-ела 11 (стр. 30), представљена у оквиру пројектаЕвропске комисије Euromatrix+, приказује перфор-мансе по паровима за 22 од 23 служена европскајезика (недостаје ирски). Резултати су рангиранипрема BLEU процени, која даје више оцене за ољепреводе [43]. Човек-преводилац постиже резултатод око 80 поена.

Најољи резултати (приказани зеленом и плавом о-јом) постигнути су за језике који имају користи одзначајних истраживачких напора у оквиру сараднич-ких програма и за које постоје многи паралелни кор-пуси (нпр., енглески, француски, холандски, шпан-ски и немачки), а најлошији (приказани црвеном о-јом) за језике који нису могли да користе сличнепретходне напоре или који су веома различити оддругих језика (нпр., мађарски, малтешки, фински).

4.3 ДРУГЕ ОБЛАСТИПРИМЕНЕИзградња апликација заснованих на језичким тех-нологијама укључује опсег подзадатака који се невиде увек на нивоу интеракције са корисником, аликоји оезеђују значајне функционалности система„испод хауе”. Сваки од њих представља важан ис-траживачки задатак који се развио у засену подди-сциплину у оквиру рачунарске лингвистике.На пример, одговарање на питања је постало ак-тивно истраживачко подручје, за које су изграђенианотирани корпуси и отпочела су научна такмичења.Идеја је да се крене даље од претраживања заснова-ног на кључним речима (на које машине одговарајуцелом колекцијом релевантних одговора) ка ситуа-цији у којој корисник поставља конкретно питање, асистем пружа један одговор. На пример:

Пиање: Са колико оина је Нил Армсрон кро-чио на Месец?

Оовор: 38.

Иако је ово очигледно повезано са већ поменутимосновним претраживањем веа, одговарање на пи-тања је данас пре свега заједнички термин за разли-чите истраживачке теме као што су: које типове пи-тања треа разликовати и како треа с њима посту-пати, како треа анализирати и поредити документа

29

Page 37: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Циљни језик — Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

11: Машинско превођење између 22 EU-језика – Machine translation between 22 EU-languages [42]

којапотенцијално садржеодговоре (да лиона садржесупротстављене одговоре?), и како се специфичнаинформација – заправо одговор–може поуздано из-вући из документа, не запостављајући при томе кон-текст у коме се налази.

Ова оласт је повезана са задатком екстракције ин-формација, олашћу која је ила изузетно популарнаи утицајна у време „статистичког заокрета” у рачу-нарској лингвистици почетком деведесетих година.Циљ екстракције информација је да се идентифи-кују специфични делићи информација у специфич-ним класама докумената; то може да уде, на пример,откривање кључних актера у преузимању компанијана основу извештавања у новинама. Други сценариона коме се радило или су извештаји о терористич-ким инцидентима, где је пролем ио да се текст пре-слика у шалон у коме су спецификовани изврши-лац, мета, време и место инцидента, и шта је њиме

постигнуто. Централна карактеристика екстракцијеинформација је попуњавање шалона специфичногза неки домен, зог чега је то још један пример тех-нологије ‘иза сцене’, која представља јасно разграни-ченоистраживачкоподручје, али која из практичнихразлога мора да се угради у одговарајуће окружењеапликације.

Два „гранична” подручја, која понекад имају улогусамосталне апликације, а понекад помоћне компо-ненте („испод хауе”), јесу резимирање текста и ге-нерисање текста. Резимирање се, очигледно, односина задатак скраћивања дугачког текста, и њега каофункцију нуди MS Word. Оно ради углавном на ста-тистичким основама, тако што прво идентификује„важне” речи у тексту (на пример, речи које се у кон-кретном тексту често јављају, док се у текстовима уначелу јављају много ређе), а затим утврђује у којимсе реченицама јавља пуно важних речи. Ове рече-

30

Page 38: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

нице се затим издвајају из текста и изњих се састављасажетак. У овом сценарију, који је комерцијално уо-ичајен, резимирање се своди на просту екстракцијуреченица, а текст на подскуп својих реченица. Ал-тернативни приступ, коме се такође посвећују некиистраживачки напори, састоји се у генерисању пот-пуно нових реченица које не постоје у изворном тек-сту. Ово захтева дуље разумевање текста, што значида је тај приступ (за сада) знатно мање роустан. Свеу свему, генерисање текста у већини случајева нијесамостална апликација, већ је уграђено у шире соф-тверско окружење, каошто је клинички информаци-они систем у коме се подаци о пацијентима скупљају,складиште и орађују. Генерисање извештаја је самоједна од многих примена резимирања текста.Унутар ових поменутих подручја се, кад је реч о срп-ском, спроводе врло успешни експерименти везаниза препознавање именованих ентитета, као дела про-лема екстракције информација. Очекује се урзаниразвој система за екстракцију информација и одго-варање на питања, имајући у виду опсег изграђенихморфолошких речника и локалних граматика.Постоје и друга подручја на којима се примењују је-зичке технологије. Једно од њих је откривање пла-гијаторства, које користи језички независне техно-логије, али се може проширити претрагом за једно-ставним парафразама текста. Истраживање које идеу овом правцу за научне чланке у Срији је реализо-вала компанија CEON [44].

4.4 ОБРАЗОВНИ ПРОГРАМИЈезичке технологије су интердисциплинарно по-дручје које захтева знања многих стручњака, лин-гвиста, стручњака за рачунарство, математичара, фи-лозофа, психолингвиста и неуролога, да поменемосамо неке. Као такво, оно још није доило сталнупозицију у високом оразовању у Срији и углавномје ограничено на појединачне курсеве у оквиру оп-

штијих постдипломских студијских програма. Па-радоксално, упркос оваквом стању, у оквиру истра-живачке станице Петница [45] се сваке године ор-ганизују мали истраживачки семинари за средњо-школце са темама из рачунарске лингвистике.

На нивоу универзитетских студија, теме из оластирачунарске лингвистике су присутне на студијама израчунарства, електронике, илиотекарства, лингви-стике и психологије, и то на универзитетима у Бео-граду и Новом Саду. Предмети који су понуђенистудентима дају основне појмове о процесу орадеприродних језика, али су уфункцијиформирања сту-дената за друкчије профиле. На Математичком фа-култету у Београду, на редовним студијама су при-сутни курсеви из лексичке анализе и истраживањаподатака (енгл. data mining), поред курсева који о-рађују фундаментална математичка знања потрена уоради природних језика (посено статистика, алге-ра и логика), док на докторским студијама постојивећи изор предмета из оласти технологија при-родних језика. Најтемељније оразовање на овомподручју стичу студенти Групе за илиотекарство иинформатику на Филолошком факултету у Београду,док на другим групама тог факултета постоји нај-више један уводни курс. У оквиру студија српскогјезика није предвиђено оразовање на подручју о-раде природних језика. На Филозофским факулте-тима у Београду и Новом Саду, на групама за психо-логију постоје курсеви из психолингвистике на ко-јима се студенти упознају са статистичким методамаораде језика. На техничким факултетима се изуча-вају методе од значаја за ораду говора. Курикулумкоји даје специјалност у домену рачунарске лингви-стике или језичких технологија не постоји ни на јед-ном од факултета.

31

Page 39: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

4.5 НАЦИОНАЛНИ ПРОЈЕКТИИ ИНИЦИЈАТИВЕИндустрија језичких технологија је у Срији рела-тивно неразвијена у поређењу са водећим економи-јама земаља Европске уније, и то из више разлога.Главна покретачка снага иза развоја језичких техно-логија у Срији су углавном домаћа мала и средњапредузећа, али и неке стране компаније, које поне-када оезеђују подршку за српски језик у разновр-сним апликацијама које траже подршку језичких тех-нологија. Пошто не постоји национални програмподршке развоју језичких технологија, њихов развоји примена се одвијају често на некоординиран на-чин. Постоје ар три правца којима се језичке тех-нологије уводе у Срију: (а) кроз државне научне иразвојне пројекте, () преко (првенствено) странихфирми које уз рачунарску опрему пружају и одре-ђени олик језичке подршке и (в) кроз интерни ра-звој у оквиру домаћих организација какве су, нпр.,издавачке куће или преводилачке агенције. Актив-ности у ова триправца се одвијају, осимизузетно, не-зависно једне од других.

Сдруге стране, рачунарскиписмено становништво уСрији је навикло да користи графичку корисничкусумеђу (интерфејс) на енглеском језику, иако неки одњих можда и не знају енглески. Локализоване вер-зије њима понекад изгледају чудне и непрецизне инису вољни да их користе. Једине апликације које увеликом роју користе графичку корисничку сумеђу,на српском су различите пословне, финансијске и ра-чуноводствене апликације, укључујући и SAP ERPсистем. Ипак, има примера локализоване графичкекорисничке сумеђепознатих софтверскихпродавацакао што је Microsoft (нпр. Windows, Office), Googleили Oracle (локализација Open Office, финансиранау периоду од 2008. до 2011. од стране Министарстваза телекомуникације и информационо друштво крозпројекат на Математичком факултету [46]).

Научни пројекти које финансира Министарство заоразовање и науку тек у најновијем циклусу науч-них пројеката (период 2011–2014) препознају ин-тердисциплинарност. До 2010. године научни про-јекти (па тиме и критеријуми за њихову евалуацију)или су оштро раздвојени на подручја математике(коме је подређено рачунарство), језика и техноло-шких дисциплина. У таквом амијенту је ило те-шко реализовати природни спој дисциплина које суу основи развоја језичких технологија. У оваквомконтексту ило је неопходно успоставити везе из-међу истраживања на подручју српског језика и ин-форматике.

Први такав пројекат, под називом „Интеракције тек-ста и речника“, формиран је 2002. године као за-једнички пројекат катедара за српски језик Филоло-шког факултета у Београду и Филозофског факултетау Новом Саду и Математичког факултета у Београду.У оквиру овог пројекта је формиран први корпус са-временог српског језика [47] доступан преко веа, акоји данас има преко 300 корисника са различитихуниверзитета и института у земљи и иностранству.У оквиру овог пројекта је започета и конструкцијаелектронског морфолошког речника српског језикапрема тзв. LADL формату [48]. Овај пројекат је на-стављен као заједнички пројекат Катедре за српскијезик Филолошког факултета у Београду и Матема-тичког факултета у периоду од 2006. до 2010. под на-зивом „Теоријско-методолошки оквир за модерни-зацију описа српског језика” и од 2011. до 2014. као„Српски језик и његови ресурси: теорија, опис ипримене”. Кроз ове пројекте је довршена конструк-ција електронског речника простих речи и започетрад на конструкцији речника сложених речи, ра-звијени су паралелни француско-српски и енглеско-српски корпус литерарних текстова, описане су ло-калне граматике за поједине сегменте српског (по-сено за именоване ентитете), као и различити соф-

32

Page 40: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

тверски алати, од којих посеан значај има радна ста-ница LeXimir, која омогућава интеграцију и транс-формацију хетерогених лексичких ресурса.

Упоредо са овим истраживањима у оласти језика, уоласти друштвених наука је финансиран пројекат„Фундаментални когнитивни процеси и функције”,који је реализован на Катедри за психологију Фило-зофског факултета у Београду. Овај пројекат је, по-ред осталог, имао за циљ да испита могућност ауто-матске анотације текстаполазећиод анотираногкор-пуса [49], развијеног још током педесетих година, адеведесетих преведеног у електронски олик.

Синтеза и препознавање говора на Техничкомфакултету Универзитета у Новом Саду се реа-лизује кроз пројекте технолошког развоја почевод 2005. године, и то „Развој говорних техноло-гија на српском језику и њихова примена у ‘Теле-кому Срија’” (2005–2007), „Говорна комуника-ција човек-машина” (2008–2010), „Развој дијало-шких система за српски и друге јужнословенске је-зике” (2011–2014). Они пружају подршку различи-тим апликацијама и сервисима за претварање тек-ста у говор и аутоматско препознавање говора, којиукључују системе за интерактивне гласовне одговоре(IVR), пословне телефонске системе, позивне цен-тре, пријављивање гласом, праћење реклама, уоча-вање речи, и др.

У оквиру других оласти науке развијани су по-јединачни ресурси од значаја за језичке техноло-гије, али ез непосредне интеракције са већ наведе-ним пројектима. Поменимо као примере геолошкисрпско-енглески тезаурус [50] и фолклористичкуазу ДАБИ Балканолошког института САНУ [51].

Упоредо са националним пројектима, српске научнеинституције су иле укључене и у различите међу-народне пројекте везане за подручје језичких техно-логија. Током периода санкција Уједињених нација,одржавање одређеног нивоа активности је ило мо-

гуће захваљујући учешћу у пројектима TELRI I и II[52]. Иако српске истраживачке групе у то временису могле да учествују на пројекту MULTEXT-East [53], оне су ипак произвеле корисне ресурсеу формату који је тај пројекат дефинисао: морфо-синтаксички опис српског језика, поравнату вер-зију српског превода романа „1984” Џорџа Орвела,његову лематизирану и морфосинтаксички етикети-рану верзију и исцрпан речник који покрива ком-плетну лексику романа „1984”.

Ситуација у разним доменима обраде српскогјезика је различита, али значајан напредакпостоји у развоју корпуса, морфолошкој

анализи, електронским речницима, као и уекстракцији именованих ентитета.

По укидању санкција, посено је значајан ио про-јекат BalkaNet [54], који је омогућио развој семан-тичке мреже типа WordNet за српски. Кроз ила-тералну сарадњу са Француском је развијен српскидео вишејезичне лексичке азе властитих имена Pro-lex [55], а у оквиру пројекта Intera једномилионскипаралелизовани енглеско-српски корпус, који је ле-матизиран и морфолошки анотиран. Овај корпус јепослужио за оучавање тагера и за експерименте упоравнавању на нивоу речи и у аутоматском прево-ђењу.Српски учесници су илиукључени удварегионалнапројекта. Један од њих, SEE-ERA.NET – BuildingLanguage Resources and Translation Models for Mac-hine Translation (Изградња језичких ресурса и пре-водилачких модела за машинско превођење), ио јеусмерен на јужнословенске и алканске језике (ICT10503 RP, 2007–2008). Његов главни допринос иоје развој једносмерних преводилачких модела којисе ослањају на вишејезичне ресурсе великих димен-зија, у ствари на корпус Acquis Communautaire. Ме-ђутим, пошто документа која улазе у овај ресурс у то

33

Page 41: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

време још нису ила преведена на српски, преводи-лачки модел није ио произведен за српски. Пре-вод законске регулативе Европске уније је у току идео преведеног материјала је већ доступан [56]. Сасвоје стране је српски тим допринео овом пројектуразвојем једног другог вишејезичног ресурса који сезаснива на роману Жила Верна „Пу око свеа заосамесе ана” (у том тренутку ило је укључено 16језика). Други пројекат ио је WISE – An ElectronicMarketplace to Support Pairs of Less Widely StudiedEuropean Languages (Електронско тржиште за подр-шку паровима мање изучаваних европских језика),чији је циљ ила производња не само вишејезичнихлексичких ресурса оогаћених лингвистичким мета-подацима већ и изградња и промоција електронскогтржишта за слаијеизучаванеалканске језике, укљу-чујући и српски (BSEC 009 / 05.2007, 2007 – 2008).

Даље активностиподразумевају, пре свега, развој по-ступака за синтаксичку анализу српског, која је, с о-зиром на слоодан ред речи и морфолошко огат-ство српског језика, изузетно сложен поступак. Овоподразумева развој нових ресурса, пре свега новихтипова речника и корпуса, као и пратећих алата.

4.6 ДОСТУПНОСТ АЛАТА ИРЕСУРСАТаела 12 даје приказ текућег стања језичких техно-логија за српски језик. Рангирање постојећих алата иресурса се заснива на процени више водећих експе-рата који су дали оцене на скали 0 (врло ниско) до 6(врло високо) на основу седам критеријума.

За српски језик, стање ресурса и технологија може сеописати на следећи начин:

‚ Што се тиче морфолошких и с њима повезанихпитања, може се слоодно рећи да је ниво развојатехнологија и ресурса задовољавајући, углавном

захваљујући постојању великог електронског реч-ника и локалних граматика. Непосредна после-дица тога је да су потрени алати за проналажењеинформација и екстракцију информација на рас-полагању. Неки од речника су спремни за ши-року употреу, док неке још треа доградити, например СрпНет.

‚ Референтни корпус савременог српског језикаекавског изговора је на располагању, као и неко-лико поравнатих корпуса, и сви они су на рас-полагању истраживачима српског језика. Текућаистраживања су усредсређена на доградњу рефе-рентног корпуса и његово проширивање ијекав-ским изговором.

‚ Говорне технологије су доро развијене и нашлесу широке пословне примене, али се истражи-вања морају ширити да и се проширила и пољапримене.

‚ Софтвер намењен повећавању продуктивностилексикографа је развијен, али недовољна спрем-ност за нове технологије у традиционално ори-јентисаном лексикографском окружењу је пре-прека ржем развоју лексикографије.

‚ У неким подручјима су оављени успешни експе-рименти у строго истраживачком окружењу, каошто јеплиткопарсирање, резимирање, машинскопревођење, онтолошки ресурси. Међутим, дои-јени резултати су још увек далеко од нивоа ра-звоја који је постигнут за развијене европске је-зике. Пажњуистраживачапривлачеимултимеди-јални и мултимодални документи, посено у кон-тексту дигитализације културног наслеђа.

Имајући у виду сложеност српске синтаксе, подручјазаснована на дуоком парсирању једноставно не по-стоје: семантика реченица, семантика текста, гене-рисање језика. Зог тога не постоји ни формализо-вана синтакса српског, што ограничава развој син-таксички и семантички анотираних корпуса. Форма-

34

Page 42: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Ква

нтит

ет

Дос

тупн

ост

Ква

лите

т

Пок

риве

ност

Зрел

ост

Одр

живо

ст

При

лаго

дљив

ост

Језичке технологије (алати, технологије, апликације)

Препознавање говора 2 2 1 1 1 1 0

Синтеза говора 2 2 4 4 5 5 1

Граматичка анализа 1 1 2,5 2 2 1,5 1,5

Семантичка анализа 1 1 1 1,5 1 1 1,5

Генерисање текста 0 0 0 0 0 0 0

Машинско превођење 1 1 0 1 0 1 1

Језички ресурси (ресурси, подаци, базе знања)

Текстуални корпуси 0,5 1 0,5 1 1 1 0,5

Говорни корпуси 1 2 4 4 3 3 3

Паралелни корпуси 3 3 3 2 2 2 3

Лексички ресурси 1 2 2 2 2 2 2,5

Граматике 1 1 0 1 0 1 1

12: Стање језичких технологија за српски језик

лизација синтаксе српског је, према томе, најхитнијизадатак за даљи развој језичких технологија.

4.7 ПОРЕЂЕЊЕ ЈЕЗИКАТекуће стање подршке језичких технологија значајносе разликује од једне језичке заједнице до друге. Даи се упоредиле ситуације у којима се налазе разли-чити језици, овај одељак ће представити оцену за-сновану на два примера оласти примене (машин-ско превођење и орада говора) и на једној техноло-гији (анализа текста), као и на основним ресурсиманеопходним за изградњу апликација језичких техно-логија. Језици су сврстани у групе на основу следећескале од пет вредности:

‚ Одлична подршка језичким технологијама

‚ Дора подршка

‚ Умерена подршка

‚ Фрагментарна подршка

‚ Слаа подршка или ез подршке

Мера подршке језичким технологијама установљенаје на основу следећих критеријума:

‚ Орада говора: Квалитет постојећих техноло-гија запрепознавање говора, квалитетпостојећихтехнологија за синтезу говора, покривеност до-мена, рој и оим постојећих говорних корпуса,ројност и разноврсност расположивих аплика-ција заснованих на говору

35

Page 43: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

‚ Машинско превођење: Квалитет постојећеихтехнологија машинског превођења, рој покри-вених језичких парова, покривеност језичких фе-номена и домена, квалитет и оим постојећих па-ралелних корпуса, ројност и разноврсност ра-сположивих апликација машинског превођења

‚ Граматичка анализа: Квалитет постојећих тех-нологија за анализу текста и оласти које покри-вају (морфологија, синтакса, семантика), покри-веност језичких феномена и домена, ројност иразноврсност расположивих апликација, квали-тет и оим постојећих (анотираних) текстуалнихкорпуса, квалитет постојећих лексичких ресурсаи граматика и оласти које покривају (нпр.Word-Net)

‚ Ресурси: Квалитет и оим постојећих тексту-алних, говорних и паралелних корпуса, квали-тет постојећих лексичких ресурса и граматика иоласти које покривају

Горње таеле показују да су алатииресурси за српскијезик углавномунајнижој групи. Српскидоро стојиу поређењу са језицима са малим ројем говорника,као што су хрватски, словеначки и словачки, али свити језици су далеко иза заступљенијих европских је-зика као што су немачки или француски. Па ипак,чак ни за ове последње језике, алати и ресурси језич-ких технологија нису достигли квалитет и покриве-ност одговарајућих алата и ресурса за енглески језик,који је у врху у свим оластима језичке технологије.Аи у енглеским језичкимресурсимапостоји јошувекдоста празнина с тачке гледишта апликација високогквалитета.

4.8 ЗАКЉУЧЦИУ овој серији елих књиа учинили смо значајан о-чени наор а оценимо оршку језичких ехноло-ија за 30 евроских језика и а оезеимо квали-

ено оређење их језика. Пошо су иенифико-ване орее и неосаци, зајеница евроских језич-кихехнолоија, каои све заинересоване сране саасу у рилици а осмисле рораме исраживања и ра-звоја широких размера чији је циљ израња исинскивишејезичне, ехнолошки ососољене Еврое.

Видели смо да постоје огромне разлике измеђуевропских језика. Док за неке језике у одређенимоластима примене постоје квалитетни ресурси иодговарајући софтвер, за друге језике ту постоје зна-чајне празнине. Многим језицима недостају основнетехнологије за анализу текста, као и суштински ре-сурси за развој тих технологија. Другиимају основнересурсе или алате, али још увек нису у прилици даинвестирају у семантичку ораду. Зато нам тек пред-стоји да учинимо главни напор за постизање ами-циозног циља оезеђивања високо квалитетног ма-шинског превођења између свих европских језика.Оим ресурса и опсег алата који постоје за српскијезик још увек су врло ограничени, нарочито када сеупореде са алатима и ресурсима за језике као што суфранцуски, немачки и посено енглески, и нису до-вољни ни по квалитету ни по квантитету за развојоне врсте технологије која је неопходна за подршкуистински вишејезичном друштву знања.

Технологије које су већ развијене и оптимизоване заенглески не могу једноставно да се пренесу на срп-ски језик. Систем за синтаксичку анализу структуререченице заснованна енглескомпоправилу је непри-кладан за примену на српском тексту. Рад на орадисрпског језика до сада је ио концентрисан на развојресурса и алата који су у складу са специфичним свој-ствима српског (пре свега описњегове огате морфо-логије). Овај правац развоја мора оавезно да се за-држи и у удућности. За скромну језичку заједницуи истраживачку средину као што је српска, сарадњау развоју ресурса, како на домаћем тако и на међу-народном нивоу, од пресудног је значаја. Ово гене-

36

Page 44: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

рално важи за већину словенских језика, а за сарадњусу неопходне даље стимулативне мере. Посено ве-лике могућности за сарадњу постоје између проје-ката везаних за стандардне језике штокавског поре-кла, као и за словенске језике уопште, имајући у видузаједничка својства тих језика.Учешће Срије у CESAR-у и META-NET-у треалои да допринесе развоју, стандардизацији и доступ-ности неколико важних ресурса језичких техноло-гија и стога развоју језичких технологија за српскијезик. Дугорочни циљ META-NET-а јесте да уведетехнологију високог квалитета за све језике како исе постигло политичко и економско јединство крозкултурну разноврсност. Технологија ће помоћи дасе уклоне постојеће аријере и да се изграде мостовимеђу европским језицима. Ово захтева од свих за-интересованих страна – у политици, истраживању,привреди и друштву – да уједине своје напоре за у-дућност.Индустрија српских језичких технологија је веомаскромна. Укључено је тек неколико средњих и малих

предузећа и њихов приступ је у суштини заснован напримени „груе силе”, што значи да се у основи за-немарују специфичности српског језика. Наши на-лази показују да је једина алтернатива улагање зна-чајних напора у стварање ресурса за језичке техноло-гије за српски и њихово коришћење за унапређењеистраживања, иновација и развоја. С озиромна по-треу за великим количинама података и екстремнусложеност система језичких технологија, од витал-ног је значаја развој нове инфраструктуре и кохе-рентније организације истраживања, која и подста-кла већу сарадњу. Други кључни допринос ио и ус-постављање мултидисциплинарног студијског про-грама ораде језика на мастер и докторском нивоу,што данас не постоји.Према томе, можемо да закључимо да постоји нео-дложна потреа за широком, координираном ини-цијативом усмереном на превазилажење разлика успремности језичких технологија за европске језикекао целину.

37

Page 45: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

одлична добра умерена фрагментарна слаба подршкаподршка подршка подршка подршка или без ње

енглески немачкииталијанскифинскифранцускихоландскипортугалскишпанскичешки

баскијскибугарскиданскиестонскигалицијскигрчкиирскикаталонскинорвешкипољскишведскисрпскисловачкисловеначкимађарски

исландскихрватскилетонскилитванскималтешкирумунски

13: Обрада говора: стање подршке језичких технологија за 30 европских језика

одлична добра умерена фрагментарна слаба подршкаподршка подршка подршка подршка или без ње

енглески францускишпански

немачкииталијанскикаталонскихоландскипољскирумунскимађарски

баскијскибугарскиданскиестонскифинскигалицијскигрчкиирскиисландскихрватскилетонскилитванскималтешкинорвешкипортугалскишведскисрпскисловачкисловеначкичешки

14: Машинско превођење: стање подршке језичких технологија за 30 европских језика

38

Page 46: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

одлична добра умерена фрагментарна слаба подршкаподршка подршка подршка подршка или без ње

енглески немачкифранцускииталијанскихоландскишпански

баскијскибугарскиданскифинскигалицијскигрчкикаталонскинорвешкипољскипортугалскирумунскишведскисловачкисловеначкичешкимађарски

естонскиирскиисландскихрватскилетонскилитванскималтешкисрпски

15: Граматичка анализа: стање подршке језичких технологија за 30 европских језика

одлична добра умерена фрагментарна слаба подршкаподршка подршка подршка подршка или без ње

енглески немачкифранцускихоландскишведскичешкимађарскипољскииталијанскишпански

баскијскибугарскиданскиестонскифинскигалицијскигрчкикаталонскихрватскинорвешкипортугалскирумунскисрпскисловачкисловеначки

ирскиисландскилетонскилитванскималтешки

16: Језички ресурси: стање подршке језичких технологија за 30 европских језика

39

Page 47: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

5

О МЕТА-НЕТ-У

МЕТА-НЕТ је мрежа изврсности коју финансираЕвропска унија [57]. Њу тренутно чине 54 члана,који представљају 33 европске земље. МЕТА-НЕТподстиче технолошки савез вишејезичне Европе(Multilingual Europe Technology Alliance – META),заједницу професионалаца и организација са по-дручја језичких технологија из Европе. МЕТА-НЕТје посвећен остваривању технолошких основа за ус-постављање и одржавање истинског вишејезичногевропског информационог друштва које:

‚ омогућава вишејезичну комуникацију;

‚ оезеђује једнак приступ информацијама изнању на свим језицима;

‚ нуди напредне могућности умрежене информа-ционе технологије.

Мрежа подржава Европу која се удружује у једин-ствено дигитално тржиште и информациони про-стор. Она стимулише и промовише вишејезичнетехнологије за све европске језике. Ове техно-логије омогућавају аутоматско превођење, генери-сање садржаја, ораду информација, управљање зна-њем за широк распон апликација и предметнихоласти, као и сумеђе засноване на језику за тех-нолошке производе од кућних апарата, преко ма-шина и возила, до рачунара и роота. МЕТА-НЕТје покренут 1. феруара 2010. и већ је предузеовише активности које доприносе остварењу њего-вих циљева. МЕТА-ВИЗИЈА, МЕТА-РАЗМЕНА иМЕТА-ИСТРАЖИВАЊЕ су три правца активно-сти ове мреже.МЕТА-ВИЗИЈА (META-VISION) подстиче за-једницу динамичних и утицајних заинтересованих

страна да се удруже око заједничке визије и зајед-ничког стратешког истраживачког плана (StrategicResearch Agenda – SRA). Њен главни задатак је даизгради кохерентну и повезану заједницу за језичкетехнологије у Европи повезујући представнике не-повезаних и разноврсних заинтересованих група.Ова ела књига припремљена је заједно са 29 томоваза друге језике. Заједничка визија технологије разви-јена је у три групе, по секторима.МЕТА-РАЗМЕНА (META-SHARE) ствара отво-рене, широко распрострањене погодности за зајед-ничко коришћење и размену ресурса. Мрежа репо-зиторијума јенак с јенаким (peer-to-peer) садржаћејезичке податке, алате и ве услуге документованеметаподацима високог квалитета и организоване устандардизоване категорије. Ресурсима се може усваком тренутку приступити, а претражују се на уни-форман начин. Расположиви ресурси укључују мате-ријале отвореног кода, слоодне за коришћење, алии комерцијално доступне компоненте.МЕТА-ИСТРАЖИВАЊЕ (META-RESEARCH)успоставља мостове ка релевантним сродним техно-лошким оластима. Ова активност настоји да иско-ристи напредак у другим оластима и да употреииновативна истраживања која могу да допринесу је-зичким технологијама. Посено, она се фокусирана спровођење најсавременијих истраживања у ау-томатском превођењу, прикупљању података и ор-ганизовању језичких ресурса за потрее евалуације,састављање инвентара алата и метода и организо-вање радионица и оука за чланове заједнице.

[email protected] – http://www.meta-net.eu

40

Page 48: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

1

EXECUTIVE SUMMARY

During the last 60 years, Europe has become a distinctpolitical and economic structure, yet culturally and lin-guistically it is still very diverse. From Portuguese toPolish and Italian to Icelandic, everyday communica-tion between Europe’s citizens as well as communica-tion in the spheres of business and politics is inevitablyconfronted by language barriers. e EU’s institutionsspend about a billion euros a year on maintaining theirpolicy of multilingualism, i. e., translating texts and in-terpreting spoken communication. Yet does this have tobe such a burden? Modern language technology and lin-guistic research can make a significant contribution topulling down these linguistic borders. When combinedwith intelligent devices and applications, language tech-nology will in the future be able to help Europeans talkeasily to each other anddobusinesswith each other evenif they do not speak a common language.

Language technology buildsbridges for Europe’s future.

Major trade partners of Serbia come from the EU, witha share of over 50% in its total trade, while exports to theEU market are free-of-customs according to the Stabili-sation and Association Agreement. But language barri-ers can bring business to a halt, especially for SMEs whodo not have the financial means to reverse the situation.e only (unthinkable) alternative to this kind of mul-tilingual Europe would be to allow a single language totake a dominant position and end up replacing all otherlanguages.

One classic way of overcoming the language barrier is tolearn foreign languages. Yet without technological sup-port, mastering the 23 official languages of the memberstates of the European Union and some 60 other Euro-pean languages is an insurmountable obstacle for the cit-izens of Europe and its economy, political debate, andscientific progress.e solution is to build key enabling technologies.ese will offer European actors tremendous advan-tages, not only within the common European marketbut also in trade relations with third countries, espe-cially emerging economies. To achieve this goal and pre-serve Europe’s cultural and linguistic diversity, it is nec-essary to first carry out a systematic analysis of the lin-guistic particularities of all European languages, and thecurrent state of language technology support for them.Language technology solutions will eventually serve asa unique bridge between Europe’s languages.

Language technology as a key for the future.

e automated translation and speech processing toolscurrently available on the market still fall short of thisambitious goal. e dominant actors in the field areprimarily privately-owned for-profit enterprises basedin Northern America. Already in the late 1970s, theEU realised the profound relevance of language tech-nology as a driver of European unity, and began fund-ing its first research projects, such as EUROTRA. Atthe same time, national projects were set up that gen-erated valuable results but never led to concerted Euro-

41

Page 49: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

pean action. In contrast to this highly selective fundingeffort, othermultilingual societies such as India (22 offi-cial languages) and South Africa (11 official languages)have recently set up long-term national programmes forlanguage research and technology development.e predominant actors in LT today rely on imprecisestatistical approaches that do notmake use of deeper lin-guisticmethods and knowledge. For example, sentencesare automatically translated by comparing a new sen-tence against thousands of sentences previously trans-lated by humans. e quality of the output largely de-pends on the amount and quality of the available sam-ple corpus. While the automatic translation of simplesentences in languages with sufficient amounts of avail-able text material can achieve useful results, such shal-low statistical methods are doomed to fail in the case oflanguages with a much smaller body of sample materialor in the case of sentences with complex structures.e European Union has therefore decided to fundprojects such as EuroMatrix and EuroMatrixPlus (since2006) and iTranslate4 (since 2010), which carry out ba-sic and applied research and generate resources for es-tablishing high quality language technology solutionsfor all European languages. Analysing the deeper struc-tural properties of languages is the only way forward ifwe want to build applications that perform well acrossthe entire range of Europe’s languages.European research in this area has already achieveda number of successes. For example, the transla-tion services of the European Union now use MOSESopen-source machine translation soware that has beenmainly developed through European research projects.A substantial breakthrough in the area of speech syn-thesis and recognition in Serbian was made by a groupfrom the Faculty of Technical Sciences at theUniversityof Novi Sad. Various applications in the fields of TTSand ASR have been developed based on the speech andlexical databases with accentuated word forms. Serbianspeech recognition and generation has been commer-

cialised by the AlfaNum company, a spin-off of theUni-versity of Novi Sad. e AlfaNum company has a con-siderable number of users among Serbian companies.e first corpus of contemporary Serbian, an electronicmorphological dictionary of Serbian, aligned French-Serbian and English-Serbian corpora of literary texts, aswell as different soware tools were developed in thescope of joint projects of the Faculty of Mathematicsand the Department of Serbian at the Faculty of Philol-ogy in Belgrade.

Language Technology helps unify Europe.

Drawing on the insights gained so far, it appears that to-day’s ‘hybrid’ language technologymixing deep process-ingwith statisticalmethodswill be able to bridge the gapbetween all European languages and beyond. As thisseries of white papers shows, there is a dramatic differ-ence between Europe’s member states in terms of boththe maturity of the research and in the state of readi-ness with respect to language solutions. Serbian is oneof the ‘smaller’ European languages, and it needs furtherresearch before truly effective language technology solu-tions are ready for everyday use.META-NET’s long-term goal is to introduce high-quality language technology for all languages in orderto achieve political and economic unity through cul-tural diversity. e technology will help tear down ex-isting barriers and build bridges between Europe’s lan-guages. is requires all stakeholders – in politics, re-search, business, and society – to unite their efforts forthe future.is white paper series complements other strategic ac-tions taken by META-NET (see the appendix for anoverview). Up-to-date information such as the cur-rent version of the META-NET vision paper [2] or theStrategic Research Agenda (SRA) can be found on theMETA-NET Website: http://www.meta-net.eu.

42

Page 50: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in information and communication tech-nology are sometimes compared to Gutenberg’s inven-tion of the printing press. What can this analogy tellus about the future of the European information soci-ety and our languages in particular?

The digital revolution is comparable toGutenberg’s invention of the printing press.

Aer Gutenberg’s invention, real breakthroughs incommunication were accomplished by efforts such asLuther’s translation of the Bible into vernacular lan-guage. In subsequent centuries, cultural techniques havebeen developed to better handle language processingand knowledge exchange:

‚ the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

‚ the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

‚ the teaching and translation of languages enabled ex-changes across languages;

‚ the creationof editorial andbibliographic guidelinesassured the quality of printed material;

‚ the creation of different media like newspapers, ra-dio, television, books, and other formats satisfieddifferent communication needs.

In the past twenty years, information technology hashelped to automate and facilitate many processes:

‚ desktop publishing soware has replaced typewrit-ing and typesetting;

‚ Microso PowerPoint has replaced overhead projec-tor transparencies;

‚ E-mail allows documents to be sent and receivedmore quickly than using a fax machine;

‚ Skype offers cheap Internet phone calls and hostsvirtual meetings;

‚ audio and video encoding formatsmake it easy to ex-change multimedia content;

‚ Web search engines provide keyword-based access;

‚ online services like Google Translate produce quick,approximate translations;

‚ social media platforms such as Facebook, Twitterand Google+ facilitate communication, collabora-tion, and information sharing.

Although these tools and applications are helpful, theyare not yet capable of supporting a fully-sustainable,multilingual European society in which informationand goods can flow freely.

43

Page 51: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

2.1 LANGUAGE BORDERSHOLD BACK THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informationsociety will look like. However, there is a strong like-lihood that the revolution in communication technol-ogy is bringing together people who speak different lan-guages in new ways. is is putting pressure both on in-dividuals to learn new languages and especially on de-velopers to create new technologies to ensure mutualunderstanding and access to shareable knowledge. Inthe global economic and information space, there is in-creasing interaction between different languages, speak-ers and content thanks to new types of media. e cur-rent popularity of social media (Wikipedia, Facebook,Twitter, Google+) is only the tip of the iceberg.

The global economy and informationspace confronts us with different

languages, speakers and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language that we do not understand. According toa report from the European Commission, 57% of In-ternet users in Europe purchase goods and services innon-native languages; English is the most common for-eign language followed byFrench,German andSpanish.55% of users read content in a foreign language while35% use another language to write e-mails or post com-ments on the Web [3]. A few years ago, English mighthave been the lingua franca of the Web – the vast ma-jority of content on the Web was in English – but thesituation has now drastically changed. e amount ofonline content in other European (as well as Asian andMiddle Eastern) languages has exploded.

Surprisingly, this ubiquitous digital linguistic dividehas not gained much public attention. Yet, it raises avery pressing question: Which European languages willthrive in the networked information and knowledge so-ciety, and which are doomed to disappear?

2.2 OUR LANGUAGES AT RISKWhile the printing press helped step up the exchangeof information in Europe, it also led to the extinctionof many languages. Regional and minority languageswere rarely printed and languages such as Cornish andDalmatian were limited to oral forms of transmission,which in turn restricted their scope of use. Will the In-ternet have the same impact on our modern languages?

The variety of languages in Europe is one of itsrichest and most important cultural assets.

Europe’s approximately 80 languages are one of our rich-est andmost important cultural assets, and a vital part ofthis unique social model [4]. While languages such asEnglish and Spanish are likely to survive in the emerg-ing digital marketplace, many languages could becomeirrelevant in a networked society. is would weakenEurope’s global standing, and run counter to the goal ofensuring equal participation for every citizen regardlessof language. According to a UNESCO report on mul-tilingualism, languages are an essential medium for theenjoyment of fundamental rights, such as political ex-pression, education and participation in society [5].

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investments in language preservation fo-cused primarily on language education and transla-

44

Page 52: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

tion. According to one estimate, the European marketfor translation, interpretation, soware localisation andWebsite globalisation was €8.4 billion in 2008 and isexpected to grow by 10% per annum [6]. Yet this fig-ure covers just a small proportion of current and futureneeds in communicating between languages. e mostcompelling solution for ensuring the breadth and depthof language usage in Europe tomorrow is to use appro-priate technology, just as we use technology to solve ourtransport and energy needs among others.Language technology targeting all forms of written textand spoken discourse can help people to collaborate,conduct business, share knowledge and participate insocial and political debate regardless of language barri-ers and computer skills. It oen operates invisibly insidecomplex soware systems to help us already today to:

‚ find information with a search engine;

‚ check spelling and grammar in a word processor;

‚ view product recommendations in an online shop;

‚ follow the spoken directions of a navigation system;

‚ translate Web pages via an online service.

Language technology consists of a number of core ap-plications that enable processes within a larger applica-tion framework. e purpose of the META-NET lan-guage white papers is to focus on how ready these coreenabling technologies are for each European language.

Europe needs robust and affordable languagetechnology for all European languages.

Tomaintain our position in the frontline of global inno-vation, Europe will need language technology, tailoredto all European languages, that is robust and affordableand can be tightly integrated within key soware envi-ronments. Without language technology, we will notbe able to achieve a really effective interactive, multime-dia and multilingual user experience in the near future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text using a suit-ably powered printing press. Human beings had to dothe hard work of looking up, assessing, translating, andsummarising knowledge. We had to wait until Edisonto record spoken language – and again his technologysimply made analogue copies.

Language technology can now simplify and automatethe processes of translation, content production, andknowledge management for all European languages. Itcan also empower intuitive speech-based interfaces forhousehold electronics, machinery, vehicles, computersand robots. Real-world commercial and industrial ap-plications are still in the early stages of development,yet R&D achievements are creating a genuine windowof opportunity. For example, machine translation is al-ready reasonably accurate in specific domains, and ex-perimental applications provide multilingual informa-tion and knowledge management, as well as contentproduction, in many European languages.

As with most technologies, the first language applica-tions such as voice-based user interfaces and dialoguesystems were developed for specialised domains, and of-ten exhibit limited performance. However, there arehuge market opportunities in the education and enter-tainment industries for integrating language technolo-gies into games, edutainment packages, libraries, simu-lation environments and training programmes. Mobileinformation services, computer-assisted language learn-ing soware, eLearning environments, self-assessmenttools and plagiarism detection soware are just someof the application areas in which language technologycan play an important role. e popularity of socialmedia applications like Twitter and Facebook suggest aneed for sophisticated language technologies that canmonitor posts, summarise discussions, suggest opinion

45

Page 53: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

trends, detect emotional responses, identify copyrightinfringements or track misuse.

Language technology helps overcome the“disability” of linguistic diversity.

Language technology represents a tremendous opportu-nity for the European Union. It can help to address thecomplex issue of multilingualism in Europe – the factthat different languages coexist naturally in Europeanbusinesses, organisations and schools. However, citi-zens need to communicate across the language bordersof the European Common Market, and language tech-nology can help overcome this final barrier, while sup-porting the free and open use of individual languages.Looking even further ahead, innovative European mul-tilingual language technology will provide a benchmarkfor our global partners when they begin to supporttheir own multilingual communities. Language tech-nology can be seen as a form of “assistive” technologythat helps overcome the “disability” of linguistic diver-sity andmakes language communitiesmore accessible toeach other. Finally, one active field of research is the useof language technology for rescue operations in disas-ter areas, where performance can be a matter of life anddeath: Future intelligent robots with cross-lingual lan-guage capabilities have the potential to save lives.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.Widely-used technologies such as the spelling and gram-mar correctors in word processors are typically mono-lingual, and are only available for a handful of languages.Online machine translation services, although useful

for quickly generating a reasonable approximation of adocument’s contents, are fraught with difficulties whenhighly accurate and complete translations are required.Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business that requires sustainedfunding commitments. Europe must therefore main-tain its pioneering role in facing the technological chal-lenges of a multiple-language community by inventingnewmethods to accelerate development right across themap. ese could include both computational advancesand techniques such as crowdsourcing.

Technological progress needs to be accelerated.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them toprocess different tongues,let’s look briefly at the way humans acquire first and sec-ond languages, and then see how language technologysystems work.Humans acquire language skills in two different ways.Babies acquire a language by listening to the real inter-actions between their parents, siblings and other familymembers. From the age of about two, children producetheir first words and short phrases. is is only possi-ble because humans have a genetic disposition to imitateand then rationalise what they hear.Learning a second language at an older age requiresmore cognitive effort, largely because the child is not im-mersed in a language community of native speakers. Atschool, foreign languages are usually acquired by learn-ing grammatical structure, vocabulary and spelling usingdrills that describe linguistic knowledge in terms of ab-stract rules, tables and examples.

46

Page 54: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Humans acquire language skills in twodifferent ways: learning from examples and

learning the underlying language rules.

Moving now to language technology, the two maintypes of systems acquire language capabilities in a sim-ilar manner. Statistical (or data-driven) approaches ob-tain linguistic knowledge from vast collections of con-crete example texts. While it is sufficient to use text in asingle language for training, e. g., a spell checker, paral-lel texts in two (or more) languages have to be availablefor training a machine translation system. e machinelearning algorithm then learns patterns of how words,short phrases and complete sentences are translated.is statistical approach usually requiresmillions of sen-tences to boost performance quality. is is one rea-son why search engine providers are eager to collect asmuch written material as possible. Spelling correctionin word processors, and services such as Google Searchand Google Translate, all rely on statistical approaches.e great advantage of statistics is that the machinelearns quickly in a continuous series of training cycles,even though quality can vary randomly.e second approach to language technology, and tomachine translation in particular, is to build rule-basedsystems. Experts in the fields of linguistics, computa-tional linguistics and computer science first have to en-code grammatical analyses (translation rules) and com-

pile vocabulary lists (lexicons). is is very time con-suming and labour intensive. Some of the leading rule-basedmachine translation systems have been under con-stant development for more than 20 years. e greatadvantage of rule-based systems is that the experts havemore detailed control over the language processing.is makes it possible to systematically correct mistakesin the soware and give detailed feedback to the user, es-pecially when rule-based systems are used for languagelearning. However, due to the high cost of this work,rule-based language technology has so far only been de-veloped for a few major languages.

As the strengths and weaknesses of statistical and rule-based systems tend to be complementary, current re-search focuses on hybrid approaches that combine thetwomethodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.

As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology, particularly in Europe’s eco-nomic and information space. Although this technol-ogy hasmade considerable progress in the last few years,there is still huge potential to improve the quality of lan-guage technology systems. In the next section, we de-scribe the role of Serbian in European information soci-ety and assess the current state of language technologyfor the Serbian language.

47

Page 55: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

3

THE SERBIAN LANGUAGE IN THE EUROPEANINFORMATION SOCIETY

3.1 GENERAL FACTSStandard Serbian is the standard national language ofSerbs and the official language in the Republic of Ser-bia. It was formed on the basis of Ekavian and Ijeka-vian Neo-Štokavian South Slavic dialects and its formwas determined by the reformer of the written languageof the Serbs Vuk Karadžić (1787–1864), who at thesame time reformed both the Cyrillic alphabet and or-thography. In the 20th century, in the federal state ofYugoslavia, this language was officially encompassed bySerbo-Croatian, a name that implied a linguistic unitywith Croats (and later with other nations whose lan-guages were based on Neo-Štokavian dialects). In thelast decade of the 20th century in Serbia the nameSerbo-Croatian was replaced in general usage by thename Serbian. eConstitution of the Republic of Ser-bia from2006 stipulates: “eSerbian language and theCyrillic alphabet shall be in official use in the Republicof Serbia” [7].

According to the 2002 census the population of Ser-bia is 7,498,001, [8] and Serbian is the mother tongueof 88.3% of the population [9]. To this number oneshould add the ethnic Serb population in other parts ofthe formerYugoslavia (a number not easy to determine).e Serbian diaspora, mainly consisting of people whole the country in search of work abroad and economicmigrants, lives primarily in a number of countries ofCentral and Western Europe, in the USA, Canada andAustralia (their knowledge of Serbian is mainly deter-

mined by the generation of immigrants they belong to).According to the 2002 census the majority of Serbsabroad live in Germany (102,799), followed by Austria(87,844) and Switzerland (65,751).

Standard Serbian is the standard nationallanguage of Serbs and the official language

in the Republic of Serbia.

Serbia is a multilingual community. e ethnic minori-ties, [10] according to the 2002 census, are Hungari-ans (3.91%), Bosniaks (2.1%), Roma (1.44%), Croats(0.94%), Montenegrins (0.92%), Albanians (0.82%),Slovaks (0.79%), Yugoslavs (1.08%) and other eth-nic minorities (Ashkali/Balkan Egyptians, Bulgarians,‘Bunjevci’, Aromanians, Czechs, ‘Gorani’, Jews, Mace-donians, Germans, Muslims, Romanians, Ruthenians,Slovenians, Turks, Ukrainians andWallachians, 2.45%).e structure of the minority nationals according tolanguage is the following: Hungarian 3.8%, Bosnian1.8%, Roma 1.1%, Albanian 0.8%, Slovak 0.8%, Wal-lach 0.7%, Romanian 0.5%, Croatian 0.4%, Bulgarian0.2% and Macedonian 0.2%. e remaining languagesare spoken by 0.5% of the population, whereas for 0.8%of the population these data are unknown. In Serbia,primary and secondary school education exists in someof the minority languages, namely in Albanian (55 pri-mary/4 secondary schools), Hungarian (108/38), Bul-garian (26/-), Romanian (27/2), Ruthenian (3/2), Slo-vak (15/2) and Croatian (7/1) [11]. In addition to in-

48

Page 56: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

struction, textbooks and readers are published in theselanguages (for example, in 2005 a total of 526 textbooksfor primary and 283 for secondary school were pub-lished) [9].Official use of minority languages is regulated by theLaw on the Official use of Language and the Alpha-bet [12], which provides that laws and legal acts are is-sued in languages of ethnic minorities. is includesthe right to address government authorities in one’s ownlanguage, as well as the right to be answered in that lan-guage (depending on the size of the minority commu-nity).Translations to and from Serbian represent an impor-tant activity. During 2010 a total of 2,549 books weretranslated (1,438 from English, 215 from French, 170from German, 191 from Italian, 74 from Spanish, 149from Hungarian). Part of the translations are fromSlavonic languages (225 from Russian, 4 from Czech,13 from Polish, 21 from Slovak, 19 from Slovenian, 18from Macedonian, 12 from Bulgarian). As for transla-tions fromSerbian into other languages, 591workswerepublished in 2010.

3.2 PARTICULARITIES OF THESERBIAN LANGUAGESerbian has its specific features which make its compu-tational processing a complex task.

3.2.1 Phonetics, phonology, mor-phophonology

e vowel system is simple (five vowels), but the conso-nant system is rather complex (twenty five consonants).e vibrant r in somepositions is pronounced as a voweland functions as a syllable nucleus, e. g., prst (“finger”)or vrsta (“species”). ere is a large number of mor-phophonemic alternations in inflection and word for-mation, which are in some grammatical cases combined

in such a way that two forms of a word can be very dis-tant, e. g., the nominative singular of the noun “misao”is misao (‘thought’) whereas its instrumental singular ismišlju (alternations a/ø, o/l, l+j/lj/ s/š).e accent system, comprising four accents, is based ontwo cross-related parameters: length opposition (long :short) and tone opposition (rising : falling). e distri-bution of rising and falling accents follow special rules.Accentual alternations are common in inflection andword formation. As accent marks are not used, writtentexts contain homographs. For example lukwith a shortfalling accentmeans “onion”, whereas with a long fallingaccent it means “arc” or “bow”.

For many words and grammatical forms, the codifiednorm prescribes the pronunciation of post-accentuallengths, but they are increasingly disregarded in cur-rent usage. Almost all words have an accent, but cliticsalso exist: proclitics (the majority of conjunctions andprepositions and the negative particle ne before verbs)and enclitics (non-accentuated forms of pronouns andverbs and the interrogative particle li).As for borrowed words (borrowings), their pronuncia-tion is phonetically adapted to Serbian. However, com-binations of phonemes (primarily consonants) in bor-rowings oen deviate from those typical of original Ser-bian words, e. g., sover ‘soware’, hardver ‘hardware’,interfejs ‘interface’. In every day use, deviations from thenormative distribution of accents in Serbian can also befound.

For a certain number of lexemes and word forms thereare twodifferent pronunciations, Ekavian and Ijekavian,etymologically related to the old Slavic vowel called jat,as shown in Figure 1.

3.2.2 Morphology

ere are ten parts of speech (word classes), with a largenumber of subclasses. e systems of pronouns and nu-merals are especially complex. e article does not exist.

49

Page 57: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Ekavian Ijekavian

“flower” singular cvet (long e) cvijet

plural cvetovi (short e) cvjetovi

1: Ekavian and Ijekavian variant of pronunciation

Nouns are classified according to grammatical gender(masculine, feminine or neuter). However, classifica-tion according to semantic gender (male, female) is alsorelevant, e. g., the noun gazda (‘boss’) declines like a fem-inine gender noun but designates a male person.

Verbs are classified according to verbal aspect (perfec-tive or imperfective). A certain number of verbs haveboth aspects. ere are several types of so called reflexiveverbs. ere are three types of inflection: (a) declension(nouns are inflected for number and case (as shown inFigure 2), while adjectives are inflected for gender, num-ber, case and adjectival aspect); (b) conjugation (whichis highly complex); and (c) comparison (gradable adjec-tives and adverbs). Within all three types of inflectionthere are different paradigms, with a number of excep-tions. Inflection is accompanied by numerous morpho-phonemic and accentual alternations. e large num-ber of identical forms, namely formal syncretism (mor-phological homonymy), should be pointed out. In alltypes of inflection, formal syncretism of certain gram-matically different word forms is not uncommon. Asa consequence of inflection, for a dictionary of 120,000lemmas, at least 4.5million inflected grammatical formsexist (however, there are fewer surface forms, as someforms in certain paradigms are identical).

Personal pronouns (including the reflexive pronoun)and the auxiliary, copulative and existential verb “je-sam”, as well as the auxiliary verbs “biti” and “hteti” haveenclitic forms, which are used much more frequentlythan the corresponding stressed forms. For example, thedative singular of themasculine and neuter third person

pronoun reads as follows: njemu (accentuated form)and mu (enclitic form).

Where nouns, verbs and adjectives are concerned, thereis a highly developed suffixial word formation. Withverbs, prefixation is also well developed (mainly relatedto aspectual meanings). Composition, on the whole, isless developed.

Calques and coinages, as well as so-called exocen-tric noun compounds, are frowned upon by languagepurists, as something that is not characteristic of au-thentic Štokavian word formation. is attitude com-plicates lexical and terminological elaboration throughword formation, and is one of the reasons for the verylarge number of borrowings.

Borrowings fit into existing morphological and forma-tional types, but there are also some exceptions, e. g.,some foreign words do not inflect, such as the nounsMeri (Mary) or sko (squaw), or the adjectives fer (fair)or braon (brown).

Well developed word formation (suffixation, prefixa-tion, and, to a lesser extent, composition and variouscombined word formation processes) results in the factthat the majority of lexemes can be grouped into wordfamilies, and nested entries in dictionaries. It is veryimportant that part of the formational relations lead tosystematic (categorial) modification of the initial word,which greatly facilitates the lexicographic processing ofsuch cases. For example, for the word “glumac” (‘ac-tor’), the diminutive is “glumčić” and the augmentative“glumčina”, the female form is “glumica”, and the adjec-tives are “glumčev”, “glumičin”, “glumački”, etc.

50

Page 58: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

singular paucal (2-4) plural

“window” (masc.) prozor prozora prozori

“egg” (neut.) jaje jajeta jaja

“woman” (fem.) žena žene

“news” (fem.) vest vesti

2: Four types of nominal inflection

Borrowings are, in general, phonologically andmorpho-logically adapted, that is, adjusted to the pronunciationand morphology of Serbian. ey also form word fam-ilies according to Serbian word formation rules.

3.2.3 Lexis, phraseology, terminology,onomastics

e composition of the vocabulary reflects, on the onehand, the fact that it is based on the Štokavian di-alect, not only with regard to the original inventorybut also with regard to new words formed accordingto Štokavian word formation processes. On the otherhand, the vocabulary reflects the cultural and linguis-tic history of the Serbian people, including borrow-ings from Church Slavonic, Turkish (“megdan” ‘bat-tle’), Russian (“zapeta” ‘comma’), German (“štrudla”‘strudel’), French (“ruž” ‘lipstick’), and, especially to-day, English (“parking” ‘parking’). In addition, thereare many internationalisms based on classical languages(Greek and Latin), especially in specific fields.

In phraseology special attention should be given to id-iomatic expressions and comparisons, proverbs and thelike, which reflect autochthonous imagination and lin-guistic creativity. On the other hand, a large numberof lexicalised expressions were created and are still be-ing created by the calquing of foreign expressions, todayprimarily English ones.

In the field of terminology and nomenclature, Serbianhas always greatly relied on foreign languages; foreign

terms have either been translated, with occasional de-viations from word formation norms, or borrowed, es-pecially in the case of terminological internationalisms.Endeavours aimed at finding original Serbian solutionsor adapting existing terms to Serbian have yielded someresults, but cannot keep pace with the growing needs inthe fields of terminology and nomenclature.

Onomastics represents an important segment of the vo-cabulary of Serbian, themore so asword families are alsogenerated from these words.

3.2.4 Syntax, text linguistics

In terms of distribution of sentence constituents (sub-ject, predicate, object, etc.), Serbian belongs to SVOlanguages with free word order (more precisely, withfree distribution of mobile sentence constituents). ismeans that, in general, all permutations of mobile sen-tence constituents are permitted, but that the preferredorder is: subject – predicate – object. However, freedoes not mean anarchic; on the contrary, the selectionof a particular order is based on a very complex func-tional system, i. e., regulated by combinations of vari-ous syntactic, semantic, pragmatic and stylistic factors.Consider, for example, the sentence:

Marija dade Jovanu jabuku. [Mary gave John an apple.]

In Serbian, this idea can be expressed in 24 = 4! =1*2*3*4 (number of permutations of four words) differ-ent ways:

51

Page 59: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

‚ Marija dade Jovanu jabuku.

‚ Marija dade jabuku Jovanu.

‚ Marija Jovanu dade jabuku.

‚ Marija jabuku dade Jovanu.

‚ Jovanu dade Marija jabuku.

‚ Jovanu Marija dade jubuku.

‚ Jabuku Marija dade Jovanu.

‚ Jabuku Jovanu dade Marija.

‚ Dade Marija jabuku Jovanu.

‚ Dade Jovanu jabuku Marija, etc.

Certain constituents are also expressed by enclitics,which are distributed according to very specific rules.Subject pronouns need not be expressed; instead, theycan be implied (the so-called zero subject). For exam-ple; Ja se zovem Marko vs. Zovem se Marko (‘My nameis Marko’). A considerable number of sentence patternsare formed with various types of semantic subjects.Besides the active and passive voice, there is another spe-cial way of formulating sentences with a non-specifiedhuman agent by using a reflexive form of the verb.Negation is applied both to the verb and to the pronom-inal constituent (so-called double negation), e. g., Ovdene poznajem nikog (‘I don’t know anybody here’).ere are seven cases: nominative, genitive, dative, ac-cusative, vocative, instrumental and locative (see Fig-ure 3). ere are five oblique cases in Serbian, which

can all be combined with prepositions (the locative al-ways is). All these cases and prepositional phrases arepolysemous. Conversely, the same meaning can occa-sionally be expressed by different cases or prepositionalphrases (case synonymy). ere are also a number of ex-pressions functioning as prepositions, e. g., prilikom (+genitive) ‘on the occasion of ’.In Serbian, there is a well-developed system of personalverb forms for expressing temporal andmodalmeanings(the aspect is the classification category); all these formsare polysemous. One of the features of the verb systemis that the construction da + present tense increasinglytends to supplant the infinitive.Agreement in gender, number, case and person is oneof the characteristic aspects of Serbian syntax, and it isalso important for establishing textual cohesion. Cat-egorisation of agreement controllers (especially certaintypes of nouns, constructions with numerals and coor-dinated noun phrases), as well as the ways this controlis expressed in different agreement positions, representsan extremely complex area.e majority of subordinate clauses (especially relative,temporal, conditional and causal) have several formaland semantic subtypes. In the case of coordinatedclauses, the inventory of conjunctions for copulative andfor adversative relations is especially rich.Relations between expressions in a text are establishedby various kinds of textual coordinators and textual

singular paucal plural

Nominative prozor prozora prozoriGenitive prozora prozorаDative prozoru prozorimaAccusative prozor prozora prozoreVocative prozore prozora prozoriInstrumental prozorom prozorimaLocative prozoru prozorima

3: An example of noun declension

52

Page 60: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

connectors. e choice of the order of sentence con-stituents is important for topic-comment distributionand focus prominence. e so-called zero subject andenclitic pronoun forms are important tools for sentencecontextualisation.

3.2.5 Orthography

e traditional Serbian alphabet is Cyrillic, which con-sists of thirty graphemes. Today the Latin alphabetis also increasingly used. It also consists of thirtygraphemes (three of them digraphs) which stand in abijective (one-to-one) relation to Cyrillic graphemes.However, the official alphabet is only Cyrillic (see Fig-ure 4). As to the relation between the graphemic andthe phonemic systems, graphemes and phonemes standin a bijective relation to each other.

At the level of coding schemes, the Latin alphabet di-graphs lj, nj, dž can be coded either as ligatures or asdigraphs. In the first case, Unicode [13] provides spe-cial codes, for example, for the ligatures LJ, Lj and lj,whereas in the second case, as digraphs, they representa combination of two ASCII codes, for example forL and J. is can lead to problems in transliteration,which, in general, can nevertheless be performed auto-matically in the majority of cases. For example, in theSerbian Wikipedia each article can be displayed both inthe Cyrillic and the Latin alphabet.

eLatin alphabet does not envisage theuse of theLatincharacters q, x, y, w, nor the use of Latin characters forwriting Roman numerals, which can lead to a distortionof the message when a text is transliterated from Latinto Cyrillic. us, for example www can become њњњ,аnd Latin Petar II may become Петар ИИ insteadof Петар II. Both alphabets are used in contemporarypublishing. According to the data of the National Li-brary of Serbia, a total of 12,574monographs were pub-lished in 2010. Out of this number, 6,459were inCyril-lic, 6,050 in Latin and 65 in other alphabets. As fordaily newspapers with a wider circulation, Politika andVečernje noosti are published in Cyrillic, whereas themajority of other daily newspapers (Blic, Kurir, Danas,etc.) are published in the Latin alphabet.

e orthography is of a quasiphonemic type: with a fewexceptions, a word is written as it is pronounced (ac-cording to the rule “Write as you speak!”), more pre-cisely, according to its phonemic composition. epunctuation is of a logical, rather than grammatical type(akin to French and English). According to the or-thographic norm, foreign words are written both inthe Cyrillic and Latin alphabets the way they are pro-nounced, i. e., they are transcribed. Foreign namesare also transcribed (e. g., instead of “Shakespeare”,the proper way to write, and pronounce the name, isШекспир and Šekspir).

Cyrillic А Б В Г Д Ђ Е Ж З И Ј К Л Љ Ма б в г д ђ е ж з и ј к л љ м

Latin A B V G D Đ E Ž Z I J K L Lj Ma b v g d đ e ž z i j k l lj m

Cyrillic Н Њ О П Р С Т Ћ У Ф Х Ц Ч Џ Шн њ о п р с т ћ у ф х ц ч џ ш

Latin N Nj O P R S T Ć U F H C Č Dž Šn nj o p r s t ć u f h c č dž š

4: Serbian letters

53

Page 61: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

3.2.6 Serbian and other languages ofŠtokavian origin

ecommonŠtokavian basis, mutual influences and co-existence within a common state and – conceptually –within the common Serbo-Croatian language resultedin the fact that computational processing of other lan-guages of Štokavian origin (Croatian, Bosnian, Mon-tenegrin) has to solve similar problems. is opens greatpossibilities for synergy, or at least productive coopera-tion, as well as for a rational and economical approachto solving common problems. It is also supported by theexistence of considerable resources for the former com-mon Serbo-Croatian language (grammars and dictio-naries), where, truth be told, due attention had not beenpaid to differences within the Štokavian standard lan-guage field. In general, the issue here is not translationfrom one foreign language to another, but rather adap-tation of texts composed in standard languages withthe same dialectical basis and strongly interconnectedin their development. e main problems pertain, infact, to the phenomena related to the elaboration of theŠtokavian core, and especially, to the terminology.

The standard languages of Štokavian origin haveto solve similar problems. This opens great

possibilities for productive cooperation.

3.3 RECENT DEVELOPMENTSe developments at the end of the 20th and the begin-ning of the 21st century include the following:

‚ Instead of common standard Serbo-Croatian thereare now four national standard languages. Morespecifically, the official language in Serbia is nowSerbian, and no longer Serbo-Croatian. Due torecent migrations resulting form wartime circum-stances, the dialect picture in Croatia and Bosnia

and Herzegovina (in the parts affected by war) haschanged.

‚ Increasing changes in lexis and phraseology as wellas in terminology can be observed, related to politi-cal, social and economic changes in Serbia, its open-ing towards the world, but also due to the harmoni-sation of legal acts, standards and terminology withthose existent in the EuropeanUnion. e influenceof English can especially be observed, not only dueto cultural and economic factors, which is true forother countries aswell, but also due to the fact that inharmonisation with the European Union the sourcetexts used are texts in English.

‚ euse of the Latin alphabet is increasing (except inofficial texts).

‚ Texts in Serbian are increasingly realised in digitalform (use of computers, electronic publishing, theInternet, text messages).

3.4 OFFICIAL LANGUAGEPROTECTION IN SERBIA3.4.1 Work on standardisation and pro-

tection of the language

We will mention here the following activities:

‚ In 1997 an inter-academy and inter-university bodywas formed as the Board for Standardisation of Ser-bian, [14] composed of representatives from rele-vant institutions from Serbia, Montenegro and theRepublic of Srpska (in Bosnia and Herzegovina).

‚ Instead of the former Serbo-Croatian standard, thestandard of Serbian is now being specified.

‚ ere is no purism towards Croatisms (words bor-rowed from Croatian).

‚ A new Serbian orthography has been produced.

54

Page 62: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

‚ e use of the Cyrillic alphabet is supported, as itis viewed as endangered by the Latin alphabet, espe-cially with younger generations.

‚ Curricula and textbooks in primary and secondaryschools are harmonised with the new language situ-ation.

The standardisation of Serbian is institutionalisedthrough the Board for the Standardisation, an

inter-academy and inter-university body.

3.4.2 Modernisation of language norms

eBoard for the Standardisation of Serbian has organ-ised the production of a series of descriptive-normativemonographs with the aim of presenting the actual stateof the language and offering standardised solutions (todate the following topics have beenprocessed: word for-mation, syntax and phonology). A number of standard-izing recommendations have been issued. e officialorthography has twice been modernised.

3.4.3 Protection of language usage

eBoard for the Standardisation of Serbian (by way ofits recommendations), the Society for SerbianLanguageand Literature (by way of its publications and by organ-ising Serbian language competitions for students of pri-mary and secondary schools), Matica Srpska (by organ-ising work on the production of orthography, throughits publications and by organising round tables and con-ferences on the Serbian language), the Foundation ofVuk Karadžić (by way of its publications and by organ-ising round tables and conferences on the Serbian lan-guage) and various other institutions, some publishinghouses, editorial boards of daily newspapers and edito-rial boards of radio and TV stations, as well as language

experts and mother tongue enthusiasts are endeavour-ing to contribute to the preservation of the regularityand purity of Serbian in its written and oral usage.

3.4.4 Response to the rising influence ofEnglish

A need for substitution of English words and expres-sions by Serbian ones is emphasised, aswell as of calquedtranslations from English by (authentic) Serbian wordsand expressions. (In a wider context, the resistance to-wards the increasing use of theLatin alphabet is also partof this resistance.)

3.4.5 Improvement of the situation in thefield of lexicography

More and more attention is being given to lexicogra-phy, both monolingual and bilingual. A much-neededlarge one-volume dictionary of modern Serbian hasbeen published. e work on the compilation of thelarge Serbian Academy of Sciences and Arts dictionaryof Serbian is being modernised. European Union lawsand regulations are being translated [15], aswell as inter-national standards, [16] including terminological stan-dards.

3.5 LANGUAGE IN EDUCATIONe subject Serbian Language and Literature is one ofthe most important subjects in primary and secondaryschool. However, instruction is focused on proper writ-ing and speech, knowledge about the language (gram-mar and lexis), knowledge about the history of the lit-erary (written) languages of the Serbs and about theorigin of standard Serbian. Mother tongue competi-tions (starting from the upper primary school grades)are based on this type of instruction. So, insufficient at-tention is given to thepractical use of language and func-tional literacy. ewish to bring the goals and standards

55

Page 63: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

of instruction closer to the instruction in the EuropeanUnion, as well as the unsatisfactory results of studentsonPISA testing, serve as impulses for themodernisationof language instruction and for putting a greater em-phasis on functional literacy and communication skills.is is being reflected both in the current educationalreform (goals of language instruction, standards to bereached, syllabi), and in the improvement of the qual-ity of textbooks. At the university level, there is a gen-eral shortage of courses in Serbian that would systemat-ically prepare future experts for successful professionalcommunication and develop appropriate functional lit-eracy. e application of language technology methodscould certainly contribute to the modernisation of in-struction, for example, by way of computer-assisted lan-guage learning (CALL) systems.

3.6 INTERNATIONAL ASPECTSe official use of the Serbian language and its instruc-tion in neighbouring countries with Serbian ethnic mi-norities are regulated by the laws of these countries. edisappearance of the commonSerbo-Croatian languageand the official existence of distinct languages of Štoka-vian origin is reflected in the organisation of instruc-tion of the former Serbo-Croatian language at univer-sities abroad, as well as in the names of university de-partments where this instruction was formerly held: forthese languages, hence for the Serbian language (and lit-erature) as well, distinct curricula and diplomas now ex-ist, with various combinations of subjects, whereas de-partments now have collective names. e practice oforganising summer schools for foreigners continues inSerbia, but now for Serbian instead of Serbo-Croatian.Teachers from Serbia are also being sent to work as lan-guage instructors at departments abroad. Supplemen-tary mother tongue instruction is organised in somecountries for children of Serbian origin. e need forharmonisation of legal systems and terminology with

those in the European Union, the influence of Anglo-American culture in the field of entertainment and themedia, as well as the effects of globalisation, are con-tributing to increasingly closer relations between Ser-bian and other languages, especially English, thus givingan even greater impetus and importance to the field oftranslation.

3.7 SERBIAN ON THE INTERNETA survey [17] from2010 showed that 50.8%of the pop-ulation uses the computer and the Internet on a regularbasis, whereas 43.7% of the population has never used acomputer. According to another source, [18] as muchas 55.9% of the population uses the Internet with anincrease rate of 926.8% in the period 2000–2010. Ac-cording to the same source, there were 2,237,680 Face-book users in Serbia on August 31, 2010 which repre-sents 30.5%of the total population. E-governmentpub-lic services are used by only 13.2% of the population,whereas 38.5% claimed they would never use such ser-vices. Trading via the Internet has been used by only13% of the population. According to the Statistical Of-fice of the Republic of Serbia [19], the usage of ICTequipment shows the growth.According to the same source, the number of compa-nies using the Internet was 96.8% in 2010 (compared to90.2% in 2006); the number of companies having theirown Website was 67.5% in 2010 (compared to 52.9%in 2006). In 2010, 70.6% of them used e-governmentservices.e data of the Statistical Office of the Republic of Ser-bia from a 2010 survey on a sample of 2,400 householdsand the same number of individuals aged from 16 to 74,show that 39% of respondents have an Internet connec-tion, the highest percentage of 51% being in Belgrade[20]. Access to the Internet is income dependent, as83% of households with a monthly income over 600euro have Internet, while for householdswith amonthly

56

Page 64: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

income less than 300 euro the percentage decreases toonly 29%. e majority of the population accesses theglobal Web from desktop computers, one fih from cellphones, and a little less from laptops.As for connection type, almost one half of the house-holds in Serbia that use the Internet have anADSL con-nection, one quarter have cable Internet, whereas 29%of the respondents use mobile devices for connection.In themajority of cases access is from home (84%), thenfromwork, from another person’s home, from school oruniversity, and as little as 3.8% from Internet cafés. Stu-dents are the most largely represented category on theWeb, with asmuch as 95%. Other than for business pur-poses, the Internet is most commonly used for e-mail(78%), then for entertainment (games, movies, music– 55%), for reading the electronic press (41%) and forlearning (23%).e most popular Serbian Websites are Serbian newsportals (Blic, [21] B92, [22] Naslovi, [23] RTS [24]).e most visited domestic portal is Krstarica [25],which includes a search engine, up-to-date daily newsfrom Serbia, a directory of local sites grouped by topicsand a variety of other content. An experiment initiatedin 2005 with the introduction of a local search enginePogodak, where the search was adjusted to themorphol-ogy of Serbian, was terminated in 2010 as unprofitable.e Serbian Wikipedia represents a source of variouslanguage data. It contains a little over 142,000 articles,and it holds the 28th position [26] in the world regard-ing the number of articles. e alternative Wikipediain Serbo-Croatian [27] is smaller and contains about

40,000 articles. Free content language data projects canalso be found within the portals Rastko, [28]Antologijasrpske književnosti [29] (Anthology of Serbian Liter-ature) and Transpoetika [30] where primarily literarytexts are stored.e visibility of a number of pages with content in Ser-bian has dramatically fallen during 2010, due to thechange of the domain from .yu to .rs.e most commonly used Web application is Websearch, which involves automatic processing of languageon multiple levels, as will be described in more detailin the second part of this paper. It involves sophisti-cated language technology, differing for each language.For Serbian, as we have alreadymentioned, the problemarises from the relation between the Cyrillic and Latinalphabets, Ekavian and Ijekavian variations, graphemicvariations in the form of the lemma, as well as morpho-logical richness.Internet users and providers of Web content can alsoprofit from language technology in less obvious ways,e. g., if it is used to automatically translate Web contentfrom one language into another. In spite of the highcosts associated with manually translating this content,comparatively little usable language technology is de-veloped and applied, compared to the anticipated need.is may be due to the complexity of Serbian and thenumber of technologies involved in typical languagetechnology applications. In the next chapter, we willpresent an overview of language technology and its coreapplication areas as well as an evaluation of the currentsituation of language technology support for Serbian.

57

Page 65: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

4

LANGUAGE TECHNOLOGY SUPPORT FORSERBIAN

Language technology is used to develop soware sys-tems designed to handle human language and are there-fore oen called “human language technology”. Humanlanguage comes in spoken and written forms. Whilespeech is the oldest and in terms of human evolution themost natural form of language communication, com-plex information and most human knowledge is storedand transmitted through the written word. Speechand text technologies process or produce these differ-ent forms of language, using dictionaries, rules of gram-mar, and semantics. is means that language technol-ogy (LT) links language to various forms of knowledge,independently of the media (speech or text) in which itis expressed. Figure 5 illustrates the LT landscape.When we communicate, we combine language withother modes of communication and information media– for example speaking can involve gestures and facialexpressions. Digital texts link to pictures and sounds.Movies may contain language in spoken and writtenform. Inotherwords, speech and text technologies over-lap and interact with other multimodal communicationand multimedia technologies.In this section, we will discuss the main applicationareas of language technology, i. e., language checking,Web search, speech interaction, and machine transla-tion. ese applications and basic technologies include

‚ spelling correction

‚ authoring support

‚ computer-assisted language learning

‚ information retrieval

‚ information extraction

‚ text summarisation

‚ question answering

‚ speech recognition

‚ speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. e in-terested reader is referred to the following references:[31, 32, 33, 34].Before discussing the above application areas, we willbriefly describe the architecture of a typical LT system.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. Figure 6 shows a highly simplified ar-chitecture that can be found in a typical text processingsystem. efirst threemodules handle the structure andmeaning of the text input:

1. Pre-processing: cleans the data, analyses or removesformatting, and detects the input language. In Ser-bian it can also help in resolving the Latin andCyril-lic alphabets duality, as well as the Ekavian – Ijeka-vian duality.

58

Page 66: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

5: Language technologies

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure.

3. Semantic analysis: performs disambiguation (i. e.,computes the appropriate meaning of words in agiven context); resolves anaphora (i. e., which pro-nouns refer to which nouns in the sentence) andsubstitute expressions; represents themeaning of thesentence in a machine-readable way.

Aer analysing the text, task-specific modules can per-form other operations, such as automatic summarisa-tion and database look-ups. is is a simplified and ide-alised description of the application architecture, and il-lustrates the complexity of LT applications.

In the remainder of this section, we firstly introducethe core application areas for language technology, andfollow this with a brief overview of the state of LT re-search and education today, and a description of pastand present research programmes. Finally, we presentan expert estimate of coreLT tools and resources for Ser-bian in terms of various dimensions such as availability,maturity and quality. e general situation of LT forthe Serbian language is summarised in Figure 11 (p. 71)at the end of this chapter. is table lists all tools andresources that are boldfaced in the text.

4.2 CORE APPLICATION AREASIn this section, we focus on themost important LT toolsand resources, and give an overview of LT activities inSerbia.

4.2.1 Language checking

Anyone who has used a word processor such as Mi-crosoWord knows that it has a spell checker that high-lights spelling mistakes and proposes corrections. efirst spelling correction programs compared a list of ex-tracted words against a dictionary of correctly spelledwords. Today these programs are farmore sophisticated.Using language-dependent algorithms for grammaticalanalysis, they detect errors related tomorphology (e. g.,plural formation) as well as syntax–related errors, suchas a missing verb or a conflict of verb-subject agreement(e. g., she *write a letter). However, most spell checkerswill not find any errors in the following text [35]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Handling these kinds of errors usually requires an anal-ysis of the context. For example, whether a word needsto be capitalised in Serbian or not:

59

Page 67: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

6: A typical text processing architecture

‚ Divio se Ruži. [He admired Rose.]

‚ Divio se ruži. [He admired the rose.]

is type of analysis either needs to draw on language-specific grammars laboriously coded into the sowareby experts, or on a statistical language model. In thiscase, a model calculates the probability of a particularword occuring in a specific position (e. g., between thewords that precede and follow it). For example, plaalaguna (blue lagoon) is a much more probable word se-quence than plaa Laguna (where Laguna is the nameof a publishing house). A statistical language modelcan be automatically created by using a large amount of(correct) language data, a text corpus. ese two ap-proaches have been mostly developed around Englishlanguage data. Neither approach can be transferred eas-ily to Serbian, because the language has a flexible wordorder and rich inflection.

Language checking is not limited to wordprocessors but also applies to authoring systems.

e first attempts to develop spelling checking sowarefor Serbian dates back to the end of the 1970s [36],motivated by problems confronted by large publishinghouses. To date, free spelling checking modules for Ser-bian are available forOpenOffice [37] ondifferent oper-ating systems, and there exists also a custom-made prod-

uct, the RAS package, [38] developed by the Srbosofcompany (individualised installation).Language checking is not limited to word processors;it is also used in “authoring support systems”, i. e., so-ware environments in which manuals and other docu-mentation are written to special standards for complexIT, healthcare, engineering and other products. To off-set customer complaints about incorrect use and dam-age claims resulting from poorly understood instruc-tions, companies are increasingly focusing on the qual-ity of technical documentation while targeting the in-ternational market (via translation or localisation) atthe same time. Advances in natural language process-ing have led to the development of authoring supportsoware, which helps the writer of technical documen-tation to use vocabulary and sentence structures that areconsistentwith industry rules and (corporate) terminol-ogy restrictions.Besides spelling checkers and authoring support, lan-guage checking is also important in the field ofcomputer-assisted language learning. And languagechecking applications also automatically correct searchenginequeries, as found inGoogle’sDid youmean… sug-gestions.

4.2.2 Web Search

Searching theWeb, intranets or digital libraries is proba-bly themostwidely used yet largely underdeveloped lan-guage technology application today. e Google search

60

Page 68: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

7: Language checking (top: statistical; bottom: rule-based)

engine, which started in 1998, now handles about 80%of all search queries [39]. e verbs guglati/izguglati arein common use in Serbian. e Google search interfaceand results page display has not significantly changedsince the first version. However, in the current version,Google offers spelling correction for misspelled wordsand incorporates basic semantic search capabilities thatcan improve search accuracy by analysing the meaningof terms in a search query context [40]. eGoogle suc-cess story shows that a large volume of data and efficientindexing techniques can deliver satisfactory results us-ing a statistical approach to language processing.For more sophisticated information requests, it is es-sential to integrate deeper linguistic knowledge to fa-cilitate semantical analysis. Experiments using lexicalresources such as machine-readable thesauri or onto-logical language resources (e. g., WordNet for Englishor SrpNet for Serbian) have demonstrated improve-ments in finding pages using synonyms of the originalsearch terms, such as atomska energija (atomic energy)and nuklearna energija (nuclear energy), or even moreloosely related terms, such as beli luk and češnjak (syn-onyms for garlic).

The next generation of search engineswill have to include much more sophisticated

language technology.

e next generation of search engines will have to in-clude much more sophisticated language technology,

especially to deal with search queries consisting of aquestion or other sentence type rather than a list of key-words. For the query, Give me a list of all companiesthat were taken over by other companies in the last fiveyears, a syntactic as well as semantic analysis is required.e system also needs to provide an index to quickly re-trieve relevant documents. A satisfactory answer will re-quire syntactic parsing to analyse the grammatical struc-ture of the sentence and determine that the user wantscompanies that have been acquired, rather than compa-nies that have acquired other companies. For the expres-sion last five years, the system needs to determine therelevant range of years, taking into account the presentyear. e query then needs to bematched against a hugeamount of unstructured data to find the pieces of infor-mation that are relevant to the user’s request. is pro-cess is called information retrieval, and involves search-ing and ranking relevant documents. To generate a listof companies, the system also needs to recognise a par-ticular string of words in a document represents a com-pany name, using a process called named entity recogni-tion.

A more demanding challenge is matching a query inone language with documents in another language.Cross-lingual information retrieval involves automati-cally translating the query into all possible source lan-guages and then translating the results back into the tar-get language.

Now that data is increasingly found in non-textual for-mats, there is a need for services that deliver multime-

61

Page 69: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

8: Web search

dia information retrieval by searching images, audio filesand video data. In the case of audio and video files,a speech recognition module must convert the speechcontent into text (or into a phonetic representation)that can then be matched against a user query.

Popular sites in Serbia offering search capabilities, suchas B92 and Krstarica, mostly rely on Google services[41]. An attempt to introduce a search engine whichwould perform exclusively a top-down search of the .rsdomain, and which would partly be adjusted to the spe-cific features of Serbian, was abandoned in 2010 as un-profitable. A certain number of SMEs is working on theenhancement of search services, albeit mainly for for-eign partners and for English.

For research purposes, experiments have been per-formed with query expansion, by sending queries ex-panded on the basis of morphological dictionaries andmultilingual semantic networks to search engines. eexperiments yielded interesting and useful results in var-ious domains.

4.2.3 Speech Interaction

Speech interaction is one of many application areas thatdependon speech technology, i. e., technologies for pro-cessing spoken language. Speech interaction technol-ogy is used to create interfaces that enable users to in-teract in spoken language instead of a graphical dis-play, keyboard and mouse. Today, these voice userinterfaces (VUI) are used for partially or fully auto-mated telephone services provided by companies to cus-tomers, employees or partners. Business domains thatrely heavily on VUIs include banking, supply chain,public transportation, and telecommunications. Otheruses of speech interaction technology include interfacesto car navigation systems and the use of spoken languageas an alternative to the graphical or touch-screen inter-faces in smartphones. Speech interaction technologycomprises four technologies:

1. Automatic speech recognition (ASR) determineswhich words are actually spoken in a given sequenceof sounds uttered by a user.

62

Page 70: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

9: Speech-based dialogue system

2. Natural language understanding analyses the syntac-tic structure of a user’s utterance and interprets it ac-cording to the system in question.

3. Dialogue management determines which action totake given the user input and system functionality.

4. Speech synthesis (text-to-speech or TTS) trans-forms the system’s reply into sounds for the user.

One of the major challenges of ASR systems is to ac-curately recognise the words a user utters. is meansrestricting the range of possible user utterances to alimited set of keywords, or manually creating languagemodels that cover a large range of natural language ut-terances. Using machine learning techniques, languagemodels can also be generated automatically from speechcorpora, i. e., large collections of speech audio files andtext transcriptions. Restricting utterances usually forcespeople to use the voice user interface in a rigid way andcan damage user acceptance; but the creation, tuningand maintenance of rich language models will signifi-cantly increase costs. VUIs that employ language mod-els and initially allow a user to express their intent moreflexibly – prompted by a How may I help you? greeting– tend to be automated and are better accepted by users.

Speech interaction is the basis for interfaces thatallow a user to interact with spoken language.

Companies tend to use utterances pre-recorded by pro-fessional speakers for generating the output of the voiceuser interface. For static utterances where the word-ing does not depend on particular contexts of use orpersonal user data, this can deliver a rich user experi-ence. But more dynamic content in an utterance maysuffer from unnatural intonation because different partsof audio files have simply been strung together. Today’sTTS systems are getting better at producing natural-sounding dynamic utterances.

Interfaces in speech interaction have been considerablystandardised during the last decade in terms of their var-ious technological components. ere has also beenstrong market consolidation in speech recognition andspeech synthesis. enationalmarkets in theG20 coun-tries (economically resilient countries with high popu-lations) have been dominated by just five global play-ers, withNuance (USA) andLoquendo (Italy) being themost prominent players in Europe. In 2011,Nuance an-nounced the acquisition of Loquendo, which representsa further step in market consolidation.

e speech synthesis and recognition methods in Ser-bia (and in the countries of the former Yugoslavia)were developed mainly in electrical engineering envi-ronments in cooperation with phonetics experts. eseearly endeavourswere focusedon recognitionof isolatedphonemes. A substantial breakthrough in this area wasmade by a group from the Faculty of Technical Sciences

63

Page 71: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

at the University of Novi Sad, when they developed,in addition to speech databases, a lexical database withmore than 4,000,000 accentuated word forms for Ser-bian and more than 3,000,000 word forms for Croat-ian. Various applications in the fields of TTS and ASRhave been developed based on these resources. Serbianspeech recognition and generation has been commer-cialised by the AlfaNum company, a spin-off of theUni-versity of Novi Sad. is company is successfully con-ducting business activities in other countries of the for-mer Yugoslavia as well (Croatia,Macedonia, Bosnia andMontenegro). e AlfaNum company has a consider-able number of users among Serbian companies.

When translating to Serbian, Google translator also of-fers an elementary TTS for translation results (albeitwithout built-in accents).

Looking ahead, there will be significant changes, due tothe spread of smartphones as a new platform for man-aging customer relationships, in addition to fixed tele-phones, the Internet and e-mail. is will also affecthow speech interaction technology is used. In the longterm, there will be fewer telephone-based VUIs, andspoken language apps will play a far more central roleas a user-friendly input for smartphones. is will belargely driven by stepwise improvements in the accu-racy of speaker-independent speech recognition via thespeech dictation services already offered as centralisedservices to smartphone users.

4.2.4 Machine translation

e idea of using digital computers to translate naturallanguages can be traced back to 1946 and was followedby substantial funding for research during the 1950s andagain in the 1980s. Yetmachine translation (MT) stillcannot deliver on its initial promise of providing across-the-board automated translation.

e most basic approach to machine translation is theautomatic replacement of the words in a text written

in one natural language with the equivalent words ofanother language. is can be useful in subject do-mains that have a very restricted, formulaic languagesuch as weather reports. However, in order to produce agood translation of less restricted texts, larger text units(phrases, sentences, or even whole passages) need to bematched to their closest counterparts in the target lan-guage.

At its basic level, Machine Translation simplysubstitutes words in one natural language

with words in another language.

e major difficulty is that human language is ambigu-ous. Ambiguity creates challenges on multiple levels,such as word sense disambiguation at the lexical level (ajaguar is a brand of car or an animal) or the assignmentof case on the syntactic level, for example:

‚ Policajac je uspeo da primeti čoveka bez dogleda.(e policeman caught sight of the man withoutbinoculars.)

‚ Policajac je uspeo da primeti čoveka bez reolera.(e policeman caught sight of themanwithout therevolver.)

One way to build an MT system is to use linguis-tic rules. For translations between closely related lan-guages, a translation using direct substitution may befeasible in cases such as the above example. However,rule-based (or linguistic knowledge-driven) systems of-ten analyse the input text and create an intermediarysymbolic representation fromwhich the target languagetext can be generated. e success of these methods ishighly dependent on the availability of extensive lex-icons with morphological, syntactic, and semantic in-formation, and large sets of grammar rules carefully de-signed by skilled linguists. is is a very long and there-fore costly process.

64

Page 72: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

10: Machine translation (left: statistical; right: rule-based)

In the late 1980s when computational power increasedand became cheaper, interest in statistical models formachine translation began to grow. Statistical modelsare derived from analysing bilingual text corpora, paral-lel corpora, such as the Europarl parallel corpus, whichcontains the proceedings of the European Parliament in21 European languages.

Given enough data, statistical MT works well enoughto derive an approximate meaning of a foreign languagetext by processing parallel versions and finding plausiblepatterns of words. Unlike knowledge-driven systems,however, statistical (or data-driven) MT systems oengenerate ungrammatical output. Data-driven MT is ad-vantageous because less human effort is required, andit can also cover special particularities of the language(e. g., idiomatic expressions) that are oen ignored inknowledge-driven systems.

e strengths and weaknesses of knowledge-driven anddata-drivenmachine translation tend to be complemen-tary, so that nowadays researchers focus on hybrid ap-proaches that combine both methodologies. One suchapproach uses both knowledge-driven and data-drivensystems, together with a selection module that decideson the best output for each sentence. However, resultsfor sentences longer than, say, 12 words, will oen be farfrom perfect.

Amore effective solution is to combine the best parts ofeach sentence from multiple outputs; this can be fairly

complex, as corresponding parts ofmultiple alternativesare not always obvious and need to be aligned.

Machine translation is particularlychallenging for the Serbian language.

When it comes to the relation between Serbian andother foreign languages, the problems dependon thena-ture of the specific language (whether its morphologyis developed or not, whether it has a free or fixed dis-tribution of sentence constituents, whether it possessesan article or not, whether it is written in the Cyrillic orLatin alphabet, whether it uses logical or grammaticalpunctuation, etc.) However, there is not only an issueof problems here, but also of possibilities for coopera-tion in solving similar problems. In that sense, cooper-ation with projects related to computational processingof other Slavonic languages is especially useful. How-ever, lexical-terminological relations are also important,namely, the extent towhich a foreign language has influ-enced the elaboration of Serbian. In this field, coopera-tion should be sought with projects aimed at computa-tional processing of languageswhich have served and arestill serving as the backbone for the elaboration of Ser-bian, notably, English, French, German and Russian.It should also be added that contrastive research on therelation between Serbian and some foreign languages isalso taking place. However, there is unfortunately insuf-

65

Page 73: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

ficient cooperation between linguists dealing with Ser-bian as mother tongue and those who engage in con-trastive research as experts for foreign languages. An-other problem is the insufficient number of large bilin-gual dictionaries.

e greatest need for LT in Serbia is in the area of trans-lation. ere are some specialised associations (e. g., theAssociation of Literary Translators of Serbia, the As-sociation of Technical and Scientific of Serbia), somelocal SMEs (e. g., Elitence and Proverbum) and someforeign companies (e. g., WorldLingo) that offer profes-sional translation services or free, phrase-basedmachinetranslation (e. g., GoogleTranslate,WorldLingo). Someof them use proprietary electronic dictionaries in theirwork, while WorldLingo also offers enhanced machinetranslation services (Websites, texts, documents, emails,APIs, etc.).

Apart from the well-known freely available Google sta-tistical translation systems which also include Serbian,no other MT systems have been produced for Serbian,with the exception of somepreliminarywork (e. g., doneas part of the SEE-ERA project) and toy experimentalsystems.

However, generic statisticalMT systems such as GoogleTranslate support Serbian to a considerable degree, es-pecially in translation from and into English. Neverthe-less, for other language pairs, the performance is low andthe results far from comprehensible, sometimes evenridiculous. is is due to the scarcity of parallel corporathat are used to train statistical MT.

e quality of MT systems is still considered to havehuge improvement potential. Challenges include theadaptability of the language resources to a given sub-ject domain or user area and the integration into existingworkflows with term bases and translation memories.

Evaluation campaigns help compare the quality of MTsystems, the different approaches and the status of thesystems for different language pairs. Figure 11 (p. 30),

which was prepared in the course of the EC Euroma-trix+ project, shows the pair-wise performances ob-tained for 22 of the 23 official EU languages (Irish wasnot compared). e results are ranked according to aBLEU score, which indicates higher scores for bettertranslations [43]. A human translator would achieve ascore of around 80 points.ebest results (in green andblue)were achievedby lan-guages that benefit froma considerable research effort incoordinated programs and from the existence of manyparallel corpora (e. g., English, French, Dutch, Spanishand German). Languages with poorer results are shownin red. ese languages either lack such developmentefforts or are structurally very different from other lan-guages (e. g., Hungarian, Maltese and Finnish).

4.3 OTHER APPLICATION AREASBuilding language technology applications involves arange of subtasks that do not always surface at the levelof interaction with the user, but they provide significantservice functionalities “behind the scenes” of the systemin question. ey all form important research issuesthat have now evolved into individual sub-disciplines ofcomputational linguistics.uestion answering, for example, is an active area of re-search for which annotated corpora have been built andscientific competitions have been initiated. e con-cept of question answering goes beyond keyword-basedsearches (in which the search engine responds by de-livering a collection of potentially relevant documents)and enables users to ask a concrete question towhich thesystem provides a single answer. For example:

Question: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

While question answering is obviously related to thecore area ofWeb search, it is nowadays an umbrella term

66

Page 74: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

for such research issues as which different types of ques-tions exist, and how they should be handled; how a setof documents that potentially contain the answer can beanalysed and compared (do they provide conflicting an-swers?); and how specific information (the answer) canbe reliably extracted from a document without ignoringthe context.uestion answering is in turn related to information ex-traction (IE), an area that was extremely popular and in-fluential when computational linguistics took a statis-tical turn in the early 1990s. IE aims to identify spe-cific pieces of information in specific classes of docu-ments, such as the key players in company takeovers asreported in newspaper stories. Another common sce-nario that has been studied is reports on terrorist in-cidents. e task here consists of mapping appropri-ate parts of the text to a template that specifies the per-petrator, target, time, location and results of the in-cident. Domain-specific template-filling is the centralcharacteristic of IE, which makes it another exampleof a “behind the scenes” technology that forms a well-demarcated research area, which in practice needs to beembedded into a suitable application environment.

Language technology applications often providesignificant service functionalities behind the

scenes of larger software systems.

Text summarisation and text generation are two bor-derline areas that can act either as standalone applica-tions or play a supporting role. Summarisation attemptsto give the essentials of a long text in a short form, andis one of the features available in Microso Word. Itmostly uses a statistical approach to identify the “im-portant” words in a text (i. e., words that occur very fre-quently in the text in question but less frequently in gen-eral language use) and determine which sentences con-tain the most of these “important” words. ese sen-tences are then extracted and put together to create the

summary. In this very common commercial scenario,summarisation is simply a form of sentence extraction,and the text is reduced to a subset of its sentences. Analternative approach, for which some research has beencarried out, is to generate brand new sentences that donot exist in the source text. is requires a deeper un-derstanding of the text, which means that so far this ap-proach is far less robust. On the whole, a text generatoris rarely used as a stand-alone application but is embed-ded into a larger soware environment, such as a clini-cal information system that collects, stores andprocessespatient data. Creating reports is just one of many appli-cations for text summarisation.

Within the aforementioned areas, highly successful ex-periments for Serbian are underway related to namedentity extraction as a part of the information extrac-tion problem. A speedy development of IE and QA isexpected, given the extent of developed morphologicaldictionaries and local grammars.

ere are other fields in which linguistic technologyis being applied. One of them is plagiarism detec-tion, which uses language-independent technologies,butmay be enhancedwith search for simple paraphrasesof the text. A research along these lines for scientific ar-ticles in Serbian has been realised by CEON [44].

4.4 EDUCATIONALPROGRAMMESLanguage Technology is a highly interdisciplinary field,involving the expertise of linguists, computer scien-tists, mathematicians, philosophers, psycholinguists,and neuroscientists, among others. As a result, it hasnot yet acquired a fixed place in the Serbian higher ed-ucation system and is largely limited to isolated courseswithin more general post-graduate study programmes.Paradoxically, despite this state of affairs, short researchseminars on topics related to computational linguistics

67

Page 75: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

for high school students are organised within the Pet-nica science centre [45] each year.

At the level of university studies, topics from the fieldof computational linguistics are present within com-puter science, electronics, library science, linguistics andpsychology studies at the Universities of Belgrade andNovi Sad. Courses offered to students cover the ba-sic concepts of natural language processing, but theyaim to educate students for other professions. As partof undergraduate studies at the Faculty of Mathemat-ics in Belgrade, courses in lexical analysis and text min-ing are offered, in addition to courses providing basicmathematical knowledge necessary in the field of nat-ural language processing (especially statistics, algebra,and logic), whereas a greater choice of courses in theHLTfield exist at the level of doctoral studies. emostcomprehensive education in the HLT field is offered tostudents at the Department of Library Science at theFaculty of Philology, whereas at other departments stu-dents take atmost one introductory course. Within Ser-bian language studies, education in the field of NLP isnot envisaged. e Faculties of Philosophy in Belgradeand Novi Sad offer courses in psycholinguistics, wherestudents can get acquainted with methods of statisticaltext processing. Methods of interest for speech process-ing are studied at technical faculties. None of the fac-ulties offer a curriculum giving expertise in the field ofcomputational linguistics or language technologies.

4.5 NATIONAL PROJECTS ANDINITIATIVESDue to various reasons the LT industry in Serbia isrelatively undeveloped compared to the leading EUeconomies. e main driving force behind the devel-opment of LT in Serbia are mainly domestic SMEs butalso some foreign companies, which sometimes providesupport for the Serbian language in various LT-related

applications. Since a national programme to supportthe development of language technologies does not ex-ist, their development and application are oen realisedin an uncoordinated manner. e introduction of lan-guage technologies in Serbia follows at least three dif-ferent directions: (a) through state supported scien-tific and technology development projects (b) through(mainly) foreign companies which, in addition to com-puter equipment, also offer some sort of language sup-port, and (c) through in-house development withindomestic organisations such as publishing houses andtranslation agencies. Except in rare cases, these threelines of activities are realised independently from eachother.

On the other hand, the computer-literate populationin Serbia is accustomed to using English GUIs eventhough some of them may not speak English. ey of-ten find the localised versions awkward and imprecise,so they are reluctant to use them. e only applicationsthat massively use Serbian GUI are various business, fi-nancial and accountant applications including the SAPERP system. However, there are also some examplesof GUI localised by other renowned soware vendorslike Microso (e. g., MS Windows, MS Office), Googleor Oracle (localisation of OpenOffice, funded in the2008–11 period by the Ministry for Telecommunica-tions and Information Society through a project at theFaculty of Mathematics [46]).

Interdisciplinarity has been recognised only in the latestcycle of scientific projects (for the 2011–2014 period)funded by the Ministry of Education and Science. Un-til 2010 scientific projects (and hence criteria for theirevaluation) have been strictly divided among the fieldsofmathematics (including computer science as its part),language, and technological disciplines. In such a set-ting, it was hard to realise the natural combination ofdisciplines which form the basis of language technologydevelopment. In this context, it was necessary to estab-

68

Page 76: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

lish connections between research in the field of Serbianlanguage and informatics.

e first project along these lines entitled “Interactionsbetween text and dictionaries” was conceived in 2002as a joint project of the Departments of Serbian at theFaculty of Philology in Belgrade and the Faculty of Phi-losophy in Novi Sad, as well as the Faculty of Mathe-matics in Belgrade. In the scope of this project, the firstcorpus of contemporary Serbianwas developed, [47] ac-cessible via the Web, currently having more than 300registered users from different Serbian and foreign uni-versities and institutes. Development of an electronicmorphological dictionary of Serbian following the so-called LADL format was also initiated within the scopeof this project [48]. e project was later continuedas a joint project of the Department of Serbian at theFaculty of Philology and the Faculty of Mathematics inthe period from 2006 to 2010 under the name “A the-oretical and methodological framework for the mod-ernisation of Serbian” and from 2011 to 2014 underthe name “Serbian and its resources: theory, descriptionand applications”. Within the scope of these projects,the development of the electronic dictionary of simplewords was finalised, the development of a dictionaryof compounds was initiated. Aligned French-SerbianandEnglish-Serbian corpora of literary texts were devel-oped, as well as local grammars for certain segments ofSerbian (especially for named entities). Different so-ware tools were also developed, among which specialattention should be given to LeXimir, a workstationwhich enables integration and transformation of het-erogeneous lexical resources.

Parallel with this research in the field of language, aproject was fundedwithin the social sciences field underthe name “Fundamental cognitive processes and func-tions”, realised by the Department of Psychology at theFaculty of Philosophy in Belgrade. e aim of thisproject, among other things, was to investigate the pos-

sibility of the automatic annotation of texts based on anannotated corpus, [49] developed during the 1950s andconverted to electronic form in the 1990s.

Speech synthesis and recognition is being realised atthe Faculty of Technical Sciences of the University ofNovi Sad through projects of technological develop-ment from 2005, namely “Development of speech tech-nologies in Serbian and their application in TelekomSerbia” (2005–2007), “Man-machine speech commu-nication” (2008–2010), “Development of dialogue sys-tems for Serbian and other South-Slavic languages”(2011–2014). ey provide support for different TTSand ASR applications and services including IVR sys-tems, private branch exchanges, call centres, audio log-ging, track commercials, word spotter, etc.

Other single resources of interest for HLT have beendeveloped within other scientific areas, albeit withoutany direct interactionwith the aforementioned projects.Let us just mention a few examples such as the Serbian-English geological thesaurus [50] and the folkloristicdatabase DABI of the Institute of Balkan studies SASA[51].

In addition to national projects, Serbian scientific in-stitutions have also taken part in various internationalprojects related to the HLT field. A certain level of ac-tivities was maintained during the UN sanctions due tothe participation in projects TELRI I and II [52]. Al-though Serbian research groups could not participateat that time in the project MULTEXT-East [53], theynevertheless produced useful resources in formats de-fined by that project: a morphosyntactic description ofSerbian, an aligned version of the Serbian translationof Orwell’s 1984, its lemmatised morphosyntacticallytagged version and a comprehensive dictionary covering1984’s lexicon.

Aer the sanctions were lied, of particular importancewas the BalkaNet [54] project which enabled the de-velopment of a WordNet type semantic network for

69

Page 77: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Serbian. e Serbian part of the multilingual lexicaldatabase of proper names Prolex [55] was developedwithin the scope of bilateral cooperation with France,whereas a one-million aligned English-Serbian project,lemmatised and morphologically annotated, was devel-oped within the scope of the Intera project. is corpuswas used for tagger training, as well as for experimentsin alignment at the word level and in automatic transla-tion.

The situation in various domains related toprocessing of Serbian differs, but there isdefinitely a considerable improvement in

corpus development, morphological analysis,electronic dictionaries as well as NE extraction.

Serbian participants were also involved in two regionalprojects. One of them was SEE-ERA.NET – BuildingLanguage Resources and Translation Models for Ma-chine Translation focused on South Slavic and BalkanLanguages (ICT 10503 RP, 2007–2008). Its main con-tribution was the development of unidirectional trans-lation models that rely on large-scale multilingual re-sources, namely e Acquis Communautaire. However,since documents that are the base of this resource hadnot yet been translated into Serbian at that time notranslation model was produced for Serbian. Transla-tion of EU legislation is underway, and part of the trans-lated material is already available [56]. For its part, theSerbian team contributed by developing another multi-lingual aligned resource based on Verne’s novel AroundtheWorld in 80Days (in 16 languages at that time). eother project was WISE – An Electronic Marketplaceto Support Pairs of Less Widely Studied European Lan-guages (BSEC009 / 05.2007, 2007–2008)with the aimnot only to produce cross-lingual lexical resources en-riched with linguistic meta-data but also to develop andpromote an electronic marketplace for the less widelystudied Balkan languages, including Serbian.

Further activities encompass, in the first place, the devel-opment of procedures for the syntactic analysis of Ser-bian, which, due to the free order ofwords andmorpho-logical richness, represents an extremely complex task.is means that new resources need to be developed,above all, new types of dictionaries and corpora, as wellas accompanying tools.

4.6 AVAILABILITY OF TOOLSAND RESOURCESFigure 11 summarises the current state of language tech-nology support for the Serbian language. e rating forexisting tools and resources was generated by leading ex-perts in the fieldwhoprovided estimates based on a scalefrom0 (very low) to 6 (very high) according to seven cri-teria. For Serbian, the state of resources and technolo-gies could be described as follows:

‚ Where morphological issues and issues related tothem are concerned, it is safe to say that the levelof development of technologies and resources is sat-isfactory, mainly due to the existence of large elec-tronic dictionaries and local grammars. An imme-diate consequence of this fact is that necessary toolsfor information retrieval and information extractionare available. Some of the dictionaries are ready forwider use, whereas some need to be upgraded, as forexample SrpNet.

‚ A reference corpus of contemporary Serbian in Eka-vian dialect is available, as well as several parallelaligned corpora, all of which are available to re-searchers of Serbian. Current research is focusedon upgrading the reference corpus and expanding itwith the Ijekavian variant.

‚ Speech technologies are well developed, and theyhave found wide use in business, but research needsto be further expanded, in order to expand the areaof their usability.

70

Page 78: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology (Tools, Technologies and Applications)

Speech Recognition 2 2 1 1 1 1 0

Speech Synthesis 2 2 4 4 5 5 1

Grammatical analysis 1 1 2,5 2 2 1,5 1,5

Semantic analysis 1 1 1 1,5 1 1 1,5

Language generation 0 0 0 0 0 0 0

Machine translation 1 1 0 1 0 1 1

Language Resources (Resources, Data and Knowledge Bases)

Text corpora 0,5 1 0,5 1 1 1 0,5

Speech corpora 1 2 4 4 3 3 3

Parallel corpora 3 3 3 2 2 2 3

Lexical resources 1 2 2 2 2 2 2,5

Grammars 1 1 0 1 0 1 1

11: State of language technology support for Serbian

‚ Soware aimed at enhancing the productivity of lex-icographical work has been developed, but the issueof accepting new technologies in traditionally ori-ented lexicographic environments is an impedimentto the speedier development of lexicography.

‚ Successful experiments have been performed insome areas, such as shallow parsing, summarisa-tion, machine translation, ontological resources, in astrictly research environment. However, the resultsobtained are still far from the level of developmentreached for developed European languages. e at-tention of researchers is also drawn to multimediaand multimodal documents, especially in the con-text of the digitisation of cultural heritage.

Given the complexity of Serbian syntax, areas based ondeep parsing simply do not exist: sentence semantics,

text semantics, and language generation. is resultsin the absence of a formalised syntax of Serbian and re-stricts the development of syntactically and semanticallyannotated corpora. e formalisation of Serbian syntaxis thus the most urgent task for the further expansion ofHLT.

4.7 CROSS-LANGUAGECOMPARISONecurrent state of LT support varies considerably fromone language community to another. In order to com-pare the situation between languages, this section willpresent an evaluation based on two sample applicationareas (machine translation and speech processing) andone underlying technology (text analysis), as well as ba-sic resources needed for building LT applications. e

71

Page 79: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

languages were clustered using the following five-pointscale:

‚ Excellent LT support

‚ Good support

‚ Moderate support

‚ Fragmentary support

‚ Weak or no support

LTsupportwasmeasured according to the following cri-teria:

‚ SpeechProcessing: uality of existing speech recog-nition technologies, quality of existing speech syn-thesis technologies, coverage of domains, numberand size of existing speech corpora, amount and va-riety of available speech-based applications

‚ Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, cover-age of linguistic phenomena and domains, qualityand size of existing parallel corpora, amount and va-riety of available MT applications

‚ Text Analysis: uality and coverage of existingtext analysis technologies (morphology, syntax, se-mantics), coverage of linguistic phenomena and do-mains, amount and variety of available applications,quality and size of existing (annotated) text corpora,quality and coverage of existing lexical resources(e. g., WordNet) and grammars

‚ Resources: uality and size of existing text corpora,speech corpora andparallel corpora, quality and cov-erage of existing lexical resources and grammars

e relevant tables show that the tools and resourcesavailable for Serbian are mostly in the bottom clus-ter. Serbian compares well with other languages witha small number of speakers, such as Croatian, Slove-nian and Slovak but these languages lag far behindmorewidely spoken European languages such as German and

French. However, even for the latter languages LT re-sources and tools clearly do not yet reach the quality andcoverage of comparable resources and tools for English,which is in the lead in all LT areas. And there are stillplenty of gaps in English language resources with regardto high quality applications.

4.8 CONCLUSIONSIn this series of white papers, we have provided thefirst high-leel comparison of language technology sup-port across 30 European languages. By identifying thegaps, needs and deficits, the European language technol-ogy community and its related stakeholders are now ina position to design a large scale research and develop-ment programme aimed at building truly multilingual,technology-enabled communication across Europe.e results of this white paper series show that there is adramatic difference in language technology support be-tween European languages. While there are good qual-ity soware and resources available for some languagesand application areas, other (usually smaller) languageshave substantial gaps. Many languages lack basic tech-nologies for text analysis and the essential resources.Others have basic tools and resources, but there is littlechance of implementing semantic methods in the nearfuture. is means that a large-scale effort is needed toreach the ambitious goal of providing support for all Eu-ropean languages, for example through high qualityma-chine translation.e scope of the resources and the range of tools avail-able for Serbian are still very limited, especially whencompared to the resources and tools for languages likeFrench, German, and especially English, and they arenot sufficient in quality and quantity to develop thekind of technologies required to support a truly multi-lingual knowledge-based society.Technologies already developed and optimised for En-glish cannot be simply transferred to handle Serbian.

72

Page 80: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

English-based systems for syntactic analysis of sentencestructure are in general unsuitable for Serbian texts. ework on language processing for Serbian has been con-centrated so far on the development of resources andtools that comply with the specific features of Serbian(in the first place a description of its rich morphology).is line of development should by all means be fol-lowed in the future.For a rather modest language community and researchenvironment such as the Serbian one, cooperation bothon the national and international level in developinglanguage resources is of vital importance. is is true ingeneral for the majority of Slavic languages, and this co-operation asks for further stimulative measures. ereare especially great possibilities for cooperation amongprojects related to standard languages of Štokavian ori-gin, as well as Slavic languages in general, given the com-mon specific features shared among them.Serbia’s participation inCESAR andMETA-NET is ex-pected to contribute to the development, standardisa-tion and availability of several important LT resourcesand thus to the development of language technology forSerbian. META-NET’s long-term goal is to introducehigh-quality language technology for all languages inorder to achieve political and economic unity through

cultural diversity. e technology will help tear downexisting barriers and build bridges betweenEurope’s lan-guages. is requires all stakeholders – in politics, re-search, business, and society – to unite their efforts forthe future.e Serbian language technology industry is extremelymodest. ere are just a few SMEs involved and theirapproach is basically founded on the application of“brute force”, which means that they are basically ig-noring the specific features of Serbian. Our findingsshow that the only alternative is to make a substantialeffort to create LT resources for Serbian, and use themto drive forward research, innovation and development.e need for large amounts of data and the extremecomplexity of language technology systems makes it vi-tal to develop a new infrastructure and a more coher-ent research organisation to stimulate greater sharingand cooperation. Another key contribution would bethe establishment of multidisciplinary studies related tolanguage processing at the master and doctoral levels,which are currently not available.We can therefore conclude that there is a desperate needfor a large, coordinated initiative focused on overcom-ing the differences in language technology readiness forEuropean languages as a whole.

73

Page 81: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English GermanItalianFinnishFrenchDutchPortugueseSpanishCzech

BasqueBulgarianDanishEstonianGalicianGreekIrishCatalanNorwegianPolishSwedishSerbianSlovakSlovenianHungarian

IcelandicCroatianLatvianLithuanianMalteseRomanian

12: Speech processing: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English FrenchSpanish

GermanItalianCatalanDutchPolishRomanianHungarian

BasqueBulgarianDanishEstonianFinnishGalicianGreekIrishIcelandicCroatianLatvianLithuanianMalteseNorwegianPortugueseSwedishSerbianSlovakSlovenianCzech

13: Machine translation: state of language technology support for 30 European languages

74

Page 82: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English GermanFrenchItalianDutchSpanish

BasqueBulgarianDanishFinnishGalicianGreekCatalanNorwegianPolishPortugueseRomanianSwedishSlovakSlovenianCzechHungarian

EstonianIrishIcelandicCroatianLatvianLithuanianMalteseSerbian

14: Grammatical analysis: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English GermanFrenchDutchSwedishCzechHungarianPolishItalianSpanish

BasqueBulgarianDanishEstonianFinnishGalicianGreekCatalanCroatianNorwegianPortugueseRomanianSerbianSlovakSlovenian

IrishIcelandicLatvianLithuanianMaltese

15: Speech and text resources: State of support for 30 European languages

75

Page 83: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

5

ABOUT META-NET

META-NET is a Network of Excellence partiallyfunded by the European Commission. e networkcurrently consists of 54 research centres in 33 Europeancountries [57]. META-NET forges META, the Multi-lingual EuropeTechnologyAlliance, a growing commu-nity of language technology professionals and organisa-tions in Europe. META-NET fosters the technologicalfoundations for a truly multilingual European informa-tion society that:

‚ makes communication and cooperation possibleacross languages;

‚ grants all Europeans equal access to information andknowledge regardless of their language;

‚ builds upon and advances functionalities of net-worked information technology.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimulatesand promotes multilingual technologies for all Euro-pean languages. ese technologies support automatictranslation, content production, information process-ing and knowledge management for a wide variety ofsubject domains and applications. ey also enable in-tuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehi-cles to computers and robots. Launched on 1 February2010,META-NEThas already conducted various activ-ities in its three lines of actionMETA-VISION,META-SHARE and META-RESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared vi-

sion and a common strategic research agenda (SRA).e main focus of this activity is to build a coherentand cohesive LT community in Europe by bringing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present White Paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.

META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peer-to-peer network of repositories will contain language data,tools and Web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.

META-RESEARCH builds bridges to related technol-ogy fields. is activity seeks to leverage advances inother fields and to capitalise on innovative research thatcan benefit language technology. In particular, the ac-tion line focuses on conducting leading-edge research inmachine translation, collecting data, preparing data setsand organising language resources for evaluation pur-poses; compiling inventories of tools and methods; andorganising workshops and training events for membersof the community.

[email protected] – http://www.meta-net.eu

76

Page 84: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

A

ЛИТЕРАТУРА REFERENCES

[1] AljoschaBurchard,Markus Egg, Kathrin Eichler, BrigitteKrenn, JörnKreutel, Annette Leßmöllmann,GeorgRehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeitalter – eGerman Language in the Digital Age. META-NET White Paper Series. Georg Rehm and Hans Uszkoreit(Series Editors). Springer, 2012.

[2] Aljoscha Burchardt, Georg Rehm, and Felix Sasaki. e Future European Multilingual Information Society:Vision Paper for a Strategic Research Agenda, 2011.http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf.

[3] Directorate-General Information Society&Media of the EuropeanCommission. User Language PreferencesOnline, 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[4] EuropeanCommission (EuropäischeKommission). Multilingualism: anAsset for Europe and a SharedCom-mitment, 2008. http://ec.europa.eu/languages/pdf/comm2008_en.pdf.

[5] Directorate-General of the UNESCO. Intersectoral Mid-term Strategy on Languages and Multilingualism,2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[6] Directorate-General for Translation of the European Commission. Size of the Language Industry in the EU,2009. http://ec.europa.eu/dgs/translation/publications/studies.

[7] Constitution of the Republic of Serbia.http://www.srbija.gov.rs/cinjenice_o_srbiji/ustav.php?change_lang=en.

[8] Popis stanovništva, domaćinstava i stanova u 2002.: STANOVNIŠTVO (Census of population, householdsand dwellings in 2002.: POPULATION). http://webrzs.stat.gov.rs/axd/Zip/VJN3.pdf.

[9] Human Development Report – SERBIA 2005: e Strength of Diversity.http://hdr.undp.org/en/reports/national/europethecis/serbia/Serbia_nhdr_2005.pdf.

[10] http://www.ombudsman.rs/pravamanjina/index.php/sr_YU/podaci.

[11] OBRAZOVANJE (EDUCATION).http://webrzs.stat.gov.rs/WebSite/repository/documents/00/00/18/48/god2010pog22.pdf.

[12] Službeni glasnik RS, br. 45/91, 53/93, 67/93, 48/94, 101/2005 – dr. zakon i 30/2010 (Official Gazette ofthe Republic of Serbia, no. 45/91, 53/93, 67/93, 48/94, 101/2005 – state law and 30/2010).

77

Page 85: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

[13] Unicode: Latin Extended-B. http://unicode.org/charts/PDF/U0180.pdf.

[14] Board for Standardization of the Serbian Language.http://en.wikipedia.org/wiki/Board_for_Standardization_of_the_Serbian_Language.

[15] Government of theRepublic of Serbia –European IntegrationOffice. http://www.seio.gov.rs/home.50.html.

[16] Institut za standardizaciju Srbije (Serbian Institute for Standardization). http://www.iss.rs.

[17] Republički zavod za statistiku: Upotreba informaciono-komunikacionih tehnologija (Republic Institute forStatistics: Use of information-communication technologies).http://webrzs.stat.gov.rs/WebSite/Public/PageView.aspx?pKey=204.

[18] Internet World Stats – Usage and Population Statistics: Serbia.http://www.internetworldstats.com/europa2.htm#rs.

[19] Republički zavod za statistiku (Republic Institute for Statistics). http://webrzs.stat.gov.rs/WebSite/.

[20] Republički zavod za statistiku: Upotreba informaciono-komunikacionih tehnologija uRepublici Srbiji, 2010.(Republic Institute for Statistics: Use of information-communication technologies in the Republic of Serbia,2010.). http://webrzs.stat.gov.rs/WebSite/repository/documents/00/00/10/40/PressICT2010.pdf.

[21] BLIC online. http://www.blic.rs.

[22] B 92. http://www.b92.net.

[23] naslovi.net. http://www.naslovi.net.

[24] РТС: Радио-телевизија Србије (RTS: Radio-Television Serbia). http://www.rts.rs.

[25] cruiser. http://www.krstarica.com.

[26] Wikipedia metadata. http://meta.wikimedia.org/wiki/List_of_Wikipedias.

[27] Vikipedija (Wikipedia). http://sh.wikipedia.org.

[28] Пројекат Растко: библиотека српске културе (Project Rastko: library of Serbian culture).http://www.rastko.rs.

[29] Учитељски факултет Универзитета у Београду: Антологија српске књижевности (Faculty of Teacher Ed-ucation in Belgrade: Anthology of Serbian literature). http://www.ask.rs.

[30] Транспоетика (Transpoetics). http://transpoetika.org.

[31] Daniel Jurafsky and James H. Martin. Speech and Language Processing. Prentice Hall, 2 edition, 2009.

[32] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MITPress, 1999.

78

Page 86: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

[33] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam-polli, editors. Survey of the State of the Art in Human Language Technology. Cambridge University Press,1998.

[34] Language Technology World (LT World). http://www.lt-world.org.

[35] Jerrold H. Zar. Candidate for a Pullet Surprise. Journal of Irreproducible Results, page 13 (Fist Verse), 1994.

[36] Zoran Urošević. Statistička metoda otkrivanja i korekcije slonih grešaka supstitucionog tipa u tekstu na srp-skohrvatskom jeziku (Statistical method for detection and correction of typos of substitutional type in a text inSerbo-Craotian). BIGZ, 1975.

[37] OpenOffice: Serbian (Cyrillic and Latin) Spelling and Hyphenation.http://extensions.services.openoffice.org/en/node/1572/releases.

[38] КОРЕКТОР за Word (CORRECTOR for Word). http://www.rasprog.com/html/3_0_korektor.html.

[39] Spiegel Online. Google zieht weiter davon (Google is still leaving everybody behind), 2009.http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html.

[40] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities, 2009. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[41] Alexa – e Web Information Company. http://www.alexa.com/topsites/countries/CS.

[42] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe. InProceedings of MT Summit XII, 2009.

[43] Kishore Papineni, SalimRoukos, ToddWard, andWei-JingZhu. BLEU:AMethod forAutomatic Evaluationof Machine Translation. In Proceedings of the 40th Annual Meeting of ACL, Philadelphia, PA, 2002.

[44] Centre for Evaluation in Education and Science (CEON/CEES). http://ceon.rs/index.php?option=com_content&task=view&id=224&Itemid=106.

[45] Istraživačka stanica Petnica (ISP) (Petnica Science Center). http://www.petnica.rs.

[46] Open Office. http://ooo.matf.bg.ac.rs.

[47] Resursi srpskog jezika (Serbian language resources). http://www.korpus.matf.bg.ac.rs.

[48] Cvetana Krstev. Processing of Serbian – Automata, Texts and Electronic dictionaries. Faculty of Philology,University of Belgrade, 2008.

[49] Đorđe Kostić. Corpus of Serbian Language (CSL). http://www.serbian-corpus.edu.rs/ns/eindex.htm.

79

Page 87: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

[50] GeolISSTerm,Geološki Informacioni SistemSrbije–GeološkaTerminologija i nomenklatura (GeolISSTerm,Geology Information System of Serbia – Geology Terminology and nomenclature).http://www.rgf.bg.ac.rs/geolissterm/Index.aspx.

[51] Балканолошки институт, Српска академија наука и уметности (Balkans Institute, Serbian Academy ofSciences and Arts). http://www.balkaninstitut.com/srp/projekti/sikimic/stratifikacija_balkana.html.

[52] TELRI, Trans-European Language Resources Infrastructure. http://telri.nytud.hu/.

[53] MULTEXT-East: Multilingual Text Tools and Corpora for Central and Eastern European Languages. http://nl.ijs.si/ME/.

[54] EUROPA CORDIS: A wordnet for the Balkans.http://cordis.europa.eu/ictresults/index.cfm?section=news&tpl=article&ID=73737.

[55] Centre National de Ressources Textuelles et Lexicales (CNRTL): Prolex.http://www.cnrtl.fr/lexiques/prolex/.

[56] ЕВРОТЕКА – Енглеско-српски паралелни корпус (EVROTEKA – English-Serbian aligned corpus).http://prevodjenje.seio.gov.rs/evroteka/index.php?jezik=srpc.

[57] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech. MultiLingual,22(3):51–52, April/May 2011.

80

Page 88: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

B

ЧЛАНИЦЕМЕТА-НЕТ-А

META-NETMEMBERS

Аустрија Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Белгија Belgium Computational Linguistics and Psycholinguistics Research Centre, Univ. of Antwerp:Walter Daelemans

Centre for Processing Speech and Images, Univ. of Leuven: Dirk van Compernolle

Бугарска Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

УК UK School of Computer Science, Univ. of Manchester: Sophia Ananiadou

Institute for Language, Cognition and Computation, Centre for Speech TechnologyResearch, Univ. of Edinburgh: Steve Renals

Research Institute of Informatics and Language Processing, Univ. of Wolverhampton:Ruslan Mitkov

Грчка Greece R.C. “Athena”, Institute for Language and Speech Processing: Stelios Piperidis

Данска Denmark Centre for Language Technology, Univ. of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

Естонија Estonia Institute of Computer Science, Univ. of Tartu: Tiit Roosmaa, Kadri Vider

Ирска Ireland School of Computing, Dublin City Univ.: Josef van Genabith

Исланд Iceland School of Humanities, Univ. of Iceland: Eiríkur Rögnvaldsson

Италија Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “AntonioZampolli”: Nicoletta Calzolari

Human Language Technology Research Unit, Fondazione Bruno Kessler:Bernardo Magnini

Кипар Cyprus Language Centre, School of Humanities: Jack Burston

Летонија Latvia Tilde: Andrejs Vasiļjevs

Institute of Mathematics and Computer Science, Univ. of Latvia: Inguna Skadiņa

Литванија Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Луксембург Luxembourg Arax Ltd.: Vartkes Goetcherian

Мађарска Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Dept. of Telecommunications and Media Informatics, Budapest Univ. of Technologyand Economics: Géza Németh, Gábor Olaszy

81

Page 89: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Малта Malta Dept. Intelligent Computer Systems, Univ. of Malta: Mike Rosner

Немачка Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen Univ.:Hermann Ney

Dept. of Computational Linguistics, Saarland Univ.: Manfred Pinkal

Норвешка Norway Dept. of Linguistic, Literary and Aesthetic Studies, Univ. of Bergen:Koenraad De Smedt

Dept. of Informatics, Language Technology Group, Univ. of Oslo:Stephan Oepen

Пољска Poland Institute of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski,Maciej Ogrodniczuk

Univ. of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Dept. of Computer Linguistics and Artificial Intelligence, Adam Mickiewicz Univ.:Zygmunt Vetulani

Португалија Portugal Univ. of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering and Comput-ers: Isabel Trancoso

Румунија Romania Research Institute forArtificial Intelligence, RomanianAcademyof Sciences: DanTufiș

Faculty of Computer Science, Univ. Alexandru Ioan Cuza of Iași: Dan Cristea

Словачка Slovakia Ľudovít Štúr Institute of Linguistics, Slovak Academy of Sciences: Radovan Garabík

Словенија Slovenia Jožef Stefan Institute: Marko Grobelnik

Србија Serbia Univ. of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vraneš

Финска Finland Computational Cognitive Systems Research Group, Aalto Univ.: Timo Honkela

Dept. of Modern Languages, Univ. of Helsinki: Kimmo Koskenniemi,Krister Lindén

Француска France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour la Mé-canique et les Sciences de l’Ingénieur and Institute for Multilingual and Multimedia In-formation: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Холандија Netherlands Utrecht Institute of Linguistics, Utrecht Univ.: Jan Odijk

Computational Linguistics, Univ. of Groningen: Gertjan van Noord

Хрватска Croatia Institute of Linguistics, Faculty of Humanities and Social Science, Univ. of Zagreb:Marko Tadić

82

Page 90: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

Чешка Czech Republic Institute of Formal and Applied Linguistics, Charles Univ. in Prague: Jan Hajič

Швајцарска Switzerland Idiap Research Institute: Hervé Bourlard

Шведска Sweden Dept. of Swedish, Univ. of Gothenburg: Lars Borin

Шпанија Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, Univ. of the Basque Country:Inma Hernaez Rioja

Center for Language and Speech Technologies and Applications, Universitat Politèc-nica de Catalunya: Asunción Moreno

Dept. of Signal Processing andCommunications, Univ. of Vigo: CarmenGarcíaMateo

Кључне резултате и поруке серије белих књига продискутовало је и усвојило око сто експерата језичкихтехнологија – представника земаља и језика представљених у META-НЕТ-у, на састанку МЕТА-НЕТ-а уБерлину, Немачка, 21-22. октобра 2011. — About 100 language technology experts – representatives ofthe countries and languages represented in META-NET – discussed and finalised the key results and messages ofthe White Paper Series at a META-NET meeting in Berlin, Germany, on October 21/22, 2011.

83

Page 91: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

C

МЕТА-НЕТ СЕРИЈАБЕЛИХ КЊИГА

THE META-NETWHITE PAPER SERIES

баскијски Basque euskaraбугарски Bulgarian българскигалицијски Galician galegoгрчки Greek εηνικάдански Danish danskенглески English Englishестонски Estonian eestiирски Irish Gaeilgeисландски Icelandic íslenskaиталијански Italian italianoкаталонски Catalan catalàлетонски Latvian latviešu valodaлитвански Lithuanian lietuvių kalbaмађарски Hungarian magyarмалтешки Maltese Maltiнемачки German Deutschнорвешки бокмал Norwegian Bokmål bokmålнорвешки нинорск Norwegian Nynorsk nynorskпољски Polish polskiпортугалски Portuguese portuguêsрумунски Romanian românăсловачки Slovak slovenčinaсловеначки Slovene slovenščinaсрпски Serbian српскифински Finnish suomiфранцуски French françaisхоландски Dutch Nederlandsхрватски Croatian hrvatskiчешки Czech češtinaшведски Swedish svenskaшпански Spanish español

84

Page 92: White Paper Series Серија белих књига THE SERBIAN СРПСКИ ... · САДРЖАЈ contents СРПСКИ ЈЕЗИК У ДИГИТАЛНОМ ДОБУ 1 Резиме

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the po-tential to overcome these barriers and to provide inno-vative interfaces to technologies and knowledge. Thiswhite paper presents the state of language technologysupport for the Serbian language. It is part of a se-ries that analyzes the available language resources andtechnologies for 31 European languages. The analy-sis was carried out by META-NET, a Network of Excel-lence funded by the European Commission. META-NETconsists of 54 research centres in 33 countries, who co-operate with stakeholders from economy, governmentagencies, research organisations, non-governmental or-ganisations, language communities and European uni-versities. META-NET’s vision is high-quality languagetechnology for all European languages.

Грађани Европе, као и пословни свет и полити-чари суочавају се у својој свакодневној комуни-кацији са језичким препрекама. Оно што доносејезичке технологије је превазилажење таквих пре-прека и обезбеђивање нове сумеђе ка техноло-гијама и знању уопште. Ова бела књига описујеактуелни ниво подршке језичких технологија у об-ради српског језика. Она је део серије која ана-лизира расположиве језичке ресурсе и техноло-гије за 31 европски језик. Анализа је спроведенау оквиру META-НЕТ-а, мреже изврсности коју јеосновала Европска комисија. META-НЕТ повезује54 истраживачка центра из 33 земље, који сара-ђују са заинтересованим странама из економије,владе, истраживачких организација, невладинихорганизација, језичких заједница и универзитета.Визија META-НЕТ-а је језичка технологија високогквалитета за све европске језике.