Download - MASINTÕLKEST JA TÕLKEABIPROGRAMMIDESTevkk.tlu.ee/pdfs/marja_vaba.pdf · üha paremini ja oskavad neid rakendada oma töö kergendamisel. Teises ja kolmandas peatükis vaadeldakse,

TALLINNA PEDAGOOGIKAÜLIKOOL

FILOLOOGIATEADUSKOND

ÜLD- JA RAKENDUSLINGVISTIKA ÕPPETOOL

Marja Vaba

MASINTÕLKEST JA TÕLKEABIPROGRAMMIDEST

Referaat

Juhendaja Pille Eslon

TALLINN 2006

Sisukord

0. Sissejuhatus.....................................................................................................................3

1. Masintõlge: kas arvuti saab inimese eest tõlkida?.......................................................... 5

2. Tõlkeabiprogramm: kui palju arvuti saab inimest tõlkimisel aidata?.............................9

3. TRADOS: kuidas arvuti tõlkijat aitab?.........................................................................15

4. Kokkuvõte.....................................................................................................................22

Kasutatud kirjandus.......................................................................................................... 23

2

0. Sissejuhatus

Referaadi eesmärk on kirjeldada kahte omavahel seotud keeletehnoloogilist vahendit,

masintõlget ning tõlkeabiprogramme. Esimeses peatükis antakse ülevaate masintõlke tekkest

ning teoreetilistest lähtekohtadest. Teises peatükis kirjeldatakse tõlkeabiprogrammide teket ja

arengut, põhimõtteid ning kasutusvõimalusi ning loetletakse Eestis enimlevinud

tõlkeabiprogramme, samuti selgitatakse, miks võib tõlkemälu pidada tekstikorpuseks.

Kolmandas peatükis selgitatakse tõlkemälupõhise tõlkeabirakenduse toimimist programmi

TRADOS näitel.

Arvutite ning info- ja kommunikatsioonitehnoloogia lai levik on viimaste aastakümnete

jooksul muutnud tõlkijate tööd tundmatuseni. Tõlkijalt ei oodata mitte ainult

tekstitöötlusprogrammi kasutamist tõlkimisel ega sihtteksti elektroonilisel kujul saatmist

kliendile arvutiposti kaudu, vaid eeldatakse, et ta oskab kasutada laialdasi teadmusbaase (ingl

knowledge base). Tõlkijale on tänapäeval abiks ka mitmesugused keeletehnoloogilised

ressursid, muuhulgas tõlkeabiprogrammid.

Joonisel 1 on näha, millisel määral saab arvuti osaleda tõlkeprotsessis. Näeme kontiinumi,

mille vasak pool kirjeldab täielikult mehhaniseeritud tõlget (kus inimene ei mängi sihtteksti

valmimisel mingit rolli, st masintõlget) ja parem inimese valmistatud tõlget (kus masinaid, st

arvutit, ei ole kasutatud, vaid tõlge on tehtud n.ö käsitsi). Kaks keskmist lahtrit, inimese abiga

valminud masintõlge ja masina abiga valminud inimtõlge, valmivad tõlkeabiprogrammiga.

Tõlkeprogrammid rühmituvad üldjoontes kaheks: masintõlkeprogrammid ning sõnastiku- ja

tõlkemälupõhised programmid. Masintõlkeprogrammid tõlgivad tundmatuid lauseid

tervenisti, kuid vähemalt praegu ei saa automaatselt tõlgitud tekst konkureerida inimese

tehtud tööga, sest masin ei mõista metateksti ega suuda seda pragmaatiliselt analüüsida. Seda

probleemi ei ole praegu veel teoreetiliseltki lahendatud. Arutelu, kas masin võiks kunagi

inimese eest tõlkida, vt peatükis 1.

Jooniselt 1 nähtub, et, on olemas mitu viisi, kuidas arvuti saab inimese tööd tõlkimisel

toetada, nimelt sõnastiku- või tõlkemälupõhise tõlkeabiprogrammi näol. Sõnastikupõhiste

programmide ülesanne on pakkuda lähtetekstis leiduvale sõnele sobiv vaste sihtkeeles. 3

Tõlkemälupõhised programmid säilitavad mälus teksti originaali ja tõlke kujul. (Muischnek,

Orav, Kaalep, Õim 2003).

Inimese produtseeritud tõlge

-------------------------------------------------------------------------------------------------------------------------->

<--------------------------------------------------------------------------------------------------------------------------

Mehhaniseeritud tõlge

Automatiseeritud

kvaliteetne tõlge

Inimese abiga

valminud masintõlge

Masina abiga valminud

inimtõlge

Inimtõlge

Tõlkeabiprogrammiga valminud tõlge

Joonis 1. Mehhaniseeritud ja inimtõlge (Hutchins ja Somers 1992, Austermühl 2001:10)

Tõlkeabiprogrammide olulisust praktikas tõestavad järgmised arvud. Aastal 1993. oli

keeletehnoloogiaga seotud programmide ja teenuste käive ja nende teenuste müügist saadav

tulu ca. 71,6 miljonit dollarit, sellest umbes pool oli seotud masintõlkesüsteemidega.

Ülejäänud tooted-teenused hõlmasid andmebaase, tekstiotsingu ja –liigitamissüsteeme,

grammatika- ning stiilikorrektoreid jm. Aastal 1996 oli Euroopa ning USA turul

keeletehnoloogiaga seotud toodete ja teenuste eest saadav tulu umbes 340 miljonit dollarit

(http://www.eki.ee/keeletehnoloogia/tutvustus/am.html, viimane külastus 12.10.2006).

Niisiis on tõlkeabiprogrammid oma elujõulisust veenvalt tõestanud. Tõlkijad tunnevad neid

üha paremini ja oskavad neid rakendada oma töö kergendamisel. Teises ja kolmandas

peatükis vaadeldakse, kuidas käib töö tõlkemälupõhiste programmidega.

Alustuseks vaatleme siiski joonise vasakpoolse äärmuse ehk täielikult mehhaniseeritud tõlke

võimalikkust. Aitaks see ju kokku hoida loendamatu hulga tunde tööd ning miljardeid

dollareid.

4

http://www.eki.ee/keeletehnoloogia/tutvustus/am.html

1. Masintõlge: kas arvuti saab inimese eest tõlkida?

Masintõlkeks1 nimetatakse niisiis tõlkimisprotsessi, mille puhul põhitöö teeb arvuti

(http://et.wiktionary.org/wiki/Masint%C3%B5lge, viimane külastus 04.11.2006).

Alates elektronarvuti loomisest 1940-ndatel aastatel on tuntud huvi, kas oleks seda võimalik

rakendada tõlkimisel (Hutchins 1986, via

http://www.foreignword.com/Technology/art/Hutchins/hutchins99.htm, viimane külastus

26.10.2006). Katsed kasutada arvutit loomulike keelte tõlkimiseks oli ilmselt lausa esimene

üritus kasutada äsja leiutatud elektroonilisi arvutusmasinaid muuks kui arvuliste ülesannete

lahendamiseks. See pani aluse distsipliinile, mida nüüd tunneme arvutuslingvistika (ingl

computational linguistics) nime all. Masintõlkimine oli esimene pääsuke tehisintellekti (ingl

artificial intelligence, AI) katsetamisel. Algusaegade vaimustuse lainel kutsuti arvutit (mis

pidi peagi hakkama tõlkima igasuguseid tekste kõrvalise ehk inimese abita) koguni

elektrooniliseks ajuks (Hutchins 2000).

Esimesed masintõlke vastu huvi tundnud teadlased olid väga erineva taustaga. Osa neist olid

täppisteadlased, näiteks elektrotehnikainsenerid ja füüsikud, osa humanitaarse

ettevalmistusega, näiteks lingvistid, tõlkijad või filosoofid2. Nende eesmärgid olid samuti

erinevad: mõni soovis välja arendada praktilise abivahendi, et pääseda tõlkimise vaevast,

teised soovisid formaliseerida inimkõnet ja –mõtlemist. Aktiivselt tegelesid masintõlkega

küberneetikud, eriti Nõukogude Liidus. Mõne uurija eesmärk oli viia uuele tasemele

sõnaraamatute koostamine. Osa soovis uurida inimmeelt ja -mõtlemist, tegeldes filosoofiliste

probleemidega. Uudsete arvutite abil prooviti tõestada strukturaal- ja formaallingvistika teese

(ehk testida näiteks Saussure’i, Bloomfieldi, Jesperseni, mõningal määral ka Chomsky3 töödes

esitatud ideid). Need katsed ei viinud siiski kuigi kaugele (Hutchins 2000). Sellest hoolimata

oli masintõlge 1960-ndail aastail väga moes, sellest räägiti nii küberneetika- kui

lingvistikakonverentsidel.

1 Algusaastatel inglise keele kõneruumis ka mehhaaniliseks tõlkeks nimetatud (ingl mechanical translation), mujal automaattõlge (Hutchins 2000).2 Masintõlke arendaja Sydney M. Lamb on kirjutanud, kuidas teda hämmastas täppisteadusliku taustaga uurijate arvamus, et masintõlke arendamiseks polegi tarvis lingvistilist ettevalmistust: „... minu teadmised lingvistikas lubasid mul oletada, et on võimatu seletada masinale, kuidas tõlkida, kui puuduvad teadmised keele struktuurist. Pidasin seda iseenesestmõistetavaks. Ometi olin ma uurijate hulgas selle arvamusega vähemuses ...“ (Hutchins 2000:177)3 Noam Chomsky kirjutas 1969. aastal, et väljend lausete tõenäosus on täiesti mõttetu ning kasutu, ükskõik kuidas seda ka ei tõlgenda. Et Chomsky oli oma ajas väga mõjukas, jäigi mitu arvutuslingvstika võimalikku rakendust, näiteks statistiline analüüs, paariks aastakümneks soiku (Young & Bloothooft 1997).

5

http://www.foreignword.com/Technology/art/Hutchins/hutchins99.htm

http://et.wiktionary.org/wiki/Masint?lge

Algul loodeti, et masintõlget saab kasutada millise tahes kirjaliku teksti korral (mõni uurija

rääkis ka suulisest masintõlkest), räägiti isegi ilukirjanduse automaatsest tõlkimisest. Enamik

uurijaid leidis siiski, et masintõlge osutub võimalikuks tehniliste ja teadustekstide puhul.

Eesmärgiks seati produtseerida inimtõlkega võrdse kvaliteediga sihtteksti.4

Masintõlke algusaegadel seisid uurijad silmitsi mitmesuguste tehniliste ja organisatoorsete

probleemidega. Teadlasrühmad töötasid omaette, suur osa uurimistööd dubleeriti. Pikka aega

takistas uurimistööd arvutite väike võimsus ja mälumaht. Paljud uurijad olid sunnitud töötama

perfokaartidest simulatsioonidel, Nõukogude Liidus kuni 1970-ndate aastateni. Masintõlkega

seotud uuringuid rahastasid põhiliselt sõjaväelised ja luurega tegelevad

valitsusorganisatsioonid. 1970-ndail aastail täheldati masintõlkes mõõnaperioodi, paljud

uurimisrühmad kuulutasid oma eesmärgid täitumatuks ning lõpetasid uurimistöö. Paremad

päevad saabusid jälle 1980-ndail aastail, kui masintõlke vastu hakkasid huvi tundma Euroopa

Liit (mille tõlkevajadus hõlmab kümneid tuhandeid lehekülgi aastas) ning mitmerahvuselised

korporatsioonid.

Sisulistest probleemidest on masintõlke algupäevadest peale kõige põletavam olnud tähendus

(ingl meaning), täpsemalt see, kuidas väljendatakse mõistet või ideed erinevates keeltes väga

erinevalt. Usuti, et sõnade mitmetähenduslikkust saab lahendada mikrosõnastikega (ingl

microglossary), kuhu on registreeritud sõna kõik võimalikud tähendused, mille hulgast peab

arvuti valima sobivaima.

Mitu aastakümmet põhinesid masintõlkesüsteemid peamiselt otsetõlkel läbi kakskeelsete

sõnaraamatute; lausete süntaktilise struktuuri analüüsiga ei tegeldud. Alates 1960-ndaist

aastaist keskenduti juba süntaksile. Hakkasid tekkima hierarhiliselt struktureeritud süsteemid,

mis püüdsid arvesse võtta tõlke kõiki aspekte. Ilmsiks tuli üha rohkem nüansse, millega peab

kvaliteetse tõlke produtseerimisel arvestama. Leiti, et tegelda tuleb niihästi sõnade

morfoloogilise kui ka semantilise struktuuriga, analüüsida prooviti nii lause pindmist kui

süvastruktuuri. Kokkuvõtlikult võib öelda, et sõnaraamatupõhine tõlge ei andnud soovitud

tulemusi ning seetõttu hüljati algne, otsest sõnasõnalisust taotlev ja ainult leksikaalset tasandit

arvesse võttev tõlkesüsteem.

4 Laiema avalikkuse suhtumist masintõlkesse 21. sajandi hakul annab kujukalt edasi üks Eesti blogija, kes nimetab niiviisi naeruväärset tõlget müügikataloogis (http://pikker9.blogspot.com/2005/01/eesti-masintlge.html, viimane külastus 26.10.2006).

6

http://pikker9.blogspot.com/2005/01/eesti-masintlge.html

Siiski jõudis arvutuslingvistika areng alles 1980-ndaiks aastaiks nii kaugele, et sai katsetada

keerulisemaid süsteeme, mis lähenesid tõlkeülesandele uuel kaudsel (ingl indirect) moel:

nimelt analüüsiti lähtekeele tekst abstraktseteks tähenduskogumiteks, hakati kasutama sõna

morfoloogilise struktuuri ning lause süntaktilise struktuuri identifitseerimise programme,

samuti prooviti semantilise analüüsiga lahendada mitmetähenduslikkuse probleeme

(homonüümide eristamine, sõnadevaheliste semantiliste suhete äratundmine). Kirjeldatud

süsteemis peavad abstraktsed tähenduskogumid olema ühetähenduslikud, ainult sel juhul on

võimalik genereerida sihtkeelne tekst.

Mainitud kaudseid tõlkesüsteeme on kasutusel kaks. Esiteks loodeti, et abstraktse

tähenduskogumi võib kujundada konkreetsest keelest sõltumatuks interlinguaks ehk

vahekeeleks, mis on vahe-etapp enne mis tahes loomulikku keelde tõlkimist. Niisiis sisaldaks

tõlkimisprotsess sel juhul kaks etappi: lähtekeelest interlinguasse ning interlinguast

sihtkeelde. Paljud uurijad lootsid, et interlingua loomine ning täiustamine aitab lahendada ka

infootsingu (ingl information retrieval) probleeme: nimelt prooviti luua arvutisüsteemi, mis

võimaldaks leida andmebaasist vajalikud dokumendid. Loodeti, et uurimistöö viib

universaalselt rakendatava infokeele (ingl information language) väljatöötamiseni.

Teine ja levinum kaudne tõlkesüsteem teisendab tõlgitava teksti kõigepealt sihtkeele

ekvivalentseks esituseks (ingl equivalent representation). Sel juhul on automaattõlkel kolm

etappi: sisendteksti (ingl input text) analüüs ning abstaktse tähenduskogumi moodustamine;

selle teisendamine abstraktseks sihtkeele esituseks ja väljundi ehk sihtkeelse teksti

genereerimine.

Kõiki kirjeldatud põhimõtteid kasutati tõlkesüsteemide arendamiseks kuni 1980-ndate aastate

lõpuni, ning tõele au andes põhinevad samal ideel ka praegu kasutusel olevad

automaattõlkeprogrammid, nt Systran, Logos ja Fujitsu Atlas

(http://www.foreignword.com/Technology/art/Hutchins/hutchins99.htm, viimane külastus

26.10.2006).

Siiski väidab Kaalep, et praegu kasutatavad tõlkeprogrammid on pigem tehnoloogide hiilgava

töö tulemus, mis ei põhine kõikehõlmaval tõlketeoreetilisel alusel

(http://www.eki.ee/keeletehnoloogia/tutvustus/am.html, viimane külastus 12.10.2006). Paljud

uurijad on tänapäeval seisukohal, et masintõlge ei saa kunagi asendada inimtööd, sest ei ole

võimeline arvestama teksti kultuurilist ja entsüklopeedilist dimensiooni (Austermühl 2001).

7



Kaalep väidab sedagi, et keeletehnoloogia (ingl language engineering) ei ole midagi muud

kui tarkvaratehnika (ingl software engineering) erijuht

(http://www.eki.ee/keeletehnoloogia/tutvustus/am.html, viimane külastus 12.10.2006). Arvuti

abil saab aga toota toortõlke, mille saab inimtoimetamise abiga kohendada kvaliteetseks, eriti

mis kui tegemist on mitmes keeles tehnilise dokumentatsiooniga (Hutchins 2000).

Masintõlke võimalusi uurides ning tõlkeprotsessi formaliseerides selgus, kui palju eri

tasandeid tuleb tõlkel arvesse võtta, alates morfoloogilisest ning lõpetades pragmaatilisega.

Just tõlkeprotsessi keerukuse demonstreerimisega panustasid masintõlkimisele keskendunud

uurijad tõlketeooriasse.

Mõeldes uuesti joonisel 1 esitatule (vt lk 4), selgub, et täielikult mehhaniseeritud tõlge, mis

möödunud sajandi keskpaiga uurijatele tundus reaalselt saavutatav, on siiski puhas utoopia.

Sissejuhatuses viidati, et tehniliste tekstide puhul on samuti puhas inimtõlge oma aja ära

elanud. Järelikult tuleb uurida, millised on võimalused tõlkeabiprogrammide kasutamiseks.

8


2. Tõlkeabiprogramm: kui palju arvuti saab inimest tõlkimisel aidata?

Tõlkeabiprogramm (ingl Computer Assisted Translation Tool, CAT Tool) on

keeletehnoloogiline ressurss, mis lihtsustab tõlkija tööd. Tõlkemälupõhine

tõlkeabiprogramm hõlbustab tõlkimist sel viisil, et pakub võrdluseks ja kasutuseks eelnevalt

tõlgitud teksti ja termineid.

Tõlketeksti põhiline funktsioon on anda edasi tehnilist ja kultuurilist informatsiooni

(Austermühl 2001). Nagu eelmises peatükis selgus, ei suuda masintõlge seda ülesannet täita

ning seetõttu peab tõlke tegema inimene. Tõlkeabiprogrammide kasutamine ei tee halvast

tõlkijast head tõlkijat ega kehvast tõlkest kvaliteetset tõlget, seda põhusel, et

tõlkeabiprogrammiga tõlkides teeb kõik tööprotsessi seisukohalt olulised otsused inimene,

mitte arvuti. Siiski võime öelda, et programmi kasutamine muudab tõlkija tööd lihtsamaks.

Kuidas?

Suureks eeliseks tõlkeabiprogrammi kasutamisel on see, et tõlkemälu salvestab kogu teksti,

mis on lähtekeelest sihtkeelde tõlgitud. Programmi abil tõlkides säilitatakse tõlgitud tekst

segmendi (ingl. segment) kaupa andmebaasis, mida nimetatakse tõlkemäluks (ingl

Translation Memory, TM)5. Segment on tavaliselt lause, kuid vahel moodustab segmendi ka

üksik väljend või lausa sõna (nt tabelikanded, mitmesugused nimekirjad ja loendid). Suurem

osa professionaalsetelt tõlkijatelt ja tõlkebüroodelt tellitavatest tõlgetest on tehnilised: paljud

ettevõtted toodavad tehnilist dokumentatsiooni, milles muudetakse ainult teatud osi (näiteks

tööriistade või seadmete manuaalides). Kui edaspidi programmiga tõlkides leidub mõnes

tekstis segment, mis on sama või sarnane, kuvab programm varasema tõlke ekraanile ning

tõlkijal on võimalus seda tervenisti või osaliselt kasutada. Nii on tõlkeabiprogrammi

kasutades võimalik suhteliselt vähese vaevaga taaskasutada juba tõlgitud teksti ning ühtlasi

säilitada tekstide stiililine ühtsus.

Teine oluline aspekst on tõlgete terminoloogiline ühtsus. Tehnilise teksti tõlkija peab end

hoidma kursis pidevate ja kiirete muutustega infotehnoloogias, tööstuses, majanduses,

meditsiinis, biotehnoloogias jm. On selge, et tõlkija ei saa olla asjatundja kõigil aladel ega

suuda olla kursis iga muudatuse ega uue terminiga. See eeldaks, et ta töötab sel alal iga päev.

Kuidas tulla toime keerulise teksti mõistmise ja teise keelde ümberpanekuga. Üks lahendus on

5 Austermühl (2001:134) väidab, et see on põhiline, mis eristab masintõlkeprogramme tõlkeabiprogrammidest; viimastes nimelt säilitatakse teksti tervenisti, mitte segmendikaupa.

9

kasutada laialdasi referentsmaterjale, entsüklopeedilisi allikaid jm. Mõne uurija arvates

moodustab õigete terminite otsimine kuni 75% tõlkija ajast (Arntz ja Picht 1989, viidatud via

Austermühl 2001).

Seetõttu on tõlkijal eriti oluline talletada kogu informatsioon ning kõik terminid, mis

erinevais töödes ette tulevad: see aitab vältida töö dubleerimist tulevikus. Hea võimaluse

terminisalvestuseks pakuvad tõlkemälupõhised tõlkeabiprogrammid, mis talletavad kogu

tõlgitud teksti ning pakuvad võimalust terminihalduseks (ingl terminology management):

tõlkemälust on võimalik otsida, kas tekstis ette tulevaid termineid või väljendeid on juba

varem tõlgitud. Samuti saab koostada terminisõnastikke, et neid tõlkimise ajal

terminituvastuseks kasutada: on olemas programme (nt TRADOS MultiTerm, Transit

WebTerm), mis leiavad tekstist terminisõnastikus leiduvad sõnad ning kuvavad need.

Kolmandaks teab iga tõlkija, et kvaliteetse tulemuse saamiseks peab tõlke üle lugema

vähemalt üks kõrvalseisev inimene, st tõlge tuleb toimetada või vähemalt korrigeerida,

kontrollida tõlke vastavust algtekstile või vähemalt kontrollida selle keelelist õigsust ja

arusaadavust.6 Toimetaja või korrektor saab edukalt töötada tekstiga, mis on tõlgitud

tõlkeabiprogrammis. Ühest küljest näeb ta siis korraga nii lähte- kui sihtteksti, mis on

paigutatud märgendite vahele, teisest küljest saab tõlkija pärast salvestada (tõlkemälu

kontekstis puhastada, vt peatükk 3) toimetatud / korrigeeritud teksti tõlkemällu. Tulevikus

sama või sarnast segmenti tõlkides kajastuvad selles juba keeletoimetaja parandused. Seega

paraneb ka tulevase tõlketeksti kvaliteet.

Niisiis on mitu aspekti, kuidas tõlkeabiprogrammi kasutades kergendada ning kiirendada

tõlkija tööd ning parandada tõlke kvaliteeti. Võttes kokku ülalpool toodu, saab järeldada, et

tõlkeprogrammi kasutamisel on “käsitsi” tõlkimisega võrreldes kolm olulist eelist.

• Esiteks valmivad korduvad või sarnased tõlked kiiremini.

• Teiseks kindlustab tõlkemälu ja terminituvastus tõlgete terminoloogilise ühtsuse.

• Kolmandaks salvestub tõlkemälus ka toimetaja / korrektori tehtu, seega paraneb tõlke

kvaliteet (st vastavus originaalile ning arusaadavus).

6 Korrektuuri ja / või toimetamise olulisusust tõlkeprotsessis kirjeldab nt Eesti Tõlkebüroode Liidu kvaliteedistandard: http://etbl.ee/?PathID=11, viimane külastus 03.11.2006. Samas leiab huviline ka korrektuuri ja toimetamise definitsiooni: http://etbl.ee/?PathID=10, viimane külastus 03. 11. 2006

10

http://etbl.ee/?PathID=10

http://etbl.ee/?PathID=11

Põhiline tööriist tõlkeabiprogrammiga töötamisel on seega tõlkemälu. Mälu moodustamiseks

originaal- ehk lähtetekst ning tõlge ehk sihttekst paralleelistatakse ehk joondatakse (ingl

aligning). Joondamisel leitakse igale lähtekeele segmendile vastava sihtkeele segment, st

lause tõlgitakse.7 Seega tekib kakskeelne paralleeltekst, mis on lausekaupa segmenteeritud

ning märgistatud.

Eelnevast lähtudes võib öelda, et tõlkemälu saab sisuliselt käsitleda keelekorpusena (ingl

corpus). Kui proovida tõlkemälu defineerida korpusena, leiame, et see on kirjalikke tekste

sisaldav tekstoteek, tõlkekorpus, mis sisaldab paralleelselt tekste kahes keeles. Tõlkemälu

saab käsitleda paralleelkorpusena, mis sisaldab kahes keeles sarnaseid tekste. Ta on

sünkrooniline korpus, sest sisaldab kaasaegseid tekste ning üldjuhul ei süüvi keele ajalukku.

Tõlkemälu on avatud korpus, kuhu lisatakse üldjuhul terveid tekste (mitte nende osi). Selline

korpus ei saa kunagi valmis, st sinna on alati midagi lisada. Piirid seab ette ainult arvuti

tehniline võimsus.

Kuidas kujuneb selline tõlkekorpus, millised on teksti valikukriteeriumid ning võimalikud

allikad? Nagu öeldud, kuuluvad tõlkemällu tõlkeabiprogrammiga tõlgitud tekstid, kuid sinna

saab lisaks joondada iga teksti, mida tõlkija vajalikuks peab. Samuti on olemas

tõlkeabiprogramme, mis võimaldavad ühe tõlkemäluga töötada mitmel tõlgil korraga (nt

TRADOS TeamWorks, kus mälu on kättesaadav online); nii lisandub tõlkekorpusesse korraga

kõigi inimeste töö, kes töötavad ühe suure projektiga. Lisaks on tõlkemällu võimalik

importida muudest tekstimäludest pärinevaid segmente. See tähendab, et tõlkemälu võib

moodustada mitme saja tuhande sõnega korpuse vastavalt tõlkija vajadustele ning töö

spetsiifikale. Nii saab tõlkija kasutada oma korpust sama või sarnase teksti otsimiseks,

terminituvastuseks jm. Eri tõlkijate korpus võib osaliselt kattuda. Iga tõlkija saab otsustada,

milline on õige keelekasutus; see tähendab, et välistatud ei ole tõlke- vm keelevead.

Tõlkemälus moodustuv tekstikorpus on ka segmentide kaupa märgendatud. Enamikus

tõlkemäludes leidub info, kes on otsitava lause / sõne / termini mällu lisanud. Samuti on

võimalik lisada metainformatsiooni, st andmeid teksti päritolu kohta.8 Siiski pole kirjeldatud

märgistus piisav: puudub teave peatükkide ja lõikude kohta. Tõlkemälust moodustuv korpus

ei ole märgendatud morfoloogiliselt ega semantiliselt.

7 Muidugi on võimalik joondada ka juba tõlgitud tekst; lähemalt kirjeldatakse tõlkeabiprogrammi praktilist kasutamist peatükis 3.8 Enamasti on teksti päritolu kohta käiv info kodeeritud, st igale tekstile antakse number, mis on registreeritud eraldi kataloogis.

11

Seega võib öelda, et tõlkemälu kui keelekorpus ei sobi uurimistööks; selleks on korpus liiga

väike ning puudulikult märgendatud. See ei sobi ka keeleõppeks, sest välistatud ei ole tõlkija

hooletusest või teadmatusest tingitud tõlke-, termini-, keele- või lihtsalt trükivead. Tõlkemälu

kui keelekorpus sobib eelkõige eeskujuks tõlkimisel, selleks et garanteerida tekstide

terminoloogiline ning stiililine ühtsus ning vältida juba tehtud töö dubleerimist. Niisiis on

tõlkemälu väga kitsa praktilise väljundiga tõlkekorpus.

Eespool on käsitletud tõlkeabiprogrammiga töötamise eeliseid ning osutatud, kuidas

tõlkemälu kui keelekorpus kergendab tõlkija tööd. Peatüki lõpetuseks kirjeldatakse viit

tõlkemälupõhist tõlkeabiprogrammi, mida kasutavad Eesti tõlkijad.9 Iga programmi

iseloomustatakse lühidalt ning püütakse seletada, miks eelistavad tõlkijad just seda tarkvara.

TRADOS (www.trados.com, viimane külastus 04.11.2006) on väga levinud ja sisuliselt

tööstusharu standardiks muutunud tarkvara, mis on mõeldud tõlkimiseks peamiselt Windowsi

keskkonnas. Vabakutselistele tõlkijatele mõeldud TRADOS Freelance litsents maksab ca 900

eurot. Eestis kasutavad TRADOSt näiteks Õigustõlkekeskus ja Eesti Pank. Lähemalt vt

peatükk 3.

Wordfast (www.wordfast.net, viimane külastus 04.11.2006) sisaldab tõlkefunktsiooni,

terminituvastust, kvaliteedikontrolli, võimalust otsida segmente ning termineid paljudest

tõlkemäludest ja muudest failidest. Tõlkekeskkonnaks on Windows, kuhu installitakse

Wordfasti tööriistariba ja menüü. Programm võimaldab tõlkida Wordi, Exceli ja Powerpointi

faile. Lisaks on olemas vabavarana pakutav vahendikomplekt PlusTools, mis muuhulgas

sisaldab võimalust luua tõlkemälu vanadest tõlgetest ja originaalidest (vrd Tradow WinAlign).

Wordfasti abil tõlgitud failid ühilduvad TRADOSega – sisuliselt ei ole võimalik vahet teha,

kumba tõlkeabiprogrammi on kasutatud. Mälusid saab TRADOSega vahetada erilise

ekspordivormingu (TMX) kaudu. Paljud vabakutselised tõlkijad eelistavad Wordfasti

TRADOSele, sest viimane on mitu korda kallim. Wordfasti litsents maksab ca 200 eurot.

Transit (www.star-solutions.net, viimane külastus 04.11.2006) on abiks, kui on vaja tõlkida

dokumente, veebilehti või lokaliseerida tarkvara. Transiti eeliseks on seik, et sellega saab

töötada väga erinevates keskkondades, mh kujundusprogrammides (AutoCAD, FrameMaker,

InDesign, PageMaker, QuarkXPress). Paketti kuulub veel tõlkemälu Transit XV ning

9 Nimekiri põhineb autori kogemustel Luisa tõlkebüroo projektijuhina alates aastast 2004.12

http://www.star-solutions.net/

http://www.wordfast.net/

http://www.trados.com/

terminihaldusvahendid WebTerm ning TermStar XV, millega saab Internetis pidada kõigile

asjaosalistele kättesaadavat terminibaasi. Transit on eriti mugav vabakutselisele tõlkijale, kes

oma projekte ise juhib, sest paketti kuulub ka projektihaldustarkvara, millega saab määrata

töö mahtu, valmistada failid ette tõlkimiseks ning arvutada tõlke hinna. Transiti täislitsents

maksab ca 700 eurot.

Deja Vu (http://www.atril.com, viimane külastus 04.11.2006) tõlkemälupõhisel DVX-l on

neli versiooni: Editor10, Standard, Professional ja Workgroup. Deja Vuga saab töötada

Windowsi keskkonnas, samuti on võimalik tõlkida Adobe’is, C/C++-is, Javas,

QuarkXPressis. Deja Vu pakub võimalust masintõlkeks juba tõlgitud tekstide baasil,

kombineerides juba tõlgitud segmente vajalikul moel. Tootja väidab, et piisava tõlkemälu

ning terminibaasi olemasolul on tulemused väga head ning tekst vajab ainult vähest

inimtoimetamist. Programm koostab automaatselt nimekirja kõigist ühe projekti raames

kasutatud terminitest, sortides need esinemissageduse järgi. Nimekirju salvestades saab lihtsa

vaevaga luua kakskeelseid sõnastikke. Korraga saab tõlkida mitut faili. Deja Vu

standardlitsents maksab ligi 500 eurot, Workgroup-versioon, mida saab kasutada terve

tõlkijate meeskond, maksab üle 1000 euro.

Omega T (http://www.omegat.org/omegat/omegat_en/omegat.html, viimane külastus

04.11.2006) on üks tõlkemälupõhistest programmidest, mis töötab Java baasil, seega saab

seda kasutada peale Windowsi ka Macintoshi ning Linuxi keskkonnas. Muuhulgas pakub

Omega T seega huvi tõlkidele, kes töötavad OpenOffice’iga; see annab võimaluse tõlkida

Wordi, Exceli ning Powerpointi faile ka neil, kes Microsofti tooteid ei kasuta. Samuti saab

tõlkida HTML-faile. Ainuke nõue on, et arvutis töötaks Java rakendus Java Runtime

Envirnoment. Hea uudis tõlkijatele on see, et programm on kõigile kasutajatele tasuta. Kõigist

vabavarana levitatavatest tõlkeabiprogrammidest on Omega T kahtlemata kõige levinum, sest

programmi loojad-arendajad ning kasutajad peavad tihedat sidet ning tagasiside on kiire ja

tõhus. Omegal puuduvad küll paljud lisamugavused, mida pakuvad nt TRADOS ja Deja Vu,

kuid seda on väga lihtne alla laadida ning kasutada.

10 Esimese neist saab alla laadida tasuta, kuid Editori võimalused on väga piiratud, puudub eeltõlkimise ning joondamise võimalus. Tasuta demo ehk testversiooni saab alla laadida ka enamiku teiste tõlkeabiprogrammide katsetamiseks.

13

http://www.omegat.org/omegat/omegat_en/omegat.html

http://www.atril.com/

Kõik viis eelpool kirjeldatud tõlkeabiprogrammi on Eestis kättesaadavad ning kasutatavad.

Siiski on see ainult murdosa pakutavast. Kuigi programmid on põhimõtteliselt sarnased,

salvestades tõlgitavat teksti segmendikaupa ning pakkudes terminihaldusvahendit, on igaühel

neist oma erijooned ning kasutajamugavust lisavad osised. Mõned abiprogrammid on jaosvara

või vabavara, osa tootjaist soovib saada programmi kasutamise eest tasu. Iga tõlkija saab

Interneti vahendusel kõigi programmidega tutvuda ning valida oma võimalustele ja

vajadustele kõige paremini vastav tarkvara. Ülevaade enamlevinud programmidest on olemas

näiteks Wikipedias (http://en.wikipedia.org/wiki/CAT_tool, viimane külastus 04.11.2006).

Nagu rõhutatud, on programme palju. Enamik neist on siiski nišitooted, millel ei ole kuigi

palju kasutajaid. Väga paljud Eesti tõlkijad kasutavad TRADOSt. Järgmises peatükis

vaadeldakse, milliseid võimalusi pakub TRADOS WorkBench ning kuidas näeb praktikas

välja tõlkeabiprogrammiga töötamine.

14

http://en.wikipedia.org/wiki/CAT_tool

3. TRADOS: kuidas arvuti tõlkijat aitab?

Eelmises peatükis tõdeti, et tõlkemälupõhine tõlkeabiprogramm on tõlkijale mitmel moel

kasulik. Selles peatükis uuritakse lähemalt üht enimlevinud tõlkeabiprogrammi, nimelt

TRADOSt. Esmalt nimetatakse programmiosised ning nende funktsioonid. Seejärel

seletatakse praktiliste näidete varal, kuidas on TRADOSe kasutamine tõlkijale tulus.

Vabakutselistele tõlkijatele on mõeldud tarkvarakomplekt TRADOS Freelance, mis 2006.

aasta oktoobiks on jõudnud versioonini 7.5. TRADOS Freelance osised on järgmised:

• Translator’s Workbench, millega tekitatakse ning hallatakse tõlkemälu ning

tõlgitakse .doc-formaadis faile;

• TagEditor, mida kasutatakse XML- ning HTML-faile;

• WinAlign, mille abil luuakse tõlkemälusid juba tõlgitud tekstidest;

• Multiterm, terminihaldustarkvara.

Siinkohal vaadeldakse, kuidas kasutada TRADOSt Wordi dokumenti tõlkides, jättes täpsemalt

kirjeldamata lisavõimalused, mida programm pakub TagEditori ning Multitermi näol.

TRADOS Workbenchi abil käib tõlkimine Microsoft Wordis, mis on teatavasti kõige enam

levinud tekstitöötlusprogramm Eestis. Wordi installitakse täiendav tööriistariba ja menüü ning

samal ajal on avatud ning ekraanil näha Translator’s Workbench, mille abil otsitakse

tõlkemälust vasteid.

Niisiis tuleb alustada tööd Translator’s Workbenchi ning Wordi avamisest. Kui arvutisse on

installitud TRADOS, saab selle sisse lülitada menüüvalikust tööriistad (ingl Tools) → mallid

ja lisandmoodulid (ingl Templates and Add-ins). Siis kuvab Word tööriistaribale nupud,

millega saame alustada TRADOSe kasutamist (joonis 2).

Järgmisena tuleb avada tõlkemälu (joonis 3). On iga tõlkija otsustada, kas ta peab ühte suurt

tõlkemälu või proovib tõlgitavaid tekste teema ja kasutatava terminoloogia järgi liigitada ning

koostada igale teemale (nt tehnika, juriidika, pangandus-majandus, meditsiin) eraldi mälu.

Ühe suure mälu kasuks räägib tõik, et teemad võivad kattuda (nt kui leping, selgelt juriidiline

tekst, puudutab masinate kasutust või käsitlust, selgelt tehniline teema). Teisest küljest võivad

15

väga suure, mitmesaja tuhande segmendiga mälu kasutamist hakata segama tehnilised

probleemid: WorkBench võib joosta kinni, import-eksport võivad võtta aega tunde.

Joonis 2 TRADOSe tööriistariba Microsoft Wordis

Tõlkija peab pidevalt jälgima, et mälu oleks ajakohastatud. Kõik tõlgitud ja toimetatud tekstid

puhastatakse mällu (ingl clean up). Selleks tuleb Workbenchi menüüst valida funktsioon

Tools → Clean up ning otsida vastav fail. Peab jälgima, et oleks märgistatud valik Update

TM. Sel juhul ajakohastatakse mälus juba sisalduvad segmendid ning lisatakse uued, mida

veel talletatud ei olnud.

16

Teine võimalus mälu täiendamiseks on mäluimport (ingl import). See tähendab, et mõne

teise tõlkemälu omanik on eksportinud (ingl export) seal sisalduvad segmendid erilisse

failivormingusse (teise TRADOSe mällu importides txt-formaat, muusse tõlkeabiprogrammi,

nt Wordfasti importimiseks on mõeldud tmx-formaat). Selleks, et teise mälu sisu nüüd enda

mälusse asetada, valitagu Workbenchi menüüst File → Import. Nüüd salvestab tõlkemälu

importfailis sisalduvad segmendid ning mälu on jälle suurem.

Joonis 3. Translator’s Workbenchi ehk tõlkemälu avamine

17

Kolmas võimalus mälu täiendamiseks on joondamine (ingl WinAligning, vt joonis 4). See

tähendab, et mälusse lisatakse segmendikaupa eelnevalt tõlgitud tekst. Joondamise eelduseks

on seega, et on olemas alg- ja sihttekst, mis lause-lauselt kattuvad. Et joondada tuleb

lausekaupa, on see aeganõudev töö. Kui tegemist on alustekstiga, mis sisaldab palju vajalikke

termineid ning mille on sihtkeelde seadnud usaldusväärne tõlkija, siis tasub vaev ennast ära.

Enne tõlkima asumist saame töödokumenti mäluga analüüsida (ingl analyse, vt joonis 5).

Selleks kasutame Workbentchi funktsiooni Tools → Analyse. TRADOS kõrvutab tõlgitava

teksti segmendikaupa tõlkemälus leiduvaga ning loob erilise log-faili (ingl log file). Log-

failist saab ammutada teavet selle kohta, kui palju tõlkemälu konkreetse dokumendi tõlkimisel

aidata saab, st palju on korduvaid ning kui palju mälus leiduvaid sarnaseid segmente.

Kui tõlgitavas failis leidub ühesuguseid segmente, mida mälus veel ei ole, nimetatakse neid

kordusteks (ingl repetitions). Kui tõlgitavas failis on segmente, mis on juba mälus olemas,

nimetatakse neid täisühilduvusteks (ingl full matches). Segmendid võivad olla tõlkemälule

18

Joonis 4. Joondamine

Joonis 5. Faili(de) analüüsimine

osaliselt tuttavad, st osa segmendist kattub mälus olevaga, osa mitte. Sellist segmenti

nimetatakse hägusteks ühilduvuseks (ingl fuzzy matches). Tõlkemälu jaotab hägused

ühilduvused rühmadesse vastavalt sellele, kui palju on seal tuttavat materjali (vt joonis 5).

Tõlkijale pakub üldjuhul huvi 95-99% ning 85-94% ühilduvustest. Väiksemad ühilduvused ei

anna üldiselt tõlkimisel praktilist abi.

Kui analüüsida dokumenti, mis on juba TRADOSes tõlgitud või sinna joondatud ning

sisaldub seega tõlkemälus, saame tulemuseks ainult täisühilduvustest koosneva teksti.

19

Joonis 6. TRADOSega tõlkimine

Täisühilduvuste puhul tuleb tähele panna, et enamasti on tarvis kõik tõlkemälu pakutavad

vasted siiski üle vaadata. Tõlked võivad olla erineva kliendi tellitud, erineva kontekstiga jm,

niisiis ei pruugi eelmisel korral sobinud ning tõlkemällu puhastatud vaste iga kord sobida.

Juhul kui sama segmenti on tõlgitud mitut moodi, jätab tõlkemälu meelde kõik variandid ning

tõlkija saab nende vahel valida.

20

Pärast kirjeldatud ettevalmistusi on tõlkija valmis asuma TRADOSes tõlkima. Selleks

avatakse vajaliku dokumendi MS Wordis ning valitakse TRADOSe tööriistaribalt käsk Open.

Nüüd avaneb lähtekeelne segment sinises lahtris ning tõlkida saab kollases (või rohelises)

lahtris. Käsuga Get translation kuvatakse ekraanile ühilduvused tõlkemälust. Tõlkija saab

valida, kas eelistada olemasolevat versiooni või on antud juhul parem kasutada teist sõnastust.

Kui segment tõlgitud, kasutatakse käsku Close. Tõlgitud laused ilmuvad nüüd ekraanile nii

lähte- kui sihtkeelsena spetsiaalse märgistuse (ingl tagging) vahel.11 Samal viisil jätkatakse,

avades eraldi iga segmendi, sobitades sinna tõlke (kasutades mälust tulevaid variante ning

lisades vajaduse korral uusi) ning sulgedes selle taas.

Olgu veel märgitud, et teksti analüüsimiseks ning tõlkimiseks peab olema arvutisse installitud

TRADOS; kord juba tõlgitud tekstis on alg- ja sihttekst märgendite vahel näha ka siis, kui

arvutis TRADOSt ei ole. Selleks, et tekst puhastada ning tõlkemälu täiendada, läheb jällegi

tarvis arvutit, kus programm olemas.

Eelnevast kirjeldusest võib järeldada, et tõlkeabiprogrammiga töötamine pole kuigi

komplitseeritud. See vastab tõele: referaadi autor suutis TRADOSega tõlkida erikoolituseta.

Nagu teistegi programmide puhul, läheb koolitust tarvis keerulisemate funktsioonide

kasutamiseks ning programmi kõigi võimaluste tundmiseks. Põhivõtted on sellest hoolimata

erakordselt lihtsad. Niisiis soovitab autor tõlkeabiprogrammide kasutamist proovida igal

noorel tõlkijal. Piisava tõlkemälu ning vilumuse korral kergendab see oluliselt tõlkimist,

kindlustades sihtkeelsete tekstide terminoloogilise ja stiililise ühtsuse ning vältides topelttööd.

11 Tõlkija (ning hiljem toimetaja) peavad jälgima, et Wordil oleks sisse lülitatud Hidden Texti funktsioon, vastasel juhul ei ole ekraanil näha lähteteksti ega märgendeid, vais ainult sihttekst. Kui märgendeid vigastada, ei oska TRADOS neid lauseid enam segmentidena näha, need jäävad puhastamata, ei salvestu tõlkemälus ning rikuvad sihtteksti väljanägemist.

21

4. Kokkuvõte

Referaadis olid vaatluse all tõlkeabiprogrammid, nende tekkimine ning kasutusvõimalused.

Esimeses peatükis kirjeldati masintõlkeprogrammide loomise tagamaid ja eesmärke. Selgus,

et tänapäeva uurijad arvavad, et masintõlge ei saa kunagi asendada inimese tööd, sest tõlke

põhiline eesmärk on anda edasi pragmaatilist ning kultuurilist informatsiooni, lokaliseerida

informatsioon ühest keskkonnast teise. Selleks ei ole masin võimeline.

Teises peatükis vaadeldi tõlkemälupõhiseid tõlkeabiprogramme. Nende erinevus võrreldes

masintõlkega on see, et tööprotsessi puudutavad põhilised otsused teeb inimene, mitte masin.

Arvuti ülesanne on talletada ning vajalikul hetkel kuvada juba tõlgitud tekst ning terminid.

Neid säilitatakse tõlkemälus, mida võib käsitleda teatud laadi tõlkekorpusena.

Tõlkeabiprogrammiga töötades saab lihtsa vaevaga säilitada teksti terminoloogilise ja stiililise

ühtsuse ning parandada tõlke kvaliteeti.

Kolmandas peatükis kirjeldatakse üksikasjalikult, kuidas kasutada tõlkeabiprogrammi

TRADOS Windows Wordis tõlkides. Selgitati, kuidas lülitada sisse TRADOSe funktsioonid,

kuidas luua, avada ning täiendada tõlkemälu ning kuidas segmenthaaval teksti tõlkida.

Referaadi autor usub, et nii masintõlkel kui tõlkemälupõhistel tõlkeabiprogrammidel on tähtis

roll nii tõlketeoorias kui –praktika arengus. Kuigi ideaalse masintõlkeprogrammi loomine oli

määratud läbikukkumisele, andis see aimu, kui keeruline on tõlkeprotsess.

Tõlkeabiprogrammid ei tee kehvast tõlkijast head, kuid aitab vilunud tegijal tõlkeid

valmistada kiiremini ning kvaliteetsemalt.

22

Kasutatud kirjandus

1. Austermühl, Frank. Electronic Tools for Translators. St Jerome Publishing 2001.

2. Hutchins, John (editor). Early Years in Machine Translation. John Benjamins Publishing Company 2000.

3. Muischnek, Kadri, Orav, Heili, Kaalep, Heiki-Jaan, Õim, Haldur. Eesti keele tehnoloogilised ressursid ja vahendid. Eesti Keele Sihtasutus, Tallinn 2003.

4. Young, Steve, Bloothooft, Gerrit (editors). Corpus-Based Methods in Language and Speech Processing. Kluwer Academic Publishers 1997.

Kasutatud Internetimaterjalid

http://en.wikipedia.org/wiki/Translation_memory (viimane külastus 04.10.2006)

http://en.wikipedia.org/wiki/CAT_tool (viimane külastus 04.11.2006)

http://et.wiktionary.org/wiki/Masint%C3%B5lge (viimane külastus 26.10.2006

http://www.eki.ee/keeletehnoloogia/tutvustus/am.html (viimane külastus 12.10.2006)

http://www.foreignword.com/Technology/art/Hutchinss/Hutchins99.htm (viimane külastus 26.10.2006)

www.wordfast.net (viimane külastus 04.11.2006)

http://www.omegat.org/omegat/omegat_en/omegat.html, (viimane külastus 04.11.2006)

http://www.atril.com, (viimane külastus 04.11.2006)

www.star-solutions.net, (viimane külastus 04.11.2006)

www.trados.com (viimane külastus 04.11.2006)

http://etbl.ee (viimane külastus 03. 11. 2006)

http://pikker9.blogspot.com/2005/01/eesti-masintlge.html (viimane külastus 26.10.2006)

23

http://pikker9.blogspot.com/2005/01/eesti-masintlge.html

http://etbl.ee/

http://www.trados.com/

http://www.star-solutions.net/

http://www.atril.com/

http://www.omegat.org/omegat/omegat_en/omegat.html

http://www.wordfast.net/



http://et.wiktionary.org/wiki/Masint?lge

http://en.wikipedia.org/wiki/CAT_tool

http://en.wikipedia.org/wiki/Translation_memory

Download - MASINTÕLKEST JA TÕLKEABIPROGRAMMIDESTevkk.tlu.ee/pdfs/marja_vaba.pdf · üha paremini ja oskavad neid rakendada oma töö kergendamisel. Teises ja kolmandas peatükis vaadeldakse,

Top Related