TALLINNA PEDAGOOGIKAÜLIKOOL
FILOLOOGIATEADUSKOND
ÜLD- JA RAKENDUSLINGVISTIKA ÕPPETOOL
Marja Vaba
MASINTÕLKEST JA TÕLKEABIPROGRAMMIDEST
Referaat
Juhendaja Pille Eslon
TALLINN 2006
Sisukord
0. Sissejuhatus.....................................................................................................................3
1. Masintõlge: kas arvuti saab inimese eest tõlkida?.......................................................... 5
2. Tõlkeabiprogramm: kui palju arvuti saab inimest tõlkimisel aidata?.............................9
3. TRADOS: kuidas arvuti tõlkijat aitab?.........................................................................15
4. Kokkuvõte.....................................................................................................................22
Kasutatud kirjandus.......................................................................................................... 23
2
0. Sissejuhatus
Referaadi eesmärk on kirjeldada kahte omavahel seotud keeletehnoloogilist vahendit,
masintõlget ning tõlkeabiprogramme. Esimeses peatükis antakse ülevaate masintõlke tekkest
ning teoreetilistest lähtekohtadest. Teises peatükis kirjeldatakse tõlkeabiprogrammide teket ja
arengut, põhimõtteid ning kasutusvõimalusi ning loetletakse Eestis enimlevinud
tõlkeabiprogramme, samuti selgitatakse, miks võib tõlkemälu pidada tekstikorpuseks.
Kolmandas peatükis selgitatakse tõlkemälupõhise tõlkeabirakenduse toimimist programmi
TRADOS näitel.
Arvutite ning info- ja kommunikatsioonitehnoloogia lai levik on viimaste aastakümnete
jooksul muutnud tõlkijate tööd tundmatuseni. Tõlkijalt ei oodata mitte ainult
tekstitöötlusprogrammi kasutamist tõlkimisel ega sihtteksti elektroonilisel kujul saatmist
kliendile arvutiposti kaudu, vaid eeldatakse, et ta oskab kasutada laialdasi teadmusbaase (ingl
knowledge base). Tõlkijale on tänapäeval abiks ka mitmesugused keeletehnoloogilised
ressursid, muuhulgas tõlkeabiprogrammid.
Joonisel 1 on näha, millisel määral saab arvuti osaleda tõlkeprotsessis. Näeme kontiinumi,
mille vasak pool kirjeldab täielikult mehhaniseeritud tõlget (kus inimene ei mängi sihtteksti
valmimisel mingit rolli, st masintõlget) ja parem inimese valmistatud tõlget (kus masinaid, st
arvutit, ei ole kasutatud, vaid tõlge on tehtud n.ö käsitsi). Kaks keskmist lahtrit, inimese abiga
valminud masintõlge ja masina abiga valminud inimtõlge, valmivad tõlkeabiprogrammiga.
Tõlkeprogrammid rühmituvad üldjoontes kaheks: masintõlkeprogrammid ning sõnastiku- ja
tõlkemälupõhised programmid. Masintõlkeprogrammid tõlgivad tundmatuid lauseid
tervenisti, kuid vähemalt praegu ei saa automaatselt tõlgitud tekst konkureerida inimese
tehtud tööga, sest masin ei mõista metateksti ega suuda seda pragmaatiliselt analüüsida. Seda
probleemi ei ole praegu veel teoreetiliseltki lahendatud. Arutelu, kas masin võiks kunagi
inimese eest tõlkida, vt peatükis 1.
Jooniselt 1 nähtub, et, on olemas mitu viisi, kuidas arvuti saab inimese tööd tõlkimisel
toetada, nimelt sõnastiku- või tõlkemälupõhise tõlkeabiprogrammi näol. Sõnastikupõhiste
programmide ülesanne on pakkuda lähtetekstis leiduvale sõnele sobiv vaste sihtkeeles. 3
Tõlkemälupõhised programmid säilitavad mälus teksti originaali ja tõlke kujul. (Muischnek,
Orav, Kaalep, Õim 2003).
Inimese produtseeritud tõlge
-------------------------------------------------------------------------------------------------------------------------->
<--------------------------------------------------------------------------------------------------------------------------
Mehhaniseeritud tõlge
Automatiseeritud
kvaliteetne tõlge
Inimese abiga
valminud masintõlge
Masina abiga valminud
inimtõlge
Inimtõlge
Tõlkeabiprogrammiga valminud tõlge
Joonis 1. Mehhaniseeritud ja inimtõlge (Hutchins ja Somers 1992, Austermühl 2001:10)
Tõlkeabiprogrammide olulisust praktikas tõestavad järgmised arvud. Aastal 1993. oli
keeletehnoloogiaga seotud programmide ja teenuste käive ja nende teenuste müügist saadav
tulu ca. 71,6 miljonit dollarit, sellest umbes pool oli seotud masintõlkesüsteemidega.
Ülejäänud tooted-teenused hõlmasid andmebaase, tekstiotsingu ja –liigitamissüsteeme,
grammatika- ning stiilikorrektoreid jm. Aastal 1996 oli Euroopa ning USA turul
keeletehnoloogiaga seotud toodete ja teenuste eest saadav tulu umbes 340 miljonit dollarit
(http://www.eki.ee/keeletehnoloogia/tutvustus/am.html, viimane külastus 12.10.2006).
Niisiis on tõlkeabiprogrammid oma elujõulisust veenvalt tõestanud. Tõlkijad tunnevad neid
üha paremini ja oskavad neid rakendada oma töö kergendamisel. Teises ja kolmandas
peatükis vaadeldakse, kuidas käib töö tõlkemälupõhiste programmidega.
Alustuseks vaatleme siiski joonise vasakpoolse äärmuse ehk täielikult mehhaniseeritud tõlke
võimalikkust. Aitaks see ju kokku hoida loendamatu hulga tunde tööd ning miljardeid
dollareid.
4
1. Masintõlge: kas arvuti saab inimese eest tõlkida?
Masintõlkeks1 nimetatakse niisiis tõlkimisprotsessi, mille puhul põhitöö teeb arvuti
(http://et.wiktionary.org/wiki/Masint%C3%B5lge, viimane külastus 04.11.2006).
Alates elektronarvuti loomisest 1940-ndatel aastatel on tuntud huvi, kas oleks seda võimalik
rakendada tõlkimisel (Hutchins 1986, via
http://www.foreignword.com/Technology/art/Hutchins/hutchins99.htm, viimane külastus
26.10.2006). Katsed kasutada arvutit loomulike keelte tõlkimiseks oli ilmselt lausa esimene
üritus kasutada äsja leiutatud elektroonilisi arvutusmasinaid muuks kui arvuliste ülesannete
lahendamiseks. See pani aluse distsipliinile, mida nüüd tunneme arvutuslingvistika (ingl
computational linguistics) nime all. Masintõlkimine oli esimene pääsuke tehisintellekti (ingl
artificial intelligence, AI) katsetamisel. Algusaegade vaimustuse lainel kutsuti arvutit (mis
pidi peagi hakkama tõlkima igasuguseid tekste kõrvalise ehk inimese abita) koguni
elektrooniliseks ajuks (Hutchins 2000).
Esimesed masintõlke vastu huvi tundnud teadlased olid väga erineva taustaga. Osa neist olid
täppisteadlased, näiteks elektrotehnikainsenerid ja füüsikud, osa humanitaarse
ettevalmistusega, näiteks lingvistid, tõlkijad või filosoofid2. Nende eesmärgid olid samuti
erinevad: mõni soovis välja arendada praktilise abivahendi, et pääseda tõlkimise vaevast,
teised soovisid formaliseerida inimkõnet ja –mõtlemist. Aktiivselt tegelesid masintõlkega
küberneetikud, eriti Nõukogude Liidus. Mõne uurija eesmärk oli viia uuele tasemele
sõnaraamatute koostamine. Osa soovis uurida inimmeelt ja -mõtlemist, tegeldes filosoofiliste
probleemidega. Uudsete arvutite abil prooviti tõestada strukturaal- ja formaallingvistika teese
(ehk testida näiteks Saussure’i, Bloomfieldi, Jesperseni, mõningal määral ka Chomsky3 töödes
esitatud ideid). Need katsed ei viinud siiski kuigi kaugele (Hutchins 2000). Sellest hoolimata
oli masintõlge 1960-ndail aastail väga moes, sellest räägiti nii küberneetika- kui
lingvistikakonverentsidel.
1 Algusaastatel inglise keele kõneruumis ka mehhaaniliseks tõlkeks nimetatud (ingl mechanical translation), mujal automaattõlge (Hutchins 2000).2 Masintõlke arendaja Sydney M. Lamb on kirjutanud, kuidas teda hämmastas täppisteadusliku taustaga uurijate arvamus, et masintõlke arendamiseks polegi tarvis lingvistilist ettevalmistust: „... minu teadmised lingvistikas lubasid mul oletada, et on võimatu seletada masinale, kuidas tõlkida, kui puuduvad teadmised keele struktuurist. Pidasin seda iseenesestmõistetavaks. Ometi olin ma uurijate hulgas selle arvamusega vähemuses ...“ (Hutchins 2000:177)3 Noam Chomsky kirjutas 1969. aastal, et väljend lausete tõenäosus on täiesti mõttetu ning kasutu, ükskõik kuidas seda ka ei tõlgenda. Et Chomsky oli oma ajas väga mõjukas, jäigi mitu arvutuslingvstika võimalikku rakendust, näiteks statistiline analüüs, paariks aastakümneks soiku (Young & Bloothooft 1997).
5
Algul loodeti, et masintõlget saab kasutada millise tahes kirjaliku teksti korral (mõni uurija
rääkis ka suulisest masintõlkest), räägiti isegi ilukirjanduse automaatsest tõlkimisest. Enamik
uurijaid leidis siiski, et masintõlge osutub võimalikuks tehniliste ja teadustekstide puhul.
Eesmärgiks seati produtseerida inimtõlkega võrdse kvaliteediga sihtteksti.4
Masintõlke algusaegadel seisid uurijad silmitsi mitmesuguste tehniliste ja organisatoorsete
probleemidega. Teadlasrühmad töötasid omaette, suur osa uurimistööd dubleeriti. Pikka aega
takistas uurimistööd arvutite väike võimsus ja mälumaht. Paljud uurijad olid sunnitud töötama
perfokaartidest simulatsioonidel, Nõukogude Liidus kuni 1970-ndate aastateni. Masintõlkega
seotud uuringuid rahastasid põhiliselt sõjaväelised ja luurega tegelevad
valitsusorganisatsioonid. 1970-ndail aastail täheldati masintõlkes mõõnaperioodi, paljud
uurimisrühmad kuulutasid oma eesmärgid täitumatuks ning lõpetasid uurimistöö. Paremad
päevad saabusid jälle 1980-ndail aastail, kui masintõlke vastu hakkasid huvi tundma Euroopa
Liit (mille tõlkevajadus hõlmab kümneid tuhandeid lehekülgi aastas) ning mitmerahvuselised
korporatsioonid.
Sisulistest probleemidest on masintõlke algupäevadest peale kõige põletavam olnud tähendus
(ingl meaning), täpsemalt see, kuidas väljendatakse mõistet või ideed erinevates keeltes väga
erinevalt. Usuti, et sõnade mitmetähenduslikkust saab lahendada mikrosõnastikega (ingl
microglossary), kuhu on registreeritud sõna kõik võimalikud tähendused, mille hulgast peab
arvuti valima sobivaima.
Mitu aastakümmet põhinesid masintõlkesüsteemid peamiselt otsetõlkel läbi kakskeelsete
sõnaraamatute; lausete süntaktilise struktuuri analüüsiga ei tegeldud. Alates 1960-ndaist
aastaist keskenduti juba süntaksile. Hakkasid tekkima hierarhiliselt struktureeritud süsteemid,
mis püüdsid arvesse võtta tõlke kõiki aspekte. Ilmsiks tuli üha rohkem nüansse, millega peab
kvaliteetse tõlke produtseerimisel arvestama. Leiti, et tegelda tuleb niihästi sõnade
morfoloogilise kui ka semantilise struktuuriga, analüüsida prooviti nii lause pindmist kui
süvastruktuuri. Kokkuvõtlikult võib öelda, et sõnaraamatupõhine tõlge ei andnud soovitud
tulemusi ning seetõttu hüljati algne, otsest sõnasõnalisust taotlev ja ainult leksikaalset tasandit
arvesse võttev tõlkesüsteem.
4 Laiema avalikkuse suhtumist masintõlkesse 21. sajandi hakul annab kujukalt edasi üks Eesti blogija, kes nimetab niiviisi naeruväärset tõlget müügikataloogis (http://pikker9.blogspot.com/2005/01/eesti-masintlge.html, viimane külastus 26.10.2006).
6
Siiski jõudis arvutuslingvistika areng alles 1980-ndaiks aastaiks nii kaugele, et sai katsetada
keerulisemaid süsteeme, mis lähenesid tõlkeülesandele uuel kaudsel (ingl indirect) moel:
nimelt analüüsiti lähtekeele tekst abstraktseteks tähenduskogumiteks, hakati kasutama sõna
morfoloogilise struktuuri ning lause süntaktilise struktuuri identifitseerimise programme,
samuti prooviti semantilise analüüsiga lahendada mitmetähenduslikkuse probleeme
(homonüümide eristamine, sõnadevaheliste semantiliste suhete äratundmine). Kirjeldatud
süsteemis peavad abstraktsed tähenduskogumid olema ühetähenduslikud, ainult sel juhul on
võimalik genereerida sihtkeelne tekst.
Mainitud kaudseid tõlkesüsteeme on kasutusel kaks. Esiteks loodeti, et abstraktse
tähenduskogumi võib kujundada konkreetsest keelest sõltumatuks interlinguaks ehk
vahekeeleks, mis on vahe-etapp enne mis tahes loomulikku keelde tõlkimist. Niisiis sisaldaks
tõlkimisprotsess sel juhul kaks etappi: lähtekeelest interlinguasse ning interlinguast
sihtkeelde. Paljud uurijad lootsid, et interlingua loomine ning täiustamine aitab lahendada ka
infootsingu (ingl information retrieval) probleeme: nimelt prooviti luua arvutisüsteemi, mis
võimaldaks leida andmebaasist vajalikud dokumendid. Loodeti, et uurimistöö viib
universaalselt rakendatava infokeele (ingl information language) väljatöötamiseni.
Teine ja levinum kaudne tõlkesüsteem teisendab tõlgitava teksti kõigepealt sihtkeele
ekvivalentseks esituseks (ingl equivalent representation). Sel juhul on automaattõlkel kolm
etappi: sisendteksti (ingl input text) analüüs ning abstaktse tähenduskogumi moodustamine;
selle teisendamine abstraktseks sihtkeele esituseks ja väljundi ehk sihtkeelse teksti
genereerimine.
Kõiki kirjeldatud põhimõtteid kasutati tõlkesüsteemide arendamiseks kuni 1980-ndate aastate
lõpuni, ning tõele au andes põhinevad samal ideel ka praegu kasutusel olevad
automaattõlkeprogrammid, nt Systran, Logos ja Fujitsu Atlas
(http://www.foreignword.com/Technology/art/Hutchins/hutchins99.htm, viimane külastus
26.10.2006).
Siiski väidab Kaalep, et praegu kasutatavad tõlkeprogrammid on pigem tehnoloogide hiilgava
töö tulemus, mis ei põhine kõikehõlmaval tõlketeoreetilisel alusel
(http://www.eki.ee/keeletehnoloogia/tutvustus/am.html, viimane külastus 12.10.2006). Paljud
uurijad on tänapäeval seisukohal, et masintõlge ei saa kunagi asendada inimtööd, sest ei ole
võimeline arvestama teksti kultuurilist ja entsüklopeedilist dimensiooni (Austermühl 2001).
7
Kaalep väidab sedagi, et keeletehnoloogia (ingl language engineering) ei ole midagi muud
kui tarkvaratehnika (ingl software engineering) erijuht
(http://www.eki.ee/keeletehnoloogia/tutvustus/am.html, viimane külastus 12.10.2006). Arvuti
abil saab aga toota toortõlke, mille saab inimtoimetamise abiga kohendada kvaliteetseks, eriti
mis kui tegemist on mitmes keeles tehnilise dokumentatsiooniga (Hutchins 2000).
Masintõlke võimalusi uurides ning tõlkeprotsessi formaliseerides selgus, kui palju eri
tasandeid tuleb tõlkel arvesse võtta, alates morfoloogilisest ning lõpetades pragmaatilisega.
Just tõlkeprotsessi keerukuse demonstreerimisega panustasid masintõlkimisele keskendunud
uurijad tõlketeooriasse.
Mõeldes uuesti joonisel 1 esitatule (vt lk 4), selgub, et täielikult mehhaniseeritud tõlge, mis
möödunud sajandi keskpaiga uurijatele tundus reaalselt saavutatav, on siiski puhas utoopia.
Sissejuhatuses viidati, et tehniliste tekstide puhul on samuti puhas inimtõlge oma aja ära
elanud. Järelikult tuleb uurida, millised on võimalused tõlkeabiprogrammide kasutamiseks.
8
2. Tõlkeabiprogramm: kui palju arvuti saab inimest tõlkimisel aidata?
Tõlkeabiprogramm (ingl Computer Assisted Translation Tool, CAT Tool) on
keeletehnoloogiline ressurss, mis lihtsustab tõlkija tööd. Tõlkemälupõhine
tõlkeabiprogramm hõlbustab tõlkimist sel viisil, et pakub võrdluseks ja kasutuseks eelnevalt
tõlgitud teksti ja termineid.
Tõlketeksti põhiline funktsioon on anda edasi tehnilist ja kultuurilist informatsiooni
(Austermühl 2001). Nagu eelmises peatükis selgus, ei suuda masintõlge seda ülesannet täita
ning seetõttu peab tõlke tegema inimene. Tõlkeabiprogrammide kasutamine ei tee halvast
tõlkijast head tõlkijat ega kehvast tõlkest kvaliteetset tõlget, seda põhusel, et
tõlkeabiprogrammiga tõlkides teeb kõik tööprotsessi seisukohalt olulised otsused inimene,
mitte arvuti. Siiski võime öelda, et programmi kasutamine muudab tõlkija tööd lihtsamaks.
Kuidas?
Suureks eeliseks tõlkeabiprogrammi kasutamisel on see, et tõlkemälu salvestab kogu teksti,
mis on lähtekeelest sihtkeelde tõlgitud. Programmi abil tõlkides säilitatakse tõlgitud tekst
segmendi (ingl. segment) kaupa andmebaasis, mida nimetatakse tõlkemäluks (ingl
Translation Memory, TM)5. Segment on tavaliselt lause, kuid vahel moodustab segmendi ka
üksik väljend või lausa sõna (nt tabelikanded, mitmesugused nimekirjad ja loendid). Suurem
osa professionaalsetelt tõlkijatelt ja tõlkebüroodelt tellitavatest tõlgetest on tehnilised: paljud
ettevõtted toodavad tehnilist dokumentatsiooni, milles muudetakse ainult teatud osi (näiteks
tööriistade või seadmete manuaalides). Kui edaspidi programmiga tõlkides leidub mõnes
tekstis segment, mis on sama või sarnane, kuvab programm varasema tõlke ekraanile ning
tõlkijal on võimalus seda tervenisti või osaliselt kasutada. Nii on tõlkeabiprogrammi
kasutades võimalik suhteliselt vähese vaevaga taaskasutada juba tõlgitud teksti ning ühtlasi
säilitada tekstide stiililine ühtsus.
Teine oluline aspekst on tõlgete terminoloogiline ühtsus. Tehnilise teksti tõlkija peab end
hoidma kursis pidevate ja kiirete muutustega infotehnoloogias, tööstuses, majanduses,
meditsiinis, biotehnoloogias jm. On selge, et tõlkija ei saa olla asjatundja kõigil aladel ega
suuda olla kursis iga muudatuse ega uue terminiga. See eeldaks, et ta töötab sel alal iga päev.
Kuidas tulla toime keerulise teksti mõistmise ja teise keelde ümberpanekuga. Üks lahendus on
5 Austermühl (2001:134) väidab, et see on põhiline, mis eristab masintõlkeprogramme tõlkeabiprogrammidest; viimastes nimelt säilitatakse teksti tervenisti, mitte segmendikaupa.
9
kasutada laialdasi referentsmaterjale, entsüklopeedilisi allikaid jm. Mõne uurija arvates
moodustab õigete terminite otsimine kuni 75% tõlkija ajast (Arntz ja Picht 1989, viidatud via
Austermühl 2001).
Seetõttu on tõlkijal eriti oluline talletada kogu informatsioon ning kõik terminid, mis
erinevais töödes ette tulevad: see aitab vältida töö dubleerimist tulevikus. Hea võimaluse
terminisalvestuseks pakuvad tõlkemälupõhised tõlkeabiprogrammid, mis talletavad kogu
tõlgitud teksti ning pakuvad võimalust terminihalduseks (ingl terminology management):
tõlkemälust on võimalik otsida, kas tekstis ette tulevaid termineid või väljendeid on juba
varem tõlgitud. Samuti saab koostada terminisõnastikke, et neid tõlkimise ajal
terminituvastuseks kasutada: on olemas programme (nt TRADOS MultiTerm, Transit
WebTerm), mis leiavad tekstist terminisõnastikus leiduvad sõnad ning kuvavad need.
Kolmandaks teab iga tõlkija, et kvaliteetse tulemuse saamiseks peab tõlke üle lugema
vähemalt üks kõrvalseisev inimene, st tõlge tuleb toimetada või vähemalt korrigeerida,
kontrollida tõlke vastavust algtekstile või vähemalt kontrollida selle keelelist õigsust ja
arusaadavust.6 Toimetaja või korrektor saab edukalt töötada tekstiga, mis on tõlgitud
tõlkeabiprogrammis. Ühest küljest näeb ta siis korraga nii lähte- kui sihtteksti, mis on
paigutatud märgendite vahele, teisest küljest saab tõlkija pärast salvestada (tõlkemälu
kontekstis puhastada, vt peatükk 3) toimetatud / korrigeeritud teksti tõlkemällu. Tulevikus
sama või sarnast segmenti tõlkides kajastuvad selles juba keeletoimetaja parandused. Seega
paraneb ka tulevase tõlketeksti kvaliteet.
Niisiis on mitu aspekti, kuidas tõlkeabiprogrammi kasutades kergendada ning kiirendada
tõlkija tööd ning parandada tõlke kvaliteeti. Võttes kokku ülalpool toodu, saab järeldada, et
tõlkeprogrammi kasutamisel on “käsitsi” tõlkimisega võrreldes kolm olulist eelist.
• Esiteks valmivad korduvad või sarnased tõlked kiiremini.
• Teiseks kindlustab tõlkemälu ja terminituvastus tõlgete terminoloogilise ühtsuse.
• Kolmandaks salvestub tõlkemälus ka toimetaja / korrektori tehtu, seega paraneb tõlke
kvaliteet (st vastavus originaalile ning arusaadavus).
6 Korrektuuri ja / või toimetamise olulisusust tõlkeprotsessis kirjeldab nt Eesti Tõlkebüroode Liidu kvaliteedistandard: http://etbl.ee/?PathID=11, viimane külastus 03.11.2006. Samas leiab huviline ka korrektuuri ja toimetamise definitsiooni: http://etbl.ee/?PathID=10, viimane külastus 03. 11. 2006
10
Põhiline tööriist tõlkeabiprogrammiga töötamisel on seega tõlkemälu. Mälu moodustamiseks
originaal- ehk lähtetekst ning tõlge ehk sihttekst paralleelistatakse ehk joondatakse (ingl
aligning). Joondamisel leitakse igale lähtekeele segmendile vastava sihtkeele segment, st
lause tõlgitakse.7 Seega tekib kakskeelne paralleeltekst, mis on lausekaupa segmenteeritud
ning märgistatud.
Eelnevast lähtudes võib öelda, et tõlkemälu saab sisuliselt käsitleda keelekorpusena (ingl
corpus). Kui proovida tõlkemälu defineerida korpusena, leiame, et see on kirjalikke tekste
sisaldav tekstoteek, tõlkekorpus, mis sisaldab paralleelselt tekste kahes keeles. Tõlkemälu
saab käsitleda paralleelkorpusena, mis sisaldab kahes keeles sarnaseid tekste. Ta on
sünkrooniline korpus, sest sisaldab kaasaegseid tekste ning üldjuhul ei süüvi keele ajalukku.
Tõlkemälu on avatud korpus, kuhu lisatakse üldjuhul terveid tekste (mitte nende osi). Selline
korpus ei saa kunagi valmis, st sinna on alati midagi lisada. Piirid seab ette ainult arvuti
tehniline võimsus.
Kuidas kujuneb selline tõlkekorpus, millised on teksti valikukriteeriumid ning võimalikud
allikad? Nagu öeldud, kuuluvad tõlkemällu tõlkeabiprogrammiga tõlgitud tekstid, kuid sinna
saab lisaks joondada iga teksti, mida tõlkija vajalikuks peab. Samuti on olemas
tõlkeabiprogramme, mis võimaldavad ühe tõlkemäluga töötada mitmel tõlgil korraga (nt
TRADOS TeamWorks, kus mälu on kättesaadav online); nii lisandub tõlkekorpusesse korraga
kõigi inimeste töö, kes töötavad ühe suure projektiga. Lisaks on tõlkemällu võimalik
importida muudest tekstimäludest pärinevaid segmente. See tähendab, et tõlkemälu võib
moodustada mitme saja tuhande sõnega korpuse vastavalt tõlkija vajadustele ning töö
spetsiifikale. Nii saab tõlkija kasutada oma korpust sama või sarnase teksti otsimiseks,
terminituvastuseks jm. Eri tõlkijate korpus võib osaliselt kattuda. Iga tõlkija saab otsustada,
milline on õige keelekasutus; see tähendab, et välistatud ei ole tõlke- vm keelevead.
Tõlkemälus moodustuv tekstikorpus on ka segmentide kaupa märgendatud. Enamikus
tõlkemäludes leidub info, kes on otsitava lause / sõne / termini mällu lisanud. Samuti on
võimalik lisada metainformatsiooni, st andmeid teksti päritolu kohta.8 Siiski pole kirjeldatud
märgistus piisav: puudub teave peatükkide ja lõikude kohta. Tõlkemälust moodustuv korpus
ei ole märgendatud morfoloogiliselt ega semantiliselt.
7 Muidugi on võimalik joondada ka juba tõlgitud tekst; lähemalt kirjeldatakse tõlkeabiprogrammi praktilist kasutamist peatükis 3.8 Enamasti on teksti päritolu kohta käiv info kodeeritud, st igale tekstile antakse number, mis on registreeritud eraldi kataloogis.
11
Seega võib öelda, et tõlkemälu kui keelekorpus ei sobi uurimistööks; selleks on korpus liiga
väike ning puudulikult märgendatud. See ei sobi ka keeleõppeks, sest välistatud ei ole tõlkija
hooletusest või teadmatusest tingitud tõlke-, termini-, keele- või lihtsalt trükivead. Tõlkemälu
kui keelekorpus sobib eelkõige eeskujuks tõlkimisel, selleks et garanteerida tekstide
terminoloogiline ning stiililine ühtsus ning vältida juba tehtud töö dubleerimist. Niisiis on
tõlkemälu väga kitsa praktilise väljundiga tõlkekorpus.
Eespool on käsitletud tõlkeabiprogrammiga töötamise eeliseid ning osutatud, kuidas
tõlkemälu kui keelekorpus kergendab tõlkija tööd. Peatüki lõpetuseks kirjeldatakse viit
tõlkemälupõhist tõlkeabiprogrammi, mida kasutavad Eesti tõlkijad.9 Iga programmi
iseloomustatakse lühidalt ning püütakse seletada, miks eelistavad tõlkijad just seda tarkvara.
TRADOS (www.trados.com, viimane külastus 04.11.2006) on väga levinud ja sisuliselt
tööstusharu standardiks muutunud tarkvara, mis on mõeldud tõlkimiseks peamiselt Windowsi
keskkonnas. Vabakutselistele tõlkijatele mõeldud TRADOS Freelance litsents maksab ca 900
eurot. Eestis kasutavad TRADOSt näiteks Õigustõlkekeskus ja Eesti Pank. Lähemalt vt
peatükk 3.
Wordfast (www.wordfast.net, viimane külastus 04.11.2006) sisaldab tõlkefunktsiooni,
terminituvastust, kvaliteedikontrolli, võimalust otsida segmente ning termineid paljudest
tõlkemäludest ja muudest failidest. Tõlkekeskkonnaks on Windows, kuhu installitakse
Wordfasti tööriistariba ja menüü. Programm võimaldab tõlkida Wordi, Exceli ja Powerpointi
faile. Lisaks on olemas vabavarana pakutav vahendikomplekt PlusTools, mis muuhulgas
sisaldab võimalust luua tõlkemälu vanadest tõlgetest ja originaalidest (vrd Tradow WinAlign).
Wordfasti abil tõlgitud failid ühilduvad TRADOSega – sisuliselt ei ole võimalik vahet teha,
kumba tõlkeabiprogrammi on kasutatud. Mälusid saab TRADOSega vahetada erilise
ekspordivormingu (TMX) kaudu. Paljud vabakutselised tõlkijad eelistavad Wordfasti
TRADOSele, sest viimane on mitu korda kallim. Wordfasti litsents maksab ca 200 eurot.
Transit (www.star-solutions.net, viimane külastus 04.11.2006) on abiks, kui on vaja tõlkida
dokumente, veebilehti või lokaliseerida tarkvara. Transiti eeliseks on seik, et sellega saab
töötada väga erinevates keskkondades, mh kujundusprogrammides (AutoCAD, FrameMaker,
InDesign, PageMaker, QuarkXPress). Paketti kuulub veel tõlkemälu Transit XV ning
9 Nimekiri põhineb autori kogemustel Luisa tõlkebüroo projektijuhina alates aastast 2004.12
terminihaldusvahendid WebTerm ning TermStar XV, millega saab Internetis pidada kõigile
asjaosalistele kättesaadavat terminibaasi. Transit on eriti mugav vabakutselisele tõlkijale, kes
oma projekte ise juhib, sest paketti kuulub ka projektihaldustarkvara, millega saab määrata
töö mahtu, valmistada failid ette tõlkimiseks ning arvutada tõlke hinna. Transiti täislitsents
maksab ca 700 eurot.
Deja Vu (http://www.atril.com, viimane külastus 04.11.2006) tõlkemälupõhisel DVX-l on
neli versiooni: Editor10, Standard, Professional ja Workgroup. Deja Vuga saab töötada
Windowsi keskkonnas, samuti on võimalik tõlkida Adobe’is, C/C++-is, Javas,
QuarkXPressis. Deja Vu pakub võimalust masintõlkeks juba tõlgitud tekstide baasil,
kombineerides juba tõlgitud segmente vajalikul moel. Tootja väidab, et piisava tõlkemälu
ning terminibaasi olemasolul on tulemused väga head ning tekst vajab ainult vähest
inimtoimetamist. Programm koostab automaatselt nimekirja kõigist ühe projekti raames
kasutatud terminitest, sortides need esinemissageduse järgi. Nimekirju salvestades saab lihtsa
vaevaga luua kakskeelseid sõnastikke. Korraga saab tõlkida mitut faili. Deja Vu
standardlitsents maksab ligi 500 eurot, Workgroup-versioon, mida saab kasutada terve
tõlkijate meeskond, maksab üle 1000 euro.
Omega T (http://www.omegat.org/omegat/omegat_en/omegat.html, viimane külastus
04.11.2006) on üks tõlkemälupõhistest programmidest, mis töötab Java baasil, seega saab
seda kasutada peale Windowsi ka Macintoshi ning Linuxi keskkonnas. Muuhulgas pakub
Omega T seega huvi tõlkidele, kes töötavad OpenOffice’iga; see annab võimaluse tõlkida
Wordi, Exceli ning Powerpointi faile ka neil, kes Microsofti tooteid ei kasuta. Samuti saab
tõlkida HTML-faile. Ainuke nõue on, et arvutis töötaks Java rakendus Java Runtime
Envirnoment. Hea uudis tõlkijatele on see, et programm on kõigile kasutajatele tasuta. Kõigist
vabavarana levitatavatest tõlkeabiprogrammidest on Omega T kahtlemata kõige levinum, sest
programmi loojad-arendajad ning kasutajad peavad tihedat sidet ning tagasiside on kiire ja
tõhus. Omegal puuduvad küll paljud lisamugavused, mida pakuvad nt TRADOS ja Deja Vu,
kuid seda on väga lihtne alla laadida ning kasutada.
10 Esimese neist saab alla laadida tasuta, kuid Editori võimalused on väga piiratud, puudub eeltõlkimise ning joondamise võimalus. Tasuta demo ehk testversiooni saab alla laadida ka enamiku teiste tõlkeabiprogrammide katsetamiseks.
13
Kõik viis eelpool kirjeldatud tõlkeabiprogrammi on Eestis kättesaadavad ning kasutatavad.
Siiski on see ainult murdosa pakutavast. Kuigi programmid on põhimõtteliselt sarnased,
salvestades tõlgitavat teksti segmendikaupa ning pakkudes terminihaldusvahendit, on igaühel
neist oma erijooned ning kasutajamugavust lisavad osised. Mõned abiprogrammid on jaosvara
või vabavara, osa tootjaist soovib saada programmi kasutamise eest tasu. Iga tõlkija saab
Interneti vahendusel kõigi programmidega tutvuda ning valida oma võimalustele ja
vajadustele kõige paremini vastav tarkvara. Ülevaade enamlevinud programmidest on olemas
näiteks Wikipedias (http://en.wikipedia.org/wiki/CAT_tool, viimane külastus 04.11.2006).
Nagu rõhutatud, on programme palju. Enamik neist on siiski nišitooted, millel ei ole kuigi
palju kasutajaid. Väga paljud Eesti tõlkijad kasutavad TRADOSt. Järgmises peatükis
vaadeldakse, milliseid võimalusi pakub TRADOS WorkBench ning kuidas näeb praktikas
välja tõlkeabiprogrammiga töötamine.
14
3. TRADOS: kuidas arvuti tõlkijat aitab?
Eelmises peatükis tõdeti, et tõlkemälupõhine tõlkeabiprogramm on tõlkijale mitmel moel
kasulik. Selles peatükis uuritakse lähemalt üht enimlevinud tõlkeabiprogrammi, nimelt
TRADOSt. Esmalt nimetatakse programmiosised ning nende funktsioonid. Seejärel
seletatakse praktiliste näidete varal, kuidas on TRADOSe kasutamine tõlkijale tulus.
Vabakutselistele tõlkijatele on mõeldud tarkvarakomplekt TRADOS Freelance, mis 2006.
aasta oktoobiks on jõudnud versioonini 7.5. TRADOS Freelance osised on järgmised:
• Translator’s Workbench, millega tekitatakse ning hallatakse tõlkemälu ning
tõlgitakse .doc-formaadis faile;
• TagEditor, mida kasutatakse XML- ning HTML-faile;
• WinAlign, mille abil luuakse tõlkemälusid juba tõlgitud tekstidest;
• Multiterm, terminihaldustarkvara.
Siinkohal vaadeldakse, kuidas kasutada TRADOSt Wordi dokumenti tõlkides, jättes täpsemalt
kirjeldamata lisavõimalused, mida programm pakub TagEditori ning Multitermi näol.
TRADOS Workbenchi abil käib tõlkimine Microsoft Wordis, mis on teatavasti kõige enam
levinud tekstitöötlusprogramm Eestis. Wordi installitakse täiendav tööriistariba ja menüü ning
samal ajal on avatud ning ekraanil näha Translator’s Workbench, mille abil otsitakse
tõlkemälust vasteid.
Niisiis tuleb alustada tööd Translator’s Workbenchi ning Wordi avamisest. Kui arvutisse on
installitud TRADOS, saab selle sisse lülitada menüüvalikust tööriistad (ingl Tools) → mallid
ja lisandmoodulid (ingl Templates and Add-ins). Siis kuvab Word tööriistaribale nupud,
millega saame alustada TRADOSe kasutamist (joonis 2).
Järgmisena tuleb avada tõlkemälu (joonis 3). On iga tõlkija otsustada, kas ta peab ühte suurt
tõlkemälu või proovib tõlgitavaid tekste teema ja kasutatava terminoloogia järgi liigitada ning
koostada igale teemale (nt tehnika, juriidika, pangandus-majandus, meditsiin) eraldi mälu.
Ühe suure mälu kasuks räägib tõik, et teemad võivad kattuda (nt kui leping, selgelt juriidiline
tekst, puudutab masinate kasutust või käsitlust, selgelt tehniline teema). Teisest küljest võivad
15
väga suure, mitmesaja tuhande segmendiga mälu kasutamist hakata segama tehnilised
probleemid: WorkBench võib joosta kinni, import-eksport võivad võtta aega tunde.
Joonis 2 TRADOSe tööriistariba Microsoft Wordis
Tõlkija peab pidevalt jälgima, et mälu oleks ajakohastatud. Kõik tõlgitud ja toimetatud tekstid
puhastatakse mällu (ingl clean up). Selleks tuleb Workbenchi menüüst valida funktsioon
Tools → Clean up ning otsida vastav fail. Peab jälgima, et oleks märgistatud valik Update
TM. Sel juhul ajakohastatakse mälus juba sisalduvad segmendid ning lisatakse uued, mida
veel talletatud ei olnud.
16
Teine võimalus mälu täiendamiseks on mäluimport (ingl import). See tähendab, et mõne
teise tõlkemälu omanik on eksportinud (ingl export) seal sisalduvad segmendid erilisse
failivormingusse (teise TRADOSe mällu importides txt-formaat, muusse tõlkeabiprogrammi,
nt Wordfasti importimiseks on mõeldud tmx-formaat). Selleks, et teise mälu sisu nüüd enda
mälusse asetada, valitagu Workbenchi menüüst File → Import. Nüüd salvestab tõlkemälu
importfailis sisalduvad segmendid ning mälu on jälle suurem.
Joonis 3. Translator’s Workbenchi ehk tõlkemälu avamine
17
Kolmas võimalus mälu täiendamiseks on joondamine (ingl WinAligning, vt joonis 4). See
tähendab, et mälusse lisatakse segmendikaupa eelnevalt tõlgitud tekst. Joondamise eelduseks
on seega, et on olemas alg- ja sihttekst, mis lause-lauselt kattuvad. Et joondada tuleb
lausekaupa, on see aeganõudev töö. Kui tegemist on alustekstiga, mis sisaldab palju vajalikke
termineid ning mille on sihtkeelde seadnud usaldusväärne tõlkija, siis tasub vaev ennast ära.
Enne tõlkima asumist saame töödokumenti mäluga analüüsida (ingl analyse, vt joonis 5).
Selleks kasutame Workbentchi funktsiooni Tools → Analyse. TRADOS kõrvutab tõlgitava
teksti segmendikaupa tõlkemälus leiduvaga ning loob erilise log-faili (ingl log file). Log-
failist saab ammutada teavet selle kohta, kui palju tõlkemälu konkreetse dokumendi tõlkimisel
aidata saab, st palju on korduvaid ning kui palju mälus leiduvaid sarnaseid segmente.
Kui tõlgitavas failis leidub ühesuguseid segmente, mida mälus veel ei ole, nimetatakse neid
kordusteks (ingl repetitions). Kui tõlgitavas failis on segmente, mis on juba mälus olemas,
nimetatakse neid täisühilduvusteks (ingl full matches). Segmendid võivad olla tõlkemälule
18
Joonis 4. Joondamine
Joonis 5. Faili(de) analüüsimine
osaliselt tuttavad, st osa segmendist kattub mälus olevaga, osa mitte. Sellist segmenti
nimetatakse hägusteks ühilduvuseks (ingl fuzzy matches). Tõlkemälu jaotab hägused
ühilduvused rühmadesse vastavalt sellele, kui palju on seal tuttavat materjali (vt joonis 5).
Tõlkijale pakub üldjuhul huvi 95-99% ning 85-94% ühilduvustest. Väiksemad ühilduvused ei
anna üldiselt tõlkimisel praktilist abi.
Kui analüüsida dokumenti, mis on juba TRADOSes tõlgitud või sinna joondatud ning
sisaldub seega tõlkemälus, saame tulemuseks ainult täisühilduvustest koosneva teksti.
19
Joonis 6. TRADOSega tõlkimine
Täisühilduvuste puhul tuleb tähele panna, et enamasti on tarvis kõik tõlkemälu pakutavad
vasted siiski üle vaadata. Tõlked võivad olla erineva kliendi tellitud, erineva kontekstiga jm,
niisiis ei pruugi eelmisel korral sobinud ning tõlkemällu puhastatud vaste iga kord sobida.
Juhul kui sama segmenti on tõlgitud mitut moodi, jätab tõlkemälu meelde kõik variandid ning
tõlkija saab nende vahel valida.
20
Pärast kirjeldatud ettevalmistusi on tõlkija valmis asuma TRADOSes tõlkima. Selleks
avatakse vajaliku dokumendi MS Wordis ning valitakse TRADOSe tööriistaribalt käsk Open.
Nüüd avaneb lähtekeelne segment sinises lahtris ning tõlkida saab kollases (või rohelises)
lahtris. Käsuga Get translation kuvatakse ekraanile ühilduvused tõlkemälust. Tõlkija saab
valida, kas eelistada olemasolevat versiooni või on antud juhul parem kasutada teist sõnastust.
Kui segment tõlgitud, kasutatakse käsku Close. Tõlgitud laused ilmuvad nüüd ekraanile nii
lähte- kui sihtkeelsena spetsiaalse märgistuse (ingl tagging) vahel.11 Samal viisil jätkatakse,
avades eraldi iga segmendi, sobitades sinna tõlke (kasutades mälust tulevaid variante ning
lisades vajaduse korral uusi) ning sulgedes selle taas.
Olgu veel märgitud, et teksti analüüsimiseks ning tõlkimiseks peab olema arvutisse installitud
TRADOS; kord juba tõlgitud tekstis on alg- ja sihttekst märgendite vahel näha ka siis, kui
arvutis TRADOSt ei ole. Selleks, et tekst puhastada ning tõlkemälu täiendada, läheb jällegi
tarvis arvutit, kus programm olemas.
Eelnevast kirjeldusest võib järeldada, et tõlkeabiprogrammiga töötamine pole kuigi
komplitseeritud. See vastab tõele: referaadi autor suutis TRADOSega tõlkida erikoolituseta.
Nagu teistegi programmide puhul, läheb koolitust tarvis keerulisemate funktsioonide
kasutamiseks ning programmi kõigi võimaluste tundmiseks. Põhivõtted on sellest hoolimata
erakordselt lihtsad. Niisiis soovitab autor tõlkeabiprogrammide kasutamist proovida igal
noorel tõlkijal. Piisava tõlkemälu ning vilumuse korral kergendab see oluliselt tõlkimist,
kindlustades sihtkeelsete tekstide terminoloogilise ja stiililise ühtsuse ning vältides topelttööd.
11 Tõlkija (ning hiljem toimetaja) peavad jälgima, et Wordil oleks sisse lülitatud Hidden Texti funktsioon, vastasel juhul ei ole ekraanil näha lähteteksti ega märgendeid, vais ainult sihttekst. Kui märgendeid vigastada, ei oska TRADOS neid lauseid enam segmentidena näha, need jäävad puhastamata, ei salvestu tõlkemälus ning rikuvad sihtteksti väljanägemist.
21
4. Kokkuvõte
Referaadis olid vaatluse all tõlkeabiprogrammid, nende tekkimine ning kasutusvõimalused.
Esimeses peatükis kirjeldati masintõlkeprogrammide loomise tagamaid ja eesmärke. Selgus,
et tänapäeva uurijad arvavad, et masintõlge ei saa kunagi asendada inimese tööd, sest tõlke
põhiline eesmärk on anda edasi pragmaatilist ning kultuurilist informatsiooni, lokaliseerida
informatsioon ühest keskkonnast teise. Selleks ei ole masin võimeline.
Teises peatükis vaadeldi tõlkemälupõhiseid tõlkeabiprogramme. Nende erinevus võrreldes
masintõlkega on see, et tööprotsessi puudutavad põhilised otsused teeb inimene, mitte masin.
Arvuti ülesanne on talletada ning vajalikul hetkel kuvada juba tõlgitud tekst ning terminid.
Neid säilitatakse tõlkemälus, mida võib käsitleda teatud laadi tõlkekorpusena.
Tõlkeabiprogrammiga töötades saab lihtsa vaevaga säilitada teksti terminoloogilise ja stiililise
ühtsuse ning parandada tõlke kvaliteeti.
Kolmandas peatükis kirjeldatakse üksikasjalikult, kuidas kasutada tõlkeabiprogrammi
TRADOS Windows Wordis tõlkides. Selgitati, kuidas lülitada sisse TRADOSe funktsioonid,
kuidas luua, avada ning täiendada tõlkemälu ning kuidas segmenthaaval teksti tõlkida.
Referaadi autor usub, et nii masintõlkel kui tõlkemälupõhistel tõlkeabiprogrammidel on tähtis
roll nii tõlketeoorias kui –praktika arengus. Kuigi ideaalse masintõlkeprogrammi loomine oli
määratud läbikukkumisele, andis see aimu, kui keeruline on tõlkeprotsess.
Tõlkeabiprogrammid ei tee kehvast tõlkijast head, kuid aitab vilunud tegijal tõlkeid
valmistada kiiremini ning kvaliteetsemalt.
22
Kasutatud kirjandus
1. Austermühl, Frank. Electronic Tools for Translators. St Jerome Publishing 2001.
2. Hutchins, John (editor). Early Years in Machine Translation. John Benjamins Publishing Company 2000.
3. Muischnek, Kadri, Orav, Heili, Kaalep, Heiki-Jaan, Õim, Haldur. Eesti keele tehnoloogilised ressursid ja vahendid. Eesti Keele Sihtasutus, Tallinn 2003.
4. Young, Steve, Bloothooft, Gerrit (editors). Corpus-Based Methods in Language and Speech Processing. Kluwer Academic Publishers 1997.
Kasutatud Internetimaterjalid
http://en.wikipedia.org/wiki/Translation_memory (viimane külastus 04.10.2006)
http://en.wikipedia.org/wiki/CAT_tool (viimane külastus 04.11.2006)
http://et.wiktionary.org/wiki/Masint%C3%B5lge (viimane külastus 26.10.2006
http://www.eki.ee/keeletehnoloogia/tutvustus/am.html (viimane külastus 12.10.2006)
http://www.foreignword.com/Technology/art/Hutchinss/Hutchins99.htm (viimane külastus 26.10.2006)
www.wordfast.net (viimane külastus 04.11.2006)
http://www.omegat.org/omegat/omegat_en/omegat.html, (viimane külastus 04.11.2006)
http://www.atril.com, (viimane külastus 04.11.2006)
www.star-solutions.net, (viimane külastus 04.11.2006)
www.trados.com (viimane külastus 04.11.2006)
http://etbl.ee (viimane külastus 03. 11. 2006)
http://pikker9.blogspot.com/2005/01/eesti-masintlge.html (viimane külastus 26.10.2006)
23