2002 de alacantÍ juan 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "canelobre"...
TRANSCRIPT
TARDOR 2002 · REVISTA DE L’INSTITUT ALACANTÍ DE CULTURA "JUAN GIL-ALBERT"· NUM. 47 · 21 €
VIURE EN VALENCIÀ À ALACANTJORDI COLOMINA I CASTANYERBRAULI MONTOYA ABADANTONI MAS I MIRALLESGRÀCIA JIMÉNEZ TIRADOJORDI VAYÀ I OLCINAANNA R. SERRANO I CATALINAJOAQUIM E. VICTORIANO I LAVINYA JOAN CARLES MARTÍ I CASANOVA VICENT BROTONS RICOTUDI TORRÓ FERREROENRIC PELLÍN I CATALÀCARLES SEGURA I LLOPESJOSEP FORCADELL SAPORTJOSEP MARTINES PERESJOAN IVARS I CERVERAVICENT BELTRAN I CALVOANNA ESTEVE GUILLÉNJULI MARTÍNEZ-AMORÓSXIMO ESPINÓS FELIPEJOSEP M. BALDAQUÍ ESCANDELLVICENT BROTONS RICOJOAN BORJA I SANZGABRIEL SANSANO I BELSOTOMÀS MESTRE I DAMIÀ JOSEP LLUÍS MARTOS SÁNCHEZEZEQUIEL MOLTÓ I SEGUÍMIKEL L. FORCADA ZUBIZARRETAJOSEP M. MARTÍNEZ POLOTRINI MORA ILLÁN
"CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert",
Organisme Autònom de la Diputació Provincial d'Alacant
Número 47Tardor 2002
21 €
Deposit Legal: A. 227-1984I.S.S.N. 0213-0467
CANELOBRE
DIRECTOR:JORGE A. SOLER DÍAZ
SECRETARIA:CARMEN MARIMON LLORCA
CONSELL ASSESSOR:CAYETANO MAS GALVAÑ
ROSA Ma CASTELLS GONZÁLEZ ROSA MONZÓ SEVA
JORDI COLOM1NA I CASTANYER JOSÉ PAYA BERNABÉ
JOSÉ MANUEL PONS AGUILAR ÁNGEL LUIS PRIETO DE PAULA
DISSENY:LLORENÇ ΡΙΖΑ
JOSÉ PIQUERAS
El present número de Canelobre, titulatVIURE EN VALENCIÀ A ALACANT
ha sigut coordinat per Jordi Colomina i Castanyer
CO
MU
NIC
AR
EN V
ALE
NC
IA
LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALENCIÀ:
LA TRADUCCIÓ AUTOMÀTICA
Mikel L Forcada Zubizarreta
CO
MU
NIC
AR
EN
VA
LEN
CIÀ
LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALENCIA:
LA TRADUCCIÓ AUTOMÀTICA
Mikel L. Forcada Zubizarreta
INTRODUCCIÓ
na de les reivindicacions socials més importants per a molts sectors de la societat alacantina, com a part de la societat valenciana, especialment durant els últims decennis, ha estat la de la dignificació i ús normal de les
varietats valencianes de la llengua catalana, anomenades col·lectivament i tradicionalment valencià. El valencià era i és sentit per sectors importants de la societat alacantina com a llengua pròpia i percebut com a bé cultural i social en perill de desaparició i mereixedor d'una promoció i d'una defensa pràcticament inexistent en una societat que cada vegada tendia més a la homogeneïtzació cultural i lingüística. Poc després de l'arribada de la constitució de 1978, la legislació adoptada per la societat valenciana durant el decenni dels vuitanta (Estatut d'Autonomia, Llei d'Ús i Ensenyament de la Llengua) ha reflectit aquesta reivindicació i ha promogut la llengua pròpia al nivell de cooficial i, consegüentment, ha dotat els ciutadans de nous drets lingüístics relacionats amb l'ús normal del valencià, particularment amb ['administració, tot establint demarcacions territorials que pretenen reflectir la seua situació històrica.
En el cas d'Alacant, la complexitat lingüística de la demarcació provincial es reflecteix en zones de predomini lingüístic castellà prou amples i d'un pes demogràfic molt important. La realitat del valencià alacantí a l'inici del nou del mil·lenni és encara la d'una llengua minoritzada i molt allunyada de l'estat de normalitat que proclama la lletra de les legislacions adoptades. Aquesta realitat es deu en part a una acció institucional clarament insuficient per a garantir el compliment de la legislació que promou l'ús del valencià i al fet que tota la societat no assumeix com a conviccions pròpies les reivindicacions lingüístiques dels sectors que van inspirar la legisla
ció adoptada durant els vuitanta; però no cal descartar l'efecte que tenen els grans problemes tècnics amb què s'enfronten les administracions si volen garantir els drets lingüístics dels ciutadans, especialment en tot allò referent a la documentació escrita.
Els fenòmens socials apuntats són coetanis d'un conjunt de transformacions tecnològiques que s'han produït com a conseqüència d'una disponibilitat cada vegada més gran de les tecnologies de la informació i les comunicacions (TIC), i en particular, d'ordinadors digitals eficients i econòmics. Entre d'altres, un dels efectes és que la majoria dels documents escrits es generen usant ordinadors i estan per tant, disponibles en suport informàtic, suport que permet nombroses operacions de transformació automàtica dels documents i, el que és més important, del seu contingut. L'aplicació de les TIC a problemes de naturalesa lingüística és tan vella com les mateixes tecnologies: ja en 1947, una de les primeres aplicacions que es va voler donar als ordinadors electrònics va ser la traducció de textos per ordinador o traducció automàtica. La traducció automàtica (TA) és una de les tecnologies de la llengua que pot ser de gran ajuda en la normalització de l'ús de llengües minoritzades com és el cas del valencià a Alacant. En particular, pot ser de gran ajuda a l'hora de garantir la disponibilitat de documents en les dues llengües oficials independentment de la llengua —normalment en castellà— en què han estat generat els originals. És clar que les tecnologies de la llengua, com qualsevol altra tecnologia, no són socialment neutres. Es desenvolupen en resposta als problemes que una societat determinada percep com a importants. Aquesta societat (els seus centres de poder) decideix quins són els problemes importants, on s'apliquen les solucions existents, i, quan no n'hi ha, quines línies de recerca de solucions tecnològiques noves són prioritàries. En el cas de la
1 Anomenem text informatitzat un fitxer o arxiu d’ordinador que conté un text codificat en algun format conegut.
280
LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALNCIÀ:
LA TRADUCCIÓ AUTOMÀTICAMikel L. Forcada Zubizarreta
societat alacantina, el poder de decisió el tenen, d'una banda, governs i assemblees elegits democràticament, directament o indirectament, per períodes de temps llargs, i que generen legislació que estableix polítiques i drets; d'altra banda, el poder judicial, menys subjecte al control democràtic però crucial perquè defineix la interpretació de la legislació, i finalment, l'acció de grups de pressió més o menys organitzats, associats a interessos empresarials, corporatius, sindicals, etc. sobre aquestes estructures. L'aplicació de les TIC a la normalització del valencià depèn, com la de qualsevol altra tecnologia, de totes aquestes forces.
Com ja s'ha dit més amunt, una de les més importants entre les tecnologies de la llengua és la traducció automàtica (TA). Com veurem més avall, i per diverses raons, la TA de propòsit general no és perfecta ni és probable que ho siga en un futur massa proper. Per això, la TA és un camp de recerca obert que està afectat per la importància que la societat hi done, i que s'ha de materialitzar en forma de voluntats polítiques i, més concretament, com a finançament. En la meua opinió, la recerca pública en TA entre el castellà i el valencià pot ser crucial per a la normalització. Un exemple molt interessant de les relacions tecnologia-societat en el camp de les tecnologies de la llengua el constitueix el programa SALT. El programa, que rep el seu nom del Servei d'Assessorament Lingüístic i Traducció de la Conselleria de Cultura, Educació i Ciència, és un programa per a ordinadors personals amb sistema operatiu Windows. El programa SALT —que es descriurà més avall— tradueix quasi automàticament del castellà al valencià i també corregeix parcialment textos escrits en valencià; a més té moltes eines d'ajuda que serveixen per a aprendre a escriure millor en valencià. La primera versió estable de SALT era coneguda des de 1997 i usada per molta gent perquè s'havia filtrat, no perquè la Generalitat Valenciana, que l'ha finançat, l'haguera publicat. Aparentment, un dels obstacles polítics per a la publicació van ser les vacil·lacions de l'administra- ció valenciana quant a la filiació lingüística i la naturalesa del valencià estàndard, malgrat l'esforç titànic fet pels creadors de SALT per a flexibi Iitzar el model de llengua dels textos traduïts automàticament.
En aquest article, després de definir què s'entén per traducció automàtica i de descriure'n els àmbits generals d'aplicació, es discuteixen els problemes de la traducció automàtica castellà-català, es ressenyen les experiències existents de TA al català amb èmfasi en el projecte interNOSTRUM de Caja de Ahorros del Mediterráneo i la Universitat d'Alacant, i es tracta sobre possibles aplicacions de la TA a la normalització lingüística del valencià.
TRADUCCIÓ AUTOMÀTICA I SEMIAUTOMÀTICA
Què s'entén per traducció automàtica?
La traducció automàtica' (TA) es pot definir com el procés (o el producte) de traduir un text informatit- zat1 en una llengua origen a un text informatitzat en una llengua meta mitjançant l'ús d'un programa d'ordinador. Normalment es reserva la denominació traducció automàtica per a la completament automàtica; quan s'hi produeix intervenció humana es parla de traducció assistida per l'ordinador o de traducció semi-automàtica.
ESTRATÈGIES DE TRADUCCIÓ AUTOMÀTICA I SEMIAUTOMÀTICA
Estratègies de traducció automàtica
Les estratègies de traducció automàtica es poden dividir en dos grans grups, les directes i les indirectes. L'estratègia directa s'anomena així perquè la traducció d'una frase es produeix directament, sense que es genere una representació intermèdia de la frase; de vegades també se sol anomenar vagament traducció mot per mot. L'estratègia indirecta produeix, a partir de la frase en la llengua d'origen (LO), algun tipus de representació intermèdia de cada frase que després s'usa per a traduir-la.
281
Molts dels sistemes indirectes són sistemes de transferència. Un sistema de transferència és el que fa les traduccions en tres fases ben diferenciades anomenades anàlisi, transferència i generació:
« La fase d'anàlisi produeix, a partir de la frase en la LO, una representació abstracta (RALO). En la RALO s'eliminen tots els detalls de la frase en LO que no són rellevants per a la traducció i se'n destaquen aquelles característiques i relacions que sí que ho són. Per exemple, convindria que les frases "Sam va donar un llibre a Leslie" i "Sam va donar a Leslie un llibre"2 tingueren la mateixa RALO.
• La fase de transferència converteix la RALO representació en una altra representació abstracta similar, però per a la llengua meta (RALM).
* La fase de generació produeix la frase en la llengua meta a partir de la RALM.
Els sistemes de transferència es distingeixen els uns dels altres per la naturalesa i la profunditat de ¡'anàlisi (i, per tant, de les representacions): es pot parlar, per tant, de sistemes de transferència morfològica, de transferència sintàctica, o de transferència semàntica; el model de transferència elegit depèn fonamentalment de la magnitud de les divergències existents entre les llengües origen i meta. De fet, com més profunda és ¡'anàlisi, més independent de les llengües en joc és la representació abstracta obtinguda; de fet, quan ¡'anàlisi és tan profunda que no és necessària la fase de transferència abans de la generació, la representació abstracta és diu una interíingua. En el cas concret de la traducció automàtica del castellà al català, la similitud entre les dues llengües fa practicable una aproximació de transferència morfològica avançada, la qual s'observa en alguns dels productes actualment disponibles (els quals es ressenyen més avant).
Traducció semiautomàtica: memòries de traducció
Una aproximació a la traducció humana assistida per ordinador (és a dir, semiautomàtica) que està molt relacionada amb la traducció directa és la que s'usa en les anomenades memòries de traducció. La noció bàsica és la utilitat de tenir a mà, quan s'està traduint un text nou, una base de dades (una memòria) amb exemples de frases similars i de les traduccions corresponents, provinents de textos ja traduïts. Si una frase del text nou és una repetició idèntica,
només cal inserir-ne la traducció directament, però això succeeix molt poques vegades: l'èxit d'aquesta aproximació depèn en gran part de la capacitat del sistema per a proposar traduccions per a frases similars (i per a això s'han de definir i usar criteris adequats de similitud).
La cooficialitat del castellà i el valencià establida per l'Estatut d'Autonomia valencià i per les lleis que en deriven ha estat interpretada per les autoritats de les nostres terres com el deure de garantir l'edició commpletament bilingüe d'algunes publicacions oficials, com ara el Diari Oficial de la Generalitat Valenciana. Una bona part d'aquest corpus de documents bilingües està en suport informàtic; una vegada fragmentat i alineats els fragments en una llengua amb les traduccions corresponents en l'altra, aquest corpus es podria carregar dins d'una enorme memòria de traducció que aprofitaria ¡'esforç realitzat en el passat per a facilitar moltíssim el tedios procés de producció d'edicions completament bilingües de publicacions periòdiques3 o d'altres documents de temàtica similar; deixant de banda aproximacions experimentals al problema4 desconec si ha estat abordat en els termes que suggerisc; és, de fet, un dels temes emergents d'investigació del Departament de Llenguatges i Sistemes Informàtics de la Universitat d'Alacant, en col·laboració amb l'Institut de Tecnologia Informàtica de la Universitat Politècnica de València.
OBSTACLES A LA TRADUCCIÓ AUTOMÀTICA: L'AMBIGÜITAT
Un dels obstacles més importants per a la traducció automàtica és ¡'ambigüitat inherent al llenguatge. Podem dir que un enunciat (una frase o un text) és ambigu quan és susceptible de dues o més interpretacions i, per tant, pot tenir més d'una traducció a un altre idioma (de vegades no és així i hi ha una única traducció que conserva ¡'ambigüitat de la frase original; d'això, se'n sol dir free ride o "passi gratuït"). Les persones, quan ens comuniquem usant el llenguatge —tant per escrit com parladament—, deixem que els nostres enunciats es contaminen amb una dosi controlada d'ambigüitat. Aquesta ambigüitat ens permet ser concisos i estalviar recursos; a canvi, confiem que el context i les creences que nosaltres i el nostres interlocutors compartim sobre el món en general i sobre la situació particular de comunicació serviran per a descartar les interpretacions no desit-
2 Exemple pres d’Arnold, D. (1993) "Sur la conception du transfert”, en Bouillon, R, Glas, A., eds., La traductique (Montreal: Presses Univ.Montréal), p. 64-76)....
3 Com ara el Butlletí Oficial de la Província d’Alacant, que es publica electrònicament i en paper en versió única, amb parts en castellà o valencià, segons siga la procedència del document.
4 Tomàs, J. i Casacuberta, F. (2000) "A statistical Spanish-Catalan translator: a preliminary version”, in Torres, M.l. and Sanfeliu, A., eds.,Pattern recognition and applications (Amsterdam: IOS Press), p. 279-287....
kP282
LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALNCIÀ:
LA TRADUCCIÓ AUTOMÀTICAMikel L. Fercndn Zubizarreta
jades dels nostres enunciats. En general, ens n'eixim raonablement bé.
L'ambigüitat pot tenir causes molt diverses. Si pensem en l'ambigüitat de les oracions, el principi de composicionalitat ens diu que la interpretació d'una oració depèn tant de la interpretació dels mots que la componen com de la manera com està construïda l'oració (la sintaxi); per això no podem assignar cap interpretació a oracions que contenen mots als quals no podem assignar cap interpretació ("la mare *ingurpleix llibres"), ni a oracions a les quals no podem assignar cap estructura sintàctica ("llegeix mare la llibres"). El principi de composicionalitat també explica perquè la interpretació de "el gat ha matat el ratolí" és diferent de la de "el ratolí ha matat el gat". Consegüentment, l'ambigüitat pot ser de naturalesa lèxica (deguda al fet algun dels mots puga tenir més d'una interpretació), estructural (deguda a l'existència de més d'una estructura sintàctica vàlida per a alguna oració), o mixta (deguda a totes dues causes).
Quan traduïm del castellà al valencià, les ambigüitats lèxiques són especialment importants; en particular, tant el castellà com el valencià estan plens d'homògrafs (o homònims), formes que tenen més d'una anàlisi morfològica, com ara río (1a persona del singular del present d'indicatiu del verb reír i substantiu masculí singular río), i de mots polisèmies, mots que, tot i tenir una única anàlisi morfològica tenen més d'un sentit, com ara destino, que pot voler dir "sort futura", "finalitat", "punt d'arribada d'un trajecte", etc. La major part dels homògrafs tenen traduccions diferents per a cada possible anàlisi —río pot ser ric (verb) o riu (substantiu)— i molts mots polisèmies tenen traduccions diferents segons el sentit (destino en català és destí si és "sort futura" i destinació si és "finalitat" o "punt d'arribada"). Les ambigüitats estructurals solen correspondre normalment a passis gratuïts durant la traducció, per causa de la gran similitud sintàctica existent.
L'èxit d'un sistema de traducció automàtica depèn molt radicalment de la capacitat per a resoldre els tipus d'ambigüitat esmentats, bé amb estratègies basades únicament en el text o bé interrogant la persona que usa el sistema.
LA TRADUCCIÓ AUTOMÀTICA EN EL MÓN REAL
En molts àmbits, la traducció automàtica està encara molt lluny de poder competir en qualitat amb la realitzada per traductors professionals, ja que normalment els programes no tenen accés a la informació sobre el món que les persones usem per a seleccionar les interpretacions correctes dels enunciats
ambigus. Com a conseqüència de problemes com aquest i d'altra naturalesa, en moltes aplicacions, la traducció produïda per un bon programa s'ha de considerar com un esborrany que ha de ser revisat; si un procés de traducció automàtica més correcció manual és més eficient que la traducció completament manual, pot ser convenient adoptar un sistema de traducció automàtica. En el cas del castellà i el català i amb la tecnologia actualment disponible ens trobem en el punt en què aquest és clarament el cas.
Però la traducció automàtica també pot ser molt útil en aquelles situacions en què l'ús d'un traductor professional siga impracticable o impossible econòmicament; en particular, quan el resultat no s'ha de publicar (traducció per a la disseminació) sinó que serveix perquè el lector "es faça una idea" del contingut d'un document escrit en una llengua que no coneix (traducció per a l'assimilació). En el cas del castellà i del català, les aplicacions d'assimilació són poc comunes i es circumscriuen a la traducció al castellà de documents en català per a persones que no el coneixen; les traduccions en sentit contrari no solen ser necessàries atés que la majoria dels catalanoparlants coneixen prou el castellà com per a comprendre un document.
TRADUCCIÓ AUTOMÀTICAASSISTIDA PER LES PERSONES
La traducció automàtica assistida per les persones (en anglès human-aided machine translation) és probablement la situació més comuna d'ús de la traducció automàtica. L'assistència humana es pot produir en diversos punts del procés de traducció:
• Abans de la traducció, es pot preparar el text per a millorar el comportament del sistema de traducció, eliminant, per exemple, els mots ambigus o marcant parts del text que no han de ser traduïdes, com ara una citació, o que han de ser trac-
W283
Quant als desavantatges, podem dir que:
• el poder d'expressió d'un llenguatge controlat éssempre més restringit;
• l'escriptura de textos en llenguatge controlat és molt més lenta;
• és necessària una inversió addicional de temps enl'aprenentatge del llenguatge controlat per part dels autors.
tades de manera especial per no ser frases completes, com un títol. Aquest procés s'anomena normalment preedició.
• Durant la traducció; per exemple, el programa detraducció automàtica pot preguntar a la persona usuària quan té més d'una possible traducció per a un mot o per a una frase. Altres voltes, el programa pot analitzar l'estructura profunda de la frase i donar les possibles interpretacions a l'autor, per tal que desfaça alguna possible ambigüitat. En els sistemes interactius, cal tenir en compte dos factors: el primer, que un sistema que pregunta massa no és còmode d'usar (no és ergonomic) i el segon, que pot passar que l'usuari siga monolingue, circumstància que canvia molt la naturalesa de la interacció entre el programa i l'usuari.
• Després de la traducció, el text es refina (postedita) perquè siga gramaticalment correcte o estiga escrit d'acord amb un registre determinat.
LLENGUATGES CONTROLATS
Quan la traducció automàtica s'usa per a la disseminació de documents tècnics de temàtica homogènia, pot ser interessant fer que els documents originals estiguen escrits usant un lèxic estàndard sense ambigüitats semàntiques i seguint unes regles sintàctiques i d'estil ben determinades, és a dir, en un llenguatge controlat dissenyat de manera que el resultat de la traducció automàtica puga ser usat directament per a publicar-lo amb el mínim possible de postedició; és a dir, l'ús d'un llenguatge controlat evita o redueix al mínim moltes de les causes que obliguen a preeditar els textos. Un llenguatge controlat és un subconjunt del llenguatge natural definit amb precisió, d'una banda restringit quant al lèxic, a la gramàtica i a l'estil, i d'una altra, possiblement estés amb terminologia i construccions gramaticals específiques d'un domini. Alguns dels avantatges dels llenguatges controlats es poden resumir com segueix:
• els textos són més senzills i intel·ligibles;• el manteniment dels documents es facilita;• se simplifica el tractament computacional dels
documents, i en particular, se'n simplifica la traducció automàtica.
Els dos últims desavantatges es poden reduir si es dota els autors d'eines informàtiques, com ara d'un editor de textos intel·ligent —un assistent d'estil— que els ajude a escriure en llenguatge controlat. Els llenguatges controlats s'usen en l'actualitat per generar documentació tècnica que ha de ser traduïda automàticament a moltes llengües, per exemple, documentació sobre maquinària d'excavació (Caterpillar), motors dièsel (Perkins) o camions (Scania), per posar tres exemples clàssics, encara que les aplicacions a àmbits com el bancari o l'ad- ministratiu no són del tot desconegudes. De fet, l'a- dopció d'un llenguatge administratiu controlat reduiria enormement, per exemple, els problemes associats a la interpretació dels textos, i permetria que aquests textos milloraren independentment del fet que s'hagueren de traduir automàticament o no.
TRADUCCIÓ AUTOMÀTICAENTRE EL CASTELLÀ I EL VALENCIÀ
Les aplicacions potencialment més interessants de la TA castellà-valencià s'emmarquen dins de ['anomenada normalització lingüística, és a dir, l'esforç de les societats de parla catalana per promoure'n l'ús normal en tots els àmbits; un exemple actual el constitueixen els servidors d'Internet d'institucions públiques i d'empreses privades on la presència del català és encara minoritària. Quan la llengua original dels documents és el castellà, es podria usar un sistema de TA per a generar esborranys de traduccions (o, fins i tot, documents correctes si els documents castellans estan escrits en un llenguatge controlat).
A més, com ja he comentat, en el cas concret del castellà i el català, la proximitat lingüística entre les dues llengües fa que siga abordable el disseny de sistemes de traducció automàtica que generen textos d'un nivell de correcció tal que resulte més eficient revisar el resultat en brut produït pel programa que fer la traducció completa.
EXPERIÈNCIES DE TA CASTELLÀ-VALENCIÀ
En aquesta secció es descriuen breument cinc experiències de traducció automàtica: SALT, Ara, Es-Ca,
284
LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALNCIÀ:
LA TRADUCCIÓ AUTOMÀTICAMikel L. Forcada ZulúzarreU
el Traductor de El Periódico de Catalunya i una altra, interNOSTRUM, amb una miqueta més de detall.
SALT, de la Generalitat Valenciana
El programa SALT, esmentat en la introducció, desenvolupat pel Servei d'Assessorament Lingüístic i Traducció de la Conselleria de Cultura, Educació i Ciència, és un programa per al sistema operatiu Windows que ha desenvolupat un equip de programadors dirigit per Rafael Pinter sota la direcció lingüística de Josep Lacreu, responsable d'aquest servei. La disponibilitat del programa fins fa poc ha estat més aviat reduïda i extraoficial; actualment es pot descarregar gratuïtament del servidor d'Internet de la Conselleria (http://www.cult.gva.es/dgoiepl/salt) i el distribueixen els serveis de normalització lingüística d'algunes universitats. SALT tradueix textos (en formats ASCII o RTF) castellans al valencià —l'estàn- dard dels textos meta es pot regular usant un menú molt senzill— o corregeix una bona part de les errades típiques dels textos valencians. El programa és interactiu, és a dir, moltes vegades pregunta a l'u- suari com ha de resoldre una ambigüitat, i dialoga sempre en valencià; a més, l'usuari pot seguir visualment el procés de traducció (mot a mot amb modificacions locals) en dues passades. Els resultats són molt interessants. El programa està bàsicament concebut com una ajuda a les persones que volen començar a generar documents en valencià (entre altres eines, inclou una completíssima guia interactiva de gramàtica i estil).
Ara, d'Autotrad
El programa Ara, llançat l'any 2000 per l'empresa Autotrad de València (http://www.ara-aototrad.com) —el gerent de la qual és Rafael Pinter, responsable informàtic de SALT— és bàsicament una versió bastant millorada del SALT, amb una aparença molt similar però produeix textos en català central.
Es-Ca, de Sail-labs
El sistema de traducció automàtica Es-Ca va ser desenvolupat per l'empresa Incyta de Cornellà, en col·laboració amb la Universitat Autònoma de Barcelona; es tracta d'un sistema de transferència sintàctica estàndard, hereu del sistema METAL de l'empresa Siemens. El sistema no es distribueix com a programa, sinó que es troba en Internet (http://www.sail-labs.es): l'usuari inscrit envia el text i el servidor li'l retorna traduït; el cost (1999) és de 3 pessetes per paraula. El servidor dóna accés a una versió gratuïta de demostració que tradueix textos curts. Els resultats són molt acceptables en la major part dels casos.
El traductor d'El Periódico de Catalunya
Una experiència interessant de traducció castellà- català per a la disseminació és l'edició bilingüe del diari El Periódico de Catalunya; el text original —en castellà la major part de les vegades— es tradueix usant una tècnica similar a les memòries de traducció descrites més amunt i després és revisat per un equip de posteditors abans de ser publicat. Una versió simplificada del programa usat per El Periódico de Catalunya es pot provar en Internet (http://auto- matictrans.es).
interNOSTRUM
Un equip d'investigadors de la Universitat d'Alacant, finançat per la Caja de Ahorros del Mediterráneo i la mateixa Universitat, està desenvolupant actualment sota la direcció de l'autor d'aquestes línies un sistema de traducció automàtica castellà-català anomenat interNOSTRUM. Més concretament, l'objectiu del projecte (vigent des de novembre de 1998 fins a maig de 2001 ) és desenvolupar un sistema de traducció automàtica del castellà a les variants estàndards del català i el sistema invers corresponent.
La versió actual d'interNOSTRUM (accessible a través d'Internet, http://www.internostrum.com) no és un producte acabat, però ja pot ser usat per a generar, gairebé instantàniament, esborranys de traduccions al català llestes per a ser corregides (postedita- des).
InterNOSTRUM tradueix textos sense format (ANSI), RTF i HTML del castellà al català i del català al castellà. També permet la "navegació traduïda" per internet, la traducció del correu elctrònic, i el xat (chat) amb traducció.
El traductor s'executa actualment sobre el sistema operatiu Linux i és accessible, com ja s'ha dit, a través d'un servidor d'Internet; está constituït per 8 subpro- grames independents que s'executen simultàniament (en paral·lel) i elaboren la traducció per etapes. La velocitat actual del sistema és de l'ordre de desenes de milers de mots per segon sobre un PC estàndard.
285
interNOSTRUM és un sistema clàssic de traducció indirecta per transferència morfològica avançada, amb les fases següents:
1. ANÀLISI:• Desformatatge: separa el text a traduir de la infor
mació corresponent al format del text (tipus de lletra, marges, taules, etc.).
• Anàlisi morfològica: produeix, per a cada mot,totes les anàlisis morfològiques possibles.
» Desambiguació d'homògrafs: selecciona una de les anàlisis morfològiques anteriors usant un mètode estadístic aproximat que aprofita informació sobre els mots veïns.
2. TRANSFERÈNCIA:• Consulta del diccionari bilingüe: substitueix la forma canònica produïda per l'analitzador morfològic per l'equivalent en la llengua d'arribada.• Tractament sintàctic: realitza operacions locals per a garantir la concordança de gènere i nombre o per a reordenar els mots on siga necessari.
3. GENERACIÓ:• Generació morfològica: flexiona la forma canònica en la llengua d'arribada d'acord amb la informació morfològica produïda per l'analitzador morfològic i transformada pel mòdul sintàctic.• Postgeneració: s'encarrega de l'apostrofació i el guionatge on siguen necessaris.• Reformatatge: combina el text traduït amb la informació de format destriada pel mòdul de desformatatge a fi de produir un text traduït amb una aparença idèntica a la del text original.
Una bona part dels subprogrames estan basats en tècniques d'estats finits: ¡'entrada que van processant determina l'estat (un entre un conjunt limitat d'estats) en què es troben i aquest estat determina al seu tom les eixides que s'han de produir. L'avantatge principal d'aquesta metodologia és e! fet que aquests mòduls bàsicament lligen el text d'esquerra a dreta i no tornen a visitar mai les parts ja processades del text, característica que garanteix velocitats de processament de milers de mots per segon.
També es projecta construir les eines següents:
• Un assistent d'estil que permetrà l'autor d'un text en castellà evitar moltes ambigüitats difícils de resoldre usant regles lèxiques, sintàctiques i d'estil (un llenguatge controlat).« Un assistent de preedició, que permetrà una desambiguació manual de mots i estructures problemàtiques (simplement fent-hi clic per accedir als menús corresponents) quan el programa siga incapaç de fer les tries correctes.
• Un assistent de postedició, que permetrà fer clic sobre un mot sospitós de ser una traducció incorrecta i substituir-lo per altres alternatives tenint en compte el text original i farà possible en general qualsevol canvi del text meta.
PERSPECTIVES DE FUTUR
Reciclatge de traduccions
Com ja s'ha comentat més amunt, una conseqüència de ('imperatiu legal que obliga les administracions de l'àmbit lingüístic català a mantenir versions bilingües de documents oficials és ¡'existència de corpus bilingües extensíssims. Per exemple, imaginem el Diari Oficial de la Generalitat Valenciana (DOGV); tots els dies hàbils, el corpus bilingüe del DOGV s'incrementa amb un text que té uns vint o trenta mil mots en castellà i altres tants en valencià. En cada número del DOGV, els mots castellans apareixen combinats en oracions típiques del llenguatge d'aquest document que es poden posar en correspondencia o, com es diu normalment, es poden alinear de forma automàtica i no massa complicada (però no trivial) amb les oracions catalanes corresponents. Una vegada alineades les oracions, es podrien identificar les correspondències entre fragments (mots o fragments de més d'un mot) mitjançant tècniques estadístiques, i construir, a partir d'aquestes, una memòria de traducció com les descrites més amunt. Si la memòria de traducció està basada en material provinent de diversos anys de DOGV, és molt possible que continga quasi tots els fragments necessaris per a la traducció de un nou número sense que caiga recórrer a tècniques més complexes de traducció automàtica basades en l'a- nàlisi morfològica, sintàctica, diccionaris, etc., que sempre es podrien usar per a traduir fragments nous o no identificats.
Per a afavorir e! manteniment automàtic de documentació bilingüe com la descrita, seria molt desitjable que, quan els traductors humans produïren una nova traducció, la complementaren (usant ferramentes informàtiques senzilles) amb un alinea- ment explícit de la traducció amb el text original. Aquest alineament explícit —el qual hauria de ser el fruit d'una decisió política ferma— permetria una construcció més senzilla de les bases de dades d'una gran memòria de traducció, i, en conseqüència, la producció de traduccions de manera molt més ràpida. A més, com que les memòries de traducció estarien especialitzades en una classe concreta de document (com ara el DOGV), la qualitat dels textos produïts podria fins i tot ser millor que la produïda mitjançant tècniques clàssiques de traducció automàtica.
286
LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALNCIÀ:
LA TRADUCCIÓ AUTOMÀTICAMikel L. Forcada Zubízarreta
Memòries de traducció i Internet
Si les administracions i les empreses de l'àmbit lingüístic català es posaren d'acord sobre el format de les bases de dades i sobre les operacions de consulta i actualització corresponents, i se superaren totes les dificultats tècniques d'un projecte de tal envergadura es podria construir una gran memòria de traducció gratuïta i d'accés universal per Internet que podria servir per a traduir i mantenir documents de tota mena. Aquesta gran memòria de traducció castellà-català actuaria de fet com un dipòsit organitzat del coneixement dels traductors de documents durant l'últim decenni i simplificaria enormement el manteniment dels documents bilingües d'administracions i empreses. L'envergadura del projecte requeriria una voluntat política i una coordinació entre les administracions inèdita fins ara.
Més enllà del text
Totes les tècniques descrites en aquest article suposen l'existència d'un text informatitzat en la llengua origen, a partir del qual es produiria un text informatitzat en la llengua meta. Però la majoria dels àmbits d'ús del català no comporten (ni previsiblement comportaran en un futur) l'ús de textos infor- matizats. Perquè els efectes (positius o negatius) de la traducció automàtica s'estenguen a tots els àmbits de la comunicació—orals, visuals—, cal el concurs de més tecnologies. Algunes d'aquestes són:
• El reconeixement automàtic de la parla (RAP) entés com la producció de textos informatitzats —en temps real, és a dir, tan instantàniament com siga possible— a partir de la veu humana. Si la TA està lluny de la perfecció, el RAP de propòsit general n'està més lluny encara. En canvi, el RAP de propòsit específic està molt més avançat. La major part de la inversió de la comunitat internacional en RAP és en l'anglés. La inversió sobre el català és molt minsa.• El reconeixement automàtic de text escrit, entés com la producció de textos informatitzats a partir de textos (manuscrits o mecanoscrits) impresos. En el cas de mecanoscrits la tasca és molt més senzilla; en el cas de manuscrits, la complexitat és similar a la del reconeixement de la parla.• La síntesi automàtica de veu, és a dir, la producció de veu a partir de textos.
En els dos primers casos, els resultats són especialment dependents de les particularitats lingüístiques de la llengua involucrada i l'èxit depèn de l'existència d'un bon model de llengua que permeta obtenir el text més probable a partir de la veu o dels caràcters impresos. Per exemple, si sentim en veu alta "me hu han di moltis boltis" és molt probable que entenguem clarament "m'ho han dit moltes voltes", ja que inconscientment busquem la interpretació correcta més propera al que hem sentit (en el context concret en què es diu la frase). O, si un programa de lectura automàtica de textos produeix el text "4ixò 6s uua merda", no cal dir què hi llegim sense massa problemes, malgrat els errors en tots els mots. En ambdós casos, hem de programar en l'ordinador un model de llengua aproximat que simule la comprensió humana. En el cas de la síntesi automàtica de veu, la naturalitat de la veu produïda també depèn d'un model prosodie que s'ha de basar en una comprensió parcial del text informatizat, però aquesta naturalitat no és tan crucial per a la comprensió precisament perquè les persones podem recórrer al nostre "model de la llengua" per a suplir la informació absent en la veu artificial.
CONCLUSIÓ
Entre les tecnologies de la llengua, la traducció automàtica i la semiautomàtica destaquen per ser quasi immediatament aplicables a la traducció automàtica massiva de documentació escrita del castellà al valencià i al revés: hi ha fins i tot una bona base de programari disponible; de fet, un dels programes s'està desenvolupant a la Universitat d'Alacant. Els resultats produïts no són correctes però el nombre d'errades és baix, adequat per a una correcció ràpida per part de persones expertes. L'ús de la traducció per ordinador en l'administració permetria una normalització més efectiva del valencià en l'àmbit de la documentació escrita: només cal que les autoritats tinguen la voluntat política necessària per a impulsar l'adopció d'aquestes tecnologies i l'inser- ció en els processos quotidians de documentació, tant de les administracions públiques com fins i tot de les empreses privades de l'àmbit lingüístic del català. L'extensió d'aquest esforç als àmbits de la comunicació oral i manuscrita queda encara lluny en vista de l'escassa inversió en les tecnologies de reconeixement i producció de veu i de reconeixement del text escrit.