traductor automático castellano-asturiano-castellano...

7
Traductor automático castellano-asturiano-castellano Algunos datos 11-2-2010 Universidad de Oviedo

Upload: others

Post on 12-Aug-2020

22 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Traductor automático castellano-asturiano-castellano ...eslema.uniovi.es/img/dossier20100211.pdf · asturiano, portugués-asturiano, y también a gallego, catalán y euskera).3 2)

Traductor automático castellano-asturiano-castellanoAlgunos datos11-2-2010

Universidad de Oviedo

Page 2: Traductor automático castellano-asturiano-castellano ...eslema.uniovi.es/img/dossier20100211.pdf · asturiano, portugués-asturiano, y también a gallego, catalán y euskera).3 2)

pág

. 2

de

7

Traductor automático castellano-asturiano-castellano.

Algunos datos

11-2-2010

Qué es

Una herramienta informática para la traducción instantánea de todo tipo de textos digitales (texto plano, texto con formato y páginas web), en lo que supo-ne un desarrollo tecnológico inédito para la lengua asturiana y un paso impor-tante para su acceso con garantías a la sociedad de la información.

La herramienta que se presenta consiste en un software de traducción de licencia pública que realiza traducciones instantáneas de textos digitales castellanos al asturiano y, de manera provisional y menos avanzada, también asturiano-castellano.

Además del motor de traducción propiamente dicho, se ofrece de manera complementaria un paquete de aplicaciones que permite:

1) la traducción automática de un fragmento de texto elaborado ad hoc,

2) una aplicación de descarga y traducción de archivos de texto digital, con o sin formato (txt, rtf, html, opd, doc, docx, pdf) así como presentaciones y hojas de cálculo, y

3) un navegador que permite la traducción automática de URLs (páginas web)1.

De manera adicional, y con carácter esencialmente testimonial, el mismo servi-dor ofrece versiones muy básicas de traductores al asturiano desde inglés, fran-cés, italiano, portugués, gallego, catalán y euskera. Se trata, en este caso, de un desarrollo complementario, una aportación «a mayores» y sin coste económico.

Desarrollo

Se ha desarrollado a lo largo de 24 meses, desde finales de 20082. En el primer año de trabajo, se dispone de la versión básica castellano-asturiano plenamente funcional y una versión alfa del sentido asturiano-castellano.

1 Es importante considerar que este paquete de aplicaciones es propiamente independiente del software de traduc-ción. De hecho, es un desarrollo personal de nuestro informático (Daniel Vicente Quílez) que mejora algunas presta-ciones habitualmente ofrecidas por otros traductores on-line, véase Apertium, Opentrad o el mismo Google)

2 Aunque la primera subvención correspondió a la anualidad de 2008, lo cierto es que por cuestiones administrativas se financió con ella el trabajo del primer cuatrimestre de 2009. La anualidad de 2009 cubre el trabajo desde mayo de 2009 a mayo de 2010.

Page 3: Traductor automático castellano-asturiano-castellano ...eslema.uniovi.es/img/dossier20100211.pdf · asturiano, portugués-asturiano, y también a gallego, catalán y euskera).3 2)

pág

. 3

de

7

Estado de realización del proyecto

El traductor castellano-asturiano es una versión plenamente funcional, con un buen nivel de prestaciones pero aún con errores y carencias visibles, en gran medida diagnosticados y solucionables a lo largo de los próximos meses de trabajo. En todo caso, simplifica sensiblemente el proceso de traducción de grandes cantidades de texto complejo, al margen de la posible conveniencia de ulteriores revisiones manuales.

Es pues una herramienta de carácter provisional y susceptible de mejora, pero ya totalmente válida. El acceso público a la misma ayudará en esta fase final de perfeccionamiento de las prestaciones. De acuerdo con el plan preestable-cido, faltan por cumplirse las siguientes fases de trabajo:

1) La traducción automática en sentido asturiano-castellano. Si bien buena parte del trabajo está anticipado en la versión actual, se requiere un trabajo específico en algunas cuestiones, de ahí que el sentido asturiano-castellano presente mayores deficiencias que el sentido castellano-asturiano, el más desarrollado.

2) Toda la fase de desambiguación en la traducción castellano-asturiano. Implica un trabajo de traductología más de detalle, capaz de prevenir de manera automática problemas típicos de sinonimia, polisemia, contextuali-zación pragmática, etc… La presentación de la herramienta en esta fase de desarrollo obedece precisamente a la voluntad de abrir la definición de las pautas lingüísticas del prototipo al criterio de los usuarios, que podrán remitir al proyecto sus ideas y sugerencias.

3) Definición (y corrección) de reglas gramaticales progresivamente más preci-sas y específicas.

4) Carga contínua de nuevo vocabulario, de manera que no solo se garantice la traducción de contenidos cada vez más complejos, sino que se asegure la correcta sintaxis del texto resultante.

Page 4: Traductor automático castellano-asturiano-castellano ...eslema.uniovi.es/img/dossier20100211.pdf · asturiano, portugués-asturiano, y también a gallego, catalán y euskera).3 2)

pág

. 4

de

7

Una herramienta como ésta es por definición imperfecta, incluso en el grado más avanzado posible de su desarrollo. Sin embargo, también tiene la vir-tualidad de ser indefinidamente mejorable. El carácter libre y público que se quiere dar a este software y su libre disponibilidad para usuarios y potenciales desarrolladores es una manera de garantizar la continuidad en este proceso de revisión y mejora más allá de la duración específica del proyecto actual.

Los autores del proyecto

El equipo de desarrolladores del traductor asturiano está compuesto por cuatro licenciados de la Universidad de Oviedo contratados al efecto, dos ingenieros informáticos (Daniel Vicente Quílez y María Fernanda García) y dos licencia-dos en Filología Española (José Arsenio Coto Pérez y Roberto Hinojal Díaz). Colaboraron puntualmente en el proyecto María Cueto Fernández (Licenciada en Filología Románica) y Cesáreo García Fernández (Licenciado en Filología Inglesa).

La coordinación y supervisión de los trabajos corrió a cargo de los profesores de la Universidad de Oviedo Ángel Neira Álvarez, Alfredo Alguero y David Me-lendi (Departamento de Informática), y Xulio Viejo Fernández (Departamento de Filología Española).

La base del proyecto

Los fundamentos técnicos de la herramienta que se presenta están en el trabajo desarrollado por el proyecto Eslema de la Universidad de Oviedo por parte de los profesores señalados, además de becarios y colaboradores (más información de detalle en los sitios web indicados). Este proyecto, activo desde 2004, formó parte del Plan Nacional de I+D 2005-2008 de la Direc-ción General de Investigación del Ministerio de Educación y Ciencia. Tenía asimismo carácter internacional, dada la participación en él de investigadores del Departamento de Ciencia Computacional de la Universidad de Brandeis (Massachussets, USA) y de Georgetown.

Durante el período indicado procedió a la construcción del Corpus Xeneral de la Llingua Asturiana, un recurso pionero en los estudios de lingüística computacional en Asturias y en asturiano. Además del corpus lingüístico

Page 5: Traductor automático castellano-asturiano-castellano ...eslema.uniovi.es/img/dossier20100211.pdf · asturiano, portugués-asturiano, y también a gallego, catalán y euskera).3 2)

pág

. 5

de

7

propiamente dicho, de unos 10.000.000 de palabras, desarrolló por enton-ces distintas aplicaciones (etiquetador, buscador, lematizador, analizador gramatical) que sentaron unas bases suficientes para plantear la construc-ción de un traductor.

El traductor automático para la política lingüística

Una de las líneas de trabajo para esta legislatura es el acceso en asturiano al mundo digital, con lo que supone de apertura a posibilidades ilimitadas de desarrollo, en el marco global de la sociedad de la información. En este sentido, la existencia de una serie de desarrollos previos en lingüística com-putacional dentro de la propia universidad pública asturiana ofrecía el punto de partida idóneo para la elaboración del software necesario, homologable a los estándares internacionales y con una inversión mínima. La Consejería de Cultura asumió los gastos de contratación de los colaboradores a través de una subvención nominativa al Vicerrectorado de Investigación de la Univer-sidad de Oviedo; la Universidad, a su vez, garantiza tanto las condiciones laborales del personal, como el sentido esencialmente formativo de estos contratos para licenciados universitarios (dentro de un campo pujante en la investigación tecnológica actual) y el carácter público, libre y gratuito del software resultante.

Aportaciones institucionales

a) Consejería de Cultura y Turismo: 130.721,68 € (en tres anualidades: 25.163,68 en 2008; 75.558 € en 2009; 30.000 €, para completar las últi-mas fases, en 2010).

b) Universidad de Oviedo: aporta la base tecnológica Eslema, las infraes-tructuras necesarias, el asesoramiento y supervisión técnica y lingüística, función que desempeñan (de manera no remunerada) los profesores univer-sitarios ya citados.

Ars

enio

Cot

o

Page 6: Traductor automático castellano-asturiano-castellano ...eslema.uniovi.es/img/dossier20100211.pdf · asturiano, portugués-asturiano, y también a gallego, catalán y euskera).3 2)

pág

. 6

de

7El traductor asturiano en el ámbito de la traducción automática actual: aplicacio-nes y aportaciones

1) Además de en los avances en lingüística asturiana del corpus antes indica-dos, el traductor asturiano se basa en el motor de traducción automática desa-rrollado por Apertium, comunidad internacional de desarrolladores de software libre, impulsada desde la Universidad de Alicante (www.apertium.org). Se trata del mismo motor de traducción utilizado hace años por el consorcio Opentrad (www.opentrad.org) para la creación de sistemas de traducción auto-mática entre las distintas lenguas de España, financiado por el Ministerio de Industria y distintas universidades y empresas.

El equipo asturiano trabaja coordinado con la comunidad de desarrolladores Apertium y se beneficia de su asesoramiento y ayuda técnica, lo que facilita y abarata sensiblemente el coste de la herramienta, y por otra parte garantiza su homologación con otros traductores similares, en los que se implica cerca de una treintena de lenguas. Esto, a corto plazo, facilita notablemente el desarro-llo de nuevos pares de traducción al asturiano, de los que la herramienta ac-tual ofrece una muestra testimonial en versiones alfa inglés-asturiano, francés-asturiano, portugués-asturiano, y también a gallego, catalán y euskera).3

2) Inversamente, el trabajo realizado desde Asturias beneficia al resto de la comunidad Apertium. Por ejemplo, el traductor asturiano ha generado uno de los mayores diccionarios informáticos de castellano (entiéndase de palabras y locuciones con su correspondiente etiquetario morfológico) del proyecto Aper-tium. Cualquier persona de cualquier parte del mundo, interesada en desa-rrollar un nuevo par de traducción a castellano puede disponer libre y gratui-tamente de este material y beneficiar así su trabajo, de la misma manera que el nuevo traductor resultante a la tercera lengua sería de inmediata aplicación al asturiano, con un alto nivel de eficiencia. Así, crecen exponencialmente, y siempre a muy bajo coste, las posibilidades de uso del asturiano en la comu-nicación global.

3) En cuanto a su funcionalidad, si bien la traducción automática no puede llegar a ofrecer el mismo nivel de garantía de una traducción humana profe-sional, la capacidad de gestionar en poco tiempo (y a muy bajo coste) grandes volúmenes de texto y la facilidad para adaptarse de manera eficiente a tipo-logías textuales altamente formalizadas (lenguajes científicos, administrativo, etc…) explican su cada vez más abundante uso en la llamada sociedad de la información, especialmente en instituciones supranacionales o en el seno de sociedades plurilingües. Simplemente en España, las distintas administracio-nes (así como empresas, prensa digital, etc…) hacen constante uso de este tipo de tecnología e invierten en su constante desarrollo. El traductor asturia-no permite dar desde Asturias los primeros pasos en este mismo sentido.

4) El traductor asturiano representa una potente herramienta de normalización y difusión social del asturiano, tanto por sus propias funcionalidades como por su carácter público, gratuito y abierto a nuevos desarrollos y aplicaciones libres (en tanto que software libre, de licencia general pública GPL).

5) La herramienta multiplica notablemente la capacidad de producción textual del asturiano: traducción automática de todo tipo de textos (sujeta a revisión 3 E, indirectamente, su disponibilidad, con garantías, en sistemas de traducción indirecta con cualquier otra lengua con acceso a este mismo tipo de tecnología (incluyendo lenguas de gran lejanía desde el punto de vista tipológico como árabe, chino o japonés), según el modelo popularizado en los ultimos años por la empresa Google.

Ars

enio

Cot

o

Page 7: Traductor automático castellano-asturiano-castellano ...eslema.uniovi.es/img/dossier20100211.pdf · asturiano, portugués-asturiano, y también a gallego, catalán y euskera).3 2)

pág

. 7

de

7

humana en aplicaciones más formales y profesionales), acceso a más de 10.000.000 de páginas web (prensa, universidades, instituciones, centros culturales y de investigación, ocio…), a bibliotecas digitales con miles de ejemplares de libre disposición.

6) El traductor se presta igualmente a diversas aplicaciones profesionales, en el ámbito de la enseñanza (como herramienta de trabajo en las aulas) como en la investigación lingüística (por cuanto incorpora diccionarios y analizadores morfológicos). También es directamente aplicable a la administración digital de instituciones, universidades y empresas. Tanto la Universidad de Oviedo como el Gobierno asturiano instalarán el traductor en sus web, con acceso libre (en la Web del Principado, de hecho, está operativo desde esta misma mañana).

7) Es una herramienta versátil: lo que se presenta es un prototipo con unas determinadas elecciones gramaticales y léxicas, pero es fácilmente adaptable (y a bajo coste) a distintas necesidades idiomáticas: por ejemplo, libros de estilo de medios de comunicación, lenguaje administrativo, científico, etc.… distintas modalidades dialectales del asturiano o, simplemente, personaliza-ciones al gusto del usuario.

8) Es una inversión hecha en una institución de investigación pública asturia-na, como es la Universidad de Oviedo. La inversión se dedica casi íntegramen-te a contratos de alto potencial formativo para recientes licenciados universi-tarios, en unas condiciones laborales dignas.

9) Es gratuito para el usuario y abarata sensiblemente los costes de traducción de administraciones, empresas y editoriales.

10) La tecnología generada, de libre disposición pública, es susceptible de desarrollo y explotación comercial por parte de empresas interesadas.