tralogy 2013-ttc platform
DESCRIPTION
présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations : http://blog.syllabs.com/syllabs-a-tralogy-2013/ http://www.ttc.syllabs.com/TRANSCRIPT
Plateforme Web TTC: de la compilation de
corpus à l’alignement bilingue
Helena Blancafort (1) Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3), (1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität
Stuttgart TRALOGY II
18 Janvier 2013, Paris
The research leading to these results has received funding from the European Community's
Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005.
18/01/2013 1 Tralogy II
Projet TTC Traduction, Terminologies et
Corpus Comparables Objectifs :
1) compilation de terminologies bilingues à partir des corpus comparables pour la traduction automatique et assistée
3) Démonstrateur de toute la chaîne en ligne atelier utilisateurs fin projet (Octobre 2012, Stuttgart)
• 7 langues: FR, EN, DE, ES, LV, RU, ZH
• 7 partenaires, Leader du projet : LINA - Université de Nantes
18/01/2013 Tralogy II 2
Chaîne TTC
18/01/2013 Tralogy II 3
Extraction Monolingue
& Alignement Bilingue
TERM ES
CORPORA
Compilation de Corpus
Outil de Gestion
Terminologique
18/01/2013 Tralogy II 4
Module 1
Compilation de Corpus
18/01/2013 Tralogy II 5
Chaîne TTC
1. Compilation de Corpus Qu’est-ce qu’un crawler ?
18/01/2013 Tralogy II 6
Outil pour récupérer de l’information du Web
Crawler thématique: un domaine précis
Entrée et sortie
En entrée: 4-5 mots clés, termes du domaine recherchés
En sortie:
1) Fichiers textes, utf8, nettoyés
2) Fichiers originaux (pdf, doc, html)
3) Fichiers métadata
18/01/2013 Tralogy II 7
Retour utilisateur – Crawler
Utile pour la création de terminologies ?
Avantages
permet de collecter un grand volume de données rapidement
un atout lors que le traducteur n’a pas de documents, terminologies du domaine
outil facil à prendre en main
Options avancées : plusieurs filtres
Type de site: officiel (.gouv)
Filtres : exclure wikipedia
18/01/2013 Tralogy II 8
Retour utilisateur – Crawler
Utile pour la création de terminologies ?
Désavantages liées au Web
• surreprésentation de données commerciales ou peu scientifiques, degré de spécialisation faible
• Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex: articles scientifiques).
• Corpus final composé de données très hétérogènes, difficile à évaluer • Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL
• Dépendance des langues • Letton : moins de données sur le web
• Russe : moins de crawl possible (blocage BING)
• Dépendance des moteurs de recherche : services payants
• Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT
18/01/2013 Tralogy II 9
Module 2
Extraction Terminologique Monolingue
18/01/2013 Tralogy II 10
Chaîne TTC
Extraction Terminologique Monolingue
• En entrée: corpus monolingue
output Babouk
• En sortie
format : tabulation (TSV), format terminologique standard (TBX), format compatible UIMA (XMI)
• Extraction de termes simples et complexes
• Innovation des outils TTC
TTC Term Suite variation terminologique, détection des élements néoclassiques
méthodes Knowledge-rich vs. knowledge-poor
18/01/2013 Tralogy II 11
Retour utilisateurs Extraction monolingue
Points forts
• Résultats propres et de qualité, bien présentés
• Utile pour découvrir la terminologie d’un corpus ou d’un nouveau domaine
Points discutables
• Avis partagé sur les formats: TBX vs. TSV.
• Avis partagé sur la lemmatisation vs. formes
• Avis partagés sur outil via plateforme ou installation.
• Variantes Terminologiques: moins d’intérêt qu’attendu (plutôt pour filtrer variantes non voulues selon client)
18/01/2013 Tralogy II 12
Demandes des utilisateurs Extraction monolingue
• Focus sur les abréviations
• Fournir le terme en contexte : montrer plusieurs phrases, autrement difficile de juger la pertinence du terme par rapport à un domaine.
• Possibilité de fournir les patrons terminologiques
• Disponible avec Term Suite (à installer)
• Indisponible via la plateforme
18/01/2013 Tralogy II 13
Module 3
Alignement Bilingue
18/01/2013 Tralogy II 14
Chaîne TTC
Alignement bilingue des terminologies
Pour un terme, plusieurs candidats
Conditions: lexique bilingue, disponible pour certaines pairs de langues
18/01/2013 Tralogy II 15
Retour Utilisateurs Alignement Bilingue
Points forts
1) Outil très utile (pas d’autres disponibles)
Points abordés
1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier)
2) Contexte: Montrer les termes en contexte, lien avec les phrases, autrement difficile d’évaluer une traduction.
3) Fonctions avancées: fonction par défaut suffit.
18/01/2013 Tralogy II 16
Connexion avec
MyETB
(EuroTermBank)
Plateforme Terminologique 18/01/2013 Tralogy II 17
Chaîne TTC
Editing TTC Output with MyETB
• Envoi des résultats terminologiques à la plateforme
• Possibilité de gérer différentes collections terminologiques
• Permet l’édition et gestion des terminologies TTC
Validation des termes et informations correspondantes
Suppresion des termes
Édition (ajout d’informations)
18 Tralogy II 18/01/2013
Retour Utilisateurs MyETB
Avantages
• Utile d’avoir une plateforme web collaborative pour éditer les résultats
• Gestion de plusieurs terminologies
Améliorations proposées
• Editer les résultats monolingues TTC et renvoyer à la plateforme pour alignement bilingue
• Export des résultats format tabulaire simple
18/01/2013 Tralogy II 19
Conclusions Retour Plateforme Web TTC
Evaluation globale très positive
Points forts
1) Illustration de toute la chaîne sous 1 seule plateforme
2) Interface agréable, prise en main facile
3) Architecture modulaire et possibilité paramétrage des outils
Différents profils, différents usages
Points délicats
1) Le web comme ressource pour le travail terminologique
18/01/2013 Tralogy II 20
Thank you!
Merci!
¡Gracias!
Gràcies
Danke!
Paldies
谢谢
спасибо
18/01/2013 21 Tralogy II