tralogy 2013-ttc platform

21
Plateforme Web TTC: de la compilation de corpus à l’alignement bilingue Helena Blancafort (1) Francis Bouvier (1) , Béatrice Daille (2) , Ulrich Heid (3) , Anita Ramm (3) , (1) Syllabs (Paris), (2) LINA - Université de Nantes, (3) IMS - Universität Stuttgart TRALOGY II 18 Janvier 2013, Paris The research leading to these results has received funding from the European Community's Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005. 18/01/2013 1 Tralogy II

Upload: hblanca

Post on 05-Jul-2015

228 views

Category:

Technology


0 download

DESCRIPTION

présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations : http://blog.syllabs.com/syllabs-a-tralogy-2013/ http://www.ttc.syllabs.com/

TRANSCRIPT

Page 1: Tralogy 2013-ttc platform

Plateforme Web TTC: de la compilation de

corpus à l’alignement bilingue

Helena Blancafort (1) Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3), (1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität

Stuttgart TRALOGY II

18 Janvier 2013, Paris

The research leading to these results has received funding from the European Community's

Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005.

18/01/2013 1 Tralogy II

Page 2: Tralogy 2013-ttc platform

Projet TTC Traduction, Terminologies et

Corpus Comparables Objectifs :

1) compilation de terminologies bilingues à partir des corpus comparables pour la traduction automatique et assistée

3) Démonstrateur de toute la chaîne en ligne atelier utilisateurs fin projet (Octobre 2012, Stuttgart)

• 7 langues: FR, EN, DE, ES, LV, RU, ZH

• 7 partenaires, Leader du projet : LINA - Université de Nantes

18/01/2013 Tralogy II 2

Page 3: Tralogy 2013-ttc platform

Chaîne TTC

18/01/2013 Tralogy II 3

Extraction Monolingue

& Alignement Bilingue

TERM ES

CORPORA

Compilation de Corpus

Outil de Gestion

Terminologique

Page 4: Tralogy 2013-ttc platform

18/01/2013 Tralogy II 4

Page 5: Tralogy 2013-ttc platform

Module 1

Compilation de Corpus

18/01/2013 Tralogy II 5

Chaîne TTC

Page 6: Tralogy 2013-ttc platform

1. Compilation de Corpus Qu’est-ce qu’un crawler ?

18/01/2013 Tralogy II 6

Outil pour récupérer de l’information du Web

Crawler thématique: un domaine précis

Page 7: Tralogy 2013-ttc platform

Entrée et sortie

En entrée: 4-5 mots clés, termes du domaine recherchés

En sortie:

1) Fichiers textes, utf8, nettoyés

2) Fichiers originaux (pdf, doc, html)

3) Fichiers métadata

18/01/2013 Tralogy II 7

Page 8: Tralogy 2013-ttc platform

Retour utilisateur – Crawler

Utile pour la création de terminologies ?

Avantages

permet de collecter un grand volume de données rapidement

un atout lors que le traducteur n’a pas de documents, terminologies du domaine

outil facil à prendre en main

Options avancées : plusieurs filtres

Type de site: officiel (.gouv)

Filtres : exclure wikipedia

18/01/2013 Tralogy II 8

Page 9: Tralogy 2013-ttc platform

Retour utilisateur – Crawler

Utile pour la création de terminologies ?

Désavantages liées au Web

• surreprésentation de données commerciales ou peu scientifiques, degré de spécialisation faible

• Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex: articles scientifiques).

• Corpus final composé de données très hétérogènes, difficile à évaluer • Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL

• Dépendance des langues • Letton : moins de données sur le web

• Russe : moins de crawl possible (blocage BING)

• Dépendance des moteurs de recherche : services payants

• Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT

18/01/2013 Tralogy II 9

Page 10: Tralogy 2013-ttc platform

Module 2

Extraction Terminologique Monolingue

18/01/2013 Tralogy II 10

Chaîne TTC

Page 11: Tralogy 2013-ttc platform

Extraction Terminologique Monolingue

• En entrée: corpus monolingue

output Babouk

• En sortie

format : tabulation (TSV), format terminologique standard (TBX), format compatible UIMA (XMI)

• Extraction de termes simples et complexes

• Innovation des outils TTC

TTC Term Suite variation terminologique, détection des élements néoclassiques

méthodes Knowledge-rich vs. knowledge-poor

18/01/2013 Tralogy II 11

Page 12: Tralogy 2013-ttc platform

Retour utilisateurs Extraction monolingue

Points forts

• Résultats propres et de qualité, bien présentés

• Utile pour découvrir la terminologie d’un corpus ou d’un nouveau domaine

Points discutables

• Avis partagé sur les formats: TBX vs. TSV.

• Avis partagé sur la lemmatisation vs. formes

• Avis partagés sur outil via plateforme ou installation.

• Variantes Terminologiques: moins d’intérêt qu’attendu (plutôt pour filtrer variantes non voulues selon client)

18/01/2013 Tralogy II 12

Page 13: Tralogy 2013-ttc platform

Demandes des utilisateurs Extraction monolingue

• Focus sur les abréviations

• Fournir le terme en contexte : montrer plusieurs phrases, autrement difficile de juger la pertinence du terme par rapport à un domaine.

• Possibilité de fournir les patrons terminologiques

• Disponible avec Term Suite (à installer)

• Indisponible via la plateforme

18/01/2013 Tralogy II 13

Page 14: Tralogy 2013-ttc platform

Module 3

Alignement Bilingue

18/01/2013 Tralogy II 14

Chaîne TTC

Page 15: Tralogy 2013-ttc platform

Alignement bilingue des terminologies

Pour un terme, plusieurs candidats

Conditions: lexique bilingue, disponible pour certaines pairs de langues

18/01/2013 Tralogy II 15

Page 16: Tralogy 2013-ttc platform

Retour Utilisateurs Alignement Bilingue

Points forts

1) Outil très utile (pas d’autres disponibles)

Points abordés

1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier)

2) Contexte: Montrer les termes en contexte, lien avec les phrases, autrement difficile d’évaluer une traduction.

3) Fonctions avancées: fonction par défaut suffit.

18/01/2013 Tralogy II 16

Page 17: Tralogy 2013-ttc platform

Connexion avec

MyETB

(EuroTermBank)

Plateforme Terminologique 18/01/2013 Tralogy II 17

Chaîne TTC

Page 18: Tralogy 2013-ttc platform

Editing TTC Output with MyETB

• Envoi des résultats terminologiques à la plateforme

• Possibilité de gérer différentes collections terminologiques

• Permet l’édition et gestion des terminologies TTC

Validation des termes et informations correspondantes

Suppresion des termes

Édition (ajout d’informations)

18 Tralogy II 18/01/2013

Page 19: Tralogy 2013-ttc platform

Retour Utilisateurs MyETB

Avantages

• Utile d’avoir une plateforme web collaborative pour éditer les résultats

• Gestion de plusieurs terminologies

Améliorations proposées

• Editer les résultats monolingues TTC et renvoyer à la plateforme pour alignement bilingue

• Export des résultats format tabulaire simple

18/01/2013 Tralogy II 19

Page 20: Tralogy 2013-ttc platform

Conclusions Retour Plateforme Web TTC

Evaluation globale très positive

Points forts

1) Illustration de toute la chaîne sous 1 seule plateforme

2) Interface agréable, prise en main facile

3) Architecture modulaire et possibilité paramétrage des outils

Différents profils, différents usages

Points délicats

1) Le web comme ressource pour le travail terminologique

18/01/2013 Tralogy II 20

Page 21: Tralogy 2013-ttc platform

Thank you!

Merci!

¡Gracias!

Gràcies

Danke!

Paldies

谢谢

спасибо

18/01/2013 21 Tralogy II