mémoire de stage transfert sémantique bilingue pour un

83
UFR Sciences et Techniques du Languedoc Mémoire de Stage Transfert sémantique bilingue pour un prototype de traduction du français vers l'anglais par la mise en correspondance de deux Thésaurus. par Sébastien Fessard Master IMS 2ème année Spécialité Recherche en Informatique Années 2005 - 2006 encadré par les Professeurs: Violaine Prince et Jacques Chauché de l'Université de Montpellier II Laboratoire d'accueil : Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier. Page 1 / 83

Upload: others

Post on 15-May-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mémoire de Stage Transfert sémantique bilingue pour un

UFR Sciences et Techniques du Languedoc

Mémoire de Stage

Transfert sémantique bilingue pour un prototype de traduction du français vers l'anglais par la mise en

correspondance de deux Thésaurus.

par Sébastien Fessard

Master IMS 2ème annéeSpécialité Recherche en Informatique

Années 2005 - 2006

encadré par les Professeurs:Violaine Prince et Jacques Chauché

de l'Université de Montpellier II

Laboratoire d'accueil : Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier.

Page 1 / 83

Page 2: Mémoire de Stage Transfert sémantique bilingue pour un

Résumé

Dans ce mémoire, il sera proposé deux méthodes permettant la création d'une matrice de transfert entre deux univers vectoriels différents, le thésaurus Larousse de 873 concepts, d'une part, et le thésaurus Roget du projet Gutenberg de 1000 concepts, d'autre part. Cette matrice de transfert est implémentée dans un système de traduction automatique. Son but est de permettre de représenter les vecteurs sémantiques des mots du langage source dans l'espace vectoriel du langage cible. Les nouveaux vecteurs obtenus sont comparés avec chaque vecteur sémantique des traductions possibles des mots du langage cible. Cela afin de guider la sélection de la traduction la plus proche du sens du mot du langage source. Cette comparaison est effectuée par un calcul de la distance sémantique. Nous présenterons succinctement les origines de la traduction automatique, puis différents systèmes existants, ainsi que diverses méthodes. Nous exposerons également les outils, modèles et méthodes utilisés par l'équipe TAL pour ce système de traduction automatique. Enfin nous soumettrons au lecteur le travail effectué dans ce stage.

Abstract

In this report, we will present two methods allowing the creation of a transfer matrix between two different vector spaces , the 873 concepts-based Larousse thesaurus, on one hand, and the 1000 concepts-based Roget thesaurus of Gutenberg project, on the other hand. This transfer matrix is implemented in an automatic translation system. its goal is to represent semantic vectors of words of source language in the target language. The new vectors obtained are compared with each semantic vector of the possible translations of the target language words. This, in order to select the closest translation to the sense of the word in the source language. This comparison is performed by semantic distance calculus. We will briefly present the origins of automatic translation, different existing systems, and various methods. Also, we will expose tools, models and methods which are used by the TAL team for this automatic translation system. Finally, we will submit to the reader the work performed in this training period.

Page 2 / 83

Page 3: Mémoire de Stage Transfert sémantique bilingue pour un

Remerciements

Je remercie très sincèrement Madame le Professeur Violaine Prince et Monsieur le Professeur Jacques Chauché pour m'avoir accueilli au sein de l'équipe TAL, ainsi que de m'avoir fait plus amplement découvrir la recherche dans le traitement automatique du langage naturel.

Je tiens à remercier Madame Violaine Prince pour m'avoir fait confiance et m'avoir proposé ce sujet de stage. Je tiens à lui exprimer ma gratitude pour son soutien et pour m'avoir suivi et dirigé durant mon travail malgré un emploi du temps très chargé et des responsabilités multiples.

Toute ma reconnaissance à Monsieur Jacques Chauché, pour le temps et la collaboration qu'il m'a apporté au cours de la réalisation de ma tache ainsi que pour son aide technique.

Un grand merci à toutes les personnes, qui ont pu m'être d'un quelconque soutien.

Page 3 / 83

Page 4: Mémoire de Stage Transfert sémantique bilingue pour un

Table des matièresRésumé...................................................................................................................................2Abstract...................................................................................................................................2Remerciements........................................................................................................................3Table des abréviations.............................................................................................................6Avant Propos...........................................................................................................................7 A.La traduction automatique enjeux et problématiques.........................................................8

I.Origines de la traduction automatique et du TALN.........................................................8 II.Enjeux de la traduction automatique..............................................................................9 III.Problématique Générale..............................................................................................10

a.Le transfert lexical...................................................................................................10 b. Le Transfert Grammatical.......................................................................................11

B.État de l'art........................................................................................................................14 I.Les systèmes de traduction............................................................................................14

a.Différentes générations de systèmes.........................................................................14 b.Critères de classification..........................................................................................15 c.Stratégies et techniques............................................................................................16 d.Quelques références.................................................................................................21

II.Méthodes et Outils pour la T.A....................................................................................23 a.Les vecteurs sémantiques.........................................................................................24 b.Distance sémantique................................................................................................25 c.Notre outils : SYGFRAN (J. Chauché).....................................................................25

C.Le projet...........................................................................................................................28 I.Principe général du logiciel cible SYGFtoE (V. Prince)................................................28 II.Problématique et Méthodologie pour le transfert lexical..............................................28 III.Première Analyse........................................................................................................30 IV.Calculer du sens avec les vecteurs sémantiques..........................................................31 V.L'informatisation du dictionnaire des mots du thésaurus Roget....................................32 VI.La création de la matrice de transformation...............................................................34

a.1ère Méthode...........................................................................................................34Réalisation technique..............................................................................................35Problèmes rencontrés..............................................................................................36Expérimentations et résultats de la première méthode............................................37

b.2ème Méthode.........................................................................................................38Réalisation technique..............................................................................................38Problèmes rencontrés..............................................................................................39Expérimentations et résultats de la deuxième méthode...........................................40

D.Perspectives et améliorations futures................................................................................43 E.Conclusion........................................................................................................................43 F.Références bibliographiques: ...........................................................................................45 G.Adresses Internet référencées ..........................................................................................46 H.Annexes............................................................................................................................47

I.Thésaurus Roget version Gutenberg..............................................................................47 II.Thésaurus Larousse.....................................................................................................60

Page 4 / 83

Page 5: Mémoire de Stage Transfert sémantique bilingue pour un

III.Annexe 3 : Exemple de résultat de traduction ............................................................70

Page 5 / 83

Page 6: Mémoire de Stage Transfert sémantique bilingue pour un

Table des abréviations

ALPAC : Automatic Language Processing Advisory Committee.ASCII : American Standard Code for Information Interchange.ATALA : Association pour le Traitement Automatique des LAngues.CNRS : Centre National pour la Recherche Scientifique.GETA : Groupes d'Etudes pour la Traduction Automatique.LIRMM : Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier.MIT : Massachusetts Institute of Technology, Institut de technologie du Massachusetts.STIC : Sciences et Technologies de l'Information et de la Communication.SYGMART : SYstème Grammatical de Manipulations Algorithmiques et Récursives de Textes.TA : Traduction Automatique.TAL : Traitement Algorithmique du Langage.TALN : Traitement Automatique du Langage Naturel.TALNEO : Traitement Automatique du Langage Naturel Écrit et Oral.UMII : Université de Montpellier II.

Page 6 / 83

Page 7: Mémoire de Stage Transfert sémantique bilingue pour un

Avant Propos

Le Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier (LIRMM) est une Unité mixte de recherche de l'Université Montpellier II (UMII) et du Centre National de la Recherche Scientifique (CNRS), département Sciences et Technologies de l'Information et de la Communication (STIC). Les domaines de recherche qui y sont pratiqués, concernent les technologies en matière d'informatique, de robotique et de micro-électronique.Dans le département informatique, la recherche est divisée en onze équipes dont l'équipe TAL (Traitement Algorithmique du Langage), mon équipe d'accueil. Les applications sur lesquelles travaillent l'équipe sont multiples : - recherche d'information à l'aide du langage naturel.- classification de documents par l'analyse de contenu.- segmentation thématique de textes.- création et amélioration de ressources lexicales.- amélioration de ressources multilingues.- traduction automatique fondée sur l'analyse. - vérification grammaticale.- contraction automatique de textes (résumé).

Ce sont d'importants travaux sur le formalisme et le calcul du contenu sémantique de données textuelles. On y trouve par exemple la représentation de fonctions lexicales, envisagée pour l'amélioration des ressources de type dictionnaire en ligne, ou la classification thématique de textes. Elle s'appuie sur des outils novateurs pour l'analyse et la représentation sémantique des langages.

Page 7 / 83

Page 8: Mémoire de Stage Transfert sémantique bilingue pour un

 A.La traduction automatique enjeux et problématiques

 I.Origines de la traduction automatique et du TALN

La communication entre les peuples s'est toujours heurtée au problème de la langue et ce depuis des millénaires. Avec l'avènement de l'informatique, on a pu voir en cette science un moyen de passer outre la barrière de la langue pour communiquer avec le monde entier bien qu'il y ait encore beaucoup de travail à faire dans le domaine. C'est de cette façon que naquit le domaine de recherche du Traitement Automatique du Langage Naturel et ses dérivés, mêlant beaucoup l'Informatique et la Linguistique.

A l'origine de l'informatique, les ordinateurs ne « comprenaient » que les systèmes d'écriture codés en ASCII (American standard code for information interchange) ne permettant que la transcription des langues anglophones, à savoir 26 lettres sans accent, auxquelles s'ajoutent les signes de ponctuation, les symboles techniques, etc. Ce système de codage ne peut donc pas être utilisé pour le codage des langues accentuées.

Cela ne posa pas de problèmes tant que l'internet, anglophone à plus de 90%, était essentiellement utilisé en Amérique de Nord. Depuis l'essor mondial qu'Internet a subi dans les années 90, une multitude de cultures, et donc de langues, en ont pris possession. Il devient ainsi difficile de pourvoir trouver et surtout de comprendre des documents qui ne sont pas écrits dans les langues comprises par le locuteur. Il y a donc une très forte demande de traduction automatique pour tout ce qui touche à Internet.

Dés leur début, la traduction automatique et le TALN ont progressé ensemble, avec l'évolution de l'informatique quantitative. Suite à la seconde guerre mondiale , la traduction automatique a soudainement suscité un intérêt beaucoup plus important afin de comprendre plus facilement les communication ou les messages des ennemis notamment durant la guerre froide (déchiffrement des textes russes). Durant les années 50, les recherches ont surtout été relatives à la traduction littérale, c'est-à-dire à la traduction mot à mot sans prise en compte des règles linguistiques et du contexte.

L'année 1952 voit apparaître le premier chercheur à temps plein sur la traduction automatique : le professeur Yehoshua Bar-Hillel au MIT (Massachusetts Institute of Technology). Le premier projet de Traduction Automatique connu est américain et se déroule à l'Université de Georgetown en 1954 avec la participation d'IBM. C'est la première expérience de traduction du russe vers l'anglais, le projet comporte un vocabulaire de 250 mots et de 6 règles de grammaire. Tout au long des années 50 et 60, des projets voient le jours aux États Unis et en Europe. La première conférence internationale verra le jour en 1956 au MIT. En 1959, La France voit la création de l'ATALA, association pour l'étude et le développement de la traduction, ainsi qu'à partir de 1960, la publication de la revue « La Traduction Automatique » publié par l'ATALA.

A partir de 1960, le déclin de la recherche en TA s'amorce. En 1965, Noam Chomsky [Chomsky1965] publie son livre Aspects of the Theory and Syntax qui propose une nouvelle

Page 8 / 83

Page 9: Mémoire de Stage Transfert sémantique bilingue pour un

définition de la phonologie, de la morphologie, de la syntaxe et de la sémantique du langage humain remettant en cause certaines idées. En 1966, aux États Unis, le rapport de l'ALPAC (Automatic Language Processing Advisory Committee) met fin aux financements des projets de recherche sur la traduction automatique en concluant par une estimation négative et prématurée, que ces derniers demandent trop de temps de conception et de développement pour un résultat médiocre. Il constate aussi un besoin très importants en post-édition. Seul quelques groupes de recherche survivent comme par exemple le GETA à Grenoble, ou le TAUM-Météo au Canada (projet de traduction automatique de bulletin météorologique).

C'est à partir des années 70 que de nouveaux projets vont relancés la recherche sur la traduction automatique. Le projet TAUM-Météo est un succès qui remet en cause le rapport ALPAC et relance de nouveaux projets. On voit alors apparaître le développement de systèmes de transfert et l'émergence des premiers produits commerciaux des sociétés comme SYSTRAN. Mais les problèmes sont nombreux : des coûts élevés de développement, une lexicographie demandant un énorme travail, des difficultés pour proposer de nouvelles combinaisons de langues, l'inaccessibilité de tels systèmes pour l'utilisateur moyen.

A l'heure actuelle, beaucoup de solutions existe pour la traduction automatique. Les solutions pour la traduction générale donne plutôt des résultats bons sur les phrases simples mais décevants lorsqu'il s'agit de traduire un texte entier, tandis que les solutions pour des domaines spécifiques comme la traduction des modes d'emploi donne des solutions globalement satisfaisantes. Il reste donc de nombreux progrès à effectuer pour s'approcher de la traduction humaine.

La traduction automatique est un des enjeux les plus important dans la recherche du 21ème siècle.

 II.Enjeux de la traduction automatique

Le marché de la traduction est en pleine expansion. Les besoins de traductions ont grandit en même temps que l'essor d'Internet. Deux types de traductions apparaissent : la traduction humaine et la traduction automatique (ou plutôt semi-automatique, encore appelée traduction assistée).

Les premiers besoins de traduction sont apparus avec la nécessité de faire connaître les ouvrages écrits, les livres, depuis déjà quelques millénaires. Cela afin de partager la connaissance. L'ère de l'industrialisation et de la mondialisation a augmenté les besoins en traduction, notamment pour les notices d'utilisation ou encore les emballages des produits amenés à être commercialisés dans plusieurs pays. Bien que, jusque là, la traduction humaine pouvait suffire pour répondre à ce besoin, l'avènement de l'informatique mais en particulier d'Internet permettant de créer et de stocker une quantité, fortement croissante de documents aussi bien civils ou militaires, a amené un besoin de traduction automatique de plus en plus grand. La traduction humaine n'est plus capable de suivre l'explosion du nombre de documents numériques à traduire pour qu'ils puissent être compris par tous.

Page 9 / 83

Page 10: Mémoire de Stage Transfert sémantique bilingue pour un

 III.Problématique Générale.

La difficulté de la traduction réside essentiellement dans le sens des mots. Effectivement, que ce soit pour le français ou pour l'anglais, un mot n'a pas toujours un sens unique, on dit, dans ce cas, qu'il est polysémique. En moyenne un mot français a, en effet, cinq sens différents. Lors de l'opération de traduction automatique le système doit donc sélectionner la meilleur traduction possible en fonction du sens du mot mais aussi en tenant compte du sens de la phrase qui, elle aussi, influence grandement la sélection de la bonne traduction. Cette étape se nomme le Transfert Lexical. Une deuxième étape est nécessaire pour obtenir une phrase grammaticalement correcte dans le langage source, il s'agit du Transfert Grammatical.

 a.Le transfert lexical

Cette étape consiste donc à choisir le terme y du langage cible le plus adéquat avec un terme x du langage source, dans le contexte d'une phrase et/ou d'un texte donné. Hors contexte, ce choix est, dans la plupart des cas, indécidable. En effet il est rare qu'un terme du langage source n'ait qu'une seule est unique traduction dans un langage cible et ce quelle que soit la langue utilisée. Il est donc impératif de tenir compte du contexte dans lequel le terme est utilisé. Pour cela, une analyse morphologique de la phrase (ou du texte) à traduire est effectuée afin de connaître la catégorie grammaticale, appelée aussi nature du mot, (nom, verbe, adjectif, etc...) pour chacun des termes ainsi isolé de la phrase.

Dans un premier temps, il est facile d'imaginer que pour restreindre l'ensemble de recherche de la traduction d'un terme, on utilise un dictionnaire bilingue qui associe pour chaque terme d'un langage source un ensemble de lexies du langage cible. Une lexie est un terme enrichi de son acception et de sa catégorie grammaticale . Une acception est un sens particulier du mot.

Par exemple : pour le terme « livre », le dictionnaire bilingue fournira :

'livre' (pour un ouvrage) , Nom,  Mas. : se traduit par 'book'.

'livre' (pour un poids) , Nom,  Fem : se traduit par 'half a kilo'.

'livre' (pour de la monnaie) , Nom, Fem : se traduit par 'pound'.

Les informations entre parenthèses permettent de sélectionner le sens dont l'on a besoin, ces informations sont appelé gloses. Dans notre exemple, « ouvrage » est l'acception permettant de choisir la traduction « book » pour le terme « livre ». Pour cela, il faudrait qu'il y ait un contexte activant des éléments sémantiques compatibles: d'autres mots, le thème général, etc... Le terme « ouvrage » est donc, en tant qu'acception, un indice sémantique pour le choix de la traduction.

Le choix d'une lexie du langage cible est un problème difficile. Il existe en effet, beaucoup de phénomènes, en langage naturel, perturbant ce choix, outre la polysémie des mots. Ce sont tous les phénomènes de style de la langue (ironie, métaphore,etc...). Lors de la

Page 10 / 83

Page 11: Mémoire de Stage Transfert sémantique bilingue pour un

traduction, on rencontre aussi bien ces problèmes dans le langage source que dans le langage cible.

Il existe enfin des contextes culturels qui influencent le choix de la lexie dans le langage cible, que l'on désigne par le terme d'équivalent. Par exemple, si on prend le terme « mouton » dans les deux phrases suivantes :

● « Je ne mange pas de mouton. » 

● « Je suis éleveur de moutons ». 

Le terme «mouton» dans la traduction vers l'anglais ne se traduit pas de la même façon dans les deux phrases. En effet, l'Anglais fait une distinction entre la viande de mouton, qui se traduit par « mutton » et l'animal qui se traduit par « sheep » alors qu'en français nous utilisons le même mot sans faire de différence. Et ceci est valable aussi pour le boeuf, le veau et le cochon. Il existe bien d'autres exemples de ce phénomène. Pour effectuer, cette discrimination d'origine culturelle, mais fondée sur le fait que l'un désigne la fonction comestible (viande de ...) et l'autre l'animal. Il existe différents types de modèles que j'expose dans l'état de l'art.

Ainsi, la Traduction Automatique utilise les techniques du Transfert Lexical afin de mettre en correspondance les lexies du langage source avec celles du langage cible. Mais cela ne suffit pas à obtenir une tournure de phrase correcte dans le langage cible. Un autre processus est nécessaire: le Transfert Grammatical.

 b. Le Transfert Grammatical

Le Transfert Grammatical ne fait pas partie de l'objet de mon stage, mais je pense qu'une brève explication de son fonctionnement au sein de la phase de traduction automatique n'est pas négligeable.

Si le transfert lexical est un problème difficile, celui du transfert grammatical l'est tout autant. Il se résume à deux étapes nécessaires , l'analyse morpho-syntaxique et la transposition de la structure grammaticale du langage source vers une structure grammaticale correcte du langage cible.

La fonction de l'analyse morpho-syntaxique est d'identifier, en plus des lexies, la structure grammaticale du texte. Cette phase est nécessairement la première phase dans la traduction automatique afin de restreindre, comme on l'a vu, l'espace de recherche des traductions des termes.

Prenons par exemple, la phrase « La mère accompagne sa fille déguisée à l'école ». L'analyse morphologique va permettre de résoudre les ambiguïtés de la catégorie grammaticale (ou nature) de certains termes. La désambiguïsation se fait, en partie, grâce à la position du terme (ou du groupe de termes) au sein de la phrase. Pour notre exemple, nous avons les ambiguïtés suivantes :

Page 11 / 83

Page 12: Mémoire de Stage Transfert sémantique bilingue pour un

• la : 

➢ article défini féminin.

➢ pronom personnel féminin.

➢ nom masculin  : en musique, représente la 6ème note de la gamme.

• l':

➢ article défini masculin ou féminin.

➢ pronom personnel masculin ou féminin.

• à l'école : 

➢ complément circonstanciel de lieu.

➢ complément d'adjectif.

Son analyse donnera le résultat suivant, après désambiguïsation :

La mère : nature : groupe nominal,  fonction: sujet.

la : nature: article défini, genre : féminin.

mère : nature: nom commun, genre : féminin.

accompagne : conjugaison: 3eme personne du présent de l'indicatif, fonction: groupe verbal.

accompagner : nature: verbe transitif du 1er groupe.

sa fille déguisée: nature: groupe nominal, fonction: complément d'objet direct.

sa : nature: adjectif possessif, genre : féminin.

fille : nature :nom commun, genre : féminin.

déguisée : nature : Adjectif.

à l'école : nature :  groupe nominal propositionnel, fonction: complément circonstanciel de lieu.

à : nature: préposition.

la : nature article défini, genre : féminin.

école : nature: nom commun, genre : féminin.

L'analyse consiste à reconstituer les groupes fonctionnels de la phrase à partir de la catégorie du terme et en fonction des règles grammaticales du langage. Ainsi une règle a permis de déterminer que le groupe « à l'école » est un complément circonstanciel de lieu car le groupe commence par une préposition et le terme « école » désigne un lieu. L'analyse produit donc le schéma de phrase (Sujet, Verbe, Complément d'objet, Complément Circonstanciel). Seul un résultat sans ambiguïté est acceptable pour la traduction.

La difficulté majeure de l'analyse morpho-syntaxique est de posséder une grammaire de règles suffisamment complète pour pouvoir décrire un ensemble très vaste de schémas de phrases du langage analysé sans pour autant aboutir à un traitement de forte complexité ou à

Page 12 / 83

Page 13: Mémoire de Stage Transfert sémantique bilingue pour un

des bouclages infinis. Une fois l'analyse morpho-syntaxique et le transfert lexical effectués, on peut passer à la dernière étape la transposition de la structure grammaticale.

A partir de la structure grammaticale obtenue par l'analyse morpho-syntaxique du texte dans le langage source, il s'agit de générer la structure grammaticale du texte dans le langage cible. Notre exemple précédent se traduit par : « The   mother   takes   her disguised daughter to school », ce qui donne le schéma de phrase en anglais : ( sujet, verbe, complément d'objet, complément circonstanciel). Ce schéma est identique au schéma français mais on peut observer un changement dans le complément d'objet, effectivement il y a inversion de l'adjectif avec le nom. Il y a, de même, la nécessité d'accord entre le sujet et l'adjectif possessif : si « sa » en Français réfère un sujet masculin ou féminin, en Anglais la distinction est nécessaire. Ce problème là est relativement complexe.

Dans notre exemple, les changements de structure grammaticale sont peu importants (bien qu'il y ait un problème de référence) mais il existe d'autres exemples où ces changements sont bien plus marqués. Ainsi les pronoms personnels qui se placent devant le verbe en français arrivent derrière le verbe en anglais :

● «Je lui donne à manger.»

● «I give him/her to eat.»

En revanche, les phrases possédant un aspect idiomatique réclament, de manière générale, le plus de changements, car elles nécessitent l'emploi de tournures particulières, parfois très éloignées de la structure grammaticale du langage source. La phase de la transposition de la structure grammaticale est aussi complexe que l'analyse morpho-syntaxique. Elle utilise un ensemble de règles de transformation ne pouvant pas supporter la moindre ambiguïté de la grammaire. Cet ensemble de règles est établi de façon cohérente et extensible [Prince 2005].

En conclusion, les deux principaux processus permettant d'effectuer la traduction automatique sont le Transfert Lexical et le Transfert Grammatical. Il existe en outre, des phases de réécriture stylistique, cependant elles sont difficilement automatisables. Les deux processus cités sont justement ceux sur lesquels l'informatique peut intervenir. On remarquera qu'il s'agit de processus liés en boucle : pour effectuer une discrimination des termes lors de la phase de Transfert Lexical, le résultat de l'analyse morpho-syntaxique est nécessaire. Réciproquement, lors de la génération de la structure grammaticale dans le langage cible, les règles de transposition doivent tenir compte des choix principaux du Transfert Lexical, certains termes ayant des utilisations bien particulières syntaxiquement parlant.

Page 13 / 83

Page 14: Mémoire de Stage Transfert sémantique bilingue pour un

 B.État de l'art

Bien que la traduction automatique soit plutôt ancienne puisqu'elle est l'un des domaines de recherche les plus vieux dans la recherche informatique, peu de progrès ont étaient faits depuis les années quarante. Il n'y a donc que peu de variété dans les systèmes de traduction automatique, nous allons cependant essayer de les classifier.

 I.Les systèmes de traduction

 a.Différentes générations de systèmes

Il y a trois grandes générations dans les systèmes de traduction automatique et une actuelle tendance pour l'aide à la traduction par alignement de ressources traduites.

La première génération date des années 40. Ce sont des systèmes de traduction dits « directs » car on passe du texte source au texte cible sans passer par une représentation intermédiaire. Ils se basent sur l'équivalence de termes et traduisent mot à mot à partir d'un dictionnaire bilingue (remplacement par la traduction la plus fréquente usuellement) sans faire une analyse complexe du texte (voir figure ci-dessous). Il n'y a donc pas ou peu de prise en compte du contexte de la phrase ou du texte à traduire. Ce sont généralement des systèmes bilingues et unidirectionnels. Ils ont une utilisation plutôt limitée mais sont encore utiles dans certains cas comme la traduction de bulletin météorologiques. Il y a peu d'informations techniques à exploiter sur cette génération puisque leurs ressources sont limité à des dictionnaires bilingues. Leur analyse, quand elle est présente, se limite souvent à des règles de grammaires locales aux groupes de mots comme par exemple la place de l'adjectif par rapport au nom.

Figure représentant le fonctionnement d'un système de traduction direct.

Page 14 / 83

Texte source

Consultation du dictionnaire bilingue texte de mots 

traduits

Dictionnairebilingue

Page 15: Mémoire de Stage Transfert sémantique bilingue pour un

La deuxième génération, des années 70, regroupe les systèmes de transferts bilingues possédant une analyse plus évoluée que des systèmes directs. Ces systèmes d'aide à la traduction mettent en oeuvre un dialogue entre le système et l'utilisateur afin d'affiner le transfert lexical et le transfert grammatical (voir figure ci-dessous).

Les années 2000 ont vu apparaître des systèmes de traduction automatique basés sur l'utilisation de méthodes de Transfert Lexical Statistique et d'Alignement de Corpus ainsi que des systèmes hybrides. Leurs avantages sont multiples mais la méthode n'est pas exempte de défauts. Ces systèmes sont techniquement faciles et rapides à développer, d'où l'engouement actuel des industriels. Cependant, ils nécessitent un grand nombre de corpus alignés pour être efficaces. Certains systèmes utilisent des méthodes d'apprentissage afin d'améliorer leur efficacité et de compléter leur base de données. Le choix des équivalents se base uniquement sur la fréquence des termes, cela implique l'omission des cas rares. Ils n'effectuent aucune structuration, donc aucun Transfert Grammatical.

 b.Critères de classification.

Trois critères sont utilisés pour déterminer la classe d'un système de traduction automatique (TA) : le nombre de langues traitées, la méthode de traduction, et la stratégie d'interaction.

Dans la plupart des cas, il s'agit de systèmes bilingues. Les règles de grammaires sont souvent différentes d'une langue à une autre. Il faut donc, pour chaque langue traitée par le système, développer un ensemble de règles grammaticales différentes que ce soit pour l'analyse morpho-syntaxique ou pour la transposition grammaticale. De plus, dans les débuts de la traduction automatique l'espace mémoire était plutôt limité. L'évolution des systèmes a permis de traiter plusieurs langues par une même méthode. Il s'agit dans ce cas d'un système dit multilingue, à ne pas confondre avec les environnements proposant plusieurs systèmes de traduction bilingue.

Les systèmes de seconde génération abandonnent l'aspect traduction direct, car trop limité pour le besoin de traduction de qualité. Ils se dotent de nouvelles techniques donnant de meilleurs résultats, dont les principales sont le transfert, l'interlangue (ou langage pivot) ou les systèmes à base de mémoire et/ou d'exemples utilisant les techniques d'alignement de corpus bilingues voire multilingue.

Les systèmes de troisième génération sont, le plus souvent multilingues. Ils sont utiles pour les expressions figées comme la traduction de « chunks » (groupe de mots reconnaissables et fréquents). Ces systèmes ne s'attaquent pas du tout à la grammaire. Ce sont des outils qui ne fournissent pas une « page traduite » en sortie et qui nécessite un travail humain en post-édition.

L'interaction du système de traduction automatique dépend uniquement du but dans lequel il est développé. Il y a trois grands niveaux d'interactions : La traduction humaine assistée par ordinateur (Machine Aided Human Translation – MAHT) , la traduction automatique assistée par l'homme (Human Aided Machine Translation – HAMT) et la traduction entièrement automatique. La traduction humaine assistée par l'ordinateur trouve

Page 15 / 83

Page 16: Mémoire de Stage Transfert sémantique bilingue pour un

des applications dans des outils de correction dans les traitements de textes ou dans des applications destinées aux traducteurs professionnels afin de leur rendre un certain nombre de service. La traduction automatique assistée par l'homme fait intervenir l'homme lorsque le système devient incapable de faire un choix, l'intervention humaine intervient donc soit pour une simplification, soit un affinement. On distingue trois types d'intervention : pré-édition, post-édition et interaction.

La pré-édition permet de chercher a priori les problèmes que risque de rencontrer le système lors du traitement. Lorsqu'un problème est rencontré, dans certains cas, le texte est reformulé dans un langage contrôlé pour que le système aboutisse à la fin de l'analyse.

En post-édition, l'homme intervient après l'analyse afin de corriger les éventuelles erreurs du système. Les systèmes de traductions statistiques nécessitent souvent une intervention humaine en post-édition.

En interaction, l'homme intervient au cours du processus d'analyse si le système rencontre une ambiguïté qu'il ne sait pas lever.

En traduction entièrement automatique, l'homme n'intervient pas. Ces systèmes sont généralement utilisés dans des contextes précis (notice d'utilisation par exemple). Malheureusement, à l'heure actuelle, les résultats de ces systèmes de traduction ne sont pas exempts de défauts.

 c.Stratégies et techniques

Bien que les stratégies de traduction aient varié selon les époques, leurs principes fondamentaux restent toujours plus ou moins identiques. Ils sont au nombres de trois puisqu'ils concernent les trois étapes principales du processus de traduction : L'analyse morpho-syntaxique, le transfert lexical et la génération (voir figure ci dessous).

figure représentant les étapes de la traduction.

L'analyse morpho-syntaxique:

L'analyse a pour objectif de transformer chaque phrase (unité syntaxique du texte) en une structure hiérarchique, sous forme d'arbre étiqueté, représentant les divers constituants syntaxiques ainsi que leur fonction. L'avantage de cette structure est qu'elle peut être

Page 16 / 83

Analyse morpho­syntaxiquedu langage source

Transfert Lexical du

langage sourcevers le langage

cible

Transformationsyntaxique vers le langage cible

Boucle nécessairepour la désambiguïsation

Boucle nécessairepour la désambiguïsation

Page 17: Mémoire de Stage Transfert sémantique bilingue pour un

manipulée par un système automatique sans intervention humaine.

L'une des constatations de tous les développeurs de système d'analyse morpho-syntaxique est que ce qui paraît simple pour l'homme ne l'est pas forcément pour la machine. Lors de cette phase, il s'agit de trouver les lemmes composant un texte ou une phrase ainsi que décoder la structure des phrases.

Un lemme est une unité lexicale associable à une ou plusieurs catégories grammaticales. La lemmatisation est un pré-traitement de reconnaissance des catégories grammaticales des mots de la phrase. Elle est nécessaire pour la construction de l'arbre, car les dites catégories servent d'étiquettes pour des noeuds non terminaux.

L'analyseur effectue une série de dérivations à partir d'une liste de règles syntaxiques, afin de préciser progressivement le rôle de chaque terme dans la phrase. La construction de l'arbre syntaxique est faite en profondeur. Ainsi, chaque étiquette de noeud de niveau supérieur (parent) désignera une fonction syntaxique dont l'ultime (la racine) est le noeud « PH » (pour phrase). Ce sont les techniques de résolution logique qui sont appliquées (unification de grammaires ).

Si l'on reprend notre phrase exemple: « La   mère   accompagne   sa   fille déguisée à l'école ». Voici un arbre syntaxique produit par SYGFRAN (analyseur syntaxique du Français de Jacques Chauché, utilisé dans l’équipe TAL).

Les étiquettes en majuscules sont des étiquettes syntaxiques (symboles non terminaux). SYGFRAN fait l’économie des catégories grammaticales (ou natures) qu’il affecte directement dans les développement des noeuds terminaux. Ainsi le noeud terminal 4 –4, qui, sur l’arbre reçoit l’étiquette « le » (lemme), est en réalité un noeud multi-étiqueté qui reçoit en outre des étiquettes-symboles comme la catégorie (CAT= DETERM ou déterminant) et la sous-catégorie (SOUS_CAT =ARTDEF, article défini) etc...

Page 17 / 83

Page 18: Mémoire de Stage Transfert sémantique bilingue pour un

                   1­1

                    |                    _                    |                    |                   2­2                   PH                    |          _________________________________________________          |                   |                           |          |                   |                           |         3­3                 6­6                        13­13         GN                  GV                        GNPREP            |                   |                           |      ___________         ___________            _____________________     |         |         |         |            |         |         |     |         |         |         |            |         |         |    4­4       5­5       7­7       8­8         14­14     15­15     16­16    le       mère  accompagne    GN             à        le      école                                   |                         _____________________                         |         |         |                         |         |         |                        9­9      10­10     11­11                        sa       fille      GA                                             |                                            ___                                             |                                             |                                           12­12                                          déguisé

Les analyseurs morpho-syntaxiques donnent des résultats souvent décevants sur des corpus de textes généraux, mais se révèlent bien meilleurs sur des corpus spécialisés. Cela est dû non pas aux méthodes utilisées mais surtout à la complexité intrinsèque du langage naturel. L'élaboration d'une grammaire d'analyse est un travail de longue haleine pour n'importe quelle langue naturelle. Il y a tellement de cas spéciaux qu'il faut les avoir rencontrés pour ajouter les règles pour les analyser correctement.

La désambiguïsation lexicale a lieu lors de l'analyse morpho-syntaxique. Elle met en oeuvre des modèles de représentation paradigmatiques parfois élaborés, comme la sémantique; ou les relations fonctionnelles entre objets lexicaux.

Un des principes les plus utilisés est celui de la co-occurrence de termes : « une lexie sera plus couramment rencontrée dans un contexte lexical donnée par une liste de termes » [Salton1988]. Cependant, il existe des cas où le contexte détourne l'analyse d'un terme de son vrai sens.

Il existe d'autres modèles comme les vecteurs thématiques : « l'ensemble des lexies d'une phrase active un certain nombre de concepts proche du terme à désambiguïser ». Nous reviendrons sur ces vecteurs un peu plus loin, car c'est la méthode utilisée dans notre projet.

La modélisation du sens d'un mot peut être aussi représentée par ce qu'on appelle les réseaux sémantiques. Ce sont des graphes qui établissent des types de relations entre les

Page 18 / 83

Page 19: Mémoire de Stage Transfert sémantique bilingue pour un

termes comme l'inclusion, l'hyponymie, l'hypéronymie, l'antonymie. Ces représentations constituent des bases de connaissances pouvant intervenir dans la représentation du sens.

Un point faible des méthodes de co-occurence ou de réseaux: elles nécessitent un apprentissage de connaissances long et généralement effectué de manière supervisée : concernant l'acquisition et création des données utilisées (vecteur pour chaque terme de la langue, création du réseau sémantique).

Le transfert lexical:

Le transfert consiste à transposer les étiquettes des feuilles de l'arbre obtenu par l'analyse morpho-syntaxique dans le langage cible ainsi que de lever les ambiguïtés sur les termes. Le problème principal de ce processus est donc bien la désambiguïsation du langage cible celle concernant le langage source ayant été effectué lors de l'analyse morpho-syntaxique. L'utilisation de dictionnaires bilingues est obligatoire, que ce soit pour les systèmes de traduction bilingue ou pour les systèmes multilingues. A partir d'un dictionnaire bilingue, on récupère une liste de termes du langage cible qui sont candidats pour la traduction du terme du langage source. Le problème est de sélectionner celui qui se rapproche le plus possible du vrai sens du terme source. Certains systèmes choisissent par défaut le terme le plus usuel. Cependant les phénomènes contrastifs et les formes idiomatiques ou expressions posent le plus de problèmes lors de la traduction. Les expressions et les idiomes doivent être détectés en amont du transfert sous peine de générer une mauvaise traduction, elles sont trouvées généralement lors de l'analyse morpho-syntaxique. Les phénomènes contrastifs peuvent, eux, être traités par le contexte sémantique de la phrase.

Exemple de phénomène contrastif : Le transfert de la lexie « abats » (organes comestibles d'animaux d'élevages) vers l'anglais implique de distinguer s'il s'agit d'un animal de basse-cour qui se traduit par « giblets » ou de prairie qui donnerait « offal ».

Le transfert grammatical:

Il s'agit, à partir de l'arbre syntaxique du langage source généré par l'analyse morpho-syntaxique, de le transformer pour obtenir un arbre syntaxique dans le langage cible. A partir d'une grammaire de règles de transformation, on modifie l'arbre dans une suite d'itérations jusqu'à ce qu'aucune règle de transformation ne soit applicable. On obtient aussi la structure de la phrase du langage cible. La qualité de cette étape dépend du niveau d'ambiguïté locale et globale, et donc de la grammaire de règles de transformation. Si la grammaire induit trop de changements possibles à chaque étape, la complexité du processus risque de devenir exponentielle. Si elle est trop permissive, on risque d'aboutir à plusieurs structures finales. Construire cette grammaire de transformation est aussi long et délicat que de développer la grammaire d'analyse du langage. Pour réduire le risque d'explosion exponentielle de la complexité, il faut utiliser des grammaires contextuelles (automates déterministes) ainsi que des priorités dans l'ordre d'application des règles de transformations.

Par exemple : La phrase « tu me manques » donne l'arbre T. Sa traduction « I miss you » donne la structure T' :

            T             T'

Page 19 / 83

Page 20: Mémoire de Stage Transfert sémantique bilingue pour un

           1­1

            |            _            |            |           2­2           PH            |     ________________     |              |     |              |    3­3            5­5    GN             GV     |              |     _         ___________     |         |         |     |         |         |    4­4       6­6       8­8    tu        GN      manquer               |               _               |               |              7­7              me

           1­1

            |            _            |            |           2­2           PH            |     ________________     |              |     |              |    3­3            5­5    GN             GV     |              |     _         ___________     |         |         |     |         |         |    4­4       6­6       8­8    I        miss       GN                         |                         _                         |                         |                        7­7                        you

Les règles de transformation touchent ici le sous-arbre sous le noeud 5 : il s'agit de l'application d'une règle d'inversion pronom personnel complément d'objet et verbe, et du changement de la personne de ce pronom ( verbe réfléchi dans la langue source, verbe non réfléchi dans la langue cible).

Dans l'équipe TAL du LIRMM, c'est le prototype SYGFtoE (développé par Violaine Prince) [Prince2005] qui se charge de ce transfert. Le Transfert Lexical objet de ce travail est destiné à SYGFtoR.

Les différentes stratégies de traduction:

L'interlangue, ou langage pivot, est historiquement l'une des premières méthodes dans les systèmes de seconde génération. Elle est utilisée surtout pour des systèmes de traduction automatique multilingues, elle aurait effectivement peu d'intérêt dans un système de traduction bilingue. L'idée est d'utiliser un langage, dit universel, vers lequel tous les langages sources seront traduits. Puis, du langage pivot, le système traduit vers le langage cible. Cela signifie que l'analyse du langage source est indépendante du langage cible souhaité. Le travail de Nawel Nassr dans sa thèse: « croisement de langues en recherche d'information : traduction et désambiguïsation de requêtes » [Nassr] est un exemple récent de système de traduction de requêtes multilingues utilisant un langage pivot. Elle a choisi l'anglais en langage pivot. C'est un choix presque imposé, l'anglais étant la langue la plus parlée dans le monde. Dans un système multilingue, le problème des dictionnaires de couple de langues se pose. Or il est plus facile de trouver des dictionnaires bilingues avec l'anglais que des dictionnaires bilingues espagnol-russe par exemple. Cependant, l'utilisation de deux dictionnaires bilingues afin de traduire par langage pivot augmente les ambiguïtés des termes lors des phases de traductions. L'utilisation de la traduction bidirectionnelle pour lever

Page 20 / 83

Page 21: Mémoire de Stage Transfert sémantique bilingue pour un

l'ambiguïté des termes est une solution choisie par Nassr. Elle donne de bons résultats avec l'utilisation du langage pivot, en contre partie cette solution amène à une généralisation du sens des termes et non à une spécialisation. Cela peut s'expliquer par le fait que les dictionnaires ne sont pas toujours complets. Les cas rares n'apparaissent pas forcément dans tous les dictionnaires, dans ce cas un mot plus général sera choisi. Pour finir, il est clair que l'utilisation d'un langage pivot dans un environnement multilingue est le mieux adapté car cette méthode permet d'ajouter facilement un nouveau couple de langues grâce à un développement modulaire par l'ajout d'analyseur ou de générateurs. Cependant, l'espoir d'atteindre un bon langage universel, c'est-à-dire contenant toutes les informations nécessaires à la traduction vers n'importe quel langage, est actuellement revu de manière moins ambitieuse.

La stratégie de transfert témoigne d'une prise de conscience des chercheurs sur le fait suivant : les systèmes de traduction automatique à langage pivot sont difficiles et longs à développer pour un résultat plutôt moyen. Cette stratégie effectue deux types de transferts :

● Transfert Lexical effectuant une substitution des mots de la langue source par des mots de la langue cible et une désambiguïsation des termes lexicaux.

● Transfert Grammatical modifiant la structure grammaticale source pour obtenir une structure grammaticale cible correcte.

L'influence des linguistes va aider les créateurs de systèmes de traduction. Ensemble, ils feront progresser les analyseurs en étudiant plus profondément les structures grammaticales des langues. Les résultats des systèmes de traduction bilingues à base de transferts étant, en général, meilleurs que les traducteurs à langage pivot, ils tendent à prouver qu'un bon traducteur sera un traducteur bilingue.

Les systèmes à base de mémoires ou d'exemples font appel à des bases de données de corpus alignés. Un document du langage source est donc traduit vers le langage cible. Les liens de traduction entre chaque terme du document est consignés de façon explicite. Plus la base de données est grande en nombre de phrases ou d'exemples plus le système améliore sa précision. C'est une méthode basée sur les probabilités dont les règles de correspondances sont des énoncés de surface ou des structures calculées. Lors du choix de la solution, la correspondance terme source terme cible sera choisi si elle apparaît le plus dans la base de données comparé aux autres solutions. Dans cette méthode les phases d'analyse du texte source et la génération du texte cible sont des processus très sommaires.

 d.Quelques références

Dans cette section, nous allons parler de certains systèmes connus ou de projets. Le plus utilisé actuellement est, sans conteste, SYSTRAN, interrogeable depuis internet sur plusieurs sites qui offre une interface de communication avec, dont Google et Altavista. Un des projets français, ARIANE, a été développé par le GETA (Groupe d'Etude sur la Traduction Automatique). C'est un environnement de développement pour la traduction automatique.

Page 21 / 83

Page 22: Mémoire de Stage Transfert sémantique bilingue pour un

SYSTRAN :

C'est un environnement multilingue composé de systèmes bilingues, utilisant la méthode de transfert [SYSTRAN]. Il est développé sous forme de modules bilingues (un pour chaque paire de langue). Il est le résultat de plusieurs dizaines d'années de recherche et de développement. Pionnière dans la traduction automatique, la société a été créée en 1968, elle est issue d'un projet universitaire de Georgetown University. Elle a produit l'un des plus gros système de traduction automatique, également parmi les plus complets. Le développement sous forme de modules lui permet d'échanger les informations entre modules afin de construire un contexte approprié et permet la cohabitation des anciens modules comme des nouveaux. SYSTRAN utilise une base de données incorporant plusieurs dictionnaires bilingues pour 35 paires de langues plus les dictionnaires monolingues nécessaires à l'analyse morpho-syntaxique. L'un des points fort du système, c'est qu'il permet d'analyser un texte contenant des phrases incomplètes ou mal-formées. En revanche, les résultats de SYSTRAN sont d’une correction grammaticale relativement faible, et nécessitent une forte réécriture humaine.

ARIANE :

Ariane-G5 est un générateur de systèmes de TAO reposant sur cinq langages spécialisés pour la programmation linguistique (LSPL), [Boitet1990] . Ces LSPL sont des langages ayant chacun un but particulier au sein d'ARIANE:

● ATEF a été conçu en 1971 par J. Chauché [Chauché1975] pour l'analyse morphologique

● ROBRA est un langage pour la transformation d'arbres décorés [Boitet, Guillaume & Quézel-Ambrunaz 78], successeur du langage CETA [Chauché1975] .

● SYGMOR est un langage pour la génération morphologique [Guillaume 1989a].● TRACOMPL est un langage pour la transformation de décorations [Guillaume

1989b].Les trois étapes de la traduction automatique dans ARIANE comportent plusieurs phases chacune écrite avec un des cinq LSPL ci-dessous. ARIANE est donc particulièrement adapté pour mettre au point un système de traduction automatique par transfert, cependant il ne l'impose pas. Ainsi il est possible de créer un système de traduction automatique par langage pivot. L'une des contraintes d'ARIANE du à son implémentation, est l'obligation d'utiliser des arbres décorés pour représenter la structure des phrases. Seules l'entrée de l'analyse et la sortie de la génération sont des chaînes de caractères.

TRANSX: (http://rali.iro.umontreal.ca/): Le RALI propose une famille d'outils d'aide à la traduction, basés sur des modèles

probabilistes appelé TRANSX. Cette famille est composée de 3 systèmes :

● TRANSSEARCH : recherche multilingue contextuelle, par appariement entre le texte en langue de départ et des bases de données de traductions pré-existantes. Système à base de mémoire de traduction : TransSearch permet de fouiller des mémoires de traduction, appelées TransBases, à l'intérieur desquelles les documents sont appariés phrase par phrase. Différentes méthodes permettent d'obtenir de tels appariements.

● TRANSTYPE : Accélère la saisie de la traduction en anticipant les choix du

Page 22 / 83

Page 23: Mémoire de Stage Transfert sémantique bilingue pour un

traducteur et, au besoin, en les critiquant. L'outil propose ses choix en tenant compte à la fois du texte en langue de départ, et de la traduction partielle déjà produite par le traducteur.

● TRANSCHECK: Détecte automatiquement certaines erreurs de traduction en vérifiant que les correspondances entre les segments du texte en langue de départ et les segments d'une ébauche de traduction respectent les propriétés souhaitées d'une bonne traduction. Recherche de faux-amis, expressions, etc. par appariement dans une base de connaissances, et vérification d'une certaine cohérence terminologique(en particulier pour le vocabulaire technique).

De nombreux autres systèmes de traduction existent (babelfish. reverso de softissimo), ils reposent pour la plupart sur l'architecture de la seconde génération. Ils ne se distinguent, souvent, que par la manière dont les méthodes et résolution de problèmes ont été implémentées. Les systèmes les plus couramment rencontrés utilisent des représentations de la structure grammaticale en arbres étiquetés, cela montre donc un grand intérêt de la communauté et donc une certaine efficacité de cette technique. Toutefois, on peut remarquer qu'aucun des systèmes n'offre de techniques permettant de modéliser du sens. Les modèles sémantiques sont, dans la majorité des cas, des graphes relationnels entre objet lexicaux, mais ne véhiculent pas la thématique du discours.

 II.Méthodes et Outils pour la T.A.

De nombreux travaux de recherche actuels dans le domaine du TALN, explorent beaucoup de pistes concernant la représentation sémantique et des relations entre les objets lexicaux. Parmi eux, plusieurs projets visent à la création de données sémantiques liées au web sémantique. On peut citer les lexiques sémantiques [WordNet] et [EuroWordNet], les réseaux sémantiques comme [UMLS] (Unified Medical Language System) ou [CYC]. Néanmoins, il existe aussi des sources de données sémantiques créés bien avant l'avènement de l'informatique: les thésaurus. A ce titre, nous nous intéresserons plus particulièrement au Roget’s Thesaurus of English Words and Phrases (1852) ou encore le thésaurus français Larousse.

Les lexiques sémantiques regroupent les mots en les reliant par des relations sémantiques lexicologiques comme la synonymie, l'hyponymie et la méronymie (mot désignant le tout par une partie : « le bras désignant le corps » par exemple). WordNet est un lexique sémantique anglais regroupant environ 90 000 ensembles de classes sémantiques appelées « synset ». Ce sont des collections de synonymes, regroupant des items lexicaux ayant un sens proche allant du plus général au plus spécifique. EuroWordNet est l'équivalent mais pour les langues européennes. Chaque langue est reliée aux autres à travers un index inter-langues. Celui-ci facilite le passage d'une langue à une autre.

Les réseaux sémantiques regroupent les termes entre eux via un ensemble de relations issues de la nature du domaine de l'application. Deux termes sont reliés entre eux par au moins une relation. UMLS est un réseaux sémantique basé sur le thésaurus [MeSH]. Il est spécifique au domaine médical. Il intègre les informations linguistiques,

Page 23 / 83

Page 24: Mémoire de Stage Transfert sémantique bilingue pour un

terminologiques et sémantiques en trois parties : un lexique spécialisé, un méta-thésaurus et un réseau sémantique. Le méta-thésaurus est multilingue, il décrit le même concept dans plusieurs langues tandis que le réseau sémantique organise tous les concepts du méta-thésaurus en 134 types et 54 relations représenté par un triplet <objet, relation, objet>. CYC, Quand à lui est un réseau sémantique général contenant un million de règles définies à la main. Il permet de représenter des connaissances comme, par exemple, le fait qu'un arbre (végétal) se situe généralement dehors.

Les thésaurus regroupent les mots similaires par rapport à un ensemble de relations comme les termes proches, les termes généraux et les liens de parenté entre les mots. Par exemple, le thésaurus Roget, pour les mots anglais, regroupe les mots en catégories appelées concepts en utilisant les synonymes et antonymes. Un mot peut appartenir à plusieurs concepts en même temps. Chaque concept représente un sens général, ou acception. Les concepts Roget sont classés en 6 niveaux hiérarchiques (voir annexe 1). On peut voir, dans les concepts des thésaurus, une manière de représenter du sens. Dans les thésaurus, un index des mots de la langue du thésaurus est fourni. Chaque mot est indexé avec les numéros de concepts représentant ses sens (un concept par sens). L'équipe TAL du LIRMM utilise donc les concepts comme un espace vectoriel où chaque concept représente une composante de l'espace vectoriel. C'est ainsi que la technique des vecteurs sémantiques est née [Chauché1990]. Larousse a créé un thésaurus pour le français en 1992 de 873 concepts repartis en 3 thèmes : l'homme, le monde et la société (voir annexe 2).

 a.Les vecteurs sémantiques

Les vecteurs sémantiques permettent donc de représenter du sens. Chaque concept est une composante du vecteur sémantique. On attache un vecteur sémantique à chaque mot pour représenter ses sens. L'intérêt du modèle des vecteurs sémantiques est qu'il se dote de toutes les propriétés des espaces vectoriels : produit, sommes, distances. Les vecteurs sémantique permettent donc de calculer des fonctions lexicales comme la synonymie [Prince 91], [Lafourcarde&Prince2001], l'antonymie [Schwab 2002] ou encore l'hypéronymie [Lafourcade&Prince2003].

On considère donc que le thésaurus est un espace générateur pour les mots et leurs sens. Cet espace n’est pas libre (pas de base propre) et n’importe quel terme peut y projeter ses sens. L'ensemble des concepts du thésaurus représente une famille de vecteurs génératrice de l'espace vectoriel du thésaurus.

Soit C un ensemble ni de fi n concepts. Un vecteur sémantique V est une combinaison linéaire des éléments ci de C . Pour un mot M , le vecteur VM est la description (en extension) des activations des concepts de C. Par exemple VPalais active les concepts : goût (373), tribunal (714) , maison (848). On écrit donc VPalais = 373, 714, 848;

Il y a deux manières de représenter les vecteurs sémantiques. La première une manière simpliste mais efficace, où le vecteur est booléen. La valeur 0 représentant l'absence du concept, la valeur 1 représentant la présence du sens du concept lié. On dit alors que le concept est actif. Cette propriété ne peut pas être considérée comme un défaut. Les vecteurs sémantiques booléens sont en effet particulièrement adaptés à la classification de texte [Chauché2003]. C'est la représentation de base pour un mot sans prendre en compte le contexte. La deuxième est un peu plus précise, est permet de gérer un taux entre 0 et 1. Plus

Page 24 / 83

Page 25: Mémoire de Stage Transfert sémantique bilingue pour un

la valeur est proche de 1, plus le sens du concept est présent dans le vecteur. Cette représentation a le mérite d'être utile pour calculer le vecteur sémantique d'une phrase ou même d'un texte complet. Il suffit alors de proposer une combinaison linéaire de tous les vecteurs sémantiques de chaque lexie de la phrase. Notons que l'analyse morpho-syntaxique permet d'affiner les vecteurs sémantiques de chaque lexie dite « gouvernante » en appliquant une pondération sur son vecteur propre et puis normer ce vecteur pour que ses composantes soit comprises entre 0 et 1. On dit alors que le vecteur sémantique est contextualisé puisqu'on y renforce les sens présents dans les autres mots de la phrase.

 b.Distance sémantique

Comme ce modèle utilise les propriétés des espaces vectoriels , nous pouvons utiliser la distance angulaire nommé distance sémantique dans le modèle. On définit donc la notion de distance sémantique Ds par :

D s X , Y =arccos Sim X , Y oùSim X ,Y =cos X ,Y =X . Y / X ∗Y

Sim est appelé mesure de similarité. La distance sémantique entre deux vecteurs permet calculer leur similitude où plus précisément la proximité sémantique, on considère que pour les vecteurs sémantiques X et Y sont sémantiquement proche. Il existe plusieurs mesures de similarité [Besançon]. Nous avons donc un moyen de calculer du sens grâce à cette propriété en comparant les vecteurs entre eux. Nous pouvons alors manipuler cette représentation sémantique.

 c.Notre outils : SYGFRAN (J. Chauché)

Selon Jacques Chauché, concepteur du système, l'analyse et le traitement du langage naturel repose sur l'identification des notions morphologiques, syntaxiques et sémantiques. SYGFRAN, l’analyseur du Français, est construit à partir de SYGMART. Ce dernier est un outil permettant de produire des applications correspondant à ces notions avec trois grandes fonctions.- L'analyse et la synthèse morphologique étudient la segmentation des mots : préfixes, infixes et suffixes. Ce sont les sous-systèmes OPALE et AGATE qui effectuent ces traitements.- Les traitements syntaxiques et sémantiques sont fondées sur la reconnaissance de groupes (Sujet, Verbe, Complément) pour la syntaxe, et de la signification du groupe pour la sémantique. Le sous-système TELESI permet de construire des traitements d'analyse et de manipulation des structures. La sémantique sera abordée de deux façons:

● Génération d'une expression logique.● Définition d'un traitement vectoriel.

Les traitements TELESI ( Transduction d'Eléments Structurés Indexé) reposent sur la définition des algorithmes de Markov.

Le principe de l'algorithme de Markov est le suivant. Il consiste en une suite de substitutions de chaînes de caractères appliquées à un mot, selon des règles préalablement définies. Il résulte de ces substitutions successives un nouveau mot, résultat de l'algorithme.

Page 25 / 83

Page 26: Mémoire de Stage Transfert sémantique bilingue pour un

Une règle (ou « formule de substitution ») est définie par deux chaînes de caractères : la chaîne à remplacer et la chaîne de remplacement. Par convention, on symbolise une règle en plaçant la chaîne à remplacer à gauche d'une flèche et la chaîne de remplacement à droite de cette règle.

Exemple de règle : A -> B

Une règle est applicable à un mot si ce mot contient la partie gauche de la règle. Appliquer une règle à un mot consiste à remplacer la première instance de la partie gauche de la règle apparaissant dans le mot par la partie droite de la règle. Si on reprend l'exemple précédent et qu'on l'applique au mot "ARIANE" donne "BRIANE". Les règles sont définies dans un ordre particulier : le résultat de l'algorithme dépend de cet ordre. Chaque règle possède donc un ordinal. De plus une règle peut être terminale : lorsqu'elle est appliquée, l'algorithme se termine. Une telle règle sera marquée par la présence d'un point en début de partie droite.

L'algorithme de Markov prend en entrée un mot. Il retourne également un mot, résultat de l'algorithme appliqué au mot initial. L'algorithme se déroule de la façon suivante : tant qu'une règle est applicable au mot courant et que la dernière règle appliquée est non terminale, on parcourt les règles dans l'ordre à partir de la première et on applique la première règle applicable au mot courant.

La construction d'une structure syntaxique s'effectue donc par une suite de transformations structurelles issues d'un algorithme de Markov avec des règles de transformations d'arbres. Les règles sont ordonnées. L'ensemble des règles applicables est appliqué simultanément. Si une règle est applicable sur un noeud, aucune autre règle ne peut être appliquée sur un descendant de ce noeud simultanément. Cet ensemble de règles composent ce qu'on appelle une grammaire de transformation.L'analyse morphologique construite avec le système OPALE permet d'obtenir une arborescence plate à 2 ou 3 niveaux. La construction syntaxique utilise le système TELESI pour transformer cette structure. Les structures sont multi-étiquetées : chaque noeud est affecté d'une étiquette comprenant un ensemble de variables et de valeurs. De plus, l'ensemble des traitements peut comporter la lecture de dictionnaires : collections structurées hiérarchiquement d'ensemble de couples index/valeur. On distingue les dictionnaires de chaînes (les index sont des segments ou chaîne de caractères ) et les dictionnaires d'étiquettes (les index sont des valeur de variables ).L'analyse morpho-syntaxique et le calcul des vecteurs sémantiques contextualisés sont les moteurs principaux de cet outil qu'est SYGFRAN. Néanmoins, grâce à l'insertion de grammaires et de dictionnaires on peut destiner le système à des applications variés faisant appel aux mêmes principes. SYGFRAN est particulièrement adapté pour effectuer de la transduction d'arbres à partir de grammaires transformationnelles [Chauché1984]. Voici une liste des applications que SYGFRAN peut actuellement réaliser :

• Transformation syntaxique: Il est capable de réaliser la transformation d'une fonction LISP en une fonction C.

• Analyse morphologique d'une langue (ici le français dans SYGFRAN): lemmatisation

• Analyse syntaxique d'une langue (français).

• Analyse sémantique : Passage à une forme logique.

Page 26 / 83

Page 27: Mémoire de Stage Transfert sémantique bilingue pour un

• Analyse sémantique: Calcul d'un vecteur sémantique.

• Traduction automatique (en cours de développement dans SYGFtoE).

L'équipe de recherche TAL du LIRMM s'est dotée de modèles et d'outils puissants pour accomplir diverses tâches liées aux traitements sur les textes (classifications, relation lexicales, représentations de sens, traduction). Les grammaires de SYGMART sont en permanence maintenue par M. Chauché, effectivement il n'est pas rare de se confronter, lors d'analyse de texte, à cas de syntaxes rares qui ne sont pas encore contenus dans la grammaire de règles.

Page 27 / 83

Page 28: Mémoire de Stage Transfert sémantique bilingue pour un

 C.Le projet

Cette partie est consacré aux travaux effectués pour la réalisation du module de transfert lexical bilingue en traduction automatique. L’énoncé de départ était d’étudier des méthodes de réalisation de transfert lexical dans le cadre des outils et contraintes de l’équipe TAL du LIRMM. C’est ainsi que j’ai pu dégager les tâches suivantes.

 I.Principe général du logiciel cible SYGFtoE (V. Prince)

La traduction automatique de ce module vise à traduire un ensemble de phrases françaises vers l'anglais. L'utilisateur donne en entrée du programme un ensemble de phrase. SYGFRAN va alors effectuer une analyse morphologique et syntaxique de chaque phrase à travers ses deux sous-systèmes OPALE et AGATE. Puis la transduction de la structure est réalisée par le sous-système TELESI. Il donne en sortie la structure grammaticale sous forme d'arbre, ainsi que, pour chaque mot, le vecteur sémantique du mot, dans l'espace vectoriel du thésaurus Larousse, modifié par le contexte de la phrase.

Le traducteur SYGFtoR, interroge alors le dictionnaire de traduction français anglais afin de récupérer, pour chaque mot, l'ensemble des traductions possibles, sans prise en compte du sens. A partir de là, il s'agit de trouver une méthode pour sélectionner dans cette ensemble de traductions, la traduction la plus appropriée. Il s'agit donc de réaliser l'étape dit du Transfert Lexical. Le prototype de traduction calcule, par des règles de transformation en OPALE et AGATE les valeurs des étiquettes de l’arborescence anglaise cible. Ensuite, une adaptation du sous-système TELESI au problème de la traduction (ou le module TELESI de SYGFtoE) réalise des transformations grammaticales par transduction. Il replace chaque traduction au bon endroit afin d'obtenir une phrase en anglais correct.

 II.Problématique et Méthodologie pour le transfert lexical

En prenant l'hypothèse que nous disposons de dictionnaires complets, notre problème est de savoir comment passer du français à l'anglais en prenant en compte la sémantique des mots. Pour illustrer ce problème de choix, prenons un exemple avec le verbe « accompagner » dans quatre phrases où ce mot a un sens différent:

● « Le rôti est accompagné de pommes de terre ». 

Ici « accompagner » à le sens de « servir avec ». Sa traduction donne : « The roast meat is served with patatoes ».

« La petite fille est accompagnée de son chien ».

Sa traduction donne : « The small girl is accompanied by her dog ».

Page 28 / 83

Page 29: Mémoire de Stage Transfert sémantique bilingue pour un

« Le musicien accompagne le chanteur ».

Sa traduction donne « the musician accompagnies the singer ».

« La mère accompagne son enfant à l'école ».

nous avons ici le sens d' « amener » ce qui donne en anglais : « the mother takes her child to school ».

Dans chacune de ces phrases le verbe « accompagner » ne se traduit pas de la même façon. Notre problème : comment la machine peut différencier ces quatre sens ? Comment choisir la bonne traduction du verbe « accompagner » ?

Nous devons traduire un mot français en un mot Anglais, cependant la polysémie ne permet pas d'effectuer une traduction direct. La figure ci-dessous schématise le fait que l'on ne peux pas passer directement d'une langue à l'autre..

MFrançais MAnglais

Figure schématisant le passage impossible du français vers l'anglais.Mx représente l'ensemble des mots de la langue x

Nous devons donc trouver un moyen de représenter le sens des mots. Or, pour cela, nous disposons de la représentation des vecteurs sémantiques permettant de décrire les sens des mots. Nous pouvons passer d'un univers lexical à l'autre en utilisant les concepts.

Nous disposons déjà de plusieurs éléments pour réaliser la traduction automatique :

l'analyseur du français SYGFRAN.

le prototype SYGFtoE à qui est destiné le projet : il doit réaliser le transfert lexical du français vers l'anglais en utilisant les vecteurs sémantiques de l'espace vectoriel du thésaurus Larousse. Pour le moment, il utilise un dictionnaire bilingue français-anglais sans l'exploiter de manière sémantique. Il prend la traduction par défaut du mot.

Un dictionnaire des mots français contenant le vecteur sémantique de chaque terme dans l'espace vectoriel du thésaurus Larousse.

Un dictionnaire bilingue français-anglais nous permettant de restreindre l'espace de recherche des traductions en sélectionnant pour un mot un sous-ensemble de traductions possible de ce mot.

Ce qui manque à SYGftoE : un thésaurus des mots anglais pouvant exploiter la représentation des vecteurs sémantiques. Le thésaurus Roget correspond parfaitement à ce dont le système a besoin. Cependant, l'espace de représentation vectoriel du thésaurus Roget n'est absolument pas le même que celui du thésaurus Larousse ce qui pose donc un problème. Il faut donc réaliser une transposition d'un espace vectoriel vers l'autre espace vectoriel pour réaliser la traduction. La figure ci dessous montre le principe de la méthode.

Page 29 / 83

Page 30: Mémoire de Stage Transfert sémantique bilingue pour un

MFrançais MAnglais

CLarousse CRoget

Figure schématisant le passage du français vers l'anglais en utilisant les thésaurus.Mx représente l'ensemble des mots de la langue x

Cx représente l'ensemble des concepts du thésaurus x

 III.Première Analyse

La version actuelle de SYGFtoR, implémente le travail de transfert lexical de Jean-Michel Delorme [Delorme2003]. Force est de constater que cette version de transfert lexical ne donne pas le résultat escompté, elle a même plutôt tendance à sélectionner le plus mauvais sens du mot à traduire. C’est cette question qui devait être résolue par mon stage : est-ce la méthode de transfert vectoriel qui est mauvaise, ou est-ce dû à une pollution des sources de données ? En effet, l'un des gros problèmes du TALN est l’accès à des données dictionnairiques fiables et opérables par machine. Il existe de nombreuses ressources, mais dont la qualité est soit médiocre, soit inconnue.

J'ai donc recommencé l'étude à zéro. Un examen du travail de M. Delorme a donc été rapidement fait pour trouver les raisons du dysfonctionnement. Il apparaît clairement, en peu de temps, que le problème vient en partie des sources de données. Nous en reparlerons un peu plus loin.

Étudions le cas d'une phrase à traduire : « Le   musicien   accompagne   le chanteur ». Une fois l'étape de l'analyse morpho-syntaxique effectuée nous disposons de plusieurs renseignements pour chaque terme de la phrase:

Sa catégorie grammaticale (nature).

Son genre et son nombre.

Sa fonction dans la phrase.

Son vecteur sémantique contextualisé dans l'espace vectoriel Larousse.

A partir des trois premiers renseignements, SYGFtoE sélectionne dans le dictionnaire bilingue l'ensemble des traductions possibles du mot (voir figure). Dans cet ensemble restreint (une dizaine au plus) de traductions possibles, je dois trouver une méthode pour affiner la traduction et n'avoir plus qu'un seul terme, celui qui correspond le mieux.

Page 30 / 83

Changement d'espace

vectoriel par matrice de transfert

Page 31: Mémoire de Stage Transfert sémantique bilingue pour un

Nous pouvons remarquer que nous disposons d'un dernier renseignement fourni par SYGFRAN. Il s'agit du vecteur sémantique contextualisé du mot. Ce vecteur représente donc le sens du mot au sein de la phrase. Il apparaît trivialement que nous devons utiliser la puissance des vecteurs sémantiques afin de calculer du sens. Comme nous l'avons vu le thésaurus Roget semble correspondre à nos besoins mais il pose cependant de nouveaux problèmes. Premièrement, le nombre de concepts n'est pas le même. Le thésaurus Roget propose une hiérarchie de 1000 concepts contre 873 pour le Larousse. Deuxièmement, cette hiérarchie n'est pas la même vision du monde, lorsqu'on regarde plus près nous voyons bien que les deux thésaurus sont issus de deux cultures différentes. Faut-il calculer des vecteurs sémantiques ? La réponse à la question est argumentée dans le paragraphe suivant.

 IV.Calculer du sens avec les vecteurs sémantiques.

Pour montrer l'utilité des vecteurs sémantiques dans la prise en compte de la sémantique des mots reprenons notre exemple avec le verbe « accompagner » : En nous plaçant dans un contexte idéal, considérons dans notre exemple les concepts suivants :

197: Mouvement.

199: Rapprochement.

565: Encouragement.

Page 31 / 83

Figure représentant un mot et l'ensemble des traductions possibles.

Page 32: Mémoire de Stage Transfert sémantique bilingue pour un

572: Prudence.

583: Compagnie.

666: Manoeuvres.

781: Musique.

782: Musiciens.

784: Chant.

816: Transports par route.

856: Gastronomie.

855: Repas.

Le vecteur sémantique du verbe « accompagner » est :

'accompagner' :VECTEUR_SEMANTIQUE=565,583,666,816.

Soit le vecteur sémantique contextualisé du verbe « accompagner »  dans la phrase : « Le musicien accompagne le chanteur » :

'accompagner':VECTEUR_SEMANTIQUE=583[0.8], 781[0.8], 782[0.5], 784[0.2]. 

( 583[0.8] signifie que le concept 583 est activé avec un taux de 80%).

Soit la liste des traductions possibles pour le verbe « accompagner », sélectionnée par le système :

'accompany' : VECTEUR_SEMANTIQUE=583, 781.'go with' : VECTEUR_SEMANTIQUE=197, 583.'have somebody with one' : VECTEUR_SEMANTIQUE=199, 583.'serve with' : VECTEUR_SEMANTIQUE=855, 856.'take somebody to' : VECTEUR_SEMANTIQUE=572, 583, 816.

Nous pouvons déjà voir visuellement, que le vecteur du verbe « accompany » est très proche de celui du mot français. C'est effectivement le seul à posséder la présence des concepts Compagnie (583) et Musique(781). Les autres traductions possibles ne possèdent qu'un seul concept concept en commun voire aucun. Une comparaison entre les vecteurs sémantiques par le calcul de la distance sémantique nous montrerait également que le mot anglais « accompany » est la traduction la mieux adapté dans notre phrase exemple.

Néanmoins, nous avons deux univers vectoriels différents possédant les propriétés des espaces vectoriels, nous pouvons donc passer d'un espace vectoriel à l'autre par transformation des vecteurs par une matrice de transfert. Nous devons donc calculer cette matrice de transfert. Cependant, ne disposant pas de version électronique du thésaurus Roget, construire celle-ci était donc impossible au début du stage. J'ai donc dû commencer par trouver une source de données du thésaurus Roget afin de construire une version électronique compréhensible par SYGFRAN.

 V.L'informatisation du dictionnaire des mots du thésaurus Roget.

Page 32 / 83

Page 33: Mémoire de Stage Transfert sémantique bilingue pour un

L'équipe ne disposant que d'une version papier du thésaurus Roget, j'ai commencé par chercher sur Internet via les sites commerciaux, si une version sur CD-rom existait. Je n'en ai finalement pas trouvé, j'ai donc du me rabattre sur la recherche d'un site qui mettait l'index des mots du thésaurus Roget à disposition du public ou d'un site qu'on puisse interroger en ligne. Lors de la lecture du mémoire de Jean-Michel Delorme, j'avais pris note de la source qu'il avait utilisée lors de la création de son prototype de transfert. En allant sur le site : « http://poets.notredame.ac.jp/Roget/ », nous nous sommes rendus compte très rapidement d'où venait l'un des problèmes de traduction du prototype existant. En effet, ce site propose une interface permettant de donner en entrée un mot anglais, puis il renvoie une liste de concepts de l'espace vectoriel Roget. A première vue, cette liste peut paraître cohérente et représenter les concepts du vecteur sémantique mais une comparaison avec la version papier du Roget du laboratoire a vite montré l'incohérence par rapport aux composantes des vecteurs sémantiques des mots que nous avons testés. Effectivement, en regardant de plus près le fonctionnement de ce site, nous nous sommes aperçus que le résultat de la recherche ne représente pas les concepts du vecteur sémantique mais fournit une liste de concepts qui contiennent au moins une fois le mot recherché dans leur définition. Ce qui n'est pas cohérent puisque les antonymes des mots sont donnés dans les définitions de chaque concept. Nous avons donc abandonné l'idée de nous servir de ce site pour créer le fichier informatique de l'index des mots du thésaurus Roget. Après quelques heures de recherche, j'ai trouvé le site du Projet Gutenberg [Gutenberg], projet visant à informatiser tous les livres ne dépendant plus des droits d'auteur et à les mettre à disposition public de manière gratuite. Le site du projet Gutenberg mets donc à disposition une version recorrigée par leur soin du thésaurus Roget ( 1000 concepts dans leur version contre 990 dans la version papier que l'équipe possède) ainsi qu'une liste de mots et de phrases avec leur vecteur sémantique.

Plusieurs problèmes sont apparus lors de l'informatisation. Premièrement, le fichier HTML source ne possédait pas une syntaxe HTML correcte. Certaines balises n'étant pas fermées, cela a provoqué des erreurs dans l'analyse de la source. Il a donc fallu traquer ces erreurs HTML afin de les corriger à la main. Deuxièmement, le fichier était altéré, toute une partie du fichier possédait des « trous » pour certains mots (environ 5% du fichier):

Partie de fichier endommagé :

<b>dart:&nbsp;</b>        <i>­&nbsp;<a href="10681­h­body­pos.htm#274N."> ve        <i>­&nbsp;<a href="10681­h­body­pos.htm#727N."> ar        <i>­&nbsp;<a href="10681­h­body­pos.htm#274V."> ve        <i>­&nbsp;<a href="10681­h­body­pos.htm#284V."> pr

Partie de fichier corrigé :

<b>dart:&nbsp;</b>        <i>­&nbsp;<a href="10681­h­body­pos.htm#274N."> velocity 274 N.</a></i>        <i>­&nbsp;<a href="10681­h­body­pos.htm#727N."> arms 727 N.</a></i>        <i>­&nbsp;<a href="10681­h­body­pos.htm#274V."> velocity 274 V.</a></i>        <i>­&nbsp;<a href="10681­h­body­pos.htm#284V."> propulsion 284 V.</a></i>

Page 33 / 83

Page 34: Mémoire de Stage Transfert sémantique bilingue pour un

Or le programme qui se charge de créer le fichier résultat récupère le mot, « dart » ici, le numéro de chaque concept ainsi que la nature du mot dans lequel ce concept est activé. En étant endommagé, une grande partie des mots anglais n'étaient pas récupérés puisqu'il manquait des informations importantes. Avec le fichier correct, on obtient dans le fichier de sortie pour le mot « dart » :

'dart' : Categorie = Nom ; VECTEUR_SEMANTIQUE=%VECTEUR(ARITH:274,727).'dart' : Categorie = Verbe ; VECTEUR_SEMANTIQUE=%VECTEUR(ARITH:274,284).

Ces deux problèmes ont nécessité un travail de correction de 3 jours complets. J'ai donc obtenu un fichier contenant les mots anglais, leur catégorie et leur vecteur sémantique comme l'exemple ci-dessus. Le fichier est classé par catégorie et par ordre alphabétique. il est directement utilisable par SYGFRAN. Une fois cette étape finie, j'ai donc pu passé à la seconde étape la création de la matrice de transfert.

 VI.La création de la matrice de transformation.

Ma seconde tâche a été de trouver un moyen de projeter un espace vectoriel dans l'autre. Pour cela deux méthodes me sont venues à l'idée. Avant d'exposer les méthodes de création de la matrice de transfert, il faut choisir quel espace vectoriel doit être projeté dans l'autre. Il m'est apparu judicieux de projeter le vecteur sémantique résultat de l'analyse de SYGFRAN dont les composantes sont dans l'espace vectoriel Larousse , vers l'espace vectoriel de représentation du thésaurus Roget. La solution inverse ne me semble pas correcte dans le sens où il faut projeter toutes les traductions possibles de chaque mot dans l'espace vectoriel du Roget, ce qui fait beaucoup plus de calculs à effectuer (autant que de traductions possibles pour chaque mot), alors que, dans la solution retenue, si on projette le résultat de SYGFRAN dans l'espace vectoriel du Roget, il n'y a qu'une seule transformation à faire pour chaque mot de la phrase.

Je vais donc exposer ici les deux méthodes de création de la matrice de transfert. La première est une méthode semi-automatique. La seconde est une méthode manuelle. Cette phase a nécessité le plus de travail durant le stage, car de nombreux petits problèmes se sont révélés durant la création du programme réalisant la matrice de manière automatique. La matrice de transfert doit permettre de transformer le vecteur sémantique de l'espace vectoriel Larousse afin d'obtenir un vecteur sémantique dans l'espace vectoriel du thésaurus Roget Gutenberg. Au final, nous devons avoir une matrice booléenne de 873 sur 1000.

 a.1ère Méthode

La première méthode pour créer la matrice de transfert est la suivante :

- Pour chaque concept Larousse, on cherche l'ensemble des traductions possibles du nom du concept.

- Pour chaque traduction trouvée, on cherche son vecteur sémantique dans l'espace vectoriel du Roget.

Page 34 / 83

Page 35: Mémoire de Stage Transfert sémantique bilingue pour un

- Pour chaque concept on effectue l'union des vecteurs sémantiques des traductions du concept, on obtient alors un vecteur sémantique du nom du concept Larousse dans l'espace vectoriel Roget.

Une fois que j'ai obtenu les vecteurs sémantiques de chaque concept Larousse (873), la construction de la matrice est simple : chaque ligne représente un nom de concept Larousse et son vecteur dans l'espace vectoriel Roget. Pour chaque ligne i on remplit chaque colonne j de la matrice avec 0 ou 1 si le concept Roget numéro j est activé dans le vecteur sémantique du nom du concept i.

On peut voir remarquer que si les lignes de la matrice représentent les vecteurs sémantiques des noms des concepts Larousse dans l'espace vectoriel du Roget, les colonnes, elles, représentent les vecteurs sémantiques des noms des concepts Roget dans l'espace vectoriel Larousse.

Réalisation technique

J'ai donc réalisé un petit programme en C avec la librairie graphique GTK afin de construire cette matrice. Ce programme fonctionne en plusieurs étapes, il permet de sauvegarder les données entre chaque étape afin de pouvoir effectuer des modifications « à la main » dans les fichiers ainsi conservés. En effet quelques petites retouches sont nécessaires à cause de certaines particularités liées à la langue, j'y reviendrai au cours de ce chapitre.

Afin de lister les noms des concepts Larousse dans le programme, j'ai créé à la main un fichier contenant les 873 noms des concepts Larousse sous la forme :

N°:nom_du_concept

Une fonction du programme a donc été produite pour analyser ce fichier et stocker le résultat en mémoire dans un tableau dynamique de chaînes de caractères en vue d'une utilisation dans l'étape suivante.

Ensuite, j'ai utilisé une tableau de 873 listes chaînées dont un maillon contient une chaîne de caractères représentant une traduction possible pour le concept, un pointeur vers une liste chaînée d'entiers permettant l'insertion des valeurs des concepts Roget du vecteur sémantique ainsi qu'un pointeur vers la maillon suivant. Une fonction analyse donc le fichier contenant les données du dictionnaire français-anglais afin de trouver toutes les traductions possibles du concept et range les traductions trouvées dans la liste chaînée correspondante au concept Larousse.

Une fois la liste des traductions possibles pour chaque concept Larousse effectuée, il faut déterminer leur vecteur sémantique dans l'espace vectoriel Roget en vue de la création de la matrice. Pour cela une fonction du programme est chargée de parcourir le fichier contenant les mots anglais avec leur vecteur sémantique Roget (le fichier réalisé en tout début du stage à partir du site du projet Gutenberg) et les comparant aux listes de traductions des concepts Larousse. A la fin de cette étape, on obtient l'ensemble des traductions anglaises possibles pour chacun des 873 concepts Larousse ainsi que leur vecteur sémantique dans l'espace Roget.

Enfin dernière étape, la plus simple a réaliser grâce au travail effectué par le programme en amont, ne fait que mettre en correspondance les vecteurs sémantiques de

Page 35 / 83

Page 36: Mémoire de Stage Transfert sémantique bilingue pour un

chaque traduction possible en effectuant une opération d'union afin d'avoir un vecteur sémantique représentant le nom du concept Larousse dans l'espace vectoriel Roget. La fonction de création de la matrice effectue dont un rassemblement des données de chaque liste chaînée et crée une matrice de 873 par 1000 contenant des booléens signalant l'activation ou non d'un concept dans un fichier directement compréhensible par SYGFRAN.

Problèmes rencontrés

Les problèmes rencontrés durant la réalisation de cette première méthode sont nombreux. Effectivement, le programme n'effectue qu'un test de comparaison de chaînes de caractères entre le nom du concept et le mot français du dictionnaire afin de trouver les traductions, or certains noms des concepts n'étaient pas sous forme lemmatisée (au pluriel pour la plupart) ainsi aucune traduction n'était trouvée pour ces concepts. Nous avons donc passé le fichier créé manuellement dans le programme SYGFRAN afin d'obtenir la forme lemmatisée de tous les noms de concepts. Le fichier résultat a du être épuré à la main. Effectivement lors du passage dans SYGFRAN, le résultat donne toutes les formes de lemme du mot donné. C'est une analyse brute, et donc dans certains cas nous avions du bruit notamment en ce qui concerne les lemmes verbaux ainsi que les articles dans les noms de concepts. Par exemple, il existe un concept nommé « cris et bruits d'animaux ». Typiquement, ce nom est un groupe dont la lemmatisation produit des catégories grammaticales tels que les prépositions, et les conjonctions. Ces expressions ne sont bien entendu pas présentes dans les dictionnaires bilingues. Une fois cette épuration réalisée, il ne nous manquait plus que 63 concepts justement nommées par des expressions.

Voici la liste des 63 concepts du Thésaurus Larousse non directement reconnus par le programme :

290:herbes et fougères292:mousse et hépatique301:insecte et arachnide303:mollusques et petit animal marin305:cri et bruit de animal329:os et articulation331:coeur et vaisseau336:tissu vivant347:trouble de la vision370:son grave393:soin de le corps492:religieux et ministre de culte493:lieu de culte497:fête religieux501:texte sacré648:titre ou titres665:armement ancien671:système politique746:trouble de la parole779:art des jardins780:tendances artistiques783:instruments de musique794:lieu de travail805:métallurgie sidérurgie806:travaux publics816:transport par route

Page 36 / 83

Page 37: Mémoire de Stage Transfert sémantique bilingue pour un

818:transport par rail819:transport maritime et fluvial820:transport par air843:valeurs mobilières860:produits laitiers32 cas posant problème.

Chercher les traductions possibles de ces concepts ne peut pas fonctionner par simple comparaison de chaînes de caractères en un seul passage sur le fichier du dictionnaire bilingue, ce qui est actuellement utilisé. Bien qu'il soit effectivement possible de détecter ces cas et de les traiter à part, il m'a paru inutile de réaliser un changement important dans l'algorithme d'analyse pour des exceptions ne représentant que 3,66% du total. Il est donc nécessaire de rajouter à la main dans le fichier les traductions de ces exceptions pour pouvoir effectuer à 100% l'étape suivante.

Cette réalisation a aussi mis en évidence certains problèmes dans les sources de données d'où proviennent les fichiers utilisés. Effectivement, le dictionnaire bilingue utilisé était de mauvaise qualité. Il manque de nombreuses traductions. Je m'en suis rendu compte lorsqu'il a fallu chercher manuellement les traductions de mots manquantes. Par ailleurs, certaines traductions fournies par ce dictionnaire bilingue étaient étranges pour ne pas dire complètement fausses. Elles ont donc été supprimées. De la même façon, il manque de nombreux vecteurs sémantiques dans le thésaurus Roget du projet Gutenberg. J'ai donc dû utiliser la version papier du thésaurus Roget pour compléter les vecteurs manquants. Comme les nombres de concepts n'est pas le même entre la version papier et la version Gutenberg, j'ai dû, en plus, rechercher les correspondances entre les numéros de concepts. Ce travail de correction et de rajout manuel a nécessité une semaine de travail ce qui est énorme quand on compare cela aux quelques dizaines de secondes nécessaires au programme pour effectuer les recherches dans les fichiers sources.

J'ai donc été confronté à un problème connu de tous les chercheurs en TALN, celui de la qualité des sources de données, problème que l'on ne découvre, généralement, pas tout de suite. Au mieux, on peut s'en rendre compte, comme dans mon cas, lorsque les sources sont utilisées pour construire une partie du programme, au pire lors des expérimentations. Pour résoudre ce problème, nous n'avons pas forcément le choix, soit effectuer un changement de sources de données qui peut mener à nouveau au problème de la qualité, soit réaliser une correction manuelle qui nécessite de nombreuses heures de travail humain.

Expérimentations et résultats de la première méthode.

Les premières expérimentations issues de la première méthode de calcul de la matrice de transfert s'avèrent décevantes. Les traductions des mots polysémiques ne sont pas bonnes.

Par exemple: « Je mange du pain dur. » se traduit pour l'instant par : « I eat a hard stick. ». Seul le mot pain a une mauvaise traduction. Le mot « pain » dont le vecteur comporte le concept « pain » (857) .Dans le vecteur résultant de l'analyse morpho-syntaxique, cette composante est très fortement présente : valeur pour le vecteur normé : 0.990174484

Page 37 / 83

Page 38: Mémoire de Stage Transfert sémantique bilingue pour un

Dans le dictionnaire d'équivalence ( bilingue + vecteurs sémantique Roget) le mot « bread » qui est la traduction logique du mot « pain » a seulement le concept Roget 298 qui correspond au concept « Food ». Logiquement, une fois la transformation par la matrice devrait avoir la valeur pour le concept 298 la plus grande. Cependant après application de la matrice de transfert, le résultat obtenu n'est pas celui escompté : la valeur de la composante 298 dans le vecteur est : 0.0424362993 ce qui est loin d'être la valeur prépondérante. Le vecteur a beaucoup trop de composantes pour pouvoir être sélectionné à partir du calcul de la distance sémantique en tant que traduction correcte du mot « pain ».

Nous avons donc énormément de bruit généré par la matrice de transfert. La raison principale en est que l'utilisation de toutes les traductions possibles du mot du concept génère du bruit par rapport au sens unique du concept. En effet, chaque traduction en tant que mot n'a pas toujours qu'un seul sens, le mot peut être polysémique. En plus comme il y a souvent plusieurs traductions possibles pour un nom de concept, cela ajoute encore plus de sens qui bruite le transfert lexical. Même si on réduit ce nombre de traductions possibles à une seule traduction, c'est-à-dire la plus appropriée par rapport au sens du concept, l'utilisation du vecteur sémantique du mot générera automatiquement aussi du bruit dans une moindre mesure, mais il y en aura toujours.

En utilisant cette méthode on rajoute donc des sens inutiles lors du passage dans la matrice de transfert qui a pour effet de ne pas sélectionner la bonne traduction du mot. Cela est dû à une confusion mot-concept qui ajoute du bruit. Nous avons donc poursuivi notre recherche en explorant la seconde méthode.

 b.2ème Méthode

La seconde méthode pour la création de la matrice de transfert est de projeter chaque concept d'un des univers vers un ou plusieurs concepts de l'autre univers en minimisant ce dernier. Ce travail doit être fait de manière manuelle, il ne peut en aucun cas être fait de manière automatique. Pour gagner du temps nous avons repris un des fichiers résultants de la première méthode : celui contenant pour chaque concept Roget, la liste des traductions possibles du mot représentant le concept.

Réalisation technique.

En partant de la liste de traductions de chaque concept français, nous avons supprimé les traductions éloignés du concept en ne gardant que la traduction la plus adapté au sens du concept. Ensuite nous avons cherché dans les concepts Roget si cette traduction était elle-même un concept dans le thésaurus Roget. Lorsque c'est le cas, aucun problème, la projection est simple. Par contre lorsque ce n'est pas le cas, La recherche de correspondance entre les deux thésaurus est nettement plus longue et difficile. Nous avons donc cherché dans les descriptions de chaque concept activé par le vecteur sémantique de la traduction si ce dernier pouvait correspondre au concept du Larousse. Généralement, dans le second cas, nous obtenons le fait qu'un concept Roget est projeté dans plusieurs concepts Larousse.

Page 38 / 83

Page 39: Mémoire de Stage Transfert sémantique bilingue pour un

Problèmes rencontrés.

Le principal problème rencontré lors de la réalisation de cette seconde méthode est le fait qu'il n'existe pas de fonction de projection bijective entre les deux thésaurus. Cela est dû au fait que les linguistes anglais n'ont pas la même vision du monde que les français. Par exemple, dans la hiérarchie du thésaurus Larousse, nous avons toute une famille de concepts représentant le corps :

#L'homme : le corps et la vie#Le corps318: Tête319: Membres320: Main321: Pied322: Dos323: Poitrine324: Ventre325: Sexe326: Cerveau327: Nerfs328: Muscles329: Os et articulations330: Dents331: Coeur et vaisseaux332: Sang333: Glandes334: Peau335: Pilosité336: Tissus vivants

Dans le thésaurus Roget, nous n'avons pas cette famille de concepts nous avons donc du choisir le concept se rapprochant le plus : « Mankind ». Ce concept est l'un des plus chargé :

372:   mankind:   humains,   personne,   tête,   membres,   main,   pied,   dos, poitrine, ventre, sexe, cerveau, nerfs, muscles, os et articulations, dents,   coeur   et   vaisseaux,   sang,   glandes,   peau,   pilosité,   tissus vivants, société.

Nous avons ce problème avec plusieurs concepts anglais, là ou la hiérarchie du thésaurus Larousse précise les choses en diversifiant les concepts, le thésaurus Roget ne se contente que d'un seul concept . C'est le cas pour les animaux, les plantes, la nourriture,etc ...

364:   animality:   mammifères,   oiseaux,   poissons,   reptiles,   batraciens, insectes et arachnides, crustacés, mollusques et petits animaux marins, vers, cris et bruits d'animaux365: vegetability: arbres, arbustes, fleurs, fruits, herbes et fougères, champignons, mousses et hépatiques, algues, lichens366:   animal:   mammifères,   oiseaux,   poissons,   reptiles,   batraciens, insectes et arachnides, crustacés, mollusques et petits animaux marins, vers367: vegetable: arbres, arbustes, fleurs, fruits, herbes et fougères, champignons, mousses et hépatiques,algues,lichens, bois298:   food:   nutrition,   repas,   gastronomie,   pain,   sucrerie,   boisson, produits laitiers, fromages, diététique, vaisselle.

Page 39 / 83

Page 40: Mémoire de Stage Transfert sémantique bilingue pour un

Nous avons également le problème inverse où un concept Larousse se retrouve projeté dans plusieurs concepts Roget car le thésaurus français généralise le concept et le thésaurus Roget au contraire le spécialise en plusieurs concepts. C'est le cas par exemple du concept « commerce » qui se retrouve projeté dans les quatre concepts suivants :

794: barter: commerce795: purchase: commerce796: sale: commerce, cession797: merchant: commerce, marchandise

C'est le cas aussi pour le concept sexualité :

373: man: homme, sexualité374: woman: femme, sexualité

Cette méthode nous a valu du travail manuel pour créer la matrice de transfert, travail réalisé à deux avec mon encadrante de stage. Nous avons donc été confrontés une fois de plus à la réalité de la complexité du langage naturel dans lequel des méthodes automatiques ne peuvent pas encore faire le travail de déduction de la machine qu'est le cerveau humain. Nous avons été confrontés à cette situation un peu paradoxale où la recherche d'une méthode de calcul automatique se révélera plus longue à trouver que de faire le travail de manière manuelle.

Expérimentations et résultats de la deuxième méthode.

Les expérimentations de cette méthode se sont révélées très prometteuses. Nous avons procédé à plusieurs tests. Ceux-ci ont été effectués sur une installation de SYGMART n'implémentant pas la grammaire de transformation syntaxique anglaise. Seule la méthode de transfert lexical a donc été testée.

Le premier test a porté sur la traduction de la phrase : « Je mange du pain dur » qui a été traduit par « I eat tough bread ». C'est une traduction correcte.

Un deuxième test, plus complet, visait l'exemple développé dans ce mémoire. Il s'agissait de tester les traductions différentes du verbe « accompagner » :

● « Le rôti est accompagné de pommes de terre ». 

● « La petite fille est accompagnée de son chien ». ● « Le musicien accompagne le chanteur ». ● « La mère accompagne sa fille déguisée à l'école ».

Ces phrases ont été traduites sans transfert grammatical ni conjugaison, ce qui explique les erreurs grammaticales :

● « a roast be be served with from apple from terre ». La locution « pommes de terre » n'étant pas reconnue par SYGFRAN, sa traduction est donc

Page 40 / 83

Page 41: Mémoire de Stage Transfert sémantique bilingue pour un

logiquement mauvaise.● « a little girl be accompany by from his dog ».● « a musician accompany a singer ».● « a mother take her girl in fancy dress with a training ».

Vous trouverez en Annexe 3, le détail des arbres multi-étiquetés de cette expérimentation.

Ces tests ont nécessité quelques corrections dans les sources de données. La traduction « accompany by » n'était pas présente de la dictionnaire bilingue. Le vecteur sémantique du verbe accompagner ne possédait pas de concept lié à la nourriture. Dans ce cas, impossible de sélectionner la traduction « be served with ». Les erreurs de traduction dans la dernière phrase n'ont pas été corrigées car notre test ne portait que sur le verbe « accompagner ».

Quelques ajustements furent nécessaires, notamment sur les vecteurs sémantiques comme des rajouts de concepts représentant les sens rares. Une distinction doit être faite entre les sens primaires d'un mot et ses sens secondaires. Dans le test des phrases 3 et 4 le vecteur sémantique du mot « fille » contenait les concepts :

● 309 : Femme.

● 587 : Générosité.

● 678 : Famille.

● 680 : Mère : « fille mère ».

● 681 : Filiation.

● 683 : Célibat.

● 719 : Proxénétisme : « fille de joie ».

● 856 : Gastronomie : « fille de cuisine ».

Dans le vecteur de base, tous ces concepts ont la même importance. Le vecteur de « accompagner »  possédant aussi le concept « Gastronomie », cela générait la traduction de « be served with » qui n'est pas correcte. Plus de poids aux concepts primaires de ces mots ont alors été donné afin que les sens secondaires ne soient pas trop importants. Le poids des sens secondaires doit rester suffisamment important pour permettre la bonne traduction des cas rares.

Ce test a donc mis en évidence le fait que cette méthode de transfert lexical est correcte. Néanmoins, nous avons aussi atteint les limites de ce modèle lors du test. En effet, les vecteurs sémantiques contextualisés de « accompagner » dans les phrases 2 et 4 sont extrêmement proches. Dès lors, le choix de la traduction « take » ou « accompany by » se joue dans le calcul de la distance sémantique a quelques dixièmes près. Ce test a d'ailleurs mis en évidence une faiblesse du calcul du vecteur sémantique contextualisé. Prenons l'arbre résultant de l'analyse de la 4ème phrase :

Page 41 / 83

Page 42: Mémoire de Stage Transfert sémantique bilingue pour un

                                                2­2                                                   PH

                                                    |

          ______________________________________________________________________________________

          |                        |                                       |                   |

          |                        |                                       |                   |

         3­3                      6­6                                    13­13               17­17

         GN                       GV                                    GNPREP                 .

          |                        |                                       |

     ___________         _____________________                   _____________________

     |         |         |                   |                   |         |         |

     |         |         |                   |                   |         |         |

    4­4       5­5       7­7                 8­8                14­14     15­15     16­16

    le       mère  accompagne              GN                  à        le      école

                                             |

                                   _____________________

                                   |         |         |

                                   |         |         |

                                  9­9      10­10     11­11

                                  sa       fille

                                                       |

                                                       _

                                                       |

                                                       |

                                                     12­12

                                                   déguisé

Le vecteur sémantique contextualisé du noeud 5 « mère » est calculé par rapport au noeud 3. L'ancienne formule de calcul était :

Vc(5) = V(3) * V(5).

avec Vc(5) le vecteur sémantique contextualisé du noeud 5.

Cette formule atténuait de manière trop forte les composantes vectorielles représentant les cas rares. Elle ne faisait, par exemple, pas ressortir la composante liée à la nourriture pour la phrase 1 par rapport aux autres composantes vectorielles qui avaient une valeur bien plus grande. La traduction « be served with » n'était donc pas sélectionnée. Afin d'éviter ce phénomène, la formule a été retravaillée par M. Chauché pour arriver à une compensation qui atténue dans une moindre mesure les cas rares. Elle est donc devenue :

Vc(noeud terminal) = V(noeud terminal) + V(noeud père) * V(noeud terminal)

Cette méthode de transfert lexical a montré un grand potentiel pour calculer le sens des mots, permettant ainsi la sélection de la meilleur traduction. Néanmoins pour un fonctionnement optimal, les données sources nécessitent encore quelques ajustements.

Page 42 / 83

Page 43: Mémoire de Stage Transfert sémantique bilingue pour un

 D.Perspectives et améliorations futures.

Les résultats des tests de la seconde méthode ont montré que quelques ajustements sont nécessaires sur les données. Cependant, les projections des concepts d'un thésaurus vers les concepts de l'autre thésaurus n'étant pas calculé de manière mathématiques, il me paraît difficile de pouvoir améliorer la méthode de création de la matrice celle-ci étant surtout soumise à la subjectivité de la (ou des) personne(s) qui réalise(nt) les liens entre les concepts anglais et français. Dans la mesure où certains concepts n'existent pas en tant que concept dans le second thésaurus, il y a un risque de perte de précision du sens que le concept représente. Dans ce cas, la traduction risque d'être moins précise en sélectionnant un mot dans le langage cible plus général que le mot utilisé dans le langage source. Des améliorations mineures pourront être nécessaire pour les concepts où la projection n'est pas bijective.

Des améliorations concernant le transfert sémantique sont, a priori, possible dans le calcule la distance sémantique entre deux vecteurs afin de choisir la meilleur traduction possible. Actuellement la distance sémantique utilise une mesure de similarité classique très répandu : l'arccosinus. On pourrait cependant tester d'autres mesures de similarité pour améliorer les résultats si cela est nécessaire. D'autre part, nous pouvons, par exemple, envisager de filtrer le vecteur sémantique contextualisé en supprimant les concepts dont la valeur dans le vecteur ne dépasse pas un certain taux. Cela afin de supprimer un éventuel bruit et de préciser les sens les plus prépondérants du vecteur.

 E.Conclusion

Nous nous sommes heurté à de nombreuses difficultés connu par les informaticiens linguistes qui concernent les données brutes. Effectivement, bien que cette tendance s'amenuise avec le temps, les informaticiens sont souvent confrontés aux problèmes de la disponibilité des ressources. Nous avons cherché longtemps après une source de données pouvant nous servir à créer notre dictionnaire du thésaurus Roget. Nous n'avons pas trouvé de version électronique du thésaurus Roget que l'équipe possède. Les sources de données que nous avons découvertes ne sont pas exploitables pour la création des vecteurs sémantiques. Nous avons dû nous rabattre sur une version différente ce qui a un peu compliqué certaines taches. Ce qui nous amène aux problèmes de la qualité des données, que nous avons aussi rencontré. Lorsque nous avons des données mise à disposition, se pose le problème de la qualité. Notre source de données n'était pas complète et elle est endommagée, nous aurions pu ne pas nous en apercevoir tout de suite et cela aurait remis en cause le travail effectué. L'utilisation de la méthode automatique pour la construction de la matrice, nous a montré qu'il est parfois nécessaire de réaliser une tache de manière manuelle afin d'être sur que le résultat ne contient pas de bruits. Il aurait fallu informatiser énormément de connaissances difficiles à décrire pour pouvoir réaliser la seconde méthode de manière automatique.

Nous nous somme rendus compte aussi de tout ce que le langage naturel implique comme problème. Celui-ci est tellement riche, qu'il est très difficile de l'exploiter de manière automatique. De plus le langage n'est pas figé, il est, bien au contraire, en perpétuelle

Page 43 / 83

Page 44: Mémoire de Stage Transfert sémantique bilingue pour un

évolution, ce qui complique encore plus la tâche des linguistes et des informaticiens. Les grammaires d'analyse et de transformation ne sont jamais définitives et doivent être maintenu en permanence pour que le système puisse garder son efficacité.

De plus, même si de nombreux progrès ont été réalisé pour représenter le sens des mots, de nombreux phénomènes du langage naturel, à ce jour, ne sont pas encore pris en compte par les systèmes. Les figures de styles comme l'ironie, sont extrêmement complexe à détecter pour un système. Comment la machine peut comprendre qu'on parle totalement d'autre chose. Si on se place dans le cadre de la traduction automatique, on prenant l'hypothèse que nous puissions détecter les figures de style, comment réussir à les traduire dans un langage cible sans perdre l'effet de la figure de style? Comment prendre en compte les phénomènes humoristiques liés à la sonorité des mots ?

Page 44 / 83

Page 45: Mémoire de Stage Transfert sémantique bilingue pour un

 F.Références bibliographiques: 

[Besançon] Romaric Besançon, Martin Rajman : « Evaluation of a Vector Space Similarity Measure in a Multilingual Framework » .

[Boitet, Guillaume & Quézel-Ambrunaz 78] BOITET Ch., GUILLAUME P., QUÉZEL-AMBRUNAZ M. (1978) « Manipulation d'arborescences et parallélisme: le système ROBRA ». Proc. COLING-78, Bergen.

[Boitet1990] Christian BOITET: « TAO du réviseur et TAO du traducteur ». 1990. GETA, Institut IMAG http://www-clips.imag.fr/geta/christian.boitet/pdf_files.index.html.

[Chauché1975] CHAUCHÉ J. « Les langages ATEF et CETA ». AJCL, microfiche 17, 21—39.

[Chauché1990] Chauché J. (1990). « Détermination sémantique en analyse structurelle : une expérience basée sur une définition de distance ». TA Information, vol. (31/1) : 17-24

[Chauché2003] Chauché J., Prince V., Jaillet S., Teisseire M. (2003) : « Classification automatique de textes à partir de leur analyse syntaxico-sémantique » LIRMM-CNRS, UMII.

[Chomsky1965] Noam Chomsky. « Aspects of the Theory and Syntax ». The MIT Press, Cambridge, MA, 1965.

[Delorme2003] Jean-Michel DELORME: « Contribution à la réalisation d'un système de traduction automatique construit autour du moteur d'analyse et de génération transductionnel SYGMART », LIRMM.

[EuroWordNet] Vossen, P.1997. « EuroWordNet: a multilingual database for information retrieval. » In : Proceedings of the DELOS worshop on Cross-Language Information Retrieval, March 5-7, 1997.

[Guillaume 1989a] GUILLAUME P. (1989) « Ariane-G5 - Extensions apportées au langage SYGMOR ». GETA, janvier 1989, 6 p. (Ariane-G5 version 3)

[Guillaume 1989b]

[Lafourcade& Prince2001] Lafourcade M. and V. Prince. « Relative Synonymy and Conceptual Vectors » NLPRS01, pp. 127-134, 2001.

[Lafourcade&Prince2003] Mathieu Lafourcade, Violaine Prince (2003) « Modélisation de l’Hyperonymie via la combinaison de réseaux sémantiques et de vecteurs conceptuels » LIRMM -CNRS- UMII.

[Nassr] Nawel Nassr : « Croisement de langues en recherche d'information : traduction et

Page 45 / 83

Page 46: Mémoire de Stage Transfert sémantique bilingue pour un

désambiguïsation de requêtes ».

[Prince 91] V. Prince (1991) « Note sur l'évolution de la réponse dans TEDDI : introduction d'une relation d'équivalence pour la synonymie relative ». Notes et Documents LIMSI-CNRS.

[Prince 2005] Violaine Prince, Jacques Chauché : « Translating Through Divergence: An Application to French to English Automatic Sentence Translation », LIRMM, 2005.

[Salton1988] G. Salton: « Term-Weighting Approches in Automatic Text Retrivial. » McGraw-Hill computer scienceserie..édition McGro-Hill, New York, 1988

[Schwab 2002] Schwab D, Lafourcade M, Prince V. « Amélioration de la représentation sémantique lexicale par les vecteurs conceptuels : le rôle de l'antonymie ». In proc of JADT'2002 : 6es Journées internationales d'Analyse statistique des Données Textuelles, Saint-Malo, France, Mars 2002, pp 701-71

[WordNet] Miller, G.A. « WordNet: A Lexical Database for English ».

 G.Adresses Internet référencées 

[SYSTRAN] http://www.systran.fr/IDC/26459.html

[UMLS] http://www.nlm.nih.gov/research/umls/

[CYC] http://en.wikipedia.org/wiki/Cyc

[MeSH] http://ist.inserm.fr/basismesh/mesh.html

[Gutenberg] http://www.gutenberg.org/

Site de Présentation de SYGMART : http://www.lirmm.fr/~chauche/PresentationSygmart.html

Page 46 / 83

Page 47: Mémoire de Stage Transfert sémantique bilingue pour un

 H.Annexes

 I.Thésaurus Roget version GutenbergTHESAURUS OF ENGLISH WORDS AND PHRASES

CLASS IWORDS EXPRESSING ABSTRACT RELATIONS

SECTION I. EXISTENCE

1. BEING, IN THE ABSTRACT

#1.  Existence.#2. Inexistence.

2. BEING, IN THE CONCRETE

#3. Substantiality.#4. Unsubstantiality.

3. FORMAL EXISTENCE

Internal conditions#5. Intrinsicality.

External conditions#6. Extrinsicality.

4. MODAL EXISTENCE

Absolute#7. State.

Relative#8. Circumstance.

SECTION II. RELATION1. ABSOLUTE RELATION

#9. Relation.#10. [Want, or absence of relation.] Irrelation.#11. [Relations of kindred.] Consanguinity.#12. [Double or reciprocal relation.] Correlation.#13. Identity.#14. [Noncoincidence.] Contrariety.#15. Difference.

2. CONTINUOUS RELATION

#16. Uniformity.3. PARTIAL RELATION

#17. Similarity.#18. Dissimilarity.#19. Imitation.#20. Nonimitation.

#21. [Result of imitation.] Copy.#22. [Thing copied.] Prototype.

4. GENERAL RELATION

#23. Agreement.#24. Disagreement.

SECTION III. QUANTITY1. SIMPLE QUANTITY

#25. [Absolute quantity.] Quantity.#26. [Relative quantity.] Degree.

2. COMPARATIVE QUANTITY

#27. [Sameness of quantity or degree.] Equality.#28. [Difference of quantity or degree.] Inequality.#29. Mean.#30. Compensation.

QUANTITY BY COMPARISON WITH A STANDARD#31. Greatness.#32. Smallness.

QUANTITY BY COMPARISON WITH A SIMILAR OBJECT#33. Superiority. [Supremacy.]#34. Inferiority.

CHANGES IN QUANTITY#35. Increase.#36. Nonincrease,  Decrease.

3. CONJUNCTIVE QUANTITY

#37. Addition.#38. Nonaddition. Subtraction.#39. [Thing added] Adjunct.#40. [Thing remaining.] Remainder.#40a. [Thing deducted.] Decrement.#41. [Forming a whole without coherence.] Mixture.#42. [Freedom from mixture.] Simpleness.#43. Junction.#44. Disjunction.#45. [Connecting medium.] Connection.#46. Coherence.#47. [Want of adhesion, nonadhesion, immiscibility.] Incoherence.

Page 47 / 83

Page 48: Mémoire de Stage Transfert sémantique bilingue pour un

#20a. Variation. #48. Combination.4. CONCRETE QUANTITY

#50. Whole.#51. Part.#52. Completeness.#53. Incompleteness.#54. Composition.#55. Exclusion.#56. Component.#57. Extraneousness.

SECTION IV. ORDER1. ORDER

#58. Order.#59. [Absence, or want of Order, &c.] Disorder.#59a. Complexity#60. [Reduction to Order.] Arrangement.#61. [Subversion of Order; bringing into disorder.] Derangement.

2. CONSECUTIVE ORDER

#62. Precedence.#63. Sequence.#64. Precursor.#65. Sequel.#66. Beginning.#67. End.#68. Middle.#69. [Uninterrupted sequence.] Continuity.#70. [Interrupted sequence.] Discontinuity.#71. Term.

3. COLLECTIVE ORDER

#72. Assemblage.#73. Nonassemblage. Dispersion.#74. [Place of meeting.] Focus.4. DISTRIBUTIVE ORDER

#75. Class.#76. Inclusion.#77. Exclusion.#78. Generality.#79. Speciality.

5. ORDER AS REGARDS CATEGORIES

#80. Normality.#81. Multiformity.#82. Conformity.#83. Unconformity.

SECTION V. NUMBER1. NUMBER, IN THE ABSTRACT#84. Number.#85. Numeration.

2. DETERMINATE NUMBER

#87. {opp.  100} Unity.#88. Accompaniment.#89. Duality.#90. Duplication.#91. [Division into two parts.] bisection.#92. Triality.#93. Triplication.#94. [Division into three parts.] Trisection.#95. Four.#96. Quadruplication.#97. [Division into four parts.] Quadrisection.#98. Five.#99. Quinquesection, &c.#100. {opp. 87} [More than one.] Plurality.

3.  Indeterminate Number

#100a. [Less than one.] Fraction#101. Zero.#102. Multitude.#103. Fewness.#104. Repetition.#105. Infinity.

SECTION VI. TIME1. ABSOLUTE TIME

#106. Time.#107. Neverness.#108. [Definite duration, or portion of time.] Period.#108a. Contingent Duration.#109. [Indefinite duration.] Course.#110. [Long duration.] Diuturnity.#111. [Short duration.] Transientness.#112. [Endless duration.] Perpetuity.#113. [Point of time] Instantaneity.#114. [Estimation, measurement, and record of time.] Chronometry.#115. [False estimate of time.] Anachronism.

2. RELATIVE TIME

Time with reference to Succession#116. Priority.#117. Posteriority.#118. The Present Time.#119. [Time different from the present.] Different time.#120. Synchronism.#121. [Prospective time.] Futurity.#122. [Retrospective time.] The Past#123. Newness.#124. Oldness.

Page 48 / 83

Page 49: Mémoire de Stage Transfert sémantique bilingue pour un

#86. List. #125. Morning.#126. Evening. [Midnight.]#127. Youth.#128. Age.#129. Infant.#130. Veteran.#131. Adolescence.

Time with reference to an Effect or Purpose#132. Earliness.#132a. Punctuality#133. Lateness.#134. Occasion.#135. Untimeliness

3. RECURRENT TIME

#136. Frequency.#137. Infrequency.#138. Regularity of recurrence.#139. Irregularity of recurrence.

SECTION VII. CHANGE1. SIMPLE CHANGE

#140. [Difference at different times.] Change.#141. [Absence of change.] Permanence.#142. [Change from action to rest.] Cessation.#143. Continuance in action.#144. [Gradual change to something different.] Conversion.#145. Reversion.#146. [Sudden or violent change.] Revolution.#147. [Change of one thing for another.] Substitution.#148. [Double or mutual change.] Interchange.

2. COMPLEX CHANGE

#149. Changeableness.#150. Stability.Present Events#151. Eventuality.Future Events#152. Destiny.

SECTION VIII. CAUSATION1. CONSTANCY OF SEQUENCE IN EVENTS

#153. [Constant antecedent]. Cause.#154. [Constant sequent.] Effect.#155. [Assignment of cause] Attribution#156. [Absence of assignable cause.] Chance.

2.  CONNECTION BETWEEN CAUSE AND EFFECT

#157. Power.#158. Impotence.#159. [Degree of power.] Strength.#160. Weakness.

3.  POWER IN OPERATION

#161. Production.#162. [Nonproduction.] Destruction.#163. Reproduction.#164. Producer.#165. Destroyer.#166. Paternity.#167. Posterity.#168. Productiveness#169. Unproductiveness.#170. Agency.#171. Physical Energy.#172. Physical Inertness.#173. Violence.#174. Moderation.

4.  Indirect Power

#175. Influence.#175a. Absence of Influence.#176. Tendency.#177. Liability.

5.  Combinations of Causes

#178. Concurrence.#179. Counteraction.

CLASS IIWORDS RELATING TO SPACESECTION I.  SPACE IN GENERAL

1. ABSTRACT SPACE

#180. [Indefinite space.] Space.#180a. Inextension.#181. [Definite space.] Region.#182. [Limited space.] Place.

2. RELATIVE SPACE

#183. Situation.#184. Location.#185. Displacement.

3. EXISTENCE IN SPACE

#186. Presence.#187. [Nullibiety.1] Absence.#188. Inhabitant.#189. [Place of habitation, or resort.] Abode.#190. [Things contained.] Contents.

Page 49 / 83

Page 50: Mémoire de Stage Transfert sémantique bilingue pour un

#191. Receptacle.SECTION II.  DIMENSIONS1. GENERAL DIMENSIONS

#192. Size.#193. Littleness.#194. Expansion.#195. Contraction.#196. Distance.#197. Nearness.#198. Interval.#199. Contiguity.

2.  LINEAR DIMENSIONS

#200. Length.#201. Shortness.#202. Breadth, Thickness.#203. Narrowness. Thinness.#204. Layer.#205. Filament.#206. Height.#207. Lowness.#208. Depth.#209. Shallowness.#210. Summit.#211. Base.#212. Verticality.#213. Horizontality.#214. Pendency.#215. Support.#216. Parallelism.#216a. Perpendicularity.#217. Obliquity.#218. Inversion.#219. Crossing.

3.  CENTRICAL DIMENSIONS

General.#220. Exteriority.#221. Interiority.#222. Centrality.#223. Covering.#224. Lining. #225. Clothing.#226. Divestment.#227. Circumjacence.#228. Interposition.#229. Circumscription.#230. Outline.#231. Edge.#232. Inclosure.#233. Limit.

Special#234. Front.#235. Rear.#236. Laterality.#237. Contraposition.#238. Dextrality.#239. Sinistrality.Section III. FORM

#240. Form.#241. [Absence of form.] Amorphism.#242. [Regularity of form.] Symmetry.#243. [Irregularity of form.] Distortion.

2. Special Form

#244. Angularity.#245. Curvature.#246. Straightness.#247. [Simple circularity.] Circularity.#248. [Complex curvature.] Convolution.#249. Rotundity.

3. Superficial Form

#250. Convexity.#251. Flatness.#252. Concavity.#253.  Sharpness.#254. Bluntness.#255. Smoothness.#256. Roughness.#257. Notch.#258. Fold.#259. Furrow.#260. Opening#261. Closure.#262. Perforator.#263. Stopper.

Section IV. MOTION

1. Motion in General

#264. [Successive change of place.] Motion.#265. Quiescence.#266. [Locomotion by land.] Journey.#267. [Locomotion by water, or air.] Navigation.#268. Traveler.#269. Mariner.#270. Transference.#271. Carrier.#272. Vehicle.#273. Ship.

2. Degrees of Motion

#274. Velocity.#275. Slowness.

3. Motion conjoined with Force

#276. Impulse.#277. Recoil.

Page 50 / 83

Page 51: Mémoire de Stage Transfert sémantique bilingue pour un

1. General Form4. Motion with reference to Direction

#278. Direction.#279. Deviation.#280. [Going before.] Precession.#281. [Going after.] Sequence.#282.  [Motion forward; progressive motion.] Progression.#283. [Motion backwards.] Regression.#284. [Motion given to an object situated in front.] Propulsion.#285. [Motion given to an object situated behind.] Traction.#286. [Motion towards.] Approach.#287. [Motion from.] Recession.#288. [Motion towards, actively; force causing to draw closer.] Attraction.#289. [Motion from, actively; force driving apart.] Repulsion.#290. [Motion nearer to.] Convergence.#291. [Motion further off.] Divergence.#292. [Terminal motion at.] Arrival.#293. [Initial motion from.] Departure.#294. [Motion into.] Ingress.#295. [Motion out of.] Egress.#296. [Motion into, actively.] Reception.#297. [Motion out of, actively] Ejection.#298. [Eating.] Food.#299. Excretion.#300. [Forcible ingress.] Insertion.#301. [Forcible egress.] Extraction.#302. [Motion through.] Passage.#303. [Motion beyond] Transcursion.#304. [motion short of]  Shortcoming#305. [Motion upwards] Ascent.#306. [Motion downwards] Descent.#307. Elevation.#308. Depression.#309. Leap.#310. Plunge.#311. [Curvilinear motion.] Circuition.#312. [Motion in a continued circle.] Rotation.#313. [Motion in the reverse circle.] Evolution. #314. [Reciprocating motion, motion to and fro.] Oscillation.#315. [Irregular motion] Agitation.

CLASS IIIWORDS RELATION TO MATTER

Section I.  MATTER IN GENERAL

#316. MATERIALITY.

#318. World.#319. Gravity.#320. Levity.

Section II. INORGANIC MATTER

1. Solid Matter

#321. Density.#322. Rarity.#323. Hardness.#324. Softness.#325. Elasticity.#326. Inelasticity.#327. Tenacity.#328. Brittleness.#329. [Structure.] Texture.#330. Pulverulence.#331. Friction.#332. [Absence of friction. Prevention of friction.] Lubrication.

2. FLUID MATTER

Fluids in General#333. Fluidity.#334. Gaseity.#335. Liquefaction.#336. Vaporization.Specific Fluids#337. Water.#338. Air.#339. Moisture.#340. Dryness.#341. Ocean.#342. Land.#343. Gulf. Lake#344. Plain.#345. Marsh.#346. Island.

Fluids in Motion#347. [Fluid in motion.] Stream.#348. [Water in motion.] River.#349. [Air in motion] Wind.#350. [Channel for the passage of water.] Conduit.#351. [Channel for the passage of air.] Airpipe.

3. IMPERFECT FLUIDS

#352. Semiliquidity.#353. [Mixture of air and water.] Bubble.#354. Pulpiness.#355. Unctuousness.#356. Oil.#356a. Resin.

Page 51 / 83

Page 52: Mémoire de Stage Transfert sémantique bilingue pour un

#317. Immateriality.SECTION III. ORGANIC MATTER

1. VITALITY

Vitality in general#357. Organization.#358. Inorganization.#359. Life.#360. Death.#361. [Destruction of live; violent death.] Killing.#362. Corpse.#363. Interment.

Special Vitality#364. Animality.#365. Vegetability.#366. Animal.#367. Vegetable.#368. [The science of animals.] Zoology.#369. [The science of plants.] Botany.#370. [The economy or management of animals.] Husbandry.#371. [The economy or management of plants.] Agriculture.#372. Mankind.#373. Man.#374. Woman.

2. SENSATION

Sensation in general#375. Physical Sensibility.#376. Physical Insensibility.#377. Physical Pleasure.#378. Physical Pain.

Special Sensation(1) Touch#379. [Sensation of pressure] Touch.#380. Sensations of Touch.#381. [insensibility to touch.] Numbness.

(2) Heat

#382. Heat.#383. Cold.#384. Calefaction.#385. Refrigeration.#386. Furnace.#387. Refrigerator.#388. Fuel.#388a. Insulation, Fire extinction.#389. Thermometer.(3) Taste

#390. Taste.#391. Insipidity.#392. Pungency.

#392b. Bitterness

#393. Condiment.#394. Savoriness.#395. Unsavoriness.#396. Sweetness.#397. Sourness.

(4) Odor

#398. Odor.#399. Inodorousness.#400. Fragrance.#401. Fetor.#401a.  Acridity.

(5) Sound

(i) SOUND IN GENERAL#402. Sound.#403. Silence.#404. Loudness.#405. Faintness.(ii) SPECIFIC SOUNDS

#406. [Sudden and violent sounds.] Snap.#407. [Repeated and protracted sounds.] Roll.#408. Resonance.#408a. Nonresonance.#409. [Hissing sounds.] Sibilation.#410. [Harsh sounds.] Stridor.#411. Cry.#412. [Animal  sounds.] Ululation.

(iii) MUSICAL SOUNDS

#413. Melody. Concord.#414. Discord.#415. Music.#416. Musician.#417. Musical Instruments.

(iv) PERCEPTION OF SOUND

#418. [Sense of sound.] Hearing.#419. Deafness.

(6) Light(i) LIGHT IN GENERAL

#420. Light.#421. Darkness.#422. Dimness.#423. [Source of light, self­luminous body.] Luminary.#424. Shade.#425. Transparency.#426. Opacity.#426a. Turbidity.

Page 52 / 83

Page 53: Mémoire de Stage Transfert sémantique bilingue pour un

#392a. Saltiness. #427. Semitransparency.(ii) SPECIFIC LIGHT

#428. Color.#429. [Absence of color.] Achromatism.#430. Whiteness.#431. Blackness.#432. Gray.#433. Brown.

­ Primitive Colors#434. Redness. 

­ Complementary Colors#435. Greenness.#436. Yellowness.#437. Purple.#438. Blueness.#439. Orange.#440. Variegation.(iii) PERCEPTIONS OF LIGHT

#441. Vision.#442. Blindness.#443. [Imperfect vision.] Dimsightedness.#444. Spectator.#445. Optical Instruments.#446. Visibility.#447. Invisibility.#448. Appearance.#449. Disappearance.

CLASS IVWORDS RELATING TO THE INTELLECTUAL FACULTIESDIVISION (I) FORMATION OF IDEAS

Section I. OPERATIONS OF INTELLECT IN GENERAL#450. Intellect.#451. Thought.#452. [Absence or want of thought.] Incogitancy.#453. [Object of thought.] Idea.#454. [Subject of thought] Topic.

Section II. PRECURSORY CONDITIONS AND OPERATIONS

#455. [The desire of knowledge.] Curiosity.#456. [Absence of curiosity.] Incuriosity.#457. Attention.#458. Inattention.#459. Care.  [Vigilance.]#460. Neglect.#461. Inquiry [Subject of Inquiry. Question]#462. Answer.#463. Experiment.

#464a. Incomparability [Lack of comparison]#465. [results of comparison. 1] Discrimination.#465a. [results of comparison. 2] Indiscrimination.#465b. [results of comparison. 3] Identification.#466. Measurement.

Section III. MATERIALS FOR REASONING

#467. Evidence [On one side.]#468. [Evidence on the other side, on the other hand.] Counter Evidence.#469. Qualification.

Degrees of Evidence#470. Possibility.#471. Impossibility.#472. Probability.#473. Improbability.#474. Certainty.#475. Uncertainty.

Section IV. REASONING PROCESSES

#476. Reasoning.#477. [The absence of reasoning.] Intuition.#478. Demonstration.#479. Confutation.

Section V. RESULTS OF REASONING

#480. Judgment.  [Conclusion.]#480a.  [Result of search or inquiry.]  Discovery.#481. Misjudgment.#482. Overestimation.#483. Underestimation.#484. Belief.#485. Unbelief. Doubt.#486. Credulity.#487. Incredulity.#488. Assent.#489. Dissent.#490. Knowledge.#491. Ignorance.#492. Scholar.#493. Ignoramus.#494. [Object of knowledge.]  Truth.#495. Error.#496. Maxim.#497. Absurdity.#498. Intelligence. Wisdom.#499. Imbecility. Folly#500. Sage#501.  Fool.#502. Sanity.#503. Insanity.#504. Madman.

Page 53 / 83

Page 54: Mémoire de Stage Transfert sémantique bilingue pour un

#464. Comparison. SECTION VI  EXTENSION OF THOUGHT1.  To the Past#505. Memory.#506. Oblivion.#507. Expectation.#508. Inexpectation.#509. [Failure of expectation.] Disappointment.#510. Foresight.#511. Prediction.#512. Omen.#513. Oracle.

SECTION VII.  CREATIVE THOUGHT

#514. Supposition.#514a. Analogy#515. Imagination.

DIVISION (II) COMMUNICATION OF IDEAS

SECTION I. NATURE OF IDEAS COMMUNICATED.#516. [Idea to be conveyed.] Meaning.#517. [Absence of meaning.] Unmeaningness.#518. Intelligibility.#519. Unintelligibility.#520. [Having a double sense] Equivocalness.#521. Metaphor.#522. Interpretation.#523. Misinterpretation.#524. Interpreter.

SECTION II.  MODES OF COMMUNICATION

#525. Manifestation.#526. Latency. Implication.#527. Information.#527a. Correction.#528. Concealment.#529. Disclosure#530. Ambush [Means of concealment].#531. Publication.#532. News.#533. Secret.#534. Messenger.#535. Affirmation.#536. Negation.#537. Teaching.#538.  Misteaching.#539. Learning#540. Teacher.#541.  Learner.#542. School.#543. Veracity.#544. Falsehood.#545. Deception.#546. Untruth.#547. Dupe.#548. Deceiver.#549. Exaggeration.

Section III.  MEANS OF COMMUNICATING IDEAS          1.  Natural Means#550. Indication#551. Record.#552. [Suppression of sign.] Obliteration.#553. Recorder.#554. Representation.#555. Misrepresentation.#556. Painting.#557. Sculpture.#558. Engraving.#559. Artist.

2.   Conventional MeansLanguage generally#560. Language.#561. Letter.#562. Word.#563. Neologism.#564. Nomenclature.#565. Misnomer.#566. Phrase.#567. Grammar.#568. Solecism.#569. Style.#570. Perspicuity.#571. Obscurity.#572. Conciseness.#573. Diffuseness.#574. Vigor.#575. Feebleness.#576. Plainness.#577. Ornament.#578. Elegance.#579. Inelegance.

Spoken Language

#580. Voice.#581. Aphony.#582. Speech.#583. [Imperfect Speech.] Stammering.#584. Loquacity.#585. Taciturnity.#586. Allocution.#587. Response #588. Conversation.#589. Soliloquy.

Written Language

#590. Writing.#591. Printing.#592. Correspondence.#593. Book.#594. Description.#595. Dissertation.#596. Compendium.#597. Poetry.#598. Prose.

Page 54 / 83

Page 55: Mémoire de Stage Transfert sémantique bilingue pour un

#599. The Drama. CLASS VWORDS RELATING TO THE VOLUNTARY POWERS

Division (I) INDIVIDUAL VOLITION

Section I. VOLITION IN GENERAL

1. Acts of Volition#600. Will.#601. Necessity.#602. Willingness.#603. Unwillingness.#604. Resolution.#604a. Perseverance.#605. Irresolution.#606. Obstinacy.#607. Tergiversation.#608. Caprice.#609. Choice.#609a. Absence of Choice.#610. Rejection.#611. Predetermination.#612. Impulse.#613. Habit.#614. Desuetude.

2. Causes of Volition

#615. Motive.#615a. Absence of Motive.#616. Dissuasion.#617. [Ostensible motive, ground, or reason assigned.] Pretext.

3. Objects of Volition

#618. Good. #619. Evil.

Section II. Prospective Volition1. Conceptional Volition#620. Intention.#621. [Absence of purpose in the succession of events] Chance.#622. [Purpose in action.] Pursuit#623. [Absence of pursuit.] Avoidance.#624. Relinquishment.#625. Business.#626. Plan.#627. Method. [Path.] #628. Mid­course.#629. Circuit.#630. Requirement.

2. Subservience to Ends

Actual Subservience#631. Instrumentality.#632. Means.#633. Instrument.

#635. Materials.#636. Store.#637. Provision.#638. Waste.#639. Sufficiency.#640. Insufficiency.#641. Redundancy.#642. Importance.#643. Unimportance.#644. Utility.#645. Inutility.#646. [Specific subservience.] Expedience.#647. Inexpedience.#648. [Capability of producing good. Good qualities.] Goodness.#649. [Capability of producing evil. Bad qualities.] Badness. #650. Perfection.#651. Imperfection.#652. Cleanness.#653. Uncleanness.#654. Health.#655. Disease.#656. Salubrity.#657. Insalubrity.#658. Improvement.#659. Deterioration.#660. Restoration.#661. Relapse.#662. Remedy.#663. Bane.

Contingent Subservience

#664. Safety.#665. Danger.#666. [Means of safety.] Refuge.#667. [Source of danger.] Pitfall.#668. Warning.#669. [Indication of danger.] Alarm.#670. Preservation.#671. Escape.#672. Deliverance.

3. Precursory Measures

#673. Preparation.#674. Nonpreparation.#675. Essay.#676. Undertaking.#677. Use.#678. Disuse.#679. Misuse.

Section III. VOLUNTARY ACTION

1. Simple voluntary Action#680. Action.#681. Inaction.#682. Activity.

Page 55 / 83

Page 56: Mémoire de Stage Transfert sémantique bilingue pour un

#634. Substitute.#683. Inactivity.#684. Haste.#685. Leisure.#686. Exertion.#687. Repose.#688. Fatigue.#689. Refreshment. #690. Agent.#691. Workshop.

2. Complex Voluntary Action

#692. Conduct.#693. Direction.#694. Director.#695. Advice.#696. Council.#697. Precept.#698. Skill.#699. Unskillfulness.#700. Proficient.#701. Bungler.#702. Cunning.#703. Artlessness.

Section IV.  ANTAGONISM

1. Conditional Antagonism#704. Difficulty.#705. Facility.#706. Hindrance.#707. Aid.#708. Opposition.#709. Cooperation.#710. Opponent.#711. Auxiliary.#712. Party.#713. Discord.#714. Concord.#715. Defiance.#716. Attack.#717. Defense#718. Retaliation.#719. Resistance.#720. Contention.#721. Peace.#722. Warfare.#723. Pacification.#724. Mediation.#725. Submission.#726. Combatant.#727. Arms.#728. Arena.

Section V.  RESULTS OF VOLUNTARY ACTION

#729. Completion.#730. Noncompletion.#731. Success.#732. Failure.#733. Trophy.

#735. Adversity.#736.  Mediocrity. 

DIVISION (II) INTERSOCIAL VOLITION

SECTION I.  GENERAL INTERSOCIAL VOLITION#737. Authority.#737a. Government.#737b. Politics.#738. [Absence of authority] Laxity.#739. Severity.#740. Lenity.#741. Command.#742. Disobedience.#743. Obedience.#744. Compulsion.#745. Master.#746. Servant.#747. [Insignia of authority.] Scepter.#748. Freedom.#749. Subjection.#750. Liberation.#751. Restraint.#752. [Means of restraint.] Prison.#753. Keeper.#754. Prisoner.#755. [Vicarious authority.] Commission.#756. Abrogation.#757. Resignation.#758. Consignee.#759. Deputy.

Section II.  SPECIAL INTERSOCIAL VOLITION

#760. Permission.#761. Prohibition.#762. Consent.#763. Offer.#764. Refusal.#765. Request.#766. [Negative request.] Deprecation.#767. Petitioner.

Section III.  CONDITIONAL INTERSOCIAL VOLITION

#768. Promise.#768a. Release from engagement.#769. Compact.#770. Conditions.#771. Security.#772. Observance.#773. Nonobservance.#774. Compromise.

Page 56 / 83

Page 57: Mémoire de Stage Transfert sémantique bilingue pour un

#734. Prosperity.Section IV.  POSSESSIVE RELATIONS

1. Property in general

#775. Acquisition.#776. Loss.#777. Possession.#777a. Exemption.#778. [Joint possession.] Participation.#779. Possessor.#780. Property.#781. Retention.#782. Relinquishment.

2. Transfer of Property

#783. Transfer.#784. Giving.#785. Receiving.#786. Apportionment.#787. Lending.#788. Borrowing.#789. Taking.#790. Restitution.#791. Stealing.#792. Thief.#793. Booty.

3. Interchange of Property

#794. Barter.#795. Purchase.#796. Sale.#797. Merchant.#798. Merchandise.#799. Mart.#799a. Stock Market #799b. Securities.

4. Monetary Relations

#800. Money.#801. Treasurer.#802. Treasury.#803. Wealth.#804. Poverty.#805. Credit.#806. Debt.#807. Payment.#808. Nonpayment#809. Expenditure.#810. Receipt.#811. Accounts.#812. Price.#812a. Value [intrinsic worth]#812b. Worthlessness#813. Discount.#814. Dearness.#815. Cheapness.#816. Liberality.#817. Economy.

#817a. Greed [excessive desire] #818. Prodigality.

#819. Parsimony.

CLASS VIWORDS RELATION TO THE SENTIMENT AND MORAL POWERS

Section I.  Affections in General#820.  Affections.#821. Feeling.#822. Sensibility.#823. Insensibility.#824.  Excitation.#825. [Excess of sensitiveness] Excitability#826. [Absence of excitability, or of excitement.] Inexcitability.

Section II Personal Affections

1.  Passive Affections#827. Pleasure.#828. Pain.#829. [Capability of giving pleasure; cause or source of pleasure.]Pleasurableness.#830. [Capability of giving pain; cause or source of pain].Painfulness. #831. Content.#832. Discontent.#833. Regret.#834. Relief.#835. Aggravation.#836.  Cheerfulness.#837. Dejection.#838. [Expression of pleasure.] Rejoicing.#839. [Expression of pain.] Lamentation.#840. Amusement.#841. Weariness.#842. Wit.#843.  Dullness.#844. Humorist.

2.  Discriminative Affections

#845. Beauty.#846. Ugliness.#847. Ornament.#847a. Jewelry#848. Blemish.#849. Simplicity.#850. [Good taste.] Taste.#851. [Bad taste.] Vulgarity.#852. Fashion.#853. Ridiculousness.#854. Fop.

Page 57 / 83

Page 58: Mémoire de Stage Transfert sémantique bilingue pour un

#855. Affectation.#856. Ridicule. #857. [Object and cause of ridicule.] Laughingstock.

3. PROSPECTIVE AFFECTIONS

#858. Hope.#859. [Absence, want or loss of hope.] Hopelessness.#860. Fear.#861. [Absence of fear.] Courage.#862. [Excess of fear.] Cowardice.#863. Rashness.#864. Caution.#865. Desire.#866. Indifference.#867. Dislike.#868. Fastidiousness. #869. Satiety.4. CONTEMPLATIVE  AFFECTIONS

#870. Wonder.#871. [Absence of wonder.] Expectance. #872. Prodigy.

5. EXTRINSIC AFFECTIONS

#873. Repute.#874. Disrepute.#875. Nobility.#876. Commonalty.#877. Title.#878. Pride.#879. Humility.#880. Vanity.#881. Modesty.#882. Ostentation.#883. Celebration.#884. Boasting.#885. [Undue assumption of superiority.] Insolence.#886. Servility.#887. Blusterer.SECTION III. SYMPATHETIC AFFECTIONS

1. SOCIAL AFFECTIONS#888. Friendship.#889. Enmity.#890. Friend.#891. Enemy.#892. Sociality.#893. Seclusion. Exclusion.#894. Courtesy.#895. Discourtesy.#896. Congratulation.#897. Love.#898. Hate. #899. Favorite.#900. Resentment.#901. Irascibility.#901a. Sullenness.

#902. [Expression of affection or love.] Endearment.#903. Marriage.#904. Celibacy.#905. Divorce.

2. DIFFUSIVE SYMPATHETIC AFFECTIONS

#906. Benevolence.#907. Malevolence.#908. Malediction.#909. Threat.#910. Philanthropy.#911. Misanthropy.#912. Benefactor.#913. [Maleficent being] Evil doer

3. SPECIAL SYMPATHETIC AFFECTIONS

#914. Pity.#914a. Pitilessness.#915. Condolence.

4. RETROSPECTIVE SYMPATHETIC AFFECTIONS

#916. Gratitude.#917. Ingratitude.#918. Forgiveness.#919. Revenge.#920. Jealousy.#921. Envy.

SECTION IV.  MORAL  AFFECTIONS

1. MORAL OBLIGATIONS#922. Right.#923. Wrong.#924. Dueness.#925. [Absence of right.] Undueness.#926. Duty.#927. Dereliction of Duty.#927a. Exemption.

2. Moral Sentiments

#928. Respect.#929. Disrespect.#930. Contempt.#931. Approbation.#932. Disapprobation.#933. Flattery.#934. Detraction.#935. Flatterer.#936. Detractor.#937. Vindication.#938. Accusation.

3. MORAL CONDITIONS

#939. Probity.#940. Improbity.

Page 58 / 83

Page 59: Mémoire de Stage Transfert sémantique bilingue pour un

#941. Knave.

#942. Disinterestedness.#943. Selfishness.#944. Virtue.#945. Vice.#946. Innocence.#947. Guilt.#948. Good Man.#949. Bad Man.#950. Penitence.#951. Impenitence.#952. Atonement.

4. MORAL PRACTICE

#953. Temperance.#954. Intemperance.#954a. Sensualist.#955. Asceticism.#956. Fasting.#957.  Gluttony.#958. Sobriety.#959. Drunkenness.#960. Purity.#961. Impurity.#962. Libertine.

5.  INSTITUTIONS

#963. Legality.#964. [Absence or violation of law.] Illegality.#965. Jurisdiction. [Executive.]#966. Tribunal.#967. Judge.#968. Lawyer.#969. Lawsuit.#970. Acquittal.#971. Condemnation.#972. Punishment.#973. Reward.#974. Penalty.#975. [Instrument of punishment.] Scourge.

SECTION V.  RELIGIOUS AFFECTIONS

1. SUPERHUMAN BEINGS AND REGIONS#976. Deity.#977. [Beneficent spirits] Angel.#978. [Maleficent spirits.] Satan.

2. Mythological and other fabulous Deities and Powers

#979. Jupiter.#980. Demon.#981. Heaven.#982. Hell.#983. [Religious Knowledge.] Theology.#983a. Orthodoxy.

#985. Judeo­Christian Revelation.#986. Pseudo­Revelation.3. RELIGIOUS SENTIMENTS

#987. Piety.#988. Impiety.#989. Irreligion.

4. ACTS OF RELIGION

#990. Worship.#991. Idolatry.#992. Sorcery.#993. Spell.#994. Sorcerer.

5. RELIGIOUS INSTITUTIONS

#995. Churchdom.#996.  Clergy.#997.  Laity.#998. Rite.#999. Canonicals.#1000. Temple.

Page 59 / 83

Page 60: Mémoire de Stage Transfert sémantique bilingue pour un

#984. Heterodoxy. [Sectarianism.]

 II.Thésaurus LarousseListe des 873 concepts Larousse

#Le monde : les Concepts Fondamentaux#Existence1:existence2:inexistence3:matérialité4:immatérialité5:substance6:accident7:état8:circonstance9:présence10:absence11:apparition12:disparition#Le monde : les Concepts Fondamentaux#Identité13:relation14:indépendance15:identité16:altérité17:ambivalence18:opposition19:substitution20:réciprocité21:ressemblance22:dissemblance23:différence24:uniformité25:diversité26:concordance27:discordance28:conformité29:non-conformité30:modèle31:imitation32:innovation33:variation#Le monde : les Concepts Fondamentaux#Causalité34:cause35:effet36:agent37:motif38:but39:possibilité40:impossibilité41:nécessité42:éventualité43:probabilité44:hasard

#Le monde : L'ordre et la Mesure#Ordre45:ordre46:désordre47:organisation48:désorganisation49:classification50:méthode51:système52:règle53:norme54:normalité55:anormalité56:commencement57:milieu58:fin59:antériorité60:postériorité61:continuité62:discontinuité63:rang64:série65:gradation66:groupement67:inclusion68:exclusion#Le monde : L'ordre et la Mesure#Quantité69:quantité70:mesure71:totalité72:partie73:unité74:pluralité75:multitude76:répétition77:compléxité78:abondance79:paucité80:excès81:manque82:satiété83:égalité84:inégalité85:supériorité86:infériorité87:intensité88:augmentation89:diminution90:réunion91:séparation92:intégration

Page 60 / 83

Page 61: Mémoire de Stage Transfert sémantique bilingue pour un

93:dissociation

94:proportion95:fraction96:reste97:adjonction98:mélange99:compensation#Le monde : L'ordre et la Mesure#Nombre100:nombre101:zéro102:un103:deux104:trois105:quatre106:cinq107:six108:sept109:huit110:neuf111:dix112:douze113:cent114:mille115:infini116:calcul117:chiffre118:addition119:soustraction120:multiplication121:division122:mathématique#Le monde : L'espace#Dimensions123:dimension124:longueur125:largeur126:hauteur127:grosseur128:petitesse129:étroitesse#Le monde : L'espace#Contours130:extérieur131:intérieur132:bord133:centre134:contenant135:contenu136:limite137:revêtement138:barrière139:ouverture140:fermeture#Le monde : L'espace#Formes141:forme

143:angularité144:courbure145:cercle146:géométrie#Le monde : L'espace#Structures147:Structure148:ligne149:croix150:bande151:pointe152:bosse153:creux154:grain155:poli#Le monde : L'espace#Situation156:situation157:environnement158:intervalle159:soutien160:suspension161:proximité162:distance163:devant164:derrière165:dessus166:dessous167:côté168:droite169:gauche#Le monde : Le Temps#Temps et Durée170:temps171:permanence172:durée173:éternité174:instant#Le monde : L'espace#date et chronologie175:chronologie176:calendrier177:passé178:présent179:futur180:avance181:retard182:simultanéité183:fréquence184:rareté185:période186:moment187:saisons188:matinée189:soirée#Le monde : L'espace#évolution et histoire

Page 61 / 83

Page 62: Mémoire de Stage Transfert sémantique bilingue pour un

142:rectitude190:évolution191:histoire192:évènement193:changement194:nouveauté195:ancienneté196:désuétude#Le monde : Le mouvement#Le mouvement et ses directions197:mouvement198:direction199:rapprochement200:éloignement201:arrivée202:départ203:entrée204:sortie205:pénétration206:extraction207:réception208:éjection209:expansion210:contraction211:montée212:descente213:saut214:chute215:rotation216:oscillation217:agitation218:déviation219:dépassement220:inversion#Le monde : Le mouvement#Les forces et leurs actions221:force222:traction223:attraction224:répulsion225:impulsion226:équilibre227:choc228:frottement229:inertie#Le monde : La matière#les sciences de la matière230:chimie231:microphysique232:astronomie233:mécanique234:optique235:électricité236:magnétisme237:géologie#Le monde : La matière#Les propriétés de la matière238:densité

239:poids240:lègéreté241:chaleur242:froid243:combustibilité244:humidité245:sécheresse246:solidité247:fragilité248:rigidité249:élasticité250:mollesse251:pulvérulence#Le monde : La matière#Les élèments et les matériaux252:liquide253:gaz254:bulle255:air256:feu257:terre258:minéraux259:minerais260:or261:argent262:fer263:bronze264:plomb265:bois266:verre267:huile#Le monde : La matière#l'environnement terrestre268:région269:plaine270:montagne271:flots272:désert273:climats274:pluie275:vent276:nuages277:soleil278:lune#Le monde : La vie#le vivant279:reproduction280:hérédité281:embryologie282:ecologie283:cellule284:micro-organismes#Le monde : La vie#les plantes285:botanique286:arbres287:arbustes

Page 62 / 83

Page 63: Mémoire de Stage Transfert sémantique bilingue pour un

288:fleurs289:fruits290:herbes et fougères291:champignons292:mousses et hépatiques293:algues294:lichens#Le monde : La vie#les animaux295:zoologie296:mammifères297:oiseaux298:poissons299:reptiles300:batraciens301:insectes et arachnides302:crustacés303:mollusques et petits animaux marins304:vers305:cris et bruits d'animaux#L'homme : l'être humain#Les humains306:humains307:personne308:homme309:femme#L'homme : l'être humain#Les âges de la vie310:vie311:mort312:âge313:naissance314:enfance315:jeunesse316:maturité317:vieillesse#L'homme : le corps et la vie#Le corps318:tête319:membres320:main321:pied322:dos323:poitrine324:ventre325:sexe326:cerveau327:nerfs328:muscles329:os et articulations330:dents331:coeur et vaisseaux332:sang333:glandes334:peau335:pilosité336:tissus vivants

#L'homme : le corps et la vie#Les fonctions vitales337:nutrition338:digestion339:excrétion340:respiration341:sexualité342:immunité#L'homme : le corps et perceptions#Sensation343:sensation344:inconscience345:douleur#L'homme : le corps et perceptions#La vision et le visible346:vision347:troubles de la vision348:visibilité349:invisibilité350:lumière351:obscurité352:couleur353:blanc354:noir355:gris356:brun357:rouge358:jaune359:vert360:bleu361:violet362:polychromie#L'homme : le corps et perceptions#L'audition et le son363:audition364:surdité365:son366:silence367:bruit368:sifflement369:stridence370:son grave#L'homme : le corps et perceptions#L'odorat et le parfum371:odeur372:parfum#L'homme : le corps et perceptions#Le gout373:goût#L'homme : le corps et perceptions#Le toucher374:toucher#L'homme : le corps et son état#La santé, L'hygiène et les maladies375:vigueur376:faiblesse377:veille

Page 63 / 83

Page 64: Mémoire de Stage Transfert sémantique bilingue pour un

378:sommeil379:nudité380:propreté381:saleté382:santé383:maladie384:guérison385:aggravation386:malformation387:blessure388:tumeur389:empoisonnement390:toxicomanie#L'homme : le corps et son état#La medecine et les soins du corps391:médecine392:chirurgie393:soins du corps394:médicaments395:diététique#L'Homme : L'esprit#L'intelligence et la mémoire396:intelligence397:sottise398:entendement399:aveuglement400:mémoire401:oubli402:attention403:inattention404:imagination405:curiosité406:finesse#L'Homme : L'esprit#La connaissance et la vérité407:savoir408:ignorance409:vérité410:erreur411:découverte412:recherche413:apprentissage414:enseignement415:éducation#L'Homme : L'esprit#Le raisonnement416:raisonnement417:affirmation418:négation419:question420:réponse421:idée422:principe423:supposition424:intuition425:comparaison426:contrôle

#L'Homme : L'esprit#Le jugement et les valeurs427:jugement428:accord429:désaccord430:certitude431:incertitude432:surestimation433:sous-estimation434:qualité435:médiocrité436:beauté437:laideur438:importance439:insignifiance#Le monde : L'affectivité#Les caractères440:sensibilité441:insensibilité442:optimisme443:pessimisme444:entrain445:paresse446:patience447:impatience448:calme449:nervosité450:folie#Le monde : L'affectivité#Les dispositions d'esprit451:enthousiasme452:réserve453:sérieux454:moquerie455:attirance456:aversion457:attente458:ennui459:surprise460:regret461:déception462:souci#Le monde : L'affectivité#Les émotions463:joie464:tristesse465:comique466:tragique467:plaisir468:déplaisir469:satisfaction470:insatisfaction471:colère472:peur473:soulagement474:espoir475:désespoir

Page 64 / 83

Page 65: Mémoire de Stage Transfert sémantique bilingue pour un

#Le monde : La vie spirituelle#La pensée religieuse et philosophique476:religion477:théologie478:philosophie479:foi480:incroyance#Le monde : La vie spirituelle#Le sacré et le profane481:sacré482:profane483:sacrilège484:magie485:divination#Le monde : La vie spirituelle#Les religions486:judaïsme487:christianisme488:islam489:bouddhisme490:hindouisme#Le monde : La vie spirituelle#Les cultes et les pratiques491:culte492:religieux et ministres des cultes493:lieux de culte494:prière495:prédication496:messe497:fêtes religieuses498:Pape499:moines#Le monde : La vie spirituelle#Les croyances500:divinités501:textes sacrés502:dieu503:ange504:démon505:paradis506:enfer#Le monde : La volonté#Décision et indécision507:volonté508:courage509:lâcheté510:résolution511:irrésolution512:persévérance513:défection514:obstination515:renonciation#Le monde : La volonté#Le libre-arbitre et la necessité516:liberté517:fatalité518:obligation519:choix

520:refus521:prétexte522:caprice523:désir524:indifférence525:persuasion526:dissuasion#Le monde : L'action#l'action et l'inaction527:action528:réaction529:inaction530:effort531:repos#Le monde : L'action#le projet et son résultat532:intention533:tentative534:projet535:entreprise536:préparation537:impréparation538:accomplissement539:inaccomplissement540:succès541:échec#Le monde : L'action#les occasions et les circonstances542:opportunité543:inopportunité544:utilité545:inutilité546:facilité547:difficulté548:prospérité549:adversité550:sécurité551:danger552:avertissement553:alarme554:obstacle555:détection#Le monde : L'action#Les objectifs556:construction557:destruction558:réparation559:préservation560:protection561:annulation#Le monde : L'action#la participation562:participation563:aide564:stimulation565:encouragement566:conseil#Le monde : L'action

Page 65 / 83

Page 66: Mémoire de Stage Transfert sémantique bilingue pour un

#les manières d'agir567:usage568:habitude569:abus570:adresse571:maladresse572:prudence573:imprudence574:soin575:négligence576:rapidité577:lenteur578:ponctualité579:modération580:violence#La société : Le rapport à l'autre#les comportements581:sociabilité582:insociabilité583:compagnie584:solitude585:bonté586:méchanceté587:générosité588:égoïsme589:gratitude590:hospitalité591:inhospitalité592:courtoisie593:discourtoisie594:loyauté595:hypocrisie596:promesse597:trahison598:délicatesse599:dureté#La société : Le rapport à l'autre#Les sentiments600:amour601:caresse602:passion603:ressentiment604:amitié605:inimitié606:confiance607:défiance608:jalousie609:pitié#La société : Le rapport à l'autre#L'image de soi610:fierté611:honte612:modestie613:prétention614:distinction615:affectation616:simplicité617:ostentation

618:timidité619:décence620:indécence#La société : Le rapport hiérarchique#autorité et soumission621:autorité622:domination623:influence624:obéissance625:désobéissance626:respect627:irrespect628:soumission629:servilité630:résistance#La société : Le rapport hiérarchique#commandement et consentement631:commandement632:autorisation633:interdiction634:demande635:consentement#La société : Le rapport hiérarchique#louange et reproche636:louange637:reproche638:pardon#La société : Le rapport hiérarchique#le prestige social639:gloire640:ostracisme641:honneur642:discrédit643:promotion644:éviction645:ridicule646:noblesse647:roture648:titres#La société : Guerre et Paix#le conflit et le compromis649:conflit650:guerre651:révolution652:paix653:compromis654:pacte#La société : Guerre et Paix#Les épisodes du conflit655:attaque656:défense657:agression658:coup659:représailles660:victoire661:défaite662:revanche

Page 66 / 83

Page 67: Mémoire de Stage Transfert sémantique bilingue pour un

#La société : Guerre et Paix#la force armée663:armée664:armes665:armement ancien666:manoeuvres667:tir#La société : La vie collective#société et organisation politique668:société669:politique670:régime671:systèmes politiques672:élection673:représentants#La société : La vie collective#la citoyenneté674:citoyen675:civisme676:habitant677:étranger#La société : La vie collective#la famille678:famille679:père680:mère681:filiation682:mariage683:célibat684:divorce#La société : La vie collective#Les coutumes685:coutume686:cérémonies687:fête688:funérailles689:salutations#La société : La morale#La loi morale690:morale691:devoir692:prescription693:honnêteté694:malhonnêteté695:mérite696:imperfection697:péché698:expiation#La société : La morale#Les vertus et les vices699:vertu700:vice701:tempérance702:ascèse703:intempérance704:chasteté

707:gloutonnerie708:ivrognerie709:avarice710:prodigalité#La société : Le droit#La justice711:justice712:injustice713:droit714:tribunal715:plaidoirie716:police#La société : Le droit#les délits et les peines717:vol718:escroquerie719:proxénétisme720:crime721:arrestation722:condamnation723:détention724:libération725:supplice#La société : La communication et le langage#communication et dissimulation726:communication727:secret728:tromperie729:mensonge#La société : La communication et le langage#Le signe et le sens730:signe731:représentation732:sens733:non-sens734:intelligibilité735:inintelligibilité736:ambiguïté737:sous-entendu738:interprétation#La société : La communication et le langage#la langue739:langue740:grammaire741:phrase742:mot743:nom744:lettre#La société : La communication et le langage#la parole745:parole746:troubles de la parole747:cri748:interjections749:conversation750:plaisanterie

Page 67 / 83

Page 68: Mémoire de Stage Transfert sémantique bilingue pour un

705:luxure706:sobriété#La société : La communication et le langage#Le discours751:discours752:figures de discours753:rhétorique754:récit755:description756:résumé#La société : La communication et le langage#Le style757:éloquence758:platitude759:concision760:prolixité761:grandiloquence#La société : La communication et l'information#l'écrit et les médias762:écriture763:imprimerie764:imprimé765:livre766:presse767:radiotélévision768:publicité#La société : La communication et l'information#Circulation et traitement de l'information769:télécommunications770:correspondance771:enregistrement772:informatique#La société : L'Art#Arts plastiques image et décor773:peinture et dessin774:iconographie775:photographie776:sculpture777:architecture778:ornements779:art des jardins780:tendances artistiques#La société : L'Art#La musique et la chanson781:musique782:musiciens783:instruments de musique784:chant785:chanson#La société : L'Art#Les arts du spectacle786:danse787:théatre788:scène789:poésie790:cinéma791:cirque#La société : Les activités économiques

793:main-d'oeuvre794:lieu de travail795:salaire796:production797:improduction#La société : Les activités économiques#L'industrie et l'artisanat798:énergie799:outils800:machines801:manutention802:exploitation minière803:pétrole804:pétrochimie805:métallurgie, sidérurgie806:travaux publics807:menuiserie808:plomberie809:serrurerie810:textile#La société : Les activités économiques#L'agriculture et la pêche811:agriculture812:arboriculture813:élevage814:pêche#La société : Les activités économiques#les transports815:transports816:transports par route817:automobile818:transports par rail819:transports maritimes et fluviaux820:transports par air821:astronautique#La société : Les activités économiques#Le commerce et les biens822:possession823:cession824:restitution825:paiement826:don827:commerce828:marchandise#La société : Les activités économiques#L'économie829:richesse830:pauvreté831:prix832:cherté833:modicité834:gratuité835:dépense836:dette837:libéralisme838:dirigisme

Page 68 / 83

Page 69: Mémoire de Stage Transfert sémantique bilingue pour un

#Le travail et la production792:emploi

#La société : Les activités économiques#La finance

839:monnaie840:banque841:crédit842:bourse843:valeurs mobilières844:épargne845:gestion846:fiscalité#La société : La vie quotidienne#L'habitat847:habitat848:maison849:urbanisme850:mobilier851:vaiselle852:éclairage853:chauffage854:nettoyage#La société : La vie quotidienne#L'alimentation855:repas856:gastronomie857:pain858:sucrerie859:boisson860:produits laitiers861:fromages#La société : La vie quotidienne#Le vêtement et la parure862:vêtement863:mode864:couture865:chaussure866:bijou867:coiffure#La société : La vie quotidienne#Les loisirs868:passe-temps869:voyage870:sports871:chasse872:jeux873:jouets

Page 69 / 83

Page 70: Mémoire de Stage Transfert sémantique bilingue pour un

 III.Annexe 3 : Exemple de résultat de traduction                                                    2­2                                                   PH                                                    |          ______________________________________________________________________________________          |                        |                                       |                   |          |                        |                                       |                   |         3­3                      6­6                                    13­13               17­17         GN                       GV                                    GNPREP                 .          |                        |                                       |     ___________         _____________________                   _____________________     |         |         |                   |                   |         |         |     |         |         |                   |                   |         |         |    4­4       5­5       7­7                 8­8                14­14     15­15     16­16    le       mère  accompagne              GN                  à        le      école                                             |                                   _____________________                                   |         |         |                                   |         |         |                                  9­9      10­10     11­11                                  sa       fille                                                       |                                                       _                                                       |                                                       |                                                     12­12                                                   déguisé

                     2 : NUM(SIN), PERS(1,3), MODE(INDICAT,SUBJNCT,IMPERAT), IND(PRES), SUBJ(PRES), IMPER(PRES), CAT(V), SOUSV(VB), TYP(TRANS,TRANSCONJ), CASPRNML(NEXCDIR), POT(AVOIR), LEMME(PH), PLACEMOT(9), POSITION(SOMMET_PHRASE),  K(PHRASE), KPH(PH), TPH(DCL), FSUJ(1), FOBJ(1), TPREPRFL(DE), TPREPPAPA(DE), LOCUTION(0: 0, 38: 0.177586960e­1, 51: 0.985075187e­2, 198: 0.177586960e­1, 199: 0.177586960e­1, 201: 0.177586960e­1, 279: 0.298474330, 286: 0.149237165, 309: 0.140187144, 313: 0.298474330, 314: 0.149237165, 414: 0.985075187e­2, 415: 0.985075187e­2, 476: 0.985075187e­2, 478: 0.985075187e­2, 488: 0.985075187e­2, 489: 0.985075187e­2, 492: 0.298474330, 495: 0.985075187e­2, 499: 0.298474330, 565: 0.310710048e­1, 583: 0.932130050e­1, 587: 0.350467872e­1, 650: 0.985075187e­2, 666: 0.103063762, 674: 0.149237165, 678: 0.289424304, 680: 0.333521127, 681: 0.438661479, 683: 0.140187144, 719: 0.289424304, 779: 0.310710048e­1, 780: 0.985075187e­2, 781: 0.310710048e­1, 782: 0.310710048e­1, 789: 0.985075187e­2, 794: 0.985075187e­2, 816: 0.932130050e­1, 855: 0.310710048e­1, 856: 0.661177873e­1, 862: 0.159645724, 873: 0),PLFIN(51),LemmeProvisoireAng(PH),VecteurSem(0: 0, 11: 0.646090030, 45: 0.120003712e­1, 66: 0.182077112, 67: 0.120003712e­1, 88: 0.648945331e­1, 129: 0.496948766e­1, 161: 0.182077112, 163: 0.182077112, 166: 0.417586517, 188: 0.496948766e­1, 189: 0.156046333e­1, 225: 0.108368968, 272: 0.648945331e­1, 278: 0.120003712e­1, 286: 0.120003712e­1, 292: 0.120003712e­1, 298: 0.430255556e­1, 365: 0.496948766e­1, 367: 0.496948766e­1, 369: 0.156046333e­1, 371: 0.156046333e­1, 374: 0.495300579e­1, 415: 0.156046333e­1, 416: 0.156046333e­1, 490: 0.626706552e­2, 492: 0.626706552e­2, 537: 0.125341308e­1, 540: 0.626706552e­2, 559: 0.626706552e­2,x2                    0597: 0.626706552e­2, 615: 0.156046333e­1, 626: 0.626706552e­2, 691: 0.626706552e­2, 692: 0.788216114e­1, 712: 0.626706552e­2, 722: 0.850886726e­1, 784: 0.773070335e­2, 789: 0.788216114e­1, 904: 0.231607151, 906: 0.773070335e­2, 910: 0.773070335e­2, 942: 0.773070335e­2, 945: 0.180314397, 964: 0.180314397, 983: 0.188011980e­1, 990: 0.125341308e­1, 996: 0.364154219, 998: 0.626706552e­2, 1000: 0)

Page 70 / 83

Page 71: Mémoire de Stage Transfert sémantique bilingue pour un

                     3 : GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GN),PLACEMOT(3),K(GN),FS(SUJ),SEM(PERSONNE),LOCUTION(0: 0, 279: 0.371390676, 286: 0.185695343, 313: 0.371390676, 314: 0.185695343, 492: 0.371390676, 499: 0.371390676, 674: 0.185695343, 678: 0.185695343, 680: 0.371390676, 681: 0.371390676, 719: 0.185695343, 873: 0),LemmeProvisoireAng(GN),VecteurSem(0: 0, 11: 0.512861299, 66: 0.234591722, 129: 0.640278577e­1, 161: 0.234591722, 163: 0.234591722, 166: 0.503780794, 188: 0.640278577e­1, 365: 0.640278577e­1, 367: 0.640278577e­1, 904: 0.234591722, 945: 0.115138375, 964: 0.115138375, 996: 0.469183444, 1000: 0)

                     4 : FRM(La),GNR(FEM),NUM(SIN),PERS(3),CAT(DETERM),SOUSD(ARTD),FLX(le),LEMME(le),MAJUSCULE(1),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(a),VecteurSem(0: 0, 1000: 0)

                     5 : FRM(mère),GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(mère),LEMME(mère),PLACEMOT(3),POSITION(MOT_TEXTE),FS(GOV),CS(1),SEM(PERSONNE),LOCUTION(0: 0, 279: 0.335270738, 286: 0.915065002e­1, 313: 0.335270738, 314: 0.915065002e­1, 492: 0.335270738, 499: 0.335270738, 674: 0.915065002e­1, 678: 0.164551963, 680: 0.384716033, 681: 0.568412494, 719: 0.164551963, 873: 0),VALVECTEUR(0.201882863e+1),SEMLU(1),LemmeProvisoireAng(mother),VecteurSem(0: 0, 11: 0.512861299, 66: 0.234591722, 129: 0.640278577e­1, 161: 0.234591722, 163: 0.234591722, 166: 0.503780794, 188: 0.640278577e­1, 365: 0.640278577e­1, 367: 0.640278577e­1, 904: 0.234591722, 945: 0.115138375, 964: 0.115138375, 996: 0.469183444, 1000: 0)

                     6 : NUM(SIN),PERS(1,3),MODE(INDICAT,SUBJNCT,IMPERAT),IND(PRES),SUBJ(PRES),IMPER(PRES),CAT(V),SOUSV(VB),TYP(TRANS,TRANSCONJ),CASPRNML(NEXCDIR),POT(AVOIR),LEMME(GV),PLACEMOT(9),K(GV),FOBJ(1),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 309: 0.348868823, 565: 0.773231029e­1, 583: 0.231969308, 587: 0.872172069e­1, 666: 0.231969308, 678: 0.348868823, 680: 0.872172069e­1, 681: 0.348868823, 683: 0.348868823, 719: 0.348868823, 779: 0.773231029e­1, 781: 0.773231029e­1, 782: 0.773231029e­1, 816: 0.231969308, 855: 0.773231029e­1, 856: 0.164540300, 862: 0.397293300, 873: 0),LemmeProvisoireAng(GV),VecteurSem(0: 0, 11: 0.711556053, 88: 0.186167373, 166: 0.762512636e­1, 189: 0.447660732e­1, 225: 0.310885429, 272: 0.186167373, 298: 0.123430347, 369: 0.447660732e­1, 371: 0.447660732e­1, 374: 0.142090263, 415: 0.447660732e­1, 416: 0.447660732e­1, 615: 0.447660732e­1, 692: 0.196763687, 722: 0.196763687, 784: 0.221775960e­1, 789: 0.196763687, 904: 0.142090263, 906: 0.221775960e­1, 910: 0.221775960e­1, 942: 0.221775960e­1, 945: 0.260915470, 964: 0.260915470, 1000: 0)

                     7 : FRM(accompagne),CATRAC(VB),NUM(SIN),PERS(1,3),MODE(INDICAT,SUBJNCT,IMPERAT),IND(PRES),SUBJ(PRES),IMPER(PRES),CAT(V),SOUSV(VB),TYP(TRANS,TRANSCONJ),CASPRNML(NEXCDIR),POT(AVOIR),FLX(accompagner),LEMME(accompagner),PLACEMOT(9),POSITION(MOT_TEXTE),FS(GOV),CS(1),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 565: 0.128793406, 583: 0.535609436, 666: 0.566095304, 779: 0.128793406, 781: 0.128793406, 782: 0.128793406, 816: 0.535609436, 855: 0.128793406, 856: 0.151137447, 873: 0),VALVECTEUR(0.126649391e+1),SEMLU(1),LemmeProvisoireAng(take),VecteurSem(0: 0, 88: 0.409227895, 189: 0.984035110e­1, 272: 0.409227895, 298: 0.213878798, 369: 0.984035110e­1, 371: 0.984035110e­1, 415: 0.984035110e­1, 416: 0.984035110e­1, 615: 0.984035110e­1, 692: 0.432520341, 722: 0.432520341, 789: 0.432520341, 1000: 0)

Page 71 / 83

Page 72: Mémoire de Stage Transfert sémantique bilingue pour un

                     8 : GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GN),PLACEMOT(23),K(GN),FS(OBJT),SEM(PERSONNE),LOCUTION(0: 0, 309: 0.392704534, 587: 0.981761360e­1, 678: 0.392704534, 680: 0.981761360e­1, 681: 0.392704534, 683: 0.392704534, 719: 0.392704534, 856: 0.981761360e­1, 862: 0.447213602, 873: 0),LemmeProvisoireAng(GN),VecteurSem(0: 0, 11: 0.801599121, 166: 0.859003829e­1, 225: 0.350226044, 298: 0.294386672e­1, 374: 0.160070896, 784: 0.249840307e­1, 904: 0.160070896, 906: 0.249840307e­1, 910: 0.249840307e­1, 942: 0.249840307e­1, 945: 0.293932704, 964: 0.293932704, 1000: 0)

                     9 : FRM(sa),GNR(FEM),NUM(SIN),NUMREF(SIN),CAT(DETERM),SOUSD(POSS),FLX(son­possessif),LEMME(sa),PLACEMOT(20),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(her),VecteurSem(0: 0, 1000: 0)

                     10 : FRM(fille),GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(fille),LEMME(fille),PLACEMOT(23),POSITION(MOT_TEXTE),FS(GOV),CS(1),SEM(PERSONNE),LOCUTION(0: 0, 309: 0.228525114, 587: 0.356684350e­1, 678: 0.419632816, 680: 0.122635626, 681: 0.724769639, 683: 0.228525114, 719: 0.419632816, 856: 0.420280981e­1, 873: 0),VALVECTEUR(0.200937867e+1),SEMLU(1),LemmeProvisoireAng(girl),VecteurSem(0: 0, 11: 0.855801105, 166: 0.917087459e­1, 298: 0.314292335e­1, 374: 0.170894455, 784: 0.266733837e­1, 904: 0.170894455, 906: 0.266733837e­1, 910: 0.266733837e­1, 942: 0.266733837e­1, 945: 0.313807630, 964: 0.313807630, 1000: 0)

                     11 : GNR(FEM),NUM(SIN),CAT(V),SOUSV(PAPA),SOUSA(ADNOM),TYP(TRANS,TRANSCONJ,RFLX,NCCLIEU),POT(AVOIR),PLACEMOT(29),K(GA),FS(ATTR),PLFIN(908),VecteurSem(0: 0, 225: 0.1e+1, 1000: 0)

                     12 : FRM(déguisée),CATRAC(VB),GNR(FEM),NUM(SIN),CAT(ADJOINT),SOUSV(PAPA),SOUSA(ADNOM),TYP(TRANS,TRANSCONJ,RFLX,NCCLIEU),POT(AVOIR),FLX(déguiser),LEMME(déguisé),PLACEMOT(29),POSITION(MOT_TEXTE),FS(GOV),CS(1),LOCUTION(0: 0, 862: 0.1e+1, 873: 0),VALVECTEUR(0.146853232e+1),SEMLU(1),LemmeProvisoireAng(in fancy dress),VecteurSem(0: 0, 225: 0.1e+1, 1000: 0)

                     13 : TPREP(A),TPREPNM(A),GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GNPREP),PLACEMOT(45),K(GNPREP),FS(COMPCIR),SEMOBJ(LIEU),LOCUTION(0: 0, 38: 0.353553390, 51: 0.196116142, 198: 0.353553390, 199: 0.353553390, 201: 0.353553390, 414: 0.196116142, 415: 0.196116142, 476: 0.196116142, 478: 0.196116142, 488: 0.196116142, 489: 0.196116142, 495: 0.196116142, 650: 0.196116142, 666: 0.196116142, 780: 0.196116142, 789: 0.196116142, 794: 0.196116142, 873: 0),LemmeProvisoireAng(GNPREP),VecteurSem(0: 0, 45: 0.254525613, 67: 0.254525613, 278: 0.254525613, 286: 0.254525613, 292: 0.254525613, 490: 0.132923257, 492: 0.132923257, 537: 0.265846514, 540: 0.132923257, 559: 0.132923257, 597: 0.132923257, 626: 0.132923257, 691: 0.132923257, 692: 0.217048382, 712: 0.132923257, 722: 0.349971652, 789: 0.217048382, 983: 0.398769807, 990: 0.265846514, 998: 0.1329                    23257, 1000: 0)

                     14 : FRM(à),TPREP(A),TPREPNM(A),CAT(PREP),FLX(à),LEMME(à),PLACEMOT(40),POSITION(MOT_TEXTE),FS(DES),CS(1),LOCUTION(0: 0, 38: 0.5, 198: 0.5, 199: 0.5, 

Page 72 / 83

Page 73: Mémoire de Stage Transfert sémantique bilingue pour un

201: 0.5, 873: 0),VALVECTEUR(0.105198979e+1),SEMLU(1),LemmeProvisoireAng(with),VecteurSem(0: 0, 45: 0.447213602, 67: 0.447213602, 278: 0.447213602, 286: 0.447213602, 292: 0.447213602, 1000: 0)

                     15 : FRM(l'),GNR(MAS,FEM),NUM(SIN),PERS(3),CAT(DETERM),SOUSD(ARTD),FLX(le),LEMME(le),PLACEMOT(43),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(a),VecteurSem(0: 0, 1000: 0)

                     16 : FRM(école),GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(école),LEMME(école),PLACEMOT(45),POSITION(MOT_TEXTE),FS(GOV),CS(1),SEMOBJ(LIEU),LOCUTION(0: 0, 51: 0.261119627, 414: 0.261119627, 415: 0.261119627, 476: 0.261119627, 478: 0.261119627, 488: 0.261119627, 489: 0.261119627, 495: 0.261119627, 650: 0.261119627, 666: 0.426378297, 780: 0.261119627, 789: 0.261119627, 794: 0.261119627, 873: 0),VALVECTEUR(0.106705796e+1),SEMLU(1),LemmeProvisoireAng(training),VecteurSem(0: 0, 490: 0.161659336, 492: 0.161659336, 537: 0.323318672, 540: 0.161659336, 559: 0.161659336, 597: 0.161659336, 626: 0.161659336, 691: 0.161659336, 692: 0.263971090, 712: 0.161659336, 722: 0.425630426, 789: 0.263971090, 983: 0.484978008, 990: 0.323318672, 998: 0.161659336, 1000: 0)

                     17 : FRM(.),CAT(PONCT),CATPONCT(POINT),FONCT(TERMINAISON),FLX(.),LEMME(.),PLACEMOT(51),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),LemmeProvisoireAng(.),VecteurSem(0: 0, 1000: 0)

                                             18­18                                              PH                                               |          ____________________________________________________________________________          |                        |                                                 |          |                        |                                                 |        19­19                    22­22                                             32­32         GN                       GV                                                 .          |                        |     ___________         ______________________     |         |         |                    |     |         |         |                    |   20­20     21­21     23­23                24­24    le       rôti     être                                              |                                   _______________________                                   |                     |                                   |                     |                                 25­25                 26­26                              accompagne              GNPREP                                                         |                                             __________________________                                             |         |              |                                             |         |              |                                           27­27     28­28          29­29                                            de       pomme         GNPREP                                                                      |                                                                 ___________                                                                 |         |                                                                 |         |                                                               30­30     31­31                                                                de       terre

                     18 : NUM(SIN),PERS(3),MODE(INDICAT),IND(PRES),CAT(V),SOUSV(VB),TYP(ATTRIB,VETAT,AUX),POT(AVOIR),LEMME(PH),PLACEMOT(62),POSITION(SOMMET_PHRASE),K(PHRA

Page 73 / 83

Page 74: Mémoire de Stage Transfert sémantique bilingue pour un

SE),KPH(PH),TPH(DCL),FSUJ(1),FATTRSJ(1),SEMOBJT(TEMPS,LIEU),LOCUTION(0: 0, 1: 0.108092844, 78: 0.159417972e­1, 138: 0.159417972e­1, 154: 0.596487426e­1, 156: 0.108092844, 192: 0.108092844, 194: 0.159417972e­1, 232: 0.159417972e­1, 233: 0.596487426e­1, 235: 0.159417972e­1, 237: 0.159417972e­1, 257: 0.159417972e­1, 268: 0.159417972e­1, 272: 0.159417972e­1, 286: 0.596487426e­1, 289: 0.596487426e­1, 310: 0.108092844, 318: 0.596487426e­1, 356: 0.159417972e­1, 358: 0.159417972e­1, 359: 0.159417972e­1, 409: 0.108092844, 474: 0.159417972e­1, 486: 0.159417972e­1, 541: 0.108092844, 551: 0.108092844, 563: 0.159417972e­1, 565: 0.142182121e­1, 578: 0.108092844, 583: 0.426546335e­1, 606: 0.108092844, 607: 0.108092844, 622:                     0.108092844, 666: 0.426546335e­1, 676: 0.159417972e­1, 677: 0.159417972e­1, 776: 0.159417972e­1, 779: 0.142182121e­1, 781: 0.142182121e­1, 782: 0.142182121e­1, 797: 0.108092844, 806: 0.159417972e­1, 814: 0.159417972e­1, 816: 0.426546335e­1, 855: 0.142182121e­1, 856: 0.911150550, 870: 0.159417972e­1, 873: 0),PLFIN(96),LemmeProvisoireAng(PH),VecteurSem(0: 0, 1: 0.969343185e­1, 31: 0.114763319e­1, 57: 0.114763319e­1, 88: 0.138844585e­1, 123: 0.114763319e­1, 132: 0.969343185e­1, 134: 0.969343185e­1, 138: 0.969343185e­1, 157: 0.114763319e­1, 169: 0.108410655, 181: 0.114763319e­1, 182: 0.969343185e­1, 183: 0.969343185e­1, 184: 0.969343185e­1, 188: 0.114763319e­1, 189: 0.154946064e­1, 231: 0.114763319e­1, 272: 0.138844585e­1, 288: 0.114763319e­1, 298: 0.910816669, 318: 0.459053277e­1, 329: 0.942315864e­2, 342: 0.229526638e­1, 358: 0.11476331                    9e­1, 359: 0.969343185e­1, 361: 0.114763319e­1, 365: 0.188463163e­1, 367: 0.188463163e­1, 369: 0.401827383e­2, 371: 0.401827383e­2, 372: 0.942315864e­2, 415: 0.401827383e­2, 416: 0.401827383e­2, 433: 0.114763319e­1, 435: 0.114763319e­1, 436: 0.114763319e­1, 484: 0.969343185e­1, 494: 0.969343185e­1, 557: 0.114763319e­1, 615: 0.401827383e­2, 622: 0.229526638e­1, 631: 0.942315864e­2, 633: 0.114763319e­1, 665: 0.969343185e­1, 682: 0.114763319e­1, 692: 0.138844585e­1, 707: 0.114763319e­1, 709: 0.114763319e­1, 711: 0.114763319e­1, 715: 0.969343185e­1, 722: 0.138844585e­1, 732: 0.969343185e­1, 745: 0.969343185e­1, 749: 0.969343185e­1, 789: 0.138844585e­1, 803: 0.114763319e­1, 858: 0.114763319e­1, 922: 0.969343185e­1, 985: 0.114763319e­1, 1000: 0)

                     19 : GNR(MAS),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GN),PLACEMOT(56),K(GN),FS(SUJ),LOCUTION(0: 0, 856: 0.1e+1, 873: 0),LemmeProvisoireAng(GN),VecteurSem(0: 0, 298: 0.1e+1, 1000: 0)

                     20 : FRM(Le),GNR(MAS),NUM(SIN),PERS(3),CAT(DETERM),SOUSD(ARTD),FLX(le),LEMME(le),PLACEMOT(53),MAJUSCULE(1),POSITION(MOT_TEXTE),CHGMTLG(1),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(a),VecteurSem(0: 0, 1000: 0)

                     21 : FRM(rôti),MPHDER(I),CATRAC(VB),GNR(MAS),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(rôtir),LEMME(rôti),PLACEMOT(56),POSITION(MOT_TEXTE),FS(GOV),CS(1),LOCUTION(0: 0, 856: 0.1e+1, 873: 0),VALVECTEUR(0.378549003e+1),SEMLU(1),LemmeProvisoireAng(roast),VecteurSem(0: 0, 298: 0.1e+1, 1000: 0)

                     22 : NUM(SIN),PERS(3),MODE(INDICAT),IND(PRES),CAT(V),SOUSV(VB),TYP(ATTRIB,VETAT,AUX),POT(AVOIR),LEMME(GV),PLACEMOT(62),K(GV),FATTRSJ(1),SEMOBJT(TEMPS,LIEU),LOCUTION(0: 0, 1: 0.258198881, 78: 0.380798006e­1, 138: 0.380798006e­1, 154: 0.142481565, 156: 0.258198881, 192: 0.258198881, 

Page 74 / 83

Page 75: Mémoire de Stage Transfert sémantique bilingue pour un

194: 0.380798006e­1, 232: 0.380798006e­1, 233: 0.142481565, 235: 0.380798006e­1, 237: 0.380798006e­1, 257: 0.380798006e­1, 268: 0.380798006e­1, 272: 0.380798006e­1, 286: 0.142481565, 289: 0.142481565, 310: 0.258198881, 318: 0.142481565, 356: 0.380798006e­1, 358: 0.380798006e­1, 359: 0.380798006e­1, 409: 0.258198881, 474: 0.380798006e­1, 486: 0.380798006e­1, 541: 0.258198881, 551: 0.258198881, 563: 0.380798006e­1, 565: 0.339627146e­1, 578: 0.258198881, 583: 0.101888132, 606: 0.258198881, 607: 0.258198881, 622: 0.258198881, 666: 0.101888132, 676: 0.380798006e­1, 677: 0.                    380798006e­1, 776: 0.380798006e­1, 779: 0.339627146e­1, 781: 0.339627146e­1, 782: 0.339627146e­1, 797: 0.258198881, 806: 0.380798006e­1, 814: 0.380798006e­1, 816: 0.101888132, 855: 0.339627146e­1, 856: 0.176444282, 870: 0.380798006e­1, 873: 0),LemmeProvisoireAng(GV),VecteurSem(0: 0, 1: 0.218951010, 31: 0.259222364e­1, 57: 0.259222364e­1, 88: 0.313616085e­1, 123: 0.259222364e­1, 132: 0.218951010, 134: 0.218951010, 138: 0.218951010, 157: 0.259222364e­1, 169: 0.244873237, 181: 0.259222364e­1, 182: 0.218951010, 183: 0.218951010, 184: 0.218951010, 188: 0.259222364e­1, 189: 0.349985361e­1, 231: 0.259222364e­1, 272: 0.313616085e­1, 288: 0.259222364e­1, 298: 0.361325740, 318: 0.103688943, 329: 0.212846183e­1, 342: 0.518444728e­1, 358: 0.259222364e­1, 359: 0.218951010, 361: 0.259222364e­1, 365: 0.425692367e­1, 367: 0.425692367e­1, 369:x2                    00.907630062e­2, 371: 0.907630062e­2, 372: 0.212846183e­1, 415: 0.907630062e­2, 416: 0.907630062e­2, 433: 0.259222364e­1, 435: 0.259222364e­1, 436: 0.259222364e­1, 484: 0.218951010, 494: 0.218951010, 557: 0.259222364e­1, 615: 0.907630062e­2, 622: 0.518444728e­1, 631: 0.212846183e­1, 633: 0.259222364e­1, 665: 0.218951010, 682: 0.259222364e­1, 692: 0.313616085e­1, 707: 0.259222364e­1, 709: 0.259222364e­1, 711: 0.259222364e­1, 715: 0.218951010, 722: 0.313616085e­1, 732: 0.218951010, 745: 0.218951010, 749: 0.218951010, 789: 0.313616085e­1, 803: 0.259222364e­1, 858: 0.259222364e­1, 922: 0.218951010, 985: 0.259222364e­1, 1000: 0)

                     23 : FRM(est),NUM(SIN),PERS(3),MODE(INDICAT),IND(PRES),CAT(V),SOUSV(VB),TYP(ATTRIB,VETAT,AUX),POT(AVOIR),FLX(être),LEMME(être),PLACEMOT(62),POSITION(MOT_TEXTE),FS(GOV),CS(1),SEMOBJT(TEMPS,LIEU),LOCUTION(0: 0, 1: 0.288675165, 156: 0.288675165, 192: 0.288675165, 310: 0.288675165, 409: 0.288675165, 541: 0.288675165, 551: 0.288675165, 578: 0.288675165, 606: 0.288675165, 607: 0.288675165, 622: 0.288675165, 797: 0.288675165, 873: 0),VALVECTEUR(0.130657207e+1),SEMLU(1),LemmeProvisoireAng(be),VecteurSem(0: 0, 1: 0.242535638, 132: 0.242535638, 134: 0.242535638, 138: 0.242535638, 169: 0.242535638, 182: 0.242535638, 183: 0.242535638, 184: 0.242535638, 359: 0.242535638, 484: 0.242535638, 494: 0.242535638, 665: 0.242535638, 715: 0.242535638, 732: 0.242535638, 745: 0.242535638, 749: 0.242535638, 922: 0.242535638, 1000: 0)

                     24 : GNR(MAS),NUM(SIN),CAT(V),SOUSV(PAPA),SOUSA(ADNOM),TYP(TRANS,TRANSCONJ,TRANSIND,RFLX),CASPRNML(NEXCDIR),POT(AVOIR),PLACEMOT(66),K(GA),FS(ATTR),SOUSATTR(ATTRSUJ),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 78: 0.851490211e­1, 138: 0.851490211e­1, 154: 0.318598484, 194: 0.851490211e­1, 232: 0.851490211e­1, 233: 0.318598484, 235: 0.851490211e­1, 237: 0.851490211e­1, 257: 0.851490211e­1, 268: 0.851490211e­1, 272: 0.851490211e­1, 286: 0.318598484, 289: 0.318598484, 318: 0.318598484, 356: 0.851490211e­1, 358: 0.851490211e­1, 359: 0.851490211e­1, 474: 0.851490211e­1, 486: 0.851490211e­1, 563: 0.851490211e­1, 565: 0.759429407e­1, 583: 0.227828788, 666: 0.227828788, 676: 0.851490211e­1, 677: 0.851490211e­1, 776: 0.851490211e­1, 779: 0.759429407e­1, 781: 0.759429407e­1, 782: 0.759429407e­1, 806: 

Page 75 / 83

Page 76: Mémoire de Stage Transfert sémantique bilingue pour un

0.851490211e­1, 814: 0.851490211e­1, 816: 0.227828788, 855: 0.7594294                    07e­1, 856: 0.394541406, 870: 0.851490211e­1, 873: 0),VecteurSem(0: 0, 31: 0.622016668e­1, 57: 0.622016668e­1, 88: 0.752537012e­1, 123: 0.622016668e­1, 157: 0.622016668e­1, 169: 0.622016668e­1, 181: 0.622016668e­1, 188: 0.622016668e­1, 189: 0.839806938e­1, 231: 0.622016668e­1, 272: 0.752537012e­1, 288: 0.622016668e­1, 298: 0.867018604, 318: 0.248806667, 329: 0.510734796e­1, 342: 0.124403333, 358: 0.622016668e­1, 361: 0.622016668e­1, 365: 0.102146959, 367: 0.102146959, 369: 0.217790246e­1, 371: 0.217790246e­1, 372: 0.510734796e­1, 415: 0.217790246e­1, 416: 0.217790246e­1, 433: 0.622016668e­1, 435: 0.622016668e­1, 436: 0.622016668e­1, 557: 0.622016668e­1, 615: 0.217790246e­1, 622: 0.124403333, 631: 0.510734796e­1, 633: 0.622016668e­1, 682: 0.622016668e­1, 692: 0.752537012e­1, 707: 0.622016668e­1, 709: 0.622016668e­1, 711: 0.6220                    16668e­1, 722: 0.752537012e­1, 789: 0.752537012e­1, 803: 0.622016668e­1, 858: 0.622016668e­1, 985: 0.622016668e­1, 1000: 0)

                     25 : FRM(accompagné),CATRAC(VB),GNR(MAS),NUM(SIN),CAT(V),SOUSV(PAPA),SOUSA(ADNOM),TYP(TRANS,TRANSCONJ,TRANSIND,RFLX),CASPRNML(NEXCDIR),POT(AVOIR),LEMME(accompagner),PLACEMOT(66),POSITION(MOT_TEXTE),FS(GOV),CS(1),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 565: 0.683394908e­1, 583: 0.236135435, 666: 0.236135435, 779: 0.683394908e­1, 781: 0.683394908e­1, 782: 0.683394908e­1, 816: 0.236135435, 855: 0.683394908e­1, 856: 0.899649238, 873: 0),VALVECTEUR(0.214321303e+1),SEMLU(1),LemmeProvisoireAng(be served with),VecteurSem(0: 0, 88: 0.211729717, 189: 0.612762737e­1, 272: 0.211729717, 298: 0.867942428, 369: 0.612762737e­1, 371: 0.612762737e­1, 415: 0.612762737e­1, 416: 0.612762737e­1, 615: 0.612762737e­1, 692: 0.211729717, 722: 0.211729717, 789: 0.211729717, 1000: 0)

                     26 : TPREP(DE),TPREPNM(DE),GNR(FEM),NUM(PLU),CAT(N),SOUSN(NCOM),LEMME(GNPREP),PLACEMOT(81),K(GNPREP),FS(ATTR),LOCUTION(0: 0, 78: 0.975900077e­1, 138: 0.975900077e­1, 154: 0.365148353, 194: 0.975900077e­1, 232: 0.975900077e­1, 233: 0.365148353, 235: 0.975900077e­1, 237: 0.975900077e­1, 257: 0.975900077e­1, 268: 0.975900077e­1, 272: 0.975900077e­1, 286: 0.365148353, 289: 0.365148353, 318: 0.365148353, 356: 0.975900077e­1, 358: 0.975900077e­1, 359: 0.975900077e­1, 474: 0.975900077e­1, 486: 0.975900077e­1, 563: 0.975900077e­1, 676: 0.975900077e­1, 677: 0.975900077e­1, 776: 0.975900077e­1, 806: 0.975900077e­1, 814: 0.975900077e­1, 856: 0.365148353, 870: 0.975900077e­1, 873: 0),LemmeProvisoireAng(GNPREP),VecteurSem(0: 0, 31: 0.857350540e­1, 57: 0.857350540e­1, 123: 0.857350540e­1, 157: 0.857350540e­1, 169: 0.857350540e­1, 181: 0.857350540e­1, 188: 0.857350540e­1, 189: 0.857350540e­1, 231: 0.857350540e­1, 288: 0.857350540e­1, 298: 0.769846391, 318: 0.342940211, 329: 0.703966140e­1, 342: 0.171470108, 358: 0.857350540e­1, 361: 0.857350540e­1, 365: 0.140793228, 367: 0.140793228, 372: 0.703966140e­1, 433: 0.857350540e­1, 435: 0.857350540e­1, 436: 0.857350540e­1, 557: 0.857350540e­1, 622: 0.171470108, 631: 0.703966140e­1, 633: 0.857350540e­1, 682: 0.857350540e­1, 707: 0.857350540e­1, 709: 0.857350540e­1, 711: 0.857350540e­1, 803: 0.857350540e­1, 858: 0.857350540e­1, 985: 0.857350540e­1, 1000: 0)

                     27 : FRM(de),TPREP(DE),TPREPNM(DE),CAT(PREP),FLX(de),LEMME(de),PLACEMOT(78),POSITION(MOT_TEXTE),FS(DES),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(from),VecteurSem(0: 0, 1000: 0)

                     28 : 

Page 76 / 83

Page 77: Mémoire de Stage Transfert sémantique bilingue pour un

FRM(pommes),MPHDER(E),CATRAC(VB),GNR(FEM),NUM(PLU),CAT(N),SOUSN(NCOM),FLX(pomme),LEMME(pomme),PLACEMOT(81),POSITION(MOT_TEXTE),FS(GOV),CS(1),LOCUTION(0: 0, 154: 0.895887947e­1, 233: 0.895887947e­1, 286: 0.895887947e­1, 289: 0.895887947e­1, 318: 0.895887947e­1, 856: 0.979729080, 873: 0),VALVECTEUR(0.315628170e+1),SEMLU(1),LemmeProvisoireAng(apple),VecteurSem(0: 0, 298: 0.956958007, 329: 0.875065612e­1, 365: 0.175013113, 367: 0.175013113, 372: 0.875065612e­1, 631: 0.875065612e­1, 1000: 0)

                     29 : TPREP(DE),TPREPNM(DE),GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GNPREP),PLACEMOT(91),K(GNPREP),FS(ATTR),SEMOBJ(LIEU),SEM(MAT),LOCUTION(0: 0, 78: 0.218217897, 138: 0.218217897, 194: 0.218217897, 232: 0.218217897, 235: 0.218217897, 237: 0.218217897, 257: 0.218217897, 268: 0.218217897, 272: 0.218217897, 356: 0.218217897, 358: 0.218217897, 359: 0.218217897, 474: 0.218217897, 486: 0.218217897, 563: 0.218217897, 676: 0.218217897, 677: 0.218217897, 776: 0.218217897, 806: 0.218217897, 814: 0.218217897, 870: 0.218217897, 873: 0),LemmeProvisoireAng(GNPREP),VecteurSem(0: 0, 31: 0.144337582, 57: 0.144337582, 123: 0.144337582, 157: 0.144337582, 169: 0.144337582, 181: 0.144337582, 188: 0.144337582, 189: 0.144337582, 231: 0.144337582, 288: 0.144337582, 318: 0.577350330, 342: 0.288675165, 358: 0.144337582, 361: 0.144337582, 433: 0.144337582, 435:                     0.144337582, 436: 0.144337582, 557: 0.144337582, 622: 0.288675165, 633: 0.144337582, 682: 0.144337582, 707: 0.144337582, 709: 0.144337582, 711: 0.144337582, 803: 0.144337582, 858: 0.144337582, 985: 0.144337582, 1000: 0)

                     30 : FRM(de),TPREP(DE),TPREPNM(DE),CAT(PREP),FLX(de),LEMME(de),PLACEMOT(88),POSITION(MOT_TEXTE),FS(DES),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(from),VecteurSem(0: 0, 1000: 0)

                     31 : FRM(terre),MPHDER(E),CATRAC(VB),GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(terre),LEMME(terre),PLACEMOT(91),POSITION(MOT_TEXTE),FS(GOV),CS(1),SEMOBJ(LIEU),SEM(MAT),LOCUTION(0: 0, 78: 0.218217897, 138: 0.218217897, 194: 0.218217897, 232: 0.218217897, 235: 0.218217897, 237: 0.218217897, 257: 0.218217897, 268: 0.218217897, 272: 0.218217897, 356: 0.218217897, 358: 0.218217897, 359: 0.218217897, 474: 0.218217897, 486: 0.218217897, 563: 0.218217897, 676: 0.218217897, 677: 0.218217897, 776: 0.218217897, 806: 0.218217897, 814: 0.218217897, 870: 0.218217897, 873: 0),VALVECTEUR(0.104068672e+1),SEMLU(1),LemmeProvisoireAng(terre),VecteurSem(0: 0, 31: 0.144337582, 57: 0.144337582, 123: 0.144337582, 157: 0.144337582, 169: 0.144337582, 181: 0.144337582, 188: 0.144337582, 189: 0.144337582, 231: 0.144337582, 288: 0.144337582, 318: 0.577350330, 342: 0.288675165,                     358: 0.144337582, 361: 0.144337582, 433: 0.144337582, 435: 0.144337582, 436: 0.144337582, 557: 0.144337582, 622: 0.288675165, 633: 0.144337582, 682: 0.144337582, 707: 0.144337582, 709: 0.144337582, 711: 0.144337582, 803: 0.144337582, 858: 0.144337582, 985: 0.144337582, 1000: 0)

                     32 : FRM(.),CATRAC(VB),CAT(PONCT),CATPONCT(POINT),FONCT(TERMINAISON),FLX(.),LEMME(.),PLACEMOT(96),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),LemmeProvisoireAng(.),VecteurSem(0: 0, 1000: 0)

                                                33­33                                                 PH                                                  |               _______________________________________________________________________

Page 77 / 83

Page 78: Mémoire de Stage Transfert sémantique bilingue pour un

               |                             |                                       |               |                             |                                       |             34­34                         39­39                                   47­47              GN                            GV                                       .               |                             |     _____________________         _____________________     |         |         |         |                   |     |         |         |         |                   |   35­35     36­36     38­38     40­40               41­41    le        GA       fille     être               |                                       |               _                             _____________________               |                             |                   |               |                             |                   |             37­37                         42­42               43­43             petit                      accompagne            GNPREP                                                                 |                                                       _____________________                                                       |         |         |                                                       |         |         |                                                     44­44     45­45     46­46                                                      de    son­posses   chien

                     33 : NUM(SIN),PERS(3),MODE(INDICAT),IND(PRES),CAT(V),SOUSV(VB),TYP(ATTRIB,VETAT,AUX),POT(AVOIR),LEMME(PH),PLACEMOT(114),POSITION(SOMMET_PHRASE),K(PHRASE),KPH(PH),TPH(DCL),FSUJ(1),FATTRSJ(1),SEMOBJT(TEMPS,LIEU),LOCUTION(0: 0, 1: 0.115314829, 65: 0.110790908, 79: 0.110790908, 86: 0.110790908, 103: 0.110790908, 128: 0.110790908, 129: 0.110790908, 156: 0.115314829, 190: 0.110790908, 192: 0.115314829, 296: 0.768087005e­1, 309: 0.350773477, 310: 0.115314829, 409: 0.115314829, 435: 0.110790908, 439: 0.110790908, 446: 0.110790908, 541: 0.115314829, 551: 0.115314829, 560: 0.384043502e­1, 565: 0.153180370e­1, 577: 0.110790908, 578: 0.115314829, 583: 0.459541082e­1, 587: 0.876933670e­1, 606: 0.115314829, 607: 0.115314829, 612: 0.110790908, 614: 0.768087005e­1, 622: 0.115314829, 664: 0.768087005e­1, 666: 0.459541082e­1, 678: 0.350773477, 680: 0.876933670e­1, 681                    : 0.350773477, 683: 0.350773477, 696: 0.110790908, 716: 0.384043502e­1, 719: 0.350773477, 779: 0.537223911e­1, 781: 0.153180370e­1, 782: 0.153180370e­1, 797: 0.115314829, 816: 0.459541082e­1, 855: 0.153180370e­1, 856: 0.103011393, 858: 0.384043502e­1, 867: 0.768087005e­1, 871: 0.384043502e­1, 873: 0),PLFIN(143),LemmeProvisoireAng(PH),VecteurSem(0: 0, 1: 0.896129131e­1, 11: 0.553984880, 26: 0.860973072e­1, 32: 0.172194614, 34: 0.860973072e­1, 88: 0.360390543e­1, 90: 0.860973072e­1, 91: 0.860973072e­1, 132: 0.896129131e­1, 134: 0.896129131e­1, 138: 0.896129131e­1, 166: 0.240241670e­1, 169: 0.896129131e­1, 182: 0.896129131e­1, 183: 0.896129131e­1, 184: 0.896129131e­1, 189: 0.399444341e­1, 193: 0.860973072e­1, 201: 0.172194614, 203: 0.172194614, 272: 0.360390543e­1, 275: 0.860973072e­1, 282: 0.860973072e­1, 298: 0.763308143e­1, 313:x2                    00.860973072e­1, 322: 0.860973072e­1, 359: 0.896129131e­1, 361: 0.252135324e­1, 364: 0.621032285e­1, 366: 0.621032285e­1, 369: 0.399444341e­1, 371: 0.399444341e­1, 374: 0.276992440, 415: 0.101111066e­1, 416: 0.101111066e­1, 484: 0.896129131e­1, 494: 0.896129131e­1, 578: 0.621032285e­1, 615: 0.101111066e­1, 622: 0.252135324e­1, 643: 0.860973072e­1, 651: 0.860973072e­1, 665: 0.896129131e­1, 670: 0.252135324e­1, 692: 0.360390543e­1, 715: 0.896129131e­1, 722: 0.360390543e­1, 727: 0.621032285e­1, 732: 0.896129131e­1, 736: 0.860973072e­1, 745: 0.896129131e­1, 749: 0.896129131e­1, 784: 0.240241670e­1, 789: 0.360390543e­1, 804: 0.860973072e­1, 826: 0.860973072e­1, 845: 0.621032285e­1, 879: 0.860973072e­1, 881: 0.860973072e­1, 904: 0.276992440, 906: 0.240241670e­1, 910: 0.240241670e­1, 922: 0.896129131e­1, 942: 0.240241670e­1, 945: 0.2769924

Page 78 / 83

Page 79: Mémoire de Stage Transfert sémantique bilingue pour un

                    40, 964: 0.276992440, 965: 0.252135324e­1, 1000: 0)

                     34 : GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GN),PLACEMOT(108),K(GN),FS(SUJ),SEM(PERSONNE),LOCUTION(0: 0, 65: 0.124034738, 79: 0.124034738, 86: 0.124034738, 103: 0.124034738, 128: 0.124034738, 129: 0.124034738, 190: 0.124034738, 309: 0.392704534, 435: 0.124034738, 439: 0.124034738, 446: 0.124034738, 577: 0.124034738, 587: 0.981761360e­1, 612: 0.124034738, 678: 0.392704534, 680: 0.981761360e­1, 681: 0.392704534, 683: 0.392704534, 696: 0.124034738, 719: 0.392704534, 856: 0.981761360e­1, 873: 0),LemmeProvisoireAng(GN),VecteurSem(0: 0, 11: 0.609944772, 26: 0.947942829e­1, 32: 0.189588556, 34: 0.947942829e­1, 90: 0.947942829e­1, 91: 0.947942829e­1, 166: 0.264509248e­1, 193: 0.947942829e­1, 201: 0.189588556, 203: 0.189588556, 275: 0.947942829e­1, 282: 0.947942829e­1, 298: 0.288044691e­1, 313: 0.947942829e­1, 322: 0.947942829e­1, 374: 0.3                    04972386, 643: 0.947942829e­1, 651: 0.947942829e­1, 736: 0.947942829e­1, 784: 0.264509248e­1, 804: 0.947942829e­1, 826: 0.947942829e­1, 879: 0.947942829e­1, 881: 0.947942829e­1, 904: 0.304972386, 906: 0.264509248e­1, 910: 0.264509248e­1, 942: 0.264509248e­1, 945: 0.304972386, 964: 0.304972386, 1000: 0)

                     35 : FRM(La),GNR(FEM),NUM(SIN),PERS(3),CAT(DETERM),SOUSD(ARTD),FLX(le),LEMME(le),PLACEMOT(98),MAJUSCULE(1),POSITION(MOT_TEXTE),CHGMTLG(1),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(a),VecteurSem(0: 0, 1000: 0)

                     36 : GNR(FEM),NUM(SIN),CAT(ADJOINT),SOUSA(ADNOM),LEMME(GA),PLACEMOT(101),K(GA),FS(ATTR),PLFIN(1384),LemmeProvisoireAng(GA),VecteurSem(0: 0, 26: 0.188982238, 32: 0.377964472, 34: 0.188982238, 90: 0.188982238, 91: 0.188982238, 193: 0.188982238, 201: 0.377964472, 203: 0.377964472, 275: 0.188982238, 282: 0.188982238, 313: 0.188982238, 322: 0.188982238, 643: 0.188982238, 651: 0.188982238, 736: 0.188982238, 804: 0.188982238, 826: 0.188982238, 879: 0.188982238, 881: 0.188982238, 1000: 0)

                     37 : FRM(petite),GNR(FEM),NUM(SIN),CAT(ADJOINT),PRIORITE_CAT(ADJOINT),SOUSA(ADNOM),FLX(petit),LEMME(petit),PLACEMOT(101),POSITION(MOT_TEXTE),FS(GOV),CS(1),LOCUTION(0: 0, 65: 0.277350091, 79: 0.277350091, 86: 0.277350091, 103: 0.277350091, 128: 0.277350091, 129: 0.277350091, 190: 0.277350091, 435: 0.277350091, 439: 0.277350091, 446: 0.277350091, 577: 0.277350091, 612: 0.277350091, 696: 0.277350091, 873: 0),VALVECTEUR(0.133248662e+1),SEMLU(1),LemmeProvisoireAng(little),VecteurSem(0: 0, 26: 0.188982238, 32: 0.377964472, 34: 0.188982238, 90: 0.188982238, 91: 0.188982238, 193: 0.188982238, 201: 0.377964472, 203: 0.377964472, 275: 0.188982238, 282: 0.188982238, 313: 0.188982238, 322: 0.188982238, 643: 0.188982238, 651: 0.188982238, 736: 0.188982238, 804: 0.188982238, 826: 0.188982238, 879: 0.188982238, 881: 0.188982238, 1000: 0)

                     38 : FRM(fille),GNR(FEM),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(fille),LEMME(fille),PLACEMOT(108),POSITION(MOT_TEXTE),FS(GOV),CS(1),SEM(PERSONNE),LOCUTION(0: 0, 309: 0.446145629, 587: 0.386951971e­1, 678: 0.446145629, 680: 0.386951971e­1, 681: 0.446145629, 683: 0.446145629, 719: 0.446145629, 856: 0.421382045e­1, 873: 0),VALVECTEUR(0.205456256e+1),SEMLU(1),LemmeProvisoireAng(girl),VecteurSem(0: 0, 11: 0.705059242, 166: 0.305756688e­1, 298: 0.332962226e­1, 374: 0.352529621, 784: 0.305756688e­1, 904: 0.352529621, 906: 0.305756688e­1, 910: 0.305756688e­1, 942: 0.305756688e­1, 945: 0.352529621, 964: 

Page 79 / 83

Page 80: Mémoire de Stage Transfert sémantique bilingue pour un

0.352529621, 1000: 0)

                     39 : NUM(SIN),PERS(3),MODE(INDICAT),IND(PRES),CAT(V),SOUSV(VB),TYP(ATTRIB,VETAT,AUX),POT(AVOIR),LEMME(GV),PLACEMOT(114),K(GV),FATTRSJ(1),SEMOBJT(TEMPS,LIEU),LOCUTION(0: 0, 1: 0.258198881, 156: 0.258198881, 192: 0.258198881, 296: 0.171980667, 310: 0.258198881, 409: 0.258198881, 541: 0.258198881, 551: 0.258198881, 560: 0.859903335e­1, 565: 0.342982769e­1, 578: 0.258198881, 583: 0.102894830, 606: 0.258198881, 607: 0.258198881, 614: 0.171980667, 622: 0.258198881, 664: 0.171980667, 666: 0.102894830, 716: 0.859903335e­1, 779: 0.120288622, 781: 0.342982769e­1, 782: 0.342982769e­1, 797: 0.258198881, 816: 0.102894830, 855: 0.342982769e­1, 856: 0.342982769e­1, 858: 0.859903335e­1, 867: 0.171980667, 871: 0.859903335e­1, 873: 0),LemmeProvisoireAng(GV),VecteurSem(0: 0, 1: 0.215794205, 88: 0.867845726e­1, 132: 0.215794205, 134: 0.215794205, 138: 0.215794205,169: 0.215794205, 182: 0.215794205, 183: 0.215794205, 184: 0.215794205, 189: 0.961889934e­1, 272: 0.867845726e­1, 298: 0.120810568, 359: 0.215794205, 361: 0.607159614e­1, 364: 0.149548935, 366: 0.149548935, 369: 0.961889934e­1, 371: 0.961889934e­1, 415: 0.243482565e­1, 416: 0.243482565e­1, 484: 0.215794205, 494: 0.215794205, 578: 0.149548935, 615: 0.243482565e­1, 622: 0.607159614e­1, 665: 0.215794205, 670: 0.607159614e­1, 692: 0.867845726e­1, 715: 0.215794205, 722: 0.867845726e­1, 727: 0.149548935, 732: 0.215794205, 745: 0.215794205, 749: 0.215794205, 789: 0.867845726e­1, 845: 0.149548935, 922: 0.215794205, 965: 0.607159614e­1, 1000: 0)

                     40 : FRM(est),NUM(SIN),PERS(3),MODE(INDICAT),IND(PRES),CAT(V),SOUSV(VB),TYP(ATTRIB,VETAT,AUX),POT(AVOIR),FLX(être),LEMME(être),PLACEMOT(114),POSITION(MOT_TEXTE),FS(GOV),CS(1),SEMOBJT(TEMPS,LIEU),LOCUTION(0: 0, 1: 0.288675117, 156: 0.288675117, 192: 0.288675117, 310: 0.288675117, 409: 0.288675117, 541: 0.288675117, 551: 0.288675117, 578: 0.288675117, 606: 0.288675117, 607: 0.288675117, 622: 0.288675117, 797: 0.288675117, 873: 0),VALVECTEUR(0.134606301e+1),SEMLU(1),LemmeProvisoireAng(be),VecteurSem(0: 0, 1: 0.242535638, 132: 0.242535638, 134: 0.242535638, 138: 0.242535638, 169: 0.242535638, 182: 0.242535638, 183: 0.242535638, 184: 0.242535638, 359: 0.242535638, 484: 0.242535638, 494: 0.242535638, 665: 0.242535638, 715: 0.242535638, 732: 0.242535638, 745: 0.242535638, 749: 0.242535638, 922: 0.242535638, 1000: 0)

                     41 : GNR(FEM),NUM(SIN),CAT(V),SOUSV(PAPA),SOUSA(ADNOM),TYP(TRANS,TRANSCONJ,TRANSIND,RFLX),CASPRNML(NEXCDIR),POT(AVOIR),PLACEMOT(118),K(GA),FS(ATTR),SOUSATTR(ATTRSUJ),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 296: 0.384560470, 560: 0.192280235, 565: 0.766932868e­1, 583: 0.230079841, 614: 0.384560470, 664: 0.384560470, 666: 0.230079841, 716: 0.192280235, 779: 0.268973541, 781: 0.766932868e­1, 782: 0.766932868e­1, 816: 0.230079841, 855: 0.766932868e­1, 856: 0.766932868e­1, 858: 0.192280235, 867: 0.384560470, 871: 0.192280235, 873: 0),VecteurSem(0: 0, 88: 0.190123929, 189: 0.210726737, 272: 0.190123929, 298: 0.264666652, 361: 0.133013939, 364: 0.327625465, 366: 0.327625465, 369: 0.210726737, 371: 0.210726737, 415: 0.533411121e­1, 416: 0.533411121e­1, 578: 0.327625465, 615: 0.533411121e­1, 622: 0.133013939, 670: 0.133013939, 692: 0.190123929, 722: 0.1                    90123929, 727: 0.327625465, 789: 0.190123929, 845: 0.327625465, 965: 0.133013939, 1000: 0)

                     42 : FRM(accompagnée),CATRAC(VB),GNR(FEM),NUM(SIN),CAT(V),SOUSV(PAPA),SOUSA(ADNOM),TYP(TRANS,TRANSCONJ,TRANSIND,RFLX),CASPRNML(NEXCDIR),POT(AVOIR),LE

Page 80 / 83

Page 81: Mémoire de Stage Transfert sémantique bilingue pour un

MME(accompagner),PLACEMOT(118),POSITION(MOT_TEXTE),FS(GOV),CS(1),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 565: 0.147780847, 583: 0.526735782, 666: 0.526735782, 779: 0.182261581, 781: 0.147780847, 782: 0.147780847, 816: 0.526735782, 855: 0.147780847, 856: 0.216961193, 873: 0),VALVECTEUR(0.113313162e+1),SEMLU(1),LemmeProvisoireAng(accompany by),VecteurSem(0: 0, 88: 0.405726099, 189: 0.140389704, 272: 0.405726099, 298: 0.280948019, 369: 0.140389704, 371: 0.140389704, 415: 0.113830411, 416: 0.113830411, 615: 0.113830411, 692: 0.405726099, 722: 0.405726099, 789: 0.405726099, 1000: 0)

                     43 : TPREP(DE),TPREPNM(DE),GNR(MAS),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GNPREP),PLACEMOT(138),K(GNPREP),FS(ATTR),LOCUTION(0: 0, 296: 0.436435794, 560: 0.218217897, 614: 0.436435794, 664: 0.436435794, 716: 0.218217897, 779: 0.218217897, 858: 0.218217897, 867: 0.436435794, 871: 0.218217897, 873: 0),LemmeProvisoireAng(GNPREP),VecteurSem(0: 0, 189: 0.174717893, 298: 0.160341739, 361: 0.160341739, 364: 0.394936323, 366: 0.394936323, 369: 0.174717893, 371: 0.174717893, 578: 0.394936323, 622: 0.160341739, 670: 0.160341739, 727: 0.394936323, 845: 0.394936323, 965: 0.160341739, 1000: 0)

                     44 : FRM(de),TPREP(DE),TPREPNM(DE),CAT(PREP),FLX(de),LEMME(de),PLACEMOT(131),POSITION(MOT_TEXTE),FS(DES),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(from),VecteurSem(0: 0, 1000: 0)

                     45 : FRM(son),GNR(MAS),NUM(SIN),NUMREF(SIN),CAT(DETERM),SOUSD(POSS),FLX(son­possessif),LEMME(son­possessif),PLACEMOT(134),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(his),VecteurSem(0: 0, 1000: 0)

                     46 : FRM(chien),GNR(MAS),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(chien),LEMME(chien),PLACEMOT(138),POSITION(MOT_TEXTE),FS(GOV),CS(1),LOCUTION(0: 0, 296: 0.453841018, 560: 0.184256668, 614: 0.453841018, 664: 0.453841018, 716: 0.184256668, 779: 0.200777029, 858: 0.184256668, 867: 0.453841018, 871: 0.184256668, 873: 0),VALVECTEUR(0.121183395e+1),SEMLU(1),LemmeProvisoireAng(dog),VecteurSem(0: 0, 189: 0.174717903, 298: 0.160341739, 361: 0.160341739, 364: 0.394936323, 366: 0.394936323, 369: 0.174717903, 371: 0.174717903, 578: 0.394936323, 622: 0.160341739, 670: 0.160341739, 727: 0.394936323, 845: 0.394936323, 965: 0.160341739, 1000: 0)

                     47 : FRM(.),CAT(PONCT),CATPONCT(POINT),FONCT(TERMINAISON),FLX(.),LEMME(.),PLACEMOT(143),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),LemmeProvisoireAng(.),VecteurSem(0: 0, 1000: 0)

                              48­48                               PH                                |          ______________________________________________          |                     |                      |          |                     |                      |        49­49                 52­52                  57­57         GN                    GV                      .          |                     |     ___________         ________________

Page 81 / 83

Page 82: Mémoire de Stage Transfert sémantique bilingue pour un

     |         |         |              |     |         |         |              |   50­50     51­51     53­53          54­54    le     musicien accompagne         GN                                        |                                   ___________                                   |         |                                   |         |                                 55­55     56­56                                  le     chanteur

                     48 : NUM(SIN),PERS(1,3),MODE(INDICAT,SUBJNCT,IMPERAT),IND(PRES),SUBJ(PRES),IMPER(PRES),CAT(V),SOUSV(VB),TYP(TRANS,TRANSCONJ),CASPRNML(NEXCDIR),POT(AVOIR),LEMME(PH),PLACEMOT(157),POSITION(SOMMET_PHRASE),K(PHRASE),KPH(PH),TPH(DCL),FSUJ(1),FOBJ(1),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 565: 0.337795257e­1, 583: 0.101338565, 666: 0.101338565, 779: 0.337795257e­1, 781: 0.337795257e­1, 782: 0.901591205, 784: 0.274426174, 785: 0.274426174, 816: 0.101338565, 855: 0.337795257e­1, 856: 0.337795257e­1, 873: 0),PLFIN(179),LemmeProvisoireAng(PH),VecteurSem(0: 0, 88: 0.447110700e­1, 189: 0.106732666e­1, 272: 0.447110700e­1, 298: 0.213465332e­1, 369: 0.106732666e­1, 371: 0.106732666e­1, 413: 0.421123218, 415: 0.431796503, 416: 0.790759325, 615: 0.106732666e­1, 692: 0.447110700e­1, 722: 0.447110700e­1, 789: 0.447110700e­1, 1000: 0)

                     49 : GNR(MAS),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GN),PLACEMOT(148),K(GN),FS(SUJ),LOCUTION(0: 0, 782: 0.1e+1, 873: 0),LemmeProvisoireAng(GN),VecteurSem(0: 0, 416: 0.1e+1, 1000: 0)

                     50 : FRM(Le),GNR(MAS),NUM(SIN),PERS(3),CAT(DETERM),SOUSD(ARTD),FLX(le),LEMME(le),PLACEMOT(145),MAJUSCULE(1),POSITION(MOT_TEXTE),CHGMTLG(1),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(a),VecteurSem(0: 0, 1000: 0)

                     51 : FRM(musicien),GNR(MAS),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(musicien),LEMME(musicien),PLACEMOT(148),POSITION(MOT_TEXTE),FS(GOV),CS(1),LOCUTION(0: 0, 782: 0.1e+1, 873: 0),VALVECTEUR(0.374182558e+1),SEMLU(1),LemmeProvisoireAng(musician),VecteurSem(0: 0, 416: 0.1e+1, 1000: 0)

                     52 : NUM(SIN),PERS(1,3),MODE(INDICAT,SUBJNCT,IMPERAT),IND(PRES),SUBJ(PRES),IMPER(PRES),CAT(V),SOUSV(VB),TYP(TRANS,TRANSCONJ),CASPRNML(NEXCDIR),POT(AVOIR),LEMME(GV),PLACEMOT(157),K(GV),FOBJ(1),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 565: 0.778498935e­1, 583: 0.233549666, 666: 0.233549666, 779: 0.778498935e­1, 781: 0.778498935e­1, 782: 0.778498935e­1, 784: 0.632455539, 785: 0.632455539, 816: 0.233549666, 855: 0.778498935e­1, 856: 0.778498935e­1, 873: 0),LemmeProvisoireAng(GV),VecteurSem(0: 0, 88: 0.715673923e­1, 189: 0.170843133e­1, 272: 0.715673923e­1, 298: 0.341686272e­1, 369: 0.170843133e­1, 371: 0.170843133e­1, 413: 0.674076795, 415: 0.691161108, 416: 0.199930953, 615: 0.170843133e­1, 692: 0.715673923e­1, 722: 0.715673923e­1, 789: 0.715673923e­1, 1000: 0)

                     53 : FRM(accompagne),CATRAC(VB),NUM(SIN),PERS(1,3),MODE(INDICAT,SUBJNCT,IMPERAT),IND(PRES),SUBJ(PRES),IMPER(PRES),CAT(V),SOUSV(VB),TYP(TRANS,TRANSCONJ),CASPRNML(NEXCDIR),POT(AVOIR),FLX(accompagner),LEMME(accompagner),PLACE

Page 82 / 83

Page 83: Mémoire de Stage Transfert sémantique bilingue pour un

MOT(157),POSITION(MOT_TEXTE),FS(GOV),CS(1),TPREPRFL(DE),TPREPPAPA(DE),LOCUTION(0: 0, 565: 0.716857957e­1, 583: 0.300296902, 666: 0.300296902, 779: 0.716857957e­1, 781: 0.716857957e­1, 782: 0.838910579, 816: 0.300296902, 855: 0.716857957e­1, 856: 0.716857957e­1, 873: 0),VALVECTEUR(0.203863215e+1),SEMLU(1),LemmeProvisoireAng(accompany),VecteurSem(0: 0, 88: 0.274028253, 189: 0.654150295e­1, 272: 0.274028253, 298: 0.130830061, 369: 0.654150295e­1, 371: 0.654150295e­1, 415: 0.654150295e­1, 416: 0.765526294, 615: 0.654150295e­1, 692: 0.274028253, 722: 0.274028253, 789: 0.274028253, 1000: 0)

                     54 : GNR(MAS),NUM(SIN),CAT(N),SOUSN(NCOM),LEMME(GN),PLACEMOT(171),K(GN),FS(OBJT),LOCUTION(0: 0, 784: 0.707106781, 785: 0.707106781, 873: 0),LemmeProvisoireAng(GN),VecteurSem(0: 0, 413: 0.707106781, 415: 0.707106781, 1000: 0)

                     55 : FRM(le),GNR(MAS),NUM(SIN),PERS(3),CAT(DETERM),SOUSD(ARTD),FLX(le),LEMME(le),PLACEMOT(168),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),SEMLU(1),LemmeProvisoireAng(a),VecteurSem(0: 0, 1000: 0)

                     56 : FRM(chanteur),MPHDER(EUR),CATRAC(VB),GNR(MAS),NUM(SIN),CAT(N),SOUSN(NCOM),FLX(chanter),LEMME(chanteur),PLACEMOT(171),POSITION(MOT_TEXTE),FS(GOV),CS(1),LOCUTION(0: 0, 784: 0.707106781, 785: 0.707106781, 873: 0),VALVECTEUR(0.178664517e+1),SEMLU(1),LemmeProvisoireAng(singer),VecteurSem(0: 0, 413: 0.707106781, 415: 0.707106781, 1000: 0)

                     57 : FRM(.),CATRAC(VB),CAT(PONCT),CATPONCT(POINT),FONCT(TERMINAISON),FLX(.),LEMME(.),PLACEMOT(179),POSITION(MOT_TEXTE),CS(1),LOCUTION(0: 0, 873: 0),LemmeProvisoireAng(.),VecteurSem(0: 0, 1000: 0)

Page 83 / 83