les ressources lexicales équipe ilpl irit: contenu et portabilité en syntaxe et sémantique...

15
Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation : toute la complexité du langage demeure: ambiguïtés, polysémie, conjonctions, référents, etc. Ressources prédicatives: complexité de leur syntaxe et de leur combinatoire avec des arguments: modèles pour la sous-détermination, la compositionalité. Représentation du sens avec granularité adéquate : niveau assez élaboré, emploi d’un langage à base de primitives (LCS): pb des primitives, mais quelles alternatives ? LCS: information prédicative, à coupler avec d’autres systèmes: traits, relations, séries (paradigmatique), etc.

Upload: brice-berthelot

Post on 03-Apr-2015

105 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique

• Analyse, même partielle, génération (incrémentale), lexicalisation : toute la complexité du langage demeure: ambiguïtés, polysémie, conjonctions, référents, etc.

• Ressources prédicatives: complexité de leur syntaxe et de leur combinatoire avec des arguments: modèles pour la sous-détermination, la compositionalité.

• Représentation du sens avec granularité adéquate : niveau assez élaboré, emploi d’un langage à base de primitives (LCS): pb des primitives, mais quelles alternatives ?

• LCS: information prédicative, à coupler avec d’autres systèmes: traits, relations, séries (paradigmatique), etc.

Page 2: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

La réutilisation

• Réutilisation:

– grande difficulté à réutiliser des ressources (WN) ou des recommandations (EAGLES) existantes,

– aléas de l’acquisition automatique pour les verbes et les prépositions,

– Une analyse de la notion de ‘sens’ peut permettre de positionner différemment la notion de réutilisation des ressources, trop souvent de nature lexicographique..

Page 3: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Les ressources syntaxiques

• Introduction, pour le français, d’un système d’alternances comparable à celui de Beth Levin.

• Structures de base et 51 alternances, 1700 verbes usuels décrits. BD disponible.

• Alternances traitées au niveau lexical, comme des s/cats, mais possible de les ré-interpréter dans un autre cadre. Formes lexicalement induites, à différencier des mouvements grammaticaux.

• Famille d’alternances: passifs, effacements, réfléchis, inversions objets + prépositions, formes supports, semi-aux faire, inchoatifs, incorporation, conatif, changement de perspective, etc…

• Normalisation avec Espagnol et Catalan.• Contraintes d’application, définition du sémantisme de ces

constructions.

Page 4: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Structures thématiques

• Structure de sous-catégorisation + type de préposition pour les SP,

• Grille thématique définie à partir des 21 rôles définis dans l’équipe.

• Rôles structurés: agents, thèmes, localisations, quantités, accompagnement, etc.

• La grille comprend plusieurs rôles par position argumentale, expression a priori, pouvant évoluer dans une proposition réelle.

• Contient, en plus, une classification WordNet.

Réalisé aussi pour les prépositions du français.

Page 5: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Exemple

verbe([aborder],2,[[ae],[pos]],[],

[15],[50,140,141,162],

[[9,2],[9,3,1],[9,4,3],[9,5,2],[9,8]]).

Polysémie:

verbe([abandonner],3,[[ae,src],[tg],[dest]],

[a],[23],[50,51,61,102,162],[[13,2,1]]).

verbe([abandonner],3,[[ae],[ti/th],[pos]],

[type-loc],[24],[50,51,61,102,190],

[[9,3,1],[9,8]]).

Page 6: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

LCS et Sous-spécification

Recevoir: sens direct:[event CAUSE([thing I ] , [event GO+poss ([thing J ],

[path FROM+poss ([thing I ], TO+poss ([thing K ])])]

traitement des dérivés métaphoriques (psy, epist, …): D, [event CAUSE([thing I ] , [event GO+D ([thing J ],

[path FROM+D ([thing I ], TO+D ([thing K ])])]

Aller: P: [path ] [event CAUSE([thing I ], [event GO+loc([thing I ], P ]Composition:

rept verbe (rept PP)

Page 7: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Couper:

A X I J [event CAUSE([thing I ][event GO+A(X, [path FROM+A ([state Continuous ]

TO+A ([state Discontinuous ] )[manner ……. ])])] )

J = objet physique, A = loc, X = [thing J ] Choix par défaut

J = communication, A = + comm, X = [thing FLOW-OF([thing J ]) ]

J = ressource, A = +char+ident, X = [thing Availability-Of([thing J ])]

Page 8: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Introduction de données du lexique génératif

Bon:nom A de type et de Qualia: [ …. Telic: T ….. ]

Y : , fi T, [state BE+char+ident ([thing I ],

[property Ability-to([Fi(Y, _ )] = high ])])

- Bien identifier la dénotation des champs sous-spécifiés.

- en mesurer la complexité et l’utilité.

- définir l’unification et la subsomption de ce type de structures pour le calcul.

Page 9: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Notion de sens

• Compromis entre la vision locale de la lexicographie et l’universalisme de l’IA,

• Compromis entre précision, efficacité et pouvoir explicatif,

• Privilégier des systèmes à base de règles (simples) qui organisent la connaissance lexicale plutôt que des listes d’usages,

• Pouvoir rendre compte des usages de base d’un lexème, à travers une typologie de sens et des usages dérivés, au sein d’un même sens,

• Déterminer un niveau de granularité qui puisse autoriser un niveau raisonnable d’expansion générative lexicale.

• Organisation des sens, hiérarchisée, via une observation directe et une connaissance du monde,

• Représentation formelle : attributs-valeurs, LCS, relations, etc.

• Généralisation sur classes de verbes et sous classes.

Page 10: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Prise en compte de préférences: indispensable en génération mais le début des difficultés

Concepts lexicaux définis: - pas seulement par des critères mais par des info conceptuelles

structurées par familles de ressemblances, - par des notions de protypicalité ou d’importance.Les mots polysémiques sont des catégories de sens reliés par des notions

de ressemblance, largement métaphoriques (Lakoff, Nunberg, …)

Liens entre sens: - relations de dérivation de sens claire entre les sens, principes

généraux: métaphores, métonymies, généralisation, spécialisation (facettes), transformations imagées,

- liés étymologiquement, ontogénétiquement de sens ‘ germes’ - stables sur une catégorie syntaxique.

Page 11: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Sémantique des prépositions, ex.: Contre

1. Localisation X [place NEXT_TO +loc, +/-c ([place/thing X])]

Dans l’espace (proximité / contact)

Pousser le lit contre le mur.

2. Opposition X [manner AGAINST +loc ([event/thing X])]

Nager contre le courant.

3. But - Protection / défense

Un sirop contre la toux. X [event FOR +comm ([event/thing X]

4. Echange X, Y [path EXCH +poss ([thing/event X]), ([thing/event Y])]

J’échange mon entrée contre ton dessert.

5. Proportion / rapport

9 voix contre 12. X [amount AGAINST +comm ([amount X])]

Page 12: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Quelques difficultés

• Influence des arguments sur la sémantique du prédicat: fragilité et variabilité de certains sens,

• Ambiguïtés des certains usages entre sens.

Partager:

- diviser, partager : gâteaux, ressources financières, etc. causalité marquée; mais: logement, ressources (entre programmes)

- Avoir en commun: des responsabilités, des idées, des principes, pas de causalité marquée; mais ce qui est partagé l’est plus ou moins. Totalement ambigu: partager un repas.

Page 13: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Restrictions de sélection sur les usages

Pousser, sens2 = stimuler: sujet:

elt. Psycho./attitude

activité économique

Humain collectif humain

objet psychologique

institution

Objet1 attitude

Humain procédure obj. Physique

objet financier

fonction

Partie de développe

instance

génèreCrée, suit

Gère, produit

Page 14: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Ontologies, Grammaires et Restrictions

• Organiser l’ontologie d’un domaine, manuellement + qq outils, en général env. 100 à 250 termes,

• Tenter de les accrocher à une ontologie plus générique (EWN, …)

• Pour les termes complexes ou ayant plusieurs fonctions: facettes.

• Associer aux nœuds de ‘catégories’ de l’ontologie des fragments de grammaires analysant ou générant des formes liées à cette catégorie dans un texte.

• L’ontologie structure le domaine et en organise la grammaire.

.

Page 15: Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation

Quelques notes….

• Associer ontologies, grammaires, bases lexicales et représentation des connaissances du monde, dans un formalisme homogène

• Associer représentations et syntaxe, en analyse et en génération de LN

• Emploi d’un langage (logique) avancé pour permettre le raisonnement et une certaine normalisation des représentations.

• Mise à disposition et intégration:- ouvert pour formalisation, si approprié en LD,

- mise en forme pour les TAGs des alternances