Normalisation pour les corpus et les lexiques multilingues
Laurent RomaryINRIA & MPG
EPAL 2007
Symposium « Corpus d’apprentissage en ligne »
Grenoble, 7 juin 2007
Seite 2
Objectifs généraux
Partager des ressources (corpus annotés) Contexte : déclaration de Berlin
http://oa.mpg.de/openaccess-berlin/berlindeclaration.html
Partager des outils (annotation, visualisation, accès) Partager des pratiques
E.g. recueil de données, manuels d’annotation, méthodes d’évaluation
Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens
Seite 3
Lexicométrie et corpus multilingues
Notion de corpus parallèle ou comparable Point de vue linguistique: rôle de l’expert Point de vue technique:
Adoption de formats « similaires »: codage primaire, niveaux d’annotation
Comparaisons de la sémantique des annotations E.g. définition transversale de concepts génériques paramétrant un
étiquetage morpho-syntaxique Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de
données dans le domaine des langues?
Seite 4
Lexicométrie et corpus multilingues (suite)
Représentation consistante des structures lexicales Savoir choisir (spécifier) la structure lexicale qui convient au
recueil de données envisagé Croiser les observations avec des dictionnaires existants
interopérabilité
Deux aspects Organisation générale des entrées lexicales (méta-modèle) Choix des catégories de données permettant de décorer un
modèle particulier
Seite 5
« Couverture linguistique » conditions de production & contenu linéaire
« Je sais que le langage courant est plein de pièges. »
=> S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004
« Corpus » collection de données caractérisée par une même couverture linguistique
Goriot, chap. I Le Monde 09/1986 articles sportifs du Monde 09/1986
corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000)
« Ressource » unité physique de dépôt de données relatives à un corpus
Goriot scanné (image) Goriot texte brut (Word) Goriot étiqueté + arboré (XML Tiger)
Concepts fondamentaux
Seite 6
« Niveau de description » ensemble cohérent d’informations explicitées relatif à un corpus
fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours
analyse humaine ou traitement automatique instancié par un schéma d’annotation (Ide & Romary, 2001)
données primaires et secondaires considération pratique : reconstitution de la couverture continuum théorique (texte balisé TEI ?)
« Méta-données » identification et gestion des données
Concepts fondamentaux
Seite 7
Organisation linguistique
Corpus
CouvertureCaractérisations supplémentaires…
dépend de
0..n
0..1
Typologie informationnelleSourceSchéma d’annotationÉvaluation
Niveau de description
1..1
0..n
est composé de
Seite 8
Organisation opérationnelle
Corpus
DépositaireDate de dépôt
CouvertureCaractérisations supplémentaires…
1..1
0..n
est composé de
Ressource dépend de
0..n
0..1
Typologie informationnelleSourceSchéma d’annotationÉvaluation
Niveau de description
1..1
0..n
est composé de
1..1 1..n
est composé de
Seite 9
Méta-données
Complémentarité des initiatives internationales Dublin Core, OLAC, IMDI, TEI convergence sur les descripteurs du TC 37 de l’ISO
répertoire de catégories de données : rôles, codes de langue…
Méta-données utiles pour la FReeBank pertinence vis-à-vis de corpus, ressource et niveau de description prévoir des méta-données plus fines à terme
documentation des étiquettes morpho-syntaxiques caractérisation de données « primaires » / « secondaires »
Méta-données codées sous forme d’en-têtes TEI dissémination de bonnes pratiques pour la représentation et la transcription diffusion au format OLAC et IMDI
moissonnage de la FReeBank par les portails correspondants
Seite 10
Exemple « types de discours »
Classification stable dans OLAC drama, formulaic discourse, interactive discourse, language play,
oratory, narrative, procedural discourse, singing, unintelligible speech
Caractérise la composante « niveau de description » utilisation de <textClass>/<classCode> dans l’en-tête TEI
A définir… opérationnalité de la classification percolation vers la composante « corpus » ?
Seite 11
Exemple « rôles »
Ensemble complexe de rôles dans OLAC caractérisation des agents intervenant dans la création, gestion et distribution de
données linguistiques
Distribution vis-à-vis de l’architecture de la FReeBank Corpus
Depositor
Ressource Depositor, Compiler, Editor, Researcher, Sponsor
Niveau de description [Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer,
Sponsor [Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder,
Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker
Seite 12
Normalisation ?
Standard: Pratique d’un groupe de personnes, d’une communauté, choix
d’un industriel pour un produit Avantage: flexibilité Difficulté: maintenance (documentation, évolution, compatibilité
avec d’autres standards)
Norme Officialisation d’une telle pratique par une décision consensuelle
sous l’égide d’une organisation « reconnue » et « pérenne » E.g.: W3C, TEI, ISO, IEC, CEN
Seite 13
Que normaliser?
Documentation des données Permettre l’identification des données existantes et de leurs
principales caractéristiques (conditions de recueil, description du contenu, droits associés)
Transcription Passage d’un matériau primaire brut à une représentation
élémentaire peu sensible aux choix théoriques (texte, phonétique)
Annotation Accompagne l’étude d’un phénomène, stabilise l’observation
Seite 14
Bases de travail
Quelles initiatives devons nous considérer? De multiples projets ont visité le domaine
EAGLES, ISLE, Mate, NITE, OLAC, ATLAS
Quelques points de référence W3C TEI ISO
Autres?
Seite 15
Le W3C
World Wide Web Consortium Principalement des industriels, 3 partenaires académiques (MIT,
ERCIM, Keio) Apporte des normes (recommandations) horizontales
XML, XSLT, chemins, pointeurs, liens RDF, RDFS, OWL SVG, SMIL SOAP, WSDL
Seite 16
La TEI
Text Encoding Initiative Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5
(plus modulaire): 2004-2007
Les éléments principaux En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms
et dates, apparat critique etc.
Seite 17
ISO
Organisation internationale de standardisation Association travaillant pour le compte de ses membres: les
organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.)
Organisé en comités techniques et sous-comités Couvre tous les domaines
Seite 18
ISO - exemples
ISO-IEC/JTC1 E.g. ISO 10646 / Unicode pour l’identification et la représentatioin
universelle de caractères
ISO/TC 37 (Terminologie et autres ressources linguistiques) SC 1: Méthodes en terminologie SC 2: e.g. Codes langues; ISO 639-1 (en, fr) SC 3: Terminologies informatisés; ISO 16642 (TMF) SC 4: Ressources linguistiques
Seite 19
L’ISO/TC 37/SC 4
Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques Mécanismes de base: e.g. structures de traits Répertoires de catégories de données Processus souple de spécification d’un format d’annotation
Domaines abordés/à aborder Morpho-syntaxe, syntaxe, contenus sémantiques, discours,
lexiques, données multilingues, langages de requêtes, évaluation
http://www.tc37sc4.org
Seite 20
LMF: le modèle
Lexical DB
1..1
Global Info
1..1
Lexical Entry0..n1..1
1..1
Form
1..1
Sense
0..n1..1
0..n
1..1
Lexical Entry
Morphology1..1
1..1Lexical Entry
Morphology1..1
1..1
Lexicalextensions
Lexicalextensions
LexicalextensionLexical
extension
0..1
Paradigm
1..1
Flexion
0..n1..1
Lexical extensionfor morphology
Seite 21
Méta-modèle d’un lexique morphologique
Morphology
1..1
1..1
Paradigm
0..1
1..1
Inflexion
0..n
1..1
Lexical DB
Entry
0..n
1..1
1..1
Global Info
1..1
Seite 22
Décoration du modèle
Lexical DB
Entry
0..n
1..1
Morphology
1..1
1..1
Paradigm
0..1
1..1
Inflexion
0..n
1..1
/lemma//POS/
/word form//gender//number//tense/…
1..1
Global Info
1..1
Seite 23
Une entrée du DCR
Entry Identifier: grammatical genderProfile: morpho-syntaxDefinition (fr): Catégorie grammaticale reposant, selon les langues et les
systèmes, sur la distinction naturelle entre les sexes ou sur
des critères formels (Source: TLFi)Definition (en): Grammatical category… (Source: TLFi (Trad.))Conceptual Domain: {/feminine/, /masculine/, /neuter/}Object Language:
frName: genreConceptual Domain: {/feminine/, /masculine/}
Object Language: enName: genderName: grammatical gender
Object Language: deName: GeschlechtName: GenusConceptual Domain: {/feminine/, /masculine/, /neuter/}
Seite 24
Un format compatible avec le modèle
<struct type='lexical entry'><feat type='lemma'>chat</feat><feat type=’grammatical category’>noun</feat><struct type=’morphology’>
<struct type=‘paradigm’><feat type=’paradigm
identifier'>fr-s-plural</feat></struct><struct type='inflexion'>
<feat type='word form'>chat</feat><feat type=’number’>singular</feat>
</struct><struct type='inflexion'>
<feat type='word form'>chats</feat><feat type=’number’>plural</feat>
</struct>…
</struct></struct>
Seite 25
Application directes
Morphalou: un lexique morphologique ouvert
Téléchargement+ patch+fair use
FReeBank: une base de ressources libres annotées
Dépôt en ligne (En-têtes TEI) Téléchargement d’un simple clic Fair use
Une institution de référence: Le CNRTL