’É a É ’aa É - dynamique de la production Écrite
TRANSCRIPT
EXPLORER L’ÉCRIT AVEC LES OUTILS ET LES MÉTHODES D’ANALYSE DE DONNÉES TEXTUELLES
Céline Poudat UMR 7187 LDI, Université Paris 13 [email protected]
L’analyse de données textuelles
Saint-Cloud, années 80, corpus politiques
Norme endogène au corpus
Les unités linguistiques n’ont pas de fréquence en langue (Lafon, 1980)
Lexicométrie Textométrie
Linéarité, réticularité textuelle
De la structure à la caractérisation
1. À la recherche de la structure d’un corpus
Exploration des oppositions et des attractions principales
Évaluation de la stabilité de la structure
2. Spécifier des catégories
Commentaires
Exemples de linguistique
• Exploration des oppositions et des attractions principales
• Évaluation de la stabilité de la structure
1. À la recherche de la structure d’un corpus
La question des genres textuels
Un cadre général combinant linguistique de corpus et analyse de données textuelles
Une notion intrigante Des écarts entre les noms de genres, leurs usages et leurs
caractéristiques linguistiques Une compétence générique?
Comment formaliser la notion? Verrous scientifiques
Des faisceaux d’indices: avec quels critères décrire les genres?
Des contrastes et de la variation
Restituer le genre dans sa pratique sociale pour dégager des axes de contraste
Co
mm
un
ication
scientifiq
ue
Pra
tiq
ue
soci
ale
Type de discours Discours scientifique
Domaine de spécialité: linguistique
Genres Article
Scientifique
Communication
affichée Etc. Actes
(proceedings)
Textes
Styles d’auteur Bergounioux
Rastier
François Rabatel Kleiber…
Paragraphes
Sections textuelles Phrases Mots
Morphèmes Syntagmes …
Combettes
Exploration des oppositions et des attractions principales
Descripteurs morphosyntaxiques adaptés aux spécificités des textes (segmentation et caractéristiques)
Méthode :
• Analyse factorielle en Composantes Principales (ACP)
• Classification Ascendante Hiérarchique (CAH)
Saisir l’organisation de ce faisceau d’indices
Taggers, ou assignateurs automatiques de catégories morphosyntaxiques
e.g. Cordial, TreeTagger, Tnt, Brill, etc.
Niveau d’annotation développé et automatisable
Efficacité en matière de typologies textuelles (Biber 1988, Karlgren 1994, Karlgren & Cutting 1994, Kessler et al. 1997, Rayson & Garside 2000, Habert 2000, Malrieu&Rastier 2001, Poudat, 2006, etc.)
Intérêt descriptif des variables morphosyntaxiques
Fonction d’apprentissage des étiqueteurs
AFC – étiquetage Cordial
Annotation morphosyntaxique: problèmes posés par les outils disponibles
Entraînement des taggers sur des corpus
hétérogènes éloignés de notre genre Erreurs d’étiquetage (Biber, 1993, Illouz, 1999) Absence de variables caractéristiques du discours
scientifique
Sélection d’un étiqueteur entraînable (TnT Tagger, Brants, 2000) et développement d’un jeu d’étiquettes approprié Spécification de l’analyseur et du jeu d’étiquettes au
niveau du genre
TreeTagger
Concepteur: Helmut Schmid SE UNIX, Windows, Sparc-
Solaris, Mac OS-X, langages C++, perl
Licence: téléchargeable pour des fins de recherche, enseignement et évaluation
Accessible en source Version testée V.3.2. Hidden Markov Models +
Arbres de décision Étiqueteur probabiliste,
proche des taggers ngram traditionnels
Utilisation d’un arbre de décision qui a pour feuilles des listes de probabilités
Simon NAM Simon
BOUQUET* ABR BOUQUET*
Université ABR Université
de PRP de
Paris NAM Paris
X-Nanterre ADJ X-Nanterre
Y ADJ Y
a VER:pres avoir
-t-il PRO:PER il
une DET:ART un
théorie NOM théorie
saussurienne ADJ saussurien
de PRP de
l’interprétation NOM l’interprétation
? SENT ?
Construction d’observables
Développement d’un système de 140 étiquettes Catégories morphosyntaxiques générales
Catégories spécifiques au discours scientifique Désambiguïsation IL anaphorique / impersonnel, Élaboration d’une typologie de connecteurs (opposition,
conséquence, etc. vs Adverbes), Modaux (falloir, pouvoir, devoir, etc.) etc.
Catégories spécifiques au domaine linguistique Marqueurs de formalisation linguistique (SN, SV, etc. / symboles
*, ?, ??, etc. / morphèmes –ant, wise, etc.)
Analyse en Composantes Principales
Tableau de données numériques
En ligne, les individus: 224 textes, extraits de 32
numéros de 11 revues linguistiques publiés autour de 2000.
En colonne, les observations (exprimées en pourcentages): 140 descripteurs morphosyntaxiques
Outil: DtmVic, Lebart
Audition CNRS 17/04/07 - Concours 34/03 14
Axe 1
Axe 2
ASLF hors exemples et citations
Approfondissement de la structure
• Classification automatique des textes (CAH)
•Outils: DtmVic, Lexico3, Antconc…
• Cartes de Kohonen
• Outil: DtmVic
1. À la recherche de la structure d’un corpus
Validation de l’ACP, vues complémentaires
CAH Cartes de Kohnen
Méthode de classification Les individus d’une même
classe sont le plus semblable possible
Les classes sont les plus disjointes possibles
Méthode agglomérative À chaque étape, on créée une
partition en agrégeant les individus deux à deux
Classes emboîtantes
Cartes « auto-organisatrices » de Kohonen
Algorithme de classification Regroupement des
observations en classes
Respect de la topologie de l’espace des observations
Grille rectangulaire aux mailles déformables
Équivalent qualitatif et non linéaire de l’ACP
Confrontation de la structure à un autre corpus de même genre, mais dans lequel la variable Auteurs est très marquée
1. À la recherche de la structure d’un corpus
19
Genres et styles - CRISCO
Axe 1
Ax
e 2
13/12/2007
Styles scientifiques
Audition CNRS 17/04/07 - Concours 34/03 20
Axe 1
Axe 2
ASLF hors exemples et citations
24/10/2006 Décrire un genre en corpus - LIMSI - Poudat 21
Corpus
Auteurs
L’exemple de linguistique
2. Spécifier des catégorisations
Premières spécificités des quatre types d’exemples
construits littéraires journalistiques attestés
*, ), Paul, (, a,
il, voiture,
Pierre, Belges,
Max, wallon
/, p,
Duras,vertus, iii,
et, dit,
vous,Chevaux,
Tarquinia
vache,
presse, folle
Libération, de, du,
l’, Hebdo, 94,
sang
euh, :, t’, wise,
sais, ça, ben,
and,I2, j’, oral, c’,
…, oui
Les voitures fonctionnent grâce à un moteur (8) ma voiture , ce n' est pas une poubelle , elle est juste un peu sale (10) La voiture roulait- elle à gauche ? Oui , selon le témoin . (34) Certaines voitures ont trois roues . Certaines voitures sont chères . (110) J' ai acheté une voiture . C' est une voiture grise . (124) Ma voiture s' est arrêtée dans un mètre d' eau (131) *Il a acheté une telle voiture que tout le monde la remarque dans la rue . (134) Ma voiture a été réparée par mon garagiste . (136) La voiture aurait pu causer un accident grave . (160) Ma voiture a coupé la route . (204)
Exemples
Denise will buy a new raincoat this fall Sarah bought Sam a new coat but he didn't wear
it often John knew Einstein discovered relativity theory Mary believed the story Mary bought a book for Bill Max has studied physics at Princeton John often kisses Mary The girl was kissed by the boy He answered the professor
George sauta de derrière un arbre et fit peur à Debbie . Il fut surpris par sa réaction hystérique .
Condition ' Continuation ‘ George ne pense jamais aux réactions possibles des autres .
Les farces ne sont pas drôles pour tout le monde .
Condition ' Déplacement ‘ Elle / Debbie hurla fortement et s' enfuit . Les farces ne sont
pas drôles pour tout le monde .
Paire initiale alternative Debbie fut la victime d' une autre farce de la part de George
hier . Elle fut terrifiée par son attaque- surprise de derrière un arbre .
(171)
Les figures de l’exemple
0
20
40
60
80
100
120
140
160
180
200
Paul Pierre Jean Max Marie Luc Jacques
Thématisée dans 30% des séquences relevées
Marie a une voiture, mais elle n'a pas le permis. Marie blondit ses cheveux à la camomille. Marie mange une pomme.
Thématisée dans 80% des séquences relevées
Pierre est généralement très admiré / suscite généralement une grande admiration Les prodigalités de Pierre sont restées célèbres dans le pays
Régulation des avis sur le web marchand : la critique littéraire sur Amazon.fr
• Annotation sémantique
• Spécificités
• Outils: Lexico3, Trameur, Hyperbase, TXM
2. Spécifier des catégorisations
Amazon
Création en juillet 1995 par Jeff Bezos
2000: ouverture de la filiale française, Amazon.fr
Système d’évaluation collaborative (collaborative peer review) articulé autour des produits mis en vente
Chaque livre possède ainsi son évaluation moyenne propre (étoilage)
Chaque critique, ou commentaire, est pourvue des métadonnées suivantes : auteur, étoilage, titre, date de publication et ‘utilité’, obtenue par les votes des clients inscrits sur le site.
Problématique
Est-ce que l’annotateur d’avis fait confiance à la masse ou met en place des mécanismes de confiance dans des sites d’annotation collaborative ?
Amazon: commentaires ouverts
Problème: lexique non contraint qui entrave, voire invalide l’application d’un traitement automatique
Annotation semi-automatique des valeurs fondant l’évaluation littéraire sur Amazon – intérêt d’XML et d’Oxygen pour l’annotation.
Relation entre commentaires, contributeurs et étoilage
Corpus de critiques
Corpus AVIS Corpus PRIX
21 œuvres classiques et contemporaines L'Homme qui voulait vivre sa
vie (29 critiques), Les Bienveillantes (24), Les particules élémentaires (23), Si c'est un homme (21), Le Pendule de Foucault (20), Plateforme (20), Voyage au bout de la nuit (18), Cent ans de Solitude (17), Les Trois mousquetaires (11), Ravel (11), Au Bonheur des dames (10), Eugénie Grandet (10),…
319 critiques publiées entre août 2000 et juillet 2008
283 contributeurs distincts (dont 34 anonymes)
7 œuvres primées en 2007 par la critique littéraire professionnelle Alabama Song de Gilles Leroy,
Goncourt (21 critiques ) Ap. J.-C. de Vassilis Alexakis,
Grand Prix du Roman de l'Académie Française (3 critiques)
Baisers de cinéma d’Eric Fottorino, Femina (5 critiques)
Birmane de Christophe Ono-Dit-Biot, Interallié (7 critiques)
Chagrin d’école de Daniel Pennac, Renaudot (39 critiques)
Ouest de François Vallejo, Prix du Livre Inter (10 critiques)
La stratégie des antilopes de Jean Hatzfeld, Médicis (3 critiques)
Evaluation associée aux critiques et aux œuvres du corpus – distribution comparée exprimée en pourcentages – corpus Prix et Avis
Catégorie Sous-catégorie Descriptif
Émotion horreur Effet psychologique
rire Effet psychologique
tristesse Effet psychologique
attachement Effet psychologique
identification Réaction transréférentielle
happage Effet psychologique
Esthétique intrigue Construction de l’intrigue
Originalité genre Fidélité du texte aux canons du genre
Signifiant accessibilité Facilité de lecture
édition Clarté de l’édition
brièveté Effort de lecture
Vérité historique Conformité au fait historique
personnage Réalité des personnages
Citation Valeur démonstrative / intertexte
Inhibition Difficulté (rhétorique) à s’exprimer
Intertexte Référence à d’autres œuvres, d’autres auteurs
Lecture Lecture d’œuvres du même auteur
Prescription Recommandation du livre
Relecture Relecture du livre
Annotation XML
Les valeurs privilégiées
0,00
10,00
20,00
30,00
40,00
50,00
60,00
Emotion Esthétique Vérité Moralité Signifiant Originalité
corpus
textes
Les critères privilégiés
L’intrigue une intrigue évaluée comme pauvre entraîne ainsi
une recommandation négative de l’œuvre (corrélation +0.30)
Forte corrélation avec le happage statut ambigu de l’intrigue, construction formelle
plébiscitée ici non pour sa forme, mais pour l’illusion référentielle qu’elle permet
Variables (axes F1 and F2)
Citation
Prescription NEG
Prescription
Cinéma
IntertexteLecture
Inhibition
RelectureIntrigue NEG
IntrigueEsthétique negEsthétique
NON brieveté
BrievetéEdition NEG
Edition
NON accessibilité
Accessibilité
Signifiant NEG
Signifiant
Moralité
Originalité genre
Originalité neg
Originalité
Vérité personnageVérité histoVérité NEG
Vérité
Horreur
Happage
IidentificationAttachement
Rire
Tristesse
Emotion neg
Emotion
Eval
nb votes utiles
nb com total
rang
nb com oeuvre
Eval oeuvre
Eval com
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
-- axis F1 -->
-- a
xis
F2
-->
Commentaires, commentateurs et étoilages
Évaluation de l’œuvre et commentaires
Plus l’œuvre est positivement évaluée (étoilage élevé), moins elle est commentée
Autorité du commentateur
Plus l’auteur a un rang élevé, plus ses commentaires sont bien évalués rang = confiance
Une œuvre très commentée génère plus de commentaires à la critique postée
stratégie pour avoir de l’autorité sur Amazon : ne commenter que les œuvres les plus commentées
Quelques références…
BRUNET, Étienne. Ce qui compte. Écrits choisis, tome II – Méthodes statistiques. Textes édités par Céline Poudat. Préface de Ludovic Lebart. Collection Lettres numériques, Honoré Champion, Paris.
[thèse en ligne] POUDAT, Céline (2006). « Étude contrastive de l'article scientifique de revue linguistique dans une perspective d'analyse des genres » (thèse de doctorat) in Texto! [en ligne], septembre-décembre 2006, vol. XI, n°3-4. Disponible sur http://www.revue-texto.net/1996-2007/Corpus/Corpus.html
Taggers POUDAT, Céline (2004). « Recension et présentation comparative d’étiqueteurs pour le
français et l’anglais » in Texto! [en ligne], décembre 2004, vol. IX, n°4. Disponible sur http://www.revue-texto.net/Corpus/Corpus.html
[Application et évaluation sur du latin] POUDAT, Céline et LONGRÉE, Dominique (2009). « Variations langagières et annotation morphosyntaxique du latin classique » in Denooz, J. et Rosmorduc, S. (coord.), « Traitement automatique des langues anciennes », TAL vol. 50-2, pp. 129-148.
Amazon: [partie linguistique] LEGALLOIS, Dominique et POUDAT, Céline (2008). « Comment parler
des livres que l’on a lus ? Discours et axiologie des avis des internautes » in Bertelli, D. et Chauvin-Vileno, A. (coord.), « De la médiacritique culturelle comme métadiscours. Objets, genres, dispositifs », Semen, n°26, pp.49-80.
EXPLORER L’ÉCRIT AVEC LES OUTILS ET LES MÉTHODES D’ANALYSE DE DONNÉES TEXTUELLES
Céline Poudat UMR 7187 LDI, Université Paris 13 [email protected]