’É a É ’aa É - dynamique de la production Écrite

EXPLORER L’ÉCRIT AVEC LES OUTILS ET LES MÉTHODES D’ANALYSE DE DONNÉES TEXTUELLES

Céline Poudat UMR 7187 LDI, Université Paris 13 [email protected]

mailto:[email protected]

L’analyse de données textuelles

Saint-Cloud, années 80, corpus politiques

Norme endogène au corpus

Les unités linguistiques n’ont pas de fréquence en langue (Lafon, 1980)

Lexicométrie Textométrie

Linéarité, réticularité textuelle

De la structure à la caractérisation

1. À la recherche de la structure d’un corpus

Exploration des oppositions et des attractions principales

Évaluation de la stabilité de la structure

2. Spécifier des catégories

Commentaires

Exemples de linguistique

• Exploration des oppositions et des attractions principales

• Évaluation de la stabilité de la structure


La question des genres textuels

Un cadre général combinant linguistique de corpus et analyse de données textuelles

Une notion intrigante Des écarts entre les noms de genres, leurs usages et leurs

caractéristiques linguistiques Une compétence générique?

Comment formaliser la notion? Verrous scientifiques

Des faisceaux d’indices: avec quels critères décrire les genres?

Des contrastes et de la variation

Restituer le genre dans sa pratique sociale pour dégager des axes de contraste

Co

mm

un

ication

scientifiq

ue

Pra

tiq

ue

soci

ale

Type de discours Discours scientifique

Domaine de spécialité: linguistique

Genres Article

Scientifique

Communication

affichée Etc. Actes

(proceedings)

Textes

Styles d’auteur Bergounioux

Rastier

François Rabatel Kleiber…

Paragraphes

Sections textuelles Phrases Mots

Morphèmes Syntagmes …

Combettes

Exploration des oppositions et des attractions principales

Descripteurs morphosyntaxiques adaptés aux spécificités des textes (segmentation et caractéristiques)

Méthode :

• Analyse factorielle en Composantes Principales (ACP)

• Classification Ascendante Hiérarchique (CAH)

Saisir l’organisation de ce faisceau d’indices

Taggers, ou assignateurs automatiques de catégories morphosyntaxiques

e.g. Cordial, TreeTagger, Tnt, Brill, etc.

Niveau d’annotation développé et automatisable

Efficacité en matière de typologies textuelles (Biber 1988, Karlgren 1994, Karlgren & Cutting 1994, Kessler et al. 1997, Rayson & Garside 2000, Habert 2000, Malrieu&Rastier 2001, Poudat, 2006, etc.)

Intérêt descriptif des variables morphosyntaxiques

Fonction d’apprentissage des étiqueteurs

AFC – étiquetage Cordial

Annotation morphosyntaxique: problèmes posés par les outils disponibles

Entraînement des taggers sur des corpus

hétérogènes éloignés de notre genre Erreurs d’étiquetage (Biber, 1993, Illouz, 1999) Absence de variables caractéristiques du discours

scientifique

Sélection d’un étiqueteur entraînable (TnT Tagger, Brants, 2000) et développement d’un jeu d’étiquettes approprié Spécification de l’analyseur et du jeu d’étiquettes au

niveau du genre

TreeTagger

Concepteur: Helmut Schmid SE UNIX, Windows, Sparc-

Solaris, Mac OS-X, langages C++, perl

Licence: téléchargeable pour des fins de recherche, enseignement et évaluation

Accessible en source Version testée V.3.2. Hidden Markov Models +

Arbres de décision Étiqueteur probabiliste,

proche des taggers ngram traditionnels

Utilisation d’un arbre de décision qui a pour feuilles des listes de probabilités

Simon NAM Simon

BOUQUET* ABR BOUQUET*

Université ABR Université

de PRP de

Paris NAM Paris

X-Nanterre ADJ X-Nanterre

Y ADJ Y

a VER:pres avoir

-t-il PRO:PER il

une DET:ART un

théorie NOM théorie

saussurienne ADJ saussurien

de PRP de

l’interprétation NOM l’interprétation

? SENT ?

Construction d’observables

Développement d’un système de 140 étiquettes Catégories morphosyntaxiques générales

Catégories spécifiques au discours scientifique Désambiguïsation IL anaphorique / impersonnel, Élaboration d’une typologie de connecteurs (opposition,

conséquence, etc. vs Adverbes), Modaux (falloir, pouvoir, devoir, etc.) etc.

Catégories spécifiques au domaine linguistique Marqueurs de formalisation linguistique (SN, SV, etc. / symboles

*, ?, ??, etc. / morphèmes –ant, wise, etc.)

Analyse en Composantes Principales

Tableau de données numériques

En ligne, les individus: 224 textes, extraits de 32

numéros de 11 revues linguistiques publiés autour de 2000.

En colonne, les observations (exprimées en pourcentages): 140 descripteurs morphosyntaxiques

Outil: DtmVic, Lebart

Audition CNRS 17/04/07 - Concours 34/03 14

Axe 1

Axe 2

ASLF hors exemples et citations

Approfondissement de la structure

• Classification automatique des textes (CAH)

•Outils: DtmVic, Lexico3, Antconc…

• Cartes de Kohonen

• Outil: DtmVic


Validation de l’ACP, vues complémentaires

CAH Cartes de Kohnen

Méthode de classification Les individus d’une même

classe sont le plus semblable possible

Les classes sont les plus disjointes possibles

Méthode agglomérative À chaque étape, on créée une

partition en agrégeant les individus deux à deux

Classes emboîtantes

Cartes « auto-organisatrices » de Kohonen

Algorithme de classification Regroupement des

observations en classes

Respect de la topologie de l’espace des observations

Grille rectangulaire aux mailles déformables

Équivalent qualitatif et non linéaire de l’ACP

Confrontation de la structure à un autre corpus de même genre, mais dans lequel la variable Auteurs est très marquée


19

Genres et styles - CRISCO

Axe 1

Ax

e 2

13/12/2007

Styles scientifiques

Audition CNRS 17/04/07 - Concours 34/03 20

Axe 1

Axe 2

ASLF hors exemples et citations

24/10/2006 Décrire un genre en corpus - LIMSI - Poudat 21

Corpus

Auteurs

L’exemple de linguistique

2. Spécifier des catégorisations

Premières spécificités des quatre types d’exemples

construits littéraires journalistiques attestés

*, ), Paul, (, a,

il, voiture,

Pierre, Belges,

Max, wallon

/, p,

Duras,vertus, iii,

et, dit,

vous,Chevaux,

Tarquinia

vache,

presse, folle

Libération, de, du,

l’, Hebdo, 94,

sang

euh, :, t’, wise,

sais, ça, ben,

and,I2, j’, oral, c’,

…, oui

Les voitures fonctionnent grâce à un moteur (8) ma voiture , ce n' est pas une poubelle , elle est juste un peu sale (10) La voiture roulait- elle à gauche ? Oui , selon le témoin . (34) Certaines voitures ont trois roues . Certaines voitures sont chères . (110) J' ai acheté une voiture . C' est une voiture grise . (124) Ma voiture s' est arrêtée dans un mètre d' eau (131) *Il a acheté une telle voiture que tout le monde la remarque dans la rue . (134) Ma voiture a été réparée par mon garagiste . (136) La voiture aurait pu causer un accident grave . (160) Ma voiture a coupé la route . (204)

Exemples

Denise will buy a new raincoat this fall Sarah bought Sam a new coat but he didn't wear

it often John knew Einstein discovered relativity theory Mary believed the story Mary bought a book for Bill Max has studied physics at Princeton John often kisses Mary The girl was kissed by the boy He answered the professor

George sauta de derrière un arbre et fit peur à Debbie . Il fut surpris par sa réaction hystérique .

Condition ' Continuation ‘ George ne pense jamais aux réactions possibles des autres .

Les farces ne sont pas drôles pour tout le monde .

Condition ' Déplacement ‘ Elle / Debbie hurla fortement et s' enfuit . Les farces ne sont

pas drôles pour tout le monde .

Paire initiale alternative Debbie fut la victime d' une autre farce de la part de George

hier . Elle fut terrifiée par son attaque- surprise de derrière un arbre .

(171)

Les figures de l’exemple

0

20

40

60

80

100

120

140

160

180

200

Paul Pierre Jean Max Marie Luc Jacques

Thématisée dans 30% des séquences relevées

Marie a une voiture, mais elle n'a pas le permis. Marie blondit ses cheveux à la camomille. Marie mange une pomme.

Thématisée dans 80% des séquences relevées

Pierre est généralement très admiré / suscite généralement une grande admiration Les prodigalités de Pierre sont restées célèbres dans le pays

Régulation des avis sur le web marchand : la critique littéraire sur Amazon.fr

• Annotation sémantique

• Spécificités

• Outils: Lexico3, Trameur, Hyperbase, TXM

2. Spécifier des catégorisations

Amazon

Création en juillet 1995 par Jeff Bezos

2000: ouverture de la filiale française, Amazon.fr

Système d’évaluation collaborative (collaborative peer review) articulé autour des produits mis en vente

Chaque livre possède ainsi son évaluation moyenne propre (étoilage)

Chaque critique, ou commentaire, est pourvue des métadonnées suivantes : auteur, étoilage, titre, date de publication et ‘utilité’, obtenue par les votes des clients inscrits sur le site.

Problématique

Est-ce que l’annotateur d’avis fait confiance à la masse ou met en place des mécanismes de confiance dans des sites d’annotation collaborative ?

Amazon: commentaires ouverts

Problème: lexique non contraint qui entrave, voire invalide l’application d’un traitement automatique

Annotation semi-automatique des valeurs fondant l’évaluation littéraire sur Amazon – intérêt d’XML et d’Oxygen pour l’annotation.

Relation entre commentaires, contributeurs et étoilage

Corpus de critiques

Corpus AVIS Corpus PRIX

21 œuvres classiques et contemporaines L'Homme qui voulait vivre sa

vie (29 critiques), Les Bienveillantes (24), Les particules élémentaires (23), Si c'est un homme (21), Le Pendule de Foucault (20), Plateforme (20), Voyage au bout de la nuit (18), Cent ans de Solitude (17), Les Trois mousquetaires (11), Ravel (11), Au Bonheur des dames (10), Eugénie Grandet (10),…

319 critiques publiées entre août 2000 et juillet 2008

283 contributeurs distincts (dont 34 anonymes)

7 œuvres primées en 2007 par la critique littéraire professionnelle Alabama Song de Gilles Leroy,

Goncourt (21 critiques ) Ap. J.-C. de Vassilis Alexakis,

Grand Prix du Roman de l'Académie Française (3 critiques)

Baisers de cinéma d’Eric Fottorino, Femina (5 critiques)

Birmane de Christophe Ono-Dit-Biot, Interallié (7 critiques)

Chagrin d’école de Daniel Pennac, Renaudot (39 critiques)

Ouest de François Vallejo, Prix du Livre Inter (10 critiques)

La stratégie des antilopes de Jean Hatzfeld, Médicis (3 critiques)

Evaluation associée aux critiques et aux œuvres du corpus – distribution comparée exprimée en pourcentages – corpus Prix et Avis

Catégorie Sous-catégorie Descriptif

Émotion horreur Effet psychologique

rire Effet psychologique

tristesse Effet psychologique

attachement Effet psychologique

identification Réaction transréférentielle

happage Effet psychologique

Esthétique intrigue Construction de l’intrigue

Originalité genre Fidélité du texte aux canons du genre

Signifiant accessibilité Facilité de lecture

édition Clarté de l’édition

brièveté Effort de lecture

Vérité historique Conformité au fait historique

personnage Réalité des personnages

Citation Valeur démonstrative / intertexte

Inhibition Difficulté (rhétorique) à s’exprimer

Intertexte Référence à d’autres œuvres, d’autres auteurs

Lecture Lecture d’œuvres du même auteur

Prescription Recommandation du livre

Relecture Relecture du livre

Annotation XML

Les valeurs privilégiées

0,00

10,00

20,00

30,00

40,00

50,00

60,00

Emotion Esthétique Vérité Moralité Signifiant Originalité

corpus

textes

Les critères privilégiés

L’intrigue une intrigue évaluée comme pauvre entraîne ainsi

une recommandation négative de l’œuvre (corrélation +0.30)

Forte corrélation avec le happage statut ambigu de l’intrigue, construction formelle

plébiscitée ici non pour sa forme, mais pour l’illusion référentielle qu’elle permet

Variables (axes F1 and F2)

Citation

Prescription NEG

Prescription

Cinéma

IntertexteLecture

Inhibition

RelectureIntrigue NEG

IntrigueEsthétique negEsthétique

NON brieveté

BrievetéEdition NEG

Edition

NON accessibilité

Accessibilité

Signifiant NEG

Signifiant

Moralité

Originalité genre

Originalité neg

Originalité

Vérité personnageVérité histoVérité NEG

Vérité

Horreur

Happage

IidentificationAttachement

Rire

Tristesse

Emotion neg

Emotion

Eval

nb votes utiles

nb com total

rang

nb com oeuvre

Eval oeuvre

Eval com

-1

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1

-- axis F1 -->

-- a

xis

F2

-->

Commentaires, commentateurs et étoilages

Évaluation de l’œuvre et commentaires

Plus l’œuvre est positivement évaluée (étoilage élevé), moins elle est commentée

Autorité du commentateur

Plus l’auteur a un rang élevé, plus ses commentaires sont bien évalués rang = confiance

Une œuvre très commentée génère plus de commentaires à la critique postée

stratégie pour avoir de l’autorité sur Amazon : ne commenter que les œuvres les plus commentées

Quelques références…

BRUNET, Étienne. Ce qui compte. Écrits choisis, tome II – Méthodes statistiques. Textes édités par Céline Poudat. Préface de Ludovic Lebart. Collection Lettres numériques, Honoré Champion, Paris.

[thèse en ligne] POUDAT, Céline (2006). « Étude contrastive de l'article scientifique de revue linguistique dans une perspective d'analyse des genres » (thèse de doctorat) in Texto! [en ligne], septembre-décembre 2006, vol. XI, n°3-4. Disponible sur http://www.revue-texto.net/1996-2007/Corpus/Corpus.html

Taggers POUDAT, Céline (2004). « Recension et présentation comparative d’étiqueteurs pour le

français et l’anglais » in Texto! [en ligne], décembre 2004, vol. IX, n°4. Disponible sur http://www.revue-texto.net/Corpus/Corpus.html

[Application et évaluation sur du latin] POUDAT, Céline et LONGRÉE, Dominique (2009). « Variations langagières et annotation morphosyntaxique du latin classique » in Denooz, J. et Rosmorduc, S. (coord.), « Traitement automatique des langues anciennes », TAL vol. 50-2, pp. 129-148.

Amazon: [partie linguistique] LEGALLOIS, Dominique et POUDAT, Céline (2008). « Comment parler

des livres que l’on a lus ? Discours et axiologie des avis des internautes » in Bertelli, D. et Chauvin-Vileno, A. (coord.), « De la médiacritique culturelle comme métadiscours. Objets, genres, dispositifs », Semen, n°26, pp.49-80.

http://www.revue-texto.net/1996-2007/Corpus/Corpus.html





http://www.revue-texto.net/Corpus/Corpus.html



EXPLORER L’ÉCRIT AVEC LES OUTILS ET LES MÉTHODES D’ANALYSE DE DONNÉES TEXTUELLES

Céline Poudat UMR 7187 LDI, Université Paris 13 [email protected]

mailto:[email protected]

’É a É ’aa É - dynamique de la production Écrite

Documents