colloque rao, 01/08 nanterre lp criisea1 perte dinformation? corpus de gestion publique...
TRANSCRIPT
Colloque RAO, 01/08 Nanterre
LP CRIISEA 1
Perte d’information?
Corpus de Gestion PubliqueLemmatisation singulier/pluriel
LP CRIISEA 2
Systématique
Outil-tronque: fréquence minimale, seuil …-élague: mots-outils, hapax …-regroupe: singulier - pluriel,
féminin –masculin,type généralisé
lemmatisationparamétrage
LP CRIISEA 3
Types de corpus
Taille du corpus : - questionnaires à réponses ouvertes 20,
30 observations 20 à 200 ko par questionnaire, corpus de 400 à 6 mo
- discours: 1 mo de 41 mo- textes formatés: contrats de ville 16 mo,
traité européen avec acte final 1,1 moElagage: mots-outils, hapax …
LP CRIISEA 4
Filtres
Parties: - chapitre,- thème,- unité de temps - variable signalétique "l'objectif d'identification du genre serait un préalable à l'application de stratégies différenciées de la recherche d'informations dans le texte."Denise MALRIEU
LP CRIISEA 5
Spécificité
• Pathologies psychologiques: l'emploi du singulier stigmatise un comportement de retrait face au monde, ( S.BRUNER JADT 2004)
• Groupe politique minoritaire au pouvoir: sous-utilisation des verbes et actions à court terme,
• Collectivités Territoriales et Culture: typologie issue de l'organisation, (C.LABBE, D.LABBE, D.MONIERE)
• Une typologie s'avère fondée, dans les différents genre du discours en Sciences de la Société,
• La spécificité du corpus est liée à la fonction de l'acteur.
LP CRIISEA 6
Ambiguïté
Genre du corpus
Arborescence textuelle
Type de variables retenues
LemmatisationLibre liberté libertés libéral libéralisme
lib
LP CRIISEA 7
Plan
• Méthodologie• Discours
- Discours pluriel au singulier- Concordances
- Visualisation
• Réponses ouvertes:- Spécificités- Visualisation
LP CRIISEA 8
Méthodologie
1 Corpus primaire, dictionnaire2 Mise en évidence formes signifiantes3 La concordance de ces formes signifiantes 4 Calcul du coefficient d'implication réciproque (RD),5 Pourcentage de ces formes signifiantes dans le corpus,6 Spécificité7 AFC8 Reprise du processus avec le corpus réduit et lemmatisé.
corpus réduit, fonction de la taille initialeformes présentant un seuil de fréquence fixé, une fois lemmatisé offre à certaines formes la fréquence nécessaire pour être retenue.
Pour que cela ait un sens "mesurable", il faudrait que la lemmatisation soit effectuée sur tous les substantifs
LP CRIISEA 9
Discours présidentiels°
plus de 85% des signifiants sont des noms.
• Taille 63071• Vocabulaire 7101• maxfréq Signifiant /T 0,2822%• maxfréq Signi/V 3,0418%• fréqConservée/T 0,0342%• fréqConservée/V 0,3042%
° Discours F.MITTERAND , 1981-1995, cd Fondation J.JAURES, filtre: laïcité
LP CRIISEA 10
Discours
• 992 formes de fréquence supérieure ou égale à 5, signifiants sans mots-outils.
• 693 formes de fréquence supérieure ou égale à 5, sans les mots-outils avec les formes regroupées
– Concordances:
• 215 formes signifiantes de fréquence supérieure ou égale à 14, dans le corpus sans les mots-outils.
• 225 formes signifiantes ayant une fréquence supérieure ou égale à 14, sans les mots-outils avec les formes regroupées (pluriel, singulier).
• Les concordances signifiantes sont extraites des 7 formes à gauche et à droite de la forme pôle.
LP CRIISEA 11
Corpus signifiant non lemmatisé, concordance LIBERTE(S)
LIBERTESCIR% LS%
LS et L
L%
LIBERTE
CIR%
USAGE 4 2,8571 4,7619 PRIVILEGES 3 2,3810 ENSEIGNEMENT 5 0,1353
SOLIDARITE 1 0,5102 0,8547 DROITS 2 0,5556 LOIS 3 0,0999
ORDRE 1 0,2976 3,0303 HOMME 4 1,5504 ETAT 3 0,0293
NATIONALE 1 0,1832 6,0606 PENSE 4 2,0833 CONQUETES 3 0,6494
SAUVEGARDE 1 1,7857 2,0833 POUVOIR 2 0,9009 BESOIN 3 0,0248
EPANOUISSEMENT 1 1,4286 6,6667 ENSEIGNER 2 1,2821 LIBERTES 2 0,1855
BAFOUES 1 3,5714 3,2258 OBJECTIF 2 1,0638 CREATRICES 2 1,2987
DRAPEAU 1
VIE 2
MENACEES 1
RESPONSABILITE 2
BATAILLE 1
PUBLIC 2
FRANCE 1
ORGANISATION 2
TIERS MONDE 1
EGALITE 2
ECONOMIQUE 1
EXAMEN 2
CONSTRUCTION 1
SAVOIR 2
PENSE 2
LP CRIISEA 12
LIBERTES CIR% LS%
LS et L
L%
LIBERTE
CIR%
USAGE 4 2,8571
4,7619
PRIVILEGES
3 2,3810
ENSEIGNEMENT 5 0,1353
SOLIDARITE 1 0,5102
0,8547
DROITS
2 0,5556
LOIS 3 0,0999
ORDRE 1 0,2976
3,0303
HOMME
4 1,5504
ETAT 3 0,0293
NATIONALE 1 0,1832
6,0606
PENSE
4 2,0833
CONQUETES 3 0,6494
SAUVEGARDE 1 1,7857
2,0833
POUVOIR
2 0,9009
BESOIN 3 0,0248
EPANOUISSEMENT 1 1,4286
6,6667
ENSEIGNER
2 1,2821
LIBERTES 2 0,1855
BAFOUES 1 3,5714
3,2258
OBJECTIF
2 1,0638
CREATRICES 2 1,2987
CIR Coefficient d'Implication Réciproque : rapport nombre de cooccurrences de 2 ou plusieurs formes au produit de leur fréquence
ne classe pas selon le même ordre les cooccurrences communes à liberté et libertés.Enseigner,privilèges, objectif pour libertés;Privilèges, pense, homme pour liberté
LP CRIISEA 13
• Les termes en italiques n'appartiennent pas aux signifiants (fréquence trop faible).
• Les "libertés" sont liées fortement à l'"usage" alors que la "liberté" l'est avec "enseignement" puis "lois", "Etat", "conquêtes", "besoin".
• Cette différence pointe la séparation entre le pouvoir national, décisionnel, et le pouvoir local, opérationnel.
• Les formes communes relèvent du domaine conceptuel, du projet.
Implication réciproque
LP CRIISEA 14
Spécificité avec formes singulier et pluriel
Les graphiques des spécificités ont été réalisés avec Lexico 3
LP CRIISEA 15
Formes ramenées au singulier
LP CRIISEA 16
Spécificités
originales
lemmatisées
La forme libertédevient banale
LP CRIISEA 17
Discours les pluriels au singulier
- Perte d'information avec la forme "liberté " qui devient banale, alors que
au pluriel sens diffère en particulier dans cette thématique porteuse des libertés individuelles, "liberté de
conscience« , au singulier la personnification de la liberté, - Ecole, forme très spécifique des types de discours,
avec opposition entre les allocutions et les rencontres perd son sens "local" pour mettre en évidence uniquement le sens national,
En fonction du pourcentage de la forme au singulier, les spécificités de celui-ci l'emportent
- Tous les termes retenus, ici, sauf "enfant" avaient un poids plus important au singulier qu'au pluriel,
- En revanche, dans le corpus lemmatisé, des termesINITIATIVE, ORGANISATION, CLANDESTIN, CITOYEN, DECISION, COMMUNISTE sont retenus.
Pour limiter les pertes de sens, il semble intéressant de regarder les contextes de ces formes avant de ramener au singulier.
LP CRIISEA 18
Analyse Factorielle originale
-0.5 0 0.5 1.0 1.5
-1.0
-0.5
0
0.5
1.0
Facteur 1 - 59.02 %
Facteur 2 - 40.98 %
Allemagne
Communauté
Conseil
Est
Etat Europe
France
Français
Françaises
Gouvernement
Maire
Mesdames
Messieurs
Président
Présidents
République
accord
accords
affaire
affaires
besoin
besoins
choix
chose
choses
compte
condition
conditions
conscienceconsciences
dialogue
diff icilediff iciles
dirigeantsdisposition
dispositions
droit droits
débat
débats
démocratie
enfant
enfants
enseignants
enseignement
enseignements
ensemble
entendu
entreprise
entreprises
espritesprits
expression
français
française
frontièrefrontières
gouvernementgouvernements
guerre
guerres
histoire
histoires
homme
hommes
idée
idées
immigréimmigrés
liberté
libertés
libre
loi
lois
majorité
mal
monde
moyenmoyens
nationale
nationales
opinion
ordre
paix
parle
particulier
particuliers
pensée
pensées
peuplepeuples
politique
politiques
pouvoir
pouvoirs
premier
premiers
primaire
primaires
privé
privée
privées
privés
problème
problèmes
productionproductions
professeurprofesseurs
publicpublics
rapport
rapports
responsable
responsables
savoir
science
sciences
secteur
secteurssens
sociale
sociales
société
tolérance
travail
travailleurs
école
écoles
économique
économiques
égard
égards
établissement
établissements
état
Chef de l Etat
Paul Bertenseignement civique
enseignement privé
enseignement civique et moral
examen de conscience
l Assemblée Nationale
l Education Nationale
l enseignement laïque
l enseignement primairel enseignement supérieur
l investissement industriel
l école publique
l éducation nationale
la conscience des enfants
la f in du siècle
la liberté de l enseignement
pluralisme de l enseignement
respect des consciences
secteur privésecteur public
seuil de tolérance
solidarité nationale
école normale
écoles privées
économie mixteétablissement privé
établissements scolaires
année
années
ans
chômagechômeurs
socio-éducatifs
solidaritétexte
théologievocables
vocabulaire
éducation
Chancelier Kohl
Collège de France
Lionel Jospin
Mes Chers Compatriotes
Mesdames et Messieurs
Ministre de l Intérieur
Monsieur le Maire
Monsieur le Présidentde la conscience des enfants
défense nationale
flux migratoirefoyers socio-éducatifsimmigrés clandestins
la Communauté européenne
la production laitière
la puissance publique
le Conseil constitutionnel
les fonds publics
les foyers socio-éducatifs
problème est de savoir
redressement national
respect des frontières
rémunérés par l Etat
session extraordinaire
société des sciences
société d économie mixtetemps pour convaincre
allocution
association
media
LP CRIISEA 19
Après lemmatisation partielle
-0.8 -0.4 0 0.4 0.8
-1.0
-0.5
0
0.5
1.0
Facteur 1 - 54.53 %
Facteur 2 - 45.47 %
media
allocution
association
chômage
clandestins
conscience
crisedirigeants
dispositions
droit
décentralisation
démocratieenfant
enfants
entreprise
entreprises
esprit
esprits
formation
formations
français
française
frontières
homme
hommesimmigré
immigrée
immigrées
immigrés
intention
intentions
intérêtintérêts
liberté libre
loi
majorité nationale
nationales
politique
politiques
population
populations
pouvoir
pouvoirs
problème
productionproductions
public
publics
raison
rapport
respect
responsable
responsables
région
rôle
savoir sciences
secteur
sens
sentiment
socio-éducatifs
société
tolérance
travailleurs
unité
vie
école
économiqueéconomiques
établissement
établissements
Chef de l Etat
Chers Compatriotes
Collège de France
Ministre de l Intérieur
Paul Bert
contre le chômage
convaincre les Françaisenseignement civique
enseignement privé
enseignement civique et moral
examen de conscience
flux migratoirefoyers socio-éducatifs
immigrés clandestins
l Education Nationale
l enseignement laïque
l enseignement primairel enseignement supérieur
l école publiquel éducation nationale
la formation professionnelle
la production laitière
la puissance publique
la conscience des enfants
la liberté de l enseignement
liberté de conscience
redressement national
respect des conscience
respect des frontières
rigueur morale
rémunérés par l Etat
secteur industriel
secteur privé
secteur public
session extraordinaire
seuil de tolérance
seul établissement
société des sciences
société d économie mixte
solidarité nationale
école normale
école privées
établissement privé
établissements scolaires
Chancelier Kohl
Communauté européenne
Conseil constitutionnel
Conseil européen
Lionel Jospin
commerce extérieur
contrat de travail
défense nationale
sciences naturelles
tribunal administratif
La lemmatisation partielle conduit à une modification de la représentation,
LP CRIISEA 20
Réponses ouvertes • 16 acteurs de 3 CSP différentes, taille
T=17822 formes, vocabulaire V=2989 • Sur les questionnaires à réponses ouvertes
du CHU• Taille 17822• Vocabulaire 2989• maxfréq signifiant /T
1,8180%• maxfréq signifiant/V
10,8397%
• seuil 10%
LP CRIISEA 21
Spécificités
base 0,82 0,40 45 72 5,4210,00
0
donnée 0,18 0,06 10 10 4,3200,00
0
documents 0,44 0,20 24 36 4,2580,00
0
l hôpital 0,35 0,15 19 27 4,0260,00
0
pédiatrie 0,31 0,13 17 24 3,8260,00
0
base données 0,15 0,04 8 8 3,7670,00
0
projet 0,38 0,19 21 34 3,5500,00
0
hôpital 0,35 0,17 19 30 3,4880,00
0
service 0,93 0,62 51 110 3,3220,00
0
service pédiatrie 0,20 0,08 11 15 3,1260,00
1
services 0,31 0,16 17 28 3,0780,00
1
préparation 0,13 0,04 7 8 2,9570,00
2
hospitalisation 0,15 0,06 8 10 2,8840,00
2
information 0,15 0,06 8 10 2,8840,00
2
papier 0,60 0,40 33 72 2,5550,00
5
temps 0,29 0,49 16 88 -2,5650,00
5
infirmière 0,02 0,13 1 23 -2,8330,00
2
cahier 0,05 0,35 3 62 -4,9280,00
0
parents 0,16 0,35 9 63 -2,8800,00
2
Administratif
LP CRIISEA 22
Spécificités cahier 0,92 0,35 49 62 7,881 0,000
vert 0,34 0,10 18 18 6,164 0,000
cahiers 0,26 0,09 14 16 4,541 0,000
cahier vert 0,19 0,06 10 10 4,388 0,000
dossier médical 0,39 0,17 21 31 4,167 0,000
box 0,28 0,11 15 20 3,942 0,000
chambre 0,19 0,06 10 11 3,915 0,000
mauve 0,15 0,04 8 8 3,833 0,000
soin 0,21 0,07 11 13 3,810 0,000
note 0,17 0,06 9 10 3,636 0,000
dossier patient
informatisé0,19 0,07 10 12 3,540 0,000
alarme 0,13 0,04 7 7 3,524 0,000
violet 0,13 0,04 7 7 3,524 0,000
scope 0,13 0,04 7 7 3,524 0,000
feuilles 0,30 0,13 16 24 3,523 0,000
notes 0,00 0,08 0 14 -2,461 0,007
pédiatrie 0,02 0,13 1 24 -2,844 0,002
documents 0,06 0,20 3 36 -2,893 0,002
Infirmier
LP CRIISEA 23
Spécificitésnotes 0,19 0,08 13 14 3,909 0,000
rempli 0,14 0,06 10 10 3,756 0,000
activité 0,14 0,06 10 10 3,756 0,000
personnelles 0,13 0,05 9 9 3,514 0,000
notes personnelles 0,13 0,05 9 9 3,513 0,000
senior 0,11 0,04 8 8 3,258 0,001
terme 0,14 0,06 10 11 3,233 0,001
diagnostic 0,10 0,04 7 7 2,982 0,001
recherche 0,31 0,19 22 34 2,828 0,002
médecin 0,50 0,34 35 61 2,737 0,003
traitements 0,11 0,05 8 9 2,717 0,003
thérapeutiques 0,09 0,03 6 6 2,683 0,004
transmettre 0,09 0,03 6 6 2,683 0,004
exploration 0,09 0,03 6 6 2,683 0,004
soin 0,01 0,07 1 13 -2,186 0,014
hospitalisation 0,03 0,10 2 17 -2,188 0,014
feuille 0,03 0,10 2 17 -2,188 0,014
cahier vert 0,00 0,06 0 10 -2,464 0,007
donnée 0,00 0,06 0 10 -2,466 0,007
cahier 0,14 0,35 10 62 -3,808 0,000
cahiers 0,01 0,09 1 16 -2,661 0,004
Médecin
LP CRIISEA 24
Spécificités• Informations 86, • Information 45 sur représentée chez les
administratifs au singulier• Cahier 82 sous-représentée chez les
administratifs• Cahiers 16 spécifiquement positif au
singulier et au pluriel infirmiers, négatif médecins
• Feuille 17 spécificité négative des médecins
• Feuilles 24 spécificité positive des infirmiers• Note 10 spécificité positive des infirmiers• Notes 14 spécifique positive des médecins,
négatives des infirmiers• Soins 43 sur-représentée chez infirmier• Soin 13 sur-représentée infirmier, sous
médecinLa fonction discrimine le vocabulaire et l'emploi de certaines formes au singulier ou pluriel
LP CRIISEA 25
Soins/soin
Soin
Aplatissement desspécificités
LP CRIISEA 26
Cahiers/cahier
Cahier
Type de spécificité conservéà la limite
LP CRIISEA 27
Retournement de situation
LP CRIISEA 28
-1.0 -0.5 0 0.5 1.0
-1.0
-0.5
0
0.5
1.0
Facteur 1 - 68.80 %
Facteur 2 - 31.20 %
infirmière
administratif
médecin, interne
acteursactions
activité
alarmealarmes
analyse
base
bases
besoin
besoins
box
cahier
cahiers
calcul
calculs
case
cases
chambre
clavier
cocher
collègue
collèguescommunication
communications
confiance
connaissances
constante
constantes
consultation
consultations
contrainte
courrier
courriers
diff icile
documentaire
documents
dossier
dossiers
décision
décisions
enfant
enfants
entrée
entrées
erreur
erreurs
examen
examens
exploration
feuille
feuilles
fiche
fiches
formation
formations
gagner
gain
garde
gestes
heure
heures
histoire
horaire
horaires
hospitalisation
hôpital
image
images
infirmier
infirmiers
infirmièreinfirmières
infoinformation
informations
informatique
informatiques
informatisation
informatisé
interne
internes
internet
lecture
locaux
logiciel
légal
machines
maternité
matériel
matériels
médecin
médecins
médical
médicale
médicales
note
notes
ordinateur
ordinateurs
outil
outils
page
pages
pancarte
pancartes
papier
papiers
parents
pathologie
pathologies
patient
patientspeur
post-it
poste
pratique
pratiques
prescription prescriptions
problème
problèmes
progrès
projet
préparation
prévoir
puéricultrice
pédiatrie
relation
relevérelevés
remplir
remplis
renseignement
renseignements
responsabilité
responsable
rouge
réanimation
résultat
résultats
réunion
réunions
saisie
saisies
savoir
scope scopes
secrétaire
secrétaires
semaine
service
servicessoin
soins
surveillance
surveillantesystème
sécurité
tache
tachestechnique
techniques
temps
texte
textes
thérapeutique
thérapeutiques
traitement
traitements
transformation transformations
transmission
transmissions
travailtravailler
tâches utilisationutilisé
vertviolet
vite
écran
écrire
écritureécritures
équipe
cahier surveillance
consultation dossier
documents structurés
dossier médical
dossier papier
feuille surveillance
feuilles volantes
fiches transmission
gagner tempsgain temps
notes personnelles
outils informatiques
pas eu formation
prise en charge
récupérer informations
temps travail
Réponses ouvertes: AFC
Les cartes factorielles ont été obtenues avec le logiciel SPAD 5.5
LP CRIISEA 29
-1.5 -1.0 -0.5 0 0.5
-1.0
-0.5
0
0.5
1.0
Facteur 1 - 64.80 %
Facteur 2 - 35.20 %
inf irmière
administratif
médecin, interne
activité
administrative
alimentation analyseannotations
basebesoin
box
cahier
champs
changement
clavier
cocher
commentaires
communicationconsultation
diagnostic
diff icile
document
enfant
entrée
erreur
exploration
feuille
f iches
garde
gestes
hospitalisation
hôpital
information
informatique
informatisation
internes
internet
légal
légale
malade
médecins
note
ordinateur
parents
patient
place
post-itpouvoir
prescription
problème
problèmes
projet
préparation
radios
recherche
rempli
réanimation
saisiesavoir
servicesoin
surveillance
système
tache
traitements
transmission
travailvert
écrit
cahier prescription
cahier surveillance
consultation dossier
dossier informatisé
rechercher information
récupérer information
temps travail
Réponses ouvertes: formes ramenées au singulier
Structure conservée avec réduction des spécificités.
LP CRIISEA 30
Conclusion
• Perspective de Recherche documentaire, l'affichage multidimensionnel des formes, la création de dictionnaires par discipline? (Top-Down)
formes au singulier et tronquées!• La mise en évidence de spécificités du corpus,
voire de typologies supposerait que dans un premier temps les formes aux singulier et au pluriel soient conservées
• Extraction de connaissances à partir des corpus, penser aux conclusions de L.LEBART! (Bottom-up)
LP CRIISEA 31
Bibliographie articles…AUBIN S., LELU A., “ Vers un environnement complet de synthèse statistique de contenus textuels”, Neuronav v2, séminaire ADEST, 2005 COURTIAL J.P., “ Analysis of Social Representations in Action Based on Words Associated by Scientific Articles”, European Review of Applied Psychology, 52, 2002, p.221-230GOUADAIN D., “ Les mots de la Gestion ”, Gérer et Comprendre, n°66, 2001, p. 58-80, ESKA, Paris.KRUSKAL J.B, “ Multidimensional Scaling By Optimizing Goodness of Fit To a Nonmetric Hypothesis”, Psychometrika Vol.29, N°1, March 1964LEBART L., “ Validation des visualisations de données textuelles” , Actes des JADT 2004REINERT M., “ Approche statistique et problème du sens dans une enquête ouverte”, Journal de la Société Française de Statistique, tome 142, vol 4, 2001
LP CRIISEA 32
Bibliographie articles…AUBIN S., LELU A., “ Vers un environnement complet de synthèse statistique de contenus textuels”, Neuronav v2, séminaire ADEST, 2005 BRUNER S., pathologies psychologiques: l’emploi du singulier stigmatise un comportement de retrait face au monde, JADT 2004GOUADAIN D., “ Les mots de la Gestion ”, Gérer et Comprendre, n°66, 2001, p. 58-80, ESKA, Paris.LEBART L., “ Validation des visualisations de données textuelles” , Actes des JADT 2004PINCEMIN B., Lexicométrie sur corpus étiqueté, JADT 2004REINERT M., “ Approche statistique et problème du sens dans une enquête ouverte”, Journal de la Société Française de Statistique, tome 142, vol 4, 2001
LP CRIISEA 33
Bibliographie ouvrages• LEBART L., SALEM A., Statistique
textuelle, Dunod, 1994• MULLER C., Principes et méthodes de
statistique lexicale, Hachette, Collection Langues, Linguistique, 1970
• www.cavi.univ-paris3.fr/lexicometricaActes des JADT 2002, 2004,
• Logiciel téléchargeable gratuit: LEXICO2