analyse gÉomÉtrique des donnÉes gda. 1. quest-ce que lagd ? les données sont représentées sous...
TRANSCRIPT
![Page 1: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/1.jpg)
ANALYSE GÉOMÉTRIQUE DES DONNÉES
GDA
![Page 2: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/2.jpg)
1. Qu’est-ce que l’AGD ?
Les données sont représentées sous forme de nuages de points.
L’interprétation statistique est fondée sur les nuages.
Tableau de données Nuage de points
326 688 343 98
38 116 84 48
241 584 909 403
110 188 412 681
3 4 26 85
Nuage ( & )
![Page 3: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/3.jpg)
2. Trois paradigmes de l’AGDLes méthodes de l’AGD furent introduites par Benzécri, avec l’analyse
des correspondances (AC).
Elles sont bien connues en France sous l’appellation « Analyse des données »
Tableau individus x variables
variables numériques analyse en composantes principales (ACP)
variables catégorisées analyse des correspondances multiples
Tableau de contingence analyse des correspondances
Tableau de données Nuage de points Interprétation statistique
![Page 4: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/4.jpg)
3. Trois idées clés
Courant normal de la statistique AGD
Quantitative
Approche matricielle
Orientée échantillonnage
Géométrique
Algèbre linéaire
Inductive
![Page 5: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/5.jpg)
4. Panorama historiquePrécurseurs
Karl Pearson (1901): Goemetric Display of Data
Hirschfeld (1935), Fisher (1940): équations de l’analyse des correspondances sans développements géométriquesGuttman (1941): équations de l’analyse des correspondances multiples
Points de repères pour l’AGD1963-1973: Émergence. Benzécri et al., 1973: Analyse des données (T.I, Taxinomie, T.II, Analyse des correspondances)1973-1980: Âge d’or en France et splendide isolementDepuis 1981: reconnaissance limitée: Greenacre (1984), Lebart et al. (1984), Benzécri (1992).
![Page 6: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/6.jpg)
5. Points forts méthodologiques
L’AGD comme modèle cadre Homogénéité : toutes les grandeurs recensées dans le tableau
sont des quantités de même nature.
Exhaustivité : les marges du tableau représente un inventaire complet d’un dossier réel dont le cadre n’est guère discutable
Construction de l’espace
Accent mis sur les individus
Schèmes explicatifs; analyse géométrique de questionnaires
![Page 7: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/7.jpg)
6. Analyse des donnée structurées
• Facteurs structurants
• Données structurées = données avec facteurs
structurants
DONNÉES NUAGE DE POINTS
ANALYSE DES DONNÉES
STRUCTURÉES
![Page 8: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/8.jpg)
7. Inférence statistique en AGD
• L’inférence statistique doit être effectuée comme une analyse inductive des données, c’est-à-dire dans l’esprit de l’analyse des données, c’est-à-dire comme prolongement naturel de l’analyse descriptive.
Données Nuage de points Structuration Induction
Le modèle doit suivre les données, non l’inverse !
![Page 9: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/9.jpg)
8. En résumé: qu’est-ce que l’AGD ?
Tableau de
données
Nuage de
points
Interpré-
tation des Axes
Analyse des données
structurées
Analyse inductive
des données
![Page 10: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/10.jpg)
9. À propos des logiciels
![Page 11: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/11.jpg)
Un exemple commenté
![Page 12: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/12.jpg)
Du tableau vers les nuages
Du tableau vers les nuages
![Page 13: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/13.jpg)
Classification
![Page 14: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/14.jpg)
![Page 15: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/15.jpg)
Analyse en composantes principales
• Cas général de l’ACP
• ACP pondérée
• ACP simple
• ACP standard
• Méthodologie et interprétation
![Page 16: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/16.jpg)
Cas général de l’ACP On part d’un protocole multivarié de K variables (initiales), et on
cherche à remplacer ces K variables par L’ nouvelles variables, résumant au mieux le protocole.
Ce problème amène à étudier la structure des liaisons entre les variables.
Soit xJK un protocole multivarié Le profil d’un individu peut être représenté dans un espace à K
dimensions. Pour avoir un nuage euclidien, on définit une distance entre
profils. Effectuer l’ACP du protocole xJK, c’est déterminer les variables
principales (directions principales) du nuage euclidien précédemment construit.
À l’arrivée on aura : l’espace des variables (initiales), l’espace des individus.
![Page 17: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/17.jpg)
ACP pondérée
• Les variables sont toutes sur une même échelle, affectées de poids (exemple notes au BAC, avec coefficients).
• On a un protocole de notes, avec pondération sur les variables, et mesure-effectifs sur les individus.
• On définit une distance entre profils : Σ ώk (xjk – xj’k)²
• Variance du nuage : Σ ώk Var xJk
• L’ACP d’un tel protocole est l’ACP pondérée.
![Page 18: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/18.jpg)
ACP simple
• Les variables sont toutes sur une même échelle.
• Les variables sont affectées de poids tous égaux à 1.
• On a toujours une mesure-effectifs.
• Distance entre profils : Σ (xjk – xj’k)²
• Variance du nuage : Σ Var xJk = (Σ λl )
• L’ACP d’un tel protocole est l’ACP simple.
![Page 19: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/19.jpg)
ACP standard• Protocole multivarié avec variables hétérogènes.
• On solidarise les échelles (en réduisant).
• D’où un protocole de notes.
• Les variables ont des poids égaux à 1.
• ACP standard = ACP simple des variables initiales réduites.
• Variance du nuage : nombre de variables.
![Page 20: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/20.jpg)
Méthodologie et interprétation• Résumé d’une acp
ώk
xjk njACP
λl
coordonnéescontributionsqualité de repr.des individus
coordonnéescontributionsqualité repr.des variables initiales
![Page 21: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/21.jpg)
• Étapes d’une ACP en tant qu’analyse géométrique
1. Une distance est définie entre individus, avec pondération éventuelle sur les variables.
2. Détermination des axes principaux; on retient un sous espace restreint.
3. Étude géométrique du nuage des variables, illustrant leurs corrélations approximatives.
4. Étude géométrique du nuage des individus, illustrant les distances approximatives entre eux.
![Page 22: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/22.jpg)
• Démarche
1. Examen des statistiques élémentaires : moyennes, variances, corrélations;diagramme (distribution) pour chaque variable;diagramme (corrélations) pour chaque paire de
variables.2. ACP la mieux appropriée :
acp simple ou acp standard ?3. Analyse globale du nuage :
contributions des axes;contributions des variables;contributions des individus.
4. Interprétation des axes :à partir des variables initiales;à partir des individus extrêmes;facteur de taille;
5. Analyses complémentaires (classification, etc.)
![Page 23: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/23.jpg)
Introduction à l’Analyse des Correspondances Multiples
(ACM)
![Page 24: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/24.jpg)
1. Introduction
• Langage des questionnaires• Tableau de base : Individus x Questions• Les questions sont des variables catégorisées,
c’est-à-dire, des variables avec un nombre fini de catégories, appelées modalités.
• Questionnaire au « format standard » : pour chaque question, chaque individu choisit une et une seule modalité.
![Page 25: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/25.jpg)
• I : ensemble de n individus• Q : ensemble des questions• K<q> : ensemble des modalités de la question q• K : ensemble des modalités de toutes les questions
question q
Individu i (i,q)
![Page 26: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/26.jpg)
2. Principes de l’ACM nuage des individus
ACM nuages des modalités
Distance entre deux individus i et i’ pour la question q
i choisit la modalité k; i’ choisit la modalité k’ k :
1 1
d2 (i,i’) = nk/n nk’/n
Distance entre deux modalités k et k’ :
nk + nk’ – 2nkk’
d2 (k,k’) = nk nk’/nnk = nombre d’individus ayant choisi la modalité k (resp. k’);
nkk’ = nombre d’individus ayant choisi à la fois k et k’ .
![Page 27: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/27.jpg)
Axes principaux, valeurs propres et contributions
Propriétés fondamentales :• Les axes principaux du nuage des individus sont en
correspondances un à un avec ceux du nuage des modalités,
• Les deux nuages ont les mêmes valeurs propres.
Aides à l’interprétation :• Contribution globale d’une question q : Kq – 1 / K – Q
(Kq: nombre de modalités de la question q)
• Contribution d’un point à un axe : p y² /λ (y : coordonnée du point sur l’axe; p : poids relatif)
• La contribution d’une question est la somme des contributions de ses modalités
![Page 28: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/28.jpg)
3. Étapes de l’analyse
1. Choisir les individus actifs, les questions actives (et le codage).
2. Choisir le nombre d’axes à retenir et interpréter les axes retenus.
3. Étudier le nuage des individus.
![Page 29: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/29.jpg)
Choisir les individus actifs, les questions actives (et le codage)
• Modalités rares, non-réponses, modalités « bidons »
les modalités rares (< 5% de l’effectif) peuvent être regroupées avec d’autres quand c’est faisable, ou bien être mises en « passif » (ACM spécifique);
recodage des variables continues (à partir de leur distribution).
• Technique des éléments supplémentaires
distinguer questions supplémentaires et modalités supplémentaires;
individus supplémentaires (réels ou fictifs (repères)).
![Page 30: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/30.jpg)
Résultats de base
Variances des axes (valeurs propres)
Coordonnées des modalités et des individus
Contributions des modalités aux axes
Représentation géométrique des deux nuages (modalités et individus)
![Page 31: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/31.jpg)
Caractéristiques ou spécificités• Variance du nuage : Φ² du tableau disjonctif= K/Q - 1• Le sous-nuage des modalités d’une question a pour point
moyen le point moyen du nuage.• Plus une modalité est rare, plus elle contribue à la variance.• Contribution d’une question : plus le nombre de modalités
d’une question est grand, plus la question contribue à la variance.
• Taux modifiés : on retient les λl > 1/Q
on calcule λ’l = (Q/(Q-1))² (λl – 1/Q)²
enfin τ’ = λ’l / Σ λ’l
![Page 32: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/32.jpg)
Interpréter les axes
• Cela se fait dans le nuage des modalités
• Fondé sur les modalités dont les contributions dépasse une valeur seuil (par exemple la contribution moyenne)
• Parallèlement examen des contributions des questions
![Page 33: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/33.jpg)
Sous-nuages et points moyens modalité
• Pour un sous-nuage des individus ayant choisi une modalité : son point moyen est appelé point moyen modalité
• Propriété fondamentale : la coordonnée du point moyen modalité = λy
(y est la coordonnée de la modalité dans l’espace des modalités)
![Page 34: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/34.jpg)
Ellipses de concentration
![Page 35: ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique](https://reader036.vdocuments.mx/reader036/viewer/2022062511/551d9d7e497959293b8b6c24/html5/thumbnails/35.jpg)
Pour conclure…
• L’ACM est la méthode de prédilection pour l’analyse géométrique des questionnaires
• Étudier le nuage des individus est primordial : les individus « portent » toute l’information !