stat mercier

Upload: nik

Post on 16-Jul-2015

114 views

Category:

Documents


0 download

TRANSCRIPT

MI020AX SP

MI020AXStatistique S6

2011 / 2012

Sommaire

Analyse des donnes Sabine Mercier

p.3

Sondage Laurence Loubes

p.351

Connectez-vous sur lENT La plateforme pdagogique IRIS est votre disposition. Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed

Universit Toulouse II-Le Mira - Service dEnseigne r ail e ement Dis stance Anne Un niversitaire 2011 / 2012 2

MI0 0AX 020An nalyse des donn d esSa abine Merciier

3

Connectez-vous sur lENT La plateforme pdagogique IRIS est votre disposition.

Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges

4

Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed

Toulouse, Le 3 nov 2011

Envoi pour le SED 3 anne de licence MIASHS MI020AX Analyse des donnes 1 me

Sabine MERCIER

ContactMercier [email protected]

Tel. : 05-61-50-46-11

Prsentation de lUE, partie analyse des donnesLa partie Analyse des donnes de cette UE aborde lanalyse multidimensionnelle avec des outils tels que lanalyse en composantes principales (ACP) et les analyses factorielles des correspondances simples (AFC) et multiples (AFCM).

Modalits dexamenUne preuve crite de 1h30 sans document.

5

Envois prvusUn seul envoi est prvu lheure actuelle. o Cette lettre ; o Du fascicule de cours : ce fascicule de cours comporte en plus du cours, des exemples corrigs, des noncs dexercices avec quelques corrections, et bien sur une bibliographie qui complte celle fournie dans cette lettre ; o Des annexes, comportant les photocopies dexemples tirs de livres, des fiches rsum , ainsi que des sorties logicielles ; o Du fascicule dinitiation au logiciel R correspondant au DAAP de L3 et qui vous permettra de vous familiariser avec le logiciel utilis par la suite avec les TP. o Du document de travaux pratiques utilisant le logiciel R. o Dun document comportant les noncs des partiels et examens des annes prcdentes. o Dun document comportant quelques corrections des partiels et examens. o Dun petit fascicule de rappels concernant des outils simples quil est important de connatre.

ConseilAfin de ne pas sparpiller dans votre travail, voici quelques dmarches suivre. Commencez tout dabord par bien assimiler le chapitre des rappels dalgbre (premier chapitre du cours). Poursuivez par le chapitre sur lACP. Travaillez minutieusement lexemple du cours et rflchissez sur les travaux dirigs proposs. Vous pouvez ensuite faire quelques annales sur le sujet. Si le besoin sen fait ressentir, lisez le chapitre sur la rgression simple dans le fascicule de rappels. Afin daborder ensuite la partie travaux pratiques, il est indispensable deffectuer les exercices proposs dans le fascicule dinitiation R avant. Pour les chapitres suivants (AFC et AFCM), procdez de manire similaire : cours, TD, annales, TP, mais je pense quil est vraiment ncessaire de lire le fascicule de rappel sur le coefficient phi et le test du Chi-deux dindpendance avant de commencer le travail proprement dit sur les AFC et AFCM.

Bibliographie Georgin J.-P. (2002). Analyse interactive des donnes (ACP, AFC) avec Excel 2000, Thorie et pratique. PUR, Rennes. Jambu, M. (1999). Mthodes de base de l'analyse des donnes. Collection Technique et Scientifique des Tlcommunications, Eyrolles. Saporta, G. (1990). Probabilits Analyse des Donnes et Statistique. Editions Technip, Paris. Bouroche, J.-M. et Saporta, G. (2002). Analyse des Donnes. Que saisje, PUF, Paris.

6

Universit de Toulouse le Mirail e Dpartement de Math-Info e ` Licence MIASHS 3eme anne e -

MI020AX Analyse des Donnes I eCOURS 2011-2012Sabine MERCIER November 8, 2011

7

2

8

ContentsI Cours et noncs des exercices e e. . . . . distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

711 11 11 14 15 16 17 18 18 18 18 19 19 21 21 21 22 23 23 23 23 27 28 28 28 29 29 29 32 32 33 33

1 Rappels dalg`bre linaire e e 1.1 Espaces euclidiens et gomtrie . e e 1.1.1 Norme, produit scalaire et 1.1.2 Projection . . . . . . . . . 1.1.3 Esprance conditionnelle . e 1.2 Elments propres, diagonalisation e 1.3 Variables multidimensionnelles . 1.4 Autres rappels divers et utiles . . 1.4.1 Transpose . . . . . . . . e 1.4.2 Trace . . . . . . . . . . . 1.4.3 Dterminant . . . . . . . e 1.4.4 Inverse . . . . . . . . . . . 1.4.5 Rang . . . . . . . . . . . .

9

2 LA.C.P., Analyse en Composantes Principales 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Premi`res notations . . . . . . . . . . . . . . . . . e 2.1.2 Applications . . . . . . . . . . . . . . . . . . . . . 2.1.3 Objectif . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Principe de lACP . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Approche image de lACP : vache ou cheval ? . . e 2.2.2 Maximiser la dispersion . . . . . . . . . . . . . . . 2.3 Choix de la dimension . . . . . . . . . . . . . . . . . . . . 2.3.1 R`gle du coude . . . . . . . . . . . . . . . . . . . . e 2.3.2 Pourcentage de la variance ou part dinertie . . . . 2.3.3 R`gle de Kaiser . . . . . . . . . . . . . . . . . . . . e 2.3.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . 2.4 Reprsentation des variables . . . . . . . . . . . . . . . . . e 2.4.1 Cercle des corrlations . . . . . . . . . . . . . . . . e 2.4.2 Qualit de reprsentation ou CO2 . . . . . . . . . e e 2.4.3 Interprtation du cercle des corrlations suite et n e e 2.5 Reprsentation des individus . . . . . . . . . . . . . . . . e 2.5.1 Nouvelles coordonnes . . . . . . . . . . . . . . . . e 3

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

4 2.5.2 Individus atypiques et supplmentaires e ACP gnralise du triplet (X, D, M ) . . . . e e e 2.6.1 ACP centre-rduite . . . . . . . . . . e e 2.6.2 ACP - cas gnral . . . . . . . . . . . e e Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

CONTENTS . . . . . . . . . . . . . . . . . . . . . . . . . 33 34 34 34 35 39 40 40 41 44 44 46 47 48 48 48 49 49 50 51 53 53 54 55 56 58 58 58 59 60 60 60 61 61 61 61 61 61 62 62

2.6

2.7

3 Analyse Factorielle des Correspondances 3.1 Prliminaires . . . . . . . . . . . . . . . . . . . . . e 3.1.1 Quelques dnitions . . . . . . . . . . . . . e 3.1.2 AFC et indpendance . . . . . . . . . . . . e 3.2 LAFC . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Principe . . . . . . . . . . . . . . . . . . . . 3.2.2 Reprsentations graphiques . . . . . . . . . e 3.3 Interprtation des rsultats dune AFC . . . . . . . e e 3.3.1 Choix de la dimension . . . . . . . . . . . . 3.3.2 Qualit et contribution . . . . . . . . . . . . e 3.3.3 Interprtation du diagramme simultan . . e e 3.4 Etudes de cas . . . . . . . . . . . . . . . . . . . . . 3.4.1 Exemple Dpots de Brevets . . . . . . . . e 3.4.2 Exemple Catgories Socioprofessionnelles e 3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

10

4 AFC Multiple 4.1 Codages, dnitions . . . . . . . . . . . . . . . . . . . e 4.1.1 Codage disjonctif et tableau de Burt . . . . . . 4.1.2 Rapport de corrlation . . . . . . . . . . . . . . e 4.2 Principe de lAFCM . . . . . . . . . . . . . . . . . . . 4.3 Reprsentation graphique . . . . . . . . . . . . . . . . e 4.3.1 Proprits des valeurs propres et nombre daxes ee 4.3.2 Reprsentation des variables . . . . . . . . . . . e 4.3.3 Reprsentation des individus . . . . . . . . . . e 4.4 Rsum et autres approches . . . . . . . . . . . . . . . e e 4.4.1 Approche de ce cours . . . . . . . . . . . . . . 4.4.2 Approche principale de Saporta [4] . . . . . . . 4.4.3 Utilisation du tableau de Burt . . . . . . . . . 4.4.4 Conclusion . . . . . . . . . . . . . . . . . . . . 4.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Les chiens . . . . . . . . . . . . . . . . . . . . . 4.5.2 Les pommes . . . . . . . . . . . . . . . . . . . . 4.5.3 Cancers du seins . . . . . . . . . . . . . . . . . 4.5.4 Les lms . . . . . . . . . . . . . . . . . . . . . . 4.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

CONTENTS

5

II

Corrections - Annexes - Annales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6365 65 66 66 67 67 67 68 69 69 70 70 71 71 73 77 77 77 78 78 79 79 80 81 82

5 Correction de lACP Notes de partiels 5.1 Centrage des donnes . . . . . . . . . . . e 5.2 Choix des mtriques . . . . . . . . . . . . e 5.3 Calcul de V . . . . . . . . . . . . . . . . . 5.4 Diagonalisation de V . . . . . . . . . . . . 5.4.1 Premi`re mthode . . . . . . . . . e e 5.4.2 Seconde mthode . . . . . . . . . . e 5.4.3 Les vecteurs propres . . . . . . . . 5.5 Calcul des composantes C j . . . . . . . . 5.5.1 Retrouvons les proprits . . . . . ee 5.6 Dcomposition des variables . . . . . . . . e 5.6.1 Dans la base des C k . . . . . . . . 5.6.2 Dans la base des C k . . . . . . . . 5.6.3 Le cercle des corrlations . . . . . e 5.7 Reprsentation des individus . . . . . . . e

6 Correction de lAFC Partis politiques 6.1 Rappel des donnes . . . . . . . . . . . . . . . . . . . . . e 6.2 Prols lignes et colonnes . . . . . . . . . . . . . . . . . . 6.2.1 Matrice des prols lignes . . . . . . . . . . . . . . 6.2.2 Matrice des prols colonnes . . . . . . . . . . . . 6.2.3 Programmation R . . . . . . . . . . . . . . . . . 6.3 Prols dindpendance . . . . . . . . . . . . . . . . . . . e 6.3.1 Mthode 1 : dnition du prol dindpendance . e e e 6.3.2 Mthode 2 : prol moyen . . . . . . . . . . . . . e 6.4 Test du Khi-deux . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

11

7 Quelques corrections et dmonstrations e 85 7.1 Exercices sur lACP . . . . . . . . . . . . . . . . . . . . . . . . . 85 7.2 Exercices sur lAFC . . . . . . . . . . . . . . . . . . . . . . . . . 89 7.3 Exercices sur lAFCM . . . . . . . . . . . . . . . . . . . . . . . . 90 8 Annales 9 Liste des annexes volantes 93 101

6

CONTENTS

12

Part I

Cours et noncs des e e exercices

13

7

Connectez-vous sur lENT La plateforme pdagogique IRIS est votre disposition.

Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges

14

Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed

IntroductionCe document correspond au cours danalyse des donnes dispens aux tudiants e e e ` de licence 3eme anne de la li`re MIASHS (Mathmatiques, Informatique Ape e e pliques et Sciences Humaines et Sociales) du dpartement de Mathmatiquee e e Informatique de luniversit de Toulouse le Mirail. e En France, lexpression Analyse des Donnes recouvre les techniques utilises e e pour dcrire les grands tableaux. Ces techniques regroupent un certain nombre e doutils statistiques permettant de construire des supports et/ou des rsums e e de linformation an de faciliter linterprtation. e Parmi ces outils, ce trouvent les mthodes dites factorielles qui fournissent des e reprsentations graphiques sous la forme de nuage de points provenant de proe jections sur des plans choisis. Ces mthodes ont le gros avantage de traiter ` la e a fois les individus et les variables. Les mthodes factorielles que nous aborderons, sont lAnalyse en Composante e Principale, ou ACP ; lAnalyse Factorielle des Correspondances ou AFC; ainsi que lAnalyse des Correspondances Multiples qui fait lobjet du dernier chapitre de ce cours. Les mthodes factorielles que nous allons voir reposent toutes sur la diagonale isation dune matrice que nous dterminerons, suivant quil sagira dune ACP e ou autre. Sachez cependant quil existe dautres techniques ou approches que celles abordes dans ce cours, comme par exemple lanalyse canonique. e Quelques rappels dalg`bre linaire sont eectus dans le premier chapitre. Nous e e e aborderons ensuite le chapitre principale portant sur lACP. Les deux chapitres sur lAnalyse Factorielle simple (AFC) et Multiple (AFCM) qui suivent ensuite ne peuvent tre abords sans avoir assimil correctement le chapitre sur lACP. e e e Tout au long du document des exemples et exercices de cours sont proposs dont e le corrig est parfois fourni en annexes. Il est indispensable de les faire ou du e moins dessayer. Chaque chapitre comporte galement une section dexercices, e certes parfois plus diciles que les exercices de cours, mais qui apportent des notions complmentaires qui ne peuvent tre abordes faute de temps dans le e e e cours. Lensemble de ces notions sont tudies, travaux pratiques compris, sur e e une plage horaire de 25h. Le rythme est donc assez intense pour des notions pas toujours faciles au premier abord. Un travail personnel consquent est donc e ncessaire. Une bibliographie est propose ` la n du document an de vous e e a 9

15

10 y aider. Cependant, les approches et les notations, comme notamment celles de lAFC, di`rent souvent dun livre ` lautre et ne facilitent pas toujours les e a choses. Toutes remarques constructives tant sur le fond que sur la forme sont les bienvenues. Lortaugrae ntant pas mon fort, je remercie par avance votre ine dulgence et dautre part les personnes qui prendront le soin de mindiquer les erreurs rencontres. e Il me reste ` vous souhaiter bon courage ! a

16

Chapter 1

Rappels dalg`bre linaire e eCe chapitre a pour but de rassembler les notations et outils dalg`bre linaire qui e e seront utiliss dans la suite du cours. Loin dtre exhaustif, ce chapitre mrite e e e bien des amliorations. e Soient E et F deux espaces vectoriels rels de dimension respective n et p. Rape pellons quun K-espace vectoriel est un quadruplet (E, +, , ) o` K est appel u e le corps, E est un ensemble et o` les signes +, et dnissent des oprations u e e entre les lments de E et de E avec K pour la derni`re. Ces oprations doivent ee e e vrier les proprits suivantes : e ee (E, +) est un groupe, (E, ) est un groupe, est distributif par rapport ` +, a est distributif par rapport ` + et est associatif. a

17

1.11.1.1Norme

Espaces euclidiens et gomtrie e eNorme, produit scalaire et distance

On appelle norme sur E toute application de E dans R+ vriant les proprits e ee de linarit : ( K) e e (x E) || x|| = | | ||x||

de sous-additivit (ingalit triangulaire, ou IT) : e e e (x, y E) ||x + y|| ||x|| + ||y|| de sparation : ||x|| = 0 (x = 0) e On parle parfois de mtrique ` la place de norme. e a 11

12

` CHAPTER 1. RAPPELS DALGEBRE LINEAIRE

Exercice 1 Montrez que pour tout k-uplet (x1 , ..., xk ) de E, on a ||i=1,...,k

xk || i=1,...,k

||xk || .

Exercice 2 Montrez lingalit suivante e e | ||x|| ||y|| | ||x y|| . Exercice 3 Pour E = Rn , montrez que les applications suivantes sont des normes de Rn , avec x = (x1 , . . . , xn ) ||x|| = sup1in |xi | ||x||1 =i=1,...,n

|xi |

||x||2 = ||x||q = i=1,...,n

(xi )2i=1,...,n

(1/q) |xi |q avec q dans N .

18

Produit scalaire On appelle produit scalaire sur E (et on crit ps sur E), toute application de e E E dans R qui soit bilinaire, symtrique et dnie positive (ou DP, ceste e e a `-dire < x, y > 0 et < x, x >= 0 x = 0E ). On note souvent < x, y > le produit scalaire de x et y. Soit (e1 , ..., en ) la base canonique de E. On appelle matrice associe au produit e scalaire < ., . >, la matrice dnie par Mij =< ei , ej >. e De mani`re rciproque, on parle de ps associ ` la matrice M pour le ps dni e e ea e par < x; y >M = x M y. A tout produit scalaire peut-tre associe une norme (on parle alors de norme e e euclidienne) dnie de la faon suivante e c ||x|| = < x, x > . Exercice 4 1. Soient 1 M = 2 3 x = (3, 2, 1) Calculer < x; y >M . et 2 3 1 1 1 2

y = (2, 2, 1).

1.1. ESPACES EUCLIDIENS ET GEOMETRIE

13

2. Montrer que la matrice associe au produit scalaire < .; . >M est bien M . e Exercice 5 (Ingalit de Cauchy-Schwartz) Soient x et y dans E, on a e e | < x, y > | ||x|| ||y|| . Exercice 6 1. Montrez que lespace X 2 .dP < +}

L2 (, A, P ) = {X : X v.a. de dans R telle que

des variables alatoires relles de carr intgrable est un espace vectoriel e e e e sur R. 2. Soit lapplication dnie de L2 (, A, P ) L2 (, A, P ) qui ` tout (X, Y ) e a associe X.Y dP . Montrez quil sagit dun produit scalaire. La norme associe est appele norme L2 . e e Quelques dnitions e On dit que deux vecteurs x et y sont M -orthogonaux si < x, y >M = 0, quun vecteur x est norm si ||x|| = 1, quun n-uplet (x1 , ..., xn ) de E est M -orthonore m si pour tout i et j dans {1, ..., n} < xi , xj >M = ij avec ij = 1 si i = j et e 0 sinon. Exercice 7 1. Soit x = (4, 5, 7) un vecteur de R . Normer ce vecteur pour la norme ||.||1 puis pour la norme ||.||2 . 2. Normer le vecteur x = t(1, 3, 5, 6) de R4 ` laide de la norme dnie par a e I4 , avec (I4 )ij = 1 si i = j et 0 sinon, pour 1 i, j 4. Exercice 8 (Thor`me de Pythagore) Soit E un espace euclidien. Mone e trez limplication suivante x et y orthogonaux : (ie < x, y >= 0) ||x + y||2 = ||x||2 + ||y||2 . Cosinus On appelle cosinus de langle dni par les vecteurs x et y de E espace euclidien, e et on note cos(x, y), la quantit suivante : e cos(x, y) = < x, y > , ||x|| ||y||3

19

avec ||.|| la norme associe au produit scalaire de E. e Distances On dnit une distance ` partir dune norme, de la faon suivante e a c d(x, y) = ||x y|| . On notera dM pour une distance relie ` la norme associe ` la matrice M . e a e a

14

` CHAPTER 1. RAPPELS DALGEBRE LINEAIRE

Norme, produit scalaire et distance dnis ` partir dune matrice e a Soit M une matrice carre de taille n et dnie sur E, ayant les proprits e e ee suivantes Symtrique : M = t(M ) (autre notation M ), Mij = Mji i, j e Dnie positive : pour tout x dans Rn , x .M.x 0 avec lgalit qui e e e entraine x = 0. La matrice M dnie sur lespace E un produit scalaire, par e < x, y >M = x .M.y . Remarques : Les proprits de M rsultent de celles de M . ee e Par symtrie du produit scalaire, on a e < x, y >M = x M y = y M x. On notera ||.||M la norme associe ` la matrice M : e a ||.||M = x .M.x et dM la distance correspondante. Exercice 9 Montrez que ||.||In = ||.||2 avec ||.||2 dnie ` lExercice 1. e a

20

1.1.2

Projection

Dnitions e Soit A un sous-espace vectoriel (sev) de E. Soit M une matrice symtrique et e DP. On peut trouver plusieurs dnitions de la projection M -orthogonale sur un e sous-espace vectoriel. Dnition 1 (Argmin) On appelle projecteur M -orthogonal de E sur A lape plication note PA de E dans A qui a tout lment x de E associe le vecteur y e ` ee de A tel que 2 y = argminzA ||x z||M . Le vecteur y est appel projection. e Dnition 2 (Matricielle) On dit quune matrice P est une matrice de proe jection M -orthogonale sur A si et seulement si P est carre de taille gale a la dimension du sev A, e e `

1.1. ESPACES EUCLIDIENS ET GEOMETRIE x E, le produit P.x A, x E, < P.x, x P x >M = 0. Exercice 10 1. Lapplication PA est idempotent, ie PA oPA = PA .

15

2. Toute matrice de projection P est idempotente, ie P.P = P . 3. Soit P une matrice. Montrer lquivalence suivante e (P est une matrice de projection M -orthogonale) (P est idempotente : P 2 = P et M -symtrique : P M = M P ) e Projection sur une droite On se place ici dans un espace ane (espace vectoriel point). Soit un axe e dirig par un vecteur u. Les coordonnes dun point x M -projet sur cet axe e e e sont donnes par la formule suivante : e Pu (x) =< x, do` u Pu (x) = (x M u) u u >M ||u||M ||u||M u ||u||M2

21

.

1.1.3

Esprance conditionnelle e

Soit Y variable alatoire relle et X non ncessairement relle (ventuellement e e e e e qualitative). Dnition 3 (Esprance conditionnelle) On appelle esprance conditione e e nelle de Y sachant que X = x et on note E[Y |X = x] la quantit dnie par e e E[Y |X = x] =y

y P [Y = y|X = x].

E[Y |X = x] est une fonction de x que lon notera (x). On dnit alors la e variable alatoire esprance conditionnelle note e e e E[Y |X] = (X) qui prend pour valeur E[Y |X = x] avec la probabilit P [X = x]. e Proprit 1 (Thor`me de lesprance totale) e e e e e E[E(Y |X)] = E(Y ).

16

` CHAPTER 1. RAPPELS DALGEBRE LINEAIRE

Dnition 4 (Variance conditionnelle) e V ar[Y |X = x] = E (Y E[Y |X = x]) | X = x = (x). V ar(Y |X) = (X). Proprit 2 (Thor`me de la variance totale) e e e e V ar(Y ) = E[V ar(Y |X)] + V ar[E(Y |X)].2

1.2

Elments propres, diagonalisation e

Soit A une matrice CARREE dordre p. Les vecteurs propres (nots Vp) de A sont dnis comme tant les vecteurs v e e e dirents du vecteur nul, tels quil existe une valeur de K vriant e e A.v = .v est appele la valeur propre associe ` v. Les valeurs propres dune matrice e e a A sont les racines, avec leur multiplicit, du polynme caractristique : e o e |A .I| = 0 o` |M | correspond au dterminant de la matrice M . u e Les applications statistiques auxquelles nous allons nous intresser dans la suite e du cours sintressent ` des matrices de type particulier : relles et symtriques e a e e ou bien M -symtriques qui admettent des proprits importantes. e ee Proprit 3 Toute matrice symtrique relle est diagonalisable. e e e e Exercice 11 Montrer que la matrice

22

1 M = 1 2

2 2 4

1 2 1

admet 0 pour valeur propre. Dterminer le vecteur propre associ. e e Proprit 4 (Dcomposition de cholevski) e e e Soit A une matrice symtrique, il existe alors une matrice U triangulaire e suprieure telle que : e A=U U .

1.3. VARIABLES MULTIDIMENSIONNELLES

17

1.3

Variables multidimensionnelles

Soit X =t (X 1 , ..., X p ) une variable multidimensionnelle, cest-`-dire ` valeurs a a dans Rp . On a E[X] =t (E[X 1 ], ..., E[X p ]) de taille p 1, V ar(X) = (Cov(X i , X j ))1i,jp . On distinguera alors X la variable alatoire p-dimensionnelle, et X la matrice de e taille n p, o` le premier vecteur colonne correspond ` lchantillon des donnes u a e e relatives ` X 1 , etc... Attention ` la dimension des dirents objets. Il faudra a a e tre prudent dans les chapitres suivants pour bien dterminer si lon parle de e e variables ou des valeurs observes ce qui dtermine les dimensions et donc le e e sens des produits matriciels et vectoriels. Les variables X j ne sont accessibles que par les donnes de lchantillon, aussi e e allons nous travailler sur les estimations empiriques, comme les moyennes em1 piriques X j = n i=1,...n xj , et V la matrice de variance-covariance empirique i de V ar(X). Les moyenne et variance empiriques peuvent scrire matriciellement de la faon e c suivante. E[X] = (1/n, ..., 1/n) X = 1/n t 1n X de taille 1 p, et V = V ar(X) = t (X E[X]) D (X E[X]) D=1 n

23

avec D la matrice diagonale .. .1 n

.

V ar(X) = (Cov(Xi , Xj ))1i,jp est une matrice de taille p p avec pour diagonale les variances des Xj . Ces estimations peuvent galement scrire de la faon suivante : e e c j =< X j , 1n >D , X var[X j ] = ||X j X j ||2 , D V = Y .D.Y avec Y les donnes centres. e e Lquivalent de la proprit e ee V ar(a X) = a2 V ar(X) , avec X unidimensionnelle et a une constante est V ar(t a X) = t a V ar(X) a , avec a un vecteur colonne, V ar(X) la matrice de variance-covariance de X.

18

` CHAPTER 1. RAPPELS DALGEBRE LINEAIRE

1.41.4.1

Autres rappels divers et utilesTranspose e

Soit A = (aij )1i,jn une matrice carre de taille n t(A) correspond ` la transe a pose de la matrice A. Elle peut galement scrire A . e e e Soit galement B une matrice carre de taille n n. On a e et

(A B) =t A t B.

1.4.2

Trace

Soient A et B deux matrices carres de taille n. en

T r(A) =j=1

ajj .

Supposons de plus A diagonalisable et soient (i )i=1,...,n ses valeurs propres. On a alorsn

T r(A) =i=1

i .

24

La trace vrie les proprits suivantes : e ee T r( A) = T r(A) T r(A) = T r(A ) T r(A + B) = T r(A) + T r(B) T r(A.B) = T r(B.A) .

Cette derni`re galit reste vraie pour des matrices A et B de taille respective e e e n p et p n. Pour C une matrice de taille n p, on a aussin p

T r(CC ) = T r(C C) =i=1 j=1

c2 . ij

1.4.3

Dterminant e

Soient A et B des matrices carres de taille n. On a alors e det(A B) = det(B A) = det(A) det(B). Supposons A et (i )i=1,...,n sesdiagonalisable valeurs propres. On a alors det(A) = n i i=1

1.4. AUTRES RAPPELS DIVERS ET UTILES det(A) = n det(A) det(A) = n aii pour A triangulaire ou diagonale. i=1 Pour M matrice 2 2 telle que M= alors det(M ) = ad bc. Attention det(A + B) = det(A) + det(B) . a c b d ,

19

1.4.4

Inverse

Les matrices sont ici toutes supposes carres. e e 1 det(A)

det(A1 ) =

t(A1 ) = (t(A))1 (AB)1

25.

=B

1

A

1

Pour M matrice 2 2 telle que det(M ) = 0, on a a c b d1

=

1 ad bc

d b c a

.

1.4.5

Rang

Soit A la matrice associe ` une application de Rp dans Rn . e a rang(A) = dim(Im(A)) 0 rang(A) min(n, p) rang(A) = rang(A ) rang(A + B) rang(A) + rang(B) rang(AB) min(rang(A), rang(B)) rang(BAC) = rang(A) si det(A) et det(B) = 0 rang(A) = rang(AA ) = rang(A A)

20

` CHAPTER 1. RAPPELS DALGEBRE LINEAIRE

26

Chapter 2

LA.C.P., Analyse en Composantes Principales2.1 Introduction27

Lanalyse en composantes principales permet de dcrire les grands tableaux de e donnes de variables quantitatives. e On demande ` ce que le nombre dindividus soit plus important que celui des a variables, n > p. En gnral, le nombre dindividus n varie de plusieurs dizaines e e a ` quelques milliers, et le nombre de variables p de quelques units ` quelques e a dizaines.

2.1.1

Premi`res notations e

Notons n le nombre dindividus tudis et p celui des variables statistiques e e relles qui nous intressent et qui seront notes Y j (j = 1, ..., p). On suppose e e e les n individus aects des poids wi : e (i = 1, ..., n) (wi > 0) eti=1,...,n

wi = 1 .

Les direntes valeurs observes sont regroupes dans une matrice de taille np e e e que nous noterons X = (xj )1in ; 1jp . Chaque ligne de la matrice corresi pond aux direntes valeurs observes pour chaque variable pour un individu ; e e de mme, chaque colonne correspond aux valeurs prises pour tous les individus e pour une variable. 1 x1 . . . x p 1 . . . . X= . . . x1 n ... xp n On notera (X j )j=1,...,p les p variables et (Xi )i=1,...,n les n individus. On distinguera la matrice X, matrice des observations de taille n p, de la variable 21

22 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES p-dimensionnelle X =t (X 1 , ..., X p ) ` valeurs dans Rp . Les variables centres a e seront notes Y j avec e Y j = X j E[X j ]. n j e En notant xj = x /n la moyenne empirique de la variable X j sur lchani=1 i

tillon des n individus on aura pour matrice des donnes centres e e 1 1 . . . xj xj . . . xp xp x1 x 1 1 j . . . . . . . Y= = xi xj . . . 1in;1jp 1 1 . . . xj xj . . . xp xp x xn n n

Autre remarque portant sur le type des variables Lanalyse en composantes principales (ACP) portent sur des donnes dont les e p variables tudies sont quantitatives. Si pour chaque individu on tudie deux e e e variables toutes deux qualitatives, loutil utilis sera lAnalyse Factorielle des e Correspondances (AFC). Et si les variables sont plus de deux et toute qualitatives, se sera lAnalyse Factorielle des Correspondances Multiples (AFCM).

2.1.2

Applications

Durant tout ce chapitre, la technique danalyse en composantes principales sera illustre par deux exemples. Le premier, Les notes de partiels, est un exeme ple dcole qui nous permettra deectuer les dirents calculs ` chaque tape e e a e sans passer un temps trop important aux calculs : X est de taille n p = 5 3. Lautre exemple correspond aux moyennes sur 10 ans des tempratures e moyennes mensuelles de 32 villes franaises, o` la matrice des donnes X est de c u e taille 3212. Nous neectuerons pas ` la main les calculs portant sur lexemple a des Tempratures tant donnes les dimensions de la matrice X mais nous e e e nous reporterons sur les sorties logiciels de SPSS et de Splus. Notes de partiels Voici cinq tudiants : Anne, Bill, Chlo, Dave et Eva dont leurs notes aux trois e e partiels sont respectivement (notation sur 5 !) Anne : 0, 1 et 0, Bill : 2, 0 et 2, Chlo : 0, 2 et 5, e Dave : 4, 2 et 4, Eva : 4, 5 et 4. Exercice 12 (Notes de partiels) Ecrire X puis centrer les donnes. En de e duire que 2 1 3 0 2 1 2 . Y = 2 0 2 0 1 2 3 1

28

2.2. PRINCIPE DE LACP

23

2.1.3

Objectif

On souhaite ici ` partir dun ensemble de valeurs trop nombreuses pour tre a e considres une ` une et/ou visualiser dans leur ensemble, prciser linformation ee a e principale contenue dans ces donnes, en dgager la signication statistique. e e

2.22.2.1

Principe de lACPApproche image de lACP : vache ou cheval ? e

Prenons un nuage de points dans lespace. On se ram`ne donc ` ltude dun e a e certain nombre dindividus et de trois variables. Si le nuage est tr`s compacte, e alors sa variance est petite, et il est alors dicile de distinguer des groupes, des individus qui se dtachent, ou une forme du nuage qui nous am`nerait ` mettre e e ae des hypoth`ses sur les relations entre les variables. A linverse, un nuage clat e e e nous permettra dy voir plus clair. Prenons par exemple un cheval que nous souhaitons photographier. On sintrese se au contour qui forme la bte. Chaque point de son contour est dsign par e e e ses coordonnes dans lespace ` trois dimensions (x, y, z). Sur la photo, les e a contours de lanimal devront tre rduit ` deux dimensions. La question est e e a : quelle prise de vue rendra le mieux compte de lanimal ? Choisir une prise de vue correspondra ` choisir un nouveau rep`re ` deux dimensions, suivant a e a que lon se placera devant, derri`re ou au-dessus de lanimal et dans quelle e direction lon va regarder, droit devant, un peu vers le haut (choix des axes du rep`re). Clairement, les choix ne sont pas quivalents. Photographier le cheval e e de derri`re (en ne connaissant que les contours) ne me permettra pas de savoir e sil sagit dun cheval ou bien dune vache ! Une photo de ct le permettra oe beaucoup mieux. Cest ce quillustre lannexe intitule A1 : Vache ou cheval. e

29

2.2.2

Maximiser la dispersion

Le principe de lanalyse en composantes principales va consister ` dterminer de a e nouvelles variables correspondant aux axes de notre nouveau rep`re, (C k )1kp . e Nous ne retiendrons quun nombre plus restreint car on souhaite se limiter ` a linformation susante et ` pouvoir la visualiser sur des graphiques. Construites a a ` partir des variables initiales, ces nouvelles variables devront scrire comme e combinaison linaire des variables tudies, les (X j )j=1,...,p , (comme dans tout e e e changement de rep`re) cest pour cette raison que lACP fait partie des outils e dit linaires. Les nouvelles variables devront galement porter le maximum e e dinformation contenue dans les donnes tudies, cest-`-dire avoir une variance e e e a la plus grande possible (les points doivent tre le plus disperss pour distinguer e e les formes !). Premi`re composante principale et thor`me fondammental e e e Commenons par chercher une premi`re combinaison des X j que lon notera c e C 1 . Soit le vecteur colonne a1 = t ((a1 )1 , ..., (a1 )p ) lment de Rp . On notera C ee

24 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES et a quand il ny aura pas ambiguit. On a e C=j=1,...,p

aj X j =t a X =t X a

avec X =t (X 1 , ..., X p ) la variable p-dimensionnelle. C est une variable unidimensionnelle. En fait, on travaille sur les variables centres cest-`-dire les e a Y j = X j E[X j ] , et on note Y = X E[X] , avec E[X] =t (E[X 1 ], ..., E[X p ]). On a donc C =t Y a =t (X E[X]) a , et on souhaite trouver le vecteur a qui maximise la variance de C. a = argmaxRp V ar(t Y ) .

30Remarque Centrer les variables ne change pas le probl`me car e V ar(Z + cste) = V ar(Z) . On sait que maximiser cette quantit admet une innit de solution aussi e e impose-t-on que les aj soient lis : on pose a vecteur norm, ||a||2 = 1, cest-`e e a dire j (aj )2 = 1. Notons C =t Y =t Y . Par dnition de la variance e V ar[C ] = V ar(t Y ) = V ar[t (X E[X]) ] . Or C =t (X E[X]) =t X t E[X], le premier terme tant une variable e unidimensionelle et le deuxi`me un rel. e e En utilisant la linarit de lesprance on obtient e e e E[C ] =t E[X] t E[X] = 0 .2 On en dduit que V ar[C ] = E[(C E[C ])2 ] = E[C ] qui est bien un lment e ee de R. Dveloppons le carr, e e

[t (X E[X]) ]2 = [t (X E[X]) ] [t (X E[X]) ]. On a tout aussi bien, t (X E[X]) tant rel e e

2.2. PRINCIPE DE LACP

25

[t (X E[X]) ]2

= [t (X E[X])] [t (X E[X])] = t (X E[X]) t (X E[X])

La variable t (X E[X]) tant unidimensionnelle, elle est gale ` sa transpose. e e a e On en dduit e E (t (X E[X]) )2 =t V ar(X) . La solution au probl`me de maximisation nous est donne par le thor`me suive e e e ant Thor`me 1 Soit V une matrice p p symtrique. Les vecteurs propres nore e e ms ak Rp qui maximisent ak V ak , sont les vecteurs propres associs ` la e e a plus grande valeur propre de V. Dmonstration : Remarque sur les dimensions, on a bien a V a qui est un e rel (matrice de taille 1 1). e a V a=k=1,...,p

ak l=1,...,p

Vkl al .

31

Soit i0 dans {1, ..., p}. a V a = (ai0 )2 .Vi0 i0 + ai0 .l=i0

Vi0 l .al + (k=i0

Vki0 .ak ).ai0 +k=i0 l=i0

ak .Vkl .al

Drivons par rapport ` ai0 , cela nous donne e a 2.ai0 .Vi0 i0 +l=i0

Vi0 l .al +k=i0

Vki0 .ak

de l`, en utilisant la symtrie de V a e 2.ai0 .Vi0 i0 + 2.l=i0

Vi0 l .al = 2.l=1,...,p

Vi0 l .al

Ainsi (a .V.a) = 2.V.a . a Dautre part, a .a =i=1,...,p

a2 do` en drivant par ai0 on obtient u e i (a a) = 2.ai0 ai0

et donc 2a pour la drivation par a. e

26 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES Il sagit donc doptimiser sous contrainte. Un moyen pour cela consiste ` utiliser a la mthode des multiplicateurs de Lagrange qui conduit ` direntier f (a) = e a e a .V.a .(a .a 1) et qui nous donne 2.V.a 2..a. On cherche donc a tel que 2.V.a 2..a = 0 a .a 1 = 0 ce qui implique a .V.a = et V.a = a. Do` le rsultat. u e En pratique, on travaillera avec une estimation de V ar(X), la matrice de variance covariance empirique que nous notons V . Dnition 5 Soit C 1 =t Y.a1 avec a1 un vecteur propre norm associ ` la plus e e ea grande valeur propre 1 de la matrice V ar(X) et Y la variable p-dimensionnelle. La variable C 1 est appele la premi`re composante principale. e e Le vecteur a1 de Rp est appel premier vecteur principal. e Proprit 5 On a E[C 1 ] = 0 et V ar(C 1 ) = 1 . e e Exercice 13 (Notes de partiels) 1. Dnir lespace des individus et celui des variables. (Quelles sont leur e dimension respective.) 2. Dnir les mtriques de chacun des espaces, que lon notera M pour e e lespace des individus et D pour celui des variables. 3. Donner X1 et dire ce quil reprsente. De mme pour X 3 . e e 4. Etablir la matrice V puis chercher ses valeurs propres et vecteurs propres associs que lon prendra soin de normer. e 5. En dduire la premi`re composante principale C 1 et calculer les valeurs e e prises par les individus pour cette nouvelle variable. 6. Vrier que E[C 1 ] = 0 et que V e ar[C 1 ] = 1 . Composantes et vecteurs principaux De la mme faon nous dnissons les autres C j qui vont dnir les autres axes e c e e dun nouveau rep`re. e C j = Y .aj , avec les aj vecteurs propres norms associs aux valeurs propres j de V ar(X). e e Les C j sont appels les deuxi`me, troisi`me, etc ... composantes principales et e e e de mme les aj les vecteurs principaux. e Dnition 6 Les C j en tant que vecteurs de lespace Rn sont galement appels e e e les vecteurs directeurs des facteurs principaux et les aj en tant que vecteurs de Rp sont aussi appels vecteurs directeurs des axes principaux. e Le sev de Rn engendr par (C 1 , ..., C k ) est appel espace factoriel. e e Le sev de Rp engendr par (a1 , ..., ak ) est appel espace principal. e e

32

2.3. CHOIX DE LA DIMENSION

27

Remarques Les j , aj , et C j ntant pas accessibles directement, ils seront estims par les e e valeurs propres j , les vecteurs propres aj associs ` j de V la matrice de e a variance-covariance empirique, et par C j =t Y aj . Matriciellement C j est j = Y aj avec Y la matrice des observations centres. calcule par C e e Quen est-il des proprits de ces estimateurs ? Retrouve-t-on les proprits des ee ee Cj ? An de simplier la notation et lcriture, nous nutiliserons plus lcriture des e e j j estimations (le chapeau) mais directement C , a , etc... ` la place de C j , aj , a etc... Questions 1. La dnition des C j rpond-elle ` notre besoin ? e e a 2. Quelle est la dimension de ces sev ? 3. Montrez que Cov(C j , C l ) = 0 pour j = . 4. Que se passe-t-il lorsque les valeurs propres sont multiples ? 5. Combien il y a-t-il de composantes principales en tout ? Notons que V = V ar(X) tant une matrice symtrique relle, elle est donc e e e diagonalisable. Exercice 14 (Notes de partiels) Dterminer les C j restant (j = 2 et 3), et e montrez les galits suivantes e e Eemp [C j ] = 0 V aremp [C j ] = j Covemp [C j , C l ] = 0 pour j = .

33

2.3

Choix de la dimension

Lobjectif tant de visualiser les donnes dans un rep`re qui le permette (deux e e e a ` trois dimensions, plus rarement quatre ou plus) nous nallons pas continuer ` a travailler avec les p nouvelles variables (C j )j=1,...,p mais seulement une partie dentre elles qui totalisent une partie susante de linformation. Evidemment, de part la dnition mme des C j les composantes choisies seront C 1 , C 2 , ..., C K e e et le choix revient en fait ` dterminer K, le nombre de composantes retenues. a e Nous devons obtenir le maximum dinertie (le maximum dinformation) avec le minimum de facteurs (rang minimum). La qualit des estimations de lACP e dpend du choix de K. e Pour rpondre ` cette question, il nexiste pas de mthode systmatique, mais e a e e de nombreux crit`res de choix sont proposs. Nous nous contenterons de trois e e dentre eux que lon appelle Pourcentage de la variance ou Part dinertie, R`gle du coude et R`gle de Kaiser. e e

28 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES

2.3.1

R`gle du coude e

Elle consiste ` reprsenter les valeurs propres en fonction de leur rang : cest-`a e a dire de mani`re dcroissante, 1 , 2 , . . . Ce diagramme est appel lboulis des e e e e valeurs propres ou encore le Scree-graph. La ligne brise reliant chacune e des valeurs est bien sr dcroissante. Il arrive que lon observe une cassure u e ou une rupture dans la pente qui devient nettement moins importante (plus horizontale). En gnral, dans un objectif de description des donnes (et de visualisation) on e e e dpasse rarement quatres facteurs slectionns, ceci pour un probl`me dintere e e e prtation. Dans un but de recodage ou de simple compression des donnes, on e e peut sautoriser un choix de dimension plus grand.

2.3.2

Pourcentage de la variance ou part dinertie

Linertie globale I du nuage de points (des individus) nous est donne par e I=i=1,...,n

wi ||Xi X||2 =i=1,...,n

M ||Xi X||2 ,

avec

M =

w1 .. 0 .

0 wn

.

34

Proprit 6 Linertie I est galement donne par e e e ep

I = T r(V ) =j=1

V ar(X j ) ,

avec V la matrice de variance-covariance des (xj ). i La qualit de la reprsentation retenue peut-tre mesure par le pourcentage de e e e e linertie explique : e K K k k = k=1 . pK = k=1 p I k=1 k On demande ` ce que pK soit suprieur ` une valeur seuil souvent xe ` 80%. a e a e a Exercice 15 (Notes de partiel) Calculer les pourcentages dinertie des troix axes. Commenter.

2.3.3

R`gle de Kaiser e

La r`gle de Kaiser consiste ` ne retenir que les axes dont le pourcentage de e a variance est suprieur ` p . En eet, il existe en tout p axes. Si tous avaient e a 1 la mme importance, linformation serait rpartie de mani`re uniforme. Ne e e e

2.4. REPRESENTATION DES VARIABLES

29

retenir que les axes de pourcentage dinertie suprieure ` p , cest conserver les e a 1 axes ayant plus dinformation quil nest attendu. On pourra se reporter ` lannexe A2 :Powerpoint de lACP pour les aventages a et inconvnients des trois mthodes proposes. e e e Cest souvent lensemble des crit`res qui sont utiliss plutt que lun dentre e e o eux, et il faut bien retenir le fait que ces crit`res ne sont en rien systmatiques. e e Prenons par exemple un axe portant 5% de variance et qui considr avec ee lensemble des axes prcdents totalisent 80%. Cet axe ne sera pris en compte e e que si on est capable de lui donner un sens et dinterprter les rsultats. e e

2.3.4

Exemples

Crimes aux Etats-Unis Cf. annexes A3 : Sorties SPSS Crimes aux USA. Cet exemple est tir du livre e de Jambu [3]. Budget de la France Cf. annexes A4 : Sorties SPSS Budget de la France. Les donnes sont extraites e du livre de Bouroche et Saporta [5]. Forsythia (cf. Travaux pratiques) La r`gle du coude nous indique de ne conserver que les deux premiers axes. Ils e totalisent ` eux deux 78% de la variabilit. Vouloir atteindre ici 80% na pas a e de sens ici, les 3 axes suivants tant tous de mme variance ` peu pr`s, lordre e e a e nest plus dailleurs vraiment assur, car il sagit destimations. e Voir les annexes A8 : TP ACP Forsythia pour visualiser les graphiques.

35

2.42.4.1

Reprsentation des variables eCercle des corrlations e(C 1 , ..., C p ).

Par construction, les Y j appartiennent au sev de Rn de base orthogonale

Nous allons dterminer les coordonnes des Y j dans cette nouvelle base. Nous e e avons matriciellement C j = Y.aj avec Y la matrice des observations centres, ou encore e Cj =k=1,...,p

aj .Y k . k

30 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES Nous souhaitons crire les Y j en fonction des C j et plus prcisment des C j qui e e e j correspondent aux C norms. e 1 Les C k tant centrs, nous avons avec dans le cas gnral D = n In e e e e ||C k ||2 = ||C k E[C k ]||2 = V ar[C k ] = k , D D aussi Ck . Ck = k

j j e La coordonne du vecteur Y j =t (y1 , ..., yn ) sur laxe dirig par C k nous est e donne (voir Chapitre 1) par e

< Y j , C k >D

= = =

< Y j , C k >D k Y j D Ck k Y j D Y.ak . k

Or, Y D Y = V aremp [Y ] = V aremp [X] = V . De plus ak est un vecteur propre de V associ ` k . On a donc ea Y .D.Y.ak = V.ak = k .ak . Le vecteur Y j .D.Y tant la j`me colonne de Y .D.Y, on en dduit que e e e < Y j , C k >D = (k ak )j eme Proprit 7 Nous avons lgalit suivante e e e e Yj =k=1,...,p elment e

36

= k .ak . j

< Y j , C k >D C k k ak .C k . jk=1,...,p

=

Les variables Y j peuvent donc tre reprsentes dans le nouveau rep`re ore e e e thonorm (C 1 , ..., C p ) du sev de Rn . e En fait, plutt que de reprsenter les Y j , on va travailler sur les variables rduites o e e e correspondantes Y j = Y j /||Y j ||Rn et ceci pour une raison bien prcise. En eet, nous avons dj` vu que ea ||Y j ||2 n R = ||Y j ||2 D = ||X j X j 1n ||2 D n j (Xi X j )2 i=1 = n = V aremp (X j ) .

2.4. REPRESENTATION DES VARIABLES Do` up

31

Yj

=k=1 p

< Y j , C k >D k .C ||Y j ||D .||C k ||D < X j X j .1n , C k 0 >D k .C ||Y j ||D .||C k ||D Cov(X j , C k ) k .C X j .C k r(X j , C k ).C k ,

=k=1 p

=k=1 p

=k=1

avec r(X j , C k ) le coecient corrlation des variables X j et C k . e Remarquons que de la Proprit 7 on tire, ee p k .ak j j Ck , Y = V ar(X j ) k=1 et que nous avons donc r(X , C ) =j k

k ak j V ar(X j )

37.

Proprit 8 La dcomposition des variables rduites dans la base des come e e e posantes rduites est ep

Yj =k=1

r(X j , C k ).C k .

Le graphique correspondant est appel la reprsentation des variables sur le cere e cle des corrlations et les coordonnes des variables sont toutes comprises entre e e 1 et 1. On a de plus,p

r(X j , C k )2 = 1 .k=1

(2.1)

Dmonstration : e On a dune part ||Y j ||2 = 1 et dautre part ||Y j ||2 = D D la derni`re galit de la proprit. e e e ee

p k=1

r(X j , C k )2 , do` u

Le cercle des corrlations va donc nous permettre de visualiser la corrlation des e e variables initiales avec les composantes principales ; on pourra donc, ` laide de a ce graphique, dterminer comment sont construites les composantes C k ` partir e a des X j et valuer la qualit de reprsentation de chaque X j dans le nouveau e e e rep`re choisi (espace de dimension plus petite). Cela fait lobjet des paragraphes e suivants.

32 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES

2.4.2

Qualit de reprsentation ou CO2 e e

Une variable X j aura une forte coordonne en valeur absolue sur le k-`me axe e e factoriel, si la corrlation de X j et C k est importante (cest-`-dire proche de 1 e a en valeur absolue). Gomtriquement, nous avons e e r(X j , C k ) = cosD (X j , C k ) . X j sera fortement reprsente sur le k-`me axe factoriel si le cosinus de langle e e e form par le vecteur X j et celui de C k est proche de 0. e Ainsi, une coordonne importante (proche de + ou 1) correspond ` une bonne e a qualit de reprsentation. e e Voir Annexe A5 : Projection sur le cercle de corrlation. e Le cercle des corrlations nous permet de visualiser comment a t construit e ee notre nouveau rep`re et quelles sont les variables dont une bonne partie de e linformation quelles contiennent a t retenue et celles qui au contraire ont t ee ee prises en compte que partiellement, voires ngliges. e e Etant donn le choix de reprsentation des variables, seules les variables dont e e lextrmit est proche du cercle unit seront bien reprsentes sur le plan 1-2 e e e e e (cf. 2.1). On devra donc se limiter ` linterprtation de ces variables. a e Exercice 16 (Notes de partiels) Caculer les coordonnes des variables dans e le cercle des corrlations. Faites le graphique correspondant. e Exercice 17 (Les tempratures) Retrouver en annexes A6 les rsultats nue e mriques correspondant aux cercles des corrlations. e e

38

2.4.3

Interprtation du cercle des corrlations suite et n e e

On a vu prcdemment que le cercle des corrlations permet donc de visualiser e e e les variables qui contribuent le plus aux facteurs. Il permet aussi dtudier les e corrlations entre les variables. e Deux vecteurs orthogonaux sur le cercle des corrlations correspondent ` e a deux variables non-corrles ; deux vecteurs dextrmits proches, ` des variables ee e e a fortement corrles entre elles et de faon positive ; deux vecteurs dont les ee c extrmits sont places symtriquement par rapport ` lorigine, ` des variables e e e e a a fortement corrles ngativement. Ces observations pourront tre retrouves sur ee e e e la matrice des corrlations empiriques. e Lorsque lon observe un groupe dextrmits, cest quil existe un ensemble e e de variables fortement corrles entre elles. Il existent donc une redondance ee dinformation dans les variables choisies initialement. On pourra ventuellement e se limiter ` utiliser une variable reprsentative pour chaque groupe. a e On appelle facteur taille, un facteur (ou composante) o` les corrlations u e de toutes les variables sont de mme signe. On appelle facteur forme, un e facteur o` les variables ayant des corrlations positives avec ce dernier sont u e

2.5. REPRESENTATION DES INDIVIDUS

33

opposes ` des variables ayant des corrlations ngatives avec ce facteur. (Voir e a e e lExercice 22) Voir annexe A7 . Exercice 18 (Reconstitution des X j : Notes de partiels) Calculer3

aj C j ,j=1

avec les C les vecteurs de R , et verier que vous retrouvez bien Y.

j

n

2.52.5.1

Reprsentation des individus eNouvelles coordonnes e

Les composantes principales forment de nouvelles variables qui donnent ` chaque a individu de nouvelles valeurs dans un espace de faible dimension (rarement plus de 4). On reprsente les individus dans les plans factoriels : 1-2, 1-3, etc... De e mme que pour la reprsentation des variables, il faut sassurer de la qualit de e e e reprsentation des individus avant de tirer des conclusions. e k Les coordonnes du i-`me individu sont donnes par les (Ci )k=1,...,K . e e e Dnition 7 On appelle contribution de lindividu i ` la composante C k , la e a quantit e k Ci . n.k Les individus ayant une forte contribution avec un axe sont donc ceux qui ont une forte coordonne sur cette axe : ce sont les points extrmes. Supprimer un e e individu isol et contribuant de mani`re importante ` un axe revient ` supprimer e e a a cet axe. Le nuage des points dans les plans factoriels peut ventuellement mettre en e vidence des groupes dindividus que lon peut tiqueter ` laide des interprtae e a e tions des dirents facteurs. e

39

2.5.2

Individus atypiques et supplmentaires e

LACP peut mettre en vidence des individus atypiques qui se dtachent du e e reste des individus. Dans ce cas lexistence de tels points parasite lanalyse en contribuant ` la cration daxes non reprsentatifs de lensemble des donnes a e e e : on saperoit que les autres individus sont alors placs proche de lorigine c e du rep`re. Il est ncessaire alors de recommencer lanalyse sans ces individus e e extrmes et de les projeter par la suite sur les plans factoriels de cette deuxi`me e e analyse. Exercice 19 (Notes de partiels) Considrons un 6-i`me l`ve dont les notes e e ee aux partiels sont X6 = (1, 1, 0). Dterminer les coordonnes de cet l`ve supe e ee plmentaire dans le nouveau rep`re des composantes principales. e e

34 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES

2.6

ACP gnralise du triplet (X, D, M ) e e e

Nous avons travaill jusque l` ` laide des mtriques M et D des espaces rese aa e pectifs des individus et des variables, inclus dans Rp et Rn , avec M = Ip et D = 1/n.In . Ce sont les mtriques les plus classiques. Cependant ce choix doit e tre adapt ` certaines situations. e ea

2.6.1

ACP centre-rduite e e

Il est frquent que les variables X j tudies soit de variance tr`s direntes. e e e e e Dans ce cas, la recherche de composantes de variance la plus leve correspondra e e souvent ` la variable dont la variance est la plus grande. a Pour palier ` ce probl`me, on va travailler sur les variables non plus centres, a e e mais centres-rduites qui sont alors toutes de variance gale ` 1. Cel` revient e e e a a en fait, ` travailler avec les variables centres et la mtrique M , diagonale avec a e e mjj = 1/V ar(X j ). Exercice 20 Montrez que rechercher les valeurs propres de V des variables centres-rduites, revient ` rechercher les vp de la matrice R de corrlation des e e a e variables centres mais non rduites. e e Exercice 21 Montrez que dans le cas dACP centre-rduite, la somme des vp e e est gales ` p. e a Au del` des probl`mes de variances tr`s htrog`nes, le probl`me des units de a e e ee e e e mesures peut galement tre rsolu avec lutilisation dune ACP rduite. e e e e

40

2.6.2

ACP - cas gnral e e

Dans le cas gnral de lACP du triplet (X, D, M ), on diagonalise la matrice e e Y DY M et pour ak les vecteurs propres M -orthonorms, les composantes prine cipales sont dtermines par C k = Y M ak . e e Pour la reprsentation des variables, reprenons les calculs eectus dans le cas e e j j de lACP classique. La coordonne du vecteur Y j =t (y1 , ..., yn ) sur laxe dirig e e par C k nous est donne (voir Chapitre 1) par e < Y j , C k >D = = = < Y j , C k >D ||C k ||D Y j D Ck ||C k ||D Y j D YM ak . ||C k ||D

Or, ak est un vecteur propre de Y DY M associ ` k . On a donc ea Y .D.Y.M.ak = k .ak

2.7. EXERCICES et < Y j , C k >D = Or on a toujours ||C k ||2 = k . En eet, D ||C k ||2 D = C k DC k =t (ak )M Y DY M ak =t (ak )M (Y DY M )ak = t (ak )M k ak = k (t (ak )M ak ) = k (ak M ak ) = k ||ak ||M = k

35

k .ak j . ||C k ||D

Les coordonnes des variables dans le rep`re des composantes principales C k e e sont donnes par les lignes de SA avec S = diag( 1 , ..., p ) et A la matrice e dont les colonnes sont constitues des vecteurs ak . e Rsum e e ACP (X, D, M ) : on diagonalise Y DY M A et S ; les individus sont reprsents ` laide de Y M A, e e a les variables ` laide de AS. a

41

2.7

Exercices

Exercice 22 (ACP rduite et matrice de corrlation) On consid`re une e e e population quipondre de n individus sur lesquels on a relev p mensurations e e e e X 1 , ..., X p formant le tableau X ` n lignes et p colonnes. On supposera ce a tableau centr. Soit j lcart type de la variable X j ; D la matrice diagonale e e 1 diag(1 , ..., p ). Soit Z = XD le tableau des donnes centres rduites. On e e e note VX (resp. VZ ) la matrice de variance covariance relative aux donnes X e (resp. Z). 1. Montrez que VZ = D1/ VX D1/ = R avec R la matrice de corrlation de e X. 2. Montrez lquivalence suivante : v vecteur propre associ ` la valeur propre e ea pour la matrice VZ si et seulement si D1/ v est vecteur propre associ e ` pour la matrice D1/2 VX . a 3. On choisit comme mtrique de Rp la matrice D1/2 . En utilisant ce qui e prc`de, montrer que les deux ACP e e ACP (X, sont quivalentes. e 1 In , D1/2 ) n et ACP (Z, 1 In , Ip ) n

36 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES 4. On suppose de plus que tous les lments non diagonaux de R sont gaux ee e ` . Montrez que VZ admet un vecteur propre colinaire ` le vecteur a e a de Rp dont tous les lments sont gaux ` 1. En dduire que la premi`re ee e a e e composante principale dans lACP du tableau des donnes X est donne e e par 1 C 1 = (Z 1 + ... + Z p ). p 5. Que peut-on dire sur la deuxi`me valeur propre et sur lespace propre ase soci ? e 6. On suppose maintenant que = 1. Que peut-on dire des n individus ? Exercice 23 (Rezzouk, MIM2 juin 98) On consid`re une population de n e individus quipondrs sur lesquels on a mesur p variables numriques, formant e e e e e le tableau X ` n lignes et p colonnes. Soit V = (vij )1in,1jp la matrice de a covariance des donnes. e On suppose que, a tant un rel donn, V est tel que e e ep

ij=1

vij = a.

1. (a) Montrer que le vecteur de Rp dont toutes les coordonnes sont gales e e ` 1 est vecteur propre de V associ a la valeur propre a. a e` (b) On fait une ACP sur X, la mtrique sur Rp tant la mtrique Ip . e e e Exprimer la composante principale associe ` la valeur propre a en e a fonction des vecteurs colonnes de X que lon notera (xj )j=1,...,p . 2. On suppose maintenant que V scrive sous la forme suivante e axy x y x axy y y y a 2y avec a > 0, 0 < y < x et a x y x. (a) Dans le cadre de lACP cite prcdemment, dterminer les deux e e e e premi`res valeurs propres. e (b) Dterminer le facteur associ ` la deuxi`me plus grande valeur proe ea e pre. Quelle est la part dinertie explique par laxe 2 ? e (c) A quoi est gale linertie du nuage des individus par rapport au plan e engendr par les deux premiers axes factoriels ? e Exercice 24 (Petits calculs - partiel septembre 2006) Soit 3 individus prenant pour les variables X 1 , X 2 et X 3 les valeurs respectives suivantes Individu 1: (3, 5, 0) Individu 2: Individu 3: (5, 4, 6) (1, 3, 3).

42

2.7. EXERCICES 1. Dterminer les donnes centres que lon notera Y . (0,5 point) e e e

37

2. Calculer V la matrice de variance covariance (non corrige). (1 point) e 3. Montrer que 21 est valeur propre de la matrice V = 3V avec pour vecteur propre associ u = (4, 1, 9) . (1,5 points) e 4. En dduire les inerties et les vecteurs principaux de lACP non rduite des e e donnes. (2 points) e 5. Donner les coordonnes du premier individu sur les deux premi`res come e posantes. (2 points) Exercice 25 (Partiel juin 2000) (Source Louis Ferr) e On consid`re le tableau de donnes suivant e e X1 X = X2 X3 X4 X1 5 1 5 1 X2 X3 2 2 1 1 2 2 1 1

1. Calculer le tableau Y des donnes centres. e e 2. Calculer la matrice de variance-covariance V . 3. Eectuer lACP centre du tableau X. e 4. Reprsenter le scree-graph. e 5. Calculer les pourcentages dinertie cumuls. e 6. Dterminer les composantes principales. e 7. Dterminer le nombre daxes ` retenir. e a 8. Reprsenter les individus dans le premier plan principal. e 9. Calculer la contribution des individus aux axes. 10. Reprsenter les variables sur le cercle des corrlations. e e 11. Interprter le graphique des variables. e 12. Interprter la reprsentation des individus. e e 13. Calculer la matrice des corrlations de X. e 14. Eectuer lACP centre rduite de X. e e 15. Reprsenter le scree-graph. e 16. Prciser le nombre daxes ` retenir. e a

43

38 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES 17. Dterminer les composantes principales. e 18. Reprsenter les variables et les individus. e 19. Interprter les rsultats et comparer les avec ceux de lACP simplement e e centre. e 20. Donner la reconstitution de lindividu X2 , ` partir de lACP centr rduite. a e e

44

Chapter 3

Analyse Factorielle des CorrespondancesNous avons vu au Chapitre 2 comment dcrire des donnes numriques de faon e e e c multidimensionnelle. Lobjet de ce chapitre concerne des variables non plus quantitatives mais qualitatives. Nous nous limiterons dans ce chapitre au cas de deux variables, que lon notera X 1 et X 2 , ayant chacune un nombre respectif de modalits gal ` n1 et n2 . e e a Exemple 1 Prenons par exemple un ensemble dtudiants et tudions la cate e e gorie socioprofessionnelle (CSP) du p`re (X 1 ) et le type dtudes eectues par e e e ltudiant (X 2 ). La variable CSP ayant pour modalits : Exploitant agricole, e e Salari agricole, Patron, Profession librale et cadre suprieur, Cadre moyen, e e e Employ, Ouvrier, Personnel de service, Autres, n1 = 9. e La variable Etudes quant ` elle, prend pour modalits : Droit, Sciences conoa e e miques, Lettres, Sciences, Mdecine et dentaire, Pharmacie, Pluridisciplinaire, e IUT, do` n2 = 8. u Les questions naturelles qui viennent ` lesprit et qui motivent ce genre dtude a e sont les suivantes : La catgorie socioprofessionnelle du p`re, inuence-t-elle sur le choix e e dtude des enfants ? e Ou encore, les tudiants de li`res Lettres par exemple se distine e guent-ils par la CSP de leur p`re ? e Nous allons commencer dans la Section 3.1 par un certain nombre de vocabulaire et outils usuels permettant dtudier deux variables qualitatives. Le principe de e lAFC est abord dans la Section 3.2. Nous interprterons les rsultats de lAFC e e e dans la Section 3.3. Des exemples sont proposs dans la Section 3.4. e 39

45

40 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

3.13.1.1

Prliminaires eQuelques dnitions e

Table de contingence - marges Les donnes obtenues lors de ltude dune population ` laide de deux varie e a ables qualitatives sont reprsentes sous la forme dun tableau ` n1 lignes et n2 e e a colonnes (ou inversement), chaque ligne correspondant ` une modalit dune des a e deux variables et chaque colonne ` une modalit de lautre variable. Chaque a e case (i, j) de ce tableau comporte le nombre dindividus possdant la modalit e e i pour la premi`re variable et j pour la seconde : e T = (nij )1in1 ;1jn2 . La table de contingence de notre exemple des catgories socioprofessionnelles e est fournie en annexe A16 :CSP table de contingence. Les nij sont appels les e eectifs dits conjoints.

Remarque Les tables de contingence sont le rsultat de ce quappellent les praticiens des e enqutes, les tris croiss. e e La somme des eectifs des lignes et des colonnes, notes respectivement n.j et e ni. sont appeles les marges en colonnes et les marges en lignes. Elles sont e reprsentes dans le tableau ci-dessus dans Total. Nous avons e e ni. =i j

46

n.j = n,

avec n la taille de la population tudie. e e On note galement e fij = nij n f.j = n.j n et fi. = ni. , n

les frquences conjointes et frquences marginales. e e Prols lignes et colonnes Les marges associes aux lignes tant ramenes ` 100, on appelle tableau des e e e a prols-lignes, P L, le tableau correspondant aux frquences conditionnelles e (P L)ij = nij /ni. = fij /fi. , et de mme pour le tableau des prols colonnes, P C, e (P C)ij = nij /n.j = fij /f.j .

3.1. PRELIMINAIRES On notera P Li le i-`me prol ligne (la i-`me ligne de P L) e e P Li = (ni1 /ni. , . . . , nin2 /ni. ) = (fi1 /fi. , . . . , fin2 /fi. ), et P Cj le j-`me prol colonne (la j-`me colonne de P C) e e P Cj = (n1j /n.j , . . . , nn1 j /n.j ) = (f1j /f.j , . . . , fn1 j /f.j ).

41

Exercice 26 (Ecriture maricielle 1) En notant F = T /n, la matrice des frquences conjointes et D1 et D2 les matrices diagonales suivantes de taille e respective n1 n1 et n2 n2 f1. f.1 .. .. D1 = et D2 = . . fn1 . montrer que lon a1 1 P L = D1 F et P C = D2 F

f.n2

o` rappelons-le, F correspond ` la transpose de F . u a e Lanalyse du tableau des prols lignes permet de rpondre ` la question : quelles e a tudes poursuivent les enfants dont le p`re ` telle ou telle catgorie de profession. e e a e Alors que le tableau des prols colonnes permet de rpondre ` la question : e a quelles sont les origines sociales des tudiants de telle ou telle li`re. e e Exercice 27 (Partis Politiques) Calculer les eectifs marginaux des variables PARTIS et NATION dont la table de contingence est la suivante avec en colonne les trois partis politiques et en ligne les cinq pays. 5 11 8 23 29 7 23 13 15 . 4 2 0 13 11 2 Dterminer les prols lignes et colonnes. e Les rsultats des calculs sont disponibles dans lannexe A17 Sorties SPSS AFC e Partipolitiques.

47

3.1.2

AFC et indpendance e

Lorsque que la connaissance dune variable ne change pas les distributions conditionnelles de lautre variable, on parle dindpendance entre ces deux variables. e Notons x1 la i-`me modalit de la premi`re variable et x2 la j-`me modalit de e e e e e i j la seconde variable. P [X 1 = x1 i et X 2 = x2 j ] = P [X 1 = x1 i ] P [X 2 = x2 j ]

42 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES que lon peut aussi crire e pij = pi qj , avec pij la loi conjointe du couple que lon peut estimer par p = nij /n ij et pi = P [X 1 = x1 ] et qj = P [X 2 = x2 ] que lon peut estimer par i j pi = ni. /n et qj = n.j /n. Sous lhypoth`se dindpendance on sattend donc ` avoir e e a nij ni. n.j = n n n soit nij = ni. n.j . n

Dans le cas de lindpendance tous les prols lignes et colonnes sont identiques. e On a (dmonstration laisser en exercice) tous les prols lignes gaux au prol e e ligne suivant n.n2 n.1 , ..., ) = (f.1 , ..., f.n2 ) ( n n et tous les prols colonnes gaux ` e a ( n1. nn . , ..., 1 ) = (f1. , ..., fn1 . ) n n

48

que lon appellera respectivement le prol ligne et le prol colonne dindpende ance. Prol dcart ` lindpendance e a e On dnit la distance du Khi-deux entre deux prols lignes e P Li = (fi1 /fi. , . . . , fin2 /fi. ) et P Li = (fi 1 /fi . , . . . , fi n2 /fi . ) de la faon suivante cn2

d2 2 (i, i ) = j=1

1 f.j

fij fi j fi. fi .

2

.

Noter le fait que d2 2 (P Li , P Li ) = d2 1 (P Li , P Li ) D2

avec la matrice D2 dnie dans lExercice 26. e De mani`re similaire pour les prols colonnes en1

d2 2 (P Cj , P Cj )

=i=1

1 fi.

fij fij f.j f.j

2

3.1. PRELIMINAIRES et lon a d2 2 (P Cj , P Cj ) = d2 1 (P Cj , P Cj ). D1

43

Le prol ligne dindpendance correspond aux prols lignes, tous identiques, de e la matrice des eectifs non pas observs (les nij galement nots nth ), mais dits e e e thoriques ou attendus sous lindpendance et que lon notera n ou ntheo . On e e ij ij a ni. n.j . n = ij n Exercice 28 (Prol ligne dindpendance) e Montrer que le prol ligne dindpendance est le vecteur P L = (f.1 , . . . , f.n2 ). e De mme, le prol colonne dindpendance correspond aux prols colonnes, e e tous identiques, de la matrice des eectifs attendus sous lindpendance. On a e P C = (f1. , . . . , fn1 . ). Reprsenter les distances du Khi-deux des dirents prols au prol dinde e e pendance respectif permet une premi`re analyse des correspondances entre les e deux variables. Exercice 29 (Partis politiques) Cacluler le prol ligne dindpendance pour e les donnes Partis politiques. Calculer la distance du Khi-deux entre le pree mier prol ligne et celui dindpendance. Faite de mme pour chaque prol ligne e e puis pour les colonnes. Test du Khi-deux dindpendance e Dnition 8 On appelle mesure du Khi-deux la valeur suivante : e 2 =i j

49

(nobs nth )2 , nth

avec nobs et nth les eectifs observs et thoriques pour chaque couple de modae e lits (i, j). e Leectif thorique, sous lhypoth`se dindpendance, tant ici gale ` e e e e e a obtient n n (nij i.n .j )2 2 = . ni. n.ji j n ni. n.j n ,

on

Dans le cas de lindpendance, on a 2 = 0 et lon peut montrer que e 2 n. min{n1 1, n2 1}. Exercice 30 (2 et distance entre prols) Des dnitions prcdentes du e e e 2 et des distances du 2 entre prols-lignes et de mme pour les prols colonnes, e dduire que en1 n2

2 =i=1

d2 1 (P Li , P L ) = Dn2

d2 1 (P Cj , P C ). Dj=1n1

44 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES Il existe bien dautres mesures de dpendance comme le taux de Goodman ou e de Kruskal que nous naborderons pas ici. On montre que la mesure d2 est une ralisation dune variable alatoire D2 qui e e suit de faon approximative une loi du Khi-deux ` (n1 1).(n2 1) degrs de c a e libert. Cette loi est tr`s connue et tabule (cf. annexe A10 Table du Khie e e deux). Sous lhypoth`se dindpendance, le d2 est une ralisation dune loi du Khi-deux. e e e Si la valeur observe (ou calcule ` partir des observations) dpasse une valeur e e a e seuil, on rejettera lhypoth`se dindpendance. Noter que le test dindpendance e e e du Khi-deux ncessite que tous les eectifs thoriques soient suprieurs ou gaux e e e e a ` 5. Dans le cas contraire, on est parfois obliger de regrouper des modalits e quand cela a un sens, ou sinon de limiter ltude aux individus des modalits e e susamment reprsentes. e e Exemple 2 (Catgories Socioprofessionnelles CSP) Dans cet exemple, le e degr de libert est gal ` (9 1).(8 1) cest-`-dire 56. Le calcul de lcart ` e e e a a e a lindpendance donne d2 = 474, 7. Pour un seuil de 1% on obtient une valeur e critique de 83,5 pour une loi de 2 . On observe donc une valeur du Khi-deux 56 exceptionellement grande par rapport ` ce qui est attendu ; on remet donc en a cause notre hypoth`se de dpart. e e Ainsi, ltude nous permet de mettre en vidence une dpendance entre les deux e e e variables : il existe donc une liaison entre les tudes et lorigine socioprofese sionnelle des tudiants. Il va sagir maintenant de dterminer quelles sont ces e e liaisons : cest le rle de lAFC. o Exercice 31 (Partis Politiques) Calculer les eectifs conjoints des variables PARTIS et NATION dans le cas de lindpendance. En dduire la valeur e e du Khi-deux correspondant puis tester au seuil de 1% lindpendance des deux e variables. Comparer aux sorties logicielles et commenter. Les donnes sont e galement disponibles dans le chier Partipolitiques.sav. Les sorties logicielles e sont fournies en annexe A1 5.

50

3.23.2.1

LAFCPrincipe

On a vu que lide consiste ` tudier la dirence entre lobservation du coue a e e ple (X 1 , X 2 ) et donc de la loi conjointe et ce qui devait tre dans le cas de e lindpendance, cest-`-dire e a pij = pi qj . Dans le cas o` lindpendance nest pas vrie il existe donc des interactions u e e e entre les direntes modalits des variables. Posons le mod`le suivant, o` les e e e u interactions sont supposes multiplicatives, et o` on les supposera ordonnes e u e

3.2. LAFC suivant des eets dgressifs eK

45

pij = pi qj +k=1

sk uik vjk .

En posant s0 = 1, ui0 = pi et vj0 = qj on obtientK

pij =k=0

sk uik vjk ,

(3.1)

avec s0 = 1 s1 s2 ... sK . On note dautre part P , la matrice des probabilits conjointes e P = (pij )1in1 ,1jn2

et D1 et D2 les matrices diagonales respectives D1 = diag(p1 , ..., pn1 ) et D2 = diag(q1 , ..., qn2 ). Proprit 9 Pour tout k = 1, ..., K, uk = (u1k , ..., un1 k ) est le vecteur propre e e 1 1 D1 1 -norm associ ` la valeur propre s2 de la matrice P D2 P D1 . e ea k Dmonstration : e Posons les contraintes suivantesn1

i=1

1 k uik uik = k pi

n2

511 k vjk vjk = k , qj

etj=1

qui correspondent ` supposer les vecteurs propres norms et orthogonaux suivant a e 1 la mtrique D1 . Soit vk = (v1k , ..., vn1 k ) et soit S = diag(s1 , ..., sK ). Notons e U la matrice dont les colonnes correspondent aux vecteurs uk et de mme V e pour les vk . Le mod`le donn en (3.1) correspond ` crire e e ae P = U SV . On en dduit e1 1 1 1 P D2 P D1 = (U SV )D2 (V SU )D1 . 1 En utilisant les contraintes ci-dessus V D2 V = I, de l` a 1 1 1 P D2 P D1 = U S 2 U D1 .

A nouveau, les contraintes nous permettent dcrire e1 U D1 uk = (1k , ..., Kk ) .

On en dduit eK 1 1 (P D2 P D1 )uk = j=1

jk s2 uj = s2 uk j k

CQFD.

De mani`re similaire on montre que vk est vecteur propre de la matrice e1 1 P D1 P D2 .

46 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES LAFC une double ACP LAFC est donc une double ACP gnralise non centre qui ont en commun le e e e e nombre daxes et les valeurs propres :1 1 ACP(X = P , D = D2 , M = D1 ), 1 1 ACP(X = P, D = D1 , M = D2 ).

Mais on peut aussi voir lACP comme la double ACP suivante1 ACP(X = P L, D = D1 , M = D2 ), 1 ACP(X = P C, D = D2 , M = D1 )

qui ont galement leur valeurs propres en commun. e Estimation En pratique la matrice P des probabilits conjointes est estime par e e F = P = T /n la matrice des frquences conjointes avec T la table de contingence. Les parae m`tres du mod`le sk , uk et vk sont estims en eectuant les ACP non centres e e e e 1 1 1 1 de (F , D = D2 , M = D1 ) et de (F, D = D1 , M = D2 ). Exercice 32 Montrer que la double ACP des prols permet bien de retrouver le mod`le F = U S V . e

52

3.2.2

Reprsentations graphiques e

1 1 Dans lACP (F, D = D1 , M = D2 ) les modalits de la variable X 1 correspone 1 dent aux individus et elles sont donc reprsentes ` laide de F D2 V (cf. les e e a composantes principales C = Y M A en ACP) alors que les modalits de la varie able X 2 (les variables de lACP) sont reprsentes par V S (cf. dcomposition e e e des variables dans le rep`re des C k dans lACP). e En fait, on prf`re travailler avec les prols plutt que les lignes ou les colonnes. ee o 1 1 Cela revient donc ` reprsenter les prols lignes par les lignes de D1 F D2 V a e 1 et les prols colonnes par D2 V S.

On remarquera lors de ltude dexemples en travaux pratiques quen plus de e partager les valeurs propres, les reprsentations graphiques des deux ACP sont e identiques. (Vous pouvez par exemple eectuer un petit programme sous le logiciel gratuit R pour vous en convaincre.) Les prols lignes sont reprsents par les lignes de e e1 1 = D1 F D2 V

(3.2)

3.3. INTERPRETATION DES RESULTATS DUNE AFC et les prols colonnes par les lignes de1 = D2 V S.

47

(3.3)

Notons i la coordonne du i-`me prol ligne sur le -`me axe et j celle du e e e j-`me prol colonne sur le -`me axe. Les formules prcdentes nous donnent e e e en2

i =t=1

fit vt fi. f.t

1 i n1

etn1

j =t=1

ftj ut ft. f.j

1 j n2 .

Des galits (3.2) et (3.3), on dduit les formules suivantes dites formules de e e e transition ou encore formules quasi-barycentriques. Proprit 10 (Formules de transition) e e1 = D1 F S 1 1 = D2 F S 1 .

53

Ce qui correspond ` a ik =2 fit 1 tk sk t=1 fi.

n

et

jk =

1 ftj 1 tk . sk t=1 f.j

n

Ces formules nous indiquent que sur un axe, les projections des points repre sentatifs dun nuage sont ` une dilatation pr`s les centres de gravit des proa e e jections des points de lautre nuage. Cest ce qui justie la reprsentation e simultane des deux nuages de points sur le mme graphique utilise par la e e e plupart des logiciels. Dautre part, on dduit la reprsentation barycentrique ` laide de et S ou e e a S et .

3.3

Interprtation des rsultats dune AFC e e

Comme le dit Jambu dans son livre [3], il nexiste pas une interprtation unique e des rsultats en analyse des donnes. Il parle mme de parall`le entre analyse e e e e des donnes et mdecine. e e Interprter cest donner un sens aux axes et dterminer les singue e larits de lanalyse. e

48 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

3.3.1

Choix de la dimension

Choisir la valeur K revient ` choisir la dimension retenue de la double ACP. a Remarquons bien que les deux ACP ont mmes valeurs propres et donc un e scree graph commun. Notons quici le pourcentage dexplication na pas de sens puisquil ny a pas de variables mais des prols lignes et des prols colonnes. Rappellons que les valeurs propres s2 correspondent ` des param`tres du a e k mod`le et que ces derniers sont ordonns et tous infrieurs ` 1. Si la premi`re e e e a e valeur propre est tr`s proche de 0 alors toutes les autres le seront galement. e e Ainsi lcriture du mod`le nous montre que lon est alors proche de lindpene e e dance ; eectuer une AFC na que peu dintrt dans ce cas. ee La r`gle du coude, conjugue ` lanalyse des valeurs propres, nous permettra de e e a retenir la dimension du mod`le. e

3.3.2

Qualit et contribution e

La qualit de reprsentation svalue ` laide des cosinus carrs appels galee e e a e e e ment contributions relatives. On a cos2 (i) = k 2 ki 2 l li cos2 (j) = k2 kj 2 . l lj

54

Les modalits qui contribuent le plus : e Ctrk (i) = fi. 2 ik k Ctrk (j) =2 f.j jk . k

3.3.3

Interprtation du diagramme simultan e e

Le diagramme simultan utilise la distance du Khi-deux. En eet on e montre que < P Li ; P Li >D1 = d2 (P Li , P Li ).1

Deux prols lignes (resp. colonnes) similaires auront donc une reprsentae tion proche lun de lautre. Mais attention, linverse nest vrai que si les modalits sont bien reprsentes dans le plan factoriel retenu. Il est e e e donc important de vrier la qualit de reprsentation ` laide des cosinus e e e a carrs. e Plus les prols scartent de lindpendance et plus leur reprsentation e e e sera loin de lorigine. Les modalits qui contribuent le plus aux axes sont celles qui ont de fortes e coordonnes sur ces axes. e Proximit angulaire cas de deux modalits, une pour chaque variable: les e e modalits auront une liaison forte si leur reprsentation est proche ; elles e e seront proche de lindpendance si leurs reprsentations forment un angle e e droit (sous la condition dune bonne qualit de reprsentation). e e

3.4. ETUDES DE CAS On retiendra les points suivants.

49

On priviligiera les modalits susamment loignes du centre du graphie e e que (attention aux modalits ` faible eectif, cf. ci-dessous). e a Une association entre modalits de deux variables direntes est mise en e e vidence par la proximit de leur reprsentation. e e e Une association entre deux modalits dune mme variable met en vidence e e e le fait que les individus ayant choisi lune ou lautre de ces modalits ont e rpondu de mani`re homog`ne aux autres variables. e e e

3.43.4.1

Etudes de casExemple Dpots de Brevets e

Vous trouverez dans le rpertoire Tpstat le chier Brevets.sav correspone dant au tableau de contingence simple qui comptabilise le nombre de brevets dposs, suivant le pays (9 pays dirents) et lanne (de 1980 ` 1986) (Source e e e e a : Exploration informatique et statistique des donnes de M. Jambu). Voir e annexe A11 Brevets les donnes. e On sinterroge sur lhomognit de lvolution du nombre de brevets et lexistene e e e ce dannes charni`res permettant de distinguer les dpots de brevets suivant e e e les pays. On va donc eectuer une AFC du tableau des eectifs croiss. Mais avant cela, e prenons connaissance des donnes en eectuant dirents graphiques reprsene e e tant les eectifs suivant les pays ou bien les annes et/ou les prols correspone dants. (Eectuez ces graphiques ` laide SPSS, ainsi que lAFC.) a Les graphiques attendus sont en annexe A12 Brevets les graphiques. Les rsultats de lAFC sont en annexe A13 Brevets lAFC. e Diagramme des valeurs propres Clairement, lboulis des valeurs propres nous indique quun seul axe rsume la e e plus grande part de linformation. Nous retiendrons donc deux axes (il serait dommage de nous limiter ` un seul axe) et interprterons des graphiques ` deux a e a dimensions. Diagramme des lignes et des colonnes En se rfrant ` la fois aux tableaux des contributions et de la qualit de ee a e reprsentation ainsi quau graphique de reprsentation des colonnes, on sapere e oit que les annes 80, 81 et 85 et 86 (les annes extrmes) contribuent fortement c e e e a ` laxe 1 et y sont tr`s bien reprsentes. Le premier axe reprsente (cf. les e e e e coordonnes des annes sur cet axe) lvolution moyenne du nombre de brevets e e e dposs de 80 ` 86. e e a

55

50 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES Pour le second axe : ce sont les annes 84 ainsi que 82 et 83 qui contribuent e le plus (les annes centrales). Rappelons le fait que le deuxi`me axe naura pas e e la mme importance que le premier tant associ ` une valeur propre nettement e e ea plus faible que le premier. Cependant, il sera intressant de comprendre en quoi e lanne 84 se distingue des autres annes. e e Le deuxi`me axe est plus dicile ` expliciter, il conviendra de se reporter e a sur les graphiques des eectifs par anne. e Les USA, les Pays-Bas et la Su`de y sont mal reprsents. Le Japon e e e (coordonnes ngatives) est le pays qui a augment le plus de 81 ` 86, alors que e e e a la Suisse non (reportez-vous au graphique des eectifs par pays). On peut noter aussi que la RFA a peu progress malgr son nombre important de brevets. e e Le deuxi`me axe : Attention ` la Su`de qui est tr`s mal reprsente sur le e a e e e e plan 1-2, ainsi que les Pays-Bas. Ceux sont les USA qui contribuent le plus ` a cet axe de faon positive et la RFA de faon ngative. c c e An de mieux comprendre le rle de lanne 1984, reportez-vous aux graphiques o e du dbut danalyse. Si laxe 1 permet de distinguer les pays ayant le plus volu e e e de 81 ` 86, laxe 2 semble opposer les annes 84 et 82. Comparez le graphique a e dvolution de 82 ` 84 des nombres de brevets dposs de la RFA et des USA. e a e e USA : on remarque un ralentissement de laccroisement. RFA : on observe une brusque augmentation. Laxe 2 permet de mettre en vidence lanne 84 en tant quanne de rupture e e e permettant de sparer les pays ayant un lan supplmentaire dans lvolution e e e e du nombre des brevets des pays ralisant un ralentissement. e Rsum e e On distingue donc les pays ayant une forte augmentation globale de 81 ` 86 par a rapport ` lvolution moyenne : Japon, Italie, puis USA, Pays-Bas et Su`de, des a e e pays ne variant peu, comme la suisse puis la France, Grande-Bretagne et RFA. Et dautre part, on distingue les pays subissant un ralentissement de croissance en 84, Su`de, Pays-Bas, USA, ... de ceux ralisant une acclration comme la e e ee RFA ou le Japon.

56

3.4.2

Exemple Catgories Socioprofessionnelles e

Vous trouverez en annexes A14 CSP cart ` lindpendance et A15 CSP e a e reprsentation simultanne les sorties logicielles relatives ` lAFC des Catgoe e a e ries Socioprofessionnelles. Les donnes ainsi que les graphiques ont t tirs des e ee e documents de formation de lINRA. Le lien entre la reprsentation des prols lignes et colonnes avec les prols des e carts ` lindpendance respectifs est mis en vidence et permet de bien come a e e prendre linterprtation eectue. e e

3.5. EXERCICES

51

3.5

Exercices

Exercice 33 LAFC peut tre vu comme lACP du tableau des indices de lie aisons Y avec fij Yij = fi. f.j avec les mtriques D = diag(fi. ) = D1 et M = diag(f.j ) = D2 . e 1. Montrez que 1 est valeur propre associ au vecteur propre t (1, ..., 1). e 2. Retrouvez ces lments dans lcriture du mod`le de lAFC. ee e e Exercice 34 (Prols moyens et prols dindpendance) Soit e T = (nij )1iI,1jJ

une table de contingence. On note n leectif total, ni. et n.j les eectifs marginaux. 1. Ecrire le i-`me prol ligne ` laide des nij et des eectifs marginaux. e a 2. Quel est le poids associ au i-`me prol ? e e 3. Dterminer le prol ligne moyen en prenant bien en compte quil sagit e dune moyenne pondre. e e 4. Rappeler quels sont les eectifs thoriques dindpendance et en dduire e e e les marges. 5. Quel est le i-`me prol relatif ` la table de contingence des eectifs thorie a e ques ? 6. Conclure. 7. Eectuer de mme pour les colonnes. e1 Exercice 35 On consid`re lACP des prols lignes avec M = DJ et D = DI . e Montrez que lACP des prols lignes est quivalente ` lACP des prols colonnes e a (on dit quil y a dualit entre les deux analyses), les facteurs principaux dune e e analyse sont ` pr`s les composantes principales de lautres et les valeurs a propres tant les mmes. e e

57

Exercice 36 Montrez que lanalyse factorielle des correspondances pour X 1 et X 2 revient a chercher les valeurs propres et les vecteurs propres du produit des ` deux tableaux de prols associs au tableau disjonctif X = (X 1 |X 2 ) dni dans e e la Section 4.1.1.

52 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

58

Chapter 4

AFC MultipleLAFCM est une gnralisation de lAFC simple o` les individus sont care e u actriss par plus de deux caract`res qualitatifs. On souhaite ici tudier les e e e e liaisons existantes entre direntes variables qualitatives. Lanalyse factorielle e des correspondances multiples est donc particuli`rement adapte ` ltude des e e a e rsultats denqutes possdant des questions ` rponses multiples. e e e a e Notez que les variables quantitatives peuvent tre regroupes en classes et tre e e e prises en compte dans une AFCM. Cette mthode permet deectuer une ACP e que lon qualie de non linaire. e Comme pour le cas de lAFC, lAFCM peut tre vue de mani`res direntes : en e e e tant quAFC du tableau de Burt, o` bien lAFC du tableau disjonctif complet, u ce que nous verrons plus loin. Bien sr, les rsultats dune AFCM eectue sur des donnes ne comportant que u e e e deux variables qualitatives seront quivalents ` ceux de lAFC simple. Notez e a cependant que lAFCM permet de conserver la notion dindividus, comme dans lACP, ce que ne permet pas lAFC simple.

59

4.1

Codages, dnitions e

Les variables qualitatives peuvent tre codes de direntes faons. Soit e e e c X k Ek = {x1k , ..., xmk k } une variable qualitative et (xik )i=1,...,mk ses mk modalits. Le codage linaire e e consiste ` aecter une valeur prise dans lensemble {1, ..., mk } ` chaque modalit. a a e Exemple 3 Pour chaque individu on rel`ve, un crit`re de soin dans lhabile e lement (peu de soin, normal, beaucoup de soin), le sexe, la zone dindice de 53

54 masse corporelle (infrieure, conseille, e e 1 2 2 1 2 2 3 2 3 1

CHAPTER 4. AFC MULTIPLE suprieure). e 3 1 2 . 1 2

Ici p = 3 variables et n = 5 individus. Le nombre de modalits respectivement e est m1 = 3, m2 = 2 et m3 = 3.

4.1.1

Codage disjonctif et tableau de Burt

Le codage disjonctif complet ou binaire consiste ` associer mk indicatrices ` a a chacune des variables X k = (1(x1k ) , ..., 1(xmk k ) ) , avec 1(xik ) (x) = 1 si x prend pour modalit xik et 0 sinon. On obtient ainsi e un tableau que lon notera X ayant n lignes correspondant aux n individus et p m = k=1 mk colonnes avec p le nombre de variables qualitatives. Exemple 4 Dans notre exemple ci-dessus, le tableau disjonctif complet aura une taille de 3 + 2 + 3 = 8 colonnes pour 5 lignes individus. 1 0 0 0 ... 0 1 0 1 ... X = (X1 |X2 |X3 ) = 0 1 0 0 . . . . 0 0 1 0 ... 0 0 1 1 ... Proprit 11 e e La somme des lments de chaque ligne de X est gale ` ee e a p, le nombre de variables. La somme des lments dune colonne de X donne leectif marginal de ee la modalit correspondante. e La somme des colonnes de X relative ` une mme variable est gale au a e e vecteur colonne 1. Le rang de X est donc gale ` e ap

60

mi p + 1 = m p + 1 .k=1

Soit njk le nombre dindividus ayant pris la j-`me modalit de la k-`me variable. e e e Tous les individus ayant rpondu on a alors emk

k = 1, ..., pj=1 n

njk = n .

jk Soit pjk = n le poids correspondant. Soit Dk la matrice diagonale des poids pjk et D la matrice dnie par blocs ` laide des Dk . e a

4.1. CODAGES, DEFINITIONS Exemple 5 (Suite) 1 0 1 D1 = 0 2 5 0 0 et On a n = 5, p = 3. 0 1 2 0 D2 = 0 5 2 D 1 1 0 5 0 0 D2 0 0 1 0 = 5 D3

55

0 3

2 1 D3 = 0 5 0

0 2 0

0 0 1

1 0 0 0 2 0 0 0 2 2 0 0 3 2 0 0 0 2 0

D=

, 0 0 1

avec 0 pour les cases vides. Dnition 9 La matrice B dnie par B = X .X est une super table de e e contingence contenant toutes les tables de contingence que lon peut obtenir en croisant les variables deux par deux. La matrice B est appele tableau de Burt. e Elle est symtrique. e Exemple 6 Dans notre exemple prcdent, e e 1 0 0 0 1 0 2 0 1 1 0 0 2 1 1 2 0 B= 0 3 Les cases vides se dduisant par symtrie. e e Proprit 12 Les lments diagonaux de D sont ceux de B diviss par n. On e e ee e en dduit donc que e T r(D1 B) = m n , ce qui nous sera utile par la suite. nous avons 0 0 1 1 1 0 1 1 0 1 1 0 . 1 1 1 2 0 0 0 2 0 0 0 1

61

4.1.2

Rapport de corrlation e

On a vu dans le chapitre prcdent comment tudier la relation entre deux e e e variables qualitatives ` laide du test du Khi-deux et de lAFC. a Lorsque nous avons tudi les variables quantitatives, le coecient de corre e e lation linaire nous permettait de mesurer le degr de liaison linaire entre deux e e e variables numriques. e

56

CHAPTER 4. AFC MULTIPLE

On dnit le rapport de corrlation qui permet de mesurer le degr de liaison e e e entre variables qualitatives ou bien mixtes, ainsi que le degr de liaison non e linaire entre variables quantitatives. e Dnition 10 (Rapport de corrlation) Soit X et Y deux variables. On e e dnit le rapport de corrlation de Y en X par e e2 Y /X =

V ar(E[Y /X]) . V ar(Y )

Il correspond au cosinus carr de langle form par Y E[Y ] et L2 (voir chapitre e e X des rappels pour la dnition). e On se rapportera au chapitre sur les rappels pour lesprance et la variance e conditionnelle. Un exemple dapplication numrique est dvelopp dans le livre e e e de Saporta (Chapitre 3). Proprit 13 e e2 1. 0 Y /X 1.

2 2. Y /X = 1 si Y est lie fonctionnellement ` X e a

Y = (X) .2 e 3. Si Y /X = 0, alors il y a absence de dpendance en moyenne

62

E[Y |X] = cste .

ps

4.2

Principe de lAFCM

Lobjectif de lAFCM va consituer ` trouver une variable quantitative rduite, a e note C 1 , qui soit une combinaison linaire des X k (codes et donc quantitatives) e e e la plus proche des X k . La proximit de cette variable sera value ` laide du rapport de corrlation. e e e a e On cherche donc a1 dans Rn , tel que C 1 = X.a1 etp

2 (C 1 , X j )k=1

soit