acp tutoriel

of 49 /49
www.deenov.com Alain Morineau Page 1 DeeNov Préambule ................................................................................................................... 2 INTRODUCTION ................................................................................................................. 2 BREF HISTORIQUE DE L’ACP ............................................................................................ 4 DOMAINE D'APPLICATION ................................................................................................. 5 INTERPRETATIONS GEOMETRIQUES ................................................................................... 6 a - Pour les n individus .............................................................................................. 6 b - Pour les p variables ............................................................................................... 7 c - Notion d’éléments actifs et illustratifs ................................................................... 7 ANALYSE DU NUAGE DES INDIVIDUS ................................................................................. 9 a - Comment voir les distances entre individus ? ....................................................... 9 b - Comment trouver les plans de projection ............................................................ 10 c - Principe de l'ajustement....................................................................................... 11 d - Distance entre individus ...................................................................................... 13 e - Matrice à diagonaliser......................................................................................... 14 f - Composantes Principales ..................................................................................... 15 PROJECTIONS DES VARIABLES ........................................................................................ 17 a - Nature de la projection ........................................................................................ 17 b - Facteur de taille .................................................................................................. 20 c - Les matrices implicites des distances .................................................................. 20 INDIVIDUS ET VARIABLES SUPPLEMENTAIRES ................................................................. 21 a - Individus supplémentaires ................................................................................... 22 b - Contribution d’un individu à la fabrication d’un axe .......................................... 22 c - Qualité du positionnement d’un point .................................................................. 23 d - Notion de représentation simultanée en ACP ...................................................... 25 e - Détails sur la représentation simultanée ............................................................. 25 f - Variables continues supplémentaires ................................................................... 28 g - Variables nominales supplémentaires ................................................................. 30 LA CARACTERISATION STATISTIQUE PAR LES VALEURS-TEST ......................................... 33 a - Principe ............................................................................................................... 33 b - La valeur-test pour la caractérisation des modalités .......................................... 34 c - La valeur-test pour la caractérisation des axes ................................................... 36 d - Les valeurs-tests et le Data mining. ..................................................................... 37 ACP NON NORMEE .......................................................................................................... 40 Retenir l’essentiel ..................................................................................................... 42 RELATIONS ENTRE LES AJUSTEMENTS DES 2 NUAGES ..................................................... 43 RECONSTITUTION APPROCHEE. COMBIEN DAXES RETENIR ?.......................................... 45 GLOSSAIRE SUCCINCT ..................................................................................................... 47 QUELQUES REFERENCES ................................................................................................. 49

Author: komlanihou890233161

Post on 16-Feb-2015

56 views

Category:

Documents


0 download

Embed Size (px)

TRANSCRIPT

www.deenov.com Alain Morineau Page 1 DeeNov Prambule ................................................................................................................... 2 INTRODUCTION ................................................................................................................. 2 BREF HISTORIQUE DE LACP ............................................................................................ 4 DOMAINE D'APPLICATION ................................................................................................. 5 INTERPRETATIONS GEOMETRIQUES ................................................................................... 6 a - Pour les n individus .............................................................................................. 6 b - Pour les p variables ............................................................................................... 7 c - Notion dlments actifs et illustratifs ................................................................... 7 ANALYSE DU NUAGE DES INDIVIDUS ................................................................................. 9 a - Comment voir les distances entre individus ? ....................................................... 9 b - Comment trouver les plans de projection ............................................................ 10 c - Principe de l'ajustement ....................................................................................... 11 d - Distance entre individus ...................................................................................... 13 e - Matrice diagonaliser......................................................................................... 14 f - Composantes Principales ..................................................................................... 15 PROJECTIONS DES VARIABLES ........................................................................................ 17 a - Nature de la projection ........................................................................................ 17 b - Facteur de taille .................................................................................................. 20 c - Les matrices implicites des distances .................................................................. 20 INDIVIDUS ET VARIABLES SUPPLEMENTAIRES ................................................................. 21 a - Individus supplmentaires ................................................................................... 22 b - Contribution dun individu la fabrication dun axe .......................................... 22 c - Qualit du positionnement dun point .................................................................. 23 d - Notion de reprsentation simultane en ACP ...................................................... 25 e - Dtails sur la reprsentation simultane ............................................................. 25 f - Variables continues supplmentaires ................................................................... 28 g - Variables nominales supplmentaires ................................................................. 30 LA CARACTERISATION STATISTIQUE PAR LES VALEURS-TEST ......................................... 33 a - Principe ............................................................................................................... 33 b - La valeur-test pour la caractrisation des modalits .......................................... 34 c - La valeur-test pour la caractrisation des axes ................................................... 36 d - Les valeurs-tests et le Data mining. ..................................................................... 37 ACP NON NORMEE .......................................................................................................... 40 Retenir lessentiel ..................................................................................................... 42 RELATIONS ENTRE LES AJUSTEMENTS DES 2 NUAGES ..................................................... 43 RECONSTITUTION APPROCHEE. COMBIEN DAXES RETENIR ? .......................................... 45 GLOSSAIRE SUCCINCT ..................................................................................................... 47 QUELQUES REFERENCES ................................................................................................. 49 www.deenov.com Alain Morineau Page 2 DeeNov Prambule Ce document, tlchargeable sur le site www.deenov.com, illustre les diffrents aspects de lanalyse en composantes principales, ses fondements, ses caractristiques techniques et pratiques, ses domaines dapplication et ses rgles dinterprtation. Il constitue aussi une introduction lutilisation de la mthode et comporte les principaux dveloppements techniques. En complment, on pourra se procurer, la page Formation du site www.deenov.com, un support de formation cette technique. Ce support inclut plus de 100 diapositives animes, rparties en plusieurs chapitres et largement commentes de vive voix. La formation en question sappuie sur une prsentation visuelle accompagne dun commentaire audio complet. Le texte peut tre visualis en mme temps que les commentaires des diapos seront couts. Lutilisateur navigue librement entre les chapitres, les rcoute volont et fait les pauses qui lui conviennent. Introduction Le contexte Lanalyse en composantes principales, souvent note ACP, fait partie des techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du Data mining tel quil est mis en uvre par exemple dans le logiciel SPAD dont nous avons dirig le dveloppement jusquen 2004. Ces techniques dexploration sont excutes dans le cadre d'enchanements de procdures complmentaires de visualisation et de synthse utilises pour dmler la complexit et la redondance des donnes brutes et faire merger des informations caches dans les donnes. L'opration de l'Analyse de Composantes Principales consiste passer dun tableau des donnes brutes, contenant toute l'information recueillie sur le phnomne que nous souhaitons tudier, certaines reprsentations visuelles des donnes. Cette opration entranera une certaine perte "d'information" que lon essaie de minimiser. En change, on obtient un gain en "signification", en particulier grce aux reprsentations graphiques. Autrement dit, on passe du "magma" des donnes dorigine des graphiques interprtables par l'utilisateur. Pour l'interprtation, il est important d'avoir un minimum de connaissances sur le fonctionnement de l'ACP et la naturevdes rsultats qu'elle produit. On trouvera une prsentation dtaille des mthodes dans les ouvrages cits en bibliographie : "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Donnes Statistiques" (Lebart, Morineau, Piron, 1995, 2006). L'ouvrage "Multivariate Descriptive Statistical Analysis" (Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des exemples d'application et incluant la description des techniques. www.deenov.com Alain Morineau Page 3 DeeNov Les techniques multidimensionnelles Le dveloppement de ces techniques procde de l'effet conjugu de plusieurs facteurs : la possibilit de traiter des tableaux de donnes complexes et de grandes tailles, le regain d'intrt suscit par de tels tableaux, la possibilit dexcuter des algorithmes complexes et le dsir de s'affranchir dhypothses techniques de commodit souvent irralistes. Schmatiquement, ces techniques comprennent deux familles de mthodes: les mthodes faisant appel l'algbre linaire, dsignes en France sous le nom de mthodes factorielles, et les techniques de classification automatique. A. Morineau A. Morineau 3 3 DeeNov DeeNov, 2005 , 2005F1F2Visualisationdans le "meilleur"espace rduitClassification(dans l'espace complet)Prsentationinvisible dans l'espacecompletAna. factorielles et Classifications Les techniques factorielles Il est toujours possible de calculer des distances entre lignes et entre colonnes d'un tableau rectangulaire de valeurs numriques. Ces distances peuvent s'interprter en termes de corrlations ou de similarits. En revanche, il n'est pas possible de visualiser ces distances de faon exacte: il est ncessaire de procder des transformations ou des approximations pour en obtenir une reprsentation plane. C'est l'une des tches dvolues l'analyse factorielle : oprer une rduction de dimension de certaines reprsentations "multidimensionnelles". A. Morineau A. Morineau 4 4 DeeNov DeeNov, 2005 , 2005Visualisation Visualisation et Ana. de et Ana. de donn donn es es Eclairage Eclairage d d un un objet objet 3D et 3D et sa sa visualisation visualisation sur sur des des plans de projection plans de projection Certaines Certaines projections projections apportent apportent plus plus d d information information que qued d autres autres La La cl cl de de l l anayse anaysefactorielle factorielle est est dans dans le le choix choix des des meilleures meilleures projections projections www.deenov.com Alain Morineau Page 4 DeeNov Les techniques factorielles reposent toutes sur une proprit mathmatique des tableaux rectangulaires : la dcomposition aux valeurs singulires (dcomposition due Eckart et Young). Cette proprit qui concernera le tableau de donnes lui-mme, et non pas seulement la matrice de corrlation ou un tableau de distances construit partir des donnes, a ceci de remarquable qu'elle implique de faon similaire les lignes et les colonnes du tableau, et donc en gnral les individus (lignes) et les variables (colonnes). Cette "restitution des individus la statistique", essentiellement due Jean-Paul Benzcri, induit une attitude nouvelle vis--vis des traitements statistiques des donnes multidimentionnelles. Bref historique de lACP Conue par Karl Pearson en 1901, intgre la statistique mathmatique par Harold Hotelling en 1933, l'analyse en composantes principales (ACP) n'est vraiment utilise que depuis la large diffusion des moyens de calcul informatique. La technique d'analyse en composantes principales peut tre prsente de divers points de vue. Pour le statisticien classique, il s'agit de la recherche des axes principaux de l'ellipsode d'une distribution normale multidimensionnelle, ces axes tant estims partir d'un chantillon. C'est la prsentation initiale de Hotelling (l933), puis celle des manuels classiques d'analyse multivarie. Pour le factorialiste classique, il s'agit d'un cas particulier de la mthode d'analyse factorielle des psychomtriciens (cas de variances spcifiques nulles ou gales). Enfin, du point de vue plus rcent des analystes de donnes, il s'agit d'une technique de reprsentation des donnes, ayant un caractre optimal selon certains critres algbriques et gomtriques, et que l'on utilise en gnral sans rfrence des hypothses de nature statistique ni un modle particulier. Ce point de vue, fort rpandu actuellement est peut-tre le plus ancien. C'est celui qui avait t adopt par Pearson (1901). Bien entendu, il ne s'agissait pas de l'analyse en composantes principales telle que nous la prsentons, mais les ides essentielles de la mthode taient dj prsentes par cet auteur. L'analyse en composantes principales prsente de nombreuses variantes selon les transformations apportes au tableau de donnes : le nuage des points-individus peut tre centr ou non, rduit ou non. Parmi ces variantes, l'analyse en composantes principales norme (nuage centr-rduit) est certainement la plus utilise et c'est celle-ci que nous choisissons pour prsenter les principes de l'analyse. www.deenov.com Alain Morineau Page 5 DeeNov Domaine d'application L'utilisateur de l'analyse en composantes principales se trouve dans la situation suivante : il possde un tableau rectangulaire de mesures, dont les colonnes figurent des variables valeurs numriques continues (des mensurations, des taux, etc.) et dont les lignes reprsentent les individus sur lesquels ces variables sont observes. D'une manire gnrale, la condition que doivent remplir ces tableaux numriques pour tre l'objet d'une description par l'analyse en composantes principales est la suivante : l'une au moins des dimensions du tableau (les lignes en gnral) est forme d'units ayant un caractre rptitif, l'autre pouvant tre ventuellement plus htrogne. Les lignes (qui ont ce caractre rptitif) sont dsignes en gnral sous le nom d'individus ou d'observations, les colonnes tant dsignes sous le nom de variables. A titre desemple, nous considrons le tableau X des mesures prises sur quelques milliers dindividus actifs concernant leurs temps d'activits quotidiennes. On dispose par exemple de 16 variables dcrivant des temps d'activit, en minutes par jour (sommeil, repos, repas chez soi, etc.). A. Morineau A. Morineau 1 1 DeeNov DeeNov, 2005 , 2005Tableau des donn Tableau des donn es esIndividusstatistiques(centaines, milliers)continuesnominales ordinalestextuellesetc. ...Variables(dizaines, centaines)X(n,p) Le tableau X aura donc en colonne les mesures caractrisant ces observations. Le terme gnral xij de ce tableau dcrit la dure de l'activit j de lindividu i. Lobjectif est de donner une ide de la structure de l'ensemble des 16 activits, ainsi que des similitudes ventuelles de comportement entre les groupes d'individus. www.deenov.com Alain Morineau Page 6 DeeNov Interprtations gomtriques Les reprsentations gomtriques entre les lignes et entre les colonnes du tableau de donnes permettent de visualiser les proximits entre les individus et entre les variables. A. Morineau A. Morineau 11 11 DeeNov DeeNov, 2005 , 2005Principe g Principe g om om trique de l trique de l ACP ACPX(n,p)RnLiaisons entre variablesRpRessemblance entre individusii'j j' a - Pour les n individus Dans l'espace p coordonnes o se trouvent les individus, les n(n-1) distances attaches aux couples de points individus ont une interprtation directe pour l'utilisateur : 2 2'1( , ) ( )pij i jjd i i x x=' = Il s'agit ici de la distance euclidienne classique. Deux points sont trs voisins si, dans l'ensemble, leurs p coordonnes sont trs proches. Les deux individus concerns sont alors caractriss par des valeurs presque gales pour chaque variable. Dans l'exemple voqu ci-dessus, deux individus reprsents par des points proches consacrent les mmes temps aux mmes activits. A. Morineau A. Morineau 12 12 DeeNov DeeNov, 2005 , 2005Similitude entre individus Similitude entre individus La La meilleure meilleure image approch image approch e du nuage en e du nuage en projection sur une droite H : respecter au mieux les projection sur une droite H : respecter au mieux les inter inter- -distances entre tous les couples distances entre tous les couples Nuage de npointsindividusdans Rp ( ) ( )22'1, 'pij i jjd i i x x== (H)( )2', 'H Hi iMax d i i ` ) www.deenov.com Alain Morineau Page 7 DeeNov b - Pour les p variables Si les valeurs prises par deux variables particulires sont trs voisines pour tous les individus, ces variables seront reprsentes par deux points trs proches dans lespace n coordonnes o elles se trouvent. Cela peut vouloir dire que ces variables mesurent une mme chose ou encore qu'elles sont lies par une relation particulire. Toutefois la dfinition de ces proximits dans les deux espaces est assez fruste. Des problmes d'chelle de mesure se posent d'emble : par exemple, le temps consacr au sommeil est toujours beaucoup plus important que le temps pass la lecture. A. Morineau A. Morineau 13 13 DeeNov DeeNov, 2005 , 2005Liaisons entre les variables Liaisons entre les variables Une variable est d Une variable est d finie par les n valeurs qu finie par les n valeurs qu elle elle prend sur les individus prend sur les individus Les variables sont centr Les variables sont centr es r es r duites duitesOn a donc pour la variable On a donc pour la variable j j : : C C est l est l quation d quation d une sph une sph re de rayon 1 : les re de rayon 1 : les vecteurs variables sont donc des points sur la vecteurs variables sont donc des points sur la surface d surface d une sph une sph re dans re dans n nn2 21i 1( , ) 1i nd O j x== = Par ailleurs, dans un cadre plus gnral, comment calculer la distance entre deux variables si l'une est exprime en centimtre et l'autre en kilogramme? Comment interprter un loignement moyen dans Rp? Est-ce que deux individus assez proches dans Rp ont des valeurs assez voisines pour chacune des variables, ou au contraire trs proches pour certaines et loignes pour d'autres? L'analyse en composantes principales norme permet de donner des lments de rponses ces questions. c - Notion dlments actifs et illustratifs Le tableau de donnes contient une assez grande quantit de variables, ce qui est une caractristique habituelle des tudes appliques. En fait les variables peuvent se regrouper selon des thmes. Si lanalyse cherche comparer des villes en fonction des caractristiques de leur population, on trouvera une srie de variables relatives aux dpenses sur diffrents postes (vtement, loyer, vhicule, services, etc.) dont lensemble doit concourrir www.deenov.com Alain Morineau Page 8 DeeNov donner une ide de la chert de la vie. D'autres variables informent sur le niveau des salaires, rpartis selon 12 professions. Enfin, d'autres variables donnent plutt une ide du mode de vie, comme les congs pays, les jours de travail, etc. Pour comparer les villes entre elles, il est certes possible de prendre en compte toutes les variables disponibles. Cela conduira ici comparer les villes en tenant compte simultanment du niveau des prix, des salaires, des impts, des heures ncessaires pour acqurir un hamburger, etc. Les diffrences observes entre les villes sont alors difficiles interprter car elles peuvent avoir des causes multiples et de nature trs diffrentes. Il est plus raisonnable de slectionner un groupe de variables, ce groupe tant homogne par rapport un thme bien dfini, et cohrent avec l'objectif propre de l'tude. Un thme, cest--dire un groupe de variables, dfinit un certain point de vue choisi par lutilisateur pour comparer les individus (ici les villes). Ce faisant, l'interprtation des proximits entre lments sera plus facile interprter. Les variables choisies, appeles variables actives, constituent donc les seuls lments utiliss pour comparer les lments entre eux. Cela ne signifie pas que le reste de l'information soit abandonn: il servira ensuite illustrer ou peut-tre suggrer des explications pour les similitudes et diffrences observes entre les lments. C'est pour cela que lon appelle illustratives ou supplmentaires les autres variables. Toute analyse statistique commence donc par le choix des lments actifs. p=40n=51VariablesVariables activesVariables illustrativesVilles Choix du thme actif et des variables illustratives Dans ce qui suit on sintresse aux lments actifs seuls. Les lments illustratifs sont introduits plus tard. www.deenov.com Alain Morineau Page 9 DeeNov Analyse du nuage des individus Nous considrons tout d'abord le nuage des n individus (non pondrs ou pondrs suivant les ncessits de lanalyse). Nous voulons, dans l'espace des variables, ajuster le nuage de n points par un sous-espace une, puis deux dimensions, de faon obtenir sur un graphique une reprsentation visuelle la plus fidle possible des proximits existant entre les n individus vis--vis des p variables. a - Comment voir les distances entre individus ? Situ dans un espace de dimension leve, le nuage des points-lignes (comme celui des points-colonnes) nest pas visible. Lessentiel de lanalyse en composantes principales rside dans la recherche dun plan (appel premier plan factoriel) sur lequel on projette le nuage de telle sorte que la configuration des points projets sur ce plan soit aussi semblable que possible la configuration relle des points dans lespace complet. Nous y parviendrons en rendant globalement les distances entre les points projets sur ce plan aussi proches que possible des distances relles entre les points de l'espace d'origine. Considrons par exemple le nuage des n points-individus dans lespace o chaque axe reprsente une variable d'origine. La figure schmatise la situation dans le cas de 3 variables seulement. ii'var3ii'Espace d'origineEspace factoriel (plan de projection)var2var1F2F1dX(i,i') dF(i,i') Reprsentation du nuage des points- lignes dans le premier plan factoriel Il s'agit de trouver le plan tel que, globalement, lensemble des dF(i, i' ) mesurs dans le plan pour tous les couples de points, se rapproche autant que possible des distances relles dX(i, i' ) mesures dans l'espace d'origine. www.deenov.com Alain Morineau Page 10 DeeNov b - Comment trouver les plans de projection Lobjectif est de choisir le sous-espace de dimension rduite qui fournisse le maximum d'information sur la configuration du nuage d'origine. Quel plan choisir ? Quel critre d'ajustement entre les distances relles et les distances projetes peut-on utiliser pour dterminer le plan de projection? On cherche le plan qui maximise la dispersion (ltalement) des points projets: Max d i iH Hi i2( , ' )' formule o H reprsente le sous-espace de projection. On peut montrer que la somme des carrs des distances entre tous les couples de points est gale la somme des carrs des distances au centre de gravit (multiplie par 2n). Pour la recherche du maximum, on a : Max d i i Max n d i GH H H Hi i i2 22 ( , ' ) ( , )' = Ainsi, maximiser la somme des distances projetes revient maximiser la dispersion autour du centre de gravit dans le plan de projection. La formule, qui nest autre que lexpression du thorme de Pythagore, dcompose la dispersion du nuage (une quantite fixe), en deux termes: la dispersion dans le plan de projection et un terme complmentaire qui est la somme des distances des points au plan de projection (voir la figure). GiHiHd(i,G)d i GH( , )d i GH( , ) Dcomposition de la distance d'un point- ligne au centre de gravit du nuage. Ainsi, le plan de projection qui assure la dispersion maximale des points est aussi le plan qui passe au plus prs du nuage (au sens du critre des moindres carrs). www.deenov.com Alain Morineau Page 11 DeeNov Cest ce quexprime lgalit : d i G d i G d i GiHiHi2 2 2( , ) ( , ) ( , ) = + Par consquent : Max d i G Min d i GHiHi2 2 ( , ) ( , ) c - Principe de l'ajustement On va chercher rendre maximum la somme des carrs des distances entre tous les couples d'individus : Max(H )dH2(i, i' )i'nin ` ) La droite d'ajustement H1 que lon cherche doit passer au plus prs du nuage de points sans tre astreinte passer par l'origine. espace RpO H0H1 Droite d'ajustement du nuage de n points individus Si hi et hi' dsignent les valeurs des projections de deux points-individus i et i' sur H1, on a la relation classique : d2(i, i' )i ,i'n = (hi hi')2i,i'n = n hi2i ,i'n + n hi'2i,i'n 2 hiinhi'i'n= 2n2(1nhi2inh 2) = 2n (hi inh )2 H1id(i,i' )d (i,i')H1hi hi'i'O Projections sur H1 www.deenov.com Alain Morineau Page 12 DeeNov o h dsigne la moyenne des projections des n individus : h =1nhiin et correspond la projection sur H1 du centre de gravit G du nuage dont la jme coordonne vaut : r j =1nrijin Par consquent, on a : d2(i, i' )i ,i'n = 2n d2in(i,G) A. Morineau A. Morineau 7 7 DeeNov DeeNov, 2005 , 2005Xxiuyyi= xiuxiyiu0FAnalyse G Analyse G n n rale : probl rale : probl me mey = XuMaximiser {uXXu}avec uu = 1 Rendre maximum la somme des carrs des distances entre tous les couples d'individus revient maximiser la somme des carrs des distances entre les points et le centre de gravit du nuage G : Max( H )dH2(i, i' )i , ' i n ` ) est quivalent : Max( H)dH2(i, G)in ` ) Si l'origine est prise en G, la quantit maximiser sera nouveau la somme des carrs des distances l'origine. Le sous-espace cherch rsulte de l'analyse gnrale du tableau transform X, de terme gnral (donnes brutes notes r) : xij = rij r j www.deenov.com Alain Morineau Page 13 DeeNov A. Morineau A. Morineau 5 5 DeeNov DeeNov, 2005 , 2005Meilleur plan de projection Meilleur plan de projectionxyzNuageMeilleur plan A. Morineau A. Morineau 6 6 DeeNov DeeNov, 2005 , 2005Axes factoriels Axes factorielsFacteur n1Facteur n2 d - Distance entre individus La distance entre deux individus i et i' est la distance euclidienne usuelle. Il peut exister des valeurs de j pour lesquelles les variables correspondantes sont d'chelles trs diverses, (exemple : temps pass au sommeil, temps pass la lecture) ; on veut que la distance entre deux points soit indpendante des units sur les variables. Par ailleurs, on peut dsirer, surtout lorsque les units de mesures ne sont pas les mmes, faire jouer chaque variable un rle identique dans la dfinition des proximits entre individus : on parle alors d'analyse en composantes principales norme. Pour cela on corrige les chelles en adoptant la distance : d2(i, i' ) = (rij ri' jsjn)2j =1p sj dsignant l'cart-type de la variable j : sj2=1n(rij r j)2i=1n Finalement, nous retiendrons que l'analyse norme dans Rp du tableau brut R est l'analyse du tableau X des donnes centres er rduites, de terme gnral : xij =rij r jsjn Toutes les variables ainsi transformes sont "comparables" et ont mme dispersion : s2(xj ) = 1 www.deenov.com Alain Morineau Page 14 DeeNov Les variables sont centres rduites, ce qui signifie quon mesure l'cart la moyenne en nombre d'carts-types de la variable j. e - Matrice diagonaliser L'analyse du nuage des points-individus dans Rp nous a amen effectuer une translation de l'origine au centre de gravit de ce nuage et changer, dans le cas de l'analyse norme, les chelles sur les diffrents axes. L'analyse du tableau transform X nous conduit diagonaliser la matrice C = X'X. Le terme gnral cjj' de cette matrice s'crit : cjj ' = xijxij 'in soit : cjj ' =1n(rij r j)(rij ' r j')sjsj'in c'est--dire : cjj ' = cor( j, j' ) cjj' n'est autre que le coefficient de corrlation entre les variables j et j' (d'o l'utilit du coefficient n introduit au dnominateur dans la transformation des donnes). La matrice diagonaliser est donc la matrice de corrlations. A. Morineau A. Morineau 16 16 DeeNov DeeNov, 2005 , 2005Distance entre variables Distance entre variables( ) ( ) ( )2, 2 1 , d j k cor j k = Distance base surla corrlationcor(j,k) ~ 1d(j,k) ~ 0( d ~ 0 )cor(j,k) ~ -1d(j,k) ~ 2( d ~ 4 )cor(j,k) ~ 0d(j,k) ~ \2( d ~ 2 )kkkjjoo oj Corrlations et distances entre points-variables www.deenov.com Alain Morineau Page 15 DeeNov f - Composantes Principales Nous allons considrer en premier lieu le nuage de points-ligne. Dans cet espace, il s'agit de dcomposer l'inertie de ce nuage selon une srie de directions orthogonales. Nous allons commencer par le sous-espace le plus simple, c'est dire une ligne droite. Nous pouvons imaginer une droite dfinie par un vecteur de longueur unit u. Nous essayerons de dfinir u de telle manire que les projections des points sur cette direction aient une inertie maximale (voir la figure). Les distances reprsentes entre couples de points doivent tre aussi proches que possible des distances relles entre points. La projection (ou coordonne) d'un point sur la direction dfinie par le vecteur unitaire u, est gale : i ij jjpx u ==1 par consquent, l'inertie (ou variance) de tous les points projets sur u sera : pi iin 21 == Matrice des donnesiuui+ii Projection d'un point-ligne sur la direction dfinie par un vecteur unitaire Il s'agit donc de chercher la droite u qui rende maximale la valeur de . Si on appelle X le tableau des donnes (donnes centres), cela conduit diagonaliser la matrice X'X. Cette matrice est gale la matrice de corrlations entre les variables dans le cas d'une ACP norme, et elle est gale la matrice des covariances dans le cas d'une ACP non norme. Le vecteur unitaire recherch u est le vecteur propre associ la plus grande valeur propre obtenue dans la diagonalisation de X'X. www.deenov.com Alain Morineau Page 16 DeeNov L'opration de diagonalisation consiste chercher les directions de la dispersion maximale de l'ellipsode dfini par X'X. Le rsultat de l'opration de diagonalisation est q vecteurs propres ( axes d'inertie de l'ellipsode) et q valeurs propres (inertie de chaque axe), o q est le rang de X'X.. De manire analogue, la direction orthogonale u, qui en mme temps maximise l'inertie projete, correspond au vecteur propre associ la seconde valeur propre obtenue en diagonalisant la matrice X'X. Cette inertie projete est gale la seconde valeur propre, et ainsi de suite. Diagonalisation de X'X Valeurs propres Vecteurs propres 1 u1 2 u2 . . p up Les valeurs propres donnent directement les inerties projetes sur chacune des directions que nous cherchons. L'addition de toutes les valeurs propres est la somme de l'inertie sur les directions orthogonales et, elle est gale l'inertie du nuage de points. Ipvar(j) T 1 2 pjpeee= + + + =RS|T| en ACP normen ACP non norm e Les vecteurs propres donnent les directions d'inertie maximale, que nous appellons les axes factoriels. Sur ces directions se projettent les individus, obtenant ce que nous appelons les composantes principales. Ces composantes principales s'obtiennent donc comme combinaisons linaires particulires des variables d'origine. Leur variance est gale leur valeur propre. +o =u1x1+ +upxp var( ) +o o = L'Analyse en Composantes Principales consiste donc passer des p variables d'origine xj, chacune d'elles avec une importance mesure par sa variance, p nouvelles variables +o combinaisons linaires de celles d'origine, chacune avec une importance mesure par sa variance, gale le valeur propre (voir la figure). www.deenov.com Alain Morineau Page 17 DeeNov VariablesAxes factorielsVar3Axe 1Axe 2Var2Var1 Changement de base et rduction de la dimentionnalit Projections des Variables a - Nature de la projection De mme que nous avons ralis l'ajustement des points-lignes, nous pouvons procder l'ajustement des points-colonnes (les variables) dans un espace de dimension rduit qui prserve au mieux les distances d'origine (les corrlations). Mathmatiquement, cela conduit diagonaliser la matrice XX. X=Matrice de DonnesnpX'XXX'ppnnAjustement des points-lignesAjustement des points-colonnesDiagonaliser Matrices diagonaliser dans les deux ajustements. Comme prcdemment, on obtient la dcomposition de l'inertie selon les directions dfinies par les vecteurs propres de la matrice XX'. L'inertie projete sur chaque direction est gale la valeur propre associe. www.deenov.com Alain Morineau Page 18 DeeNov A. Morineau A. Morineau 17 17 DeeNov DeeNov, 2005 , 2005Nuage des variables Nuage des variables Nuage des p variables (approximation dans Nuage des p variables (approximation dans R Rn n) ) Un plan factoriel (v1,v2) coupe la sph Un plan factoriel (v1,v2) coupe la sph re suivant un re suivant un grand cercle (de rayon 1) grand cercle (de rayon 1) Les points Les points- -variables tombent variables tombent l l int int rieur rieurF2F12134F1F24321Espace RnProjectionde quatrevariables Reprsentation de la sphre et du cercle des corrlations La droite d'inertie maximale se trouve dfinie par le vecteur propre v (dfinissant la direction F1), associ la plus grande valeur propre. Le plan d'inertie maximale s'obtient en ajoutant cette droite, la direction F2 du vecteur propre associ la seconde valeur propre, et ainsi de suite. ind1ind2ind3v1v3v4v2Axe 1Axe 2 Nuage des variables et axes factoriels dans lespace des individus. La reprsentation des variables sur un axe s'obtient par projection des points variables sur le vecteur unitaire v qui dfinit la direction de l'axe. Soit o j la coordonne de la variable j sur laxe o. On aura: o o jijj inix xsv = =1 www.deenov.com Alain Morineau Page 19 DeeNov v1v3v4v2Axe 1Axe 2 Axe 1Axe 2v1v4v3v2 Projection des variables sur le premier plan factoriel. L'inertie des projections de tous les points variables sur un axe s'obtient par addition des inerties de chaque point. En ACP, il nexiste pas de pondration des points-variables (les variables jouent un rle qui est fonction de leurs variances). o o jjp21 == On remarque que l'inertie des points-variables projet sur un axe est la mme que celle des points-lignes sur laxe de mme rang (mathmatiquement, on dira que les valeurs propres non nulles de XX' sont identiques celles de X'X.) Entre les axes factoriels des deux nuages de points, il existe des relations qui permettent, connaissant les directions dans un espace, obtenir les directions dans l'autre espace. On les appelle relations de transition. Dans la pratique, il suffit de raliser un seul ajustement; partir de celui-ci, on obtient lautre. On ralise en gnral l'ajustement de plus faible cot, celui du nuage de points-lignes (on diagonalise une matrice plus petite). On obtient la projection des points-lignes par la formule. La projection des variables est calcule en fonction des axes factoriels du nuage des points-ligne : o o o j ju = Cette formule permettra ultrieurement d'interprter la reprsentation simultane des villes et des variables (lignes et colonnes du tableau). Il est clair que le nuage de points-variable n'est pas centr. Il arrive que tous les points-variables soient situs du mme ct par rapport lorigine sur le premier axe. www.deenov.com Alain Morineau Page 20 DeeNov On peut voir que, dans le cas dune analyse norme, la coordonne dune variable sur un axe concide avec la corrlation de cette variable avec la composante principale (projection des individus sur laxe factoriel de mme rang): o o j = cor( , ) xj + Cette formule joue un rle important pour l'interprtation des rsultats. Elle met en relation les reprsentations des points-lignes avec les reprsentations des points-colonnes. Une corrlation leve indique que la disposition des individus sur l'axe factoriel est semblable l'ordonnance des individus selon la variable (la corrlation unit signifierait que la composante principale est fonction linaire de la variable). Une corrlation proche de zro indique qu'il n'y a pas d'association linaire entre la composante principale et la variable. b - Facteur de taille Dans certains cas, la premire composante principale nait de la forte corrlation entre les variables actives. La premire composante se situe alors au milieu du faisceau des variables actives. Cette situation peut sinterprter de la faon suivante. Dune faon gnrale, si une valeur est forte pour une variable, les valeurs sont fortes pour lensemble des variables. Cest la gnralit de cette observation sur lensemble du tableau qui constitue dans ce cas la structure la plus forte des donnes et engendre le premier facteur. C'est la raison pour laquelle nous appelons facteur de taille la composante principale obtenue. Ce rsultat est assez frquent en ACP. Dans ce cas, la matrice de corrlations des variables ordonnes selon leur projection sur ce facteur, prsente une structure particulire: corrlations leves prs de la diagonale et dcroissantes quand on sloigne de la diagonale (on obtient une sriation des corrlations). c - Les matrices implicites des distances Les matrices des distances existent mais on ne les calcule pas explicitement. Les lignes sont situes dans un espace usuel o la distance se mesure par une formule classique. Dans le cas de l'analyse norme: d2(i, i' ) =xij xi' jsj| \ | . | | j=1p2 www.deenov.com Alain Morineau Page 21 DeeNov et pour l'analyse non norme: d2(i, i' ) = (xij xi ' j)2j=1p Dans le nuage des points-variables, la distance est dfinie pour l'analyse norme par la formule : )) ' , ( 1 ( 2 ) ' , (2j j cor j j d = et, pour l'analyse non norme, par: d2(j, j' )= var(j)+ var(j') 2cov(j, j' ) Toutes ces distances peuvent tre rassembles dans des matrices carres: matrice (n,n) des distances entre lignes et matrice (p,p) des distances entre colonnes. L'analyse factorielle pourrait tre applique directement ces matrices de distances. Dans ce cas, les configurations graphiques des nuages de points-lignes et de points-colonnes sont identiques celles fournies par l'ACP du nuage des points-lignes et l'ACP du nuage des points-colonnes. Individus et variables supplmentaires Dans lexemple de l'analyse des temps d'activits des personnes actives regroupes en catgories, on dispose de nombreuses autres informations complmentaires. Par exemple, on veut enrichir cette analyse par une srie d'indicateurs concernant les habitudes de frquentation-mdia (constituant des variables continues) et par le niveau d'ducation, le sexe et l'ge (qui sont des variables nominales). On dsire galement positionner, dans le nuage analys, des groupes spcifiques de femmes actives, que l'on va mettre en lignes supplmentaires. Le tableau de donnes brutes R peut tre ainsi complt en colonne par un tableau n lignes et ps colonnes R+ et en ligne par un tableau R+ ns lignes et p colonnes. Remarque : il n'est pas ncessaire de connatre le tableau R++ ns lignes et ps colonnes croisant individus et variables supplmentaires. Les tableaux R+ et R+ vont tre respectivement transforms en tableaux X+ et X+ de faon rendre ces nouvelles lignes et colonnes comparables celles de X. www.deenov.com Alain Morineau Page 22 DeeNov X X+X+R+RpnpsR+ R++ns Lignes et colonnes supplmentaires Dans l'espace Rn les ps points-variables supplmentaires peuvent tre continues ou nominales. a - Individus supplmentaires Pour situer les individus supplmentaires par rapport aux autres dans l'espace Rp, il est ncessaire de les positionner par rapport au centre de gravit du nuage (calcul sur les n individus actifs) et de diviser les coordonnes par les carts-types des variables (calculs sur les n individus actifs). D'o la transformation : x+ij =r+ij r jsj Les coordonnes des nouveaux points-individus sont donc les ns lignes du vecteur X+uo. En appelant Xs le tableau XX+ ( ( on obtient simultanment les n + ns coordonnes des individus analyss et supplmentaires en effectuant le produit matriciel Xsuo. b - Contribution dun individu la fabrication dun axe Si io est la coordonne du point-ligne i sur laxe o, nous pouvons mesurer la part d'inertie d'un point-ligne par le quotient : CTR ipi i( , ) o oo= 2100 Il s'agit de la contribution du point i la fabrication de l'axe o. Les contributions des points-lignes servent dtecter les lments qui contribuent le plus la formation des axes factoriels. www.deenov.com Alain Morineau Page 23 DeeNov Si tous les lments avaient la mme contribution, celle-ci devrait osciller autour dune valeur moyenne (100% divis par le nombre dlments). Quand la valeur d'une contribution est-elle "leve"? La rponse n'est pas simple. Une contribution sera juge leve quand, en la comparant au reste des contributions, elle aura une valeur "anormalement" grande. A. Morineau A. Morineau 1 1 DeeNov DeeNov, 2005 , 2005 Dans quelle proportion chaque point contribue Dans quelle proportion chaque point contribue- -t t- -il il l l inertie inertie o odu du nuage projet nuage projet sur l sur l axe axe u uo o? ? Pour donner une signification Pour donner une signification un axe, s un axe, s int int resser surtout aux resser surtout aux points ayant une forte contribution. (Ils fixent la position de points ayant une forte contribution. (Ils fixent la position de l l axe axe dans dans R Rp p) )( ) ( )2.u = direction de plus Axe factoriel umax. grande inertie du u nuage autour de G.i iif ( ( ( ( ( (+ = ` ( ( ) Influence des individus : les Influence des individus : les contributions contributionsi' G i' Gi' G( ) ( ) ' ca i ca io o> ( ) ( ) ' ca i ca io o> ( ) ( ) ' ca i ca io o=Utilitiii G GG c - Qualit du positionnement dun point Les cosinus carrs sont utilisables pour apprcier la qualit du positionnement des points en reprsentation factorielle compar leur configuration relle. En effet, les images obtenues sont des approximations de la configuration relle. Il y aura des distances entre couples de points bien reprsentes, tandis que d'autres ne reflteront pas fidlement la distance relle entre les points. Si deux points sont proches du plan factoriel, alors la distance reprsente sera une bonne approximation la distance relle. Mais si au moins un point est loign du plan de projection, alors la distance relle peut tre diffrente de celle reprsente sur le plan. www.deenov.com Alain Morineau Page 24 DeeNov Cette proximit du plan factoriel de projection est mesure par les cosinus carrs de chaque point avec les axes factoriels. La figure illustre la dfinition : Gid(i,G)eAxeoio . Le cosinus carr comme mesure de proximit COS id i Gi 222( , )( , )o o= Un cosinus carr gal 1 indique que llment se trouve situ sur l'axe (l'angle est nul). Un cosinus carr gal 0 indique que llment est dans une direction orthogonale l'axe. En additionnant les cosinus carrs par rapport aux p axes factoriels, nous obtiendrons l'unit, car il faut utiliser tous les axes factoriels pour positioner exactement le point dans l'espace complet. COS ip211 ( , ) oo == A. Morineau A. Morineau 22 22 DeeNov DeeNov, 2005 , 2005Qualit Qualit de repr de repr sentation des individus : sentation des individus :les cosinus carr les cosinus carr s s Le point (i) dans Le point (i) dans R Rp pest plus ou moins est plus ou moins proche proche de chaque axe ( de chaque axe (o o) ) de projection. de projection. En projection, la proximit En projection, la proximit entre points est d entre points est d autant plus autant plus v v ridique ridique que les points sont proches de l que les points sont proches de l axe de projection. axe de projection. Pour analyser les proximit Pour analyser les proximit s entre points, s s entre points, s int int resser surtout aux resser surtout aux points ayant un fort cosinus carr points ayant un fort cosinus carr . (Proximit . (Proximit s peu modifi s peu modifi es en es en projection.) projection.)uoG(i)uoG(i)Utilit( )( )cos 0 est mal reprsent sur uii oo~ ( ( )( )cos 1 est bien reprsent sur uii oo~ ( www.deenov.com Alain Morineau Page 25 DeeNov L'addition des cosinus carrs d'un point sur diffrents axes, donne, en pourcentage, la "qualit" de la reprsentation du point sur le sous-espace dfini par ces axes. A partir de quelle valeur des cosinus carrs dira-t-on qu'un point est "bien reprsent" sur le plan factoriel ? Comme pour les contributions, la rponse n'est pas simple. On apprciera une valeur par rapport l'ensemble des autres valeurs. Nous devrons comparer les cosinus carrs (ou leur somme sur les deux premiers axes si nous travaillons sur le premier plan factoriel) pour pouvoir rpondre cette question. d - Notion de reprsentation simultane en ACP Le nuage des individus et celui des variables ne sont pas superposables, nayant aucun point commun. On peut cependant reprsenter, au sein du nuage des individus, les directions des anciens axes porteurs des variables : ce sont des individus fictifs supplmentaires. Dans la reprsentation simultane, ces axes indiquent dans quelle direction la variable correspondante est croissante. A. Morineau A. Morineau 19 19 DeeNov DeeNov, 2005 , 2005X(j)Individu (i)0 0 0 1 0 0 0 01 0 0 0 0 0 0 0Variable (j)Variable(1)Variables en repr Variables en repr sentation simultan sentation simultan e e Les variables sont Les variables sont des individus des individus particuliers qui en particuliers qui en caract caract risent les risent les directions directions Ces individus valent Ces individus valent 1 dans la direction 1 dans la direction de la variable de la variable et 0 dans les autres et 0 dans les autres directions directions e - Dtails sur la reprsentation simultane Dans l'Analyse en Composantes Principales les deux nuages sont dfinis dans des espaces diffrents, avec des origines diffrentes et des bases distinctes. Pour le nuage des points-lignes, l'origine est le centre de gravit des individus. Le nuage est dans un espace de dimension p et nous dsignons par uo la base des axes factoriels. Pour le nuage des points-colonnes, l'origine des coordonnes est le point zro, il est par construction dans un espace de dimension n www.deenov.com Alain Morineau Page 26 DeeNov (mais les variables actives dfinissent un sous-espace de dimension p) et nous dsignons les axes factoriels par vo . Les points-lignes et les points-colonnes tant donc dans des espaces diffrents, il est a priori impossible de les visualiser ensemble dans un espace qui respecterait les proximits internes des 2 nuages. Cependant, nous pouvons reprsenter les directions dfinies par chaque variable d'origine sur la base des axes factoriels uo. F1F2u2u1Ancienne basedes variablesdorigine eNouvelle base orthogonaledes axes factoriels Rpx1x3x2e3e2e1 Ancienne base de Rp et la nouvelle base constitue par les axes factoriels. Les vecteurs qui dfinissent les directions des variables d'origine sont les vecteurs (1,0,0,0,...), (0,1,0,0,...), (0,0,1,0,...), etc. Soit ej le j-me vecteur de cette base. Sa projection sur la base dfinie par les uo est dfinie par le produit scalaire des deux vecteurs e uj' o o= uj (2.21) C'est la j-me composante du vecteur uo. Ainsi la projection des anciens axes porteurs des variables dorigine sur la nouvelle base est donne par les composantes des vecteurs propres uo de l'analyse des points-lignes. Un ancien axe j, porteur de la j-me variable dorigine, peut tre considr comme un individu artificiel dans lespace des individus: il a la coordonne 1 sur le j-me axe et des coordonnes nulles ailleurs. A ce titre le point-variable j peut apparatre au sein des individus dans toute reprsentation factorielle. Linterprtation sen dduit. Ce point j est lextrmit du vecteur unitaire qui dfinit, au sein du nuage des individus, la direction de croissance de la variable j. Notons quil ny a pas dunit commune entre la longueur 1 du vecteur unitaire qui porte la variable j et les valeurs des coordonnes des individus sur un axe. Puisque seule la direction compte, on aura www.deenov.com Alain Morineau Page 27 DeeNov tout loisir de dilater ces vecteurs unitaires pour que les directions soient clairement lisibles dans le nuage des individus. Ainsi il apparait que les p variables sont des points aux extrmits de p vecteurs-unitaires situs au sein du nuage des individus, et reprsentent en fait la translation du repre dorigine au point-moyen du nuage des individus. Ces p points sont sur une hypersphre de rayon unit. Sur le premier plan factoriel du nuage des individus, ces p vecteurs unitaires vont apparatre lintrieur dun cercle de rayon unit comme crasement du repre orthonorm des variables dorigine. x3x1x2Oe1e2e3F1F2. Projection sur le plan factoriel des axes de la base d'origine avec le nuage de points-lignes Il est clair que ce nouveau nuage de points-variable diffre du nuage des points-variable tudi plus haut, dans lequel langle entre j et j tait une mesure de la corrlation entre les deux variables (ici tous les angles sont droits, et on observe en fait la projection de ces angles droits sur le plan factoriel). Si lextrmit dun point-variable est assez proche du cercle de rayon unit, la direction de croissance de cette variable est bien dfinie dans le plan factoriel que lon tudie: les individus proches du centre prennent des valeurs proches de la moyenne de cette variable; les individus loigns dans la direction indique ont des valeurs trs fortes; ceux loppos auront des valeurs trs faibles. Cest aussi quest dfinie et interprte la reprsentation simultane des individus et des variables en ACP. Noter que si tous les vecteurs-unitaires, dans cette reprsentation simultane, forment un fasceau assez troit autour du premier axe factoriel, on identifiera un facteur taille: dans la direction du premier axe, toutes les variables croissent simultanment et dcroissent simultanment. www.deenov.com Alain Morineau Page 28 DeeNov Remarque sur les deux reprsentations des points-variables. Considrons le nuage des points-variable dune ACP norme. La coordonne de la variable j sur laxe o est : o ouj Considrons la coordonne sur laxe o du point reprsentant la direction de croissance de la variable j dans le graphique dune reprsentation simultane : ujo Le rapprochement de ces deux formules nous assure que les deux reprsentations des variables vont en ralit tre graphiquement assez semblables ( une dilatation prs le long de chaque axe). Cette similitude graphique conduit parfois des abus dinterprtation sur les graphiques de la reprsentation simultane (o lon mlange analyse des angles et analyse des directions de croissance). Dans ce cadre, on notera quil est interdit de faire apparatre une variable illustrative dans une reprsentation simultane des variables et des individus en ACP. Les variables illustratives ne participent pas au repre dorigine du nuage des individus et ne peuvent donc pas tre reprsentes par une direction de croissance au sein du nuage des individus. Pour toute ACP, on retiendra quil y a: - la reprsentation du nuage des points-variables: ce sont des directions (vecteurs unitaires si lACP est norme) et on tudie les angles entre ces directions. - la reprsentation simultane des individus et des variables actives: les points-variables sont les extrmits de vecteurs unitaires orthogonaux indiquant les directions dans lesquelles les variables correspondantes prennent des valeurs croissantes dans le nuage des individus. f - Variables continues supplmentaires Dans Rn, pour que les distances entre variables s'interprtent encore en termes de corrlations, ces variables doivent tre valeurs numriques continues et il est indispensable d'effectuer la transformation de centrage et rduction des donnes brutes : xij+ =rij+ r j+sj+ www.deenov.com Alain Morineau Page 29 DeeNov On calcule donc les nouvelles moyennes et les nouveaux carts-types correspondant aux variables supplmentaires, pour positionner celles-ci sur la sphre de rayon unit. Les coordonnes des ps variables supplmentaires sur cet axe sont donc les ps lignes du vecteur X+'vo et correspondent chacune au coefficient de corrlation entre la variable et laxe (appel le facteur, colonne n coordonnes). Les variables continues illustratives sont positionnes en utilisant les mmes formules que pour les variables actives. Dans le cas de l'ACP norme, on utilise la corrlation avec les composantes principales. o o j+ += cor en ACP normee ( , ) xj + (lexposant + indique qu'il s'agit de variables illustratives). La position des variables par rapport aux axes factoriels s'interprte comme pour les variables actives. La position d'une variable illustrative dans le plan factoriel permet de visualiser la relation de la variable avec l'ensemble des variables actives par l'intermdiaire des axes factoriels. On notera cependant qu'aucune distance n'a t dfinie entre deux variables illustratives. Leurs positions relatives ne prsupposent aucune corrlation entre ces variables. Cependant, dans la mesure o les variables illustratives sont bien reprsentes sur le premier plan factoriel et proches l'une de l'autre, on peut sattendre ce que la similitude de leurs corrlations avec les axes (similitude de leurs coordonnes) soit la consquence d'une forte corrlation entre elles. Rgression visualise. Le positionnement d'une variable continue en lment supplmentaire est assimilable une "rgression visuelle": la variable illustrative joue le rle de variable de rponse (ou endogne) et le sous-espace de projection (constitu par les premiers axes factoriels), joue le rle des variables explicatives (ou exognes). L'analogie est illustre par la figure. Dans une rgression, on s'intresse essentiellement la valeur des coefficients des variables (coordones sur les variables d'origine): il s'agit de savoir si les variables d'origine permettent de bien "prvoir" la variable y. www.deenov.com Alain Morineau Page 30 DeeNov yvariable continue illustrativeRgressionx1x2Axe 1Axe 2Projection en supplmentaire^yb1b2 quivalence entre la rgression et la projection en supplmentaire Dans une ACP, les variables de type "y" sont souvent nombreuses. Leurs projections sur le premier plan factoriel indiquent rapidement celles qui sont globalement bien ou mal lies l'ensemble des variables actives. Leurs positions relatives aux axes fournit par ailleurs des lments d'interprtation des axes (car la coordonne est gale la corrlation). Qualit de la reprsentation des variables illustratives. Nous pouvons calculer la qualit de la reprsentation pour les variables illustratives grce aux cosinus carrs avec les diffrents axes. Nous devons nanmoins prendre en compte que maintenant, la somme complte des cosinus carrs sur les p axes sera en gnrale infrieure l'unit. 2 2cos ( , ) { (variable,facteur)} j cor o+= Pour positionner une variable illustrative dans l'espace d'origine, on a besoin de ses n composantes (ses valeurs pour les n individus). Il en est de mme pour une variable active, mais l'ensemble des variables actives se trouve dans un sous-espace de dimension p (le rang de X, ou encore de X'X). Donc en ralit les coordonnes sur les p axes factoriels permettent de situer exactement toute variable active. Cette propiet n'est pas vraie pour les variables illustratives. Il n'y a pas lieu de calculer les contributions des variables illustratives l'inertie des axes, car ces variables ne sont pas intervenues dans la formation des axes. g - Variables nominales supplmentaires Si la variable mettre en supplmentaire est nominale, on ne peut plus effectuer la mme transformation. www.deenov.com Alain Morineau Page 31 DeeNov Dans ce cas, on ramne la variable nominale ayant m modalits, m groupes d'individus dfinis par les modalits de la variable. On traite ensuite ces m groupes d'individus comme des individus supplmentaires. Ce sont les centres de gravit de ces groupes d'individus qui vont tre positionns dans l'espace Rp. Toute variable nominale dfinit une partition des individus en autant de groupes que la variable possde de modalits. On peut reprsenter avec des symboles diffrents ces groupes d'individus dfinis par chaque modalit. Pour chaque groupe de points, nous pouvons calculer son point moyen ou centre de gravit (voir la figure). DonnesactivesVariable nominalesupplmentaire 2 modalits Partition du nuage des points-ligne en deux groupes (=1, =2) G21121221G1 Partition dfinie par une variable nominale. La figure fournit donc une simplification du nuage des points-individus vu du point-de-vue de la variable nominale choisie. La configuration des points-modalits permet en gnral de qualifier certaines zones du graphique. Elle peut suggrer des lments dinterprtation des directions factorielles. Supposons, par exemple, que l'on mesure la taille et le poids de 10 individus et que l'on dsire mettre en supplmentaire la variable sexe. Nous disposons des mesures reprsentes dans le tableau plus bas. On calcule alors la taille et le poids moyens des hommes (177; 75) et celui des femmes (167; 59). Ce sont ces points moyens qui vont tre positionns parmi les points-individus. www.deenov.com Alain Morineau Page 32 DeeNov 177 75 167 59150 45 2 168 68 1 175 72 1 178 70 2 185 70 1 160 53 2 165 49 2 180 90 1 175 65 2 174 72 2variable nominale supplmentaire 2 modalitsvariables continues activestaille p o id s sex e1 i 10lignes supplm. : 168 68 175 72 185 70 180 90 177 75150 45 178 70 160 53 165 49 175 65 174 72 167 59 modalit 1 ( h o mme)modalit 2 ( f emme)taille p o id staille p o id s Les modalits de la variable nominale supplmentaire sont des individus supplmentaires La reprsentation par deux points G1 et G2 d'une variable nominale deux modalits est esquisse sur la figure ci-dessus. F1F2G** ********************F1F2GG2G1*: hom: fem Reprsentation d'une variable nominale supplmentaire L'analyse d'une variable nominale supplmentaire ne se fait donc pas dans Rn mais dans Rp. La figure schmatise le positionnement des modalits supplmentaires comme points moyens des individus qui les composent. www.deenov.com Alain Morineau Page 33 DeeNov La caractrisation statistique par les valeurs-test a - Principe La position d'une modalit est calcule comme position de l'individu moyen de ce groupe. Cette position peut tre plus ou moins proche du centre de gravit de tous les individus (origine des coordonnes factorielles). Une bonne proximit avec le centre de gravit global suggre que le groupe dindividus correspondant est tir au hasard parmi tous les individus. Au contraire, lloignement entre une modalit et le point moyen global suggre une relation forte entre certaines variables actives et la modalit (Noter quune modalit sera d'autant plus proche du centre de gravit global, qu'un nombre important d'individus l'auront choisie. Si tous les individus l'avaient choisie, elle conciderait avec le centre de gravit global). On veut valuer dans quelle mesure une modalit (un groupe dindividus) signale, par sa position, une zne intressante dans le plan factoriel. Le centre de gravit gnral tant le lieu dattraction des points moyens de tout groupe dindividus tirs au hasard, on va provilgier les points moyens qui diffrent significativement du centre de gravit global: les individus qui forment un tel groupe seront assez typs et assez semblables entre eux pour scarter suffisamment du centre de gravit. Supposons que nous slectionnions au hasard un groupe de nj individus parmi les n individus disponibles. L'image graphique de ces individus sur le premier plan factoriel sera celle dune rpartition alatoire sur le plan. Le point moyen de ces nj individus ne va diffrer de la moyenne globale, reprsente par l'origine des coordonnes, que par des fluctuations alatoires (voir la figure). GAxe 1Axe 2 Tirage au hasard d'un groupe d'individus. www.deenov.com Alain Morineau Page 34 DeeNov Supposons que nous rptions plusieurs fois le tirage alatoire de nj individus et le calcul du point moyen des individus slectionns. Le centre de ces individus concidera, aux fluctuations prs, avec le centre de gravit global. Supposons maintenant que les nk individus ne sont pas slectionns au hasard. Ils sont situs dans une certaine zne du plan factoriel (voir la figure). GmodAxe 1Axe 2 Groupe d'individus dfinis par une modalit Calculons le point moyen de ces individus et sa distance au centre de gravit global. La position de ce point-moyen est-elle compatible avec lhypothse que les individus sont tirs au hasard? Plus le non sera catgorique (en terme statistique), plus on trouvera intressante la modalit pour caractriser la zne du plan factoriel o elle se trouve. b - La valeur-test pour la caractrisation des modalits On procde comme pour un test statistique classique. L'hypothse "nulle", note H0, est l'hypothse d'un tirage au hasard des nk valeurs parmi les n observations. Le tirage est suppos sans remise car chacune des nk valeurs est une et une seule des observations. Avec cette hypothse de travail, on calcule la probabilit d'observer une configuration de valeurs au moins aussi extrme que celle de l'chantillon. C'est la probabilit critique associe au test de l'hypothse nulle H0 (on dit aussi p-value). Plus cette probabilit est faible, plus on est amen mettre en cause l'hypothse du tirage au hasard. En effet c'est cette hypothse utilise dans le calcul qui donne l'vnement ralis une probabilit aussi faible de ralisation. Pour classer les variables par ordre d'importance, on les range en fonction des probabilits critiques. La variable la plus typique du groupe est celle qui correspond la plus petite probabilit. www.deenov.com Alain Morineau Page 35 DeeNov La "valeur-test" est un outil qui participe l'approche exploratoire et descriptive des grands tableaux numriques (A. Morineau, "Note sur la Caractrisation Statistique d'une Classe et les Valeurs-tests", Bulletin Technique Centre Statistique Informatique Appliques., Vol 2, n 1-2, p 20-27, 1984). Le logiciel SPAD ddi au traitement statistique des grands tableaux en fait un usage intensif. On considre l'cart entre la moyenne des coordonnes dans le groupe k et la moyenne gnrale. Plus cet cart est "significatif", mieux la variable caractrise le groupe k. Soit m la moyenne des coordonnes (nulle ici) et s2 la variance empirique calcules sur les n observations. Elle est gale la valeur-propre de laxe correspondant. Soit mk la moyenne des nk observations du groupe. Appelons Mk la variable alatoire "moyenne des nk tirages". Sous l'hypothse H0 d'un tirage uniforme et sans remise, on a: EVarH kH kkkkMMn nn ns00012== = Si n et nk ne sont pas trs petits, le thorme de la limite centrale s'applique (bien que les tirages ne soient pas indpendants) et dans ce cas la variable: UM mskk= suit approximativement une loi normale centre rduite. La probabilit critique associe cette variable est donc la probabilit pour une loi normale de dpasser la valeur numrique u calcule dans l'chantillon pour la variable U ci-dessus. On obtient les modalits les plus typiques pour un axe en slectionnant les plus petites probabilits critiques. Il est quivalent de slectionner les modalits correspondant aux plus grandes valeurs prises par la variable normale: um mskk= (2.18) Cette quantit est appele valeur-test. Elle est exprime en nombre d'carts types d'une loi normale. Elle s'interprte de la faon suivante: la probabilit d'un cart aussi grand entre les deux moyennes est gale aux chances d'atteindre ce nombre d'carts types pour une loi normale. On value en quelque sorte la distance entre la moyenne gnrale et la moyenne dans le groupe, en nombre d'carts types d'une loi normale. C'est cette unit www.deenov.com Alain Morineau Page 36 DeeNov commune qui permet les comparaisons entre les modalits et conduit aux tris par ordre d'importance. La position du point moyen du groupe d'individus permet donc dvaluer la vraisemblance de l'hypothse de tirage au hasard de ces individus (figure). G GmodProbabilit critiqueAxe 1valeur-test V-test associe une probabilit critique. Plus la valeur-test est grande (en valeur absolue), plus il est clair que le groupe d'individus occupe une position significative et caractrise la zne du graphique o il se trouve. Pour les tableaux de taille raisonnable , nous utilisons souvent le seuil de 2 carts-types pour juger si la position d'une modalit est significative. Les valeurs suprieures 2 indiquent des valeurs peu probables sous l'hypothse d'extraction au hasard. Nous pouvons donc penser que ces individus gardent une certaine relation avec l'ensemble des variables actives qui les font apparatre en positions excentriques du nuage. Cependant, il faut tenir compte du nombre total d'individus. Ce nombre peut tre trs grand (problmes de data mining). Noter quil suffit de doubler indfiniment le tableau des donnes pour rendre les valeurs-test aussi grandes que lon veut. La valeur-test est en ralit utilise comme simple critre pour ordonner les modalits selon leur association avec les axes factoriels (et non formellement pour rejeter ou non une hypothse nulle). c - La valeur-test pour la caractrisation des axes On a vu comment la v-test est un critre permettant de ranger par ordre d'importance les variables continues caractristiques d'un groupe d'individus (c'est--dire caractristiques d'une certaine modalit). Si maintenant on fixe la variable continue, le mme critre permet de ranger l'ensemble des modalits susceptibles de caractriser cette variable. www.deenov.com Alain Morineau Page 37 DeeNov En analyse de donnes, la "variable" dont les valeurs sont les abscisses des individus sur un axe factoriel peut tre assimile une variable continue. A ce titre, on peut chercher quels sont les groupes d'individus (les modalits "j") qui caractrisent au mieux un facteur (o un plan factoriel, par lintermedire de la caractrisation de ses deux axes). Appelons io la coordonne de l'individu i sur l'axe numro o, et jo la coordonne de la modalit j sur ce mme axe. Une modalit est le point moyen des individus qui la composent: o oojkiin= 1 Sous l'hypothse nulle d'un tirage au hasard, l'esprance de io est nulle et sa variance est gale o. Pour un tirage sans remise de nj valeurs, la variance d'une moyenne doit tre corrige par ( ) ( ) n n nj 1 . On a donc: EVarH jH jjjn nn n00011oo== La v-test associe la modalit j sur l'axe o sera donc: un nn nj jjjo o = ( ) 1 Elle value, en nombre d'carts types d'une loi normale, la distance sur l'axe o de la modalit j au centre du graphique. On caractrise donc l'axe o en rangeant les modalits "j" dans l'ordre dcroissant des v-test. d - Les valeurs-tests et le Data mining. Les v-tests constituent un outil rapide pour le Data mining (dbroussaillage) aussi bien des donnes brutes que des rsultats des analyses factorielles ou des classifications. Dans les grands tableaux de donnes et pour la lecture des analyses multidimensionnelles complexes, le rangement des lments par valeurs-tests dcroissantes fait apparatre les traits saillants au premier coup d'il, montre rapidement o sont les cohrences et permet l'accumulation progressive des connaissances. Toute information disponible dans le tableau des donnes peut tre range par sa v-test sur un plan factoriel. Ainsi dans une enqute par exemple, parmi les attributs utilisables on peut introduire www.deenov.com Alain Morineau Page 38 DeeNov l'ensemble des paramtres techniques ou instrumentaux de l'enqute: l'heure de l'entrevue ou le croisement sexe-ge du couple enquteur-enqut. Ces attributs, positionns sur les plans factoriels et accompagns des v-tests les plus significatives, constituent souvent un moyen de validation des rsultats de l'enqute. La figure montre le positionnement de l'heure d'entrevue et de l'ge de l'enquteur. Dans une enqute dopinion par exemple, le point "interview du soir" par exemple est le centre de gravit des personnes ayant t enqutes le soir. Positionnement de paramtres techniques Les v-tests permettent dtecter toutes les liaisons significatives mais ne tiennent pas compte des dpendances entre les lments. Ce trait est d'ailleurs l'origine des redondances multiples et donc des effets accumulateurs de connaissance. On voit ici la complmentarit avec les analyses exploratoires multidimensionnelles dont le principal objectif est de tirer le meilleur parti du tissu des dpendances. Considrons titre d'exemple la trajectoire dans un plan factoriel des catgories d'ge de personnes enqutes et supposons que celle-ci s'allonge rgulirement le long du premier axe. La Figure schmatise cette situation avec les groupes 1 4. La forme de cette trajectoire rsulte de l'ensemble des liaisons existant entre les lments actifs dans l'analyse. Il est probable que les v-tests associes la position des catgories extrmes 1 et 4 seront leves. Cependant les catgories plus centrales 2 et 3 n'apparatront pas distinctes de l'origine au vu de * * * * * * * * * * * * * * Interview du soir Interview de jour Enquteur < 40 ans Enquteur > 40 ans * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * www.deenov.com Alain Morineau Page 39 DeeNov valeurs-tests trop faibles. Doit-on cependant ignorer ces catgories "non-significatives", alors que leur alignement dans la trajectoire montre la cohrence de leur position? Groupe 2**** Groupe 1Groupe 4Groupe 3 Cohrence sur une trajectoire On voit qu'une notion de cohrence est contenue dans le tissu proprement dit des liaisons entre les donnes, alors que les lments pris isolment peuvent avoir des v-tests faibles et donc ne pas se rvler directement significatifs. Remarque La proximit entre les modalits A et B de deux variables peut tre le rsultat de deux effets distincts. Soit les deux modalits ont une majorit dindividus en commun, ce qui assure la proximit des points-moyens; soit les individus sont diffrents mais ils sont dans la mme zne du graphique. Dans tous les cas on interprte la proximit en terme de similitude des individus constituant les groupes. ALes mmes individuspartagent les deux modalits Les individus sont semblables mais distinctsB A B Proximit de 2 modalits. www.deenov.com Alain Morineau Page 40 DeeNov Cest ainsi que 2 catgories dge peuvent tre proches, bien quelles concernent des individus distincts. Dun autre cot, les personnes qui votent de telle faon seront dans la mme zne graphique que les personnes qui consomment tel produit, parce quils ont globalement le mme profil socio-culturel, sans tre exactement les mmes individus. ACP non norme Dans une ACP, l'inertie du nuage d'origine est dcompose dans des directions orthogonales successives prenant en compte chaque fois une part dinertie maximale. Quelle est la contribution de chaque variable linertie totale du nuage? La formule de distance entre points-variables fait que la contribution de chaque variable l'inertie totale est la mme et gale 1/p. En effet, on va voir que l'inertie du nuage de points-variables par rapport l'origine est gale au nombre de variables actives. 21( , 0)pTjI d j p== = Il suffit de travailler avec les donnes centres et rduites dfinies par: zij =xij x jsj o x j est la moyenne de la variable j et sj est son cart type. Nous parlons alors d'analyse en composantes principales norme. Dans ce cas, la distance de chaque variable l'origine est gale l'unit: d2( j, 0) =1nxij x jsj| \ | . | | i=1n2=1n(xij x j)2isj2 =1 Tous les points-variables sont situs une mme distance de l'origine (sur une hyper-sphre de rayon unit) et participent de faon gale l'inertie totale. Cette situation nest pas toujours justifie. Par exemple, dans une analyse ralise pour le compte d'une entit banquaire, il sera intressant de donner plus de poids aux produits qui contribuent le plus au volume de ses dpts. Autrement dit, l'importance accorde aux diffrentes variables doit tre conforme aux objectifs de lanalyse. www.deenov.com Alain Morineau Page 41 DeeNov Si lon travaille avec des donnes brutes (simplement centres, sans avoir ralis la rduction par lcart-type), nous pouvons voir quelle serait la contribution l'inertie totale de chaque variable. La distance (au carr) de la variable l'origine est: d2( j, 0) =1n(xij x j)2i=1n =var( j) Dans ce cas les variables ne sont pas sur la sphre de rayon unit, mais la longueur du segment de chaque variable est dfinie par son cart-type. Nous devons donc imaginer le nuage des points-variables comme un ensemble de vecteurs, chacun de longueur gale lcart type de la variable et formant des angles dfinis par le coefficient de corrlation entre les variables. Il sagit alors d'analyse en composantes principales non norme. Remarquons que les distances entre deux points variables dpendent dans ce cas, de la corrlation (cest--dire de l'angle qu'elles forment), mais aussi des variances des variables: ind3varjsjNuage de variablesRnind2ind1 Nuage de points variables dans une Analyse en Composantes Principales non norme Linertie globale du nuage des points-variables est alors gale la somme des variances de chaque variable. IT = d2( j, 0) = var( j)j=1pj=1p La contribution de chaque variable l'inertie globale est donc: var(j )var( j)j La variance est, comme on le sait, fonction de l'unit de mesure de la variable. Cela fournit donc un moyen de moduler l'importance de chaque variable dans une analyse (Ces modifications auront galement des rpercusions sur les distances entre individus). www.deenov.com Alain Morineau Page 42 DeeNov La variable plus grande variance sera celle qui contribuera le plus linertie du nuage, donc au calcul des directions principales dinertie. Nous verrons que la premire composante principale tend se rapprocher des variables ayant de grandes variances. Dans la pratique, il est souvent justifi de donner aux variables une importance gale en utilisant lACP norme. Cest en particulier indispensable quand les variables actives sont mesures avec des units diffrentes (des euros, des grammes, etc.). Dans lACP non norme comme dans lACP norme, les deux nuages de points, individus et variables, ont la mme inertie. En effet, l'inertie du nuage des points-individus est la somme des distances au carr de chaque point au centre de gravit, pondre par le poids de chaque point. Nous pouvons l'exprimer par rapport chaque axe de l'espace des points-lignes, o chaque axe reprsente une variable. IT =1n( xij x j)2j=1pi=1n =1ni=1nj=1p(xij x j)2 = var( j)j=1p Par consquent, la variance le long de chaque axe est la dispersion du nuage projet sur cet axe. Il est facile de voir que, les axes tant orthogonaux, l'inertie globale est la somme des inerties sur chacun des axes et que l'inertie des points-individus est gale l'inertie des points-variables. Retenir lessentiel Lorsque les variables actives ne sont pas toutes exprimes dans la mme unit de mesure, lopration de rduction par lcart-type permet de rendre comparables les variables puisque toute valeur dune variable devient un cart sa moyenne exprim en nombre dcarts-types de la variable. Toutes les observations ainsi recodes deviennent des valeurs comparables, de moyenne nulle et dcart-type unit (ce sont des mesures sans unit). Cette transformation nest donc plus indispensable lorsque toutes les variables actives dorigine sont exprimes dans la mme unit (des cm, ou des kg, ou des euros, etc.). Dans ce cas, on notera : - La distance dune variable lorigine est gale la variance de la variable : Les points variables ne sont plus sur une hyper-sphre de rayon 1. les variables les plus disperses sont les plus excentres et donc auront une propension jouer un rle plus important dans le calcul des axes de plus grande dispersion. www.deenov.com Alain Morineau Page 43 DeeNov - La distance entre les variables j et j est la quantit : var(j) + var(j) 2 cov(j,j) Elle augmente donc avec les dispersions mais diminue quand leur dpendance linaire augmente. On considre le triangle (O,j,j) dont lcart-type de j est la longueur de Oj ; lcart-type de j la longueur de Oj ; dont langle est aigu si la covariance est positive, et obtus sinon. - La matrice analyse pour calculer les directions de plus grand allongement nest plus la matrice des corrlations mais la matrice des covariances. A. Morineau A. Morineau 14 14 DeeNov DeeNov, 2005 , 2005ACP norm ACP norm e et non norm e et non norm e eDistance entre individus Distance entre individusDistance entre variables Distance entre variablescovariances covariances corr corr lations lationsMatrice diagonalis Matrice diagonalis e e X'X X'XNon norm Non norm e e Norm Norm e e( ) ( )22', 'ij i jjd i i x x = ij ij jx z z = ( ) ( ) ( )2, ' 2 1 , ' d j j cor j j = ( ) ( ) ( )( )2, ' var var '2cov , 'd j j j jj j= +ij jijjz zxs= On notera que lanalyse non norme peut tre justifie mme dans le cas o toutes les variables actives sont lorigine exprimes dans la mme unit. Une telle analyse correspond alors au souci de faire jouer aux variables un rle proportionnel leur dispersion (alors que lanalyse norme fait jouer toutes les variables le mme rle dans le calcul des distances). Relations entre les ajustements des 2 nuages Considrons le tableau X ayant n lignes et p colonnes, donnant naissance un nuage de n points lignes et un autre nuage de p points colonnes. La technique danalyse factorielle de ce tableau conduit des rductions de volume de donnes, des reconstitutions approches et des reprsentations graphiques. Elle consiste pour www.deenov.com Alain Morineau Page 44 DeeNov lessentiel trouver les sous espaces qui sapprochent au plus prs de ces nuages. Ces sous espaces sont dfinis par des vecteurs unitaires orthogonaux successifs, porteurs des directions successives de plus grand allongement des nuages : - u1, u2,, up pour le nuage des n points-lignes - v1, v2,, vp pour le nuage des p points-colonnes Noter que ces deux espaces, sans avoir de points communs, ont en fait la mme dimension p (le rang de la matrice X : la plus petite des valeurs n et p, cest--dire p en gnral). Les n points-lignes projets sur le plan (u1,u2) fournissent la meilleure reprsentation approche (au sens des moindres carrs) de la configuration du nuage de ces points. De la mme faon, la projection des p points-colonnes sur le plan (v1,v2) fournit la meilleure visualisation dans un plan du nuage des points-variables. Dans chaque cas, le critre des moindres carrs invoqu est le suivant : la somme des carrs des distances entre tous les couples de points sur le plan est la plus proche possible de la somme relle des carrs des distances dans lespace complet. A. Morineau A. Morineau 8 8 DeeNov DeeNov, 2005 , 2005Relations de transitionLe tableau X et son transpos X sont les matrices de passage entre les axes des deux espaces11u X vv X uo ooo oo ' = = Les coordonnes des projections sur les axes dans Rpet Rnsont les lignes de Xuoet de Xvo www.deenov.com Alain Morineau Page 45 DeeNov Reconstitution approche. Combien daxes retenir ? Avec les premires composantes principales, nous recomposons la majeure partie de la dispersion entre les points. Mais combien d'axes faut-il retenir? A. Morineau A. Morineau 9 9 DeeNov DeeNov, 2005 , 2005si les p q plus petites valeurs propres sont juges ngligeables 1 1p qX v u v uo o o o o oo= o=' ' = ~ (Compression des donnes )Reconstitution approche La question est difficile et n'admet certainement pas de rponse dfinitive. Il faut d'abord savoir quoi lon destine les axes que l'on veut retenir. Prenons quelques exemples: - On peut vouloir retenir les axes pour faire des reprsentations graphiques qu'il faudra examiner visuellement. Dans ce cas le nombre d'axes le plus confortable est 2, car on regardera les nuages sur une feuille de papier: ce sont les axes F1 et F2. On peut essayer de reprsenter le "volume" dans l'espace (F1, F2 et F3), mais les ralisations graphiques sont souvent difficiles lire. On ne peut rien voir au del de trois dimensions. On peut imaginer regarder des projections telles que (F2, F3) ou (F1, F4) mais l encore, l'effort "intellectuel" est norme pour visualiser les configurations de points o les distances lues sont le rsultats de compressions dans des directions qui ont disparu. S'il s'agit de visualisation plane donc, on se contentera le plus souvent du premier plan factoriel. Poir "voir" au del de ce plan, on aura recours en gnral la complmentarit apporte par les mthodes de classification. - Si on retient des axes factoriels comme support pour raliser une classification, le problme est diffrent. On cherche retenir beaucoup d'axes (pour rester aussi proche que possible des donnes observes), mais on supprimera les directions www.deenov.com Alain Morineau Page 46 DeeNov correspondant aux plus petites valeurs propres (fluctuations alatoires des donnes, ne correspondant aucune liaison relle entre les variables) pour assainir l'information utilise pour comparer les individus. - Si on veut utiliser les axes factoriels pour une analyse discriminante ou une rgression multiple, on cherchera retenir un petit nombre d'axes, mais pas ncessairement les premiers. On trouvera ventuellement des directions discriminantes dans des axes de rangs assez levs. Quel que soit le cas, la rponse n'est pas immdiate, elle est lie la stabilit des rsultats obtenus. Nous devons nous mfier des rgles automatiques, et la pratique dmontre qu'il est possible de trouver des axes factoriels stables mme s'ils correspondent des valeurs propres faibles. Remarque. Pour diminuer la part dinertie de chaque axe, il suffit dajouter au tableau de donnes des nouvelles variables alatoires non corrles (bruit blanc). Le paradoxe est que (sil sagissait dinformation) "linformation" apporte par les premiers axes reste inchange. www.deenov.com Alain Morineau Page 47 DeeNov Glossaire succinct On rassemble ici quelques mots du vocabulaire utilis de faon courante dans le texte. Il y a une large part darbitraire dans le choix de tel mot plutt que tel autre mais limportant est de lever dventuelles ambiguts. A. Morineau A. Morineau 10 10 DeeNov DeeNov, 2005 , 2005ComposantesprincipalescontinuesactivesF2F1F2F1F2F1F2F1X1X2X4X3cont.act.ind.Act.FHgeElmentsactifsElmentsillustratifsnomi. ill. cont. ill. Tableau de synthse de lACP Tableau de donnes: Cest un tableau rectangulaire compos de lignes et de colonnes. Dans chaque case, intersection dune ligne avec une colonne, se trouve une donne, code numriquement pour une variable continue, et numriquement ou alphabtiquement pour une nominale. On dit aussi matrice des donnes. On parle galement du tableau individus x variables. Le tableau est souvent not X; il aura n lignes et p colonnes. Individu (individu statistique): Pour nous, ce sera ici une ligne du tableau de donnes. Cest la dimension rptitive du tableau de donnes: on a des relevs statistiques, des mesures, des rponses pour un individu (premire ligne du tableau), puis pour un autre (deuxime ligne), etc. Variable: Toute colonne du tableau de donnes sera appele une variable. Pour chaque individu, on fait les mmes mesures, les mmes relevs, on pose les mmes questions. Au lieu de variable, on peut dire mesure, ou paramtre, ou question, etc. Variable continue: On parle de variable continue quand la mesure faite sur lindividu est de type quantitatif. Pour fixer les ides, une variable est continue quand la notion de moyenne a un sens. Variable nominale: La variable est nominale quand les valeurs quelle prend sont des noms de catgories. Cest le cas du statut matrimonial, de lge sil est dcoup en classes, des rgions gographiques. On dit parfois variable qualitative, variable catgorielle, etc. www.deenov.com Alain Morineau Page 48 DeeNov Modalit: Les modalits sont les valeurs que prend une variable nominale. La variable Sexe a deux modalits. On peut dire aussi: groupe, catgorie, classe, etc. Nuage de points: Dans le plan ou dans lespace trois dimensions, la notion usuelle de nuage de points est claire: les points sont positionns en fonctions de leurs coordonnes sur un repre daxes orthogonaux et on sait calculer la distance (usuelle) entre deux points. Avec plus de trois axes de coordonnes, le nuage de points continue exister, mais naturellement on ne peut plus le visualiser. Distance: La distance entre deux points au sein dun nuage de points est la notion usuelle de distance (calculable en fonction des coordonnes des points par le clbre thorme de Pythagore). Inertie: Cest une notion mcanique mais en tout point quivalente ici la notion statistique de variance. Elle est lie la notion de dispersion dans lespace dun nuage de points pesants. Ainsi, si les individus ont des poids gaux, la direction de plus grande inertie dun nuage de points est sa direction de plus grand allongement. Centre de gravit: Le centre de gravit est le point moyen dun nuage de points pesants. Il y a quivalence ici entre la notion mcanique de centre de gravit et la notion statistique de point moyen. Analyse factorielle: Visualisation optimale d'un espace multidimensionel sur un ou plusieurs plans factoriels. ACP: Acronyme pour Analyse en Composantes Principales. Variables actives: Variables qui participent la construction des axes, du nuage de points projets. Variables illustratives: Variables qui n'ont pas particip la construction des axes, mais permettent d'illustrer les diffrents plans factoriels. Contribution: Mesure la participation d'un lment (modalit, variable, frquence ou individu) la construction de l'axe. Cosinus: Mesure la qualit de la projection d'un lment lment (modalit, variable, frquence ou individu) sur l'axe. Valeur-test: (ou v-test) Mesure, en nombre d'carts-types d'une loi normale, la distance entre une valeur statistique observe et sa valeur sous l'hypothse nulle (=tirage au hasard). Sert caracteriser les axes, les modalits, les classes, etc. www.deenov.com Alain Morineau Page 49 D