introduction mod`ele acp repr´esentations graphiques choix ...myplatform.yolasite.com/resources/a c...
TRANSCRIPT
'
&
$
%
Plan du cours
Analyse en Composantes Principales
enib c© mp2003-2004 . . . . 1
Introduction– Les donnees
– Leurs representations
– La methode
Modele ACP– Interpretation statistique
– Espace principal
– Composantes Principales
Representations Graphiques– Individus (qualite globale et individuelle)
– Variables (qualite de representation et interpretation)
Choix de dimension– Part d’inertie
– Eboulis des valeurs propres
Pratique de l’ACP– Preparation des mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TP No2 Scilab
– Interpretation des resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TP No2 Scilab
Bibliographie
'
&
$
%
ACP
Introduction
enib c© mp2003-2004 . . . . 2
1. Les donneesp variables statistiques Y j, (j = 1 · · · p),
n individus affectes des poids wi, (i = 1 · · ·n).
∀i = 1 · · ·n : wi > 0 etn∑
i=1
wi = 1 ;
∀i = 1 · · ·n : yji = Y j(i), mesure de Y j sur le ieme individu.
Y =
y11 . . . yj
1 . . . yp1
......
...
y1i . . . yj
i . . . ypi
......
...y1
n . . . yjn . . . yp
n
.
2. Leurs representationsespace des individus : E = (IRp, E ,M)
espace des variables :
F = (IRn,F , D), avec D = diag(w1, · · · , wn)
3. La methode→ representations graphiques “optimales” de E et F
'
&
$
%
ACP
Modele ACP
enib c© mp2003-2004 . . . . 3
1. Interpretations statistiquesvariables centrees (vecteurs de F ).– longueur d’un vecteur → ecart-type,– cosinus d’un angle → correlation.
2. Espace principalObservation = Modele + Bruit.
Les uk sont les vecteurs propres D-orthonormes
de la matrice XMX ′D associes aux valeurs
propres λk rangees par ordre decroissant.
Les vk, appeles vecteurs principaux, sont les
vecteurs propres M -orthonormes de la matrice
X ′DXM = SM associes aux memes valeurs
propres ; axes principaux = vect{vk}.Espace principal : Eq = vect{v1 · · · vq}.Projection sur l’espace principal : Pq est la
matrice de projection M -orthogonale sur Eq.
3. Composantes Principales
ziq = Pqxi + y.
∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣
Moyenne empirique de Y j : yj =⟨yj,1n
⟩D = yj′D1n.
Barycentre des individus : y = Y′D1n.
Centrage de Y j : xj = yj − yj1n.Matrice des donnees centrees : X = Y − 1ny
′.Ecart-type de Y j : σj = (xj′Dxj)1/2 =
∥∥xj∥∥
D .
Covariance de Y j et Y k : xj′Dxk =⟨xj, xk
⟩D .
Matrice des covariances : S =∑n
i=1 wixix′i = X′DX.
Correlation de Y j et Y k :〈xj ,xk〉
D
‖xj‖D‖xk‖D = cos θD(xj, xk).
∣∣∣∣∣∣∣∣
{yi ; i = 1, . . . , n}, n vecteurs aleatoires independants de E,
yi = zi + εi , i = 1, . . . , n avec
{E(εi) = 0, var(εi) = σ2Γ,σ > 0 inconnu, Γ reguliere et connue,
∃Aq, sous-espace affine de dimension q de E tel que ∀i, zi ∈ Aq (q < p).
∣∣∣minZ
{‖X− Z‖M,D ;Z ∈Mn,p, rang(Z) = q
}.
∣∣∣∣∣Zq =
q∑
k=1
λ1/2k ukv
k′ = UqΛ1/2V′
q = XPq
′, ou Pq = VqV
′qM.
'
&
$
%
ACP
Representations Graphiques
enib c© mp2003-2004 . . . . 4
1. IndividusProjection dans l’espace principal : graphiques obtenus → representer “au mieux” les distances inter-individusmesurees par la metrique M . Chaque individu i represente par xi est approche par sa projection M -orthogonale zi
q sur lesous-espace Eq engendre par les q premiers vecteurs principaux {v1, . . . , vq}. En notant ei un vecteur de la base canoniquede E, la coordonnee de l’individu i sur vk est donnee par
⟨xi, v
k⟩M = x′iMvk = e′iXMvk = ck
i . Les coordonnees de la
projection M -orthogonale de xi sur Eq sont les q premiers elements de la ieme ligne de la matrice C des composantesprincipales. Les individus sont etiquetes dans l’espace principal, afin de les reconnaıtre.
Qualite globale : part de dispersion expliquee rq =tr(SMPq)
tr(SM)=
∑qk=1 λk∑pk=1 λk
.
Qualite individuelle : cosinus carre de l’angle qu’il forme avec sa projection [cos θ(xi, ziq)]2 =
‖Pqxi‖2M
‖xi‖2M
=
∑qk=1(c
ki )
2∑p
k=1(cki )
2
2. VariablesProjection dans l’espace principal : graphiques obtenus → representer “au mieux” les correlations entre les variables(cosinus des angles) et, si celles-ci ne sont pas reduites, leurs variances (longueurs). Une variable Xj (ou Y j) est representee
par la projection D-orthogonale Qqxj sur le sous-espace Fq engendre par les q premiers axes factoriels. La coordonnee
de xj sur uk est⟨xj, uk
⟩D = xj′Duk =
1√λk
xj′DXMvk =1√λk
ej′X′DXMvk =√
λkvkj . Les coordonnees de la projection
D-orthogonale de xj sur le sous-espace Fq sont les q premiers elements de la j eme ligne de la matrice VΛ1/2.
Qualite de representation :[cos θ(xj, Qqx
j)]2
=‖Qqx
j‖2D
‖xj‖2D
=
∑qk=1 λk(v
jk)
2
∑pk=1 λk(v
jk)
2.
Interpretation (correlations principales / initiales) : cor(Xj, Ck) = cos θ(xj, ck) = cos θ(xj, uk) =〈xj, uk〉D‖xj‖D
=
√λk
σjvk
j .
'
&
$
%
ACP
Choix de dimension
enib c© mp2003-2004 . . . . 5
1. Part d’inertieLa “qualite globale” des representations est mesuree par la part d’inertie “expliquee” rq. La valeur de q est choisie de
sorte que cette part d’inertie expliquee rq soit superieure a une valeur seuil fixee a priori par l’utilisateur (rq=p = 1).
C’est souvent le seul critere employe.
2. Eboulis des valeurs propres
C’est le graphique presentant la decroissance
des valeurs propres. Le principe consiste a re-
chercher, s’il existe, un “coude” (changement
de signe dans la suite des differences d’ordre 2)
dans le graphe et de ne conserver que les va-
leurs propres jusqu’a ce coude. Intuitivement,
plus l’ecart (λq − λq+1) est significativement
grand, par exemple superieur a (λq−1 − λq), et
plus on peut etre assure de la stabilite de Eq.
321 4 5 6 70
0.2
0
0.4
0.6
0.8
1
'
&
$
%
ACP
Pratique de l’ACP
enib c© mp2003-2004 . . . . 6
1. Preparation des mesuresTraitement prealable a l’execution d’un programme d’A.C.P. afin de :
(a) verifier la coherence et l’exactitude des donnees,
(b) eliminer certaines variables,
(c) proceder a d’eventuelles transformations de variables (racine, log...).
On obtient alors la matrice Y(n×p) qui sera centree par le programme.Options
(a) ponderation des individus (par defaut 1n) pour regrouper des donnees identiques, redresser un echantillon...
(b) metrique de l’espace des individus : par defaut M=Ip ; pour ponderer les variables : M = diag(a21, . . . , a
2p).
2. Interpretation des resultatsLes contributions permettent d’identifier les individus tres influents pouvant determiner a eux seuls l’orientation
de certains axes ; ces points sont verifies, caracterises, puis eventuellement consideres comme supplementaires dans
une autre analyse.
Choisir le nombre de composantes a retenir, c’est-a-dire la dimension des espaces de representation.
Axes factoriels interpretes par rapport aux variables initiales.
Qualites de representation des variables initiales.
L’A.C.P. est une technique lineaire optimisant un critere quadratique ; elle ne tient doncpas compte d’eventuelles liaisons non lineaires et presente une forte sensibilite aux valeursextremes.
'
&
$
%
ACP
Bibliographie
enib c© mp2003-2004 . . . . 7
1. Cibois, P. (1983) L’Analyse factorielle : analyse en composantes principales et analysedes correspondances. Presses Universitaires de France, ISBN : 2-13037939-7.
2. Philippeau, A. (1986) Comment interpreter les resultats d’une analyse en composantesprincipales ? Lavoisier.
3. Salles-Le Gac, D. et Herrera, R.R. (2002) Initiation a l’analyse factorielle des donnees.Fondements mathematiques et interpretations - Cours et Exercices corriges. Eyrolles,Ellipses, ISBN : 2-7298-1119-2.
4. Claereboudt, M. et Dufour, P. Analyse des donnees : Similarite des atolls et relationsentre les types d’atoll et les caracteristiques de leur colonne d’eau en saison seche.http ://www.com.univ-mrs.fr/IRD/atollpol/typatoll/simtypsc.htm