introduction mod`ele acp repr´esentations graphiques choix ...myplatform.yolasite.com/resources/a c...

'

&

$

%

Plan du cours

Analyse en Composantes Principales

enib c© mp2003-2004 . . . . 1

Introduction– Les donnees

– Leurs representations

– La methode

Modele ACP– Interpretation statistique

– Espace principal

– Composantes Principales

Representations Graphiques– Individus (qualite globale et individuelle)

– Variables (qualite de representation et interpretation)

Choix de dimension– Part d’inertie

– Eboulis des valeurs propres

Pratique de l’ACP– Preparation des mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TP No2 Scilab

– Interpretation des resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TP No2 Scilab

Bibliographie

'

&

$

%

ACP

Introduction

enib c© mp2003-2004 . . . . 2

1. Les donneesp variables statistiques Y j, (j = 1 · · · p),

n individus affectes des poids wi, (i = 1 · · ·n).

∀i = 1 · · ·n : wi > 0 etn∑

i=1

wi = 1 ;

∀i = 1 · · ·n : yji = Y j(i), mesure de Y j sur le ieme individu.

Y =

y11 . . . yj

1 . . . yp1

......

...

y1i . . . yj

i . . . ypi

......

...y1

n . . . yjn . . . yp

n

.

2. Leurs representationsespace des individus : E = (IRp, E ,M)

espace des variables :

F = (IRn,F , D), avec D = diag(w1, · · · , wn)

3. La methode→ representations graphiques “optimales” de E et F

'

&

$

%

ACP

Modele ACP

enib c© mp2003-2004 . . . . 3

1. Interpretations statistiquesvariables centrees (vecteurs de F ).– longueur d’un vecteur → ecart-type,– cosinus d’un angle → correlation.

2. Espace principalObservation = Modele + Bruit.

Les uk sont les vecteurs propres D-orthonormes

de la matrice XMX ′D associes aux valeurs

propres λk rangees par ordre decroissant.

Les vk, appeles vecteurs principaux, sont les

vecteurs propres M -orthonormes de la matrice

X ′DXM = SM associes aux memes valeurs

propres ; axes principaux = vect{vk}.Espace principal : Eq = vect{v1 · · · vq}.Projection sur l’espace principal : Pq est la

matrice de projection M -orthogonale sur Eq.

3. Composantes Principales

ziq = Pqxi + y.

∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

Moyenne empirique de Y j : yj =⟨yj,1n

⟩D = yj′D1n.

Barycentre des individus : y = Y′D1n.

Centrage de Y j : xj = yj − yj1n.Matrice des donnees centrees : X = Y − 1ny

′.Ecart-type de Y j : σj = (xj′Dxj)1/2 =

∥∥xj∥∥

D .

Covariance de Y j et Y k : xj′Dxk =⟨xj, xk

⟩D .

Matrice des covariances : S =∑n

i=1 wixix′i = X′DX.

Correlation de Y j et Y k :〈xj ,xk〉

D

‖xj‖D‖xk‖D = cos θD(xj, xk).

∣∣∣∣∣∣∣∣

{yi ; i = 1, . . . , n}, n vecteurs aleatoires independants de E,

yi = zi + εi , i = 1, . . . , n avec

{E(εi) = 0, var(εi) = σ2Γ,σ > 0 inconnu, Γ reguliere et connue,

∃Aq, sous-espace affine de dimension q de E tel que ∀i, zi ∈ Aq (q < p).

∣∣∣minZ

{‖X− Z‖M,D ;Z ∈Mn,p, rang(Z) = q

}.

∣∣∣∣∣Zq =

q∑

k=1

λ1/2k ukv

k′ = UqΛ1/2V′

q = XPq

′, ou Pq = VqV

′qM.

'

&

$

%

ACP

Representations Graphiques

enib c© mp2003-2004 . . . . 4

1. IndividusProjection dans l’espace principal : graphiques obtenus → representer “au mieux” les distances inter-individusmesurees par la metrique M . Chaque individu i represente par xi est approche par sa projection M -orthogonale zi

q sur lesous-espace Eq engendre par les q premiers vecteurs principaux {v1, . . . , vq}. En notant ei un vecteur de la base canoniquede E, la coordonnee de l’individu i sur vk est donnee par

⟨xi, v

k⟩M = x′iMvk = e′iXMvk = ck

i . Les coordonnees de la

projection M -orthogonale de xi sur Eq sont les q premiers elements de la ieme ligne de la matrice C des composantesprincipales. Les individus sont etiquetes dans l’espace principal, afin de les reconnaıtre.

Qualite globale : part de dispersion expliquee rq =tr(SMPq)

tr(SM)=

∑qk=1 λk∑pk=1 λk

.

Qualite individuelle : cosinus carre de l’angle qu’il forme avec sa projection [cos θ(xi, ziq)]2 =

‖Pqxi‖2M

‖xi‖2M

=

∑qk=1(c

ki )

2∑p

k=1(cki )

2

2. VariablesProjection dans l’espace principal : graphiques obtenus → representer “au mieux” les correlations entre les variables(cosinus des angles) et, si celles-ci ne sont pas reduites, leurs variances (longueurs). Une variable Xj (ou Y j) est representee

par la projection D-orthogonale Qqxj sur le sous-espace Fq engendre par les q premiers axes factoriels. La coordonnee

de xj sur uk est⟨xj, uk

⟩D = xj′Duk =

1√λk

xj′DXMvk =1√λk

ej′X′DXMvk =√

λkvkj . Les coordonnees de la projection

D-orthogonale de xj sur le sous-espace Fq sont les q premiers elements de la j eme ligne de la matrice VΛ1/2.

Qualite de representation :[cos θ(xj, Qqx

j)]2

=‖Qqx

j‖2D

‖xj‖2D

=

∑qk=1 λk(v

jk)

2

∑pk=1 λk(v

jk)

2.

Interpretation (correlations principales / initiales) : cor(Xj, Ck) = cos θ(xj, ck) = cos θ(xj, uk) =〈xj, uk〉D‖xj‖D

=

√λk

σjvk

j .

'

&

$

%

ACP

Choix de dimension

enib c© mp2003-2004 . . . . 5

1. Part d’inertieLa “qualite globale” des representations est mesuree par la part d’inertie “expliquee” rq. La valeur de q est choisie de

sorte que cette part d’inertie expliquee rq soit superieure a une valeur seuil fixee a priori par l’utilisateur (rq=p = 1).

C’est souvent le seul critere employe.

2. Eboulis des valeurs propres

C’est le graphique presentant la decroissance

des valeurs propres. Le principe consiste a re-

chercher, s’il existe, un “coude” (changement

de signe dans la suite des differences d’ordre 2)

dans le graphe et de ne conserver que les va-

leurs propres jusqu’a ce coude. Intuitivement,

plus l’ecart (λq − λq+1) est significativement

grand, par exemple superieur a (λq−1 − λq), et

plus on peut etre assure de la stabilite de Eq.

321 4 5 6 70

0.2

0

0.4

0.6

0.8

1

'

&

$

%

ACP

Pratique de l’ACP

enib c© mp2003-2004 . . . . 6

1. Preparation des mesuresTraitement prealable a l’execution d’un programme d’A.C.P. afin de :

(a) verifier la coherence et l’exactitude des donnees,

(b) eliminer certaines variables,

(c) proceder a d’eventuelles transformations de variables (racine, log...).

On obtient alors la matrice Y(n×p) qui sera centree par le programme.Options

(a) ponderation des individus (par defaut 1n) pour regrouper des donnees identiques, redresser un echantillon...

(b) metrique de l’espace des individus : par defaut M=Ip ; pour ponderer les variables : M = diag(a21, . . . , a

2p).

2. Interpretation des resultatsLes contributions permettent d’identifier les individus tres influents pouvant determiner a eux seuls l’orientation

de certains axes ; ces points sont verifies, caracterises, puis eventuellement consideres comme supplementaires dans

une autre analyse.

Choisir le nombre de composantes a retenir, c’est-a-dire la dimension des espaces de representation.

Axes factoriels interpretes par rapport aux variables initiales.

Qualites de representation des variables initiales.

L’A.C.P. est une technique lineaire optimisant un critere quadratique ; elle ne tient doncpas compte d’eventuelles liaisons non lineaires et presente une forte sensibilite aux valeursextremes.

'

&

$

%

ACP

Bibliographie

enib c© mp2003-2004 . . . . 7

1. Cibois, P. (1983) L’Analyse factorielle : analyse en composantes principales et analysedes correspondances. Presses Universitaires de France, ISBN : 2-13037939-7.

2. Philippeau, A. (1986) Comment interpreter les resultats d’une analyse en composantesprincipales ? Lavoisier.

3. Salles-Le Gac, D. et Herrera, R.R. (2002) Initiation a l’analyse factorielle des donnees.Fondements mathematiques et interpretations - Cours et Exercices corriges. Eyrolles,Ellipses, ISBN : 2-7298-1119-2.

4. Claereboudt, M. et Dufour, P. Analyse des donnees : Similarite des atolls et relationsentre les types d’atoll et les caracteristiques de leur colonne d’eau en saison seche.http ://www.com.univ-mrs.fr/IRD/atollpol/typatoll/simtypsc.htm

introduction mod`ele acp repr´esentations graphiques choix ...myplatform.yolasite.com/resources/a c...

Documents