statistique - imagineimagine.enpc.fr/~dalalyan/links/stat-dess.pdf · 2005-09-23 · section 1.2...

51
STATISTIQUE MASTER 2:MATH ´ EMATIQUES POUR LENTREPRISE Arnak S. DALALYAN

Upload: others

Post on 04-Jan-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

STATISTIQUE

MASTER 2 : MATHEMATIQUES POUR L’ENTREPRISE

Arnak S. DALALYAN

Page 2: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle
Page 3: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Table des matieres

1 SAS et Statistique Descriptive 5

1.1 Introduction au logiciel SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Statistique descriptive unidimensionnelle . . . . . . . . . . . . . . . . . . . 7

2 Analyse en composantes principales 9

2.1 Donnees multivariees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 L’idee de l’Analyse en composantes principales (ACP) . . . . . . . . . . . . 10

2.3 ACP : cadre theorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 ACP : cadre empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5 Etude des correlations : cadre theorique . . . . . . . . . . . . . . . . . . . . 16

2.6 Etude des correlations : cadre empirique . . . . . . . . . . . . . . . . . . . . 19

2.7 Representation graphique des resultats de l’ACP . . . . . . . . . . . . . . . 20

2.8 Limites d’utilisation de l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Regression lineaire multivariee 23

3.1 Le probleme d’estimation de regression multivariee . . . . . . . . . . . . . 23

3.2 Methode des moindres carres . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.3 Proprietes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.4 Regression lineaire normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.5 Application au probleme de prevision . . . . . . . . . . . . . . . . . . . . . 30

3.6 Application aux tests sur le parametre ϑ . . . . . . . . . . . . . . . . . . . . 32

3.7 Proprietes empiriques de l’EMC . . . . . . . . . . . . . . . . . . . . . . . . 35

3.8 Selection de modele : critere de Mallow . . . . . . . . . . . . . . . . . . . . 37

3.9 Analyse de variance a un facteur (One way ANOVA) . . . . . . . . . . . . 39

Page 4: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

4 Table des matieres Chapitre 0

4 Exercices corriges 43

4.1 Analyse en Composantes Principales . . . . . . . . . . . . . . . . . . . . . . 43

4.2 Regression multilineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Page 5: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

1SAS et Statistique Descriptive

1.1 Introduction au logiciel SAS

Le but de cette section est de decrire les bases de l’utilisation du logiciel SAS destinea effectuer un traitement statistique des donnees.

SAS = STATISTICAL ANALYSIS SYSTEM

Le logiciel SAS contient un language de programmation qu’on va decrire ci-dessous.Les fichiers contenant le code d’un programme SAS ont pour terminaison .sas. Pourexecuter le programme SAS, il faut soumettre (submit) le fichier contenant le code a lacompilation. Le resultat sera affiche et un fichier ayant pour terminaison .log et conte-nant un rapport sur les erreurs eventuelles sera cree. Pour traiter des donnees, il fautles enregistrer dans un fichier ayant la terminaison .dat. On conviendra que dans unetable de donnees les colonnes sont les variables et les lignes sont les valeurs observeesde chaque variable.

Tout programme SAS contient deux etapes : l’etape (dite etape DATA) qui declare etdecrit les donnees et l’etape PROC qui declare les procedures utilisees pour traiter lesdonnees. Un programme SAS peut avoir plusieurs declarations DATA et PROC. Chaquedeclaration DATA ou PROC doit se terminer par la declaration RUN. Un programmeSAS, peut contenir egalement des instructions specifiant les options de l’affichage etde l’impression des resultats. Ces instructions peuvent etre incluses dans un endroitquelconque du code. Toute instruction est suivie d’un point-virgule ’ ;’.

Page 6: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

6 SAS et Statistique Descriptive Chapitre 1

L’exemple le plus simple et le plus utile de declaration DATA est le suivant :'

&

$

%

1. DATA EXEMPLE1 ;

2. INFILE ’/home/p6ens/dupont/tpsa.dat’ ;

3. INPUT Taille Poids Sexe $ Age ;

4. LABEL Taille=’Taille (en cm)’ Poids=’Poids (en kg)’ ;

5. RUN ;

6. OPTIONS LINESIZE=70 PAGESIZE=66 NODATE ;

7. TITLE ;

8. FOOTNOTE ’Mon Premier Programme’ ;

Dans cet exemple, on commence par creer la table nommee EXEMPLE1. On declareensuite que les donnees de cette table se trouvent dans le fichier tpsa.dat du reper-toire /home/p6ens/dupont/. La troisieme ligne indique que la premiere colonne du fi-chier contient les valeurs de la variable Taille, la deuxieme les valeurs de la variablePoids, etc. Le fait que la variable Sexe est suivie de $ designe le caractere qualitatif decette variable. La quatrieme ligne permet de decrire clairement les variables. Elle esttres utile lorsque la description d’une variable est longue. Par exemple, si la variabled’interet est la duree du travail, on peut la declarer dans l’instruction INPUT comme va-riable duree et ajouter l’instruction LABEL duree=’Duree du travail’. Ainsi, a chaqueimpression de table de donnees on aura Duree du travail au lieu de duree en entetede colonne correspondante, a condition que la procedure PRINT soit appelee avec l’op-tion LABEL. On termine cette instruction DATA par la commande RUN. Les trois derniereslignes contiennent les options d’affichage :

– afficher 70 caracteres par ligne,– afficher 66 lignes par page,– ne pas afficher la date,– ne pas afficher de titre,– afficher Mon Premier Programme en bas de chaque page.

On termine cette section par donner un exemple d’etape PROC.¾

½

»

¼

1. PROC PRINT LABEL DATA=EXEMPLE1 NOOBS ;

2. VAR Sexe Poids ;

3. RUN ;

La premiere ligne appelle la procedure PRINT, dont le but est d’afficher les donnees,avec les options LABEL, DATA et NOOBS. On a deja explique la fonction de l’option LABEL.L’option DATA indique la table de donnees a afficher. Si cette option n’est pas specifiee,la derniere table declaree sera affichee. L’option NOOBS (provenant de NO OBServa-tions) permet de ne pas afficher la colonne contenant les numeros des observations.La deuxieme ligne indique que seules les variables Sexe et Poids doivent etre affichees.

Page 7: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 1.2 Statistique descriptive unidimensionnelle 7

1.2 Statistique descriptive unidimensionnelle

Dans cette section, on se place dans le cadre suivant : on dispose n observationsx1, . . . , xn d’une variable quantitative X. Le but est de donner la definition des quantitesstatistiques et de decrire leur champs d’utilisation. On se concentre surtout sur les quan-tites statistiques calculables a l’aide de la procedure UNIVARIATE de SAS (avec l’optionVARDEF=N, indiquant que le denominateur dans le calcul de l’ecart-type est n).

On appelle souvent la suite x1, . . . , xn echantillon ; n est alors la taille de cet echantillon.

PARAMETRES DE POSITION

– la moyenne (mean) : x = (x1 + . . . + xn)/n,– la mediane (median) : la valeur qui decoupe l’echantillon en deux partiescomportant le meme nombre d’elements,– le mode (mode) : la valeur observee la plus frequente.

PARAMETRES DE VARIABILITE OU DE DISPERSION

– l’ecart-type (std deviation) : σ =( 1

n ∑ni=1(xi − x)2)1/2,

– la variance (variance) : σ2,– l’etendue (range) : la difference entre les valeurs extremes,– l’ecart interquartile (interquartile range) : la difference entre le 1er et le3eme quartiles,– le coefficient de la variation (coeff variation) : = 100 · σ/x.

PARAMETRES DE FORME

– le coefficient d’asymetrie (skewness) : α = 1nσ3 ∑n

i=1(xi − x)3. Si la dis-tribution est symetrique, α = 0. Si α < 0, on dit qu’il y a une asymetrie agauche et cela signifie que la moyenne est plus petite que la mediane (c’est-a-dire, le nombre d’observations superieures a la moyenne est plus grandque le nombre d’observations inferieures a la moyenne).– le coefficient d’aplatissement (kurtosis) : β = 1

nσ4 ∑ni=1(xi − x)4 − 3. C’est

une quantite mesurant l’epaisseur des queues de la distribution. Si β = 0, ladistribution a des queues gaussiennes. Pour β > 0, les queues sont plusepaisses que celles de la loi normale. Pour β < 0, les queues sont plusminces (ou plus legeres) que celles de la loi normale.

STATISTIQUES DE TEST ET p-VALUES

Lorsqu’on effectue la procedure UNIVARIATE de SAS, les deux hypotheses suivantessont automatiquement testees : m = µ0 et Med = µ0. La valeur de µ0 par defaut est 0,mais on peut la changer en specifiant l’option MU0=.

Page 8: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

8 SAS et Statistique Descriptive Chapitre 1

Afin de tester l’hypothese m = µ0, ou m est la moyenne, la procedure UNIVARIATE

utilise la statistique de Student : t =√

n(x− µ0)/σ. Cette statistique n’est calculee quedans le cas ou le denominateur de l’ecart-type est n− 1 (ce qui est la valeur par defaut).Pour accepter l’hypothese m = µ0, il faut que la p-value ne soit pas trop petite. Parconvention, on accepte l’hypothese si la p-value depasse 0.05.

La procedure UNIVARIATE utilise deux tests afin de tester l’hypothese Med = µ0 : letest de signes et le tests des rangs signes. On ne donnera pas ici les definitions exactesde ces tests.

Page 9: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

2Analyse en composantes principales

2.1 Donnees multivariees

Soit x ∈ Rp un vecteur aleatoire : x = (ξ1, . . . , ξp)T, ou vT designe le transposedu vecteur v. Un echantillon multidimensionnel est une suite x1, . . . , xn de realisationsaleatoires du vecteur x, c’est-a-dire que chaque xi est de meme loi que x pour tout i =1, . . . , n.

Dans ce chapitre, Xij designe la j eme composante du vecteur xi, c’est-a-dire la i eme

realisation de la variable aleatoire ξ j. Les Xij forment la matrice aleatoire

X =

X11 · · · X1p... . . . ...

Xn1 · · · Xnp

=

xT1...

xTn

que l’on appelle matrice des donnees ou tableau des donnees. A partir de la matricedes donnees X, on peut calculer les statistiques suivantes :

a) Les moyennes empiriques

Xk =1n

n

∑i=1

Xik, k = 1, . . . , p,

Page 10: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

10 Analyse en composantes principales Chapitre 2

qui forment le vecteur

x =

X1...

Xn

=

1n

n

∑i=1

xi =1n

XT1 avec 1 =

1...1

∈ Rn.

b) Les covariances empiriques

sjk =1n

n

∑i=1

XijXik − XjXk, k, j = 1, . . . , p

qui forment la matrice S = (sjk)k,j=1,...,p que l’on appelle matrice de covarianceempirique.

c) Les correlations empiriques

rjk =sjk√skksjj

, k, j = 1, . . . , p

qui forment la matrice R = (rjk)k,j=1,...,p que l’on appelle matrice de correlationempirique.

Il est facile de voir que

S =1n

XTX− xxT =1n

XTX− 1n2 XT11TX =

1n

XT HX

ou la matrice H = In − n−111T est appelee matrice centring.

Exercice 2.1. Montrer que H est un projecteur, i. e. H = H2 et HT = H. Sur quel sous-espacevectoriel de Rn projette-t-il ?

Notons que la matrice de covariance empirique S est positive, en effet pour toutvecteur a ∈ Rp on a

aTSa =1n

aTXT HXa =1n

aTXT HHXa =1n

yTy ≥ 0,

ou y = HTXa. De plus, si l’on note par D la matrice diagonale diag{√s11, . . . ,√spp}, onobtient S = DRD, donc la matrice de correlation empirique R est aussi positive.

2.2 L’idee de l’Analyse en composantes principales (ACP)

L’Analyse en composantes principales (ACP) est une methode de traitement desdonnees multidimensionnelles qui poursuit les deux objectifs suivants :

Page 11: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 2.2 L’idee de l’Analyse en composantes principales (ACP) 11

– visualiser les donnees,– reduire la dimension effective des donnees.

Geometriquement, les donnees multidimensionnelles forment un nuage des pointsdans Rp (un point de ce nuage correspond a un xi). Si la dimension p est superieure a 3,ce qui est le plus souvent le cas, on ne peut pas visualiser ce nuage. Le seul moyen devisualiser les donnees est alors de considerer leurs projections sur des droites, sur desplans ou eventuellement sur des espaces de dimension 3. Ainsi, si a = (a1, . . . , ap) ∈ Rp

est une direction de projection (c’est-a-dire un vecteur de norme un : ‖a‖2 = a21 + · · ·+

a2p = 1), les donnees projetees (aTx1, . . . , aTxn) forment un echantillon de dimension

1 que l’on peut visualiser et qui est donc plus facile a interpreter que l’echantillon dedepart (x1, . . . , xn).

Si la dimension p est grande, elle est d’habitude redondante. En realite la “vraie”dimension des donnees p∗ est souvent beaucoup plus petite que p. L’ACP a pour objectifde trouver un sous-espace lineaire de Rp de dimension p∗ ¿ p tel que la projection surce sous-espace “capte” presque toute la structure des donnees.

� ����

����

Fig. 2.1. Bonne et mauvaise directions de projection.

Dans l’exemple de la Figure 2.1, on voit clairement que si l’on projette les donneesxi (representees par des points noirs) sur la direction a(1), certaines projections coınci-deront. Par contre, la projection de ces donnees sur la direction a(2) donne des valeursdeux a deux distinctes. On voit que la projection sur cette derniere direction est plusinformative que sur la premiere, donc plus interessante.

L’idee de base de l’ACP est de chercher la direction a ∈ Rp “la plus interessante”,pour laquelle les donnees projetees seront le plus dispersees possibles, c’est-a-dire ladirection qui maximise en a la variance empirique de l’echantillon unidimensionnel(aTx1, . . . , aTxn) (cf. definition de la variance empirique au Chapitre 4) :

s2a

def=1n

n

∑i=1

(aTxi)2 −(

1n

n

∑i=1

(aTxi))2

=1n

aT( n

∑i=1

xixTi

)a− 1

n2 aT( n

∑i=1

xi

n

∑i=1

xTi

)a = aTSa,

Page 12: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

12 Analyse en composantes principales Chapitre 2

ou S designe la matrice de covariance empirique introduite au paragraphe precedent. Ilen resulte que la direction la plus interessante a est une solution de

maxa∈Rp :‖a‖=1

aTSa = aTSa,

ou ‖ · ‖ est la norme euclidienne de Rp. On peut ecrire cette egalite sous la formeequivalente

a = arg maxa∈Rp :‖a‖=1

aTSa. (2.1)

Le vecteur a ainsi defini maximise la variance empirique unidimensionnelle s2a en a tels

que ‖a‖ = 1. De la meme maniere, on peut definir la direction “ideale” pour projeter lesdonnees, comme le vecteur a∗ qui maximise la variance theorique :

a∗ = arg maxa∈Rp :‖a‖=1

Var[aTx]. (2.2)

Pour que cette variance soit bien finie, on suppose que E[‖x‖2] < ∞. Dans ce qui suit,on utilisera les notations suivantes pour la moyenne et la matrice de covariance de x :

E(x) = µ, V(x) = Σ.

(ici µ est un vecteur de Rp et Σ est une matrice symetrique et positive de dimensionp×p).

2.3 ACP : cadre theorique

Nous nous interesserons ici a la solution du probleme de maximisation (2.2). SoitΣ = ΓΛΓT une decomposition spectrale de la matrice de covariance, ou Γ est une ma-trice p× p orthogonale et Λ est une matrice p× p diagonale. On notera

Λ =

λ1 0 · · · 00 λ2 · · · 0... . . . . . . ...0 0 · · · λp

, Γ =

(γ(1), . . . , γ(p)

),

ou les λi sont les valeurs propres de Σ et les γ(i) sont les vecteurs propres orthonormesde Σ correspondants,

‖γ(i)‖ = 1, γT(j)γ(k) = 0, j 6= k.

Definition 2.1. La variable aleatoire ηj = γT(j)(x− µ) est dite jeme composante principale

du vecteur aleatoire x ∈ Rp.

Page 13: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 2.3 ACP : cadre theorique 13

EXEMPLE 2.1. Soit x un vecteur aleatoire de R2 de moyenne nulle et de matrice de co-variance

Σ =(

1 ρρ 1

), 0 ≤ ρ ≤ 1.

Considerons les vecteurs propres orthonormes de cette matrice

γ(1) =1√2

(11

), γ(2) =

1√2

(1

−1

).

Donc si les coordonnees de x sont ξ1 et ξ2, les composantes principales de x valent

η1 =ξ1 + ξ2√

2, η2 =

ξ1 − ξ2√2

.

D’une part, on peut facilement verifier que la variable aleatoire ηj est centree, c’est-a-dire E[ηj] = 0. D’autre part, en utilisant le fait que les γ(j) sont les vecteurs propres dela matrice de covariance Σ du vecteur aleatoire x, on obtient

Var[ηj] = E[γT(j)(x− µ)(x− µ)Tγ(j)] = γT

(j)Σγ(j) = γT(j)λjγ(j) = λj,

ou λj designe la valeur propre correspondant au vecteur propre γ(j). De meme, pourj 6= k,

Cov(ηj, ηk) = E[γT(j)(x− µ)(x− µ)Tγ(k)] = γT

(j)Σγ(k) = γT(j)λkγ(k) = 0,

car les vecteurs γ(j) sont orthonormes.

Theoreme 2.1. Soit x ∈ Rp un vecteur aleatoire tel que E(‖x‖2) < ∞. Alors a = γ(1) est unesolution du probleme (2.2), c’est-a-dire :

Var[aTx] = maxa∈Rp : ‖a‖=1

Var[aTx] = maxa∈Rp : ‖a‖=1

Var[aT(x− µ)].

Demonstration. La decomposition spectrale de la matrice Σ est de la forme

Σ = ΓΛΓT =p

∑j=1

λjγ(j)γT(j).

On a donc

Var[aTx] =p

∑j=1

λj(aTγ(j))(γT(j)a) =

p

∑j=1

λjc2j ,

ou cj = aTγ(j) est la projection du vecteur a sur la direction γ(j). Puisque les vecteurs

γ(j) forment une base orthonormee de Rp, on a c21 + · · ·+ c2

p = ‖a‖2. Comme λj ≤ λ1,on en deduit que

Var[aTx] =p

∑j=1

λjc2j ≤ λ1

p

∑j=1

c2j = λ1‖a‖2 = λ1.

Page 14: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

14 Analyse en composantes principales Chapitre 2

Par ailleurs, si a = a = γ(1), les coefficients cj sont tous nuls sauf le premier c1 = 1.

On a donc Var[aTx] = λ1. Par consequent, a est une solution du probleme de maximisa-tion (2.2) et Var[aTx] = λ1 = Var[η1].

Deuxieme composante principale. De la meme facon, on peut prouver que γ(2) est l’undes vecteurs qui maximise la variance Var[aTx] sur l’ensemble A1 = {a ∈ Rp : ‖a‖ =1 et a⊥ γ(1)}. En effet, comme a est orthogonal a γ(1) = a, sa projection c1 sur γ(1) estnulle. Par consequent, pour tout vecteur de A1, on a

Var[aTx] =p

∑j=2

λjc2j ≤ λ2

p

∑j=2

c2j = λ2‖a‖2 = λ2.

On voit donc que Var[γT(2)x] = λ2 = Var(η2).

k-eme composante principale. On demontre de la meme maniere que γ(k) est l’un des

vecteurs a ∈ Rp qui maximise Var[aTx] sur l’ensemble Ak−1 de tous les vecteurs denorme 1 orthogonaux aux γ(1), . . . , γ(k−1). On trouve dans ce cas maxa∈Ak−1 Var[aTx] =Var[ηk].

On voit donc que, du point de vue mathematique, l’ACP se reduit a la diagonalisa-tion de la matrice de covariance de x.

2.4 ACP : cadre empirique

Considerons maintenant le probleme de maximisation (2.1). Nous pouvons obtenirune solution de ce probleme par la meme methode qu’au paragraphe precedent, enremplacant la matrice de covariance Σ par la matrice de covariance empirique S (il suffitde noter que dans (2.2) Var[aTx] = aTΣa et de comparer (2.1) et (2.2)).

Comme S est une matrice symetrique, il existe une matrice orthogonale G et unematrice diagonale L telles que S = GLGT. Bien evidemment, ces matrices dependentde l’echantillon (x1, . . . , xn). Les elements diagonaux l1, . . . , lp, de la matrice L sont alorsles valeurs propres de S. De plus, les lj sont positifs, car S est une matrice positive. Onsuppose que les lj sont numerotes par ordre decroissant :

l1 ≥ l2 ≥ . . . ≥ lp ≥ 0.

On note g(j) le vecteur propre de norme 1 associe a la valeur propre lj.

Definition 2.2. On appelle la jeme composante principale empirique associee a l’echantillon(x1, . . . , xn) la fonction yj : Rp → R definie par

yj(z) = gT(j)(z− x) pour z ∈ Rp.

Page 15: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 2.4 ACP : cadre empirique 15

Soit yij = yj(xi). Considerons la matrice Y = (yij)i=1,...,n,j=1,...,p, de dimension n× p.Elle remplace la matrice des donnees X initiale. Les vecteurs-lignes y1, . . . , yn de lamatrice Y peuvent etre consideres comme un nouveau echantillon de donnees trans-formees (il s’agit d’une transformation affine de l’echantillon initial x1, . . . , xn). Dans lapratique, l’application de l’ACP est interessante s’il s’avere que les yi resident “essen-tiellement” dans un sous-espace de Rp de dimension beaucoup plus petite que p.

REMARQUES.1. Si les variables ξi sont de nature differente (par exemple, ξ1 est le prix d’un produit

en dollars et ξ2 est son poids en kilogrammes), dans la pratique on utilise l’ACPsur la matrice de correlation R plutot que l’ACP sur la matrice de covariance S,i.e. on cherche a maximiser aTRa au lieu de maximiser aTSa. Ceci est motive parle fait que les elements de R n’ont pas d’unite de mesure.

2. Si tous les elements de la matrice S sont strictement positifs, comme c’est le casdans l’exemple numerique analyse a la fin de ce chapitre, toutes les coordonneesde g(1) ont le meme signe (cf. Theoreme de Perron – Frobenius demontree ci-apres). Dans ce cas, la premiere composante principale empirique y1(·) s’appellefacteur de taille. La valeur y1(xi) est alors interpretee comme une caracteristiquede “taille” ou d’importance de l’individu i. Ainsi, dans l’exemple numerique quisera examine a la fin de ce chapitre, y1(xi) peut etre consideree comme une ca-racteristique du niveau general de l’etudiant numero i calculee a partir de sesnotes.

Proposition 2.1. (Theoreme de Perron – Frobenius.) Soit A = (aij)i,j=1,...,p une matricep× p symetrique dont tous les elements sont strictement positifs. Alors toutes les coordonneesdu premier vecteur propre de A ont le meme signe.

Demonstration. Soit g = (g1, . . . , gp) un vecteur propre orthonorme de A correspon-dant a sa plus grande valeur propre. Notons g = (|g1|, . . . , |gp|) le vecteur dont lescoordonnees sont les valeurs absolues des coordonnees respectives de g. D’une part, ilest evident que ‖g‖ = ‖g‖ = 1 et

gT Ag = max‖g‖=1

gT Ag,

ce qui implique que gT Ag ≥ gT Ag. D’autre part, comme tous les elements aij de A sontpositifs, on obtient

gT Ag =p

∑i,j=1

aijgigj ≤p

∑i,j=1

aij|gi||gj| = gT Ag.

On a alors gT Ag = gT Ag. De plus, gT Ag = gT Ag, car la matrice A est symetrique. Cesdeux egalites impliquent que

(g− g)T A(g + g) = 0. (2.3)

Page 16: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

16 Analyse en composantes principales Chapitre 2

Soit maintenant w = A(g + g). Comme tous les elements de A sont strictement positifset gi + |gi| ≥ 0, toutes les coordonnees du vecteur w sont positives.

On peut avoir les deux cas suivants.Cas 1 : toutes les coordonnees w1, . . . , wp de w sont strictement positives. Dans ce cas,les relations (g− g)w = 0 et gi ≥ gi impliquent que gi = gi pour tout i = 1, . . . , p. Parconsequent, tous les gi sont positifs.Cas 2 : il existe j0 tel que wj0 = 0. Comme w = A(g + g), la coordonnee wj0 vaut

wj0 = ∑i

aij0(gi + gi).

D’apres l’hypothese de la proposition, tous les coefficients aij0 sont strictement positifs.Il en resulte que gi + gi = 0 pour tout i. On en deduit que toutes les coordonnees de gsont negatives.

2.5 Etude des correlations : cadre theorique

Soit x ∈ Rp un vecteur aleatoire de moyenne µ et de matrice de covariance Σ. Ondefinit la variance totale de x par

E(‖x− µ‖2) = E((x− µ)T(x− µ)

)= E

((x− µ)TΓΓT(x− µ)

).

ou, d’apres les definitions introduites au Paragraphe 2.3,

ΓT(x− µ) =

γT(1)(x− µ)

...γT

(p)(x− µ)

=

η1...

ηp

def= y.

Compte tenu de ces notations et de l’egalite E(η2i ) = λi, ou λi est la ieme valeur propre

de Σ, on obtient l’expression suivante pour la variance totale :

E(‖x− µ‖2) = E(η21 + · · ·+ η2

p) = λ1 + · · ·+ λp = Tr(Σ).

Rappelons que la trace Tr(Σ) est la somme de ses elements diagonaux de la matrice Σ.

2.5.1 La part de variance expliquee

Definition 2.3. On appelle part de la variance totale de x expliquee par les k premierescomposantes principales (η1, . . . , ηk) la quantite

λ1 + · · ·+ λkλ1 + · · ·+ λp

=λ1 + · · ·+ λk

Tr(Σ).

Page 17: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 2.5 Etude des correlations : cadre theorique 17

On appelle part de la variance totale de x expliquee par la jeme composante principale ηj laquantite

λj

λ1 + · · ·+ λp.

Si pour un k < p, la part de la variance totale expliquee par les k premieres com-posantes principales est egale a 1, alors on dit que la variance totale est entierement ex-pliquee par les composantes η1, . . . , ηk. Cela signifie que seules les k premieres compo-santes principales contribuent a la variance totale du vecteur x, les (p− k) composantesrestantes etant des valeurs deterministes.

Analysons maintenant l’influence de la composante principale ηj sur la variable ξi,la ieme coordonnee du vecteur aleatoire x. Nous allons caracteriser cette influence parla valeur du coefficient de correlation Corr(ηj, ξi). Plus la valeur absolue de Corr(ηj, ξi)est proche de 1, mieux la composante principale ηj “explique” la variable ξi. Calculonsd’abord la matrice de covariance des vecteurs aleatoires x et y. On a

C(x, y) = E[(x− µ)yT] = E[(x− µ)(x− µ)TΓ] = ΣΓ = ΓΛΓTγ = ΓΛ.

Comme Cov(ξi, ηj) est le (i, j)eme element de cette matrice, on obtient

Cov(ξi, ηj) = γijλj.

La correlation ρij = Corr(ηj, ξi) entre ξi et ηj vaut

ρij =Cov(ξi, ηj)√

Var(ξi)Var(ηj)= γij

√λj

σii.

Proposition 2.2. Soit x ∈ Rp un vecteur aleatoire, tel que E(‖x‖2) < ∞ et σii > 0 pour touti = 1, . . . , p. Alors,

p

∑j=1

ρ2ij = 1 pour i = 1, . . . , p.

Demonstration. Soit P la matrice carree dont les elements sont les correlations ρij, i =1, . . . , p, j = 1, . . . , p. Soit encore ∆ une matrice diagonale dont les elements diagonauxsont σii :

∆ = diag(σ11, . . . , σpp).

Il est facile alors de verifier que P = ∆−1/2ΓΛ1/2. Par consequent,

PPT = ∆−1/2ΓΛ1/2Λ1/2ΓT∆−1/2 = ∆−1/2Σ∆−1/2 = P, (2.4)

ou P est la matrice formee par les correlations ρij = Corr(ξ,ξ j) entre les coordonnees ξiet ξ j de x. Pour conclure, il suffit de remarquer que d’une part ρii = 1 et d’autre part,d’apres (2.4), ρii = ∑

pj=1 ρ2

ij.

Page 18: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

18 Analyse en composantes principales Chapitre 2

Definition 2.4. On appelle ρ2ij part de variance de la variable ξi expliquee par la jeme

composante principale ηj.

Proposition 2.3. Supposons que les hypotheses de la Proposition 2.2 soient verifiees. Alors,pour tout sous-ensemble J de {1, . . . , p},

∑j∈J

λj =p

∑i=1

σiiρ2i J ,

ou ρ2i J = ∑j∈J ρ2

ij.

Demonstration.p

∑i=1

σiiρ2iJ =

p

∑i=1

σii ∑j∈J

γ2ij

λj

σii= ∑

j∈Jλj

p

∑i=1

γ2ij.

Le resultat de la proposition decoule du fait que la derniere somme vaut 1, car ‖γ(j)‖2 =∑

pi=1 γ2

ij = 1.

2.5.2 Disque des correlations

D’apres la Proposition 2.2, la somme des carres des deux correlations ρ2i1 + ρ2

i2 estinferieure ou egale a 1, donc tous les points de R2 ayant les coordonnees (ρi1, ρi2) ap-partiennent au disque de rayon 1 centre en 0, que l’on appelle dans le contexte de l’ACPdisque des correlations. Sa frontiere est appelee cercle des correlations. Plus le point(ρi1, ρi2) est proche du cercle des correlations, mieux la variable ξi est expliquee par lesdeux premieres composantes principales. Considerons maintenant la situation idealequand les points (ρi1, ρi2) et (ρk1, ρk2) se trouvent exactement sur le cercle, ce qui corres-pond au fait que les variables ξi et ξk sont entierement expliquees par les deux premierescomposantes principales.

Proposition 2.4. Soient ξi et ξk deux variables entierement expliquees par les deux premierescomposantes principales, i.e.

ρ2i1 + ρ2

i2 = 1 et ρ2k1 + ρ2

k2 = 1.

Alors, la correlation de ξi et ξk est donnee par la formule

ρik = ρi1ρk1 + ρi2ρk2 = cos(ϕ),

ou ϕ est l’angle forme par les vecteurs (ρi1, ρi2) et (ρk1, ρk2).

Demonstration. Vu que la variable ξi est entierement expliquee par η1 et η2, on a ρim =0, quel que soit m ≥ 3. De meme, pour ξk, on a ρkm = 0 pour tout m ≥ 3. CommeP = PPT, cela implique que

ρik = ρi1ρk1 + ρi2ρk2.

Page 19: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 2.6 Etude des correlations : cadre empirique 19

Soit ϕ1 l’angle forme par les vecteurs (ρi1, ρi2) et (1, 0), et ϕ2 l’angle forme par les vec-teurs (ρk1, ρk2) et (1, 0). Il est evident que ϕ = |ϕ1 − ϕ2| et

ρi1ρk1 + ρi2ρk2 = cos(ϕ1) cos(ϕ2) + sin(ϕ1) sin(ϕ2) = cos(ϕ1 − ϕ2) = cos(ϕ).

D’apres cette proposition, si les variables ξi et ξk sont entierement expliquees parles deux premieres composantes principales, l’angle forme par les vecteurs (ρi1, ρi2) et(ρk1, ρk2) decrit la dependance mutuelle de ces variables. En effet, si l’angle ϕ est zero,alors ρik = 1, ce qui signifie qu’il y a un lien lineaire deterministe entre ces variables :

∃ a > 0, b ∈ R tels que ξi = aξk + b.

Si les deux points (ρi1, ρi2) et (ρk1, ρk2) deR2 sont diametralement opposes, alors cos ϕ =ρik = −1 et

∃ a > 0, b ∈ R tels que ξi = −aξk + b.

Dans le contexte de l’ACP, on dit dans ce cas que les variables ξi et ξk sont opposees. Finale-ment, si l’angle ϕ est de 90◦, alors ρik = 0, donc les variables ξi et ξk sont non-correlees.

2.6 Etude des correlations : cadre empirique

Dans ce paragraphe, on se place dans le cadre, habituel pour une etude statistique,ou la moyenne µ et de la matrice de covariance Σ ne sont pas connues. Comme cela adeja ete fait precedemment, on remplace dans toutes les definitions du Paragraphe 2.5les parametres inconnus par leurs estimateurs empiriques. Ainsi, µ est remplace par x,Σ par S, γ(j) par g(j), λj par lj et ηj par yj. On donne maintenant les versions empiriquesdes definitions principales du paragraphe precedent.

Definition 2.5. On appelle part de la variance empirique expliquee par les k premierescomposantes principales (y1, . . . , yk) la quantite suivante :

l1 + · · ·+ lkl1 + · · ·+ lp

=l1 + · · ·+ lk

Tr(S).

On appelle la quantite li/Tr(S) part de la variance empirique expliquee par la ieme composanteprincipale yi.

Pour introduire la definition suivante, rappelons que les sii designent les elementsdiagonaux de la matrice de covariance empirique S et lj est la jeme valeur propre de S.Notons gij la ieme coordonnee du vecteur propre g(j).

Definition 2.6. On appelle r2ij = g2

ijlj/sii part de la variance empirique de la ieme va-riable expliquee par la jeme composante principale.

Page 20: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

20 Analyse en composantes principales Chapitre 2

En utilisant le meme raisonnement qu’au paragraphe precedent (cf. Propositions 2.2et 2.3), on trouve que

p

∑j=1

r2ij = 1 pour tout i = 1, . . . , p,

∑j∈J

lj =p

∑i=1

sii r2iJ avec r2

i J = ∑j∈J

r2ij.

On introduit egalement le disque des correlations contenant les points (ri1, ri2) pour i =1, . . . , p. Les resultats de l’ACP sont facilement interpetables si ces points sont prochesdu cercle des correlations. L’interpretation est basee sur la comparaison du graphiqueobtenu avec l’une des trois configurations ideales :

1. L’angle ϕ forme par les vecteurs (ri1, ri2) et (rk1, rk2) est zero : la ieme et la keme

variables sont liees par une relation lineaire deterministe avec la pente strictementpositive.

2. L’angle ϕ est de 180◦ : la ieme et la keme variables sont liees par une relation lineairedeterministe avec la pente strictement negative.

3. L’angle ϕ est de 90◦ : la ieme et la keme variables sont non-correlees.

Il est clair que, dans la pratique, ces trois possibilites peuvent se realiser seulementde facon approximative, car il s’agit ici de correlations empiriques rij qui approchent lescorrelations theoriques ρij seulement quand la taille d’echantillon n est assez grande.

2.7 Representation graphique des resultats de l’ACP

1. Scree graph. Il s’agit de representer dans un repere orthogonal l’interpolation lineairedes parts de la variance empirique expliquees par la premiere, deuxieme, . . . , peme

composantes principales. Par exemple, si p = 5 et

l1∑5

j=1 lj= 62%,

l2∑5

j=1 lj= 18%,

l3∑5

j=1 lj= 9%, (2.5)

l4∑5

j=1 lj= 8%,

l5∑5

j=1 lj= 3%,

le scree graph est la courbe presentee dans la Figure 2.3. On utilise le scree graph pourchoisir le nombre des composantes principales qu’il faut retenir. Plus precisement, onse donne un seuil α (par exemple, α = 0, 05) et on retient toutes les composantes princi-pales pour lesquelles la part de la variance expliquee est superieure a ce seuil.

Page 21: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 2.7 Representation graphique des resultats de l’ACP 21

2. Projection des individus. Dans le contexte de l’ACP, on appelle individus les n por-teurs des donnees x1, . . . , xn. Le vecteur xi represente l’ensemble des caracteristiquesobservees de l’individu numero i. Si les xi sont de dimension superieure a deux, on nepeut pas representer ces donnees de facon graphique sur le plan. Afin de visualiser lesdonnees statistiques multidimensionnelles, on les projette sur le plan engendre par lesdeux premiers vecteurs propres g(1) et g(2) de la matrice de covariance empirique S. Onobtient ainsi la projection bidimensionnelle de l’echantillon initial :

(y1(x1), y2(x1)

),(y1(x2), y2(x2)

), . . . ,

(y1(xn), y2(xn)

), (2.6)

qui peut etre visualisee a l’aide d’un nuage des points sur le plan. Ici y1(·) et y2(·) sontles deux premieres composantes principales empiriques. Le graphique du nuage despoints (2.6) sur R2 s’appelle projection des individus. Pour l’exemple numerique duparagraphe precedent, la projection des individus est :

+

+

+

+

+

++

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

++

++

+

+

+

+

+

+

+

+

++

+

++

+

+++

++

+

+

+

+

+

++

+

+

+

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

++

++

+

+

++

+

++

+

−60 −40 −20 0 20 40 60

−20

020

40

Projection des individus

1ère composante principale

2èm

e co

mpo

sant

e pr

inci

pale

Fig. 2.2. Projection des individus.

3. Projection des variables. Les deux premieres composantes principales sont souventles plus importantes, en ce sens qu’elles expliquent la part dominante de la varianceempirique. Dans ce cas, les correlations empiriques ri1, ri2, i = 1, . . . , p, entre les p va-riables et les deux premieres composantes principales sont beaucoup plus informativesque les correlations restantes rij pour j ≥ 3. Cette remarque justifie l’utilisation de l’ou-til graphique appele projection des variables sur le disque des correlations (ou, enabrege, projection des variables). C’est un graphique sur lequel on trace le cercle des

Page 22: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

22 Analyse en composantes principales Chapitre 2

correlations et les p points (ri1, ri2), i = 1, . . . , p, qui se trouvent dans le disque descorrelations. Si ces points sont proches du cercle, le graphique nous permet de juger dela dependance lineaire ou de l’absence de correlation entre la ieme et la keme variablesen utilisant les remarques faites a la fin du Paragraphe 2.5 (cf. Proposition 2.4) et duParagraphe 2.6.

Var

ianc

es

100

200

300

400

500

600

700

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 −1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

5

4

3

2

1

Fig. 2.3. Scree graph. Fig. 2.4. Projection des variables.

2.8 Limites d’utilisation de l’ACP

Comme il a ete explique au Chapitre 2, les coefficients de correlation sont essentiellement adaptespour decrire un lien lineaire entre des variables aleatoires, si un tel lien existe. L’ACP est aussi un outillineaire, en ce sens qu’elle est basee sur l’information contenue dans les correlations. C’est pourquoil’ACP est souvent sans interet si les donnees presentent des liens non-lineaires, tels que, par exemple, desliens quadratiques.

De maniere schematique, on peut considerer que l’ACP fournit un bon resultat lorsque les donneesxi forment un nuage des points dans Rp de structure ellipsoıdale, alors qu’elle donne un resultat peu sa-tisfaisant si les donnees ont une structure tres differente de l’ellipsoıdale, par exemple, celle de “banane”qui correspond plutot a un lien quadratique (cf. Figure 2.5).

2 3 4 5 6 7

−2−1

01

2

x

xx

xxx

x

x

x

x

x

x

x

x

x

x

x

xx

x

x

x

x

x

x

x

x

x

x

x

x x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

xx

x

x

x

x

x x

x

x

x

x

x

xx x

x

x

x

x

x

x

x

x

xx

x

x

x

x

x

x

x

x

x

x

x

xx

x

x

x x

x

x

x

x x

xx

x

x

x

x

x

xx

x

xx

x

x

x

x

x

x

x

x

x

x

xx

x

x

x

x

x

x

x

x

xx

x

x

x

xx

x

xx

x

x

x

x

x

x

x

x

x

x

x

x

x

x

−1.0 −0.5 0.0 0.5 1.0

−2−1

01

2

x

x

x

x

x

x

x

x

xx

x

x

x

x

xx

xx

x

x

x

x

x

x

x

x

x

x

xx

x

x

x

x

xx

x

x

x

x

x

x

xx

x

x

x

x

xx

x

x

x

xx

x

x

x

x

x

x

x

x

x

x

x

x

x

xx

x

x

xx

x

xx

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x xx

x

x

x

x

x

x

x

xx

x

x

xx

x

x

x

x

x

x

x

x

x

x

x

xx

x

x

x

x

x

xx

x

x

x

x

xx

x

x

x

x

x

xx

x

x

x

xx

xx

x

xx

xxx

x

xx

x

x

x

x

x

x

x

x

x

xx

x

x

x

x

xx

x

x

x

x

x

xx

x

x

x

x

x

xx

xx

x

x

xx

xx

x

x

x

x

x

x

xx

x

x

x

x

x

x

x

x

x

x

x

x

x

xx

x

x

xx

x

x

x

x

x

xx

xx

x

x

x

x

x

x

Fig. 2.5. Deux nuages des points : structure de “banane” et structure ellipsoıdale.

Page 23: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

3Regression lineaire multivariee

3.1 Le probleme d’estimation de regression multivariee

Soient x un vecteur aleatoire p-dimensionnel et Y une variable aleatoire reelle, telsque E(‖x‖2) < ∞ et E(Y2) < ∞, ou ‖ · ‖ designe la norme Euclidienne. La fonction deregression de Y sur x est une fonction g : Rp → R definie par :

g(z) = E(Y| x = z), z ∈ Rp.

Cette fonction, comme dans le cas unidimensionnel, jouit de la propriete de meilleureprevision, i.e.

E[(

Y− g(x))2] = min

h(·)E[(

Y− h(x))2],

ou le minimum est cherche dans l’ensemble de toutes les fonctions boreliennes h(·). Onpeut alors ecrire

Y = g(x) + ξ, ou E(ξ | x) = 0.

Dans ce chapitre, on suppose que l’on dispose d’un echantillon (x1, Y1), . . . , (xn, Yn) telque

Yi = g(xi) + ξi, i = 1, . . . , n,

ou les ξi sont des variables aleatoires centrees et mutuellement independantes. Nousconsidererons le probleme statistique de l’estimation de la fonction de regression g apartir de cet echantillon. Plus particulierement, nous nous interesserons a la situationquand la regression est lineaire :

g(x) = ϑTx,

Page 24: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

24 Regression lineaire multivariee Chapitre 3

ou ϑ ∈ Rp est un parametre vectoriel : ϑ = (ϑ1, . . . , ϑp)T. Les observations Yi sont alorsde la forme

Yi = ϑTxi + ξi, i = 1, . . . , n, (3.1)

et l’estimation de la fonction g se reduit a l’estimation du parametre inconnu ϑ. Lemodele statistique defini par (3.1) s’appelle modele de regression lineaire multidimen-sionnelle (ou multivariee). L’importance de ce modele pour les applications statistiquess’explique d’une part par sa relative simplicite et d’autre part par le fait qu’il permetd’inclure comme des cas particuliers un certain nombre de modeles qui semblent, a lapremiere vue, non-lineaires.

EXEMPLE 3.1. Regression lineaire simple. Posons ϑ = (a, b)T et x = (1, Z)T avec a, b ∈ R,ou Z une variable aleatoire reelle. Notons que dans ce cas la premiere composante duvecteur aleatoire x est deterministe (non aleatoire). Les observations Yi sont alors de laforme

Yi = a + bZi + ξi, i = 1, . . . , n,

ou les Zi sont des realisations de la variable Z.

EXEMPLE 3.2. Regression polynomiale. Soit Z une variable aleatoire reelle. Puisque toutefonction suffisamment reguliere peut etre decomposee selon la formule de Taylor, il estnaturel de chercher la dependance entre Y et Z sous une forme polynomiale :

g(Z) = ϑ1 + ϑ2Z + · · ·+ ϑpZp−1,

ou p ≥ 1 est un entier et ϑ1, . . . , ϑp sont des coefficients inconnus. Si l’on definit lesvecteurs x = (1, Z, . . . , Zp−1)T et ϑ = (ϑ1, . . . , ϑp)T, on obtient

g(x) = ϑTx.

On voit que la regression polynomiale est un cas particulier de la regression lineairemultidimensionnelle. Dans ce cas aussi, comme pour la regression lineaire simple, lapremiere composante du vecteur aleatoire x est deterministe.

EXEMPLE 3.3. Regression non-lineaire transformee. Ils existent des modeles non-lineairesde regression qui peuvent etre reduits aux modeles lineaires par une transformation.Par exemple, supposons que la fonction de regression g(·) est de la forme

g(x) = A evTx avec x, v ∈ Rk,

ou v est un vecteur des parametres inconnus et A > 0 est une constante inconnue. Desfonctions de regression de ce type sont utilises, par exemple, dans les applications eneconomie, pour modeliser la productivite des entreprises. En prenant les logarithmes,on obtient

ln g(x) = ln A + vTx.

Page 25: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.2 Methode des moindres carres 25

Afin de se ramener a une regression lineaire, on pose ϑ = (ln A, vT)T, x′ = (1, xT)T eton obtient

Y′i = ln Yi = ϑTx′i + ξ ′i , i = 1, . . . , n. (3.2)

C’est un modele de regression lineaire par rapport a l’echantillon transforme

(x′1, Y′1), . . . , (x′n, Y′n).

Notons que formellement on arrive a (3.2) a partir du modele Yi = g(xi)ξi de regressionou les erreurs ξi interviennent de facon multiplicative et non pas additive (on a alorsξ ′i = ln ξi). Neanmoins, souvent la transformation logarithmique est utilisee sans men-tionner cette nuance de maniere explicite.

3.2 Methode des moindres carres

Une methode usuelle et tres repandue pour estimer le parametre ϑ ∈ Rp est celledes moindres carres. Elle consiste a chercher une valeur ϑ = ϑ qui minimise la sommedes carres des deviations :

n

∑i=1

(Yi − xTi ϑ)2 = min

ϑ∈Rp

n

∑i=1

(Yi − xTi ϑ)2.

Il est facile de voir qu’il existe toujours une solution ϑ de ce probleme de minimisationque l’on appelle estimateur des moindres carres de ϑ. On ecrit alors

ϑ = arg minϑ∈Rp

n

∑i=1

(Yi − xTi ϑ)2.

L’estimateur des moindres carres n’est pas toujours unique. La condition de l’unicite estdonnee dans la proposition suivante.

Proposition 3.1. Supposons que la matrice

B =n

∑i=1

xi xTi ∈ Rp×p

soit strictement positive. Alors, l’estimateur des moindres carres est unique et il s’ecrit sous laforme

ϑ = B−1n

∑i=1

xi Yi.

Page 26: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

26 Regression lineaire multivariee Chapitre 3

Demonstration. La condition necessaire pour que ϑ soit un point de minimum pourh(ϑ) = ∑n

i=1(Yi − xTi ϑ)2 est (∂h/∂ϑi)(ϑ) = 0 pour tout i = 1, . . . , p. Cette condition

equivaut a

2n

∑i=1

xi(Yi − xTi ϑ) = 0

ou encore

Bϑ =n

∑i=1

xi Yi. (3.3)

C’est un systeme de p equations lineaires qui admet une solution unique car la matriceB est inversible. Cette solution vaut

ϑ = B−1n

∑i=1

xi Yi.

Comme la fonction h(ϑ) est convexe et positive, ce vecteur ϑ fournit le minimum globalde h.

Il est convenable d’ecrire le modele de regression lineaire sous la forme matricielle :

y = X ϑ + ξ,

ou y = (Y1, . . . , Yn)T, ϑ = (ϑ1, . . . , ϑp)T, ξ = (ξ1, . . . , ξp)T et X = (x1, . . . , xn)T. Avecces notations, on a B = XTX, et on peut ecrire l’estimateur des moindres carres sous laforme

ϑ = (XTX)−1XTy.

Le systeme des equations lineaires (3.3) s’appelle systeme des equations normales pourla methode des moindres carres. On peut l’ecrire sous la forme

Bϑ = XTy.

Proposition 3.2. La matrice

B =n

∑i=1

xi xTi = XTX

est toujours positive. Afin qu’elle soit strictement positive, il est necessaire et suffisant que lerang de la matrice X soit egal a p.

Demonstration. Notons d’abord que la matrice B est positive, car tout v ∈ Rp \ {0}verifie l’inegalite

vTBv = vTXTXv = wTw =p

∑i=1

w2i ≥ 0,

Page 27: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.2 Methode des moindres carres 27

ou w = Xv = (w1, . . . , wp). Il est evident que l’inegalite precedente devient egalite si etseulement si w = Xv = 0. Or, Xv = 0 pour un vecteur v different de 0 implique que lerang de X est strictement inferieur a p. On a donc montre que si B n’est pas strictementpositive, alors Rang(X) < p.

La preuve de la reciproque est similaire. Si Rang < p, alors il existe un vecteurv ∈ Rp \ {0} tel que Xv = 0. Il en resulte que vTBv = vTXTXv = 0. Par consequent, Bn’est pas strictement positive.

Une consequence immediate de cette proposition est la suivante : si la taille n del’echantillon en question est strictement inferieure a la dimension p des observations, lamatrice B est degeneree. En effet, n < p implique que Rang(X) < p, car le rang d’unematrice M est le nombre maximal des lignes de M qui forment une famille de vecteurslibre. Une autre formulation de cette propriete est :

B > 0 =⇒ n ≥ p.

3.2.1 Interpretation geometrique de la methode des moindres carres

Le probleme de minimisation de la somme des carres des deviations peut s’ecriresous la forme suivante :

minϑ∈Rp

‖y− Xϑ‖2 = minv∈D

‖y− v‖2 (3.4)

ou D designe le sous-espace lineaire de Rn defini par

D ={

v ∈ Rn : v = Xϑ, ϑ ∈ Rp}.

En mots, D est le sous-espace lineaire deRn engendre par les p colonnes de la matrice X.Si X est une matrice de rang p, ce qui est vrai lorsque B > 0, alors D est un sous-espacelineaire de dimension p :

Rang(X) = p ⇐⇒ B > 0 ⇐⇒ dim(D) = p.

Si B > 0, la solution du probleme (3.4) est v = Xϑ = X(XTX)−1XTy def= Ay.

Definition 3.1. Soit B > 0. La matrice

A = X(XTX)−1XT ∈ Rn×n

est dite matrice chapeau (“hat” matrice).

Proposition 3.3. Supposons que B > 0. Alors la matrice A est symetrique, idempotente et derang p. Plus precisement, A est le projecteur dans Rn sur le sous-espace vectoriel (s.e.v.) D .

Page 28: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

28 Regression lineaire multivariee Chapitre 3

Demonstration. Il vient

AT = X[(XTX)−1]TXT = X[(XTX)T]−1XT = X(XTX)−1XT = A

etA2 = X(XTX)−1XTX(XTX)−1XT = X(XTX)−1XT = A.

Donc A est symetrique et idempotente, ce qui signifie que A est un projecteur. En outre,pour tout y ∈ Rn, on a Ay = Xϑ = v ∈ D . Donc A projette sur un sous-ensemble de D .Mais ce sous-ensemble coıncide avec D , car pour tout vecteur v ∈ D il existe ϑ ∈ Rp telque v = Xϑ et, par consequent,

Av = X(XTX)−1XTv = X(XTX)−1XTXϑ = Xϑ = v.

Cela signifie que A est le projecteur sur D . Comme D est un sous-espace de Rn dedimension p, le rang de A est egal a p.

3.3 Proprietes statistiques

Supposons que l’hypothese suivante soit verifiee.

Hypothese (R).

(R1) Les vecteurs x1, . . . , xn appartenant a Rp sont deterministes et n > p.

(R2) La matrice B est strictement positive.

(R3) Le vecteur aleatoire ξ est de moyenne E(ξ) = 0 et de matrice de covarianceV(ξ) = σ2 In, ou σ2 > 0 et In est la matrice unite de dimension n× n.

Theoreme 3.1. Sous l’Hypothese (R), l’estimateur des moindres carres est sans biais :

E(ϑ) = ϑ (3.5)

et sa matrice de covariance V(ϑ) = E[(ϑ− ϑ)(ϑ− ϑ)T]

vaut

V(ϑ) = σ2B−1.

Demonstration. Il vient

ϑ = B−1XTy = B−1XT(Xϑ + ξ) = ϑ + B−1XTξ, (3.6)

d’ou decoule (3.5). En utilisant (3.6) on obtient aussi

V(ϑ) = E[(ϑ− ϑ)(ϑ− ϑ)T]

= E[(B−1XTξ)(ξTXB−1)] = B−1XTE[ξξT]XB−1.

Page 29: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.4 Regression lineaire normale 29

Comme V(ξ) = E[ξξT] = σ2 In, on a

B−1XTE[ξξT]XB−1 = σ2B−1XTXB−1 = σ2B−1.

Theoreme 3.2. Sous l’Hypothese (R), la statistique

σ2 def=‖y− Xϑ‖2

n− p=

1n− p

n

∑i=1

(Yi − xTi ϑ)2

est un estimateur sans biais de la variance σ2 :

E(σ2) = σ2.

Demonstration. Notons d’abord que les observations y proviennent du modele y =Xϑ + ξ, ce qui implique que y− Xϑ = X(ϑ− ϑ) + ξ. Vu (3.6), il en resulte que

y− Xϑ = −XB−1XTξ + ξ = (In − XB−1XT)ξ = (In − A)ξ. (3.7)

Par consequent,

E[‖y− Xϑ‖2] = E[ξT(In − A)T(In − A)ξ] = E[ξT(In − A)2ξ] = E[ξT(In − A)ξ],

ou on a utilise le fait que A est une matrice idempotente. Designons par aij les elementsde A. On a alors

E[ξT(In − A)ξ] =n

∑i,j=1

(δij − aij) E[ξiξ j] = σ2n

∑i,j=1

(δij − aij) δij

= σ2n

∑i=1

(1− aii) = σ2(n− Tr(A)),

ou δij est le symbole de Kronecker. Comme A est un projecteur, ses valeurs propresvalent 0 ou 1. D’apres la Proposition 3.3, Rang(A) = p, donc il y a exactement p valeurspropres egales a 1. On en deduit que Tr(A) = p, d’ou le resultat.

3.4 Regression lineaire normale

Supposons maintenant que les variables aleatoires ξi suivent la loi normaleN (0, σ2).Dans ce cas la condition (R3) entraıne l’independance des variables aleatoires ξi.

Hypothese (NR). L’Hypothese (R) est verifiee et ξ est un vecteur gaussien.

Sous l’Hypothese (NR), ϑ est l’estimateur du maximum de vraisemblance de ϑ.

Le theoreme suivant permet de deduire la loi jointe de (ϑ, σ2) sous l’Hypothese (NR).

Page 30: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

30 Regression lineaire multivariee Chapitre 3

Theoreme 3.3. Si l’Hypothese (NR) est verifiee, alors(i) ϑ ∼ Np(ϑ, σ2B−1),

(ii) ϑ ⊥⊥ y− Xϑ et y− Xϑ ⊥⊥ X(ϑ− ϑ),(iii) σ−2‖y− Xϑ‖2 ∼ χ2

n−p et σ−2‖X(ϑ− ϑ)‖2 ∼ χ2p.

Demonstration. D’apres (3.6) et (3.7),

ϑ− ϑ = B−1XTξ, y− Xϑ = (In − A) ξ. (3.8)

La premiere egalite, compte tenu du fait que B et X sont deterministes, implique que ϑest un vecteur gaussien. D’apres le Theoreme 3.1, la moyenne de ce vecteur est ϑ et samatrice de covariance vaut σ2B−1, d’ou le resultat (i).

Vu (3.8), le vecteur aleatoire(y− Xϑ, ϑ) ∈ Rn+p est gaussien comme transformation

affine du vecteur gaussien ξ. De plus, la matrice de covariance entre ϑ et y− Xϑ est

C(ϑ, y− Xϑ) = E[(ϑ− ϑ)(y− Xϑ)T] = E[B−1XTξξT(In − A)]

= σ2(B−1XT − B−1XT A) = 0.

En utilisant la propriete (N6) de la loi normale multidimensionnelle demontree au Cha-pitre 3, on obtient la premiere partie du resultat (ii). Sa deuxieme partie en decoule vula preservation de l’independance par transformations mesurables.

Pour prouver le resultat (iii) du theoreme, introduisons le vecteur aleatoire ξ ′ = ξ/σet appliquons le Theoreme de Cochran (cf. Chapitre 3). D’apres (3.8), y− Xϑ = σ(In −A)ξ ′ et X(ϑ− ϑ) = σXB−1XTξ ′ = σAξ ′. Par ailleurs, la Proposition 3.3 implique que lesmatrices A et In − A sont symetriques et idempotentes, (In − A)A = 0, Rang(A) = p etRang(In − A) = n− p. D’apres le Theoreme de Cochran, ceci entraıne (iii).

3.5 Application au probleme de prevision

Considerons d’abord un exemple de probleme de prevision qui motive ce qui vasuivre.

EXEMPLE 3.4. Prevision dans le modele de regression sur le temps. Supposons que l’on dis-pose des donnees statistiques (Yi, xi), i = 1, . . . , n, ou xi = i∆ et ∆ > 0 est un nombrefixe, telles que Yi = ϑxi + ξi, i = 1, . . . , n, avec ϑ ∈ R. On peut penser a Yi comme ala valeur a l’instant i∆ d’une variable Y evoluant dans le temps de maniere aleatoire(exemples : la temperature, le niveau de l’eau dans un fleuve, le cours d’une optionfinanciere, etc). Le probleme de prevision consiste a donner un estimateur Y0 qui ap-proche bien la valeur de la fonction de regression g(x0) = ϑx0 a l’instant donne x0 telque x0 > xn = n∆. Une methode tres repandue est de chercher une prevision lineaire dela forme Y0 = ϑx0, ou ϑ est un estimateur convenable de ϑ. Le plus souvent on utiliseϑ = ϑ, l’estimateur des moindres carres de ϑ.

Page 31: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.5 Application au probleme de prevision 31

Considerons maintenant le cas general quand les xi sont multidimensionnels. Soitx0 ∈ Rp un vecteur donne. Le probleme est formule de maniere similaire : trouver uneprevision Y0 de g(x0) = ϑTx0, etant donne un echantillon (x1, Y1), . . . , (xn, Yn) prove-nant du modele de regression lineaire

Yi = ϑTxi + ξi, i = 1, . . . , n.

La recherche d’une prevision lineaire de la forme Y0 = ϑTx0 revient a la recherche d’unestimateur ϑ du parametre ϑ. Un choix possible est ϑ = ϑ, l’estimateur des moindrescarres de ϑ. La valeur Y0 = ϑTx0 est donc une prevision de g(x0). Les proprietes de cetteprevision sont donnees dans le theoreme suivant.

Theoreme 3.4.(i) Si l’Hypothese (R) est verifiee,

E(Y0) = ϑTx0 et Var(Y0) = σ2xT0 B−1x0.

(ii) Si l’Hypothese (NR) est verifiee,

Y0 ∼ N (ϑTx0, σ2xT0 B−1x0) et Y0 − ϑTx0 ⊥⊥ y− Xϑ.

Demonstration. Elle est immediate d’apres les Theoremes 3.1 et 3.3.

La seconde partie de ce theoreme permet de construire un intervalle de confiancepour g(x0) = ϑTx0. En effet, d’apres la partie (ii) du Theoreme 3.4, si l’Hypothese (NR)est satisfaite,

ηdef=

Y0 − ϑTx0√σ2xT

0 B−1x0

∼ N (0, 1).

Cette relation implique, en particulier, que

P(g(x0) ∈ [g, g]) = 1− α,

ou

g = Y0 −√

σ2xT0 B−1x0 qN

1−α/2,

g = Y0 +√

σ2xT0 B−1x0 qN

1−α/2.

Donc, dans le cas ou la variance σ est connue, l’intervalle [g, g] est un intervalle deconfiance de taille exacte 1− α pour g(x0).

Lorsque la variance σ2 est inconnue, il est naturel de la remplacer par son estima-teur sans biais σ2 defini dans le Theoreme 3.2. Pour pouvoir construire un intervalle deconfiance exacte, il nous faut connaıtre la loi de la v. a.

t def=Y0 − ϑTx0√σ2xT

0 B−1x0

.

Page 32: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

32 Regression lineaire multivariee Chapitre 3

D’apres le Theoreme 3.4, les variables aleatoires η et χdef=(n− p)σ2/σ2 = ‖y− Xϑ‖2/σ2

sont independantes. Par consequent, la variable aleatoire t peut etre representee sous laforme

t =η√

χ/(n− p),

ou η ∼ N (0, 1), χ ∼ χ2n−p et η ⊥⊥ χ. Il en resulte que t suit la loi de Student tn−p avec

n− p degres de liberte. On en deduit que [g′, g′] est un intervalle de confiance de tailleexacte 1− α pour g(x0) si

g′ = Y0 −√

σ2xT0 B−1x0 q1−α/2(tn−p),

g′ = Y0 +√

σ2xT0 B−1x0 q1−α/2(tn−p).

Soulignons que l’hypothese de normalite des erreurs ξi est cruciale pour que [g′, g′] soitun intervalle de confiance de taille exacte 1− α.

3.6 Application aux tests sur le parametre ϑ

Dans ce paragraphe, on supposera que les erreurs ξi du modele de regression sontnormales et que l’Hypothese (NR) est verifiee. Notre premier objectif est de tester l’hy-pothese

H0 : ϑj = a

contre l’hypothese alternativeH1 : ϑj 6= a,

ou a ∈ R est une valeur donnee et ϑj est la jeme coordonnee du vecteur ϑ. Designonspar ϑj la jeme coordonnee de l’estimateur des moindres carres ϑ et par bj le jeme elementdiagonal de la matrice B−1. L’Hypothese (R2) implique que bj > 0 pour j = 1, . . . , p.

Corollaire 3.1. Si l’Hypothese (NR) est verifiee,

ϑj − ϑj

σ√

bj∼ N (0, 1).

Demonstration. D’apres le Theoreme 3.3, ϑ− ϑ ∼ N (0, σ2B−1). Soit vj le vecteur de Rp

dont toutes les coordonnees sont nulles sauf la jeme qui vaut 1. La v. a. (ϑj − ϑj) est doncegale a (ϑ− ϑ)Tvj, ce qui entraıne qu’elle suit une loi gaussienne. Afin d’identifier cetteloi, il suffit de calculer sa moyenne et sa variance :

E(ϑj − ϑj) = E[(ϑ− ϑ)Tvj] = 0,

Var(ϑj − ϑj) = E[(

(ϑ− ϑ)Tvj)2] = vT

j E[(ϑ− ϑ)(ϑ− ϑ)T]vj = σ2vTj B−1vj = σ2bj.

Page 33: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.6 Application aux tests sur le parametre ϑ 33

On a alors ϑj − ϑ ∼ N (0, σ2bj) ou encore (σ2bj)−1/2(ϑj − ϑ) ∼ N (0, 1).

Si le parametre σ est inconnu, la statistique (σ2bj)−1/2(ϑj − ϑ) est inutilisable. Dansce cas, il faut la modifier en remplacant σ par son estimateur σ defini au Paragraphe 3.3.

Corollaire 3.2. Si l’Hypothese (NR) est verifiee,

ϑj − ϑj

σ√

bj∼ tn−p.

Demonstration. Soit ηdef=(σ2bj)−1/2(ϑj − ϑ) et χ

def=(n − p)σ2/σ2 = ‖y − Xϑ‖2/σ2. Envertu du Theoreme 3.3 et du Corollaire 3.1, η ∼ N (0, 1), χ ∼ χ2

n−p et η ⊥⊥ χ. Parailleurs,

ϑj − ϑj

σ√

bj=

η√χ/(n− p)

,

d’ou le resultat.

Ce corollaire implique que sous l’hypothese H0 : ϑj = a, la loi de la v. a.

t =ϑj − ϑj

σ√

bj

est tn−p (loi de Student avec n− p degres de liberte). Par consequent, si l’on definit laregion critique du test par

R ={∣∣∣∣

ϑj − a

σ√

bj

∣∣∣∣ > cα

}

avec une constante cα > 0 convenablement choisie, alors le risque de premiere especeest

supϑ∈Θ0

Pϑ(R) = supϑ∈Θ0

(∣∣∣∣ϑj − a

σ√

bj

∣∣∣∣ > cα

),

ou Θ0 ={

ϑ ∈ Rp : ϑj = a}

(soulignons que H0 est une hypothese composite, car onpeut la reecrire comme H0 : ϑ ∈ Θ0). Sur l’ensemble Θ0 le parametre ϑj vaut a, donc lavariable t suit la loi de Student tn−p. On a alors

supϑ∈Θ0

(∣∣∣∣ϑj − a

σ√

bj

∣∣∣∣ > cα

)= P

(|tn−p| > cα

)= P

(|tn−p| > cα

).

Pour avoir le risque de premiere espece egal a α, il faut choisir la valeur critique cα =q1−α/2(tn−p). Ainsi, on obtient la region critique du test de niveau (et de taille) α :

R ={∣∣∣∣

ϑj − a

σ√

bj

∣∣∣∣ > q1−α/2(tn−p)}

. (3.9)

Page 34: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

34 Regression lineaire multivariee Chapitre 3

On rejette donc l’hypothese H0 si

∣∣∣∣ϑj − a

σ√

bj

∣∣∣∣ > q1−α/2(tn−p)

et on ne la rejette pas dans le cas contraire.

Dans les applications pratiques, on est souvent confronte aux tests des hypothesesplus generales, en particulier, de l’hypothese

H0 : ϑj1 = a1, . . . , ϑjm = am

contre l’alternativeH1 : ∃ k ∈ {1, . . . , m} tel que ϑjk 6= ak,

ou {j1, . . . , jm} est un sous-ensemble de {1, . . . , p}. Notons que H1 est le complementairede H0.

EXEMPLE 3.5. Test de “ selection des variables” dans la regression polynomiale :

Yi = g(xi) + ξi = ϑ1 + ϑ2Zi + · · ·+ ϑpZp−1i + ξi, i = 1, . . . , n.

On veut tester l’hypothese

H0 : ϑj+l = 0, l = 1, . . . , p− j.

contre l’alternative H1 : il existe l ≥ 1 tel que ϑj+l 6= 0.

3.6.1 Hypothese lineaire generale. F-test

Supposons que l’on souhaite tester l’hypothese

H0 : Gϑ = b

contre l’alternativeH1 : Gϑ 6= b,

ou G est une matrice m× p et b est un vecteur de Rm.

Proposition 3.4. Si l’Hypothese (NR) est verifiee,

Gϑ ∼ Nm(Gϑ, σ2GB−1GT).

Demonstration. Elle est immediate d’apres le Theoreme 3.3.

D’apres cette proposition, sous l’hypothese H0 : Gϑ = b on a :

Gϑ ∼ Nm(b, D) avec D = σ2GB−1GT.

Page 35: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.7 Proprietes empiriques de l’EMC 35

Soit D > 0. Definissons la variable aleatoire

ηdef=(Gϑ− b)TD−1(Gϑ− b).

D’apres le Theoreme de Cochran,η ∼ χ2

m.

Si σ2 est inconnu, on ne peut pas se servir de η pour definir la region critique du test. C’estpourquoi on replace σ2 par son estimateur σ2. On obtient ainsi l’estimateur de la matrice decovariance D suivant :

D = σ2GB−1GT avec σ2 =‖y− Xϑ‖2

n− p.

Introduisons maintenant la variable aleatoire

F def=(Gϑ− b)TD−1(Gϑ− b)

m

que l’on appelle F-statistique et definissons la region critique du test base sur cette statistique :

R = {F > cα}.

Ici cα > 0 est a choisir de facon que le test soit de niveau α. On peut remarquer que F est unesorte de distance entre Gϑ et b. On decidera donc de rejeter H0 si cette distance F est assez grande(> cα).

En utilisant le Theoreme 3.3, on peut facilement verifier que sous H0 la v. a. F suit la loi deFisher-Snedecor a degres de liberte m et n− p, ce qui nous conduit au choix suivant de la valeurcritique : cα = q1−α(m, n − p), ou q1−α(m, n − p) designe le quantile d’ordre 1− α de la loi deFisher-Snedecor Fm,n−p a degres de liberte m et n− p. On obtient finalement la region critique

R ={

F > q1−α(m, n− p)}

. (3.10)

Le test base sur la region critique (3.10) est appele F-test.

3.7 Proprietes empiriques de l’EMC

Dans cette section, on suppose que la matrice X contient une colonne constante α1n =(α, . . . , α)T ∈ Rn \ {0}. Ceci correspond a la recherche d’une approximation de la variable a ex-pliquer par une fonction affine des variables explicatives. Cette condition peut etre legerementaffaiblie :

Hypothese (I). Le sous-espace vectoriel D de Rn engendre par les colonnes de Xcontient la droite {α1n : α ∈ R}.

Page 36: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

36 Regression lineaire multivariee Chapitre 3

Definition 3.2. On appelle- y = Xϑ = Ay vecteur des valeurs ajustees,- u = y− y = (I − A)y vecteur des residus estimes,- σ2

j = σ2[B−1]jj erreur standard de ϑj.

Voici quelques abreviations frequemment utilisees dans la litterature anglo-saxone :SSE = Sum of Squares of Errors = variance empirique des residus estimes = ‖u‖2,SSR = Sum of Squares of Regression = var. emp. des valeurs ajustees ∑n

i=1(Yi − Y)2,TSS = Total Sum of Squares = var. emp. des valeurs observees = ∑n

i=1(Yi − Y)2,MSE = Mean Squared Error = estimateur de la variance = σ2 = SSE/(n− p).Pour justifier ces definitions, nous avons besoin du resultat suivant.

Proposition 3.5. Sous l’Hypothese (I), on a

1) la moyenne empirique des valeurs ajustees coıncide avec la moyenne empirique des valeurs ob-servees : ¯Y = Y.

2) la moyenne empirique des residus estimes est egale a zero ¯u = 0.

3) la variance empirique des valeurs observees se decompose en la somme de la variance empirique desvaleurs ajustees et de la variance empirique des residus estimes : TSS = SSR + SSE.

Demonstration. Pour demontrer 1), on remarque que :

n ¯Y = yT1n = (Ay)T1n = yT(A1n) = yT1n = nY,

ou l’egalite A1n = 1n decoule du fait que la matrice A est le projecteur orthogonal sur le s.e.v. Det 1n ∈ D d’apres l’hypothese (I).

La deuxieme assertion est une consequence immediate de la premiere.

Pour la troisieme assertion, il suffit d’utiliser le theoreme de Pythagore :

n

∑i=1

(Yi − Y)2 = ‖y− Y1n‖2 = ‖A(y− Y1n)‖2 + ‖(I − A)(y− Y1n)‖2

= ‖y− Y1n‖2 + ‖u‖2,

car A1n = 1n et (I − A)1n = 0.

Cette proposition indique qu’on peut mesurer la qualite de la prediction ou de l’explicationde y par les facteurs representant les colonnes de X par le rapport SSR/TSS. Le cas ideal corres-pond a un ajustement parfait : y = y. Dans ce cas ce rapport est egal a 1. Sinon, cette quantite esttoujours entre 0 et 1. Ceci nous amene a la definition suivante.

Definition 3.3. On appelle coefficient de correlation multiple ou coefficient de determination ou encoreproportion de variance expliquee la quantite :

R = ∑ni=1(Yi − Y)(Yi − Y)√

∑ni=1(Yi − Y)2 ∑n

i=1(Yi − Y)2= ρ(y, y),

ou ρ(y, y) designe le coefficient de correlation empirique entre y et y.

Page 37: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.8 Selection de modele : critere de Mallow 37

En statistique, on utilise plus souvent le carre du coefficient de determination, car on a

R2 = ∑ni=1(Yi − Y)2

∑ni=1(Yi − Y)2 =

SSRTSS

= 1− SSETSS

.

Pour demontrer cette relation, il suffit de verifier que d’une part

(y− Y1n)T(y− Y1n) = (y− Y1n)T(y− Y1n) + (y− y)T(y− Y1n).

D’autre part,

(y− y)T(y− Y1n) = yT(I − A)(y− Y1n) = (y− y)T((I − A)Ay− Y(I − A)1n) = 0.

L’egalite R2 = SSR/TSS explique pourquoi le coefficient de determination s’appelle egalementla proportion de variance expliquee. Dans une sortie SAS (si l’on utilise l’une des proceduresREG, GLM, ANOVA), le carre du coefficient de determination apparaıt sous le nom R-square.

3.8 Selection de modele : critere de Mallow

Dans cette section, on considere toujours le probleme d’explication d’une variable quantita-tive Y par p variables explicatives ζ1, . . . , ζp. On dispose de n observations independantes

y =

Y1...

Yn

, ζ1 =

x11...

xn1

, . . . , ζp =

x1p...

xnp

.

On suppose que y est une observation bruitee de la combinaison lineaire ϑ1ζ1 + . . . ϑpζp, c’est-a-dire

y = ϑ1ζ1 + . . . ϑpζp + ξ = Xϑ + ξ, X = (ζ1, . . . , ζp) =

xT1...

xTn

,

ou le bruit ξ est suppose etre Gaussien N (0, σ2 In).

En pratique, le nombre de variables explicatives qui peuvent eventuellement contribueraux fluctuations de la variable a expliquer Y est tres grand. Dans cette situation, il est souventutile de reduire la dimension de modele ; c’est-a-dire, de choisir un sous-ensemble de facteurs{ζi1 , . . . , ζiq}, q < p, tel que la perte de precision dans la prediction de y avec ces facteurs n’estpas significative par rapport au gain de simplicite due a un nombre de facteurs plus petit.

L’objectif de cette section est donc de determiner le sous-ensemble {ζi1 , . . . , ζiq} fournissantle meilleur rapport precision/simplicite. Chaque sous-ensemble {ζi1 , . . . , ζiq} definit le modeley = ϑ1xi1 + . . . + ϑqxiq qui servira a predire les valeurs de Y. On appelle q la dimension de cemodele. On cherche le modele qui garantit, dans la mesure du possible, une prediction a la foissimple et precise. Pour cette raison, on parle du probleme de selection de modele.

Pour deux modeles {ζi1 , . . . , ζiq} et {ζ j1 , . . . , ζ jq′ } ayant le meme nombre de facteurs q =q′, il est naturel de preferer celui dont le coefficient de determination est le plus grand. Cela

Page 38: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

38 Regression lineaire multivariee Chapitre 3

revient a choisir le modele dont les valeurs ajustees y sont le plus correlees avec les valeursobservees y. En revanche, pour q 6= q′, la comparaison des coefficients de determination de deuxmodeles est moins utile, car en general cela conduit a choisir le modele complet {ζ1, . . . , ζp} etpar consequent a avoir affaire a des matrices de tres grande dimension. C’est pourquoi on utilised’autres criteres pour comparer des modeles ayant des dimensions differentes.

Les criteres les plus utilises sont Cp de Mallow (1973), AIC (Akaike (1974)) et BIC (Schwarz(1978)). Nous ne decrirons ici que le premier de ces criteres. Dans nos notations, il est convenablede l’appeler Cq plutot que Cp.

Definition 3.4. Pour le modele {ζi1 , . . . , ζiq}, on appelle Cq de Mallow la quantite

Cq =‖(I − Aq)y‖2

σ2 − (n− 2q) = (n− q)(

σ2q

σ2 − 1)

+ q

ou Aq est le projecteur orthogonal sur le s.e.v. de Rn engendre par les vecteurs ζi1 , . . . , ζiq .

Pour expliquer cette definition, nous avons besoin de quelques notations. Soit Xq la matricen × q ayant les colonnes ζi1 , . . . , ζiq . Les resultats des sections precedentes entraınent que lesvaleurs predites y(q) a l’aide des variables explicatives ζi1 , . . . , ζiq sont donnees par la formule

y(q) = Xq(XTq Xq)−1XT

q y = Aqy.

La precision esperee de prediction en utilisant ce modele est

R(ϑ, Xq) = Eϑ[‖y(q) − Xϑ‖2].

Il serait naturel de choisir le modele qui minimise cette quantite. Cependant, cette quantitedepend du parametre inconnu ϑ et, par consequent, elle ne peut pas etre calculee. En revanche,Cq ne depend pas de ϑ et elle jouit de la propriete suivante.

Proposition 3.6. Sous l’hypothese (R), σ2Cq est un estimateur sans biais de R(ϑ, Xq).

Demonstration. D’une part, on peut simplifier R(ϑ, Xq) comme suit :

R(ϑ, Xq) = Eϑ[‖y(q) − Xϑ‖2] = Eϑ[‖Aqy− Xϑ‖2]

= Eϑ[‖AqXϑ + Aqξ − Xϑ‖2]

= ‖(I − Aq)Xϑ‖2 + Eϑ[‖Aqξ‖2]

= ‖(I − Aq)Xϑ‖2 + Eϑ[Tr(AqξξT Aq)]

= ‖(I − Aq)Xϑ‖2 + σ2q.

D’autre part, comme σ2 est un estimateur sans biais de σ2,

Eϑ(σ2Cq) = Eϑ[‖(I − Aq)y‖2]− (n− 2q)σ2

= Eϑ[‖(I − Aq)Xϑ + (I − Aq)ξ‖2]− (n− 2q)σ2

= ‖(I − Aq)Xϑ‖2 + Eϑ[‖(I − Aq)ξ‖2]− (n− 2q)σ2

= ‖(I − Aq)Xϑ‖2 + Eϑ[Tr((I − Aq)ξξT(I − Aq)

)]− (n− 2q)σ2

= ‖(I − Aq)Xϑ‖2 + (n− q)σ2 − (n− 2q)σ2

= ‖(I − Aq)Xϑ‖2 + σ2q,

Page 39: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.9 Analyse de variance a un facteur (One way ANOVA) 39

d’ou le resultat desire.

Ce resultat indique que Cq est un bon estimateur du risque R(ϑ, Xq) divise par σ2. C’estpourquoi, si l’on a deux modeles ζi1 , . . . , ζiq et ζ j1 , . . . , ζ jq′ , on calculera les quantites Cq et Cq′

pour ces modeles, et on choisira le modele ζi1 , . . . , ζiq si Cq est plus petit que Cq′ . Dans le cascontraire, on choisira le modele ζ j1 , . . . , ζ jq′ .

Ces considerations nous amenent a l’algorithme suivant : pour chaque q = 1, . . . , p fixe, onchoisit le modele Xq qui minimise R2 parmi tous les modeles a q facteurs. On obtient les modelesM1, . . . , Mp tels que Mq contient q variables explicatives. On calcule pour chacun de ces modelesla quantite Cq et on choisit le modele M∗ pour lequel Cq est minimal.

3.9 Analyse de variance a un facteur (One way ANOVA)

L’objectif de l’analyse de variance est d’etudier l’influence d’une variable qualitative f (ditefacteur) sur une variable quantitative Y (dite variable a expliquer ou variable dependante). Onsuppose que f a p modalites f1, . . . , fp, c’est-a-dire f ∈ { f1, . . . , fp}. Sur n individus, on observeles valeurs de f et de Y, et on groupe les observations selon les valeurs de f . En d’autres termes,si ni designe le nombre d’observations pour lesquelles f = fi, i = 1, . . . , p, alors on note

Y11, . . . , Y1n1 les observations correspondant a f = f1,Y21, . . . , Y2n2 les observations correspondant a f = f2,

...Yp1, . . . , Ypnp les observations correspondant a f = fp.

La question faisant l’objet de l’analyse de la variance est :

le facteur f a-t-il une influence significative sur la variable Y ? (3.11)

Pour repondre a cette question, on utilise le modele

Yij = ϑi + ξij, j = 1, . . . , ni, i = 1, . . . , p,

ou ϑi represente l’effet moyen de la modalite fi sur Y et ξij sont des erreurs aleatoires distribueesselon la loi normale N (0, σ2 In). On a bien sur n1 + . . . + np = n.

Pour repondre a la question (3.11), on teste l’hypothese

H0 : ϑ1 = . . . = ϑp,

contre l’alternative

H1 : ils existent i, i′ ∈ {1, . . . , q} tels que ϑi 6= ϑi′ .

On reecrit ce modele sous forme matricielle :

y = Xϑ + ξ, y =(Y11, . . . , Y1n1 , . . . , Yp1, . . . , Ypnp

)T,

ξ =(ξ11, . . . , ξ1n1 , . . . , ξp1, . . . , ξpnp

)T

ϑ =(ϑ1, . . . , ϑp

)T

Page 40: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

40 Regression lineaire multivariee Chapitre 3

et la matrice X est donnee par

X =

1n1 0n1 . . . 0n1...

... · · · ...0np 0np . . . 1np

.

Theoreme 3.5. Soit Yi la moyenne empirique de la suite (Yi1, . . . , Yini) et Y la moyenne empirique glo-bale

Y =1n

p

∑i=1

ni

∑j=1

Yij.

Si le vecteur des erreurs ξ suit la loi N (0, σ2 I), alors

1. l’EMC est donne par ϑ = (Y1, . . . , Yp)T,

2. sous H0, σ−2p

∑i=1

ni(Yi − Y)2 ∼ χ2p−1,

3. sous H0,p

∑i=1

ni(Yi − Y)2 ⊥⊥p

∑i=1

ni

∑j=1

(Yij − Yi)2,

4. sous H0,

F =(n− p)

p

∑i=1

ni(Yi − Y)2

(p− 1)p

∑i=1

ni

∑j=1

(Yij − Yi)2

∼ F (p− 1, n− p).

Demonstration. La premiere assertion decoule du fait que l’EMC se calcule par la formuleϑ = B−1XTy ou

B = XTX =

1Tn1

0Tn2

. . . 0Tnp

...... · · · ...

0Tn1

0Tn2

. . . 1Tnp

1n1 0n1 . . . 0n1...

... · · · ...0np 0np . . . 1np

=

n1 0 . . . 0...

... · · · ...0 0 . . . np

,

et

XTy =

1Tn1

0Tn2

. . . 0Tnp

...... · · · ...

0Tn1

0Tn2

. . . 1Tnp

y =

∑n1j=1 Y1j

...∑

npj=1 Ypj

.

D’ou on obtient ϑ = (Y1, . . . , Yp)T.

Quant a la deuxieme assertion, comme B est une matrice diagonale, on a

∑ ni(Yi − Y)2 = (ϑ− Y1p)TB(ϑ− Y1p) = (ϑ− Y1p)TXTX(ϑ− 1pY)

= ‖X(ϑ− 1pY)‖2.

Page 41: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 3.9 Analyse de variance a un facteur (One way ANOVA) 41

D’une part, on a Xϑ = Ay.D’autre part, X1p = 1n, par consequent

X1pY =1n

1n(1Tn y) = (n−11n1T

n )y.

On en deduit que∑ ni(Yi − Y)2 = ‖(A− n−11n1T

n )y‖2.

Il est facile de verifier que n−11n1Tn est le projecteur orthogonal dans Rn sur la droite {α1n :

α ∈ R}. Il est evident que cette droite est incluse dans le s.e.v. D engendre par les colonnes deX (car la somme de ces colonnes est egale a 1n). Donc la matrice A− n−11n1T

n est le projecteurorthogonal sur le s.e.v.

D0 = {v ∈ D : v ⊥ 1n}.

Sous l’hypothese H0, tous les coefficients du vecteur ϑ sont egaux, d’ou ϑ = ϑ11p. On en deduitfacilement que Xϑ = ϑ11n. Par consequent, AXϑ = n−11n1T

n Xϑ et on a

σ−2p

∑i=1

ni(Yi − Y)2 = σ−2‖(A− n−11n1Tn )Xϑ + (A− n−11n1T

n )ξ‖2

= ‖(A− n−11n1Tn )(σ−1ξ)‖2.

Vu que σ−1ξ suit la loi normale N (0, In) est A − n−11n1Tn est un projecteur orthogonal sur un

s.e.v. de dimension p− 1, la derniere expression suit la loi khi-deux a p− 1 degres de liberte.

Pour verifier la troisieme assertion du theoreme, on utilise l’egalite

p

∑i=1

ni

∑j=1

(Yij − Yi)2 = ‖y− Xϑ ‖2 = ‖(I − A)y‖2 = ‖(I − A)Xϑ + (I − A)ξ‖2.

Sous H0, on a (I − A)Xϑ = ϑ1(I − A)1n = 0, donc

p

∑i=1

ni

∑j=1

(Yij − Yi)2 = ‖(I − A)ξ‖2.

Il est evident que (I − A) projette sur le s.e.v. D⊥ de Rn orthogonal a D . Comme D0 ⊂ D , less.e.v. D⊥ et D0 sont orthogonaux, d’ou l’independance de

p

∑i=1

ni

∑j=1

(Yij − Yi)2 = ‖(I − A)ξ‖2 etp

∑i=1

ni(Yi − Y)2 = ‖(A− n−11n1Tn )ξ‖2.

La preuve de la derniere assertion decoule des memes calculs : posons

η1 =p

∑i=1

ni

∑j=1

(Yij − Yi)2 = ‖(I − A)ξ‖2

η2 =p

∑i=1

ni(Yi − Y)2 = ‖(A− n−11n1Tn )ξ‖2.

Page 42: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

42 Regression lineaire multivariee Chapitre 3

Il est clair que σ−2η1 ∼ χ2n−p et σ−2η2 ∼ χ2

p−1. En consequence,

F =(n− p)η2

(p− 1)η1=

σ−2η2/(p− 1)σ−2η1/(n− p)

∼ F (p− 1, n− p).

Ceci complete la demonstration du theoreme.

Dans ce modele, les valeurs predites sont

y = Xϑ =

1n1 0n1 . . . 0n1...

... · · · ...0np 0np . . . 1np

Y1...

Yp

=

Y11n1...

Yp1np

.

Il resulte de cette egalite que

η1 =p

∑i=1

ni

∑j=1

(Yij − Yi)2 = ‖y− y‖2 = SSE

est la variance residuelle et

η2 =p

∑i=1

ni(Yi − Y)2 = ‖y− Y‖2 = SSR

est la variance expliquee par le facteur f . Comme X verifie l’hypothese (I), on a TSS = SSR +SSE, ce qui implique

F =n− pp− 1

· η2

η1=

n− pp− 1

· SSRTSS− SSR

.

Si le facteur f n’a pas d’influence significative sur Y, alors les moyennes Yi, i = 1, . . . , p, sontproches de la moyenne globale Y. Par consequent, si H0 est vraie, la variance expliquee SSR estpetite, ce qui traduit le fait que f explique mal la variable Y. Par consequent, il est naturel dedefinir la region critique du test de la maniere suivante :

R = {y : F > c}ou la constante c doit etre choisie en sorte que ce test soit de niveau α. Soit Θ0 = {ϑ ∈ Rp : ϑ1 =. . . = ϑp}. Pour que ce test soit de niveau α, il faut que supϑ∈Θ0

Pϑ(R) ≤ α. Or, il decoule del’assertion (4) du Theoreme 3.5 que, pour tout ϑ ∈ Θ0,

Pϑ(R) = 1− Pϑ(F ≤ c) = 1− FF (p−1,n−p)(c).

En consequence, ce test est de niveau α, si c ≥ q1−α(p− 1, n− p) ou q1−α(p− 1, n− p) designele quantile d’ordre 1− α de la loi de Fisher F (p− 1, n− p). Parmi toutes ces valeurs de c, cellequi fournit le test le plus puissant est c = q1−α(p− 1, n− p). C’est pourquoi le test ANOVA estdefini comme suit :

• on rejette l’hypothese H0 si F > q1−α(p− 1, n− p),• on accepte l’hypothese H0, si F ≤ q1−α(p− 1, n− p).

Page 43: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

4Exercices corriges

4.1 Analyse en Composantes Principales

Exercice 4.1. Soit ( f , u1, u2) un vecteur gaussien N (0, I) et β ∈ R, σ ≥ 0. On pose

ξ1 = β f + σu1, ξ2 = −β f + σu2.

On note x = (ξ1, ξ2)>.1. Donner la loi de x. Calculer les valeurs propres λ1 ≥ λ2 de la matrice de covariance de x.2. Calculer, en fonction de ξ1 et ξ2, puis en fonction de ( f , u1, u2) les composantes principales η1 et η2 associees

a x. Montrer que Var(ηi) = λi, Cov(η1, η2) = 0.3. Calculer les correlations ρij entre ξi et ηj. Montrer que ρ2

i1 + ρ2i2 = 1, i = 1, 2. Donner le scree-graph dans

les cas limites σ = 0, σ = +∞.4. Tracer la projection des variables (cercle des correlations) lorsque σ est proche de 0 ou de +∞.

(1) Vu que x est une transformation lineaire d’un vecteur gaussien, lui aussi suit une loi gaussienne. Lesparametre de cette loi sont :

E(ξ1) = βE( f ) + σE(u1) = 0,E(ξ2) = −βE( f ) + σE(u2) = 0,

Var(ξi)(⊥⊥)= β2Var( f ) + σ2Var(ui) = β2 + σ2, i = 1, 2,

Cov(ξ1, ξ2) = −β2Var( f ) + σ2Cov(u1, u2) = −β2.

Donc

x ∼ N2 (0, Σ) , avec Σ =(

β2 + σ2 −β2

−β2 β2 + σ2

).

(2) Pour calculer les valeurs propres de cette matrice, on factorise son polynome caracteristique :

det(Σ− λI) = (β2 + σ2 − λ)2 − β4 = (2β2 + σ2 − λ)(σ2 − λ).

Page 44: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

44 Exercices corriges Chapitre 4

D’ou λ1 = 2β2 + σ2 et λ2 = σ2. Pour determiner le vecteur propre associe a λ1, il faut resoudre le systeme

lineaire (Σ − λ1 I)γ(1) = 0 sous le contrainte |γ(1)| = 1. On trouve facilement γ(1) = 1√2

(1

−1

). De la

meme facon, on trouve le vecteur propre associe a λ2 : γ(2) = 1√2

(11

). On en deduit les composantes

principales :

η1 = γT(1)x =

ξ1 − ξ2√2

=2β f + σ(u1 − u2)√

2,

η2 = γT(2)x =

ξ1 + ξ2√2

=σ(u1 + u2)√

2.

En utilisant l’independance de f , u1 et u2, ainsi que la bilinearite de la covariance, on trouve

Var(η1) =4β2 + σ2 + σ2

2= 2β2 + σ2 = λ1,

Var(η2) =σ2 + σ2

2= σ2 = λ2,

Cov(η1, η2) =Cov(ξ1 − ξ2, ξ1 + ξ2)

2=

Var(ξ1)−Var(ξ2)2

= 0.

(3) On a

ρ11 =Cov(ξ1, η1)√

Var(ξ1)Var(η1)=

Var(ξ1)− Cov(ξ1, ξ2)√2Var(ξ1)λ1

=2β2 + σ2

√2λ1(β2 + σ2)

=

√2β2 + σ2

2(β2 + σ2),

ρ12 =Cov(ξ1, η2)√

Var(ξ1)Var(η2)=

Var(ξ1) + Cov(ξ1, ξ2)√2Var(ξ1)λ2

=σ2

√2λ2(β2 + σ2)

=σ√

2(β2 + σ2),

ρ21 =Cov(ξ2, η1)√

Var(ξ2)Var(η1)=

Cov(ξ1, ξ2)−Var(ξ2)√2Var(ξ2)λ1

=−2β2 − σ2

√2λ1(β2 + σ2)

= −√

2β2 + σ2

2(β2 + σ2),

ρ22 =Cov(ξ2, η2)√

Var(ξ2)Var(η2)=

Var(ξ2) + Cov(ξ1, ξ2)√2Var(ξ2)λ2

=σ2

√2λ2(β2 + σ2)

=σ√

2(β2 + σ2).

On verifie facilement que ρ211 + ρ2

12 = ρ221 + ρ2

22 = 1.

Afin de tracer le scree-graph pour σ = 0 et σ = +∞, on remarque que

limσ→0

λ1

λ1 + λ2= lim

σ→0

2β2 + σ2

2β2 + 2σ2 = 1,

limσ→0

λ2

λ1 + λ2= lim

σ→0

σ2

2β2 + 2σ2 = 0,

limσ→+∞

λ1

λ1 + λ2= lim

σ→+∞

2β2 + σ2

2β2 + 2σ2 =12

,

limσ→+∞

λ2

λ1 + λ2= lim

σ→+∞

σ2

2β2 + 2σ2 =12

.

Page 45: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 4.1 Analyse en Composantes Principales 45

Ce qui nous amene aux scree graphs suivants :

1.0 1.2 1.4 1.6 1.8 2.0

0.0

0.2

0.4

0.6

0.8

1.0

Le cas σ=0

numero de la composante principale

La

pa

rt d

e v

aria

nce

exp

liqu

ee

1.0 1.2 1.4 1.6 1.8 2.0

0.3

0.4

0.5

0.6

0.7

Le cas σ=+ ∞

numero de la composante principaleL

a p

art

de

va

ria

nce

exp

liqu

ee

(4) Pour σ = 0, on a (ρ11, ρ12) = (1, 0) et (ρ21, ρ22) = (−1, 0). Alors que pour σ → +∞, on a (ρ11, ρ12) →(1/

√2, 1/

√2) et (ρ21, ρ22) → (−1/

√2, 1/

√2). On obtient donc les deux graphiques suivants :

−1.0 −0.5 0.0 0.5 1.0

−1

.0−

0.5

0.0

0.5

1.0

Le cas σ = 0

ξ2 ξ1

−1.0 −0.5 0.0 0.5 1.0

−1

.0−

0.5

0.0

0.5

1.0

Le cas σ = + ∞

ξ2 ξ1

90°

Exercice 4.2. Pendant 28 ans, on a observe 4 donnees meteorologiques :

ξ1 = precipitation en juillet (en mm),ξ2 = temperature moyenne en juillet (en degres Celsius),ξ3 = vitesse moyenne du vent en juillet (en km/h),ξ4 = precipitation en septembre (en mm).

Page 46: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

46 Exercices corriges Chapitre 4

A partir de ces donnees, on obtient la matrice de covariance :

S =

140.017 107.881 139.068 109.095106.038 110.0439 82.627

168.752 125.136108.960

et les correlations empiriques rij

(rij)i,j=1,...,4 =

0.969 −0.102 0.194 0.1160.907 −0.392 −0.106 −0.1110.971 0.156 −0.157 0.0920.943 0.252 0.092 −0.196

.

1. Calculer les variances empiriques li des composantes principales et faire un scree-graph.2. Calculer la part de variance de ξ1 expliquee par les deux dernieres composantes principales, et la part de

variance de ξ2 expliquee par les deux premieres composantes principales.3. Faire la projection des variables sur les deux premiers axes principaux et commenter le resultat.

(1) D’apres la formule vue en cours, r2ij = g2

ijlj/sii. En sommant cette egalite pour i = 1, . . . , 4 et en utilisantle fait que le vecteur g(j) est norme, on obtient

4

∑i=1

sii r2ij =

4

∑i=1

g2ijlj = lj.

En utilisant cette formule, on trouve l1 = 474.7, l2 = 28.76, l3 = 11.54, l4 = 8.79. Par consequent, on a

l1∑4

i=1 li= 90.6%

l2∑4

i=1 li= 5.43%

l3∑4

i=1 li= 2.2%

l4∑4

i=1 li= 1.67%

Le scree-graph est donc

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Scree Graph

Numéro de la composante

la p

art

de

va

ria

nce

exp

liqu

ée

(2) La part de la variance de ξ1 expliquee par les deux dernieres composantes principales est

r213 + r2

14 = 0.1942 + 0.1162 = 0.051 ≈ 5%.

La part de la variance de ξ2 expliquee par les deux premieres composantes principales est

r221 + r2

22 = 0.9072 + 0.3922 = 0.976 ≈ 98%.

(3) Pour determiner les projections des variables sur les deux premieres composantes principales, ongarde les deux premieres colonnes de la matrice (rij). On obtient les points de R2 suivants :

M1 = (0.969,−0.102), M2 = (0.907,−0.392),M3 = (0.971, 0.156), M4 = (0.943, 0.252).

Page 47: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 4.1 Analyse en Composantes Principales 47

On en deduit le graphique suivant :

−1.0 −0.5 0.0 0.5 1.0

−1

.0−

0.5

0.0

0.5

1.0

Projection des variables

axe 2

axe 1 1

2

34

On remarque que tous les points sont proches du cercle, ce qui signifie que les deux premieres compo-santes principales expliquent bien les variances des variables ξi. De plus, les points M3 et M4 sont tresproches, donc les variables ξ3 et ξ4 sont fortement positivement correlees. On peut egalement deduire dece graphique que ξ2 et ξ4 sont les variables les moins correlees.

Exercice 4.3. Soit x ∈ R4 un vecteur aleatoire de moyenne µ et de matrice de covariance Σ. On suppose queσii = 1 pour tout i. On effectue l’ACP de x.

1. Soit 0 < ρ < 1. L’un des deux graphiques suivants presente la projection des variables sur les deux premiersaxes principaux. Lequel ?

−1.0 −0.5 0.0 0.5 1.0

−1

.0−

0.5

0.0

0.5

1.0

Graphique ’a’

1

23

4

O axe 1

axe 2

ρ60°

−1.0 −0.5 0.0 0.5 1.0

−1

.0−

0.5

0.0

0.5

1.0

Graphique ’b’

1

2

3

4

O axe 1

axe 2

ρ30°

2. Sans effectuer les calculs donner l’interpretation la plus complete possible des correlations entre les variableset des correlations entre les variables et les composantes principales.

3. Calculer la part de la variance totale expliquee par les deux premieres composantes principales.

(1) On deduit de ces graphiques les coordonnees des points 1, 2, 3, 4 en fonction de ρ. On obtient

1(cos(π/3), sin(π/3)) = (0.5, 0.5√

3), 2(−0.5ρ,−0.5ρ√

3), 3(0,−ρ), 4(−ρ, 0)

Page 48: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

48 Exercices corriges Chapitre 4

pour le premier graphique. Comme les coordonnees du points i sont (ρi1, ρi2), on a

λ1 =4

∑i=1

ρ2i1σii =

4

∑i=1

ρ2i1 = 0.25 + 0.25ρ2 + ρ2 = 0.25 + 1.25ρ2,

λ2 =4

∑i=1

ρ2i2σii =

4

∑i=1

ρ2i2 = 0.75 + 0.75ρ2 + ρ2 = 0.75 + 1.75ρ2.

On voit que λ1 est plus petit que λ2, ce qui ne peut pas etre le cas dans une ACP. Donc c’est le secondgraphique qui presente la projection des variables sur les deux premiers axes principaux.

(2) Si ρ est proche de 1, tous les points sont proche du cercle de rayon 1. De plus, on voit que l’angle formepar les vecteurs O1 et O3 est de 180◦, donc les variables ξ1 et ξ3 sont fortement negativement correlees.L’angle forme par les vecteur O2 et O4 est de 90◦, donc les variables ξ2 et ξ4 sont tres faiblement correlees.

De meme, la variable ξ2 est fortement negativement correlee avec la premiere composante principaleet la variable ξ4 est fortement negativement correlee avec la deuxieme composante principale.

Pour ρ = 1, on voit que les variables ξ1 et ξ3 sont opposees et les variables ξ2 et ξ4 sont non correlees.

(3) En procedant comme dans la Question 1 de cet exercice, on trouve que

λ1 = 0.75 + ρ2 + 0.75ρ2 = 0.75 + 1.75ρ2, λ2 = 0.25 + ρ2 + 0.25ρ2 = 0.25 + 1.25ρ2.

De plus, comme tous les σii sont 1, on a

λ1 + . . . + λ4 = Tr(Σ) = σ11 + . . . + σ44 = 4.

Donc la part de variance totale expliquee par les deux premieres composantes principales est

λ1 + λ2

λ1 + λ2 + λ3 + λ4=

1 + 3ρ2

4.

4.2 Regression multilineaire

Exercice 4.4. Soient ξ1, . . . , ξn des variables aleatoires i.i.d. de densite f (·) par rapport a la mesure de Lebesguesur R, et soit Xi ∈ R, i = 1, . . . , n. On observe les couples (Xi, Yi), i = 1, . . . , n, issus du modele de regressionlineaire

Yi = ϑXi + ξi,

ou ϑ ∈ R est un parametre inconnu.1. On suppose d’abord que les Xi sont deterministes (modele de regression a effets fixes).

(a) Expliciter la densite jointe de Y1, . . . , Yn.(b) Montrer que si la loi de ξi est N (0, 1), la densite des (Y1, . . . , Yn) est

1(2π)n/2 exp

(− 1

2

n

∑i=1

(Yi − ϑXi)2)

.

En deduire l’estimateur du maximum de vraisemblance ϑMV de ϑ. Quelle est la loi de ϑMV ? Sonrisque quadratique ?

(c) Dans le cadre enonce en 1.2o, on etudie le cas particulier de regression sur le temps : Xi = i. Quelleest la vitesse de convergence du risque quadratique vers 0 dans ce cas ? Proposer la prevision lineairede Yn+1 basee sur (Y1, . . . , Yn). Donner l’intervalle de confiance de taille exacte 1− α pour Yn+1.

Page 49: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 4.2 Regression multilineaire 49

2. On suppose maintenant que les Xi sont des variables aleatoires i.i.d. (modele de regression a effets aleatoires).On note fX la densite de X1.

(a) Chercher la densite conditionnelle de (Y1, . . . , Yn) sachant (X1, . . . , Xn), puis la densite jointe de(X1, . . . , Xn, Y1, . . . , Yn). Verifier que l’estimateur du maximum de vraisemblance ϑMV de ϑ nedepend pas de la loi des Xi.

(b) En supposant que les ξi sont de moyenne E(ξ1) = 0 et de variance E(ξ21) = σ2

ξ et que E(X21) = σ2

X ,

donner la loi asymptotique de√

n(ϑMV − ϑ).

(c) En deduire un intervalle de confiance de niveau asymptotique 1 − α pour ϑ et un test de niveauasymptotique α de l’hypothese H0 : ϑ = 0 contre l’alternative H1 : ϑ > 0.

(1.a) Pour toute fonction mesurable bornee h : Rn → R, on a

E[h(Y1, . . . , Yn)] = E[h(ϑX1 + ξ1, . . . , ϑXn + ξn)]

=∫

Rnh(ϑX1 + z1, . . . , ϑXn + zn) f (z1) · . . . · f (zn) dz1 . . . dzn.

En faisant le changement de variable ui = ϑXi + zi, on obtient

E[h(Y1, . . . , Yn)] =∫

Rnh(u1, . . . , un) f (u1 − ϑX1) · . . . · f (un − ϑXn) du1 . . . dun.

On en deduit que fY1,...,Yn(u1, . . . , un) = f (u1 − ϑX1) · . . . · f (un − ϑXn) = ∏ni=1 f (ui − ϑXi).

(1.b) Dans la question precedente, en remplacant f par la densite de la loi normale, on obtient

Ln(Y1, X1, . . . , Yn, Xn, ϑ) = fY1,...,Yn(Y1, . . . , Yn) =1

(2π)n/2 exp(− 1

2

n

∑i=1

(Yi − ϑXi)2)

.

Cela donne

ln(ϑ) =1

2n

n

∑i=1

(Yi − ϑXi)2 =⇒ l′n(ϑ) =1n

n

∑i=1

Xi(ϑXi −Yi) =ϑ

n

n

∑i=1

X2i −

1n

n

∑i=1

XiYi.

En consequence,

ϑMVn = ∑n

i=1 XiYi

∑ni=1 X2

i.

Pour determiner sa loi, on remarque que

ϑMVn = ∑n

i=1 Xi(ϑXi + ξi)∑n

i=1 X2i

= ϑ + ∑ni=1 Xiξi

∑ni=1 X2

i.

Comme les ξi sont i.i.d. de loi normale N (0, 1) et les Xi sont deterministes, on a

∑ni=1 Xiξi

∑ni=1 X2

i∼ N

(0,

1∑n

i=1 X2i

).

Il en decoule que ϑMVn ∼ N (

ϑ, 1/∑ni=1 X2

i). On en deduit que le risque quadratique de ϑMV

n coıncide avecsa variance. Donc

Eϑ[(ϑMVn − ϑ)2] =

( n

∑i=1

X2i

)−1

.

Page 50: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

50 Exercices corriges Chapitre 4

(1.c) En remplacant Xi par i et en utilisant la formule ∑ni=1 i2 = n(n+1)(2n+1)

6 , on obtient

Eϑ[(ϑMVn − ϑ)2] =

6n(n + 1)(2n + 1)

.

Par consequent,

n3Eϑ[(ϑMVn − ϑ)2] =

6n2

(n + 1)(2n + 1)−−−→n→∞

3.

Donc la vitesse de convergence est n3.

Comme on a deja une estimation de ϑ basee sur l’echantillon Y1, . . . , Yn, on definira la prediction deYn+1 par la formule

Yn+1 = ϑMVn Xn+1 = (n + 1)ϑMV

n =6(n + 1) ∑n

i=1 iYi

n(n + 1)(2n + 1)=

6n(2n + 1)

n

∑i=1

iYi.

Pour construire un intervalle de confiance pour Yn+1, on doit d’abord determiner la loi de Yn+1 −Yn+1. Or,

Yn+1 −Yn+1 =6

n(2n + 1)

n

∑i=1

iYi − (ϑ(n + 1) + ξn+1)

=6

n(2n + 1)

n

∑i=1

i(ϑi + ξi)− (ϑ(n + 1) + ξn+1)

=6ϑ

n(2n + 1)

n

∑i=1

i2 +6

n(2n + 1)

n

∑i=1

iξi − (ϑ(n + 1) + ξn+1)

=6

n(2n + 1)

n

∑i=1

iξi − ξn+1.

Comme (ξ1, . . . , ξn+1) est un vecteur Gaussien, on a

Yn+1 −Yn+1 ∼ N(E

[6

n(2n + 1)

n

∑i=1

iξi − ξn+1

]; Var

[6

n(2n + 1)

n

∑i=1

iξi − ξn+1

])

= N(

0,n

∑i=1

36i2Var(ξi)n2(2n + 1)2 + Var(ξn+1)

)= N

(0,

6(n + 1)n(2n + 1)

+ 1)

On en deduit que

1− α = P(Yn+1 ∈ [Yn+1 − ε, Yn+1 + ε]) = P(|Yn+1 − Yn+1| < ε)

= P(|N (0, 1)| < ε

√n(2n + 1)√

2n2 + 7n + 6

)= 2Φ

(ε√

n(2n + 1)√2n2 + 7n + 6

)− 1.

Par consequent,

ε√

n(2n + 1)√2n2 + 7n + 6

= qN1−α/2 =⇒ ε = qN

1−α/2

√2n2 + 7n + 6

n(2n + 1).

(2.a) La densite conditionnelle de (Y1, . . . , Yn) sachant (X1, . . . , Xn) est tout simplement la densite trouveedans la question (1.1) :

fY1,...,Yn|X1,...,Xn(y1, . . . , yn|x1, . . . , xn) =n

∏i=1

f (yi − ϑxi).

Page 51: STATISTIQUE - IMAGINEimagine.enpc.fr/~dalalyan/Links/Stat-DESS.pdf · 2005-09-23 · Section 1.2 Statistique descriptive unidimensionnelle 7 1.2 Statistique descriptive unidimensionnelle

Section 4.2 Regression multilineaire 51

En ce qui concerne la densite jointe de (X1, . . . , Xn, Y1, . . . , Yn), on a

fY1,...,Yn |X1,...,Xn(y1, . . . , yn|x1, . . . , xn) =fX1,...,Xn ,Y1,...,Yn(x1, . . . , xn, y1, . . . , yn)

fX1,...,Xn(x1, . . . , xn).

Par consequent, fX1,...,Xn ,Y1,...,Yn(x1, . . . , xn, y1, . . . , yn) = ∏ni=1 f (yi − ϑxi) fX(xi). On en deduit que

ln(ϑ) = − 1n

n

∑i=1

(ln f (Yi − ϑXi) + ln fX(Xi)

).

Cette egalite montre que le point de minimum de ln(ϑ) est le meme que celui de −∑ni=1 ln f (Yi − ϑXi). Il

en resulte que ce point de minimum ne depend pas de fX et, par consequent, l’EMV de ϑ ne depend pasde la loi des Xi. En revanche, on ne peut pas calculer l’EMV explicitement tant qu’on n’a pas specifie laforme explicite de la densite f de ξi. On voit ci-dessous qu’on peut neanmoins faire une analyse statistiqueasymptotique basee sur l’EMV.

(2.b) Comme X1, . . . , Xn et ξ1, . . . , ξn sont i.i.d., il en est de meme pour Y1, . . . , Yn. Ceci implique que lesobservations (X1, Y1), . . . , (Xn, Yn) sont i.i.d. On peut verifier que le modele en question est regulier. Enconsequence, √

n(ϑMVn − ϑ) D−−−→

n→∞N (0, I−1),

ou

I = Eϑ

[(∂

∂ϑln

(f (Y1 − ϑX1) fX(X1)

))2]= Eϑ

[(X1 f ′(ξ1)

f (ξ1)

)2]= σ2

X

∫[ f ′(t)]2 f−1(t) dt.

est l’information de Fisher du modele.

(2.c) Comme√

nI (ϑMVn − ϑ) converge en loi vers N (0, 1), la convergence suivante a lieu :

limn→∞

(|√

nI (ϑMVn − ϑ)| ≤ qN

1−α/2)

= 1− α.

Par consequent I = {ϑ : |√nI (ϑMVn − ϑ)| ≤ qN

1−α/2} est une region de confiance de niveau asympto-tique 1− α. On verifie facilement que cette region s’ecrit comme suit :

I =[

ϑMVn − qN

1−α/2√nI , ϑMV

n +qN

1−α/2√nI

].

Comme ϑMVn est un estimateur consistant de ϑ, il est naturel de preferer l’hypothese H1 : ϑ > 0 a

l’hypothese nulle H0 : ϑ = 0, si ϑMVn est superieur a un certain seuil. C’est pourquoi on definit la region

critique Rn ={(x1, y1), . . . , (xn, yn) : ϑMV

n > cn}

. Pour que ce test soit de niveau asymptotique α, il fautque

α = limn→∞

P0(ϑMV

n > cn)

= limn→∞

P0(√

nI ϑMVn >

√nI cn

)

ou on a utilise le fait que, sous l’hypothese H0, ϑ = 0. On doit donc choisir√

nI cn = qN1−α. D’ou, cn =

qN1−α/

√nI et la region critique est Rn =

{(x1, y1), . . . , (xn, yn) : ϑMV

n > qN1−α/

√nI }

.