chapitre1

15
Chapitre 1 Tests de comparaison d’´ echantillons 1.1 Tests de comparaison de deux populations normales Il est fr´ equent d’avoir ` a comparer entre elles deux populations diff´ erentes : par exemple, on peut juger des performances d’un vaccin par les probabilit´ es d’attraper la maladie, etc. Nous supposons que l’on d´ esire de comparer deux variables X et Y normales, en termes d’esp´ erance et de variance, pour lesquelles on dispose de deux populations ind´ ependantes : nous avons deux ´ echantillons i.i.d. : X n =(X 1 , ..., X n ) et Y m =(Y 1 , ..., Y m ) deux ´ echantillons normaux de loi, respectivement, N (μ 1 2 1 ) et N (μ 2 2 2 ). On note ¯ x = 1 n n i=1 X i , ¯ y = 1 m m i=1 X i , s 2 X = 1 n n i=1 X 2 i ¯ x 2 , s 2 Y = 1 m m i=1 Y 2 i ¯ y 2 . L’outil qui va nous servir pour d´ evelopper les tests est le test RVM. Pour le d´ ecrire il nous faut d´ efinir les propri´ et´ es des vraisemblances maximales dans le mod` ele normal avec deux ´ echantillons. Le r´ esultat suivant est une g´ en´ eralisation imm´ ediate du Lemme B.4 : Lemme 1.1 Nous avons max μ 1 2 max σ 2 L(X n , (μ 1 2 )) L(Y m , (μ 2 2 )) = exp n + m 2 n + m 2 log 2π ns 2 X + ms 2 Y m + n ; max μ 1 2 1 max μ 2 2 2 L(X n , (μ 1 2 1 )) L(Y m , (μ 2 2 2 )) = exp n 2 n 2 log(2πs 2 X ) m 2 m 2 log(2πs 2 Y ) . Exercice 1.1 erifiez cela. Lemme 1.2 max μ,σ 2 L(X n , (μ, σ 2 )) L(Y m , (μ, σ 2 )) = exp m + n 2 m + n 2 log 2π m + n ns 2 X + ms 2 Y + nm m + n x ¯ y] 2 (1.1) 3

Upload: anonymous-rqqtvj

Post on 25-Dec-2015

212 views

Category:

Documents


0 download

DESCRIPTION

Cours de statistiques

TRANSCRIPT

Page 1: chapitre1

Chapitre 1

Tests de comparaison d’echantillons

1.1 Tests de comparaison de deux populations normales

Il est frequent d’avoir a comparer entre elles deux populations differentes : par exemple, onpeut juger des performances d’un vaccin par les probabilites d’attraper la maladie, etc. Noussupposons que l’on desire de comparer deux variables X et Y normales, en termes d’esperanceet de variance, pour lesquelles on dispose de deux populations independantes : nous avons deuxechantillons i.i.d. :Xn = (X1, ...,Xn) et Y

m = (Y1, ..., Ym)deux echantillons normaux de loi, respectivement, N (µ1, σ

21) et N (µ2, σ

22). On note

x =1

n

n∑

i=1

Xi, y = 1m

∑mi=1Xi,

s2X =1

n

n∑

i=1

X2i − x2, s2Y = 1

m

∑mi=1 Y

2i − y2.

L’outil qui va nous servir pour developper les tests est le test RVM. Pour le decrire il nousfaut definir les proprietes des vraisemblances maximales dans le modele normal avec deuxechantillons. Le resultat suivant est une generalisation immediate du Lemme B.4 :

Lemme 1.1 Nous avons

maxµ1,µ2

maxσ2

L(Xn, (µ1, σ2))L(Y m, (µ2, σ

2)) = exp

(−n+m

2− n+m

2log

(2π

ns2X +ms2Ym+ n

));

maxµ1,σ2

1

maxµ2,σ2

2

L(Xn, (µ1, σ21))L(Y

m, (µ2, σ22)) = exp

(−n

2− n

2log(2πs2X)− m

2− m

2log(2πs2Y )

).

Exercice 1.1

Verifiez cela.

Lemme 1.2

maxµ,σ2

L(Xn, (µ, σ2))L(Y m, (µ, σ2))

= exp

(−m+ n

2− m+ n

2log

(2π

m+ n

[ns2X +ms2Y +

nm

m+ n[x− y]2

]))(1.1)

3

Page 2: chapitre1

4 CHAPITRE 1. TESTS DE COMPARAISON D’ECHANTILLONS

Preuve : Soit

x+ y =1

n+m

(n∑

i=1

Xi +m∑

i=1

Yi

)=

nx

n+m+

my

n+m.

Nous avons

maxµ

L(Xn, (µ, σ2))L(Y m, (µ, σ2)) (1.2)

= exp

(− 1

2σ2

n∑

i=1

(Xi − x+ y)2 − 1

2σ2

m∑

i=1

(Yi − x+ y)2 − n

2log(2πσ2)− m

2log(2πσ2)

).

On verifie facilement les identites simples :

n∑

i=1

(Xi − x+ y)2 =n∑

i=1

(Xi − x− (x+ y − x))2

= n[s2X + (x− x+ y)2],

etm∑

i=1

(Yi − x+ y)2 = m[s2Y + (y − x+ y)2].

Ainsi,

m∑

i=1

(Yi − x+ y)2 +n∑

i=1

(Xi − x+ y)2

= ns2X +ms2Y + n

(m

n+mx− m

n+my

)2

+m

(n

n+my − n

n+mx

)2

= ns2X +ms2Y +mn

m+ n(y − x)2.

En soumettant ce resultat dans (1.2), nous obtenons

maxσ2

maxµ

L(Xn, (µ, σ2))L(Y m, (µ, σ2))

= maxσ2

exp

(− 1

2σ2

[ns2X +ms2Y +

nm

n+m(y − x)2

]− n+m

2log(2πσ2)

)

= exp

(−m+ n

2− m+ n

2log

(2π

m+ n

[ns2X +ms2Y +

nm

m+ n[x− y]2

]))

1.1.1 Test de l’egalite des variances (Test de Fisher)

On se place dans le cas general ou les esperances µ1 et µ2 sont inconnues. On cherche a tester

H0 : σ21 = σ2

2 , contre H1 : σ1 6= σ2.

au niveau α fixe.Le test RVM pour ce probleme s’ecrit comme suit :

R(t) = {(Xn, Y m) : S(Xn, Y m) ≥ t},

avec

S(Xn, Y m) =maxµ1,σ2

1maxµ2,σ2

2L(Xn, (µ1, σ

21))L(Y

m, (µ2, σ21))

maxµ1,µ2 maxσ2 L(Xn, (µ1, σ2))L(Y m, (µ2, σ2))

Page 3: chapitre1

1.1. TESTS DE COMPARAISON DE DEUX POPULATIONS NORMALES 5

0 2 4 6 8 101

2

3

4

5

t

F(t)

Figure 1.1 – Fonction G(z) pour m = n.

Notez qu’on traite µ1 et µ2 en parametres de nuisance. D’apres Lemme 1.1,

S(Xn, Y m) ∼ m+ n

2log(ns2X +ms2Y )−

m

2log(s2X)− n

2log(s2Y )

=m

2log

(m+ n

s2Xs2Y

)+

n

2log

(n+m

s2Ys2X

).

Notons

FX,Y =

ns2Xn−1

ms2Ym−1

.

Dans le cas σ21 = σ2

2 = σ2 la statistique F suit (pourquoi ?) la loi Fn−1,m−1 de Fisher-Snedecora n − 1 et m − 1 degres de liberte (cf. paragraphe A.3.2 et exercice A.5). Nous avons pour lastatistique S(Xn, Y n) :

S(Xn, Y n) ∼ m

2log

(m+m

n− 1

m− 1FX,Y

)+

n

2log

(n+ n

m− 1

n− 1

1

FX,Y

)

∼ m

2log

(1 +

n− 1

m− 1FX,Y

)+

n

2log

(1 +

m− 1

n− 1

1

FX,Y

)

∼ log

(1 +

n− 1

m− 1FX,Y

)+

n

mlog

(1 +

m− 1

n− 1

1

FX,Y

).

Considerons la fonction

G(z) = log(1 + z) +n

mlog

(1 +

1

z

). (1.3)

Fixons un t > 0 et notons G−11 (t) et G−1

2 (t) les racines de l’equation

G(x) = t.

Le test RVM prend alors la forme suivante :

R(t) =

{Xn, Y m : G

(n− 1

m− 1FX,Y

)≥ t

}

=

{Xn, Y m :

n− 1

m− 1FX,Y ≤ G−1

1 (t) oun− 1

m− 1FX,Y ≥ G−1

2 (t)

}

Page 4: chapitre1

6 CHAPITRE 1. TESTS DE COMPARAISON D’ECHANTILLONS

Le parametre t peut etre choisi pour garantir le risque de premiere espece α. Pour cela il fauttrouver la racine de l’equation

1− α =

∫ z2

z1fFn−1,m−1(x)dx, (1.4)

ou fFn−1,m−1 est la densite de la loi Fn−1,m−1 et

z1 =m− 1

n− 1G−1

1 (t), z2 =m− 1

n− 1G−1

2 (t).

La solution de l’equation (1.4) peut etre recherche, par exemple, par la methode de Monte-Carlode la f.d.r. de la variable aleatoire F ( n−1

m−1FX,Y ).Dans le cas particulier ou m = n, le calcul est tres simple : il est facile de voir que la fonction

G, definie par (1.3), satisfait dans ce cas G(z) = G(1/z) et nous deduisons de (1.4) (ici z estla racine ≥ 1)

1− α =

∫ z

1z

fFn−1,m−1(x)dx = Fn−1,m−1(z)− Fn−1,m−1(1/z).

Le test RVM devient dans ce cas le test classique de Fisher :

R(t) =

{Xn, Y m : max

[FX,Y ,

1

FX,Y

]≥ t

}.

1.1.2 Test de l’egalite des moyennes. Cas des variances egales

On teste l’hypothese H0 : µ1 = µ2 contre H1 : µ1 6= µ2 au niveau α. Supposons pourcommencer que les variances des deux lois sont egales mais inconnues : σ2

1 = σ22 = σ2. Autrement

dit, on cherche a tester H0 : µ1 − µ2 = 0 contre H1 : µ1 − µ2 6= 0.Le test RVM s’ecrit

R(t) = {Xn, Y m : S(Xn, Y m) ≥ t} ,avec

S(Xn, Y m) =maxµ1,µ2 maxσ2 L(Xn, (µ1, σ

2))L(Y m, (µ2, σ2))

maxµmaxσ2 L(Xn, (µ, σ2))L(Y m, (µ, σ2))

En utilisant Lemme 1.1 et 1.2, on obtient directement :

S(Xn, Y m) ∼ (x− y)2

ns2X +ms2Y,

et le test RVM

R(t) =

Xn, Y m :

|x− y|√ns2X +ms2Y

≥ t

,

On remarque, tout d’abord, que sous l’hypothese H0 (Pµ,σ2) les variables aleatoiresns2Xσ2 ∼ χ2

n−1

etms2Yσ2 ∼ χ2

m−1 sont independantes. Ainsi,

ns2X +ms2Yσ2

∼ χ2n+m−2. (1.5)

En plus,

sous Pµ1,σ2 ,√nσ (x− µ1) ∼ N (0, 1),

sous Pµ2,σ2 ,√mσ (y − µ2) ∼ N (0, 1),

Page 5: chapitre1

1.1. TESTS DE COMPARAISON DE DEUX POPULATIONS NORMALES 7

et √n+m

σ(x− µ1) ∼ N (0,

n+m

n),

√n+m

σ(y − µ2) ∼ N (0,

n+m

m).

Maintenant, l’independance de x et de y implique que si µ1 = µ2,

√n+m

σ(x− y) ∼ N

(0,

n+m

n+

n+m

m

).

Par consequent, sous H0, √nm

n+m

(x− y)

σ∼ N (0, 1).

Avec (1.5) ceci permet de conclure que la variable aleatoire

√nmn+m(x− y)√

ns2X+ms2Yn+m−2

=x− y√

ns2X +ms2Y

√(n +m− 2)nm

n+m

suit la loi tn+m−2 de Student a n+m− 2 degres de liberte. Finalement, le test RVM au niveauα s’ecrit

R =

Xn, Y m :

√(n+m− 2)nm

n+m

|x− y|√ns2X +ms2Y

≥ t1−α/2

,

ou t1−α/2 = t1−α/2(tn+m−2) est le quantile d’ordre 1 − α/2 de la loi de Student a n + m − 2degres de liberte.

Exercice 1.2

Etudier la fonction puissance π(θ), θ = µ1 − µ2, de ce test.

1.1.3 Test d’egalites de moyennes. Probleme de Behrens-Fisher

Il s’agit de tester l’hypotheses composites

H0 : µ1 = µ2 contre H1 : µ1 6= µ2,

quand les variances ne sont pas supposees d’etre les memes : σ21 6= σ2

2 . Le test de RVM presentun inconvenient important : la loi de la statistique du test ne peut pas etre ecrite explicitementet ne peut etre obtenu que par simulation. C’est pour cette raison que deux approches sontcommunement utilisees :

– la premiere consiste a commencer par le test d’egalite des variances (par exemple, le testde Ficher). Si la valeur critique de ce test est ≪ assez elevee ≫ (disons, ≥ 0.1), on supposeque les variances des deux echantillons sont les memes et on fait le test de Student d’egalitedes moyennes. Un probleme evident dans ce cas est une difficulte d’attribuer un niveaua un tel test. Par ailleurs, on ne sera pas faire si le test de variance rejette l’hypothesed’egaille des variances. 1

– une alternative plus sensee est d’employer le test de Welch, qui consiste a utiliser la sta-tistique

w =x− y√s2Xn +

s2Ym

,

1. Une reponse a cette critique consiste a dire que dans le cas des variances differentes, il ne faut pas s’attendrea ce que les moyennes soit les memes.

Page 6: chapitre1

8 CHAPITRE 1. TESTS DE COMPARAISON D’ECHANTILLONS

dont la loi sous H0 est approximee la loi tα de Student avec α degres de liberte, ou α estdonne par

α =

[(s2Xn

)+

(s2Ym

)]2

(s2Xn

)2

n−1 +

(s2Ym

)2

m−1

.

Exercice 1.3

Expliciter le rapport des vraisemblances maximales :

maxµ1,µ2 maxσ21 ,σ

22L(Xn, (µ1, σ

21))L(Y

m, (µ2, σ22))

maxµmaxσ2 L(Xn, (µ, σ))L(Y m, (µ, σ)).

Proposer une construction de test d’ajustement des lois de deux echantillons normaux independants,c.-a-d. le test d’hypothese

H0 : µ1 = µ2, σ21 = σ2

2 contre H1 : µ1 6= µ2, ou σ21 6= σ2

2 .

1.1.4 Test pour deux echantillons apparies

Il s’agit d’un cas particulier de dependance des deux echantillons : les echantillons sontconstitues a partir des memes sujets, e.g. avant et apres le traitement. Les etudes d’echantillonsapparies presentent souvent plus d’interet que les etudes sur echantillons independants. L’in-fluence de facteurs exogenes est reduite et les resultats sont bien plus precis. L’hypothese d’egalitedes variances est inutile.

Pour tester l’egalite des moyennes dans ce cas l’approche courante consiste a former l’echantillonde differences Di = Xi − Yi, i = 1, ..., n et tester l’hypothese que la moyenne µD de D est nullecontre une alternative de choix :

H0 : µD = 0 contre µD

><6=

0.

Pour cela on peut utiliser le test de moyenne de Student (pour un seul echantillon), mais il fauts’assurer quand meme que la loi des Di est bien normale.

1.2 Analyse de variance ≪ classique ≫ a un facteur

L’analyse de variance proprement dite n’est rien d’autre que l’extension du test de Studentau cas de plusieurs echantillons.

On dispose n = n1 + ... + np observations yik, i = 1, ..., p, k = 1, ..., ni, i etant l’indice degroupe et ni la taille de groupe i.

Exemple 1.1 Supposons que l’on teste p engrais differents ; pour chaque engrais i on fera ni

experimentations, et yik designera la production du k-eme champ de test, utilise pour le i-emetype d’engrais.

Le modele de nos donnees est ainsi

yik = µi + ξik, i = 1, ..., p, k = 1, ..., ni.

Page 7: chapitre1

1.2. ANALYSE DE VARIANCE ≪ CLASSIQUE ≫ A UN FACTEUR 9

On s’interesse a savoir si les µi sont ≪ significativement differents ≫, ce qui peut se traduire parle test de l’hypothese

H0 : µ1 = ... = µp contre H1 : µ1 6= µ2, ..., µ1 6= ... 6= µp

(pour l’exemple ci-dessus cela se traduit comme ≪ l’engrais n’a pas d’effet visible ≫contre ≪ aumoins un engrais a de l’effet visible ≫). Tout au long de ce paragraphe on supposera validel’hypothese de base suivante :

Hypothese 1. [normale, homogene] : les variables aleatoires ξik, i = 1, ..., p, k = 1, ..., ni sonti.i.d., ξik ∼ N (0, σ2).

Pour tester H0 contre H1 on peut utiliser le test RVM. Pour cela il nous faut expliciter lavraisemblance maximale sous H0 et sous H1. Pour le cas des moyennes differentes nous avons(cf Lemma 1.1) :

maxµ1,...,µp

maxσ2

p∏

i=1

L(yi, (µi, σ2)) = exp

(−n

2− n

2log

(2πs2

)), (1.6)

ou nous avons note n =∑p

i=1 ni et s2 = 1n

∑pi=1 nis

2i , s

2i etant la variance empirique du i-eme

echantillon :

s2i =1

ni

ni∑

k=1

y2ik − y2i ,

yi =1

ni

ni∑

k=1

yik.

La derivation sous H0 demande un peu plus de travail (cf (1.1)) :

maxµ

maxσ2

p∏

i=1

L(yi, (µ, σ2)) = exp

(−n

2− n

2log

(2πs2

)), (1.7)

avec

s2 =1

n

p∑

i=1

ni

[s2i + (yi − y)2

]=

1

n

p∑

i=1

ni

[s2i + (y2i − y2)

],

y =1

n

p∑

i=1

niyi =1

n

p∑

i=1

ni∑

k=1

yik.

En effet, nous avons la vraisemblance totale egale au produit des vraisemblance de nos echantillonsindependants :

p∏

i=1

L(yi, (µi, σ2)) = exp

(−

p∑

i=1

ni

2log(2πσ2)− 1

2σ2

p∑

i=1

[nis2i + (yi − µ)2ni]

).

La minimization en µ est immediate : la solution optimale

µ∗ = y =

∑pi=1 yini

ni=

1

n

p∑

i=1

yini,

et en la soumettant dans la vraisemblance nous obtenons

maxµ

p∏

i=1

L(yi, (µ, σ2)) = exp

(−

p∑

i=1

ni

2log(2πσ2)− 1

2σ2

p∑

i=1

[nis2i + (yi − y)2ni]

). (1.8)

Maintenant, la minimisation en σ2 donne

(σ2)∗ = s2 =1

n

p∑

i=1

ni

[s2i + (yi − y)2

],

en soumettant cette valeur dans (1.8) nous arrivons a (1.7).

Page 8: chapitre1

10 CHAPITRE 1. TESTS DE COMPARAISON D’ECHANTILLONS

Remarque : observez que y et s2 sont les estimateurs de maximum de vraisemblance (EMV)de µ et de σ2 sous H0 ; a leur tour, yi et s

2 sont les estimateurs EMV de µi, i = 1, ..., p et de σ2

sous H1. Notez egalement la decomposition de ns2 en somme des variances ≪ intra-classe ≫ ns2iet la variance ≪ entre-classe ≫

∑pi=1(yi − y)2, qui correspond a une decomposition de la somme

des carres ≪ totale ≫ (TSS pour Total Sum of Squares)∑p

i=1

∑nik=1[y

2ik − y2] :

p∑

i=1

ni∑

k=1

[y2ik − y2] =p∑

i=1

ni(y2i − y2) +

p∑

i=1

ni∑

k=1

(y2ik − y2i )

=p∑

i=1

ni(yi − y)2 +p∑

i=1

ni∑

k=1

(yik − yi)2, (1.9)

ou encore

TSS = ESS +RSS

Total SS = Explained SS + Residual SS,

qui implique l’orthogonalite dans Rn (theoreme de Pythagore) des trois vecteurs normaux

y...y

,

y1 − y...

yp − y

et

y11 − y1...

ypnp − yp

.

En tout cas,nous pouvons maintenant ecrire le test RVM, dont la region critique est

R(t) ={y1, ..., yp

∣∣∣S(y1, ..., yp) ≥ t},

avec

S(y1, ..., yp) =maxµ1,...,µp maxσ2

∏pi=1 L(y

i, (µi, σ2))

maxµmaxσ2

∏pi=1 L(y

i, (µ, σ2))=

(s2

s2

)n2

. (1.10)

Autrement dit, la region de rejet de ce test s’ecrit :

R(t) =

{y1, ..., yp

∣∣∣∣∣

∑pi=1 nis

2i +

∑pi=1 ni(yi − y)2∑p

i=1 nis2i≥ t

},

ou, sous la forme equivalente,

R(t) =

{y1, ..., yp

∣∣∣∣∣

∑pi=1 ni(yi − y)2∑p

i=1 nis2i≥ t

}.

Ce test s’appelle test de Fisher, et vous avez probablement deja rencontre son analogue dansle cours de regression lineaire. Notons que par le theorem de Cochran (cf la decompositionorthogonale (1.9))

s2i⊥⊥yi, et s2i⊥⊥y, i = 1, ..., p;

de plus,nis2iσ2 ∼ χ2

ni−1,√ni

σ (yi − µ) ∼ N (0, 1), i = 1, ..., p et

p∑

i=1

nis2i ∼ χ2

n−p

grace aux proprietes de la loi de χ2. En utilisant une fois de plus le theoreme de Cochran (ou ladecomposition (1.9)) on obtient que yi − y⊥⊥y, et

σ−2p∑

i=1

ni(yi − y)2 ∼ χ2p−1.

Page 9: chapitre1

1.3. HYPOTHESE D’EGALITE DE VARIANCES. TRANSFORMATIONS DES DONNEES11

En combinant ces deux resultats on conclut que la variable

F =

∑p

i=1ni(yi−y)2

p−1∑p

i=1nis2i

n−p

∼σ2χ2

p−1/(p − 1)

σ2χ2n−p/(n − p)

∼ Fp−1,n−p

(suit la loi de Fisher-Snedecor a p− 1 et n− p degres de liberte).Ainsi, le test de Fisher au niveau α s’ecrit :

R(α) =

{y1, ..., yp

∣∣∣∣F ≥ p− 1

n− pq1−α(Fp−1,n−p)

}

(ici, comme d’habitude, qβ(Fn1,n2) est le quantile β de la loi de Fisher-Snedecor), il est facile decalculer la valeur critique d’un tel test, etc.

1.3 Hypothese d’egalite de variances. Transformations des donnees

Le cadre classic de tests de moyenne sur deux ou plusieurs echantillons gaussiens suppose queles variances (theoriques) des echantillons sont inconnues mais toutes egales. Un test courammentutilise pour valider cette hypothese est le test de Bartlett.

1.3.1 Test de Bartlett

Plus precisement, on suppose que p echantillons independants Yi, i = 1, ..., p, Yi = (Yi,1, ..., Yi,ni)de loi N (µi, σ

2i ) et de taille ni sont observes. On cherche a tester l’hypothese

H0 : σ21 = σ2

2 = ... = σ2p contre H1 : σ2

i ne sont pas toutes egales.

Nous allons suivre notre demarche habituelle, a commencer par la description du test du rapportde vraisemblances maximales. Calculons les vraisemblances maximales sous H0 et sous H1 : onverifie facilement (cf (1.6)) que

maxµ1,...,µp

maxσ2

p∏

i=1

L(Yi, (µi, σ2)) = exp

(−n

2− n

2log

(2πs2

));

ou n =∑p

i=1 ni et s2 = 1n

∑pi=1 nis

2i , s

2i etant la variance empirique du i-eme echantillon. De

plus,

maxµ1,...,µp

maxσ21 ,...,σ

2p

p∏

i=1

L(Yi, (µi, σ2i )) = exp

(−n

2−

p∑

i=1

ni

2log

(2πs2i

)).

Ceci permet de verifier que le test RVM s’ecrit sous la forme :

R(t) =

{Y1, ...Yp

∣∣∣∣∣ S(Y1, ...., Yp) = n log s2 −p∑

i=1

(ni log s2i ) ≥ t

}.

Pour determiner les parametres de ce test – valeur critique, valeur de t pour un niveau donnee,etc – on pourrait utiliser la methode de Monte-Carlo car les lois de s2i /σ

2, i = 1, ..., p, sont bienconnues (lesquelles ?). Neanmoins, l’alternative generalement employee consiste a utiliser le testde Bartlett (1937), base sur la statistique

SB(Y1, ..., Yn) = λ−1

[(n− p) log s2 −

p∑

i=1

[(ni − 1) log s2i ]

]

Page 10: chapitre1

12 CHAPITRE 1. TESTS DE COMPARAISON D’ECHANTILLONS

ou s2 = 1n−p

∑pi=1(ni − 1)s2i et

λ = 1 +1

3(p − 1)

[ p∑

i=1

1

ni − 1− 1

n− p

].

On demontre que la loi de la statistique SB peut etre approximee par la loi de χ2p−1. Notons que

la statistique SB de test de Bartlett, ainsi que la statistique S du test RVM sont non-negativestoutes les deux, et S = 0 ou SB = 0 si et seulement si s21 = ... = s2p. En effet, le calcul pour lastatistique S donne

s2 =1

n

p∑

i=1

nis2i ≥

( p∏

i=1

(s2i )ni

) 1n

(la moyenne geometrique ≤ la moyenne arithmetique). Exactement le meme calcul pour SB

permet de justifier qu’il s’agit d’un test unilateral. Par exemple, la region critique du test deBartlett au niveau approximatif α est donnee par

RB(t) ={Y1, ...Yp

∣∣∣ SB(Y1, ...., Yp) ≥ q1−α(χ2p−1)

},

qβ(χ2m) etant le quantile de la loi de χ2 a m degres de liberte.

1.3.2 Transformations des donnees pour egaliser les variances

Lorsque les variances des echantillons a comparer ne sont pas egales (le test de Ficher oucelui de Bartlett rejettent l’hypothese d’egalite) on peut envisager une transformation de va-riables pour obtenir les donnees plus homogenes. L’idee d’une telle transformation vient del’approximation tres basique : si X = µ+ ξ, ξ ∼ N (0, σ2(µ)), alors pour une fonction lisse,

g(X) ≈ g(µ) + g′(µ)ξ + ... ≈ g(µ) + g′(µ)ξ,

avec Eg(X) = g(µ) et

Var(g(X)) ≈ Var(ξ)[g′(µ)]2 = σ2(µ)[g′(µ)]2

en premier ordre. Pour obtenir une variable g(X) dont la variance depend faiblement de lamoyenne on peut donc choisir la transformation g telle que

g′(µ)σ(µ) = 1. (1.11)

Exemple 1.2 Soient Xi =Yi

Yi−1, i = 1, ..., n, des proportions (par exemple, Xi est un rendement

d’un titre boursier avec Yi le prix du titre au jour i et Yi−1 son prix au jour i − 1 ; ou encoreune augmentation relatives d’activite d’enzymes, etc). En notant Zi = log Yi et ξi = Zi−Zi−1 =log(Xi), on obtient Zn = Z0 +

∑ni=1 ξi. Si on suppose dans ce modele que ξ ∼ N (µ, σ2) alors Xi

suit la loi log-normale logN (µ, σ2) dont la moyenne est eµ+σ2

2 et la variance e2µ+σ2(eσ

2 − 1) 2,ce qui donne un lien Var(X) = O(E(X)2).

Exemple 1.3 Soit X ∼ P(λ)une v.a. de loi de Poisson avec l’intensite λ. Dans ce cas lamoyenne de X µ = λ et la variance σ2 = λ = µ. Dans ce cas la transformation suggeree parl’equation (1.11) est g(X) = C + 2

√X, la solution de l’equation differentielle g′(t) = t−1/2.

En pratique on utilise plutot la transformation g(X) =√X + C (dans les livres vous aller

trouver la transformation de Tukey g(X) =√X + 3

8).

2. La definition d’une loi log-normale est exactement comme ceci : une v.a. η suit la loi log normale deparametres µ et σ2 (on note η ∼ logN (µ, σ2)) si ξ = log η est normale de parametres µ, σ2.

Page 11: chapitre1

1.3. HYPOTHESE D’EGALITE DE VARIANCES. TRANSFORMATIONS DES DONNEES13

−1 −0.5 0 0.5 1 1.5 2 2.5−1

−0.5

0

0.5

1

1.5

2

2.5

Figure 1.2 – Regression lineaire log s sur log x dans le cas de 6 echantillons normaux de taille20 chacun. Lien lineaire en σ et µ des echantillons.

Exemple 1.4 Soit X ∼ B(1, p) variable de Bernoulli ; nous avons EX = p et Var(X) =p(1− p). Autrement dit, la fonction σ(µ) =

√µ(1− µ). En integrant l’equation differentielle

g′(t) = 1√t(1−t)

, nous obtenons la transformation

g(X) = C + arcsin(2X − 1) = 2 arcsin(√X) + (C − π

2).

Dans la literature statistique on prefere d’utiliser la transformation d’arcsinus de la variable Y/nou Y ∼ B(n, p) :

arcsin

√√√√Y + 38

n+ 34

.

Dans la majorite des cas pratiques les transformations√X et logX suffisent, mais la meme

technique permet de definir une transformation ≪ adequate ≫ quelque soit la dependance σ(µ).Par exemple, la transformation dite de Box-Cox est donnee par

g(t) =

{tα−1α , α 6= 0,

log t, α = 0.

Cette transformation est supposee de stabiliser la variance dans le cas quand σ(µ) ≍ µα−1.

Remarque : faites attention, il sera probablement a votre charge d’interpreter les resultatsd’analyse pour les donnees transformees ou de comprendre leur signification pour les donneesoriginales. 3

Bien evidemment, la fonction de dependance de la variance (theorique) d’un echantillon deca moyenne (theorique) sera inconnue en pratique. La demarche experimentale consiste dans cecas a d’abord construire les estimations xi et s

2i des moyennes et des variances des echantillons,

et de considerer ensuite une ≪ regression ≫ de log s sur log x. L’interet d’utiliser le log residedans le fait que dans le cas d’une dependance de type s = Cxα, le lien entre log s et log x estlineaire (attention quand meme au valeurs decalees et negatives de x !).

3. Par exemple, le modele normale pour le ≪ log ≫ suppose le bruit multiplicatif dans modele d’origine ; et sila ≪

√≫ est normale, dans le modele d’origine le bruit est compose d’une partie bruit multiplicatif et de bruit

≪ χ2≫, etc.

Page 12: chapitre1

14 CHAPITRE 1. TESTS DE COMPARAISON D’ECHANTILLONS

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

3

qNi

X(i)

Figure 1.3 – q-plot ≪ typique ≫ pour un echantillon X20 tire de loi N (0, 1)

1.4 Normalite d’echantillons et tests non-parametriques de com-

paraison

L’hypothese de normalite des echantillons joue un role capitale dans le developpement destests ci-dessus (ainsi que ceux qui vont suivre). Si la taille des echantillons est superieure a, disons,30, on peut supposer que la loi des statistiques utilisees est bien approximee par celle deriveede la loi normale des echantillons. Dans ce cas nous allons utiliser les tests pour les echantillonsnormaux, en se rappelant quand meme qu’il s’agit la de tests asymptotiques. La demarchequi nous allons utiliser pour les echantillons de petite taille consiste a tester l’hypothese denormalite, et dans le cas de l’hypothese rejetee les tests non-parametriques qui sont peu sensiblea la violation de cette hypothese seront utilises.

1.4.1 Tests de normalite

Une methode graphique intuitive, permettant se rendre compte rapidement de non-normalitedes donnee consiste a employer le q-plot (ou qq-plot, pour quantile-contre-quantile). Il s’agit detracer les valeurs X(1), ...,X(n), ou X(1) ≤ X(2) ≤ ... ≤ X(n) sont les statistiques d’ordre de Xn

(echantillon ordonne, pour simplifier) contre les quantiles qN1n+1

, qN2n+1

, ..., qNnn+1

correspondants de

la loi N (0, 1). Dans le cas quand la loi de Xn est normale le graphique doit etre proche d’unedroite (bissectrice de l’octant pour les donnees centree-reduites). 4

Test de Shapiro-Wilk (1945). Le test non-parametrique de Shapiro-Wilk est souvent preconisepour tester la normalite d’un echantillon. Il porte sur la statistique

W (Xn) =

(∑ni=1 aiX(i)

)2

ns2,

ou X(i) est la i-eme statistique d’ordre. Le vecteur des poids a est calcule selon

a =V −1m√mTV −2m

,

avec mi = E(X(i)), i = 1, ..., n et V = V (X(1), ...,X(n)) (vecteur des moyennes et matricede covariance des statistiques d’ordre d’un vecteur normal N (0, 1)), la statistique W (Xn) est

4. D’ou le nom la droite de Henry de ce graphique dans la literature en Francais.

Page 13: chapitre1

1.4. NORMALITE D’ECHANTILLONS ET TESTSNON-PARAMETRIQUES DE COMPARAISON15

ensuite comparee aux seuils dits de Shapiro-Wilk (petites valeurs de W (Xn) correspondent ala loi normale de l’echantillon. On dit d’habitude que la puissance de ce test est bonne pourdetecter l’asymetrie (skewness) de la distribution de X, mais un coefficient d’aplatissement(kurtosis) anormal sera plus difficilement detecte.

Le test de Shapiro-Wilk est le plus populaire, mais les autres tests, dits non-parametriquessont souvent utilises (test de Kolmogorov-Smirnov, de Cramer-von-Mises, test de Anderson-Darling, etc).

1.4.2 Tests de comparaison bases sur les statistiques de rang

Dans la situation quand le test de normalite rejette l’hypothese nous pouvons toujours utiliserdes tests dits non-parametriques pour compares les lois des echantillons.

Le test le plus repondu de ce type est le U-test de Mann-Whitney (aussi appele test de Wil-coxon). Ce test est base sur une approximation de la loi des statistiques de rang. Plus precisement,on considere le probleme de test d’hypothese

H0 : X ∼ Y contre H1 : X ∼ Y + θ

(hypothese : X suit la meme loi que Y , contre l’alternative : la loi de X est la meme que cellede Y au parametre de decalage pres).

Remarque : l’hypothese que la seule difference entre les lois de X et de Y se resume parun decalage du centre est importante. Si cette hypothese n’est pas valide, l’utilisation du testde Mann-Whitney (et d’autres tests bases sur les memes principes) peut donner des resultatsaberrants.

Nous allons decrire ici la construction de test de Mann-Whitney dans le cas quand nousdisposons deux echantillons Xn = (X1, ...,Xn) et Y m = (Y1, ..., Y

m) independants (le testanalogue pour le cas de plusieurs echantillons est celui de Kruskal-Wallis). Le test porte sur lastatistique U de rangs, construite de facon suivante :

1. on trie toutes les observations en suite ordonnee de taille n+m ;

2. on calcule la somme RX des rangs des elements de Xn. Notez que la somme RY des rangsdes elements de Y m peut etre obtenu comme difference de la somme totale des rangs desdeux suite (= (n+m)(n+m+ 1)/2) et de RX ;

3. la statistique U est donnee par

UX = RX − n(n+ 1)

2.

L’autre formule pour U qui est aussi valide theoriquement est

UY = RY − m(m+ 1)

2.

En pratique c’est la plus petite des deux valeurs qui est utilisee comme la statistique detest : U = min(UX , UY ). Notons que

UX + UY = RX +RY − n(n+ 1)

2− m(m+ 1)

2

=(n+m)(n +m+ 1)

2− n(n+ 1)

2− m(m+ 1)

2= n+m.

Page 14: chapitre1

16 CHAPITRE 1. TESTS DE COMPARAISON D’ECHANTILLONS

4. En supposant qu’il n’y a pas de rangs ≪ couples ≫, sous l’hypothese de decalage nulle laloi de la statistique U peut etre approximee par la loi normale N (µU , σ

2U ), avec µU = mn

2

et σ2U = nm(n+m+1)

12 . 5

Remarque : dans le cas de test de comparaison de la moyenne des deux echantillons normauxil est conseille d’utiliser le t-test (test de Student), suppose de donner des resultats plus stables.

5. Les approximations valides dans en cas de presence des rangs couples sont aussi disponibles et sont utiliseespar tous les logiciels statistiques.

Page 15: chapitre1

1.5. EXERCICES 17

1.5 Exercices

Exercice 1.4

Il y a quelques anees, vos camarades ont obtenu les notes suivantes a l’examen.

Filles : 2; 12, 5; 4; 4; 2; 15, 5; 10; 17, 5; 11; 12, 5; 2.

Garcons : 7; 6; 6; 8; 9; 10; 9; 11; 16, 5; 16, 5; 14; 12; 4; 11; 2.

On suppose que les notes sont des variables aleatoires independantes, identiquement distribueesselon N(µF , σ

2) pour les filles et N(µG, σ2) pour les garcons. Les parametres (µF , µG, σ

2) sontinconnus. Dans la suite, on notera nF et nG le nombre de filles et de garcons.

Le but de l’exercice est de tester l’hypothese

H0 : µF = µG,

contre l’hypothese complementaireH1 : µF 6= µG.

1o. Construire un test de niveau α pour tester H0 contre H1. Accepte–t–on H0 au niveau 0,10 ;0,05 ; 0,01 ?2o. Est-il realiste de supposer que les deux lois ont memes variances ?

Exercice 1.5

On considere l’analyse de la variance A un facteur avec le modele sous les deux formesequivalentes :

yij = µi + uij , i = 1, . . . p, j = 1, . . . ni

yij = µ0 + αi + uij ,∑

i

αi = 0.

1. Exprimer µ0 et αi en fonction des µi. Exprimer µi en fonction des observations.

2. Donner la matrice de covariance de (µ1, . . . µp) ; en deduire Var(µ0) puis Var(αi) . Simplifierces expressions dans le cas ou ni ne depend pas de i.