de la loi de bernoulli à la loi normale en suivant le

De la loi de Bernoulli à la loi normaleen suivant le programme de Statistique de

Terminale

IREM Marseille / Groupe "Statistique et Probabilités"

Février 2013

Loi de Bernoulli

↪→ C'est la variable de comptage la plus simple.

X variable aléatoire à valeurs dans {0, 1} telle que

p = P(X = 1),

1− p = P(X = 0).

Une autre écriture

I P(X = x) = px(1− p)1−x avec x ∈ {0, 1},

I P(X = x) = px(1− p)1−xµ(x),

avec µ = δ0 + δ1.

Propriétés :

I E(X) = p, V(X) = p(1− p) (minimum en 1/2),

↪→ Lorsque p = 0 ou p = 1, variable constante (Dirac).

I si X et Y sont deux variables de Bernoulli indiquant chacunela présence d'une maladie di�érente alors

I XY est de Bernoulli↪→ indique la présence des deux maladies,

I XY est de Bernoulli,

I X + Y est une binomiale (si indépendance des maladies)↪→ indique le nombre de maladies.

Autres exemples

I Présence d'une anomalie génétique chez un individu.

I Etre favorable à un candidat.

I Réussite d'une gre�e.

Remarques : ↪→ On peut aussi construire une Bernoulli à partir den'importe quelle variable aléatoire comme le montre l'exemplesuivant

On s'intéresse à des durées de vie après rechute d'une maladie.

Histogramme des durées de vie

Mois

Pro

babi

lités

35 40 45 50 55 60 65

0.00

0.02

0.04

0.06

0.08

0.10

0.12

On peut associer une variable de Bernoulli à chaque classe del'histogramme.

Loi binomiale

Soient X1, · · · , Xn des variables aléatoires i.i.d. (identiquement etindépendamment distribuées) de Bernoulli B(p).

On pose S = X1 + · · ·+Xn.

S suit une loi binomiale B(n, p) dé�nie par

P(S = s) =n!

(n− s)!s!px(1− p)n−s,

pour s = 0, 1, · · · , n

Propriétés :

I Moyenne et variance :

E(S) = np, V(S) = np(1− p).

I Si S1 et S2 sont deux binomiales B(n1, p) et B(n2, p)indépendantes alors S1 + S2 est une binomiale B(n1 + n2, p).

I ↪→ faux s'il n'y a plus indépendance, ou si les probabilités psont di�érentes.

Exemples

La loi binomiale apparaît comme un compteur (une somme deBernoulli), elle apparaît aussi assez naturellement dans les"systèmes en parallèle" :

I Nombre de réacteurs en panne (parmi 4 réacteursmutuellement indépendants) ↪→ B(4, p).

I Plus généralement, le nombre de réacteurs qui ont une duréede fonctionnement supérieure à 1000 heures ↪→ B(4, p(1000)).

I Dans les familles de quatre enfants, combien de �lles ?

Contre-exemple

Deux maladies : la première contractée avec une probabilitép1 = 1/4, la deuxième contractée avec une probabilité p2|0 = 1/6 sion n'a pas la première et p2|1 = 1/2 si on a déjà la première. Onobserve sur un même individu le nombre S de maladies (0,1 ou 2).Alors

P(S = 0) = (1− p1)(1− p2|0) = 15/24,

P(S = 1) = p1(1− p2|1) + (1− p1)p2|0 = 1/4,

P(S = 2) = p1p2|1 = 1/8,

ce n'est pas une binomiale, pourtant les deux maladies sont desBernoulli de même paramètre 1/4.

Convergence vers une loi normale ?

Binomiale n=10, p=0.3

Pro

babi

lités

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

Binomiale n=100, p=0.3

Pro

babi

lités

10 20 30 40 50

0.00

0.05

0.10

0.15

On a S −→∞...

La loi normaleOn approxime souvent la loi binomiale par une loi normale, quipourtant est une loi à densité.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Densité de la loi normale centrée réduite

Illustration de la densité

Sur une règle de dix centimètres, chaque centimètre a uneprobabilité uniforme d'être choisi. Puis on coupe en dix : chaquemillimètre, etc...

2 4 6 8 10

0.00

0.02

0.04

0.06

0.08

0.10

0 2 4 6 8 10

0.02

0.04

0.06

0.08

0.10

Distributions de S/n

Binomiale/100 (n=100, p=0.3)

Pro

babi

lités

(X

100)

0.1 0.2 0.3 0.4 0.5

05

1015

Binomiale/1000 (n=1000, p=0.3)

Pro

babi

lités

(X

1000

0)

0.24 0.26 0.28 0.30 0.32 0.34 0.360

5010

015

020

025

0

S/n reste entre 0 et 1 avec des probabilités de plus en plus petites.

On a S/n −→ p...

Que représente X (ou S/n) ?

S/n = (X1 + · · ·+Xn)/n.

↪→ est une variable aléatoire,

↪→ est la moyenne empirique.

Dans le cas de Bernoulli

I E(S/n) = p,

I V(S/n) = p(1− p)/n.Dans le cas général

I E(S/n) = E(X) = m,

I V(S/n) = V(X)/n = σ2/n.

En moyenne S/n donne la bonne valeur de la moyenne ou de p.↪→ Estimateur sans biais

La variance de S/n tend vers zéro↪→ Estimateur convergent

Le Théorème de la Limite Centrale (TLC ou TCL)

On approxime souvent la loi binomiale par une loi normale On peutgénéraliser ce résultat grâce au théorème suivant.

Théorème

Si X1, · · · , Xn est une suite de variables aléatoires indépendantes

de même loi (donc de même moyenne m et de même variance σ2

supposée �nie). Alors

√nX −mσ

L→ N (0, 1),

où X = (X1 + · · ·+Xn)/n = S/n.

Illustrations du TCL

0 5 10 15 20

0.00

0.05

0.10

0.15

0.20

0.25

Densité originale et loi normale associée


0 5 10 15

0.00

0.05

0.10

0.15

0.20

Densité ''moyennisée'' par 2 et loi normale associée


5 10 15

0.00

0.05

0.10

0.15

0.20



4 6 8 10

0.0

0.1

0.2

0.3

0.4


Approximation par la loi normale

D'après le TCL on a la cvce en loi suivante :

U =√n

S/n− p√p(1− p)

→ N (0, 1),

ce qui signi�e que la fonction de répartition P(U ≤ u) convergevers la fonction de répartition d'une loi normale P(N (0, 1) ≤ u).D'où l'approximation pour "n grand" :

U ≈ N (0, 1).

Revenons à

U =√n

S/n− p√p(1− p)

→ N (0, 1).

Pour "n grand"

S/n ≈ N (p, p(1− p)/n),

S ≈ N (np, np(1− p)).

Remarque : la qualité de l'approximation dépend de la valeur(inconnue) de p. Plus p est proche de 0.5 et plus on s'approcherapidement de la loi normale. On impose généralement n > 30,np > 5 et np(1− p) > 5, ce qui revient à véri�er que S > 5 etS(1− S/n) > 5.

Erreur d'approximation

On a une borne de type Berry-Esseen :

|P(U ≤ u)− P(N (0, 1) ≤ u)| ≤ (1− p)2 + p2

2√np(1− p)

,

où U =√n

S/n− p√p(1− p)

.

Borne pour n = 10 en fonction de p

0.2 0.3 0.4 0.5 0.6 0.7 0.8p

0.16

0.18

0.2

0.22

0.24

0.26

enroBruopn

01


0.2 0.3 0.4 0.5 0.6 0.7 0.8p

0.090.10.110.12

0.130.140.15

enroBruopn

03


0.2 0.3 0.4 0.5 0.6 0.7 0.8p0.050.0550.060.0650.070.0750.080.085

enroBruopn

001

Propriétés de la loi normale

Si X ∼ N (m,σ2) alors

I X −m ∼ N (0, σ2),

I X/σ ∼ N (m/σ, 1),

I (X −m)/σ ∼ N (0, 1).

Si X ∼ N (m1, σ21) et Y ∼ N (m2, σ

22) sont indépendantes alors

I X + Y ∼ N (m1 +m2, σ21 + σ22),

I X − Y ∼ N (m1 −m2, σ21 + σ22).

A partir de la loi normale

Si X1, · · · , Xd sont i.i.d. ∼ N (0, 1) alors

I T = X21 + · · ·+X2

d ∼ χ2d,

I Si on a une autre variable indépendante X ∼ N (0, 1), alorsX√T/d

∼ Studentd.

I Si U ∼ χ2k et V ∼ χ2

p sont indépendantes alors,U/k

V/p∼ Fisherk,p.

Intervalle de con�ance

On observe X1, · · · , Xn i.i.d. de loi B(p).On s'intéresse à la valeur de p ∈]0, 1[ inconnue.Par exemple pour chaque individu : 1 = satisfait, 0 = non satisfait.↪→ Quel est le pourcentage d'individus satisfaits dans lapopulation ?

I On peut estimer ponctuellement p par S/n.

I On peut aussi proposer un intervalle de con�ance lorsque "nest grand". C'est-à-dire a, b tels que P (a ≤ p ≤ b) = 0.95 parexemple.

Remarque : c'est a et b qui sont aléatoires (ils vont dépendre desX1, · · · , Xn)

On utilise l'approximation précédente combinée à la convergence(en probabilité) de S/n vers p :

√n

S/n− p√p(1− p)

→ N (0, 1) (en loi),

S/n → p (en probabilite),

pour conclure à l'approximation pour "n grand" (Théorème deSlutsky)

T =√n

S/n− p√S/n(1− S/n)

≈ N (0, 1).

Prenons ensuite u fractile de la loi normale tel que (par ex.) :

P(−u ≤ N (0, 1) ≤ u) = 0.95

On en déduit l'intervalle de con�ance de niveau 0.95 pour p (avec"n grand")

P(−u ≤√n

S/n− p√S/n(1− S/n)

≤ u) = 0.95

P(Sn− 1.96

√Sn (1− S

n )√n

≤ p ≤ S

n+ 1.96

√Sn (1− S

n )√n

)= 0.95

| − − −−−−−−−−−︸︷︷︸ |︸︷︷︸−−−−−−−−−−−︸︷︷︸ |−1.96

√Sn (1− S

n )√n

S

n+1.96

√Sn (1− S

n )√n

En résumé :

I S/n est l'estimation ponctuelle.

I

√Sn (1− S

n )√n

est (une estimation de) l'écart-type de S/n

I 1.96 est associée au niveau

IC(p, 0.95) = [S/n± 1.96

√S/n(1− S/n)√

n]

L'amplitude de l'intervalle vaut 2 u

√S/n(1− S/n)√

n.

I Plus n est grand et plus cette amplitude va diminuer,

I Plus le niveau de con�ance est grand et plus l'amplitude vaaugmenter.

Remarque : lorsque S/n est entre 0.2 et 0.8, alors√S/n(1− S/n) ∈ [0.4, 0.5] et on fait l'approximation suivante :

IC(p, 0.95) ≈ [S/n± 1√n

]

Test sur une valeur

Après une opération (appendicite) on veut s'assurer qu'un patientne développe pas une infection (pouvant être causée par la présenced'un abcès). On réalise pour cela une simple prise de températuretoutes les 12h. En cas de non infection le risque habituel de pousséede température est de 1/4. En cas d'abcès ce risque passe à 1/2.Après 12h que peut-on décider après la première prise detempérature ? Après 24h, 36h, ... ?

Test sur une valeur

Est-ce qu'une décision doit être privilégiée ?

Risque d'être faux positif ?

Risque d'être faux négatif ?

Test sur une valeur

Deux cas sont envisageables :

I L'individu est malade : probabilité p0 = 1/2 d'avoir de latempérature.

I L'individu est sain : probabilité p1 = 1/4 d'avoir de latempérature.

Le suivi d'un patient consiste à observer n températures (supposéesindépendantes) et à décider si l'individu est malade ou non.

En notant p la probabilité d'avoir de la température on veut tester

H0 : p = p0 = 1/2 (malade) V S H1 : p = p1 = 1/4 (sain)

I Sous H0, S provient d'une B(n, p0).

I Sous H1, S provient d'une B(n, p1).

Distributions de S avec n = 10 relevés :

0 2 4 6 8 10 0 2 4 6 8

Sous H0 Sous H1

Distributions de S avec n = 100 relevés

30 40 50 60 70 10 20 30 40

Sous H0 Sous H1

On doit �xer une règle de décision pour rejeter H0 avec un risquemaîtrisé. Par exemple avec 10 observations on regarde ladistribution théorique de S sous H0 :

0 2 4 6 8 10

↑Probabilité faible sous H0 (' 0.001) ↪→ Règle : si S = 0 on rejetteH0 ↪→ Risque d'erreur en rejetant H0 ' 0.001.


0 2 4 6 8 10

↑Probabilité faible sous H0 (' 0.001)

↪→ Règle : si S = 0 on rejetteH0 ↪→ Risque d'erreur en rejetant H0 ' 0.001.


0 2 4 6 8 10

↑Probabilité faible sous H0 (' 0.001) ↪→ Règle : si S = 0 on rejetteH0

↪→ Risque d'erreur en rejetant H0 ' 0.001.


0 2 4 6 8 10

↑Probabilité faible sous H0 (' 0.001) ↪→ Règle : si S = 0 on rejetteH0 ↪→ Risque d'erreur en rejetant H0 ' 0.001.

On peut aller plus loin (toujours avec 10 observations)

0 2 4 6 8 10

︸︷︷︸Probabilités assez faible sous H0

P(S = 0, 1, 2) ' 0.055On rejette H0 quand S vaut 0, 1 ou 2.


0 2 4 6 8 10︸︷︷︸Probabilités assez faible sous H0

P(S = 0, 1, 2) ' 0.055

On rejette H0 quand S vaut 0, 1 ou 2.


0 2 4 6 8 10︸︷︷︸Probabilités assez faible sous H0

P(S = 0, 1, 2) ' 0.055On rejette H0 quand S vaut 0, 1 ou 2.

Deux types d'erreurs :

I En réalité H0 est vraie (maladie) ↪→ erreur si je rejette H0

↪→ c'est le risque d'observer seulement 0, 1 ou 2 pics detempératures alors que l'individu est malade (p = 1/2). On lemaîtrise : cette probabilité vaut environ 0.055.

I En réalité H1 est vraie (individu sain) ↪→ erreur si j'accepte H0

↪→ c'est le risque d'observer S = 3, 4, · · · , 10 pics detempératures alors que l'individu est sain (p = 1/4).

On va calculer ce deuxième risque.

Calcul de la probabilité d'erreur en acceptant H0 (alors quel'individu est sain)

0 2 4 6 8

︸︷︷︸Sous H1, P(S = 3, 4, · · · , 10) ' 0.71Donc si l'individu est sain on peut se tromper avec une forteprobabilité (dans 71% des cas).

Calcul de la probabilité d'erreur en acceptant H0 (alors quel'individu est sain)

0 2 4 6 8︸︷︷︸Sous H1, P(S = 3, 4, · · · , 10) ' 0.71Donc si l'individu est sain on peut se tromper avec une forteprobabilité (dans 71% des cas).

On peut calculer l'erreur globale de se tromper (quelle que soit ladécision). On suppose (au début de l'expérience) que l'individu aune probablité q d'être malade.

P(erreur) = P(erreur ∩H0) + P(erreur ∩H1)

= P(erreur|H0) ∗ P(H0) + P(erreur|H1) ∗ P(H1)

= 0.055 ∗ q + 0.71 ∗ (1− q)

=

0.64 q = 0.10.38 q = 0.50.07 q = 0.9

On voit bien ici qu'il vaut mieux s'intéresser aux taux de fauxnégatifs...

Cas intéressant : on ne fait qu'un seul relevé de température(n = 1).

Règle de décision :

I On observe de la température ↪→ on décide H0 (malade).

I On n'observe pas de température ↪→ on décide H1 (sain).

Les erreurs possibles :

* Erreur si l'individu est malade : P (T |H0) = 1/2 (faux négatif)

* Erreur si l'individu est sain : P (T |H1) = 1/4 (faux positif)

* Erreur globale :P (pile∩H1∪face∩H0) = (1/4∗q+1/2∗(1−q)) = 1/2−q/4

Si on propose une autre règle :

Règle de décision 2 :

I On observe de la température ↪→ on décide H0 (malade).

I On n'observe pas de température ↪→ on décide H1 (sain).

Les erreurs possibles :

* Erreur si individu sain : P (face|H1) = 3/4

* Erreur si individu malade : P (pile|H0) = 1/2

* Erreur globale : P (T ∩H0 ∪ T ∩H1) = 1/2 + q/4

Remarque : dans ce cas il vaut mieux décider au hasard (unechance sur deux de se tromper).

Approximation par une loi normale

Et avec n = 50 observations, si nous faisons l'approximation de labinomiale par une loi normale alors :

5 10 15 20 25 30 35

0.00

0.05

0.10

0.15

0.20

Avec 50 observations

Den

sity

︸︷︷︸︸︷︷︸Sous H1 Sous H0

Démonstration du TLC

Pour simpli�er supposons que les variables de la suite X1, · · · , Xn

sont centrées (m = E(X) = 0) et réduites (σ2 = V(X) = 1)(quitte à retrancher m et à diviser par σ).On sait que la fonction caractéristique de la loi normale centréeréduite N (0, 1) est

ϕZ(t) = E(

exp(itZ))

= exp(−t2/2),

où Z ∼ N (0, 1).Si la fonction caractéristique de S/n tend (quand n→∞) versexp(−t2/2) alors la loi de S/n tend vers la loi normale centréeréduite (Théorème de Lévy).

On va utiliser trois propriétés importantes de la fonctioncaractéristique :

ϕX

( t√n

)= ϕ X√

n(t),

et si X1 et X2 sont indépendantes alors

ϕX1+X2(t) = ϕX1(t)ϕX2(t),

et donc si X1 et X2 ont même fonction caractéristique (i.e. mêmeloi) :

ϕX1+X2(t) = ϕX(t)2

Et une dernière propriété : si la variance de X existe alors

ϕ′X(0) = iE(X)

ϕ′′X(0) = −E(X2).

Posons (après avoir centré et réduit les Xi)

U =√nS/n−m

σ= S/

√n.

Les Xi étant indépendantes et de même fonction caractéristique ona

ϕU (t) = ϕ S√n

(t)

= ϕS

( t√n

)= ϕX1+···+Xn

( t√n

)= ϕX1

( t√n

)· · ·ϕXn

( t√n

)= ϕX

( t√n

)n

On fait alors un d.l. à l'ordre 2 :(ϕX

( t√n

))n=

(ϕX(0) + i

t√nϕ′X(0) + (i2)

t2

2nϕ′′X(0) + o(1/n)

)n=

(1− t2

2n+ o(1/n)

)n−→ exp(−t2/2) (quand n→∞)

Test sur deux valeurs

On observe deux échantillons de Bernoulli indépendantes :X1, · · · , Xn et Y1, · · · , Yk. On teste :

H0 : pX = pY V S H1 : pX 6= pY

On utilise l'approximation par la loi normale :

SX/n ≈ N(pX , pX(1− pX)/n)

SY /k ≈ N(pY , pY (1− pY )/k).

L'indépendance nous permet d'écrire

SX/n− SY /k ≈ N(pX − pY , V )

avec V =SX/n(1− SX/n)

n+SY /k(1− SY /k)

k.

Donc, si H0 est vraie on s'attend à avoir une valeur issue de la loinormale centrée réduite de T

T =SX/n− SY /k√

V,

on décide alors de rejeter ou non H0.

Généralisation au cas d'une moyenne

Le TCL s'applique pour toute suite de variables i.i.d. de moyenne mayant une variance σ2 �nie. On a

U =√nX −m√

σ→ N (0, 1),

ce qui donne l'approximation pour n grand :

X ≈ N (m,σ2/n).

Intervalle de con�anceOn observe X1, · · · , Xn i.i.d. de moyenne m et de variance σ2

inconnues. Par exemple des durèes de vie.On utilise l'approximation précédente combinée à la convergence(en probabilité) de la variance empirique S2 =

∑(Xi − X)2/n :

U =√nX −mσ

→ N (0, 1) (en loi),

S → σ (en probabilite),

pour conclure

T =√nX −m

S≈ N (0, 1).

Prenons ensuite u fractile de la loi normale tel que :

P(−u ≤ T ≤ u) ≈ 0.95,

on en déduit l'intervalle de con�ance de niveau 0.95 asymptotiquepour m

IC(p, 0.95) = [X ± 1.96S√n

]

de la loi de bernoulli à la loi normale en suivant le

Documents