de la loi de bernoulli à la loi normale en suivant le
TRANSCRIPT
De la loi de Bernoulli à la loi normaleen suivant le programme de Statistique de
Terminale
IREM Marseille / Groupe "Statistique et Probabilités"
Février 2013
Loi de Bernoulli
↪→ C'est la variable de comptage la plus simple.
X variable aléatoire à valeurs dans {0, 1} telle que
p = P(X = 1),
1− p = P(X = 0).
Une autre écriture
I P(X = x) = px(1− p)1−x avec x ∈ {0, 1},
I P(X = x) = px(1− p)1−xµ(x),
avec µ = δ0 + δ1.
Propriétés :
I E(X) = p, V(X) = p(1− p) (minimum en 1/2),
↪→ Lorsque p = 0 ou p = 1, variable constante (Dirac).
I si X et Y sont deux variables de Bernoulli indiquant chacunela présence d'une maladie di�érente alors
I XY est de Bernoulli↪→ indique la présence des deux maladies,
I XY est de Bernoulli,
I X + Y est une binomiale (si indépendance des maladies)↪→ indique le nombre de maladies.
Autres exemples
I Présence d'une anomalie génétique chez un individu.
I Etre favorable à un candidat.
I Réussite d'une gre�e.
Remarques : ↪→ On peut aussi construire une Bernoulli à partir den'importe quelle variable aléatoire comme le montre l'exemplesuivant
On s'intéresse à des durées de vie après rechute d'une maladie.
Histogramme des durées de vie
Mois
Pro
babi
lités
35 40 45 50 55 60 65
0.00
0.02
0.04
0.06
0.08
0.10
0.12
On peut associer une variable de Bernoulli à chaque classe del'histogramme.
Loi binomiale
Soient X1, · · · , Xn des variables aléatoires i.i.d. (identiquement etindépendamment distribuées) de Bernoulli B(p).
On pose S = X1 + · · ·+Xn.
S suit une loi binomiale B(n, p) dé�nie par
P(S = s) =n!
(n− s)!s!px(1− p)n−s,
pour s = 0, 1, · · · , n
Propriétés :
I Moyenne et variance :
E(S) = np, V(S) = np(1− p).
I Si S1 et S2 sont deux binomiales B(n1, p) et B(n2, p)indépendantes alors S1 + S2 est une binomiale B(n1 + n2, p).
I ↪→ faux s'il n'y a plus indépendance, ou si les probabilités psont di�érentes.
Exemples
La loi binomiale apparaît comme un compteur (une somme deBernoulli), elle apparaît aussi assez naturellement dans les"systèmes en parallèle" :
I Nombre de réacteurs en panne (parmi 4 réacteursmutuellement indépendants) ↪→ B(4, p).
I Plus généralement, le nombre de réacteurs qui ont une duréede fonctionnement supérieure à 1000 heures ↪→ B(4, p(1000)).
I Dans les familles de quatre enfants, combien de �lles ?
Contre-exemple
Deux maladies : la première contractée avec une probabilitép1 = 1/4, la deuxième contractée avec une probabilité p2|0 = 1/6 sion n'a pas la première et p2|1 = 1/2 si on a déjà la première. Onobserve sur un même individu le nombre S de maladies (0,1 ou 2).Alors
P(S = 0) = (1− p1)(1− p2|0) = 15/24,
P(S = 1) = p1(1− p2|1) + (1− p1)p2|0 = 1/4,
P(S = 2) = p1p2|1 = 1/8,
ce n'est pas une binomiale, pourtant les deux maladies sont desBernoulli de même paramètre 1/4.
Convergence vers une loi normale ?
Binomiale n=10, p=0.3
Pro
babi
lités
0 2 4 6 8 10
0.00
0.05
0.10
0.15
0.20
0.25
Binomiale n=100, p=0.3
Pro
babi
lités
10 20 30 40 50
0.00
0.05
0.10
0.15
On a S −→∞...
La loi normaleOn approxime souvent la loi binomiale par une loi normale, quipourtant est une loi à densité.
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
Densité de la loi normale centrée réduite
Illustration de la densité
Sur une règle de dix centimètres, chaque centimètre a uneprobabilité uniforme d'être choisi. Puis on coupe en dix : chaquemillimètre, etc...
2 4 6 8 10
0.00
0.02
0.04
0.06
0.08
0.10
0 2 4 6 8 10
0.02
0.04
0.06
0.08
0.10
Distributions de S/n
Binomiale/100 (n=100, p=0.3)
Pro
babi
lités
(X
100)
0.1 0.2 0.3 0.4 0.5
05
1015
Binomiale/1000 (n=1000, p=0.3)
Pro
babi
lités
(X
1000
0)
0.24 0.26 0.28 0.30 0.32 0.34 0.360
5010
015
020
025
0
S/n reste entre 0 et 1 avec des probabilités de plus en plus petites.
On a S/n −→ p...
Que représente X (ou S/n) ?
S/n = (X1 + · · ·+Xn)/n.
↪→ est une variable aléatoire,
↪→ est la moyenne empirique.
Dans le cas de Bernoulli
I E(S/n) = p,
I V(S/n) = p(1− p)/n.Dans le cas général
I E(S/n) = E(X) = m,
I V(S/n) = V(X)/n = σ2/n.
En moyenne S/n donne la bonne valeur de la moyenne ou de p.↪→ Estimateur sans biais
La variance de S/n tend vers zéro↪→ Estimateur convergent
Le Théorème de la Limite Centrale (TLC ou TCL)
On approxime souvent la loi binomiale par une loi normale On peutgénéraliser ce résultat grâce au théorème suivant.
Théorème
Si X1, · · · , Xn est une suite de variables aléatoires indépendantes
de même loi (donc de même moyenne m et de même variance σ2
supposée �nie). Alors
√nX −mσ
L→ N (0, 1),
où X = (X1 + · · ·+Xn)/n = S/n.
Illustrations du TCL
0 5 10 15 20
0.00
0.05
0.10
0.15
0.20
0.25
Densité originale et loi normale associée
Illustrations du TCL
0 5 10 15
0.00
0.05
0.10
0.15
0.20
Densité ''moyennisée'' par 2 et loi normale associée
Illustrations du TCL
5 10 15
0.00
0.05
0.10
0.15
0.20
Densité ''moyennisée'' par 5 et loi normale associée
Illustrations du TCL
4 6 8 10
0.0
0.1
0.2
0.3
0.4
Densité ''moyennisée'' par 30 et loi normale associée
Approximation par la loi normale
D'après le TCL on a la cvce en loi suivante :
U =√n
S/n− p√p(1− p)
→ N (0, 1),
ce qui signi�e que la fonction de répartition P(U ≤ u) convergevers la fonction de répartition d'une loi normale P(N (0, 1) ≤ u).D'où l'approximation pour "n grand" :
U ≈ N (0, 1).
Revenons à
U =√n
S/n− p√p(1− p)
→ N (0, 1).
Pour "n grand"
S/n ≈ N (p, p(1− p)/n),
S ≈ N (np, np(1− p)).
Remarque : la qualité de l'approximation dépend de la valeur(inconnue) de p. Plus p est proche de 0.5 et plus on s'approcherapidement de la loi normale. On impose généralement n > 30,np > 5 et np(1− p) > 5, ce qui revient à véri�er que S > 5 etS(1− S/n) > 5.
Erreur d'approximation
On a une borne de type Berry-Esseen :
|P(U ≤ u)− P(N (0, 1) ≤ u)| ≤ (1− p)2 + p2
2√np(1− p)
,
où U =√n
S/n− p√p(1− p)
.
Borne pour n = 10 en fonction de p
0.2 0.3 0.4 0.5 0.6 0.7 0.8p
0.16
0.18
0.2
0.22
0.24
0.26
enroBruopn
01
Borne pour n = 30 en fonction de p
0.2 0.3 0.4 0.5 0.6 0.7 0.8p
0.090.10.110.12
0.130.140.15
enroBruopn
03
Borne pour n = 100 en fonction de p
0.2 0.3 0.4 0.5 0.6 0.7 0.8p0.050.0550.060.0650.070.0750.080.085
enroBruopn
001
Propriétés de la loi normale
Si X ∼ N (m,σ2) alors
I X −m ∼ N (0, σ2),
I X/σ ∼ N (m/σ, 1),
I (X −m)/σ ∼ N (0, 1).
Si X ∼ N (m1, σ21) et Y ∼ N (m2, σ
22) sont indépendantes alors
I X + Y ∼ N (m1 +m2, σ21 + σ22),
I X − Y ∼ N (m1 −m2, σ21 + σ22).
A partir de la loi normale
Si X1, · · · , Xd sont i.i.d. ∼ N (0, 1) alors
I T = X21 + · · ·+X2
d ∼ χ2d,
I Si on a une autre variable indépendante X ∼ N (0, 1), alorsX√T/d
∼ Studentd.
I Si U ∼ χ2k et V ∼ χ2
p sont indépendantes alors,U/k
V/p∼ Fisherk,p.
Intervalle de con�ance
On observe X1, · · · , Xn i.i.d. de loi B(p).On s'intéresse à la valeur de p ∈]0, 1[ inconnue.Par exemple pour chaque individu : 1 = satisfait, 0 = non satisfait.↪→ Quel est le pourcentage d'individus satisfaits dans lapopulation ?
I On peut estimer ponctuellement p par S/n.
I On peut aussi proposer un intervalle de con�ance lorsque "nest grand". C'est-à-dire a, b tels que P (a ≤ p ≤ b) = 0.95 parexemple.
Remarque : c'est a et b qui sont aléatoires (ils vont dépendre desX1, · · · , Xn)
On utilise l'approximation précédente combinée à la convergence(en probabilité) de S/n vers p :
√n
S/n− p√p(1− p)
→ N (0, 1) (en loi),
S/n → p (en probabilite),
pour conclure à l'approximation pour "n grand" (Théorème deSlutsky)
T =√n
S/n− p√S/n(1− S/n)
≈ N (0, 1).
Prenons ensuite u fractile de la loi normale tel que (par ex.) :
P(−u ≤ N (0, 1) ≤ u) = 0.95
On en déduit l'intervalle de con�ance de niveau 0.95 pour p (avec"n grand")
P(−u ≤√n
S/n− p√S/n(1− S/n)
≤ u) = 0.95
P(Sn− 1.96
√Sn (1− S
n )√n
≤ p ≤ S
n+ 1.96
√Sn (1− S
n )√n
)= 0.95
| − − −−−−−−−−−︸ ︷︷ ︸ |︸︷︷︸−−−−−−−−−−−︸ ︷︷ ︸ |−1.96
√Sn (1− S
n )√n
S
n+1.96
√Sn (1− S
n )√n
On en déduit l'intervalle de con�ance de niveau 0.95 pour p (avec"n grand")
P(−u ≤√n
S/n− p√S/n(1− S/n)
≤ u) = 0.95
P(Sn− 1.96
√Sn (1− S
n )√n
≤ p ≤ S
n+ 1.96
√Sn (1− S
n )√n
)= 0.95
| − − −−−−−−−−−︸ ︷︷ ︸ |︸︷︷︸−−−−−−−−−−−︸ ︷︷ ︸ |−1.96
√Sn (1− S
n )√n
S
n+1.96
√Sn (1− S
n )√n
En résumé :
I S/n est l'estimation ponctuelle.
I
√Sn (1− S
n )√n
est (une estimation de) l'écart-type de S/n
I 1.96 est associée au niveau
IC(p, 0.95) = [S/n± 1.96
√S/n(1− S/n)√
n]
L'amplitude de l'intervalle vaut 2 u
√S/n(1− S/n)√
n.
I Plus n est grand et plus cette amplitude va diminuer,
I Plus le niveau de con�ance est grand et plus l'amplitude vaaugmenter.
Remarque : lorsque S/n est entre 0.2 et 0.8, alors√S/n(1− S/n) ∈ [0.4, 0.5] et on fait l'approximation suivante :
IC(p, 0.95) ≈ [S/n± 1√n
]
Test sur une valeur
Après une opération (appendicite) on veut s'assurer qu'un patientne développe pas une infection (pouvant être causée par la présenced'un abcès). On réalise pour cela une simple prise de températuretoutes les 12h. En cas de non infection le risque habituel de pousséede température est de 1/4. En cas d'abcès ce risque passe à 1/2.Après 12h que peut-on décider après la première prise detempérature ? Après 24h, 36h, ... ?
Test sur une valeur
Est-ce qu'une décision doit être privilégiée ?
Risque d'être faux positif ?
Risque d'être faux négatif ?
Test sur une valeur
Deux cas sont envisageables :
I L'individu est malade : probabilité p0 = 1/2 d'avoir de latempérature.
I L'individu est sain : probabilité p1 = 1/4 d'avoir de latempérature.
Le suivi d'un patient consiste à observer n températures (supposéesindépendantes) et à décider si l'individu est malade ou non.
En notant p la probabilité d'avoir de la température on veut tester
H0 : p = p0 = 1/2 (malade) V S H1 : p = p1 = 1/4 (sain)
I Sous H0, S provient d'une B(n, p0).
I Sous H1, S provient d'une B(n, p1).
Distributions de S avec n = 10 relevés :
0 2 4 6 8 10 0 2 4 6 8
Sous H0 Sous H1
Distributions de S avec n = 100 relevés
30 40 50 60 70 10 20 30 40
Sous H0 Sous H1
On doit �xer une règle de décision pour rejeter H0 avec un risquemaîtrisé. Par exemple avec 10 observations on regarde ladistribution théorique de S sous H0 :
0 2 4 6 8 10
↑Probabilité faible sous H0 (' 0.001) ↪→ Règle : si S = 0 on rejetteH0 ↪→ Risque d'erreur en rejetant H0 ' 0.001.
On doit �xer une règle de décision pour rejeter H0 avec un risquemaîtrisé. Par exemple avec 10 observations on regarde ladistribution théorique de S sous H0 :
0 2 4 6 8 10
↑Probabilité faible sous H0 (' 0.001)
↪→ Règle : si S = 0 on rejetteH0 ↪→ Risque d'erreur en rejetant H0 ' 0.001.
On doit �xer une règle de décision pour rejeter H0 avec un risquemaîtrisé. Par exemple avec 10 observations on regarde ladistribution théorique de S sous H0 :
0 2 4 6 8 10
↑Probabilité faible sous H0 (' 0.001) ↪→ Règle : si S = 0 on rejetteH0
↪→ Risque d'erreur en rejetant H0 ' 0.001.
On doit �xer une règle de décision pour rejeter H0 avec un risquemaîtrisé. Par exemple avec 10 observations on regarde ladistribution théorique de S sous H0 :
0 2 4 6 8 10
↑Probabilité faible sous H0 (' 0.001) ↪→ Règle : si S = 0 on rejetteH0 ↪→ Risque d'erreur en rejetant H0 ' 0.001.
On peut aller plus loin (toujours avec 10 observations)
0 2 4 6 8 10
︸ ︷︷ ︸Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055On rejette H0 quand S vaut 0, 1 ou 2.
On peut aller plus loin (toujours avec 10 observations)
0 2 4 6 8 10︸ ︷︷ ︸Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On rejette H0 quand S vaut 0, 1 ou 2.
On peut aller plus loin (toujours avec 10 observations)
0 2 4 6 8 10︸ ︷︷ ︸Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055On rejette H0 quand S vaut 0, 1 ou 2.
Deux types d'erreurs :
I En réalité H0 est vraie (maladie) ↪→ erreur si je rejette H0
↪→ c'est le risque d'observer seulement 0, 1 ou 2 pics detempératures alors que l'individu est malade (p = 1/2). On lemaîtrise : cette probabilité vaut environ 0.055.
I En réalité H1 est vraie (individu sain) ↪→ erreur si j'accepte H0
↪→ c'est le risque d'observer S = 3, 4, · · · , 10 pics detempératures alors que l'individu est sain (p = 1/4).
On va calculer ce deuxième risque.
Calcul de la probabilité d'erreur en acceptant H0 (alors quel'individu est sain)
0 2 4 6 8
︸ ︷︷ ︸Sous H1, P(S = 3, 4, · · · , 10) ' 0.71Donc si l'individu est sain on peut se tromper avec une forteprobabilité (dans 71% des cas).
Calcul de la probabilité d'erreur en acceptant H0 (alors quel'individu est sain)
0 2 4 6 8︸ ︷︷ ︸Sous H1, P(S = 3, 4, · · · , 10) ' 0.71Donc si l'individu est sain on peut se tromper avec une forteprobabilité (dans 71% des cas).
On peut calculer l'erreur globale de se tromper (quelle que soit ladécision). On suppose (au début de l'expérience) que l'individu aune probablité q d'être malade.
P(erreur) = P(erreur ∩H0) + P(erreur ∩H1)
= P(erreur|H0) ∗ P(H0) + P(erreur|H1) ∗ P(H1)
= 0.055 ∗ q + 0.71 ∗ (1− q)
=
0.64 q = 0.10.38 q = 0.50.07 q = 0.9
On voit bien ici qu'il vaut mieux s'intéresser aux taux de fauxnégatifs...
Cas intéressant : on ne fait qu'un seul relevé de température(n = 1).
Règle de décision :
I On observe de la température ↪→ on décide H0 (malade).
I On n'observe pas de température ↪→ on décide H1 (sain).
Les erreurs possibles :
* Erreur si l'individu est malade : P (T |H0) = 1/2 (faux négatif)
* Erreur si l'individu est sain : P (T |H1) = 1/4 (faux positif)
* Erreur globale :P (pile∩H1∪face∩H0) = (1/4∗q+1/2∗(1−q)) = 1/2−q/4
Si on propose une autre règle :
Règle de décision 2 :
I On observe de la température ↪→ on décide H0 (malade).
I On n'observe pas de température ↪→ on décide H1 (sain).
Les erreurs possibles :
* Erreur si individu sain : P (face|H1) = 3/4
* Erreur si individu malade : P (pile|H0) = 1/2
* Erreur globale : P (T ∩H0 ∪ T ∩H1) = 1/2 + q/4
Remarque : dans ce cas il vaut mieux décider au hasard (unechance sur deux de se tromper).
Approximation par une loi normale
Et avec n = 50 observations, si nous faisons l'approximation de labinomiale par une loi normale alors :
5 10 15 20 25 30 35
0.00
0.05
0.10
0.15
0.20
Avec 50 observations
Den
sity
︸ ︷︷ ︸ ︸ ︷︷ ︸Sous H1 Sous H0
5 10 15 20 25 30 35
0.00
0.05
0.10
0.15
0.20
Avec 50 observations
Den
sity
︸ ︷︷ ︸ ︸ ︷︷ ︸Sous H1 Sous H0
Démonstration du TLC
Pour simpli�er supposons que les variables de la suite X1, · · · , Xn
sont centrées (m = E(X) = 0) et réduites (σ2 = V(X) = 1)(quitte à retrancher m et à diviser par σ).On sait que la fonction caractéristique de la loi normale centréeréduite N (0, 1) est
ϕZ(t) = E(
exp(itZ))
= exp(−t2/2),
où Z ∼ N (0, 1).Si la fonction caractéristique de S/n tend (quand n→∞) versexp(−t2/2) alors la loi de S/n tend vers la loi normale centréeréduite (Théorème de Lévy).
On va utiliser trois propriétés importantes de la fonctioncaractéristique :
ϕX
( t√n
)= ϕ X√
n(t),
et si X1 et X2 sont indépendantes alors
ϕX1+X2(t) = ϕX1(t)ϕX2(t),
et donc si X1 et X2 ont même fonction caractéristique (i.e. mêmeloi) :
ϕX1+X2(t) = ϕX(t)2
Et une dernière propriété : si la variance de X existe alors
ϕ′X(0) = iE(X)
ϕ′′X(0) = −E(X2).
Posons (après avoir centré et réduit les Xi)
U =√nS/n−m
σ= S/
√n.
Les Xi étant indépendantes et de même fonction caractéristique ona
ϕU (t) = ϕ S√n
(t)
= ϕS
( t√n
)= ϕX1+···+Xn
( t√n
)= ϕX1
( t√n
)· · ·ϕXn
( t√n
)= ϕX
( t√n
)n
On fait alors un d.l. à l'ordre 2 :(ϕX
( t√n
))n=
(ϕX(0) + i
t√nϕ′X(0) + (i2)
t2
2nϕ′′X(0) + o(1/n)
)n=
(1− t2
2n+ o(1/n)
)n−→ exp(−t2/2) (quand n→∞)
Test sur deux valeurs
On observe deux échantillons de Bernoulli indépendantes :X1, · · · , Xn et Y1, · · · , Yk. On teste :
H0 : pX = pY V S H1 : pX 6= pY
On utilise l'approximation par la loi normale :
SX/n ≈ N(pX , pX(1− pX)/n)
SY /k ≈ N(pY , pY (1− pY )/k).
L'indépendance nous permet d'écrire
SX/n− SY /k ≈ N(pX − pY , V )
avec V =SX/n(1− SX/n)
n+SY /k(1− SY /k)
k.
Donc, si H0 est vraie on s'attend à avoir une valeur issue de la loinormale centrée réduite de T
T =SX/n− SY /k√
V,
on décide alors de rejeter ou non H0.
Généralisation au cas d'une moyenne
Le TCL s'applique pour toute suite de variables i.i.d. de moyenne mayant une variance σ2 �nie. On a
U =√nX −m√
σ→ N (0, 1),
ce qui donne l'approximation pour n grand :
X ≈ N (m,σ2/n).
Intervalle de con�anceOn observe X1, · · · , Xn i.i.d. de moyenne m et de variance σ2
inconnues. Par exemple des durèes de vie.On utilise l'approximation précédente combinée à la convergence(en probabilité) de la variance empirique S2 =
∑(Xi − X)2/n :
U =√nX −mσ
→ N (0, 1) (en loi),
S → σ (en probabilite),
pour conclure
T =√nX −m
S≈ N (0, 1).
Prenons ensuite u fractile de la loi normale tel que :
P(−u ≤ T ≤ u) ≈ 0.95,
on en déduit l'intervalle de con�ance de niveau 0.95 asymptotiquepour m
IC(p, 0.95) = [X ± 1.96S√n
]