ma 1 estimation

Upload: fa-ko

Post on 05-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/16/2019 Ma 1 Estimation

    1/9

    Master 1   ESTIMATION   Mars 2009

    I INTRODUCTIONDans son livre, ”Le jeu de la science et du hasard”, Daniel Schwartz, cite cette anecdote d'un anglais qui débarque à Calais et qui

    apercevant une femme rousse, conclut :”Tiens, les françaises sont rousses”....Nous rions de son erreur, mais bien souvent nous avonsdu mal à l'éviter ; il cite lui même le cas d'un ami mathématicien, qui le rencontre à Paris un samedi et lui dit :”..Tu ne vas plus à

    la campagne le samedi ?” ; plus loin il imagine un chirurgien, auteur d'une nouvelle technique opératoire qui écrit aux 1000 premiers

     patients qui en ont bénéciée ; il reçoit 100 réponses : 75 sont très satisfaits, 25 non ; il évalue donc la proportion de succès à 75%, à

     partir de cet échantillon. Cependant le doute le saisit : que sont devenus les 900 autres patients, qui n'ont pas répondu ? Réponse : ils

    sont morts des suites de l'opération....No comment.

    On comprend donc le problème qui se pose : on est souvent amené à décrire une population à partir d'un échantillon, soit parce

    que tester la population entière est impossible, on ne peut interroger chaque électeur sur ses intentions pour construire un sondage, soit

     parce que le test peut détruire l'échantillon ; on voit mal un fabriquant d'ampoules tester leur durée de vie en les laissant toutes allumées

     jusqu'à leur usure complète.

    C'est l'objet de l'induction ; les statisticiens appellent inférence la démarche qui consite à passer du particulier, c'est-à dire

    de l'échantillon, au général, c'est-à dire à la population-mère. Les tests statistiques permettent de saisir les éffets des uctuations

    d'échantillonnage et de répondre à la question fondamentale : que valent les informations issues d'un échantillon ? permettent-elles dedécrire la population ?

    Ainsi se pose de façon cruciale le choix de l'échantillon, et notamment la construction d'un échantillon représentatif de la population.

    On ne peut pas tester la population française par les personnes dont le nom commence par un  A;ou les étudiants d'un certain cours nien prenant ceux du premier rang ( quand il y en a..) ni ceux du dernier rang. Ces échantillons évoqués sont dits ”biaisés”, en ce sens

    qu'ils diffèrent systématiquement de la population ; ils ne sont pas représentatifs. La seule façon satisfaisante du point de vue théorique,

     pour éviter le biais, est que l'appartenance d'un élément à l'échantillon ne dépende en aucun cas d'une caractéristique de cet élément

    (première lettre du nom, place dans l'amphithéâtre,..), mais provienne uniquement du hasard, d'un tirage aléatoire, où chaque individu

    a la même probabilité d'être choisi. Si l'on veut tester si la soupe est correctement salée, et si elle a été bien mélangée, on aura la même

    conclusion en goûtant dans la marmite, ou dans l'assiette de quelqu'un.

    Dans de nombreux sondages, on utilise un échantillonnage plus sophistiqué que le tirage au sort : on procède par strates, en xant

    à l'avance le nombre d'individus qui devront avoir tel âge, sexe, catégorie socio-professionnelle, etc. Mais à l'intérieur de chaque

    sous-groupe, les individus retenus devront résulter d'un tirage au sort.

    La statistique est basée sur le fait que les données observées sont des réalisations de variables aléatoires ; ainsi les  n  valeurs ob-servées dans une population constituent n réalisations indépendantes d'une variable aléatoire X  suivant une loi de probabilité P;  ou uneréalisation du n-uplet (X 1;X 2;:::; X n) où les X i  sont des variables aléatoires indépendantes et de même loi, P   ( i:i:d: indépendantes etidentiquement distribuées). On note (x1;x2;:::; xn) un échantillon de taille n ou par extension (X 1;X 2;:::; X n) :

    Par exemple, si l'on désire tester la durée de vie d'une ampoule dans une population de taille  10000; un échantillon de taille 10 seranoté (X 1;X 2;:::; X 10) ;  où  X 1  est la durée de vie de l'ampoule  N 

    1;  etc. Si l'expérience nous donne pour la première ampoule unedurée de vie de 500  heures, alors  x1  = 500: A partir de notre échantillon, nous pourrons calculer diverses caractéristiques, comme lamoyenne de l'échantillon, et nous chercherons à estimer la moyenne inconnue de la population.

    Pour estimer un paramètre inconnu d'une population, on peut se xer deux types d'objectifs : soit rechercher une estimation sous la

    forme d'un nombre et on parle alors d'estimation ponctuelle, soit rechercher un intervalle qui contienne le paramètre inconnu, avec un

    risque d'erreur consenti, et on parle alors d'intervalle de conance (fourchette).

    II ECHANTILLONS Nous supposerons dans la suite que l'on procède à un échantillonnage aléatoire, c'est-à dire que tous les individus d'une populationde taille N  ont été numérotés et que l'on a tiré au sort n  (  n < N ) nombres parmi les entiers de 1  à  N; pour constituer un échantillonaléatoire de taille n: On peut effectuer le tirage de deux façons donnant lieu à deux types d'échantillons.

    1. Un échantillon est dit exhaustif  (du latin ”épuiser”, au sens épuiser toutes les possibilités), s'il est constitué  sans remise  et nonexhaustif s'il est constitué avec remise.

    2. Dans le cas d'un tirage non exhaustif  (avec remise), il y a  indépendance entre les tirages.

    3. Dans le cas d'échantillons exhaustifs constitués à partir d'une population nie de taille N; il n'y a pas indépendance. On dénit alors

    le taux de sondage T   =  n

    N :  Si le taux de sondage est sufsamment petit ( T  0:05), on peut assimiler (comme dans la situation

    d'un schéma de Bernoulli) un échantillon exhaustif à un ensemble de valeurs résultant de tirages indépendants.

    4.   Convention :   les résultats énoncés dans ce chapitre supposent par défaut que les échantillons considérés sont soit non

    exhaustifs soit exhaustifs avec un taux de sondage :   T   =  n

    N  inférieur ou égal à 5%:

    Dans le cas contraire, pour des populations nies, de taille  N; si n 0:05N;  on devra utiliser un correctif qui sera précisé. page 1 UFR14

  • 8/16/2019 Ma 1 Estimation

    2/9

    2   ESTIMATION

    III ESTIMATION PONCTUELLE

    1. ESTIMATEUR 

    Supposons que lors d'un concours comportant 1000 candidats, on ait corrigé  100  copies. Si notre échantillon de 100  copies a pour moyenne 10:85; cette valeur numérique constitue une estimation "naturelle" de la moyenne inconnue de la population des copies.

    Dénition : considérons une population et    un paramètre inconnu de cette population (par exemple sa moyenne). Un estimateur est une fonction f  qui à chaque échantillon tiré au hasard,  (X 1;X 2;:::; X n)  associe un nombre,  f  (x1;x2;:::;xn)  qui constitue une

    estimation du paramètre :  L'estimateur est noté b ; c'est une variable aléatoire qui dépend de l'échantillon.Dans notre exemple précédent un estimateur de la moyenne  m  des notes est   : cM   =   X 1 + X 2 + ::: + X 100

    100  et bm   = 10:85  une

    estimation de cette moyenne. On aurait pu prendre comme estimateur la médiane des  X i   (  i  variant de  1  à 100);  ou encore toutsimplement la note de la première copie tirée au hasard. On comprend que ces différents estimateurs ne sont pas équivalents et l'onva dénir diverses caractéristiques d'un estimateur de façon à choisir celui qui permettra d'obtenir une estimation la plus proche

     possible du paramètre inconnu.

    2. BIAIS

    On appelle biais d'un estimateur  b, la différence E  b ;  entre l'espérance de b  et  :  Le biais est positif si b tend à surestimer  et négatif dans la cas contraire.On notera que la variable aléatoire b  qui représente l'erreur d'estimation s'écrit : b  = b E  b | {z } + E 

     b  | {z } ; le premier terme représentant les uctuations de b  autour de son espérance (erreur aléatoire) et le deuxième terme représentant le biais (erreur systématique). On cherchera des estimateurs sans biais, en gardant à l'esprit l'importance d'autres critères comme la variance.

    3. ESTIMATEUR SANS BIAIS

    a. Un estimateur  b est sans biais si E  b =  :En clair, la moyenne des valeurs de l'estimateur dans tous les échantillons de même taille est égale à la valeur du paramètre dansla population.

    Exemple important : l'estimateur  X  =  X 1 + X 2 + ::: + X n

    n  qui à un échantillon de taille n associe la moyenne de l'échantillon

    est un estimateur sans biais de la moyenne m  de la population.

     b. Les grands échantillons : un estimateur  b est asymptotiquement sans biais si   limn!+1

    E  b =  :

    Exemple : on considère que le temps d'attente X   entre deux rames de métro est une variable aléatoire qui suit une loi uni-forme sur un intervalle [a; b] ; les bornes a  et  b   étant inconnues. Soient X 1; X 2::;X n  un échantillon de n  valeurs mutuellementindépendantes et Z  = M in(X 1; X 2::;X n) un estimateur de a: On admet que E (Z ) =

      na+bn+1  : Z  est-il biaisé ?

    4. ESTIMATEUR EFFICACE

    On notera qu'un estimateur sans biais n'est pas une garantie d'obtenir une estimation de satisfaisante ; si la variance de b est grande,on peut se trouver assez malchanceux avec l'échantillon prélevé et obtenir une estimation éloignée de  :  Il est donc important que la

    variance de b soit aussi faible que possible.a. Dénition :

     b est un estimateur efcace de    s'il est sans biais et s'il possède la variance la plus faible des estimateurs sans biais.

    On parle de meilleur estimateur sans biais (BUE : best unbiased estimator).

     b. Si b1  et b2  sont deux estimateurs sans biais, on dira que b1est plus efcace que b2  si  V   b1 < V   b2 :c. Estimateur linéaire : on a vu que X  =   1nX 1+

    1nX 2 + ::: +

      1nX n est un estimateur de la moyenne de la population ; cet estimateur 

    est linéaire car c'est une combinaison linéaire des observations de l'échantillon, du type : b =  a1X 1+a2X 2 + ::: + anX n:d. Estimateur  BLUE   ( best linear unbiased estimator) : un estimateur  BLUE  est un estimateur linéaire sans biais de variance

    minimale. On peut néanmoins trouver un estimateur non linéaire plus efcace qu'un estimateur BLUE.

    5. ERREUR QUADRATIQUE MOYENNE

    Un estimateur sans biais peut avoir une grande variance et pose alors un problème : si b1  est un estimateur sans biais de    et si b

    2  est un autre estimateur légèrement biaisé, mais avec  V  b

    2

     < V 

     b

    1

    ; quel estimateur choisir ? On dénit la précision d'un

    estimateur en mesurant sa dispersion autour de la vraie valeur inconnue de  :

    a. Dénition : l'erreur quadratique moyenne est dénie par :  E QM  = E  b 2 :

     b. Relation entre erreur quadratique et biais :2 UFR14

  • 8/16/2019 Ma 1 Estimation

    3/9

    Master 1   ESTIMATION

     b 2 =  E  b E  b+ E  b2=E 

     b E  b2+2E h b E  bE  b i+E E  b 2= V 

     b+ E  b 2 car  E h b E  bi = 0 et E  b  est une constante.En conclusion : l'erreur quadratique moyenne est la somme de la variance de b et du carré du biais :

    E  b 2 =  V   b+ E  b 2

    c. Remarque : pour un estimateur sans biais, l'erreur quadratique moyenne est la variance, car  E  b =  :

    6. ESTIMATEUR ET GRANDS ECHANTILLONS CONVERGENT

    Un estimateur  b est dit convergent (vers  ) si b converge vers   quand n  tend vers l'inni, c'est à dire si la probabilité que b s'écartede   tend vers 0 quand n  tend vers l'inni : quel que soit  " > 0;   lim

    n!+1P  b  = 0:

    L'ensemble des valeurs que peut prendre l'estimateur dans tous les échantillons de même taille doit se ressérer autour de la valeur du

     paramètre de la population, quand la taille de l'échantillon augmente. On notera que si

     b  est un estimateur convergent, alors g

     b

    constituera un estimateur convergent de g () ; pour toute fonction g  de R  dans R  continue.7.   Echantillonnage de la moyenne (sur un exemple)

    a. Exemple :

    Soit une population de 5 étudiants dont les notes à un examen de statistique sont les suivantes :   1 ; 2 ; 5 ; 7 ; 1 0  (sur  10).Considérons l'expérience aléatoire qui consiste à prélever un échantillon aléatoire (sans remise) de taille  n  (  n  = 2  ou  3  ou  4dans les calculs qui suivent) et notons X n  la variable aléatoire, appelée moyenne d'échantillon qui à chaque échantillon de taillen  associe sa moyenne. Calculons ensuite l'espérance de X n. Cela suppose d'exhiber tous les échantillons, de calculer leursmoyennes respectives et d'effectuer la moyenne de ces moyennes. On a calculé par ailleurs, la moyenne   = 5 et la variance2 = 10:8 de la population.i. Echantillons de taille 2, sans remise :

    Il y a A25  = 20 échantillons de taille 2  ayant tous la même probabilité,  1

    20; d'être choisis. Il y a 20  moyennes à calculer, en

    fait 10;car les échantillons (1; 2) et (2; 1) ; par exemple, ont la même moyenne.Echantillons et moyennes

    (1; 2 ) (1; 5 ) (1; 7 ) (1; 1 0) (2; 5 ) (2; 7 ) (2; 1 0) (5; 7 ) (5; 1 0) (7; 1 0)(2; 1 ) (5; 1 ) (7; 1 ) (10; 1 ) (5; 2 ) (7; 2 ) (10; 2 ) (7; 5 ) (10; 5 ) (10; 7 )1:5 3 4 5:5 3:5 4:5 6 6 7:5 8:5

    :

    On peut alors donner la distribution d'échantillonage de la moyenne (modalités  xi  et effectifs ni).

    xi   1:5 3 3:5 4 5:5 4:5 6 7:5 8:5ni   2 2 2 2 2 2 4 2 2

    La moyenne des  xi  est :   E 

    X 2

      =  2 1:5 + 2 3 + 2 4 + 2 5:5 + 2 3:5 + 2 4:5 + 4 6 + 2 7:5 + 2 8:5

    20  = 5:

    On note que 5  est la moyenne de la population.

    ii. Echantillons de taille 3 (sans remise) :

    Il y a A35  = 5 4 3 = 60 échantillons, on en exhibe 10, chacun en donnant 6 par permutation.TAILLE 3

    Ech.   ( 1; 2 ; 5) (1; 2 ; 7) (1; 2 ; 10) (1; 5 ; 7) (1; 5 ; 10) (1; 7 ; 10) (2; 5 ; 7) (2; 5 ; 10) (2; 7 ; 10) (5; 7 ; 10)xi   2:7 3:3 4:3 4:3 5:3 6 4:7 5:7 6:3 7:3

    On trouve pour la moyenne des échantillons de taille  3 :  E 

    X 3

     = 5

    Bilan échantillons exhaustifs :TAILLE 2

    X 2

      V 

    X 2

    5 4:05

    TAILLE 3

    X 3

      V 

    X 3

    5 1:8

    TAILLE 4

    X 4

      V 

    X 4

    5 0:675

    iii. Echantillons non exhaustifs de taille 2 :Il y a 52 = 25 échantillons de ce type.

    TAILLE 2

    (1; 2) (1; 5) (1; 7 ) (1; 10) (2; 5) (2; 7) (2; 10) (5; 7) (5; 10) (7; 1 0)(2; 1) (5; 1) (7; 1 ) (10; 1 ) (5; 2) (7; 2) (10; 2) (7; 5) (10; 5) (10; 7)(1; 1) (2; 2) (5; 5 ) (7; 7) (10; 10)

    E X    V  X 5 5:4 | {z } 

    TAILLE 2  AVEC REMISE page 3 UFR14

  • 8/16/2019 Ma 1 Estimation

    4/9

    4   ESTIMATION

    iv. Conclusion :

    On a constaté sur tous nos exemples que la moyenne des moyennes est égale à celle de la population, mais que la variance desmoyennes est plus petite que celle de la population et qu'elle diminue avec la taille de l'échantillon.

    IV DISTRIBUTION D'ECHANTILLONAGE DE LA MOYENNE

    1. NotationsSoit une population de taille  N   (ou innie) sur laquelle est déni un caractère quantitatif noté X  ayant dans cette population pour moyenne   et pour écart-type . En prélevant au hasard un échantillon de taille n, nous créons une suite de  n  variables aléatoiresindépendantes, de même distribution que  X;  notées X 1 ; X 2; :::; X n  et prenant respectivement pour valeurs les valeurs prises par  X sur chacun des n  individus de l'échantillon.

    2. Dénition

    On dénit la variable aléatoire notée X n, appelée moyenne d'échantillon et dénie par :

    X n  =  X 1 + X 2 + ::: + X n

    n Nous allons déterminer la moyenne, la variance et l'écart-type de la moyenne d'échantillon.

    3. Espérance

    Par linéarité de l'espérance, on a :

    E X n =   1n PE (X i) ;mais E (X i) =    et donc E X n =   1n  n =  :La moyenne d'échantillon est un estimateur sans biais  de la moyenne de la population.

    La moyenne de la variable aléatoire  X  est toujours égale à la moyenne de la population mère, celle d'où l'échantillon a étéprélevé.

    4. Variance et écart-type

    X n

     =  V 

    X 1 + X 2 + ::: + X n

    n

     =

      1

    n2V   (X 1 + X 2 + ::: + X n), de plus les variables X i étant indépendantes la variance est

    additive et on a :   V 

    X n

      =   1n2P

    V   (X i) =  1n

    2 car  V   (X i) =   V   (X ) =   2 ; on en déduit :  

    X n

      =  1p 

    n:  On note que

    l'écart-type de la variable  X  diminue quand la taille n  de l'échantillon augmente, en clair plus la taille de l'échantillon est grande, plus X n  "se concentre" autour de la moyenne   de la population.

    5. A retenir :Si l'on extrait d'une population d'espérance   et d'écart-type   un échantillon de taille n;  la moyenne de cet échantillon est

    une variable aléatoire de moyenne   et d'écart-type  p 

    n:

    X n

     =   V 

    X n

     =  2

    X n

     =  p 

    n

    6. Flash-Back : TCLLe théorème central limite permet d'afrmer que la distribution de la moyenne d'échantillon tend vers une loi normale au

    fur et à mesure que la taille n de l'échantillon augmente et ce sans aucune hypothèse sur la loi parente (loi de la population).Si la loi parente a    pour moyenne et   pour écart-type, la moyenne d'échantillon de taille  n;  notée X n; suit approximative-

    ment la loi N 

     ;  p 

    n

    : L'approximation est jugée satisfaisante lorsque la taille de l'échantillon est d' au moins 30:

    Pratique : si l'on note Z  =  X n p n

    ; la probabilité P  (a Z   b) a pour valeur approchée F  (b)F  (a) ;quand n est assez grand,

    F  désignant la fonction de répartition de la loi normale centrée réduite.

    7. Petits échantillons ( n

  • 8/16/2019 Ma 1 Estimation

    5/9

    Master 1   ESTIMATION

    8. Exercicea. Une machine automatique produit des pièces dont le poids moyen est de 5  g avec un écart-type de 0:25g. Le contrôle de qualité

    fait prélever  100  pièces. Calculer la probabilité que la moyenne d'un échantillon de taille 100 soit inférieure ou égale à 5:01g:(réponse : 65:54%)

     b. Déterminons un intervalle centré sur la moyenne tel qu'on puisse afrmer qu'avec une probabilité de 95% cet intervalle contientle poids moyen.

    Solution : l'intervalle que nous cherchons est déni par :  z0:025   Z     z0:025;  avec P  (Z   z0:025) = 97:5;  ce qui donne:   z0:025   = 1:96, 1:96    X  p 

    n

      1:96 soit 1:96    X p n

      1:96  soit  X   1:96   p n        X  + 1:96   p 

    n soit ici :

    5 1:96  0:25p 100

       5 + 1:96  0:25p 100

    soit l'intervalle :   [4: 951 ; 5: 049] : On attribue à cet intervalle le niveau de conance de

    95% de contenir la vraie valeur de  ;  ce qui signie que pour  95%  des échantillons de taille  100  prélevés dans cette populationla moyenne   de la population se trouve dans l'intervalle calculé (on dit aussi  19 fois sur  20):

    9. On a établi précédemment que : E 

    X n

     =    et  

    X n

     =  1p 

    n  ; on en déduit que  X n  est un estimateur (ponctuel) sans biais de

     (moyenne de la population).

    10. Trois estimateurs à connaître : Moyenne, Variance et proportion.a. Moyenne :

    Le problème est réglé :   X n   est un estimateur ponctuel sans biais de    et l'estimation sera notée   : b   =   X n   (moyenne del'échantillon).

     b. Variance et Ecart-type :i. Estimateur sans biais

    Si on note  S 2 un estimateur sans biais de la variance, on attend de lui :   E 

    S 2

      =   2. On est tenté de penser que la

    variance d'échantillon,  1

    n

    PX i X n

    2; pourrait tenir ce rôle, mais cet estimateur est "biaisé" ; si l'on extrait de nombreux

    échantillons d'une population de variance 2, on constatera qu'en moyenne la variance d'échantillon sera inférieure à lavraie valeur  2:  On démontre que la moyenne des variances de tous les échantillons de taille  n  n'est pas la variance de la

     population.

    O n a :  1

    n

    PX i X n

    2=

      1

    n

    P(X i )

    X n

    2 =

      1

    n

    P(X i )2+

    X n

    2 2n

    P(X i )

    X n

    soit en développant :

      1

    n P (X i )2 + X n 2   2n X n P (X i ) =   1n P (X i )2 X n 2 ; il resteà prendre l'espérance des deux membres, et à utiliser la linéarité :   E 

    1

    n

    PX i X n

    2  =

      1

    n

    PE 

    (X i )2 

    X n 2

    =  1

    n

    P2  

    2

    n  = 2  

    2

    n  =

     n 1n

      2 ; on corrige ce biais en posant :

    S 2 =  n

    n 1  1

    n

    PX i X n

    2=

      1

    n 1P

    X i X n2

    et on a alors : E 

    S 2

     =  n

    n 1  n 1

    n  2 = 2:

    On doit retenir :Un estimateur sans biais de la variance de la population est la variance d'un échantillon aléatoire de taille n dénie par :

    S 2 =  1

    n 1X

    X i X n2

    qui donne comme estimation de la variance :   S 2 =  n

    n 12n

      où 2n

     =  1

    n Pxi X n2 désigne la variance calculéesur l'échantillon ; on obtient comme estimation de l'écart-type  :   S  =

    r   n

    n 1 n   .

    On note que S > n:

    ii.   CalculatriceLa calculatrice statistique fournit à partir de données d'un échantillon, l'écart-type de l'échantillon, noté  X  (avec nos nota-tions n  ) et l'estimation de l'écart-type de la population, notée  S X  (avec nos notations s).

    Rentrer dans une liste l'échantillon de taille  3; (10 ; 20 ; 50) ; dans le menu Calcul 1variable on obtient :  X   = 16:9967 et

    S X ' 20:8167 ; on vérie que S X 'r 

    3

    2X ' 16:9967

    r 3

    2 ' 20:8166:

    iii. Exercice corrigéPar un sondage effectué auprès d'un échantillon de 178 cadres supérieurs, on a obtenu un revenu annuel moyen de 41854 e,avec un écart-type de 7684 e, l'objectif étant d'estimer le revenu annuel de tous les cadres supérieurs.

    Estimer ponctuellement le salaire moyen et l'écart-type du salaire moyen des cadres de la population. page 5 UFR14

  • 8/16/2019 Ma 1 Estimation

    6/9

    6   ESTIMATION

    Corrigé :

    On sait que le salaire moyen de l'échantillon est un estimateur sans biais du salaire moyen de la population, donc on estimera

    le salaire moyen de la population par :  E 

     = 41854 ; on prend comme estimateur de la variance de la population,  S 2; la

    variance d'échantillon dénie par :  S 2 =  n

    n 1 2n  et donc pour l'écart-type :  S  =

    r   n

    n 1 n  =r 

    178

    177  7684 = 7705: 68

    e

    c. Estimation d'une proportionOn s'intéresse à la proportion  p  des individus d'une population ayant une caractéristique donnée. On démontre que  p  peut êtreestimée par  b p; la proportion d'individus ayant cette caractéristique dans un échantillon de taille n; cet estimateur étant sans biais.

    d. BILAN :

    Paramètre à estimer Estimateurs

    Moyenne :  X 

    Variance : 2 S 2 =  1

    n 1P

    X i X n2

    =  n

    n 1 2n; n  écart-type calculé sur l'échantillon de taille n

    Ecart-type  S  =

    r   n

    n 1 n proportion :  p

      b p (proportion d'échantillon), avec E (

     b p) = p

    V INTERVALLE DE CONFIANCE

    1.   Introduction

    2. Les estimations ponctuelles ne fournissent pas d'information sur la précision des estimations, c'est-à dire qu'elles ne tiennent pascompte de l'erreur possible attribuable aux uctuations d'échantillonnage, or deux échantillons  distincts donnent presque certaine-ment des valeur différentes pour l'estimation.Il s'agit toujours d'estimer un paramètre inconnu, mais au lieu de lui attribuer une valeur unique en faisant appel à un estimateur 

     ponctuel, de construire un intervalle aléatoire qui permette de ”recouvrir”, avec une certaine abilité, la vraie valeur du paramètreestimé. Cet intervalle aléatoire dépend de l'échantillon. Avant de prélever l'échantillon, on assigne à l'intervalle aléatoire une prob-abilité de contenir la vraie valeur de  . On attribue souvent à cette probabilité, décidée au préalable, la valeur de  95%:  Une foisl'échantillon prélevé, on obtient un intervalle xe (non aléatoire) auquel on attribue le niveau de conance de  95%;  de contenir lavraie valeur de :a.   Niveau de conance

    Si P  (a b) = 1 ; cette probabilité notée (1 ) souvent exprimée en pourcentage s'appelle le niveau de conancede l'intervalle. Ce niveau est décidé au préalable et peut être aussi élevé (proche de 100%) que l'on veut. On choisit souvent = 5%;ce qui donne un niveau de conance de 95%:

     b.   Le seuil de risque

    La probabilité ; exprimée en pourcentage, est appelée le niveau de risque.   représente la probabilité de se tromper en afrmantque l'intervalle de conance contient le paramètre : désigne la probabilité pour que l'intervalle que l'on détermine ne contienne

     pas la vraie valeur du paramètre.

    c. Le choixLa détermination d'un intervalle de conance nous place devant un choix difcile : soit refuser un risque élevé, mais alors obtenir un intervalle "grossier" et de peu d'intérêt, soit accepter un risque élevé et obtenir un encadrement assez précis. On peut direqu'avec un niveau de conance de  100%;l'intervalle [0; 20] contiendra votre note de partiel....mais l'intérêt d'un tel résultat estfaible....

    d.   Exemple :

    Soit X  la variable aléatoire correspondant à la valeur hebdomadaire des achats de la ménagère de 50 ans...

    Supposons que l'intervalle de conance à 95% soit ]455:10 ; 495:40[ et que l'intervalle de conance à 99% soit ]448:73 ; 501:77[; cela signie que 95% des échantillons de taille n  donneront une valeur dans l'intervalle  ]455; 10 ; 495:40[ et que 99%  d'entreeux une valeur dans l'intervalle ]448:73 ; 501:77[ .

    On notera évidemment que plus le niveau de conance exigé est grand, plus l'amplitude de l'intervalle est grande.

    3.   Intervalle de conance d'une moyennea.   Ecart-type   de la population connu

    Pour  n 30 ;I  =

    x z=2 p 

    n; x + z=2

    p n

    z=2  étant calculé avec la loi normale :   P z=2  Z   z=2 = 1 ; Z  suivant la loi N  (0; 1) ;Rappel :   P 

    z=2  Z   z=2 = 2F z=2 1   , F  désignant la fonction de répartition de la loi normale centrée réduite.6 UFR14

  • 8/16/2019 Ma 1 Estimation

    7/9

    Master 1   ESTIMATION

    On retiendra que pour     = 0:05; z=2   = 1:96   (vérier dans la table de la fonction de répartition de la loi normale centréeréduite).

     b.   Ecart-type   de la population inconnui. On commence par faire une estimation ponctuelle S   de l'écart-type   de la population, en utilisant  n   l'écart-type calculé

    dans l'échantillon :  S  =

    r   n

    n 1 n  et on fait le même travail :

    I  = X  z=2 S p n   ; X  + z=2 S p nRemarque :

      S p n

      =  np 

    n 1ii. Exemple : reprenons le salaire des cadres (9biii) et cherchons une estimation du salaire moyen par un intervalle de conance

    à 95%.

    Le théorème central limite nous dit que si  n 30; la variable X  a une distribution approximativement normale avec comme paramètre la moyenne m  de la population et comme écart-type estimé

      S p n

     = 577: 56; que nous avons déjà calculé.

    On a donc : P 

    X  1:96 S np 

    n  m X  + 1:96 S np 

    n = 0:95:

    On appelle marge d'erreur la demi amplitude de l'intervalle : 1:96 S np 

    n  = 1:96577: 56 = 1132: 02; ce qui donne un intervalle

    de conance :41854 1132: 02 m 41854 1132: 02 soit : 40721: 98 m 42986: 02Pour 95% des échantillons de taille 178, le revenu annuel moyen est au plus à 1132.02 e du revenu annuel moyen de tous lescadres.L'intervalle calculé nous donne raison 19 fois sur 20.

    c. Petit échantillon ( n

  • 8/16/2019 Ma 1 Estimation

    8/9

    8   ESTIMATION

    au moins 8 sur  200; soit une proportion supérieur ou égale  4% .

    Calculons la probabilité : P  bP   0:04 =  P  Z     0:040:025

    0:0 110

     = 1 F  (1: 36) ' 1 0:9131 '  0:0869

    f. Exercices :i. Sur   100000  naissances, on observe  51300  garçons. Déterminer un intervalle de conance au seuil de 5%  du taux de mas-

    culinité.

    Réponse : [0:5032; 0:5228] :

    ii. A la suite d'un sondage aléatoire, portant sur 1000 électeurs, une proportion de 31% de d'intentions de vote s'est dégagée enfaveur du candidat X .Donner un intervalle de conance à 95% du pourcentage des intentions de vote pour ce candidat dansl'ensemble de la population.

    Réponse : [0:281;0:339]

    VI LEARNING BY DOING

    1. Reprendre l'exercice du salaire des cadres et donner un intervalle de conance au seuil de 99%. Commenter.

    2. Reprendre le même exercice avec un échantillon de taille 10000. Commenter.

    3. "Pas facile de transmettre des valeurs à ses enfants"

    Il ressort d'un sondage réalisé auprès de 1009 parents au Québec, que 772 d'entre eux jugent difcile de transmettre des valeurs

    durables à leurs enfants.1. a. Estimer ponctuellement la proportion de parents trouvant difcile de transmettre des valeurs durables à leurs enfants.

     b. Donner une estimation de cette proportion par un intervalle de conance à 95%.

    Dans la pratique, on retient :

    Paramètre à estimer Estimation calculée sur l'échantillon

    Moyenne : m X 

    Variance :  S 2n  =  n

    n 1 2n; n  écart-type de l'échantillon de taille n

     proportion :  p   b p (proportion dans l'échantillon)L'estimateur de la moyenne est sans biais et convergent : EX  =  m  et V  X  =  

    2

    n  !0 si  n  tend vers +

    1:

    Pour l'écart type on a introduit un correctif car  2n  n'est pas sans biais.

    VIIRESUME : Intervalle de conance

    VII.1   PROPRIETES

    I   Il est centré sur la valeur de l'estimateur ponctuel calculé sur l'échantillon.

    I   Il a une amplitude qui tient compte de l'erreur d'échantillonage. Ses bornes sont : estimation erreur d'échantillonage, cette erreur dépendant des uctuations de l'estimateur.

    I   Il a un niveau de conance, appelé seuil de conance. Ce seuil, noté 1 ;  est xé au départ ; il représente la probabilité quel'intervalle encadre le paramètre.

     plus le seuil est grand, plus la probabilité que l'intervalle contienne le paramètre estimé est grande.

    On prend souvent 1  = 0:95 (niveau de conance 95%) : un intervalle de conance au seuil 95%, signie que si l'on prélève ungrand nombre d'échantillon de même taille, 95% des intervalles de conance calculés contiennent la vraie valeur du paramètre.

    VII.2   PRATIQUE

    1.   MOYENNEa.   Ecart-type   de la population connu

    Pour  n 30 ; X  z=2 p 

    n  ;   X  + z=2

    p n

    avec :   P z=2  Z   z=2 = 1 ; Z  suivant la loi N  (0; 1);On retiendra que pour    = 0:05; t  = 1:96 (vérier dans la table de la fonction de répartition de la loi normale centrée réduite).

     b.   Ecart-type   de la population inconnu8 UFR14

  • 8/16/2019 Ma 1 Estimation

    9/9

    Master 1   ESTIMATION

    On commence par faire une estimation ponctuelle S n  de l'écart-type   de la population, en utilisant  n   l'écart-type calculé sur 

    l'échantillon :  S  =

    r   n

    n 1 n  et on fait le même travail avec  S  :

    I  =

    X  z=2 S p n ; X  + z=2

    S np n

    Remarque :

      S 

    p n   =  np n 1

    c.   n <  30, population normale et écart-type   de la population inconnu

    I  =

    X  t=2;  S p 

    n  ; X  + t=2; 

    S p n

    2.   PROPORTION

    Pour une population telle que :

      n b p 5

    n (1 b p) 5   ,I  = " b p z=2r  b

     p (1

     b p)

    n  ; b p + z=2r  b

     p (1

     b p)

    n #

     page 9 UFR14