echantillonnage

8
Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville Novembre 2012 Échantillonnage et estimation Partie C - Frédéric Barôme page 1 Échantillonnage et estimation Partie C : Capacités et exercices-types 1. Rappelons tout d'abord les trois principales capacités mises en œuvre : Capacité A : Utiliser un intervalle de fluctuation pour décider oui ou non d’une conformité. Capacité B : Utiliser un intervalle de confiance pour estimer une proportion (ou une probabilité) inconnue. Capacité C : Décider oui ou non de la fiabilité d’une proportion annoncée. 2. Rappelons ensuite les outils à disposition. Les trois modes de calcul d'un intervalle de fluctuation : Niveau 2 de : Si n 25 et 0,2 p 0,8 , alors un intervalle de fluctuation est [ p 1 n ; p + 1 n ] . Niveau 1 ère : Un intervalle de fluctuation est [ a n ; b n ] avec a est le plus petit entier tel que P( X a ) > 2,5 % b est le plus petit entier tel que P( X b ) 97,5 % . Niveau T ale : Si n 30 et np 5 n ( 1 p ) 5 , alors un intervalle de fluctuation est [ p 1,96 p ( 1 p ) n ; p + 1,96 p ( 1 p ) n ] . Pour les intervalles de confiance, un seul mode de calcul : Niveau T ale : Si n 30 et nf 5 n ( 1 f ) 5 , alors un intervalle de confiance est [ f 1 n ; f + 1 n ] . À son propos : Programme de Seconde : Sensibiliser les élèves à la fluctuation d’échantillonnage, aux notions d’intervalle de fluctuation et d’intervalle de confiance et à l’utilisation qui peut en être faite. Aucune mention dans les Programmes de Première Programme de Terminale : Estimer par intervalle une proportion inconnue à partir d’un échantillon.

Upload: fa-ko

Post on 01-Feb-2016

12 views

Category:

Documents


0 download

DESCRIPTION

estimation

TRANSCRIPT

Page 1: echantillonnage

Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville – Novembre 2012 – Échantillonnage et estimation – Partie C - Frédéric Barôme – page 1

Échantillonnage et estimation Partie C :

Capacités et exercices-types

1. Rappelons tout d'abord les trois principales capacités mises en œuvre :

Capacité A : Utiliser un intervalle de fluctuation pour décider oui ou non d’une conformité.

Capacité B : Utiliser un intervalle de confiance pour estimer une proportion (ou une probabilité) inconnue.

Capacité C : Décider oui ou non de la fiabilité d’une proportion annoncée.

2. Rappelons ensuite les outils à disposition.

Les trois modes de calcul d'un intervalle de fluctuation :

Niveau 2de : Si n 25 et 0,2 p 0,8 , alors un intervalle de fluctuation est [ p ‒ 1

n ; p +

1

n ] .

Niveau 1ère : Un intervalle de fluctuation est [ a

n ;

b

n ] avec

a est le plus petit entier tel que P( X a ) > 2,5 %

b est le plus petit entier tel que P( X b ) 97,5 % .

Niveau Tale : Si n 30 et

np 5

n ( 1 – p ) 5 , alors un intervalle de fluctuation est [ p ‒ 1,96

p ( 1 – p )

n ; p + 1,96

p ( 1 – p )

n ] .

Pour les intervalles de confiance, un seul mode de calcul :

Niveau Tale : Si n 30 et

nf 5

n ( 1 – f ) 5 , alors un intervalle de confiance est [ f ‒

1

n ; f +

1

n ] .

À son propos :

Programme de Seconde :

Sensibiliser les élèves à la fluctuation d’échantillonnage, aux notions d’intervalle de fluctuation et d’intervalle de confiance et à l’utilisation qui peut en être faite. Aucune mention dans les Programmes de Première

Programme de Terminale :

Estimer par intervalle une proportion inconnue à partir d’un échantillon.

Page 2: echantillonnage

Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville – Novembre 2012 – Échantillonnage et estimation – Partie C - Frédéric Barôme – page 2

3. Voici maintenant une série d'exercices-types.

Attention, ce ne sont pas des exercices à destination des élèves ! Ils ont été rédigés de façon minimaliste pour travailler le repérage de la capacité en œuvre.

Pour chacun, classer en fonction de la capacité mise en œuvre (A , B ou C ) et du niveau minimal requis (2de, 1ère ou Tale).

Puis, proposer une rédaction-type de la réponse.

Remarque : À propos de la Capacité A :

- on pourra choisir ou non de rédiger en utilisant l’hypothèse de conformité H0 ,

- dans le cas où f IF , on choisira entre trois types de réponses :

1) l’incapacité à juger la non-conformité, 2) le jugement de conformité avec risque d’erreur inconnu (ou non maîtrisé).

3) le jugement de conformité sans parler de l'erreur commise.

Niveau Capacité

Exercice 1

Dans une population, la proportion d'un certain caractère est 0,45 . Dans un groupe de 150 personnes de cette population, on en compte 60 qui possèdent le caractère. Peut-on penser que le caractère est mal représenté (*) dans ce groupe ?

La rédaction suivante est le minimum attendu (et suffisant...).

Ne pas oublier de faire vérifier les conditions d'utilisation.

p = 0,45 et n = 150 { n 25

0,2 p 0,8

donc, les conditions d’utilisation d’un intervalle de fluctuation sont respectées.

0,45 ‒ 1

150 0,368

0,45 + 1

150 0,532

donc, un intervalle de fluctuation est IF = [ 0,368 ; 0,532 ] .

f = 60

150 = 0,4 IF

Trois types de réponse seront acceptés :

1) donc, on ne peut pas penser que le caractère est mal représenté.

2) donc, on peut penser que le caractère n’est pas mal représenté, avec un risque d'erreur non maîtrisé.

3) donc, on peut penser que le caractère n’est pas mal représenté.

On propose ici une version enrichie de la notion d'hypothèse H0 : très utilisée dans le milieu professionnel, il faut habituer les élèves à la fréquenter.

Mais c'est peut être prématuré en 2de, cela n'apporte rien à l'objectif essentiel : comprendre le mode de raisonnement. Cela peut même gêner en ajoutant une tâche.

Posons l’hypothèse H0 : le caractère est conforme dans ce groupe,

i.e. le caractère n’est pas sous représenté.

p = 0,45 et n = 150 { n 25

0,2 p 0,8

donc, les conditions d’utilisation d’un intervalle de fluctuation sont respectées.

0,45 ‒ 1

150 0,368

0,45 + 1

150 0,532

donc, un intervalle de fluctuation est IF = [ 0,368 ; 0,532 ] .

f = 60

150 = 0,4 IF

donc, on accepte l’hypothèse H0 avec un risque d’erreur non maîtrisé : on peut penser que le caractère

n’est pas mal représenté.

2de

A

Page 3: echantillonnage

Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville – Novembre 2012 – Échantillonnage et estimation – Partie C - Frédéric Barôme – page 3

Exercice 2

Dans une population, la proportion d'un certain caractère est 0,45 . Dans un groupe de 500 personnes de cette population, on en compte 195 qui possèdent le caractère. Peut-on penser que le caractère est mal représenté dans ce groupe ?

p = 0,45 et n = 150 { n 25

0,2 p 0,8

donc, les conditions d’utilisation d’un intervalle de fluctuation sont respectées.

0,45 ‒ 1

500 0,405

0,45 + 1

500 0,495

donc, un intervalle de fluctuation est IF = [ 0,405 ; 0,495 ] .

f = 195

500 = 0,39 IF

donc, on peut penser que le caractère est mal représenté, avec un risque d’erreur de 5 %.

Version enrichie de la notion d'hypothèse H0 :

Posons l’hypothèse H0 : le caractère est conforme dans ce groupe,

i.e. le caractère n’est pas sous représenté.

p = 0,45 et n = 150 { n 25

0,2 p 0,8

donc, les conditions d’utilisation d’un intervalle de fluctuation sont respectées.

0,45 ‒ 1

500 0,405

0,45 + 1

500 0,495

donc, un intervalle de fluctuation est IF = [ 0,405 ; 0,495 ] .

f = 195

500 = 0,39 IF

donc, on rejette l’hypothèse H0 avec un risque d’erreur d'au plus 5 % : on peut penser que le caractère

est mal représenté.

2de

A

Exercice 3

Dans une population, on veut estimer la proportion d'un caractère. Dans un groupe de 250 personnes issues de cette population, on en compte 170 qui possèdent le caractère. Donner une estimation de la proportion de ce caractère dans la population.

f = 170

250 et n = 250

170

250 ‒

1

250 0,617

170

250 +

1

250 0,743

donc, un intervalle de confiance au seuil 95% est IC = [ 0,617 ; 0,743 ] .

Donc on peut estimer la proportion entre 61,7 % et 74,3 % , avec un risque d'erreur d'au plus 5 %.

L'utilisation de l'intervalle de confiance en tant que sujet d'évaluation n'apparaît qu'en Tale.

Tale

B

Page 4: echantillonnage

Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville – Novembre 2012 – Échantillonnage et estimation – Partie C - Frédéric Barôme – page 4

Exercice 4

On annonce que, dans une population, 45 % des individus possèdent un certain caractère. Dans un groupe de 1 000 personnes issues de cette population, on en compte 360 qui possèdent le caractère. Peut-on penser que cette proportion annoncée est fausse ?

Supposons que p est 0,45 .

p = 0,45 et n = 1 000 { n 25

0,2 p 0,8

donc, les conditions d’utilisation d’un intervalle de fluctuation sont respectées.

0,45 ‒ 1

1 000 0,418

0,45 + 1

1 000 0,482

Alors un intervalle de fluctuation serait IF = [ 0,418 ; 0,482 ] .

et alors 95 % des fréquences appartiendraient à IF .

Or, la fréquence du caractère f = 360

1 000 = 0,36 IF .

Donc, avec un risque d’erreur de 5 % , l’hypothèse que p est 0,4 est fausse : on peut penser que cette

proportion annoncée est fausse.

C'est de l'hypothèse du raisonnement par l'absurde dont on parle, pas de H0 ... Noter l'utilisation du conditionnel.

2de

C

Exercice 5

On annonce que, dans une population, 45 % des individus possèdent un certain caractère. Dans un groupe de 800 personnes issues de cette population, on en compte 376 qui possèdent le caractère. Peut-on penser que cette proportion annoncée est fausse ?

f = 376

800 et n = 800

376

800 ‒

1

800 0,435

376

800 +

1

800 0,505

donc, un intervalle de confiance au seuil 95% est IC = [ 0,435 ; 0,505 ] .

Donc on peut estimer la proportion entre 43,5 % et 50,5 %, avec un risque d'erreur d'au plus 5 %.

Donc, il n’y a pas de doute sur la proportion 45 % annoncée.

Même énoncé que l'Exercice 4, mais l'utilisation de l'intervalle de confiance le place en Tale.

Tale

C

Exercice 6

Dans une population normale, la proportion d'un certain caractère est 0,85 . Dans un groupe de 70 personnes, on en compte 50 qui possèdent le caractère. À l'aide de la loi binomiale, déterminer si on peut penser que le caractère est mal représenté dans ce groupe.

On utilise la loi binomiale de paramètres p = 0,85 et n = 70 .

Le plus petit entier a tel que P( X a ) > 2,5 % est 53 .

Le plus petit entier b tel que P( X b ) 97,5 % est 65 .

53

70 0,757

65

70 0,929

donc, un intervalle de fluctuation est IF = [ 0,757 ; 0,929 ]

f = 50

70 0,714 IF

donc, on peut penser que le caractère est sous représenté, avec un risque d’erreur de 5 %.

Aucun changement de fond, seule la technique de calcul est modifiée et est imposée par l'énoncé.

1ère

A

Page 5: echantillonnage

Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville – Novembre 2012 – Échantillonnage et estimation – Partie C - Frédéric Barôme – page 5

Exercice 7

Dans une population normale, la proportion d'un certain caractère est 0,05 . Dans un groupe de 200 personnes, on en compte 19 qui possèdent le caractère. Peut-on penser que le caractère est mal représenté dans ce groupe ?

p = 0,05 et n = 200 donc

n 30

np = 10 5

n(1 ‒ p) = 114 5

donc, les conditions d’utilisation d’un intervalle de fluctuation asymptotique sont respectées.

0,05 ‒ 1,96 0,05×0,95

200 0,0197

0,05 + 1,96 0,05×0,95

200 0,0802

donc, un intervalle de fluctuation asymptotique est [ 0,0197 ; 0,0802 ] .

f = 19

200 = 0,095 IF

donc, on peut penser que le caractère est sous représenté, avec un risque d’erreur de 5 %.

Aucun changement de fond, seule la technique de calcul est modifiée et est imposée par les conditions ( p très faible).

Tale

A

(*) On entend par " mal représenté " le fait de ne pas être conforme à la proportion de 0,45 de la population.

Il faut comprendre " sous représenté ou sur représenté ".

Attention à bien conserver la nature bilatérale de la répartition en cloche.

N'envisager que la sous représentation, par exemple, ne permettrait d'étudier que la moitié de la non-conformité et serait de nature

unilatérale.

4. Extrait des Programmes de Terminale :

[AP] Prise de décision lors de la comparaison de deux proportions (par exemple lors d’un essai thérapeutique).

Sans nécessairement traiter les exercices suivants, retrouver la capacité concernée.

Pour les trois exercices suivants, la capacité concernée est la même :

Capacité B : Utiliser un intervalle de confiance pour estimer une proportion (ou une probabilité) inconnue.

L'Exercice 8 est un classique, le procédé mathématique est d'ailleurs parfois repris dans certaines presses objectives pour prévenir de conclusions hâtives à la lecture de sondages.

L'Exercice 9 est un intermédiaire : il utilise le même ressort logique que l'Exercice 8 mais sur deux candidats. Il prépare à l'Exercice 10, pour lequel le contexte est différent : on veut choisir entre deux médicaments. Il illustre l'extrait des programmes :

(AP) Prise de décision lors de la comparaison de deux proportions (par exemple lors d’un essai thérapeutique).

Exercice 8

Juste avant le second tour d'une élection, un dernier sondage auprès de 1 000 personnes représentatives donne une cote de popularité de 52 % à l’un des deux candidats.

Peut-on prévoir qui va être élu ?

Traitement :

0,52 ‒ 1

1 000 0,488

0,52 + 1

1 000 0,551

La fréquence de confiance 0,52 donne l'intervalle de confiance [ 0,488 ; 0,551 ] .

Donc, la proportion d'électeurs de M se trouve entre 48, 8 % et 55, 1 % avec un risque d'erreur de moins de 5 %.

Il est possible que M réunisse moins de 50 % des voix et ne soit pas élu.

Exercice 9

Avant un premier tour d'élections, on a effectué un sondage sur 500 personnes. Un candidat A et un candidat B ont été crédités respectivement de 22,8 % et 18,9 % des intentions de vote.

Montrer qu'on ne peut prévoir l'ordre d'arrivée de ces deux candidats.

Page 6: echantillonnage

Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville – Novembre 2012 – Échantillonnage et estimation – Partie C - Frédéric Barôme – page 6

Exercice 10

On compare l'efficacité de deux médicaments. Sur 100 malades, le premier donne 63 guérisons et le second 67 guérisons.

Le second est-il meilleur que le premier, ou bien ses meilleurs résultats sont-ils dus aux fluctuations de l'échantillon ?

Traitement :

0,63 ‒ 1

100 0,53

0,63 + 1

100 0,73

La fréquence du 1er médicament donne l'intervalle de confiance [ 0,53 ; 0,73 ] .

Donc, la probabilité de guérir avec ce 1er médicament est entre 53 % et 73 % avec un risque d'erreur de moins de 5 %.

0,67 ‒ 1

100 0,57

0,67 + 1

100 0,77

La fréquence du 2ème médicament donne l'intervalle de confiance [ 0,57 ; 0,77 ] .

Donc, la probabilité de guérir avec le 2ème médicament est entre 57 % et 77 % avec un risque d'erreur de moins de 5 %.

On en déduit qu’il est possible que le taux de guérison du 1er médicament soit le meilleur : on ne peut pas décider du

médicament le plus efficace avec cette enquête.

Remarque : Suite à cet exercice, on peut demander un critère permettant de comparer l’efficacité de deux médicaments.

La comparaison est possible lorsque les deux intervalles de confiance sont disjoints.

5. Les situations suivantes décrivent des cas historiques.

On les retrouve facilement sur Internet et peuvent éventuellement faire l’objet d’une recherche et d’exposé.

Exercice 11

Claudio CASTANEDA, Sheriff, Petitioner, v. Rodrigo PARTIDA

En Novembre 1976 dans un comté du sud du Texas, Rodrigo Partida était condamné à huit ans de prison. Il attaqua ce jugement au motif que la désignation des jurés de ce comté était discriminante à l’égard des Américains d’origine mexicaine. Alors que 79,1% de la population de ce comté était d’origine mexicaine, sur les 870 personnes convoqués pour être jurés lors d’une certaine période de référence, il n’y eut que 339 personnes d’origine mexicaine. Devant la Cour Suprême, un expert statisticien produisit des arguments pour convaincre du bien fondé de la requête de l’accusé. En vous situant dans le rôle de cet expert, pouvez-vous décider si les Américains d’origine mexicaine étaient alors sous-représentés dans les jurys de ce comté ?

Exercice 12

The Aamjiwnaang First Nation is a First Nations community of about 850 Chippewa (Ojibwe) Aboriginal peoples. They live on the shores of the St. Clair River in southwestern Ontario, Canada. The people of the Aamjiwnaang First Nation are concerned that an abnormal birth rate is due to adverse effects of maternal and fetal exposure to the effluent and emissions of the nearby chemical plants. A review of birth records found there aren't very many boys being born in the southwestern Ontario community, and the number is dropping. According to a study published in the American journal Environmental Health Perspectives, only about a third of babies born on the reserve between 1999 and 2003 were male. Going back to include another five years, only 41 per cent of babies born in the decade were boys. The ratio is normally something closer to 50:50. Residents of the 850-member Chemical Valley native group started asking questions in 2003 when they realized there were three all-girl softball teams and only one for boys. « Is it what we're breathing in on a daily basis? Is it where we played as kids? Is it something our parents did? Is it these small exposures or is it because we've been living here our whole lives? » asked Ada Lockridge, a member of the band's environmental committee. Is it really worrying? Or could it be due to chance?

Remarque : Voir aussi l’étude des cas de leucémie chez des moins de 15 ans à Woburn, Massachussetts, durant les années 70,

qui a permis de découvrir le syndrome du trichloréthylène.

Page 7: echantillonnage

Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville – Novembre 2012 – Échantillonnage et estimation – Partie C - Frédéric Barôme – page 7

6. Les exercices suivants n'évaluent pas l'une des capacités A, B ou C.

Pour chacun, vous pouvez éventuellement traiter l'exercice et vous devez nommer la capacité requise.

Exercice 13

Un magasin estime que dans son bassin d'influence il peut compter environ 10 000 clients réguliers. L'objectif de qualité est d'avoir un taux de satisfaction entre 90 % et 98 %. On commande alors à un institut de sondage une enquête auprès de ces clients réguliers pour mesurer le taux de satisfaction réel. Par souci de précision, le magasin exige un résultat fiable à plus ou moins 2 % avec un risque d'erreur d'au plus 5 %.

Combien de personnes au minimum doit-on interroger ?

Remarque : Les 90 % et 95 % sont des leurres.

Remarque : Ne pas confondre l'amplitude et le risque d'erreur.

La nouvelle capacité est exigible au niveau T ale :

Capacité : Déterminer une taille d’échantillon suffisante pour obtenir, avec une précision donnée, une estimation d’une proportion au niveau de confiance 0,95.

Traitement :

Le sondage fournira une fréquence de confiance f puis un intervalle de confiance [ f ‒ 1

n ; f +

1

n ] .

La longueur de cet intervalle est donc 2 × 1

n et doit être inférieure ou égale à celle demandée par le magasin 2 × 2 % .

On en déduit : 2 × 1

n 2 × 2 %

1

n 0,02

n 1

0,022

n 2 500

On doit interroger au minimum 2 500 personnes.

Exercice 14

En France, il y a environ 43 % de la population dont le groupe sanguin est O . Sur une base militaire française, un hôpital manque de sang de ce groupe. Il a besoin de 120 L. On organise une collecte sur 800 personnes de la base en prélevant 450 mL de sang sur chaque donneur.

Donner un encadrement de la quantité de sang du groupe O qu'on peut attendre avec au plus 5 % d’erreur ?

Remarque : Plus concrètement, on peut demander la quantité minimale de sang attendue pour répondre au besoin de 120 L.

Mais, on est alors dans une situation d'unilatéralité.

Capacité : Utiliser un intervalle de fluctuation pour donner un encadrement de fréquence, d’effectif ou autre.

Traitement :

p = 0,43 et n = 800 donc n 25 et 0,2 p 0,8

donc, les conditions d’utilisation d’un intervalle de fluctuation sont respectées.

0,43 ‒ 1

800 0,39

0,43 + 1

800 0,47

donc, un intervalle de fluctuation est IF = [ 0,39 ; 0,47 ] .

Donc, avec un risque d'erreur de 5%, :

- la fréquence des donneurs O pour cette collecte est entre 0,39 et 0,47 ,

- le nombre de donneurs O pour cette collecte est entre 0,39×800 = 312 et 0,47×800 = 376 ,

- la quantité de sang O est entre 312×450 mL = 140,4 L et 376×450 mL = 150,4 L .

Page 8: echantillonnage

Stage « Nouveaux programmes de Terminale S » - Ho Chi Minh-Ville – Novembre 2012 – Échantillonnage et estimation – Partie C - Frédéric Barôme – page 8

Exercice 15

Une entreprise livre des objets sujets à une certaine fragilité. On compte en général 3,5 % des objets cassés à la livraison.

Combien faut-il en commander pour être sûr à 95 % d’en avoir 420 non cassés ?

Capacité : Utiliser un intervalle de fluctuation pour donner un encadrement de fréquence, d’effectif ou autre.

Traitement :

p = 0,035 et n 420 donc

n 30

np 14,7 5

n ( 1 – p ) 405,3 5

donc, les conditions d’utilisation d’un intervalle de fluctuation asymptotique sont respectées.

0,035 ‒ 1,96 0,035 ( 1 – 0,035 )

n 0,035 ‒

0,36

n

0,035 + 1,96 0,035 ( 1 – 0,035 )

n 0,035 +

0,36

n

donc, un intervalle de fluctuation asymptotique est [ 0,035 ‒ 0,36

n ; 0,035 +

0,36

n ] ,

donc, on peut penser que, pour un échantillon de taille n , la fréquence maximale fmax d’objets cassés sera de 0,035 + 0,36

n .

Alors : n – n fmax = 420

n ( 1 – 0,035 ‒ 0,36

n ) = 420

n ( 0,965 n ‒ 0,36 ) = 420

0,965 ( n )² ‒ 0,36 n – 420 = 0

= (‒0,36)² – 4×0,965×(–420) = 1621,3296

donc : n = 0,36 ‒ 1621,3296

2×0,965 –20,6765 (impossible) ou n =

0,36 + 1621,3296

2×0,965 21,0496

et donc : n 21,0496² 443,1

On en déduit qu’il faut commander 444 objets pour en avoir 420 non cassés, avec un risque d’erreur de 5 %.