m. ingenbleek 1997-1998 - abdelaziz benkhalifadonc de façon naturelle, et implique en autre une...

105
M. Ingenbleek 1997-1998

Upload: others

Post on 12-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

M. Ingenbleek

1997-1998

������������

Page 2: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

M. Ingenbleek

1997-1998

������������� ��

1 Introduction..............................................................................................................1-1Un peu d'histoire............................................................................................................1-1Survol méthodologique .................................................................................................1-2Les étapes d'une analyse statistique...............................................................................1-2

Collecte des données..................................................................................................1-3Analyse des données..................................................................................................1-3Inférence et conclusion ..............................................................................................1-3Remarque...................................................................................................................1-3Rappels mathématiques .............................................................................................1-4

2 Distribution des fréquences et diagrammes ..........................................................2-1Distribution des fréquences ...........................................................................................2-1Fonction de répartition ..................................................................................................2-6Autres représentations ...................................................................................................2-7

3 Quantiles...................................................................................................................3-1Introduction ...................................................................................................................3-1Définition ......................................................................................................................3-3Quartiles et déciles ........................................................................................................3-3

4 Mesures de tendance centrale.................................................................................4-1Introduction ...................................................................................................................4-1Quelques mesures de tendance centrale ........................................................................4-1

La moyenne arithmétique ..........................................................................................4-1La moyenne harmonique............................................................................................4-2La moyenne géométrique...........................................................................................4-2La médiane.................................................................................................................4-2Le mode .....................................................................................................................4-2

Propriétés.......................................................................................................................4-3Propriété caractéristique de la moyenne arithmétique ...............................................4-3Première propriété commune à toutes les mesures....................................................4-3Deuxième propriété commune...................................................................................4-3Relation entre la moyenne et la médiane ...................................................................4-4

5 Mesures de dispersion .............................................................................................5-1Introduction ...................................................................................................................5-1Quelques mesures de dispersion....................................................................................5-1

L'étendue....................................................................................................................5-1L'intervalle inter-quartile ...........................................................................................5-1L'écart moyen absolu .................................................................................................5-2La variance.................................................................................................................5-2L'écart-type ................................................................................................................5-2

Page 3: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

M. Ingenbleek

1997-1998

Propriétés.......................................................................................................................5-2Propriété de la variance..............................................................................................5-2Première propriété commune aux mesures de dispersion..........................................5-3Deuxième propriété commune...................................................................................5-3

6 Tableaux de contingence et mesures de dépendance............................................6-1Introduction ...................................................................................................................6-1Tableau de contingence .................................................................................................6-1Première mesure de dépendance � ................................................................................6-3

Calcul pratique...........................................................................................................6-4Deuxième mesure de dépendance �...............................................................................6-5

Calcul pratique...........................................................................................................6-6Remarques ...............................................................................................................6-10

Mesure de dépendance entre deux variables ordinales ou cardinales: Rs ...................6-10

7 Diagramme de Pareto et indice de concentration .................................................7-1Diagramme de Pareto ....................................................................................................7-1Indice de concentration de Gini.....................................................................................7-2

8 Principales distributions .........................................................................................8-1Introduction ...................................................................................................................8-1Lois de probabilité servant à la modélisation................................................................8-1

Loi binomiale - B(n,p) ...............................................................................................8-2Binomiale négative ....................................................................................................8-3Loi de Poisson - �(�).................................................................................................8-4Loi normale - N(m,�) ................................................................................................8-4Loi log-normale .........................................................................................................8-5Loi de Pareto..............................................................................................................8-6Loi exponentielle .......................................................................................................8-6

Lois utilisées dans les calculs statistiques .....................................................................8-7Loi normale................................................................................................................8-7Loi Chi-carrée à n degrés de liberté...........................................................................8-7Loi t de Student à n degrés de liberté.........................................................................8-8Loi de F de Fisher à nl et n2 degrés de liberté ............................................................8-8Distribution du coefficient de corrélation de Spearmann ..........................................8-9

9 Estimation: principes...............................................................................................9-1Introduction ...................................................................................................................9-1Propriété d'un estimateur ...............................................................................................9-1

Estimation convergente..............................................................................................9-1Estimation sans biais..................................................................................................9-2Estimation efficace ....................................................................................................9-2

Principe de maximum de vraisemblance.......................................................................9-3Première étape............................................................................................................9-3Deuxième étape .........................................................................................................9-3

Page 4: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

M. Ingenbleek

1997-1998

Exemple.........................................................................................................................9-4La fréquence des catastrophes ...................................................................................9-4Le montant des dommages ........................................................................................9-6

Méthode des moindres carrés ........................................................................................9-9Intervalle de confiance ..................................................................................................9-9

10 Estimations d'une population normale................................................................10-1Premier cas: m inconnu, � connu ................................................................................10-1

Estimation................................................................................................................10-1Propriétés .................................................................................................................10-2Intervalle de confiance au niveau � .........................................................................10-3Exemple chiffré .......................................................................................................10-4

Deuxième cas: m inconnu, � inconnu .........................................................................10-4Estimations ..............................................................................................................10-5Propriétés .................................................................................................................10-5Intervalle de confiance au niveau � pour m.............................................................10-7Intervalle de confiance au niveau � pour �² ............................................................10-9Exemple chiffré .......................................................................................................10-9

11 Estimation d'une proportion ................................................................................11-1Introduction .................................................................................................................11-1Estimation....................................................................................................................11-1

Etape 1 .....................................................................................................................11-1Etape 2 .....................................................................................................................11-1

Propriété ......................................................................................................................11-2Intervalle de confiance au niveau a .............................................................................11-2Exemple chiffré ...........................................................................................................11-3Remarques...................................................................................................................11-4

12 Estimation de la différence entre 2 moyennes.....................................................12-1Introduction .................................................................................................................12-1Propriété ......................................................................................................................12-1Intervalle de confiance au niveau � pour m1-m2 .........................................................12-2Exemple chiffré ...........................................................................................................12-2

13 Test d'hypothèses: principes.................................................................................13-1Introduction .................................................................................................................13-1Hypothèse nulle, contre-hypothèse et test ...................................................................13-1Risque de première et de deuxième espèce .................................................................13-2

14 Test sur une proportion.........................................................................................14-1Test d'hypothèse ..........................................................................................................14-1Puissance du test sur une proportion ...........................................................................14-2

15 Test d'égalité de 2 moyennes.................................................................................15-1Echantillons indépendants...........................................................................................15-1

Page 5: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

M. Ingenbleek

1997-1998

Conditions d'application ..........................................................................................15-1Exemple ...................................................................................................................15-1Distribution de U sous Ho .......................................................................................15-3Exemple numérique.................................................................................................15-4

Echantillons appariés...................................................................................................15-4Conditions d'application ..........................................................................................15-4Statistique de Wilcoxon...........................................................................................15-5Distribution de T sous Ho........................................................................................15-5Exemple numérique.................................................................................................15-6

16 Test d'ajustement...................................................................................................16-1Introduction .................................................................................................................16-1Distribution discrète et complètement spécifiée .........................................................16-1

Exemple chiffré .......................................................................................................16-2Distribution continue et complètement spécifiée ........................................................16-2

Exemple chiffré .......................................................................................................16-3Cas général ..................................................................................................................16-3

Exemple chiffré .......................................................................................................16-4

17 Test d'indépendance entre 2 variables nominales ..............................................17-1Introduction .................................................................................................................17-1CHI-CARRE ...............................................................................................................17-1Test au niveau � ..........................................................................................................17-2Exemple chiffré ...........................................................................................................17-2

18 Test d'indépendance entre 2 variables ordinales................................................18-1Rappel..........................................................................................................................18-1Distribution exacte de RS sous H0..............................................................................18-2Distribution asymptotique ...........................................................................................18-3

Page 6: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Introduction

Statistiques Page 1-1

1 ����������� ��� ��������

A l'origine, l'activité statistique semble avoir été le fait de chefs d'états désireux deconnaître des éléments de puissance de leur état: population, potentiel militaire,richesses, ... Quelle meilleure connaissance que celle issue de l'observationsystématique de tous les éléments de la société ? L'idée d'un recensement apparaîtdonc de façon naturelle, et implique en autre une impression de précision de la plushaute qualité.

Les plus anciens recensements connus sont sumériens (5000 à 2000 ans avant J.-C.).On procédait régulièrement en Mésopotamie au relevé des personnes et des biens(3000 ans avant J.-C.).

L'Egypte semble avoir été la première nation à organiser des recensements annuels àfinalité fiscale (2700 à 2500 avant J.-C.). En ce temps-là, comme aujourd'hui, lesdéclarations des sources de revenus n'étaient pas faites sans réserves, mais les"oublis" des déclarants provoquaient leur condamnation à mort !

Jusqu'au 17e siècle les recensements seront effectués sans remettre en cause leprincipe de cette démarche. Remplacer une connaissance exhaustive par uneextrapolation fondée sur l'examen d'une partie de la population est une attitude quine trouvera d'éléments de justification qu'à l'apparition des premiers résultats deprobabilités autorisant une analyse (quantitative et qualitative) de l'erreur.

Ainsi, au 17e siècle, VAUBAN, désireux de dresser un tableau de l'économieagricole de la France, fait observer un échantillon de terres arables dans chaqueprovince. Dans la seconde moitié du 18e siècle, MESSANGE, MOHEAU puisLAPLACE estiment la population totale de la France avec une précision meilleureque celle du recensement de l'époque. La méthode utilisée est fondée surl'hypothèse d'un rapport constant entre la population et le nombre annuel denaissances: ce rapport, une fois mesuré, donne la population par une simplemultiplication avec le nombre de naissances, nombre suffisamment fiable à l'époque.

En 1800, F. MORTON EDEN estime la population de la Grande-Bretagne à 9millions d'habitants, chiffre qui sera confirmé en tous points par les résultats durecensement de 1801. La méthode utilisée par MORTON EDEN, bien queconfirmée par les faits, nous semble avec le recul bien surprenante puisque basée surl'hypothèse d'un rapport constant entre la population et le nombre de ... cheminées !

Page 7: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Introduction

Statistiques Page 1-2

Néanmoins, au 19e siècle, le comportement des statisticiens reste généralement régipar le souci d'exhaustivité, sous prétexte de rigueur. Cette thèse est, entre autres,ardemment défendue par QUETELET.

Il faut attendre 1895 pour que le terme "échantillon représentatif" soit utilisé pour lapremière fois par A. KIAER lors d'une réunion de l'Institut International deStatistique, à Berne.

Pour terminer ce petit tour d'horizon d'histoire événementielle, citons une date sansimportance dans l'évolution des concepts statistiques mais qui peut frapperl'imagination: en 1935, l'Institut GALLUP entre en fonction ...

������������������

Les sondages d'opinion sont suffisamment habituels pour qu'ils nous servent depoint de départ à ce survol méthodologique: chacun sait que plusieurs questionsconcernant un sujet d'actualité sont posées à un échantillon de personnes; on résumeles réponses données en les présentant sous forme de pourcentages de graphiques depourcentages par région, par groupe sociologique, etc.; ces résumés sont censés êtrevoisins de ceux qu'on obtiendrait si on questionnait l'ensemble de la population etnon pas une fraction de celle-ci.

Cette démarche qui paraît si habituelle (ou naturelle) ne doit pas faire oublier lesproblèmes méthodologiques (et pratiques) qu'elle pose:

� quelles questions poser ?� dans quels termes les poser (des réponses sous forme qualitative du genre "bon -

moyen - mauvais" apparaissant dans un questionnaire donneraient-elles lesmêmes résultats si les trois niveaux de qualités étaient appelés “excellent -correct - lamentable" ) ?

� combien de personnes interroger ?� comment choisir les personnes de manière à ne pas orienter le résultat, de

manière à ce que les conclusions apportées puissent être étendues à la populationentière ?

� comment déterminer la marge de fluctuation, la marge d'erreurs, la fourchette surles résultats une fois étendus de l'échantillon à la population entière ?

� ����� ����� ������ ��������

L'évocation des sondages dégage les étapes parcourues dans la majorité des analysesstatistiques.

Page 8: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Introduction

Statistiques Page 1-3

� ����������������

Point de départ de l'analyse statistique, les observations brutes sont obtenues auterme d'un processus plus au moins laborieux: enquêtes, mesures expérimentales,compilations d'archives, ... Les problèmes posés par la collecte des données(protocoles, nombres d'individus ou de mesures, etc.) ne sont pas abordés par lecours; ils n'en sont pas moins importants dans la pratique.

� � �����������

Avant d'apporter des réponses définitives aux questions initiales qui ont motivél'analyse statistique, il faut bien sûr examiner les données recueillies.

� Un examen préliminaire à vue des données, des tableaux de nombres sommairesne doit pas être considéré comme une tâche indigne d'un statisticien: il permet dese familiariser avec les ordres de grandeur, des détecter parfois des erreursd'encodage (un logiciel statistique peut être aveugle à ce genre d'erreur), derépondre à des questions immédiates, ... Cet examen ne fonde pas avec certitudeune opinion, mais il faut connaître le matériel avec lequel on va travailler.

� Les procédures statistiques (sur lesquelles porte une bonne partie du cours)permettent de condenser les observations au travers de nombres ou de graphiques(souvent appelés statistiques). L'objectif commun à toutes ces procédures est defournir une meilleure intelligibilité des données: que cette condensation soit faitesans perte, d'information ou avec perte d'information (comme c'est le plussouvent le cas). Il est naturel d'essayer une procédure puis l'autre, de revenir à lapremière, etc.

� Les procédures utilisées sont de nature descriptive; si les données sont présentéessous ces aspects multiples, elles ne permettent pas d'étendre les résultats del'échantillon à la population entière; cette extension implique un risque d'erreur.

� ������������������

Une simple description des données ne suffit pas en général: on souhaite mesurer lerisque d'erreur inhérent à toute inférence c'est-à-dire à toute extension des résultatsde l'échantillon à la population entière. Une partie du cours est consacrée à expliciterla nature du risque d'erreur et aux techniques permettant d'évaluer ce risque.

� ��� ����

La population apparaissant dans l'exemple du sondage est une population physiquedont l'existence est bien réelle; mais les procédures d'inférence sont d'application dèsle moment où on dispose d'une suite de valeurs observées, que ces valeurs soienteffectivement des réponses fournies par des individus d'un échantillon ou que cesvaleurs soient les résultats de mesures expérimentales par exemple. Dans ce derniercas, la population n'existe pas réellement, elle devient une notion abstraite (exemple:

Page 9: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Introduction

Statistiques Page 1-4

le nombre de tempêtes par an): on peut imaginer que la population est l'ensembledes mesures expérimentales possibles, tout se passant comme si ces mesures étaientrassemblées et que l'expérience réalisée consistait à en prendre quelques unes au"hasard". Il est évident que ces notions sont parfaitement formalisées de manière àfonder avec rigueur les méthodes statistiques; nous n'insisterons pas sur cet aspectdes statistiques et nous nous contenterons d'une vue simplifiée.

� � ������ ���� �����

� � �� ������� ��On appelle variables nominales des variables prenant des valeurs sur lesquelles onne peut faire ni des opérations arithmétiques, ni des comparaisons (en grandeur),comme par exemple une variable "classe sociale", une variable "sexe", etc.

L'échelle nominale est utilisée pour représenter des variables dont les catégories nesont pas naturellement ordonnées. En général, ces catégories sont représentées, poursimplifier la codification, par des nombres.

Exemples:� l'état civil� le sexe

� � �� �������� ��On appelle variables ordinales des variables prenant des valeurs sur lesquelles onpeut effectuer un classement, comme par exemple un classement de préférence, unclassement par juge, etc.

L'échelle ordinale est utilisée pour représenter des variables dont les catégories sontordonnées. Les différentes classes ou valeurs particulières sont en relation les unespar rapport aux autres. Cette relation peut s'exprimer en termes d'algèbre desinégalités; par exemple par des expressions: plus grand que, plus rapide que, moinsriche que. Les valeurs particulières d'une telle échelle sont non-quantitatives. Ilsindiquent uniquement une position dans une série ordonnée et non l'importance de ladifférence qui existe entre 2 positions successives de l'échelle.

Exemple:� aimer pas du tout/moyennement/beaucoup

� � �� ����� ��� ��On appelle variables cardinales des variables prenant des valeurs sur lesquelles onpeut effectuer des opérations arithmétiques (addition, soustraction, multiplication,division) et des classements.

Exemples:� salaire� distance

Page 10: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Introduction

Statistiques Page 1-5

� � �� ����������On appelle variables continues (cardinales) des variables prenant des valeurs quipeuvent être arbitrairement proches les unes des autres.L'échelle continue est une échelle sur laquelle il existe, entre 2 valeurs adjacentes,une infinité de valeurs. La mesure d'une variable continue est toujoursapproximative.

Exemples:� taille� masse� vitesse� longueur� temps

� � �� �����������Une variable qui prend un ensemble discret ou discontinu de valeurs.Sur de telles échelles où l'intervalle entre 2 valeurs consécutives est fixe et constant,on peut dire que la mesure faite est toujours exacte.

Exemples:� nombre de globules blances au centimètre carré� nombre d'enfants par famille

� ����������� ���Rappelons l'usage du signe de sommation:

X X X X Xn i

i

n

1 2 3

1

� � � � ��

�...

Dans le cas particulier où les X1, X2,... sont égaux à une même quantité X, ontrouve:

X n Xi

i

n

� �1

.

Un simple calcul montre que:

( ) .

( . ) .

X a X n a

c X c X

i

i

n

i

i

n

i i

i

n

i

n

� � �

� �

��

� �

��

1 1

11

Page 11: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Distribution des fréquences et diagrammes

Statistiques Page 2-1

2 ���������� ������ �� � �������� �

���������� ������ �� �

On considère une variable nominale ou discrète, par exemple l'âge d'un individu(variable discrète), le sexe d'un individu (variable nominale), sa région d'habitation(variable nominale),...

En regard de chaque valeur possible pour cette variable, on porte le nombred'individus de l'échantillon qui ont cette valeur.

Par exemple, voici un échantillon de 88 patients atteints d'une maladie spécifique;pour chacun de ces patients le service médical a attribué un degré de sévérité de lamaladie, ce degré de sévérité est compris entre 1 et 4 (il s'agit bien d'une variablediscrète, on peut même la qualifier d'ordinale). D'autres variables ont été prélevées:le nombre de jours passés à l'hôpital (DUJ), l'âge (AGE), le résultat de 6 tests(CARDIO, DOO, RXTH, RESPI, CUT, BIO tous codés par des chiffres.).

DUJ SEV AGE CARDIO DOO RXTH RESPI CUT BIO

1 9 3 91 0 0 3 0 0 72 5 3 83 1 3 0 3 2 13 3 2 82 1 3 2 2 0 14 11 2 81 1 1 2 0 2 25 7 1 80 1 3 2 0 0 16 9 1 80 1 3 1 0 0 17 13 3 79 1 3 3 2 0 38 12 1 79 1 3 2 0 0 19 19 3 78 1 3 2 3 0 410 29 2 78 1 3 2 0 0 211 16 3 76 1 3 2 2 0 312 13 2 76 1 3 2 2 0 113 21 3 75 1 3 2 3 0 214 30 3 74 1 3 2 3 0 215 25 2 74 1 2 1 0 0 216 11 2 73 1 2 2 2 0 117 7 2 73 1 3 2 0 0 218 20 3 73 1 0 3 0 0 219 11 1 72 1 3 1 0 0 2

Page 12: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Distribution des fréquences et diagrammes

Statistiques Page 2-2

DUJ SEV AGE CARDIO DOO RXTH RESPI CUT BIO

20 11 1 72 1 3 1 0 0 421 3 2 72 0 0 2 2 0 122 2 1 72 1 0 1 0 0 123 11 3 71 1 3 1 0 0 324 12 2 71 1 3 2 0 0 225 16 2 71 2 3 2 0 2 226 12 3 70 1 3 2 0 0 327 15 1 70 1 3 2 0 0 128 22 3 69 1 3 0 3 2 129 15 1 69 1 0 1 0 0 430 16 2 69 2 3 2 0 0 231 11 2 66 1 3 1 2 0 232 12 2 66 1 0 2 0 2 233 16 3 66 1 3 1 3 0 234 8 2 65 1 3 2 2 2 135 22 2 65 2 0 2 2 0 336 15 3 65 2 3 0 2 2 337 12 1 65 1 3 1 0 0 238 22 1 65 1 0 1 0 0 239 11 1 65 1 3 2 0 0 140 16 1 63 1 2 1 0 0 141 14 1 63 1 3 1 0 0 142 14 1 63 1 3 1 0 0 443 14 1 62 1 0 0 0 0 144 8 1 62 1 3 1 0 0 145 11 1 61 1 3 1 0 0 246 14 1 60 2 0 1 0 0 147 13 3 60 2 3 1 2 0 348 7 2 60 2 3 1 1 0 249 12 1 60 1 0 1 0 0 250 17 1 60 1 3 1 0 0 151 21 3 59 3 3 2 2 0 452 14 3 58 3 3 2 0 2 153 12 2 58 1 0 1 2 2 254 13 3 58 1 3 1 0 0 355 11 2 57 2 0 2 0 0 156 16 1 57 1 0 1 2 0 157 6 1 56 1 3 1 0 0 158 12 1 56 1 3 1 0 0 259 13 1 56 1 3 1 0 0 260 16 2 56 2 0 1 0 2 161 22 2 55 3 0 2 2 0 262 14 1 55 1 0 1 2 0 363 12 3 55 1 3 1 0 0 364 23 1 54 1 0 1 2 0 165 3 1 53 1 0 0 0 0 166 11 1 53 1 0 1 0 2 167 28 1 53 1 3 1 2 0 1

Page 13: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Distribution des fréquences et diagrammes

Statistiques Page 2-3

DUJ SEV AGE CARDIO DOO RXTH RESPI CUT BIO

68 13 3 52 1 3 1 2 2 369 18 1 52 1 0 1 0 0 370 11 1 52 1 0 1 0 2 471 13 2 52 1 2 1 2 0 272 3 3 51 3 0 0 0 0 373 6 4 51 4 0 2 0 0 474 11 1 51 1 2 1 0 0 475 12 2 51 2 3 1 2 0 476 10 3 51 2 3 1 0 2 377 15 1 50 1 3 1 0 0 478 12 2 50 1 0 0 0 0 279 12 1 49 1 0 1 0 0 180 19 4 49 4 3 1 0 0 481 14 1 49 4 3 1 0 2 182 15 2 49 2 0 1 0 2 483 15 3 48 1 3 1 0 0 384 10 2 46 1 0 1 2 2 185 9 2 44 1 0 1 2 0 286 8 1 43 1 0 1 0 0 187 7 3 40 1 3 1 0 0 388 8 1 38 1 3 1 0 0 1

Telles quelles, les données ne peuvent être facilement interprétées.

Comment se répartissent les degrés de sévérité? Pour le savoir on porte en regard dechaque degré le nombre de patients qui ont ce degré:

1 : 372 : 263 : 234 : 2

Mais il ne faut pas oublier que le nombre en face de chaque degré est un nombreabsolu (fréquence absolue): 37 sur 88 patients, 26 sur 88 etc.; donner ce tableau sansle préciser n'a guère de sens; on préfère donc donner en plus le pourcentage(fréquence relative): 37 sur 88 ou 42.05%. Pour être plus parlant, on trace une barrehorizontale (ou verticale) dont la longueur est proportionnelle au pourcentage.

Page 14: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Distribution des fréquences et diagrammes

Statistiques Page 2-4

Diagramme des fréquences absolues

37

26

23

2

0 5 10 15 20 25 30 35 40

1

2

3

4

SE

V

Nbre patients

On pourrait se poser la question suivante: "dans l'échantillon 42.05% des individusont une gravité 1, ce pourcentage se modifie-t-il suivant les résultats du test BIO?"

Pour tenter de répondre à cette question, on peut reproduire le graphique précédentpour chaque valeur de la variable BIO (c’est-à-dire pour chaque résultat du testBIO):

Diagramme des fréquences absolues par valeur de SEV

0 5 10 15 20 25

1

2

3

4

7

BIO

Nbre patients

4

3

2

1

Il semble bien qu'au sein de l'échantillon la réponse soit positive; pour étendre cetteréponse au sein de la population, il faut quitter le domaine des statistiquesdescriptives et se tourner vers le chapitre consacré à l'inférence.

Page 15: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Distribution des fréquences et diagrammes

Statistiques Page 2-5

On présente souvent de tels graphiques verticalement: voilà ce qu'il donne pour lavariable AGE:

Diagramme des fréquences absolues

0

1

2

3

4

5

6

7

38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98

Age

A l'aide d'un tel graphique, on voit clairement comment se distribuent les fréquencesrelatives (graphique de la distribution des fréquences en "tuyau d'orgue" ouhistogramme des fréquences).

Le graphique est encore plus parlant lorsqu'on groupe les valeurs prises par lavariable AGE:

Page 16: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Distribution des fréquences et diagrammes

Statistiques Page 2-6

Diagramme des fréquences absoluesDonnées groupées

0

2

4

6

8

10

12

14

16

Classes d'âges

[ -44] [45-49] [50-54] [55-59] [60-64] [65-69] [70-74] [75-79] [80- ]

Densité des fré quences�fré quence

é tendue

En partant d'une distribution des fréquences (relatives) regroupées en classe, ondéfinit la densité des fréquences c’est-à-dire la proportion de la distribution par unitéd'étendue de la classe; la densité des fréquences est donc un quotient: fréquencedivisée par une étendue. Si on se donne une densité de fréquence, on retrouve leseffectifs en multipliant la densité (l'ordonnée) par l'étendue (l'abscisse): ainsi dans lecas des densités des fréquences, ce sont les aires qui représentent des effectifs et nonles ordonnées.

�������� ���������

Soient Xl, X2, X3,... ,Xn, les n valeurs observées d'une variable ordinale (ou ordinaleou moins). La fonction de répartition Fn(x) (x réel quelconque) est la fonctiondéfinie par:

F xnbreX

nn

i X( ) �

C'est une fonction en escalier dont les marches sont situées aux points Xi (i=1,2,...,n)et dont la hauteur des marches est le nombre de Xi plus petits ou égaux à x divisépar n.

Cette fonction dont le rôle théorique est fondamental "parle" moins que ladistribution des fréquences.

Page 17: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Distribution des fréquences et diagrammes

Statistiques Page 2-7

La dernière colonne du tableau suivant donne la valeur de la fonction de répartitionaux points Xi (Xl = l, X2 = 2, X3 = 3 et X4 = 4 seules valeurs distinctes observées) dela variable SEV de l'exemple précédent (la première colonne reprend les fréquencesabsolues, la 2e ces fréquences cumulées, la 3e les fréquences relatives (en pourcent)et la 4e ces fréquences cumulées ou la fonction de répartition):

SEV

Fréq.abs.

Fréq. abs.cum.

Fréq.rel.

Fréq.rel.cum.

1 37 37 42.05 42.052 26 63 29.55 71.593 23 86 26.14 97.734 2 88 2.27 100.00

Voici une représentation de la fonction de répartition pour la variable AGE:

Diagramme des fréquences relatives cumuléesou fonction de répartition

0.0%

20.0%

40.0%

60.0%

80.0%

100.0%

120.0%

38 48 58 68 78 88 98 108

Age

���� �� ���� �������

Il existe bien d'autres représentations que celle des diagrammes en "tuyau d'orgues",comme celle-ci donnant la répartition des valeurs de DUJ au sein de l'échantillonsous forme de "quartier de tarte":

Page 18: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Distribution des fréquences et diagrammes

Statistiques Page 2-8

Répartition des valeurs de DUJDuj 35% Duj 6

3%Duj 75%

Duj 83%

Duj 93%

Duj 1114%

Duj 1214%

Duj 138%

Duj 148%

Duj 157%

Duj 168%

Duj 225%

Autres17%

Il est impossible de citer tous les graphiques possibles: diagrammes en ascenseurs,en building, nuages de points, etc.

Page 19: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Quantiles

Statistiques Page 3-1

3 ����� � �����������

On voudrait pouvoir répondre à des questions du type:

� "en Belgique, une personne sur 2 a moins de quel âge?"� “9 personnes sur 10 ont moins de quel âge?"

Reprenons l'exemple du chapitre 2 pour voir comment répondre à ces deuxquestions. Dressons le tableau des fréquences absolues, des fréquences relativesexprimées en %, les fréquences absolues cumulées et les fréquences relativescumulées exprimées en % (ou la fonction de répartition).

Page 20: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Quantiles

Statistiques Page 3-2

Age Fréquences Fréquences Fréquences Fréquencesabsolues relatives absolues relatives

cumulées cumulées38 1 1.1% 1 1.1%40 1 1.1% 2 2.3%43 1 1.1% 3 3.4%44 1 1.1% 4 4.5%46 1 1.1% 5 5.7%48 1 1.1% 6 6.8%49 4 4.5% 10 11.4%50 2 2.3% 12 13.6%51 5 5.7% 17 19.3%52 4 4.5% 21 23.9%53 3 3.4% 24 27.3%54 1 1.1% 25 28.4%55 3 3.4% 28 31.8%56 4 4.5% 32 36.4%57 2 2.3% 34 38.6%58 3 3.4% 37 42.0%59 1 1.1% 38 43.2%60 5 5.7% 43 48.9%61 1 1.1% 44 50.0%62 2 2.3% 46 52.3%63 3 3.4% 49 55.7%65 6 6.8% 55 62.5%66 3 3.4% 58 65.9%69 3 3.4% 61 69.3%70 2 2.3% 63 71.6%71 3 3.4% 66 75.0%72 4 4.5% 70 79.5%73 3 3.4% 73 83.0%74 2 2.3% 75 85.2%75 1 1.1% 76 86.4%76 2 2.3% 78 88.6%78 2 2.3% 80 90.9%79 2 2.3% 82 93.2%80 2 2.3% 84 95.5%81 1 1.1% 85 96.6%82 1 1.1% 86 97.7%83 1 1.1% 87 98.9%91 1 1.1% 88 100.0%

On lit dans ce tableau que, par exemple:� il y a 1 personne ayant 48 ans soit 1.1% de l'échantillon� il y a 6 personnes ayant moins de 48 ans soit 6.8% de l'échantillon� il y a 3 personnes ayant 53 ans (soit 3.4% de l'échantillon)� il y a 24 personnes ayant moins de 53 soit 27.3% de l'échantillon.

Pour déterminer l'âge A tel qu'il y ait une personne sur 2 soit 50% de l'échantillonayant moins de A ans, cherchons l'âge pour lequel on a 50% dans la dernièrecolonne; on trouve A=61 ans ce qui répond à la première question.

Pour répondre à la deuxième question, cherchons dans la dernière colonne 90%. A76 ans on a 88.6% et à 78 ans on a 90.9%; la réponse est donc un âge entre 76 et 78

Page 21: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Quantiles

Statistiques Page 3-3

ans, mais l'échantillon ne permet pas de répondre plus précisément (non unicité de laréponse); pour donner toutefois une seule réponse (un seul âge), on a coutumed'interpoler linéairement entre 76 et 78 ans;

A ans� � ��

��76 2

90 0 88 6

90 9 88 677 2

( . . )

( . . ).

On voit que pour répondre à des questions du type étudié, il faut "inverser" lafonction de répartition (en levant les indéterminations éventuelles).

�������

Grosso-modo, on veut définir une valeur Qp de la variable qui partage l'échantillonen deux parties: la première partie contient ceux qui ont une valeur de la variableinférieure à Qp, cette partie contenant p% des individus, et la deuxième contientceux dont la variable est supérieure à Qp, cette partie contenant (1-p)% desindividus.

Qp est un quantile d'ordre p (0 � p � 1) si:

Nbre X Q

np

Nbre X Q

n

i p i p�� �

Les quantiles sont des mesures de position qui ne tentent pas de déterminer le centred'une distribution d'observations, mais de décrire une position particulière.Cette notion est une extension du concept de la médiane (qui divise une distributiond'observations en 2 parties).

Le calcul des quantiles n'a de sens que pour une variable quantitative pouvantprendre des valeurs sur un intervalle déterminé.

����� � ����� �

Les quartiles divisent l'ensemble des observations en 4 parties.Les cas particuliers p = 25%, p = 50%, p = 75% définissent les quartiles; ledeuxième quartile (p = 50%) est appelé la médiane.

Il y a 1 individu sur 2 dont la valeur de la variable est comprise entre Q25 et Q75.

Les déciles divisent l'ensemble des observations en 10 parties.Les cas particuliers p = 10%, p = 20%, .... p = 90% définissent les déciles.

Page 22: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Mesures de tendance centrale

Statistiques Page 4-1

4 ! ��� �� � ����� � �����

�����������

Une mesure de tendance centrale permet de résumer un ensemble de données relativesà une variable quantitative. Plus précisément, elle permet de déterminer une valeurfixe, appelée valeur centrale, autour de laquelle l'ensemble des données à tendance àse rassembler.

Supposons que les valeurs observées X1, X2,...; Xn soient cardinales et reportons-lessur un axe:

--+-------*--*-*-*-***--*--------------------->

Intuitivement et à l'oeil, on situerait le "centre" de ces points:

--+-------*--*-*-*O***--*--------------------->

Comment traduire cette intuition à l'aide d'une expression liant les X1, ..., Xn ?

� ��� �� ��� �� � ����� � �����

� � ������� �����������

La moyenne arithmétique est définie par l'expression suivante:

XX X X

n

X

n

ni

i

n

�� � �

� �

�1 2 1...

La moyenne arithmétique:� dépend de la valeur de toutes les observations� est fréquemment utilisée comme estimateur de la moyenne de la population� peut voir sa valeur faussée par des données aberrantes

Page 23: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Mesures de tendance centrale

Statistiques Page 4-2

� la somme des écarts au carré entre chaque observation Xi d'un ensemble dedonnées et une valeur � est minimale lorsque � est égale à la moyennearithmétique.

min ( )�

� �X moyenne arithm tiqueii

n

� ��

�2

1

é

� � �������� �������

La moyenne harmonique est définie par l'expression suivante:

mn

x

h

ii

n�

�1

1

Exemple d'utilisation: calcul de la vitesse moyenne

� � ������������������

La moyenne géométrique est définie par l'expression suivante:

m X

X X X

g ii

n

n

nn

� � �

� � � � �

( )

( ).( )....( )

1 1

1 1 1 1

1

1 2

Exemple d'utilisation: taux de croissance moyen

� � ����� �

La médiane est:

� le deuxième quartile Q50

� est facile à déterminer puisqu'elle n'exige qu'un classement des données� n'est pas influencée par des observations aberrantes� est utilisée comme estimateur de la valeur centrale d'une distribution notamment

lorsque celle-ci est asymétrique ou qu'elle comporte des données aberrantes� la somme des écarts en valeur absolue entre chaque observation Xi d'un ensemble

de données et une valeur � est minimale lorsque � est égale à la médiane.

min�

� �X mé dianeii

n

� ��

�1

� �������

Le mode est:

� la valeur observée la plus fréquente

Page 24: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Mesures de tendance centrale

Statistiques Page 4-3

� on remarque que le mode n'est pas toujours univoquement défini: il peut y avoirzéro ou plusieurs modes dans un ensemble de données

"��������

� ����������� � ��������������� ������ �����������

L'écart de chaque observation Xi à la moyenne X est X Xi � ; cet écart est tantôtpositif, tantôt négatif, plus ou moins grand suivant la valeur de Xi, mais la propriété

qui caractérise X ( X est la seule quantité qui en jouit) est que la somme de cesécarts est nulle:

( ) ( ) ... ( )

( )

X X X X X X

X X

n

ii

n

1 2

1

0

0

� � � � � � �

� ��

La démonstration de cette propriété est simple.

� �������������������������� ��������������

Que devient le "centre" de la distribution déterminé à l'œil, si on effectue unchangement d'origine, ou une translation ou si on rajoute une constante identique àtoutes les observations ?Intuitivement, le "centre" de la distribution doit "suivre" la transformation(changement d'origine ou translation) car celle-ci ne perturbe pas la position relativedes points observés.On peut vérifier facilement que les trois mesures de tendance centrale introduitesvérifient cette propriété: si Yi = Xi + B alors la mesure de tendance centrale des Yi

est égale à celle des Xi plus B.

� !��"���������������������

On peut se poser la même question avec un changement d'échelle, un changementd'origine.On vérifie que si Yi = A * X i alors la mesure de tendance centrale des Yi est égale àcelle des Xi multiplié par A.

Pour résumer ces deux propriétés: "on peut effectuer un changement d'origine ou unchangement d'unité puis calculer une mesure de tendance centrale ou, de manière

Page 25: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Mesures de tendance centrale

Statistiques Page 4-4

équivalente, calculer la mesure de tendance centrale puis effectuer le changementd'origine ou le changement d'unité sur la mesure de tendance centrale."

� ��� ���������� ����������� ����� �

Il n'existe pas de lien systématique entre la moyenne et la médiane; cependant si:

� la moyenne est supérieure à la médiane, on dit que la distribution des valeursobservées présente une dissymétrie positive

� la moyenne est inférieure à la médiane, on dit que la distribution des valeursobservées présente une dissymétrie négative

� la moyenne est égale à la médiane, on dit que la distribution des valeursobservées est symétrique

En effet, si la moyenne X est plus grande que la médiane MED, on a:

MED X

X X X MED i n

X X X MED

X MED

i i

ii

n

ii

n

ii

n

� � �

� � �

� �

� �

� �

( = , ,..., )1 2

0

1 1

1

( ) ( )

( )

en d'autres termes, les écarts positifs l'emportent en grandeur (il y a autant de Xi-MED positifs que négatifs) sur les écarts négatifs.

Page 26: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Mesures de dispersion

Statistiques Page 5-1

5 ! ��� �� ��� ���� �����������

Supposons que les valeurs observées Xl, X2, ..., Xn soient cardinales et reportons-lessur axes avec une mesure de tendance centrale marquée 0:

----+------ *--*-*-*O***--* --------------------->

Voici d'autres valeurs observées en même nombre et de même mesure de tendancecentrale:

--*-+---*---*---*---O--*--*--*------*----------->

Dans le premier cas toutes les valeurs sont concentrées autour de la mesure detendance centrale, et dans le deuxième cas, elles sont très étalées autour de cettemesure. Voyons comment traduire celà dans une expression liant les X1, X2, ..., Xn.

� ��� �� ��� �� ��� ����

On peut classer les mesures de dispersion en 2 groupes:� les mesures définies par la distance entre 2 valeurs représentatives de la

distribution� les mesures calculées en fonction des déviations de chaque donnée par rapport à

une valeur centrale

� �#������

L'étendue est la différence entre la plus grande et la plus petite des observations.

Etendue X X� �max min

� �#����$ ��������%�� �����

L'intervalle inter-quartile est la différence entre le troisième et le premier quartile:Q75-Q25.

Page 27: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Mesures de dispersion

Statistiques Page 5-2

Il correspond donc à l'intervalle comprenant 50% des observations les plus au centrede la distribution.

L'intervalle inter-quartile est une mesure de dispersion qui ne dépend pas du nombred'observations, cette mesure est nettement moins sensible aux observationsaberrantes.

� �#�� �������� ����

Comme son nom l'indique, l'écart moyen absolu est la moyenne des écarts à lamoyenne pris en valeur absolue:

Ecart moyen absolu��

� X X

n

i

i

n

1

� � �$ �� ��

On définit la variance comme la moyenne des carrés des écarts à la moyenne:

� ��

2

2

1�

��

� X X

n

i

i

n

� �#�� ��%����

L'écart-type � est la racine carrée de la variance. L'écart-type s'exprime dans lesmêmes unités que les Xi, contrairement à la variance.

� �

��

2

2

1

( )X X

n

ii

n

L'écart-type est généralement noté � lorsqu'il est relatif à une population et slorsqu'il est relatif à un échantillon.

"��������

� �������������� �$ �� ��

On peut démontrer la relation suivante:

Page 28: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Mesures de dispersion

Statistiques Page 5-3

� � � � � �X U X X n X U

U quelconque

i

i

n

i

i

n

� � � � �� �

� �2

1

2

1

2.

En d'autres termes: la somme des carrés des écarts des observations à une valeurquelconque U est égale à la somme des carrés des écarts à la moyenne plus n fois le

carré de l'écart de U à X

De cette relation, on déduit, en divisant par n et en prenant U=0, que:

1 1

1

1

1

2

1

2

1

2

2

1

2 2

2

1

2 2

2 2 2

nX U

nX X X U

nX U X U

nX X

nX X

ii

n

ii

n

ii

n

ii

n

i

. ( ) . ( ) ( )

. ( ) ( )

.

.

� � � � �

� � � �

� �

� �

� �

� �

Si U 0

expression permettant de calculer la variance à partir de la somme des carrés et de lamoyenne.

De la relation citée, se déduit aussi une propriété liant la moyenne et la variance: lasomme des carrés des écarts prend sa plus petite valeur avec la moyenne, ceminimum, divisé par n, est la variance.

� �������������������������� �"����������������

Si on effectue une translation sur les Xi, ou un changement d'origine, la dispersionne change pas; qu'en est-il pour les mesures de dispersion ? On vérifie facilementqu'elles ne sont pas affectées par cette transformation (par exemple, l'écart-type desYi avec Yi= Xi+B est égal à l'écart-type des Xi).

� !��"���������������������

Par contre, si on effectue un changement d'unité, la dispersion est affectée; on vérifieque les mesures de dispersion "suivent" le changement d'unité: si Yi = A.Xi alors lamesure de dispersion des Yi est égale à celle des Xi multipliée par A.

Page 29: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-1

6 ������������� ������� ������������������

� �� ��� ���

On considère deux variables nominales ou ordinales (mais pas cardinales). Ondésire mesurer de quelle manière la première variable appelée variable indépendanteinfluence la deuxième variable appelée variable dépendante.

La variable dépendante dans un modèle d'analyse de régression est la variableconsidérée comme variant en fonction d'autres variables de l'analyse.On appelle variable indépendante dans un modèle de régression la ou les variablesqui sont considérées comme exerçant une influence sur la variable dépendante ouqui expliquent les variations de la variable dépendante.

Les exemples sont multiples:

var.indépendante

var.dépendante

situationfamiliale

réussitescolaire

classe d'âges performancesalaire choix politique

� ������������ ������

Contingence signifie dépendance. De sorte qu'un tableau de contingence est toutsimplement un tableau qui montre comment une caractéristique dépend de l'autre.

On a relevé le niveau scolaire (variable dépendante) et le statut du père (variableindépendante) de 200 enfants. Le niveau scolaire est codé D1, D2 et le statut du pèreI1, I2, I3, I4. On regroupe les résultats dans un tableau

Page 30: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-3

I1 I2 I3 I4 TotalD1 21 60 11 6 98D2 14 65 4 19 102Total 35 125 15 25 200

Il y a donc 21 enfants dont le niveau scolaire est D1 et le statut du père I1; il y 98enfants de niveau D1, 125 enfants dont le statut du père est I2. Les totaux en lignes etcolonnes sont appelés totaux marginaux. Tel quel ce tableau n'est pas parlant: onrajoute les fréquences relatives (en pourcent du total global, 200 dans l'exemple):

I1 I2 I3 I4 TotalD1 21

10.50 %60

30.00%11

5.50 %6

3.00 %98

49.00 %D2 14

7.00 %65

32.50 %4

2.00 %19

9.50 %102

51.00 %Total 35

17.50 %125

62.50 %15

7.50 %25

12.50 %200

Parce que plus parlant sur la nature des dépendances éventuelles, on rajoute lesfréquences relatives en pourcent des totaux marginaux lignes et colonnes (dans lacellule D1,I1: 21.43%=21/98 et 60.00%=21/35, etc):

I1 I2 I3 I4 TotalD1 21

10.50%21.43%60.00%

6030.00%61.22%48.00%

115.50%

11.22%73.33%

63.00%6.11%

24.00%

9849.00%

D2 147.0%

13.73%40.00%

6532.50%63.70%52.00%

42.00%3.92%

26.27%

199.50%

18.63%76.00%

10251.00%

Total 3517.50%

12562.50%

157.50%

2512.50%

200

On observe par exemple que:� dans l'échantillon, il y a 49.00% d'enfants au niveau D1 et 51.00% au niveau D2� si le statut du père est de I1, 60% des enfants sont au niveau D1

� en revanche si le statut du père est I4, 24% des enfants sont au niveau D1

� parmi les enfants qui sont au niveau D2, 3.92% ont un père de statut I3

Page 31: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-3

� �������������������������� �

Sans tenir compte de la variable indépendante, la valeur la plus fréquente de lavariable dépendante est D2 dans l'exemple avec 102 enfants (98 n'ont pas cettevaleur).

En tenant compte de la variable indépendante (c’est-à-dire par statut du père), lavaleur la plus fréquente n'est pas toujours D1:

Statut dupère

Niveau le plusfréquent

I1 D1

I2 D2

I3 D1

I4 D2

On peut affirmer que 98 enfants n'ont pas le niveau le plus fréquent. Comment cetteaffirmation s'affine-t-elle en tenant compte de la variable indépendante (du statut dupère):

Statut dupère

Niveau le plusfréquent

échappent

I1 D1 14I2 D2 60I3 D1 4I4 D2 6

84

On passe de 98 à 84, soit un gain relatif de

� �98 84

9814 3%

�� .

On appelle LAMBDA (�) cette mesure de dépendance calculée sur l'exemple.

Citons quelques propriétés de �:

� 0 1� ��

� En toute généralité, on ne peut pas permuter le rôle des variables indépendante etdépendante sans changer la valeur de �.

Interprétons les valeurs possibles de �

� � est presque nulle: les individus n'ayant pas la valeur la plus fréquente sont aussinombreux que l'on précise ou non les valeurs prises par la variable indépendante,

Page 32: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-4

cette variable n'apporte pas beaucoup d'information en liaison avec la variabledépendante, donc la dépendance est faible.

� � est proche de 1: le nombre d'individus n'ayant pas la valeur de la variabledépendante la plus fréquente change beaucoup si l'on précise les valeurs prisespar la variable indépendante: elle apporte beaucoup d'informations en liaisonavec la variable dépendante, donc la dépendance est forte.

Remarquons que la mesure � est "aveugle" à certaines dépendances; l'exemplesuivant illustre ce cas “pathologique”:

I1 I2 I3 I4 TotalD1 23 54 21 31 128D2 22 1 19 29 72Total 45 55 40 60 200

Il est facile de voir que � est nul (la valeur la plus fréquente est toujours D1)cependant il existe une dépendance manifeste: “Si le statut est I2 alors le niveau estquasi toujours D1”.

� �������������

On peut montrer qu'il est équivalent de calculer � suivant ce qui a été décrit dansl'exemple ou par l'expression suivante:

� �� �� �

�max( , ,..., ) max( , ,..., )

max( , ,..., )

. . .

.. . . .

n n n n n n

n n n n

J J Ij i

I

1 2 1 2

1 2

où les nij , ni. et n.. sont les fréquences absolues et totaux marginaux du tableau decontingence:

1 2 ... J Total1 n11 n12 ... n1J n1.

2 n21 n22 ... n2J n2.

...i ni1 ni2 ... niJ ni.

...I nI1 nI2 ... nIJ nI.

Total n.1 n.2 ... n.J n..

Page 33: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-5

� �������������������������� �

Définissons une mesure de dépendance entre deux variables ordinales. Pour cefaire, on définit d'abord la notion de paires d'individus concordante et discordante .

Pour chaque individu on observe deux variables X et Y; pour l'individu i X prend lavaleur Xi et Y la valeur Yi. Comparons les individus i et j quant à leurs variables Xet Y:

- on dit que “i est concordant avec j” si et seulement si:

[X i < Xj et Yi < Yj] ou [Xi > Xj et Yi > Yj]

- on dit que “i est discordant avec j” si et seulement si:

[X i < Xj et Yi > Yj] ou [Xi > Xj et Yi < Yj]

Bien sûr il existe des paires d'individus ni concordantes ni discordantes.

Si on remarque que le nombre de paires concordantes domine, on peut suspecter unedépendance du type "si X est grand alors Y est grand"; de même, si le nombre depaires discordantes domine, on peut suspecter une dépendance du type "si X estgrand alors Y est petit"; finalement si le nombre de paires concordantes est du mêmeordre de grandeur que le nombre de paires discordantes, on ne peut affirmer l'une oul'autre des 2 propositions.

D'où l'idée de la mesure de dépendance � (Gamma)

� ��

C D

C Coù

C nb concordants

D nb discordants

.

.

Citons quelques propriétés de �:

� -1 � � � +1Le signe de � s'interprète: positif si les concordants dominent, négatif dans le cascontraire.

� On peut inverser le rôle de X et de Y sans changer la valeur de �

Page 34: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-6

� �������������

Prenons un exemple pour illustrer la démarche à suivre.

Déterminons le nombre de concordants.

\ XY \

- 0 +

+ 1 4 100 5 30 2- 20 6 2

On commence par la dernière ligne du tableau (Y=-) première colonne (X=-). Quelssont les individus concordants avec ces 20 individus? Ceux en italique:

\ XY \

- 0 +

+ 1 4 (*) 10 (*)0 5 30 (*) 2 (*)- 20 (°) 6 2

En effet on a30 individus avec [X*=0 > X°=- et Y*=0 > Y°=-]2 individus avec [X*=+ > X°=- et Y*=0 > Y°=-]4 individus avec [X*=0 > X°=- et Y*=+ > Y°=-]

10 individus avec [X*=+ > X°=- et Y*=+ > Y°=-] 46 individus concordants avec les 20 soient 46 * 20 = 920 paires

On poursuit par la dernière ligne du tableau (Y=-) deuxième colonne (X=0). Quelssont les individus concordants avec ces 6 individus ? Ceux en italique:

\ XY \

- 0 +

+ 1 4 10 (*)0 5 30 2 (*)- 20 6 (°) 2

En effet on a2 individus avec [X*=+ > X°=0 et Y*=0 > Y°=-]

10 individus avec [X*=+ > X°=0 et Y*=+ > Y°=-] 12 individus concordants avec les 6 soient 12 * 6 = 72 paires

On poursuit par la dernière ligne du tableau (Y=-) troisième colonne (X=+). Quelssont les individus concordants avec ces 6 individus ? Il n'en existe pas.

Page 35: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-7

\ XY \

- 0 +

+ 1 4 100 5 30 2- 20 6 2

On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quelssont les individus concordants avec ces 5 individus ? Ceux en italique:

\ XY \

- 0 +

+ 1 4 (*) 10 (*)0 5 (°) 30 2- 20 6 2

En effet on a4 individus avec [X*=0 > X°=- et Y*=+ > Y°=0]

10 individus avec [X*=+ > X°=- et Y*=+ > Y°=0] 14 individus concordants avec les 5 soient 14 * 5 = 70 paires

On poursuit par la deuxième ligne du tableau (Y=0), deuxième colonne (X=0).Quels sont les individus concordants avec ces 30 individus ? Ceux en italique:

\ XY \

- 0 +

+ 1 4 10 (*)0 5 30 (°) 2- 20 6 2

En effet on a:10 individus avec [X*=+ > X°=0 et Y*=+ > Y°=0]

10 individus concordants avec les 30 soient 30 * 10 = 300 paires

Au total 920 + 72 + 70 + 300 = 1362 paires concordantes.

Déterminons le nombre de paires discordantes.On commence par la première ligne du tableau (Y=+) première colonne (X=-).Quels sont les individus discordants avec cet individu? Ceux en italique:

\ XY \

- 0 +

+ 1 (°) 4 100 5 30 (*) 2 (*)- 20 6 (*) 2 (*)

Page 36: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-8

Page 37: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-9

En effet on a:

30 individus avec [X*=0 > X°=- et Y*=0 > Y°=+]2 individus avec [X*=+ > X°=- et Y*=0 > Y°=+]6 individus avec [X*=0 > X°=- et Y*=+ > Y°=+]2 individus avec [X*=+ > X°=- et Y*=+ > Y°=+]

40 individus discordants avec le 1 soient 40 * 1 = 40 paires

On poursuit par la première ligne du tableau (Y=+) deuxième colonne (X=0). Quelssont les individus discordants avec ces 4 individus. Ceux en italique:

\ XY \

- 0 +

+ 1 4 (°) 100 5 30 2 (*)- 20 6 2 (*)

En effet on a2 individus avec [X*=+ > X°=0 et Y*=0 > Y°=+]2 individus avec [X*=+ > X°=0 et Y*=+ > Y°=+]

4 individus discordants avec les 4 soient 4 * 4 = 16 paires

On poursuit par la première ligne du tableau (Y=0) troisième colonne (X=+). Quelssont les individus discordants avec ces 10 individus? Il n'en existe pas.

\ XY \

- 0 +

+ 1 4 100 5 30 2- 20 6 2

On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quelssont les individus discordants avec ces 5 individus? Ceux en italique:

\ XY \

- 0 +

+ 1 4 100 5 (°) 30 2- 20 6 (*) 2 (*)

En effet on a:6 individus avec [X*=0 > X°=- et Y*=- > Y°=0]2 individus avec [X*=+ > X°=- et Y*=- > Y°=0] 8 individus discordants avec les 5 soient 8 * 5 = 40 paires

Page 38: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-10

On poursuit par la deuxième ligne du tableau (Y=0) deuxième colonne (X=0). Quelssont les individus discordants avec ces 30 individus? Ceux en italique:

\ XY \

- 0 +

+ 1 4 100 5 30 (°) 2- 20 6 2 (*)

En effet on a:2 individus avec [X*=+ > X°=0 et Y*=- > Y°=0] 2 individus discordants avec Ïes 30 soient 2 * 30 = 60 paires

Au total 40 + 16 + 40 + 60 = 156 paires discordantes.

On a donc

� ��

��

1362 156

1362 15679 45%.

� ��������

� On perd dans l'analyse toutes les paires où Xi=Xj ou Yi=Yj. On peut introduire un� modifié en divisant par [nr. concordant + nr. disconcordant + EY], où EY est lenombre de paires avec [Xi<>Xj et Yi=Yj].

� ��

� �

C D

C D EY

� � est "aveugle" à certaines dépendances.

Page 39: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-10

� ������������������� ������������������������������������������

Considérons 2 variables cardinales (ou ordinales): X et Y. On désire mesurer ladépendance de Y (variable dépendante) en X (variable indépendante).

Pour fixer les idées, prenons l'exemple d'un échantillon de 11 observations où X estl'âge et Y le salaire:

Observation X Y1 36 1322 45 1503 37 1264 42 1605 55 1576 28 1007 25 958 30 1109 50 16010 49 14611 18 78

Si une petite valeur de X entraîne régulièrement une petite valeur pour Y, on peutaffirmer que Y dépend de X; il en va de même, si une petite valeur de X entraînerégulièrement une grande valeur pour Y. Par contre, si une petite valeur de Xentraîne indifféremment une grande ou une petite valeur de Y, on peut dire que Y nedépend pas de X.

Trions donc les valeurs de X par ordre croissant et de même pour les valeurs de Y.

Observation X Y Rangs des X Rangs des Y1 36 132 5 62 45 150 8 83 37 126 6 54 42 160 7 10.55 55 157 11 96 28 100 3 37 25 95 2 28 30 110 4 49 50 160 10 10.510 49 146 9 711 18 78 1 1

Note: si plusieurs données ont la même valeur, on utilise le rang moyen.

Page 40: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-11

Calculons la différence entre les rangs de X et ceux de Y.

Observation X Y Rx Ry Rx-Ry

1 36 132 5 6 -12 45 150 8 8 03 37 126 6 5 14 42 160 7 10.5 -3.55 55 157 11 9 26 28 100 3 3 07 25 95 2 2 08 30 110 4 4 09 50 160 10 10.5 -0.510 49 146 9 7 211 18 78 1 1 0

Il est vain de résumer ces 11 différences par une moyenne: elle vaut nécessairement0, en effet:

(5-6)+(8-8)+(6-5)+(7-10.5)+(11-9)+(3-3)+(2-2)+(4-4)+(10-10.5)+(9-7)+(1-1) =

5+8+6+7+11+3+2+4+10+9+1-6-8-5-10.5-9-3-2-4-10.5-7-1=

1+2+3+4+5+6+7+9+9+10+11-1-2-3-4-5-6-7-8-9-10.5-10.5 = 0

Prenons plutôt le carré des différences et sommons-les:

Observation X Y Rx Ry Rx-Ry (Rx-Ry)2

1 36 132 5 6 -1 12 45 150 8 8 0 03 37 126 6 5 1 14 42 160 7 10.50 -3.5 12.35 55 157 11 9 2 46 28 100 3 3 0 07 25 95 2 2 0 08 30 110 4 4 0 09 50 160 10 10.5 -0.5 0.310 49 146 9 7 2 411 18 78 1 1 0 0

24.6

On peut démontrer que D2 (toujours positif) prend une valeur maximale égale àn n.( )2 1

3

�,où n est le nombre d'observations.

On ramène cette quantité à une valeur comprise entre -1 et +1.

Page 41: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Tableaux de contingence et mesures de dépendance

Statistiques Page 6-6-12

01

3

01

3

1

03

11

06

12

1 0 16

11 2

1 16

11

2

1

2

2

12

2

12

2

12

2

12

2

12

� ��

��

��

��

� � ��

� �

� ��

� �

Dn n

D

n n

D

n n

D

n n

D

n n

D

n n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

n

.( )

.( )

.

.( )

.

.( )

.

.( )

.

.( )

On définit le coefficient de corrélation des rangs de Spearman par l'expression:

Rs

D

n n

D R R

ii

n

i x yi i

� ��

� �

�1

6

1

2

1

2

.

.( ² )

Dans l'exemple:

Rs� ��

� �� � �1

6 22 6

11 11² 11

1356

13200897

.

( )

..

Si Rs est proche de -1, ou de +1, la dépendance est forte, si Rs est proche de 0, ladépendance est faible.

Page 42: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Diagramme de Pareto et indice de concentration

Statistiques Page 7-1

7 ����������������� ��� ������������� �� ��

� ����������������� �

Les diagrammes de Pareto sont principalement utilisés dans le contexte des analysesqualitatives (cercles de qualité,...).

L'analyse de Pareto est une méthode simple permettant de séparer les causesmajeures d'un problème, des causes mineures. Le diagramme de Pareto permet dedistinguer d'emblée les premières causes, problèmes ou autres conditions.

Pareto énonça la règle des 80/20:� 80% des ventes sont attribuées à 20% des équipes de vente� 80% des effets résultent de 20% des causes� etc.

Considérons donc une variable nominale et calculons les fréquences relatives. Onappelle diagramme de Pareto le diagramme en bâtonnet des fréquences relatives, oùles valeurs de la variable sont classées par ordre décroissant des fréquences.

Prenons l’exemple suivant. Pendant 6 mois, on a dénombré 60 accidents à uncarrefour particulièrement dangereux les causes de ces accidents ont étéenregistrées:

Causes Fréquenceabsolue

dépassement 2mauvaise visibilité 8refus de priorité 12alcoolisme 2état du véhicule 11état de la route 1vitesse excessive 19autres causes 5

Le diagramme de Pareto est représenté ci-après. La fonction de répartition(fréquences relatives cumulées) est représentée sur le même graphique: lesordonnées des fréquences relatives (diagramme de Pareto) se lisent à gauche, cellesde la fonction de répartition à droite.

Page 43: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Diagramme de Pareto et indice de concentration

Statistiques Page 7-2

Sur le diagramme de Pareto se distingue d’emblée la première cause d’accident: lavitesse excessive (32% des cas); les 3 premières causes expliquent 70% desaccidents (le 3e bâtonnet de la fonction de répartition est à cette hauteur) et la quasi-totalité (90%) des accidents est expliquée par les 5 premières causes (cfr fonction derépartition).

Diagramme de Paretto

0%

20%

40%

60%

80%

100%

Vitesse Priorité Etat véh Visibilité Autres Dépass Alcool Etat route

Causes

Fréq. relatives

Fct répartition

En fait, le but du diagramme est de mettre en évidence (si les données lepermettent!) une répartition très déséquilibrée, c’est-à-dire une répartition où les 2ou 3 valeurs les plus fréquentes représentent la majorité de la distribution. Dans cecas, la hauteur des bâtonnets décroît très rapidement, ou, de manière équivalente, lafonction de répartition présente une forte concavité. Notons que a contrario, si toutesles valeurs de la variable ont la même fréquence (diagramme plat), la fonction derépartition présente des marches régulières le long d’une droite.

� ������������� �� ���������

Pour mesurer la concavité de la fonction de répartition ou pour mesurer ledéséquilibre de la répartition, observons le graphique suivant.

Page 44: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Diagramme de Pareto et indice de concentration

Statistiques Page 7-3

32%

52%

70%

83%92% 95% 98% 100%

0%

20%

40%

60%

80%

100%

Vitesse Priorité Etat véh Visibilité Autres Dépass Alcool Etat route

Causes

A B C D E F G

N

O

P

RS T U

On y a représenté la fonction de répartition avec la base des marches reliée par dessegments de droites (0N, NO, OP, PR,...) ainsi que la droite 0V. Rappelons qu’undiagramme de Pareto plat (répartition uniforme) possède une fonction de répartitiondont les marches s’échelonnent régulièrement le long de cette droite.

On introduit alors le coefficient de concentration de Gini défini comme étant lerapport entre l’aire du polygone 0N, NO, OP, ..., UV, V0 et l’aire du triangle rectangle0VH.

Calculons ces 2 aires:

L’aire du polygone se déduit par différence entre, d’une part, l’aire S1 du polygone0N, NO, OP, ..., UV, VH, H0 et, d’autre part, l’aire S2 du triangle 0VH.

L’aire S1 se décompose à son tour en 8 aires partielles S11, S12, S13, ..., S18

S11 est l’aire du triangle 0AN soit base hauteur�

2

Sd

11

0 32

2�

� .

où d est la base des bâtonnets

S12 est l’aire du trapèze ANOB soit hauteur� �( )grande base petite base

2

Sd

12

0 32 052

2�

� �( . . )

Semblablement, on a pour le trapèze BOPC:

Sd

13

052 0 70

2�

� �( . . )

et ainsi de suite pour S14, ..., S18

On a donc pour S1:

Page 45: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Diagramme de Pareto et indice de concentration

Statistiques Page 7-4

Sd d d d

Sd d d

S d

S d

1

1

1

1

32%.2

32% 52%).2

52% 70%).2

93% 100%).2

32%.2

2 52%.2

2 100%.2

32% 52%100%

2572

� � � � � � � �

� � � �

� � � �

� �

( ( ... (

. . ...

( ... ).

.

L’aire du triangle S2 se détermine facilement:

Sd

d2

8 100

24�

��

. ..

En rassemblant des résultats on déduit la valeur du coefficient de concentration deGini:

� ��S S

S1 2

2

Dans l'exemple:

Ginid d

d�

��

��

572 4

4

572 4

40 43

. . .

.

..

L’interprétation est simple:� une valeur du coefficient proche de 0 indique une distribution proche d’une

distribution uniforme. Il n'y a pas de concentration des données� une valeur du coefficient proche de 1 indique un déséquilibre important dans la

répartition, déséquilibre que veut mettre en évidence le diagramme de Pareto. Il ya concentration des données.

Page 46: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-1

8 ������������� ���� ���

� � ����� ��

Une loi de probabilité peut admettre deux fonctions: la première consiste à décrirede la façon la plus adéquate possible un mécanisme réel étudié (répartition dessalaires, répartition des âges, mesure de temps de réponses, etc), la deuxièmeconsiste à décrire le comportement des instruments techniques utilisés dans letraitement des données.

La première fonction est une fonction de modélisation: il s'agit de savoir si, parexemple, la durée de fonctionnement sans défaillance de tel appareil qu'on assimileà une variable aléatoire peut être décrit par telle loi de probabilité. La justificationde l'emploi de telle loi plutôt qu'une autre est en général propre au domaine étudié.En fait cette loi est rarement connue entièrement, il subsiste en général plusieursparamètres qui doivent être adaptés (estimés) au cas précis étudié. La loi avec sesparamètres inconnus (en fait il s'agit d'une famille de lois puisque chaque valeurassignée aux paramètres inconnus en définit une) est appelée loi théorique duphénomène étudié. La loi théorique est censée modéliser le phénomène étudié.

La deuxième fonction est interne à la statistique: elle décrit le comportement (la loide probabilité) de tel outil statistique (moyenne, variance, quantile, etc).La connaissance de ce comportement est fondamentale pour passer d'un stadedescriptif à un stade inférentiel. Le comportement (la loi de probabilité) de tel outilest en géneral lié à la loi théorique du phénomène étudié; cette dépendance pose unproblème: comme la loi du phénomène n'est pas connue entièrement (paramètresinconnus), le comportement des outils utilisés n'est pas non plus connu entièrement!Cependant, dans une vaste gamme de problèmes, la dépendance disparaît; il estnécessaire de connaître les conditions qui permettent de s'en assurer.

Il faut remarquer que certaines lois peuvent assumer les deux fonctions.

� ���������������� ������� ������������� ��

Nous allons passer en revue certaines distributions communément utilisées pourmodéliser certains phénomènes physiques.

Cette énumération est loin d'être exhaustive.

Page 47: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-2

� ��������������� ����

Une importante classe de variables aléatoires est induite par une suite d'expériencesaléatoires du type suivant: chaque observation fait apparaître (avec une probabilitép) ou non (avec une probabilité de 1-p) l'événement A; p reste constant, lesobservations sont mutuellement indépendantes et on effectue n observations.

Xi = 0 avec une probabilité pXi = 1 avec une probabilité (1 - p)

B n p Xii

n

( , ) ��

�1

La loi binomiale décrit la répartition du nombre total d'apparition X de l'événementA. Cette loi est étudiée en détail au cours de probabilité. Retenons ici, l'expressionde la densité:

P X i C p pin i n i[ . .( ) ( )� � � �] 1

où Cin est le coefficient binomial,

� � � �

� � � � � �

E X E X X X

E X E X E X

p p p

n p

n

n

� � � �

� � � �

� � � �

1 2

1 2

...

...

...

.

� �

� �� �

Var X Var X

n Var X

n E X E X

n p q p

n p p

n p p

ii

n

i

i i

��

� �

� � �

� �

� �

�1

2 2

2

2

11 0 0

1

. ( )

. ( ) ( ( ))

. ( . . . . )

.( )

. .( )

X = B(n,p) est la fréquence absolue de A, mais la fréquence relative

fX

n

B n p

n� �

( , ) n'est plus distribuée suivant une loi binomiale, mais

Page 48: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-3

E f EB n p

n

n p

np

Var fpq

n

p p

n

pq

n

p p

n

( )( , ) .

( ).( )

.( )

� ���

���� �

� � ��

� ��

2 1

1

A la lumière de l'expression de l'écart-type de f (sa dispersion), on peut dire que lafréquence relative:� voit sa dispersion diminuer avec n� se disperse de moins en moins autour de p, la probabilité d'apparition de

l'événement, quand n augmente� voit sa dispersion divisée par 2, 10 ou k (toutes autres choses restant égales) si le

nombre d'observations est multiplié par 4, 100 ou k2

� a une dispersion qui dépend de la probabilité d'apparition de l'événement A (avecun maximum de 1/(2n) en p = 0.5)

� a une moyenne de p

On peut rappeller les propriétés asymptotiques de la loi binomiale.

B n p np

npqNn( , )

( , )�

� ����� 0 1

� ���������������

Dans le même contexte que le point précédent, on peut s'intéresser au nombred'épreuves nécessaires pour que la fréquence absolue soit égale à k exactement: si onappelle X ce nombre, alors parmi les observations 1, 2, .... (X-1) on a (k-l) foisl'événement A et parmi les observations 1, 2, ..., X, on a k fois l'événement A.

On recherche le nombre d'échecs avant le k ième succès.

La loi de probabilité de X dépend de p et de k. L'expression analytique de cette loine nous intéresse pas directement, mais

E Xk

p

Var Xk p

p

( )

( ).( )

��12

Cette loi est appliquée à la statistique des accidents et des maladies, dans lesproblèmes d'analyse des quantités d'individus d'une espèce donnée contenus dans unéchantillon, etc.Souvent on ne connaît pas p, raison pour laquelle on monte une expérience pour endéterminer la valeur.

Page 49: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-4

� ����������������� ��

La loi de Poisson décrit le nombre d'apparitions pendant une unité de temps d'unévénement� dont la réalisation ne dépend pas du nombre de réalisations passées et n'influe pas

sur les futures (il y a indépendance entre des intervalles disjoints)� les épreuves se déroulant dans des conditions stationnaires.

Cette loi est étudiée en détail au cours de probabilités, retenons ici son expressionanalytique:

P X n en

n

[ .!

� � �] � �

où � est un paramètre,

E X

Var X

( )

( )

XN

����

�( , )0 1

Cette loi, dépendant d'un seul paramètre, décrit le nombre de pannes d'une chaîne oud'un système complexe par unité de temps (régime de croisière), le nombred'arrivées par unité de temps d'une station, les lois statistiques de sinistres, etc.Souvent on réalise un montage expérimental pour déterminer �.

� ������������� ����

Cette loi est capitale dans la théorie et la pratique des recherches statistiques. Sonrôle pratique peut être compris en se référant au théorème central limite qui permetd'affirmer que, si une variable continue dépend d'un très grand nombre de facteursaléatoires indépendants dont l'action est très petite et de caractère additif, alors cettevariable suit une loi normale (voir cours de probabilité pour une formulationrigoureuse de cette affirmation). Son rôle théorique découle du fait que la plupartdes statistiques utilisées sont (ou peuvent être approchées par) une somme devariables aléatoires remplissant les conditions du théorème central limite.

L'expression analytique de la loi normale est:

f x ex m

( ).

..

�� ��

��

1

2

1

2

2

� �

� �

� �

E X m

Var X

� � 2

Page 50: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-5

C'est une distribution unimodale, symétrique par rapport à m, de moyenne m etd'écart-type �. La loi normale dépend de deux paramètres: m et �. Lorsque m=0 et�=l, on a parle de loi normale centrée et réduite.

Le théorème central limite nous dit que:

N m mN

( , )( , )

�� 0 1

La fonction de répartition de la loi réduite �(x) = P[X � x] est tabulée. Parsymétrie, il suffit de construire une table pour les valeurs positives de x (�(-x) = 1 -�(x)). La fonction de répartition d'une loi normale non réduite F(x) se déduit de latable par la relation:

F xx m

( ) (( )

)��

��

La loi normale prend, avec une forte probabilité, des valeurs proches de sa moyenne,ce qui s'exprime par la règle des 3 �:

� �

� �

� �

P X m

P X m

P X m

� � � �

� � � �

� � � �

0 3173 3173%

2 0 0455 4 55%

3 0 0027 0 27%

. .

. . .

. . .

Il est donc "très rare" (dans moins de 5% des cas) qu'une normale s'écarte de samoyenne de plus de 2 fois son écart-type et "exceptionnel" (dans moins de 0,3 % descas) qu'elle s'écarte de plus de 3 écarts-types.

Il existe des liens entre les lois normale et binomiale, ces liens sont vu au cours deprobabilités.

Une somme de normales indépendantes (ou non) est distribuée suivant une loinormale; les moyennes s'additionnent, si les variables sont indépendantes, lesvariances (attention pas les écart-types !!) s'additionnent.

La loi normale est très souvent utilisée dans des domaines divers: économie,médecine, biologie, théories des erreurs, etc.

La loi normale est utilisée comme approximation de la loi chi-carrée, la loi t destudent, la loi binomiale et la loi de Poisson.

� ������������

Une variable aléatoire positive X suit une loi log-normale si son logarithme(népérien) suit une loi normale.

ln( ) ( , )X N m� �

Page 51: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-6

En d'autres termes, cette variable continue dépend d'un très grand nombre defacteurs aléatoires indépendants dont l'action est très petite et de caractèremultiplicatif (l'action du facteur est proportionnelle à la valeur déjà prise par lavariable au moment de cette action).

L'expression analytique de cette loi ne nous intéresse pas ici, retenons:

� que cette loi présente un seul mode� que le mode, la médiane et la moyenne se suivent dans cet ordre (dissymétrie

positive).

La loi log-normale dépend de deux paramètres: la moyenne et l'écart-type de lavariable normale.

La loi log-normale se rencontre en socio-économie, en physique des formationscosmiques, dans l'étude de la durée de vie des équipements, etc.

� �����������

Les lois "tronquées" se rencontrent assez souvent dans divers problèmes, ces loisdécrivent le comportement de populations "tronquées", c’est-à-dire dont on a retirétous les éléments en deça ou au-delà d'une certaine valeur x0. Cette situation peut sedécrire par une loi de Pareto dont la fonction de répartition est:

F xx

x( ) � �

���

���

1 0

où x > x0

Le mode est en x0. Cette loi dépend de deux paramètres x0 et �.

� �����������

La loi exponentielle est la seule loi jouissant de la propriété suivante: la probabilitéque la variable soit comprise entre x et x+a sachant qu'elle est supérieure à x nedépend pas de x mais de a seulement. Par exemple, si cette variable modélise ladurée de vie d'un équipement, la distribution de la durée de vie de cet équipement audelà de t sachant que cet équipement a fonctionné jusqu'en t est indépendante de t.On appelle cette propriété “propriété d'oubli”.

La forme analytique de la densité de probabilité d'une exponentielle est:

� �f x e

x

x( ) .�

��

avec

0

0

Page 52: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-7

Cette distribution dépend d'un paramètre �. On a aussi:

E X

Var X

( )

( )

1

12

La distribution exponentielle décrit également la distribution de l'intervalle de tempsséparant la réalisation successive de 2 événements qui suivent une loi de Poisson.

La loi exponentielle se rencontre dans l'étude des files d'attente, en fiabilité, etc.

� ������ ������������������������ � �� �����

� ���������

Voir plus haut.

� �������������������������������

Cette loi apparaît naturellement dans l'étude de la distribution de probabilité de lavariance calculée sur un échantillon suivant une loi normale.

Donnons ici la définition de la loi Chi-carrée: la loi Chi-carrée à n degrés de libertéest la loi d'une somme de n variables normales réduites indépendantes au carré.

� ( ) ( , )ni

n

N��

� 2

1

0 1

Cette loi dépend d'un seul paramètre, le nombre de degrés de liberté.

� � �( ) ( ) ( )x y x y� � �2 2 2

Une somme de Chi-carrée est distribuée suivant une Chi-carrée, les degrés de libertés'additionnant.

Les quantiles de cette distribution sont tabulés (tables à double entrée: l'ordre duquantile et le nombre de degrés de liberté).

L'expression analytique de la densité ne nous intéresse pas, retenons que;

E n

Var nn

n

( )

( )

� 2

Page 53: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-8

Cette loi est unimodale et présente une dissymétrie positive.

2 2 1 130� n

n N n�� ��� �( , )

Pour n suffisamment grand, la variable 2� est approximativement normale de

moyenne 2 1n� et d'écart-type 1 (approximation valable pour n > 30).

� ���������� ���������������������

Cette loi est liée à la distribution des écarts entre la moyenne théorique et lamoyenne calculée sur un échantillon issu d'une population normale.

tN

n

n

n

�( , )0 1

2�

La définition est la suivante, la loi t de Student à n degrés de liberté est ladistribution du quotient d'une loi normale centrée réduite par la racine carrée d'uneChi-carrée divisée par son degré de liberté n; normale et Chi-carrée étantindépendantes.

Cette loi ne dépend que d'un seul paramètre n.

Les quantiles de cette distribution sont tabulés (table à double entrée: l'ordre duquantile et le nombre de degrés de liberté).

L'expression analytique de la densité ne nous intéresse pas, retenons que:

E t

Var tn

n

( )

( )

��

0

1

Cette loi est unimodale et symétrique par rapport à 0.

t Nnn�� ���30 0 1( , )

Pour n suffisamment grand, la variable t est approximativement normale demoyenne 0 et d'écart-type 1 (approximation valable pour n > 30).

� ������!���!���������������������������

Cette distribution est liée à la comparaison de deux variances.

Fn

n

n n

n

n1 2

1

2

1

2

, �

Page 54: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-9

La définition est la suivante, une loi F de Fisher à nl et n2 degrés de liberté est ladistribution du quotient de 2 Chi-carrées indépendantes à nl et n2 degrés de libertédivisées par leurs degrés de libertés respectifs.

Cette loi dépend de 2 paramètres nl et n2.

Les quantiles de cette distribution sont tabulés (tables à triple entrée: l'ordre duquantile et les 2 nombres de degrés de liberté).

L'expression analytique de la densité ne nous intéresse pas.

� "������ ������ ���##����������������������������

Rappelons comment calculer ce coefficient mesurant la dépendance entre 2 variablesordinales (ou cardinales):

1e var 2e var Rangs Rangs Diff. audes X des Y carré

X1 Y1 RX1 RY1 (RX1-RY1)²X2 Y2 RX2 RY2 (RX2-RY2)²X3 Y3 RX3 RY3 (RX3-RY3)². . . . .. . . . .. . . . .Xi Yi RXi RYi (RXi-RYi)². . . . .. . . . .. . . . .Xn Yn RXn RYn (RXn-RYn)²

D² = ��(RXi-RYi)²

RsD

n n� �

�1

6

1

. ²

.( ² )

Déterminons la distribution de probabilité de Rs en supposant que les deux variablesX et Y soient indépendantes.

Les valeurs possibles pour Rs se déduisent de celles des RXi et des RYi.

Les valeurs possibles pour les RXi sont les permutations des entiers 1,2,3, .... i, .... n;toutes ces permutations sont équiprobables (les Xi sont indépendantes entre elles) etcomme on dénombre n! permutations, une configuration quelconque des RXi

apparaît avec la probabilité de 1

n!.

Le même raisonnement peut se faire pour les RYi et en supposant que les Yi sontindépendantes des Xi, la probabilité d'observer un couple quelconque de

configurations des RXi et des RYi est de 1

2( !)n.

Page 55: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-10

Pour chacune de ces n!2 valeurs possibles pour les RXi et les RYi, on peut calculer lavaleur de Rs et en déduire ainsi sa distribution de probabilité.On regroupe les différentes valeurs possibles et on affecte à chaque valeur uneprobabilité. Mais on peut se montrer plus astucieux: en effet, la valeur de Rs nechange pas si on permute les termes de la somme � (RXi-RYi)

2 . Pour dénombrer lesvaleurs possibles de Rs, on peut donc se limiter au cas où RX1=1, RX2=2, ... ,RXn=n.

Détaillons ces valeurs possibles dans le cas où n=2 (ce qui constitue un cas d'école,dans la pratique il est très risqué de tirer des conclusions sur un échantillon de 2observations!).

X Cas possibles Différence despour Y rangs au carré

1 1 2 0 12 2 1 0 1

Valeurs du coeff. de Spearmann1.00 -1.00

Donc Rs prend 2 valeurs +1 et -1 avec la même probabilité.

Page 56: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-11

Passons au cas n=3.

X Cas possibles pour Y Différence des rangs au carré1 1 2 3 3 1 2 0 1 4 4 0 12 2 1 1 2 3 3 0 1 1 0 1 13 3 3 2 1 2 1 0 0 1 4 1 4

Valeurs du coeff. de Spearmann1.00 0.50 -0.50 -1.00 0.50 -0.50

Donc Rs prend 4 valeurs distinctes : -1, -0.5, 0.5, +1 avec les probabilités de 1/6,1/3, 1/3, 1/6.

Remarquons que Rs peut prendre la valeur +1 (-1) alors que les deux variables sontindépendantes, ce cas est relativement rare (1 fois sur 6) mais possible.

Coeff. de corréla tion de Spearm ann=3

0

0.5

1

1.5

2

2.5

1 0.5 -0.5 -1

Valeurs possib les

Pro

babi

lité

Passons au cas n=4. En présentant les valeurs possibles pour RYi dans un tableausemblable au précédent, on a:

Cas possibles pour Y1 2 3 3 1 2 4 4 4 4 4 4 1 2 3 3 1 2 1 2 3 3 1 22 1 1 2 3 3 1 2 3 3 1 2 4 4 4 4 4 4 2 1 1 2 3 33 3 2 1 2 1 2 1 1 2 3 3 2 1 1 2 3 3 4 4 4 4 4 44 4 4 4 4 4 3 3 2 1 2 1 3 3 2 1 2 1 3 3 2 1 2 1

Différence des rangs au carré0 1 4 4 0 1 9 9 9 9 9 9 0 1 4 4 0 1 0 1 4 4 0 10 1 1 0 1 1 1 0 1 1 1 0 4 4 4 4 4 4 0 1 1 0 1 10 0 1 4 1 4 1 4 4 1 0 0 1 4 4 1 0 0 1 1 1 1 1 10 0 0 0 0 0 1 1 4 9 4 9 1 1 4 9 4 9 1 1 4 9 4 9

Valeurs du coeff. de Spearmann1.0 0.8 0.4 0.2 0.8 0.4 -0.2 -0.4 -0.8 -1.0 -0.4 -0.8 0.4 0.0 -0.6 -0.8 0.2 -0.4 0.8 0.6 0.0 -0.4 0.4 -0.2

Page 57: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Principales distributions

Statistiques Page 8-12

Donc RS prend 12 valeurs distinctes: -1, -0.8, -0.6, -0.4, -0.2, 0, +0.2, +0.4, +0.6,+0.8, +1 avec des probabilités de 1/24, 3/24=1/8, 1/24, 1/13, 2/24=1/12, 1/12, 1/12,1/24, 1/8, 1/24.

Remarquons à nouveau que RS peut prendre la valeur +1 (-1) même si les variablesXi et Yi sont indépendantes; ce cas est cependant rare: 1 fois sur 24, mais possible.

Coeff. de corréla tion de Spearm ann=4

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

Valeurs possib les

Pro

babi

lité

Coeff. de corréla tion de Spearm ann=5

0

2

4

6

8

10

12

1 0.90 0.8 0.70 0.6 0.50 0.4 0.30 0.2 0.10 0 -0.10 -0.2 -0.30 -0.4 -0.50 -0.6 -0.70 -0.8 -0.90 -1

Valeurs possib les

Pro

babi

lité

La distribution de probabilité de RS est tabulée pour différentes valeurs de n.

Page 58: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-1

9 �� ��� ����������

� � ����� ��

On considère un échantillon de taille n, aléatoire et simple."Aléatoire et simple" signifie que les variables aléatoires sont:� indépendantes entres elles� de même distribution F(x,�)

Prenons un exemple. Soit une population donnée; on s'intéresse à la taille moyennem. Supposons que la répartition des tailles individuelles soit normale de moyenne met d'écart-type connu �. On prélève un échantillon de n individus. Comment estimerm et comment donner une mesure de la précision de cette estimation?

Si on appelle Xi (i=1,2,...,n) les tailles observées, Xi est une réalisation d'unevariable normale de moyenne m et d'écart-type �. En toute généralité, la distributionn'est pas nécessairement normale; chaque valeur observée est la réalisation(indépendante des autres valeurs) d'une variable aléatoire dont la densité deprobabilité est f(x,�), où � est un (ou plusieurs) paramètre inconnu.

� ( , ,..., )� �X X Xn1 2 � �estimateur de une variable alé atoire

La question abordée dans les chapitres qui suivent est celle de l'estimation de �:comment construire une fonction des observations (un estimateur) qui donne pour

tout échantillon une valeur "proche" de � (l'estimation de � est notée, �� ).� est le paramètre inconnu; il ne fluctue pas, c'est une constante. Généralement, onmonte une expérience en vue de l'estimer à partir des observations.

� ������ ��� ���� ��� ���

Toute fonction des observations ne convient pas pour estimer �; formulons descritères que doivent remplir les estimations pour être sûres dans un certain sens.

� $������������������

Un estimateur �� de � est convergent s'il tend stochastiquement vers la valeur àestimer lorsque n tend vers l'infini, et ceci quel que soit �:

Page 59: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-2

� �Pn

�� � �� � � �����

0

En d'autres termes, le risque que l'estimateur �� ne s'écarte du paramètre inconnu deplus de � tend vers 0 lorsque le nombre d'observations tend vers l'infini.Si la probabilité de commettre une erreur absolue de plus de � ne tend pas vers 0lorsque le nombre d'observations tend vers l'infini, cet estimateur n'a guère de senspratique.

Mais cette propriété est asymptotique: elle ne joue que pour des échantillons de trèsgrande taille. Cette propriété n'est pas suffisante à elle seule.

� $��������������������

On dit qu'un estimateur est sans biais si, pour tout n, l'espérance théorique de cetestimateur est égale à la valeur inconnue du paramètre:

E( � )� ��

�� fluctue autour de �.

Si on calcule plusieurs fois l'estimateur sur des échantillons différents, la moyennedes estimateurs est généralement égale à �.

Attentionestimateur � paramètre inconnu

�� � �variable aléatoire � constante

L'absence de biais élimine (en moyenne) l'erreur systématique d'estimation qui,d'une manière générale, dépend de n et qui, en cas de convergence de l'estimateur,tend vers 0 lorsque n tend vers l'infini.Le biais d'un estimateur est:

b E( ) ( � )� � �� �

� $����������##����

La dispersion d'un estimateur autour de la valeur inconnue du paramètre est unedonnée importante; en général, on mesure cette dispersion par:

E D( � ) ( � ) ( � )� � � � �� � �2 2 2

(pour un estimateur non biaisé, il s'agit de la variance de �� ).

Page 60: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-3

On dit qu'un estimateur est efficace si la mesure de dispersion �2( �� ) de cet

estimateur est plus petite que celle de tout autre estimateur de �.La variance théorique de l'estimateur (la dispersion de l'estimateur autour duparamètre inconnu) doit être minimale parmi tous les estimateurs possibles.

On peut montrer que, sous des conditions de régularité, il existe un estimateurefficace (ou asymptotiquement efficace).

Construire un estimateur convergent, non biaisé et efficace n'est pas simple.

� ���������������������������������

Il existe plusieurs méthodes d'estimation. La méthode du maximum devraisemblance fournit dans les cas réguliers des estimations convergentes, nonbiaisées et efficaces.

La démarche est la suivante.

� ����%������

On détermine la fonction de vraisemblance L, c'est-à-dire la probabilité d'observerl'échantillon que l'on a sous les yeux.

L X X X fX

f X f X fX

n ii

n

n

( , ,..., ; ) ( ; )

( ; ). ( ; )...( ; )

1 21

1 2

� �

� � �

��

Dans L, les Xi sont connus (ce sont les valeurs observées) et � est le paramètreinconnu.

Dans le cas continu, il s'agit du produit des densités de probabilité.Dans le cas discret, il s'agit de la loi de probabilité.

� " ��%������

Regardant L comme fonction de � seulement, on prend pour estimation de � la

valeur �� qui rend L, la vraisemblance maximale c'est-à-dire l'échantillon le plusprobable, le plus vraisemblable.

max ( ) (� )L L� ��

Comme L ou ln(L) atteignent leur extremum pour la même valeur de �, on travaillede préférence avec le ln(L) car il est souvent plus facile à calculer.Dans les cas réguliers, on sait que la recherche d'un extremum revient à trouver la

valeur �� qui annule la dérivée première du ln(L):

Page 61: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-4

ln( ) ( , ��

� tel que:

)

d

d L

d

df Xi� �� 0

On remarque qu'il faut connaître l'expression analytique de f; cette connaissancen'est pas nécessaire pour toutes les méthodes d'estimation, comme pour la méthodedes moindres carrés par exemple.

� ������

Le but recherché est de prévoir, maîtriser le phénomène "montant annuel desdommages dus aux catastrophes naturelles".

Il y a 2 étapes à considérer:� la fréquence des catastrophes naturelles (nb de catastrophes/an)� le montant des dommages dus aux catastrophes naturelles (nb de F/catastrophe)Les données:

Année Evénements Dommages(mia $)

1983 Cyclone Alicia 1.31987 Tempête d'hiver 3.11989 Cyclone Hugo 4.51990 Tempête Daria 5.11990 Tempête Herta 1.31990 Tempête Vivian 2.11990 Tempête Wiebke 1.31991 Typhon Mireille 5.21991 Incendie Oakland 1.71992 Cyclone Andrew 201992 Ouragan Iniki 1.61993 Blizzard 1.81993 Inondations 1.01994 Séisme 12.51995 Séisme 3.01995 Orage de grèle 1.11995 Ouragan Luis 1.51995 Ouragan Opal 2.11996 Ouragan Fran 1.6

� ���#��& �����������������

Le nombre de catastrophes est bien décrit par une distribution de Poisson.

Page 62: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-5

P X n en

n

( ) .!

� � �� �

Il faut estimer � sur base des observations.

� $����'Quelle est la fonction du maximum de vraisemblance?Quelle est la probabilité d'obtenir l'échantillon?

X1 = nb de catastrophes en 1983X2 = nb de catastrophes en 1984...X14 = nb de catastrophes en 1996

L P X P X P X

eX

eX

eX

eX X X

X X X

n

nX X X

n

n

n

��

� � �

�� � �

( ; ). ( ; )... ( ; )

.!. .

!... .

!

.! !... !

....

1 2 14

1 2

1 2

1 2

1 2

� � �

� � �

� � �

� $����(On recherche le maximum de ln(L).

ln( ) ln .! !... !

. ( ... ).ln( ) ln( ! !... !)

....

L eX X X

n X X X X X X

nX X X

n

n n

n

��

��

��

� � � � � � �

�� � �

� �

� �

1 2

1 2

1 2 1 2

Le maximum de ln(L) se trouve au point où sa dérivée première par rapport à �s'annule.

d L

d

n X X X

n X X X

n X X X

X X X

n

n

n

n

n

ln( )

( ... ).�

( ... ).�

( ... ).�

...

� � � � � � �

� � � � � �

� � � �

�� � �

0

10

1

1

1 2

1 2

1 2

1 2

Dans notre exemple:

Nb Fréq. abs. Nb total

Page 63: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-6

catastrophespar an

obs. catastrophes

0 4 01 5 52 3 63 0 04 2 85 0 0

19

� �

nb total catastrophes

nb anné es

. .

.

.

19

14135

En moyenne, il y a 1,35 catastrophes par an.

Nombre de catastrophes

0.000

0.050

0.100

0.150

0.200

0.250

0.300

0.350

0.400

0 1 2 3 4 5

Nb. de catastrophes par an

Fré

quen

ces

rela

tives

(%

)

Fréq. rel. obs.

Fréq. rel. théor.

Nous verrons plus loin si les différences entre les fréquences observées et théoriquessont significatives au point de remettre en question la loi de Poisson.

� ��������������������

Le montant des dommages est bien modélisé par une loi de Pareto:

Page 64: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-7

F xx

x

x x

( ; )

.

� �

� ����

���

� � �

1

1

0

0

avec:� � le paramètre à estimer� x0 1 milliard de $� x le montant des dommages

f xdF x

dx

x x

xx

x xx

x

x

x

( ; )( ; )

. . .( )

. .

. . .

.

��

� �

� � �

� ���

���

� �

� �

� �

0 1

1

1

01

01 1

1

01

01

1

0

0

1

� $����'L'expression de la fonction du maximum de vraisemblance est:

Lx

x

x x

x

x x

x

x

nx

x

x x x

L n x n x x x x

n

n

n

n

��

��

��

��

��

��

��

� � � � � � � � � � �

� � �

� � �

� � �

� � � � �

� � �

� � �

0

0

1

1

0

0

2

1

0

0

1

0

01

11

21 1

0 0 1 21 1 1 1

. . . ... .

. .. ...

ln( ) .ln( ) ln( ) .( ).ln( ) ( ).ln( ) ( ).ln( ) ... ( ).ln( )

.( )

� $����(On recherche le maximum de ln(L)

d L

d

nn x x x x

nx x x n x

n

x x x n x

n

x

x

x

x

x

x

n

n

n

n

ln( )�

.ln( ). ln( ) ln( ) ... ln( )

ln( ) ln( ) ... ln( ) .ln( )

ln( ) ln( ) ... ln( ) .ln( )

ln ln ... ln

� �

� � � � � � �

� � � � �

�� � � �

��

��

�� �

��

��� �

��

��

0 10 1 2

1 2 0

1 2 0

1

0

2

0 0

Dans notre exemple:

Page 65: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-8

Montants (mia $) ln($/x0) Fréq. abs. obs. Ln($/x0)* fréq. abs.

1.0 0.0 1 0.001.1 0.1 1 0.101.3 0.3 3 0.791.5 0.4 1 0.411.6 0.5 2 0.941.7 0.5 1 0.531.8 0.6 1 0.592.1 0.7 2 1.483.0 1.1 1 1.103.1 1.1 1 1.134.5 1.5 1 1.505.1 1.6 1 1.635.2 1.6 1 1.65

12.5 2.5 1 2.5320.0 3.0 1 3.00

17.36

� ��

��

�� �

��

��� �

��

��

n

x

x

x

x

x

xnln ln ... ln

..

1

0

2

0 0

19

17 361094

Distribution du montant d'une catastrophe(Loi de Pareto)

0.000

0.200

0.400

0.600

0.800

1.000

1.200

0.0 5.0 10.0 15.0 20.0 25.0

Montant (mia $)

Fré

quen

ces

rela

tives

cum

ulée

s (%

)

Fréq. rel. cum. obs.

Fréq. rel. cum. théor.

Page 66: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimations: principes

Statistiques Page 9-9

� �� !����������������������

On considère une fonction d'expression analytique connue: �(x,�), où x estl'argument et � un (ou plusieurs) paramètre inconnu, par exemple �(x,�) = �l +�2.x.

Supposons qu'à l'issue de la i ième expérience on observe la valeur Yi de la fonction�(Xi,�) avec une erreur aléatoire Ei (inconnue) et avec une valeur connue de lavariable auxiliaire Xi.

La méthode des moindres carrés donne pour estimation la valeur �� qui minimise lasomme des carrés des écarts SCE:

SCE = � (Yi - �(Xi,�) )2

� � �������������"����

Une estimation ponctuelle de � ( �� ) n'est pas suffisante: il n'y a aucune raison pour

que � = �� ; si l’estimateur est non biaisé, l'égalité est réalisée en moyenne, si

l'estimateur est efficace, �� fluctue (est dispersé) le moins possible autour de �, s'ilest convergent, cette fluctuation diminue avec n. On préfère alors donner une"fourchette" encadrant �, donner un intervalle [�1, �2] contenant �. Cependant il estimpossible de donner un intervalle qui contienne � avec certitude; au mieux on peutdonner un intervalle qui contient � avec un forte probabilité fixée à priori et égale à1-� (� petit : 10%, 5%, ou 1%). 1-� est appelé le degré de confiance et l'intervallede confiance au niveau �.

Page 67: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-1

10 �� ��� ����� ������ ���������

� �������������������#������

Soit Xl, X2, ..., Xn, un échantillon simple aléatoire tiré d'une population normale demoyenne m inconnue et d'écart-type � connu; c’est-à-dire que X1, X2, ..., Xn sont desvariables aléatoires normales indépendantes et identiquement distribuées suivant uneloi normale de moyenne m inconnue et d'écart-type connu �.Comment estimer m, quelle est la précision de cette estimation et commentconstruire un intervalle de confiance au niveau � ?

� $���������

Construisons l'estimateur du maximum de vraisemblance de m.

� $����'

La fonction de vraisemblance L(X1,X2,...,Xn;�) est:

L f X

e

e e e

e

ii

n

X m

i

n

X m X m X m

n Xi m

i

n

i

n

��

���

���

����

���

� ����

� ����

� ����

� ����

� ����

( ( ; ))

..

.. .

.. ...

..

..

.

. . .

.

� �

� � � � � �

� �

� � �

1

1

2

1

1

2

1

2

1

2

1

2

1

2

1

2

1

2

1

2

1

2

2

12

22 2

2

1

Le logarithme de L est:

� �

� � � � � �

ln ln.

.

.ln .ln.

.

LXi m

n n Xi m

n

i

n

i

n

����

��� �

����

���

� � � � �

1

2

12

21

2

2

1

2

2

1

� � �

� ��

Page 68: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-2

� $����(On doit trouver la valeur de m qui rend L maximum ou qui annule la dérivéepremière du logarithme de L:

� �

� �

ln( ).

.

.. .( ).( )

..( ). ( )

. ( )

L

m mXi m

Xi m

Xi m

Xi m

i

n

i

n

i

n

i

n

��

��

��

� �

��

� �

� �

12

12

2 1

12

2

1

2

2

1

21

21

21

On en déduit que la valeur �m (1'estimateur recherché) de m qui annule la dérivéepremière est:

10

0

0

21

1

1

1

1

�. ( )

( )

( ) .

.

Xi m

Xi m

Xi n m

n m Xi

mXi

nX

i

n

i

n

i

n

i

n

i

n

� �

� �

� �

� �

� ����������

�m est-il biaisé ? Cet estimateur est non biaisé en effet:

Page 69: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-3

E X EX

n

nE X

nm

nnm

m

ii

n

ii

n

i

n

( )

. ( )

.

.

����

����

1

1

1

1

1

1

�m est-il convergent ? On sait qu'une somme de normales indépendantes est encoreune normale dont la variance est la somme des n variances �²; donc �m est normale

de moyenne m et d'écart-type �

n. �m est donc convergent (ce résultat se généralise:

voir cours de probabilité).

On peut montrer que �m est efficace.

� )�����������#������ ����� ��

Soit u( )1

2�� le quantile d'ordre ( )1

2��

d'une loi normale réduite.

Un intervalle de confiance pour m au niveau � est donné par :

IC X un

X un

( ) . ; .�� �

� �� � ��

� � �1 2 1 2

Vérifions cette affirmation:

P X un

m X un

P un

X m un

P uX m

n

u

P u N u

� � � ��

� � � � ��

� � ��

��

� � � ��

��

� �

� �

� �

� �

� �

1 2 1 2

1 2 1 2

1 2 1 2

1 2 1 20 1

1

� �

� �

� �

� �

� �

� �

. .

. .

( , )

Commentons l'expression de cet intervalle de confiance.

Page 70: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-4

� Il est centré sur X , la moyenne de l'échantillon.� La longueur de l'intervalle de confiance est proportionnelle à �, la dispersion du

phénomène étudié; cela est conforme à l'intuition: toutes autres choses restantégales, si le phénomène étudié est très dispersé, l'intervalle de confiance est plusgrand que si le phénomène étudié est très peu dispersé autour du paramètreinconnu.

� La longueur de l'intervalle de confiance est inversement proportionnelle à n; celaest conforme à l'intuition: plus le nombre d'observations est grand, plus grandeest la précision qu'on peut espérer (au même niveau �, c’est-à-dire avec le mêmerisque d'erreur).

� Si on veut diminuer la longueur de l'intervalle de confiance (en prenant le mêmerisque d'erreur, c’est-à-dire en gardant le même �) on peut augmenter n; maispour diminuer par 2 (par k) cette longueur, il faut multiplier par 4 (par k2) lenombre d'observations.

� Plus le risque d'erreur est petit, plus long est l'intervalle de confiance: si �diminue, u

( )12

�� augmente.

� $�������##��

La moyenne observée vaut 15.1; il y a 10 observations; on sait que � vaut 0.70; onchoisit un niveau de confiance 0.95 (un risque d'erreur de 5%) ; on aX

n

u

un

m

� �

151

10

0 70

1 960

1 9600 70

100 43386

1510 0 43

1 2

1 2

,

,

,

. , .,

,

� , ,

l'intervalle est donc:� �IC � 14 67 15 53, ; ,

� �����$��������������#�������

Soit Xl, X2, ..., Xn, un échantillon simple aléatoire tiré d'une population normale demoyenne m inconnue et d'écart-type � inconnu; c’est-à-dire que X1, X2, .... Xn sontdes variables aléatoires normales, indépendantes et identiquement distribuéessuivant une loi normale de moyenne inconnue et d'écart-type inconnu. Commentestimer m et �, quelle est la précision de ces estimations et comment construire unintervalle de confiance au niveau � pour m et �?

Page 71: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-5

� $����������

Construisons les estimateurs du maximum de vraisemblance de m et de �

� $����'Pour rappel, le logarithme de L est:

� � � � � �Ln L n n Xi mi

n

( ) .ln .ln.

.�� � � � ��

�21

2 2

2

1

� ��

� $����(On doit trouver les valeurs de m et de � qui rendent L maximum ou qui annulent lesdérivées premières du logarithme de L par rapport à m et �:

Ln L

m

( )� 0

on en déduit que la valeur �m (1'estimateur recherché) de m qui annule la dérivéepremière est:

� .mn

Xi Xi

n

� ��

�1

1

Pour la dérivée par rapport à �:

� ��

� �

� �

Ln L nXi X

nXi X

nXi X

n Xi X

i

n

i

n

i

n

i

n

( )�

.( ). � . ( )

� �

. ( )

� �

. ( )

. ( )

��

��

� �

��

� �

� �

� �

12

2

1

1

1

3 2

1

32

1

32

1

22

1

on en déduit que l'estimateur recherché est:

� . ( )�2 2

1

21� � �

�n

Xi X si

n

s2 est la variance calculée sur l'échantillon.

� ����������

On démontre le résultat suivant:

Page 72: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-6

� X est distribuée suivant une loi normale de moyenne m et d'écart-type �

n

X N mn

� ���

���

,�

� ns²/�² est distribué suivant une loi chi-carrée à n-1 degrés de libertén s

n

. 2

2 1�

�� �

� X et s² sont indépendants

Les propriétés suivantes découlent de ce résultat.

� ����������'

X est un estimateur non biaisé et convergent.

� ����������(s², la variance biaisée calculée sur l'échantillon, est estimateur biaisé de �², lavariance de la population.

En effet: l'espérance d'une chi-carrée à n-1 degrés de liberté est égale à n-1, donc

l'espérance de ns²/�² est n-1 et l'espérance de s² est � �² .( )n

n

�1 (< ² ).

� �E n

donc

En s

n

nE s n

E sn

n

sn

ns

n�

� � �

��

�� � �

� �

��

��

1

2

2

22

2 2

2

1

1

1

1

1

.

. ( )

( ) .

.*2

Le biais de �² est connu: n

n

�!

11( )

s2 sous-estime �2.

s*2 est la variance non-biaisée calculée sur l'échantillon.

Page 73: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-7

sn

ns

n

n

X m

n

X m

n

ii

n

ii

n

*2 .

.( )

( )

��

��

��

1

1

1

2

2

1

2

1

� ����������*s² est convergent.

� )�����������#������ ����� ����� ��

Soit tn( ; )� �1 1 2

� le quantile d'ordre 1-�/2 d'une distribution t à n-1 degrés de liberté; un

intervalle de confiance au niveau � est donné par:

X ts

nX t

s

nn n� �

�� �

� � � � �( ; ) ( ; )

;1 1 2 1 1 21 1

� �

Vérifions cette affirmation.

Page 74: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-8

P X ts

nm X t

s

n

P ts

nX m t

s

n

P t X mn

st

P t X mn

s n

nt

n n

n n

n n

n n

��

� � ��

� ��

� � ��

� � � ��

��

� � � ��

��

� � � �

� � � �

� � � �

� � � �

( ; ) ( ; )

( ; ) ( ; )

( ; ) ( ; )

( ; ) ( ; )

. .

. .

( ).

( ). . .

1 1 2 1 1 2

1 1 2 1 1 2

1 1 2 1 1 2

1 1 2 1 1 2

1 1

1 1

1

1

� �

� �

� �

� �

� � �� �

� � �� �

� � ��

��

� � �

� � � �

� � � �

� �

� �

� �

P tX m

n

n

s nt

P tX m

n

n

n st

P t Nn

t

P tN

n n

n n

nn

n

n

( ; ) ( ; )

( ; ) ( ; )

( ; ) ( ; )

( ; )

( ).

( ).

.

( , ).

( , )

1 1 2 1 1 2

1 1 2 2

2

1 1 2

1 1 21

2 1 1 2

1 1 2

1

1

0 11

0 1

� �

� �

� �

� nn

n n n

n

t

P t t t

� �

� � � � �

� � � ��

��

� �

12 1 1 2

1 1 21 1 1 2

1

1

( ; )

( ; ) ( ; )

� �

Le numérateur X m

n

� est distribué suivant une loi normale réduite. Le

dénominateur

ns

n

²

²�

�1est la racine d'une chi-carrée divisée par son degré de liberté.

Le numérateur et le dénominateur sont indépendants, le quotient est donc une t deStudent à n-1 degrés de liberté.

IC X ts

nX t

s

n

X ts

nX t

s

n

n n

n n

� ��

��

� � ��

� � � �

� � � �

( ; ) ( ; )

( ; )

*

( ; )

*

. ; .

. ; .

1 1 2 1 1 2

1 1 2 1 1 2

1 1� �

� �

Page 75: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-9

En effet

sn

ns

s

n

s

n

s

n

s

n

*2

*2

*

.��

��

��

1

1

1

2

2

Quand on passe d'une normale de � connu vers une normale de � inconnu, onremplace:u t

s

n1 2 1 1 2� � ��

� �

( ; )

*

� )�����������#������ ����� ����� ��+

Soit tn�1 2;�

et tn� �1 1 2; � les quantiles d'ordre �/2 et 1-�/2 d'une loi chi-carrée à n-1

degrés de liberté; un intervalle de confiance au niveau � pour �2 est donné par

n s

t

n s

tn n

.;

.

; ;

2

1 1 2

2

1 2� � �

� �

Vérifions cette affirmation.

Pn s

t

n s

t

Pt n s t

Pt

n s

t

n n

n n

n n

. .

.

.

; ;

; ;

; ;

2

1 1 2

22

1 2

1 1 2

2

2

1 2

1 2

2

2

1 1 2

1 1

1 1

1

� � �

� � �

� � �

� ��

� � ��

� � ��

� �

� �

� �

� �

� $�������##��

La moyenne observée vaut 15.1 et la variance observé (s²) vaut 0,7; il y a 10observations; on choisit un niveau de confiance 0,95 (un risque d'erreur de 5%); on at t

ts

n

n

n

( ; ) ( ; . )

( ; )

,

,,

,

� �

� �

� �

��

� � �

1 1 29 0 025

1 1 2

2 262

12 262

0 7

90 63084

Page 76: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Population normale

Statistique Page 10-10

l’intervalle est donc:[14.47, 15.73]

Page 77: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimation d'une proportion

Statistiques Page 11-1

11 �� ��� ���� ������ ��

� � ����� ��

On s'intéresse à l'estimation de la proportion p d'individus d'une populationprésentant une certaine caractéristique. Pour chacun des n individus de l'échantillon,on appelle Xi (i = 1,2,...,n) l'indicateur de la caractéristique: Xi=l si et seulement sil'individu i la présente. Xi = l avec la probabilité p.

Le nombre total Y (= E (Xi)) d'individus de l'échantillon qui présentent lacaractéristique est distribué suivant une loi binomiale de paramètres n et p.L'estimateur "évident" de p est Y/n (la fréquence relative); retrouvons cet estimateuren appliquant la méthode du maximum de vraisemblance.

� �� ��� ��

� $����'

La fonction de vraisemblance est:

� �L y p Y y C p pyn y n y( ; ) . .( )( )� � � � �" 1

où C(n,y) est le coefficient binomial.

� $����(

Recherchons le maximum de L(y;p) (ou de son logarithme) par rapport à p

Page 78: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimation d'une proportion

Statistiques Page 11-2

ln( ) ln( ) .ln( ) ( ).ln( )

( )� �

� �

.( �) �.( )

. � �. . �

�.

L C y p n y p

dLn L

dp

y

p

n y

p

y

p

n y

p

y p p n y

y y p p n y p

y p n

py

n

� � � � �

� ���

���

� � �

� � �

1

1

0

1

1

Donc l'estimateur du maximum de vraisemblance est la fréquence relative observée.

� ������ �

La fréquence relative est un estimateur:� non biaisé

E pE y

n

n p

np( �)

( ) .� � �

� convergent car la fréquence relative observée converge vers la fréquencethéorique

Ey

np�

������

� efficace

� � �������������"���������������

� ;.( )

p N pp p

nn��� ���

��

��

��

1

L'expression analytique de la distribution de Y/n est connue (elle dépend de p)Comme l'écart-type dépend du paramètre inconnu, on effectue une transformation enutilisant la propriété suivante:

g x p N pn

N g pn

h x g xx

( ) .arcsin � .arcsin ; ( );

( ) ( ) sin

� ������

����

���

���

� ��

2 21 1

21 2

Remarque: les arguments des fonctions trigonométriques sont exprimés en radians.

Page 79: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimation d'une proportion

Statistiques Page 11-3

Soit u1 2��

le quantile d'ordre 1-�/2 d'une distribution normale réduite

zy

n

u

n

zy

n

u

n

ICz z

1

1 2

2

1 2

2 1 2 2

2

2

2 2

� �

� �

� �

.arcsin

.arcsin

sin ;sin

est un intervalle de confiance au niveau � (approché) pour p.

Vérifions cette affirmation.

� �

� �

� �

Pz

pz

P h z p h z

P g h z g p g h z

P z g p z

Py

n

u

ng p

y

n

u

n

P gy

n

u

ng p g

y

n

u

n

Pu

ng

y

ng p

sin sin

( ) ( )

( ( )) ( ) ( ( ))

( )

.arcsin ( ) .arcsin

( )

(

2 1 2 2

1 2

1 2

1 2

1 2 1 2

1 2 1 2

1 2

2 2

2 2

! !�

� ! !

� ! !

� ! !

� � ! ! ��

� ���

���� ! ! �

������

� � ! ���

����

� �

� �

� �

� �

)

( )

( , )

! ��

� � !

���

����

! �

� � ! ! ��

��

� �

� �

� �

u

n

P ug

y

ng p

n

u

P u N u

1 2

1 2 1 2

1 2 1 2

1

0 1

1

� �

� �

� ��������!�""��

72% des personnes d'un échantillon de 50 présentent une caractéristique; on choisitun niveau de 5%.

Page 80: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimation d'une proportion

Statistiques Page 11-4

n

y

n

z

z

h z

h z

� � �

� � �

� �

� �

50

0 72

2 0 72196

50174921

2 0 72196

502 30358

174921

20589

2 30358

20834

1

2

12

22

.

.arcsin ..

.

.arcsin ..

.

( ) sin.

.

( ) sin.

.

L'intervalle de confiance est donc[58.9 %; 83.4 %]

� ���������

� Il existe des abaques donnant des intervalles de confiance au niveau � "exacts"(non asympotiques)

� L'intervalle de confiance est approché, dans la pratique l'approximation estvalable pour n>36

� Un autre intervalle de confiance (approché) au niveau � est obtenu en utilisantl'approximation normale de la binomiale

�.( �); �

�.( �)p u

p p

np u

p p

n�

��

��

� � �1 2 1 2

1 1� �

où �p est la fréquence relative observée.

Page 81: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimation de la différence entre 2 moyennes

Statistiques Page 12-1

12 �� ��� ����������""������� ���%���&���

� � ����� ��

On dispose de 2 échantillons, X1,X2, ...., Xnl et Y1,Y2, ... Yn2,� indépendants� issus de 2 populations normales de moyennes ml et m2 inconnues� de même écart-type � inconnu

On désire estimer la différence entre ml et m2 (m1-m2).

� ������ �

Les résultats suivants se déduisent du résultat fondamental concernant la distributionet l'indépendance de XBAR et s²:

� XBAR1 (moyenne échantillon du premier échantillon) est distribué suivant une

loi normale de moyenne ml et d'écart-type �

n1� XBAR2 (moyenne échantillon du deuxième échantillon) est distribué suivant une

loi normale de moyenne ml et d'écart-type �

n2

� ( * *

²

n s n s1 1² 2 2² )��

est distribué suivant une loi chi-carrée à nl+n2-2 degrés de

liberté où sl et s2 sont les écarts-types observés du premier et du deuxièmeéchantillon

� XBAR1, XBAR2, (nl S1² + n2 s2²) sont indépendants

De ces résultats, on déduit facilement que le rapport:

n n

n n

X X m m

n s n s

1 2 2

1

1

1

2

1 2 1 2

1 1² 2 2²

� �

� � �

�*

( ) ( )

* * est distribué suivant une loi t de Student à

nl+n2-2 degrés de liberté.

Page 82: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Estimation de la différence entre 2 moyennes

Statistiques Page 12-2

� � �������������"���������������������'��

Soit t le quantile d'ordre 1-�/2 de la distribution de Student à nl+n2-2 degrés deliberté; un intervalle de confiance au niveau � pour ml-m2 est donné par:

( ) ,( )X X t n s n sn n

n nX X t n s n s

n n

n n1 2 1 1

22 2

2 1 2

1 2

1 2 1 12

2 22 1 2

1 2

1 1

2

1 1

2� � �

� �� � �

� �

� ��������!�""��

Le premier échantillon est : 12, 5, 14, 3, 10, 9, 8, 11, 16.Le deuxième échantillon est : 219 19, 18, 8, 14, 12, 20, 13, 11, 15On choisit un niveau de 5%.

On an1 = 9n2 = 10n1+n2-2 = 17XBAR1= 9.778, s1² = 15.06XBAR2 = 15.1, s2² = 16.49XBAR1-XBAR2 = -5.322t

t n s n sn n

n n

9 10 2 0 975

1 12

2 22 1 2

1 2

2 110

1 1

22 11 17 33 0 1114 4 07

� � �

� �� � � �

; , ,

, , , ,

l'intervalle de confiance est donc:

-5.322 + 4.07

[-9.392 -1.2521]

Page 83: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'hypothèses: principes

Statistiques Page 13-1

13 (�� �� !&� !$����������

� � ����� ��

Dans certains cas, plutôt que d'estimer des paramètres inconnus sur base d'unéchantillon, on préfère émettre une hypothèse concernant la population ou lephénomène étudié, et ensuite, vérifier dans quelle mesure cette hypothèse estconfirmée ou infirmée par les faits.

Les exemples sont multiples:� telle variable sociologique influence-t-elle les résultats scolaires ?� le nombre de fonctionnaires masculins et féminins de tel niveau est-il le même ?� tel traitement influence-t-il le comportement de tels animaux étudiés ?, ...

On remarque que l'hypothèse émise amène à une réponse non quantitative, du type"oui/non"., soit l'hypothèse est confirmée soit elle est infirmée.

Remarque: les tests d'hypothèses sont normalement réalisés avant l'estimation

� )&� !$�������#��� ��'!&� !$���� ��

L'hypothèse émise est appelée hypothèse nulle.La négation de cette hypothèse est appelée contre-hypothèse.

Le travail théorique du statisticien consiste à mettre au point une procédure appeléetest statistique, ou test d'hypothèses; en suivant les directives de calcul de ce testd'hypothèse, le statisticien déclare le rejet (noté RH0) ou l'acceptation (notée AH0)de l'hypothèse nulle.

Page 84: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'hypothèses: principes

Statistiques Page 13-2

� ��������������$���� ���������$����$��

Rejeter l'hypothèse nulle (RH0) comporte un risque: celui de rejeter comme fausseune hypothèse qui est vraie dans la réalité des faits mais qui, sur base del'échantillon recueilli, semble déraisonnable.Ce risque est appelé le risque de première espèce et est mesuré par la probabilité decommettre l'erreur (appelée erreur de première espèce) de rejeter une hypothèsevraie. Cette probabilité est notée �.

Accepter l'hypothèse nulle (AH0) comporte un risque: celui d'accepter comme vraieune hypothèse qui est fausse dans la réalité des faits mais qui, sur base del'échantillon recueilli, semble raisonnable.Ce risque est appelé le risque de deuxième espèce et est mesuré par la probabilité decommettre l'erreur (appelée erreur de deuxième espèce) d'accepter une hypothèsefausse. Cette probabilité est notée #.

Exemple: H0: "est atteint d'une maladie incurable et mortelle"� Erreur de 1e espèce: on lâche un infectieux dans la nature� Erreur de 2e espèce: la personne n'est en fait pas malade

On peut résumer les erreurs dans le tableau suivant:

H0 est vraie H0 est faussedécision deRH0

erreur de 1eespèce

pas d'erreur

décison de AH0 pas d'erreur erreur de 2eespèce

Les probabilités correspondantes sont:

H0 est vraie H0 est faussedécision de RH0 � 1-#décision de AH0 1-� #

On souhaite que les 2 risques (� et #) soient petits; mais en général il n'est paspossible de les contrôler tous les deux simultanément. La convention adoptée est demajorer � qui est appelé le niveau du test et de choisir une procédure qui, sipossible, minimise #. On choisit pour � une petite valeur de l'ordre de 10%, 5%,1%. Le risque de lère espèce est donc contrôlé (il est au plus égal au niveau du test),le risque de 2ème espèce est, au mieux, le plus petit possible.La puissance du test est définie comme étant égale à 1-# (en général c'est unefonction): plus la puissance du test est élevée, plus la probabilité de RH0 unehypothèse fausse est grande et "meilleure" est la procédure choisie.

Page 85: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test sur une proportion

Statistiques Page 14-1

14 (�� ����������� ��

� (�� �� !&� !$��

Testons l'hypothèse nulle suivante: "la proportion d'individus présentant unecaractéristique donnée est égale à 1/2.

Un test d'hypothèse au niveau � consiste à RH0 ssi

RH0 ssi 22

1 2.arcsin fu

n� �

�� �

où f est la fréquence relative observée et u(l-�/2) le quantile d'ordre 1-�/2 de la loinormale centrée réduite.Vérifions cette affirmation; nous devons vérifier que le test est au niveau �, ou quele risque de lère espèce est �, ou que la probabilité de rejeter l'hypothèse nulle alorsqu'elle est vraie vaut �:

� �P RH H vraie P fu

n

P fu

n

Pu

nf

u

n

Pu

nf

u

n

P uf

n

u

0 0 22

1 22

1 22

1 2 21

2

12 2

1

21

1 2

1 2

1 2 1 2

1 2 1 2

1 2 1 2

. .arcsin

.arcsin

.arcsin

.arcsin .arcsin

.arcsin .arcsin

� � ��

� � � !�

� � � ! � ! ��

� � � ! � ! ��

� � � !�

! �

� �

� �

� �

� �

� �

� �

Si H0 est vraie

Page 86: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test sur une proportion

Statistiques Page 14-2

2 21

2

1.arcsin .arcsin ;f N

n���

��

��

Donc,

� �P RH H vraie P u N u0 0 1 0 1

1 1

1 1

1 2 1 2. ( , )

( )

� � � ! ! ��

��

� � �

� � �

� �� �

Exemple chiffréSur 82 naissances annuelles, il y a 37 chiots mâles et 45 femelles. La probabilitéd'une naissance mâle est-elle la même que celle d'une naissance femelle?

237

82 21473 1571 0 098 0 098

196

820 216

1 2

.arcsin . . . .

..

� � � � � �

� ��

�u

n

Comme la valeur calculée est inférieure à la valeur tabulée, on ne rejette pasl'hypothèse nulle.

� ������������ �� ������������ ��

Un calcul simple permet d'évaluer la puissance du test précédent: la puissance dutest (notée ici PUIS) est la Proba[RH0 alors que H0 est fausse]. Si H0 est fausse,c'est que le pourcentage n'est pas de 1/2 mais p; la puissance est une fonction de p:PUIS(p).

Un calcul explicite donne:

Page 87: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test sur une proportion

Statistiques Page 14-3

� �P RH H fausse Puissance p n

P fu

n

P fu

n

Pu

nf

u

n

Pu

nf

u

n

P n pu

n

f p

n

n

0 0

22

1 22

1 22

12

22

12

22 2

1

1 2

1 2

1 2 1 2

1 2 1 2

1 2

. ( , )

.arcsin

.arcsin

.arcsin

.arcsin

. .arcsin.arcsin .arcsin

� � ��

� � � !�

� � � ! � ! ��

� � � ! ! ��

� � � ��

���

��� !

�!

� �

� �

� �

� �

� �

. .arcsin

. .arcsin ( , ) . .arcsin

. .arcsin . .arcsin

� �

� �

� �

22

12

2 0 12

2

12

22

2

1 2

1 2 1 2

1 2 1 2

� ��

���

���

� � ����

���� ! ! � ��

������

� � ����

����

� � ��

������

� �

� �

pu

n

P n p u N n p u

n p u n p u

où u est le quantile d'ordre 1-�/2 d'une loi normale réduite et $ sa fonction derépartition.On remarque que la puissance dépend de n également: PUIS(p;n).

Puissance du test sur une proportion

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0.00 0.20 0.40 0.60 0.80 1.00 1.20

Valeur du param ètre inconnu p

Pui

ssan

ce=P

[RH

0|H

0 fa

ux]

30

40

50

100

200

500

Page 88: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test sur une proportion

Statistiques Page 14-4

La connaissance de PUIS(p;n) permet de répondre à 2 questions:� "Si p=p0, quel est le nombre d'observations nécessaires pour rejeter l'hypothèse

nulle avec une forte probabilité de A ?"Pour répondre à cette question, il suffit de résoudre l'équation en n:

PUIS(p0;n) = A.Par exemple, si p0=0.25 et A=0.851, on trouve n=33. En d'autres termes, si onveut rejeter l'hypothèse nulle presque sûrement (avec une probabilité de 0.851) sila proportion est de 0.25, il faut au moins 33 observations.

� 2ème question: "Si on a n0 observations, quelle est la valeur de p qui conduit aurejet avec une forte probabilité de A?".Pour répondre à cette question, il suffit de résoudre l'équation en p:

PUIS(p;n0) = A.Par exemple, si N=1000 et A=0.851, on trouve p=0.453. En d'autres termes, avec1000 observations on rejette presque sûrement (avec une probabilité de 0.851)l'hypothèse nulle si p=0.453

Page 89: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'égalité de 2 moyennes

Statistiques Page 15-1

15 (�� �� ����� �����%��&���

� ��!� ������������ �

� ������������,����������

Les conditions d'application sont les suivantes:� 2 populations indépendantes� la première population est distribuée suivant une loi continue quelconque de

moyenne ml (inconnue) et la deuxième est distribuée suivant la même loi maiséventuellement translatée d'une quantité % inconnue.

Sur base d'un échantillon de taille nl issu de la première population et d'unéchantillon de taille n2 issu de la deuxième, on veut tester l'hypothèse nulle "%=0".

� $���

Considérons l'exemple suivant. On a mesuré la taille de 10 personnes d'un groupesocial donné A et la taille de 10 personnes d'une population de référence B.Rangeons par ordre croissant les 20 mesures effectuées (seuls la dénomination dugroupe et le rang qu'occupe la mesure sont repris)

Populations RangsA 1A 2A 3A 4A 5A 6A 7B 8A 9A 10B 11A 12B 13B 14

Page 90: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'égalité de 2 moyennes

Statistiques Page 15-2

Populations RangsB 15B 16B 17B 18B 19B 20

Si, une fois groupés, les individus du groupe A occupent en général les rangs faibles(ou élevés), on peut douter de l'hypothèse nulle "%=0". Pour déterminer si lesindividus de l'échantillon A occupent en général les rangs faibles (ou élevés),comptons pour chaque individu de la population A, le nombre d'individus de lapopulation B qui le précédent:

Populations Rangs Nb de BA 1 0A 2 0A 3 0A 4 0A 5 0A 6 0A 7 0B 8A 9 1A 10 1B 11A 12 2B 13B 14B 15B 16B 17B 18B 19B 20

Total: 4

La somme de ces nombres vaut 4. Cette statistique, notée U, est appelée "statistiquede Mann-Whitney.

La statistique U est d'autant plus petite ou plus grande que les deux échantillons sonttranslatés l'un par rapport à l'autre.

On aurait pu, semblablement, compter le nombre d'individus de l'échantillon A quiprécédent chaque individu de l'échantillon B: cette manière de faire n'apporte rien deneuf : la somme U' de ces nombres se déduit de U à l'aide de la relation

U' = nl . n2 - U

Page 91: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'égalité de 2 moyennes

Statistiques Page 15-3

� "������ �������-��� ��.�

U est une variable aléatoire dont on peut déterminer le comportement.

E Un n

Un n n n

( ).

( ). .( )

�� �

1 2

2 1 2 1 2

21

12�

.Si les deux populations sont les mêmes, les rangs de la première se mélangent auxrangs de la deuxième sans tendance particulière à se situer parmi les petits ou lesgrands rangs. En fait toutes les configurations de rangs sont équiprobables; on peutdonc par simple énumération des cas possibles déterminer la distribution de U.

La distribution de U sous H0 est ainsi tabulée pour différentes valeurs de nl et n2. Latable reproduite en annexe donne le seuil de rejet de l'hypothèse nulle "%=0" auniveau �=5% .

Pour utiliser la table, on procède de la manière suivante:

� on calcule U� on calcule U' = nl.n2 - U� si min(U, U') est inférieur ou égal à la valeur lue dans les tables, on rejette

l'hypothèse nulle "%=0" (au niveau 5%)RH U U table0 ssi min( , ' )�

U E U

D UNn n�

� ������( )

( )( , ),1 2 0 1

Pour des valeurs de nl ou de n2 plus élevées que celles des tables, on utilisel'approximation normale: on peut en effet démontrer que U centrée et réduiteconverge en loi vers une distribution normale de moyenne 0 et d'écart-type 1.

RH ssiU E U

D Uu0

1 2. .

( )

( )

��

��

Concrètement, on calcule U, on lui enlève sa moyenne, on divise par son écart-type.Si la valeur ainsi obtenue dépasse en valeur absolue le quantile d'ordre 1-�/2 d'unenormale centrée, réduite, on rejette l'hypothèse nulle au niveau �.

Remarquons que, pour simplifier les calculs, la statistique U vaut

U n nn n

R� ��

�1 21 1

1

1

2.

.( )

Page 92: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'égalité de 2 moyennes

Statistiques Page 15-4

où R1 est la somme des rangs du premier échantillon.

� $����� ����&

Les deux échantillons indépendants A et B suivants sont-ils significativementdifférents ?� A: 56 60 67 71 73 80 83 87 89� B: 37 41 49 53 58 62 65 66 72 77 79 81 82 84

On a : nl=9, n2=14 et nl+n2=23 . Les valeurs ordonnées sont:

37<41<49<53<56<58<60<62<65<66<67<71<72<73<77<79<80<81<82<83<84<87<891 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 2223B B B B A B A B B B A A B A B B A B B A B A A

R1 = 5 + 7 + 11 + 12 + 14 + 17 + 20 + 22 + 23 = 131

U

U

� � ��

� � � � �

� � � �

9 149 10

2131 126 45 131 40

9 14 40 86'

Comme min(40, 86) = 40 est supérieur à la valeur lue (=31) dans les tables, onaccepte l'hypothèse nulle au niveau 5%.

� ��!� ������������

� ������������,����������

Les conditions d'application sont les suivantes:� 2 échantillons appariés: c'est-à-dire que pour chaque individu tiré d'une

population, on dispose de 2 mesures qu'on désire comparer (par exemple unemesure "avant traitement " et une mesure "après traitement"),

� la première mesure est distribuée suivant une loi continue quelconque demoyenne ml (inconnue) et la deuxième est distribuée suivant la même loi maiséventuellement translatée d'une quantité % inconnue.

Sur base de 2 échantillons de taille n (n valeurs pour première mesure et n pour laseconde), on veut tester l'hypothèse nulle: "%=0".

Page 93: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'égalité de 2 moyennes

Statistiques Page 15-5

� ��������& ���/������

Calculons la différence des deux mesures pour chacune des paires (une différencepar individu). Si les 2 échantillons ne sont pas équivalents, on pourrait le remarquerde 2 manières :� un signe plus fréquent que l'autre,� les différences du signe le moins fréquent seront plus petites.

On peut donc mesurer l'écart entre les 2 échantillons par une statistique qui tientcompte de la dissymétrie des signes et de la grandeur relative (donc des rangs) desdifférences en valeur absolue. La somme des rangs des différences en valeurabsolue de signe le moins fréquent (appelée statistique T de Wilcoxon) satisfait àces 2 exigences. La différence entre les 2 groupes est d'autant plus marquée que lavaleur de T est petite.

Une règle pratique impose de négliger les observations dont la différence est nulle.

RH0 ssi T � valeurtabulée

� "������ �������0��� ��.�

E Tn n

D Tn n n

( ).( )

² ( ).( ).( )

��

�� �

1

41 2 1

24

La distribution de probabilité de T est tabulée, pour des valeurs de n comprises entre6 et 25 et des niveaux de 5% et 1% .

T E T

D TNn�

� ����( )

( )( , )25 0 1

Pour une valeur de n>25, on peut utiliser l'approximation normale: T centrée etréduite converge en loi vers une distribution normale de moyenne 0 et d'écart-type 1.

RH ssiT E T

D Tu0

1 2

��

( )

( ) �

Concrètement, on calcule T, on lui enlève sa moyenne, on divise par son écart-type.Si la valeur ainsi obtenue dépasse en valeur absolue le quantile d'ordre 1-a/2 d'uneloi normale réduite, on rejette l'hypothèse nulle au niveau �.

Page 94: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'égalité de 2 moyennes

Statistiques Page 15-6

� $����� ����&

Groupe 1 Groupe 2 Xi-Yi |Xi-Yi| Rangs89 93 -4 4 18 34 -26 26 263 24 39 39 430 75 -45 45 575 13 62 62 688 3 85 85 958 58 0 0 -92 1 91 91 1093 18 75 75 881 18 63 63 798 60 38 38 3

T, somme des rangs des différences négatives (les moins nombreuses) vaut1+2+5=8.

Effectuons un test au niveau � = 5 %. Le seuil de rejet lu dans les tables est de 8.On rejette donc l'hypothèse nulle.

Pour utiliser l'approximation normale on calcule

� la moyenne de T : 10 11

427 5

�� .

� l'écart-type de T : 10 11 21

2496 25 9 81

� �� �. .

� T centrée et réduite = 8 27 5

9 81199

�� �

.

..

La valeur de T centrée réduite est supérieure en valeur absolue à 1.96, on rejettedonc l'hypothèse nulle d'égalité des moyennes.

Page 95: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'ajustement

Statistiques Page 16-1

16 (�� �� �*�� ���

� � ����� ��

On désire tester l'hypothèse nulle que la variable étudiée X est distribuée suivant uneloi donnée. On distingue plusieurs cas:� 1 ier cas: la distribution est discrète et entièrement spécifiée� 2 ième cas: la distribution est continue et entièrement spécifiée� 3 ième cas: la distribution possède des paramètres inconnus

� ��� ���� ��������$ ��� �����$ ��� ����"���

Supposons que X prenne les valeurs 1,2,...,I avec les probabilités p1,p2, pI. Dansl'échantillon de taille n, on observe nl valeurs 1 pour X, n2 valeurs 2, .. -, nI valeurs I.

Les fréquences relatives sont nl/n,n2/n, ni/n. Si l'hypothèse nulle affirmant que X estdistribué suivant p1,p2, pI, on s'attend à avoir ni/n proche de pi (i=1,2, I).Introduisons une mesure d'écart entre les fréquences absolues théoriques attendues(ici n*pi) et les fréquences absolues observées (ici ni):

CHI CARREn n p

n pi i

i

� ��

�( . )

.

2

Cette mesure d'écart est donc du type:

CHI CARREfo fe

fei i

i

� ��

�( )2

où foi est la fréquence absolue observée et fei la fréquence absolue attendue (ouespérée) si l'hypothèse nulle est vraie.

� �obsn

I.��

�� ��� 1

On peut montrer que, pour n suffisamment grand, la mesure CHI-CARRE estasymptotiquement distribuée suivant une loi chi-carré à I-1 degrés de liberté.

Page 96: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'ajustement

Statistiques Page 16-2

RH ssi obs I0 1. . . ;� � �� �

Un test au niveau � consiste donc à rejeter l'hypothèse nulle si la valeur observéeCHI-CARRE dépasse la valeur du quantile d'ordre 1-� d'une loi chi-carrée à I-1degrés de liberté.

Il est facile de voir que CHI-CARRE s'exprime plus commodément pour les calculspar:

CHI CARREn

n pni

i

� � ��2

.

� $�������##��

Un dé a été jeté 50 fois.

ni pi n.pi (foi-fei)^2/fei1 9 0.1667 8.3333 0.05332 6 0.1667 8.3333 0.65333 4 0.1667 8.3333 2.25334 10 0.1667 8.3333 0.33335 8 0.1667 8.3333 0.01336 13 0.1667 8.3333 2.6133

50 5.92

Le dé est-il équilibré ?

Choisissons un niveau de 5%, la valeur lue dans les tables C(5,0.95)= 11.07; commela valeur observée 5.92 est inférieure à la valeur lue dans les tables, on acceptel'hypothèse nulle que le dé est équilibré.

� ��� ���� ����� ����� �����$ ��� ����"���

On se ramène au cas précédent en subdivisant le domaine de définition (les valeurspossibles pour) de X en intervalles disjoints et exhaustifs (dont la réunion donne ledomaine de définition). En appelant & la probabilité de chacun de ces intervalles, onest ramené au cas précédent.Dans la pratique, on conseille d'avoir au moins 8 intervalles et au moins 7-10observations par intervalle.

Page 97: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'ajustement

Statistiques Page 16-3

� $�������##��

On veut tester l'hypothèse nulle que X est distribué suivant une loi normale demoyenne 1.1 et d'écart-type 0.2.On décide de prendre pour subdivision du domaine de X, 10 intervalles D1,D2,...D10:Dl= [X < 0.6]D2 = [ 0.6 < X < 0.7]D3 = [0.7 < X < 0.8]...D9 = [ 1.3 < X < 1.4]D10 = [X > 1.4]

La probabilité pi de chaque Di peut être calculée à l'aide des tables d'une loi normaleréduite :

� � � �� � � ���

������

����

���

P D P a bb a

i i ii i,

.

.

.

.

11

0 2

11

0 2

Sur un échantillon de 1000 épreuves on a observé:

Intervalles ni pi n.pi (ni-n.pi)2/n.piD1 26 0.0062 6.2 63.23D2 51 0.0166 16.6 71.28D3 107 0.0440 44.0 90.20D4 168 0.0889 88.9 70.38D5 200 0.1528 152.8 14.58D6 193 0.1915 191.5 0.01D7 138 0.1915 191.5 14.94D8 80 0.1528 152.8 34.68D9 29 0.0889 88.9 40.36D10 8 0.0668 0.8 64.80

CHI-CARRE = 399.60

Pour un niveau de 5%, cette valeur observée dépasse de loin la valeur lue dans lestables C(9,0.95)=19.92; on rejette l'hypothèse nulle.

� +���������

On commence par estimer les paramètres inconnus. On estime les pi théoriques enremplaçant les paramètres inconnus par leurs estimations et on évalue la quantitéCHI-CARRE. Cependant il faut corriger les degrés de liberté en ôtant un degré parparamètre estimé.

Page 98: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'ajustement

Statistiques Page 16-4

� $�������##��

On veut tester l'hypothèse nulle que X est distribué suivant une loi de Poisson. Dansun échantillon de 400 épreuves, on a observé la répartition suivante:

i 0 ou 1 2 3 4 5 6 7 8 9 10 11 12 13 14 et plus----------------------------------------------------------ni 20 43 53 86 70 54 37 18 10 5 2 2 0 0

La loi de Poisson est définie par pi ei

i

� � �

.�

!� �

, où � est un paramètre inconnu. On

estime � par la moyenne observée XBAR:

^� = XBAR = (20 * 1 + 43 * 2 + ... + 2 * 12) / 400 = 4.68

Chaque pi peut ainsi être estimé.

On dresse le tableau:

i nb pi estimé n x pi CHI-CARRE0 ou 1 20 0.0527 21.1 0.05522 43 0.1016 40.6 0.13723 53 0.1585 63.4 1.70604 86 0.1855 74.2 1.87645 70 0.1736 69.4 0.00446 54 0.1354 54.1 0.00047 37 0.0905 36.2 0.01768 18 0.0529 21.1 0.47209 10 0.0275 11.0 0.090810 et plus 9 0.0218 8.7 0.0152

CHI-CARRE 4.3772

Le nombre de degrés de liberté est de 9 - 1 (car il y a 1 paramètre estimé p), pour unniveau 5%, on lit dans les tables C(8,0.95)=15.51, comme la valeur observée CHI-CARRE est inférieure à la valeur lue dans les tables, on accepte l'hypothèse nulleque X est distribué suivant une loi de Poisson.

Page 99: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'indépendance entre 2 variables nominales

Statistiques Page 17-1

17 (�� �� ��������� ���%������������������

� � ����� ��

On considère 2 caractères nominaux. On désire tester l'hypothèse nulled'indépendance de ces 2 caractères.

Le premier caractère prend les valeurs 1.,2, ..., i,.... , I et le deuxième les valeurs l, 2,...,j, ...., J. Les observations sont rangées dans un tableau de contingence il y nij

observations ayant la valeur i pour le premier caractère et la valeur j pour le 2 ième;ni+ est le nombre total d'observations ayant la valeur i pour le premier caractère (quelque soit le deuxième) et n+j est le nombre total d'observations ayant i pour valeur du2 ième (quel que soit le premier). Au total, on a n++ observations.

� +)�'+,���

Reprenons la mesure d'écart CHI-CARRE introduite pour tester un ajustementdistributionnel; son expression est:

Chi carréfo fe

fe� �

��

( )2

où fo est la fréquence (absolue) observée et fe la fréquence (absolue) théorique sousl'hypothèse nulle.Ici fo = nij (i=1,2,...,I et j=1,2, ... J).Pour l'hypothèse nulle d'indépendance que vaut fe, la fréquence absolue théorique ?Si les deux caractères sont indépendants, la probabilité d'observer i et j vaut:

Page 100: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'indépendance entre 2 variables nominales

Statistiques Page 17-2

� � � � � �

� �

P P i P j

n

n

n

n

fe n P

nn

n

n

n

n n

n

i j

i j

i j

i et j

i et j

'

��

��

��

���

��

��

� �

��

.

.

.

. .

.

Finalement:

�2

2

��

��

��

� �

��

� �

��

�n

n n

nn n

n

iji j

i j

.

.

� (�� �����������

On peut montrer que sous l'hypothèse nulle, CHI-CARRE converge en loi vers unedistribution chi-carre à (I-1)(J-1) degrés de liberté.

� �obsn

i j. ( ).( )��

� �� ��� 1 1

On en déduit qu'un test au niveau � consiste à rejeter l'hypothèse nulled'indépendance lorsque la valeur observée CHI-CARRE est supérieure à la valeurc((I-1)(J-1);1-�) du quantile d'ordre 1-� d'une loi chi-carré à (I-1)(J-1) degrés deliberté.

RH ssi

obs i j

0

1 1 1

.

. ( ).( );� � �� � � �

� ��������!�""��

Dans un échantillon de 413 personnes, on a relevé le nombre de gauchers, dedroitiers et d'ambidextres. Pour ces mêmes personnes, on a mesuré la qualité de lavision des 2 yeux; certains voient mieux de l'œil gauche, d'autres de l'œil droit,d'autres ont la même vision des 2 yeux.

Page 101: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'indépendance entre 2 variables nominales

Statistiques Page 17-3

On veut tester l'hypothèse nulle d'indépendance du caractère "gaucher-droitier-ambidextre" (noté X) du caractère "gauche-droite-égale" pour la vision (noté Y).Les 413 personnes se répartissent de la manière suivante:

G D =G 34 62 28 124D 27 28 20 75A 57 105 52 214

118 195 100 413

Reportons les fréquences absolues théoriques ni+ n+j / n++ :

G D =G 35.43 58.55 30.02D 21.43 35.41 18.16A 61.14 101.04 51.82

Calculons le CHI-CARRE observé:

Chi carré� ��

��

� ��

�( . )

.

( . )

....

( . )

..

34 3542

3542

62 5854

5854

52 5181

518135

2 2 2

On choisit un niveau de 5%, (I-1)(J-I)=4, et la valeur lue dans les tables vautc(4,0.95)=9.49. Comme CHI-CARRE < 9.49, on ne rejette pas l'hypothèsed'indépendance des 2 caractères au niveau 5% .

Page 102: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'indépendance entre 2 variables ordinales

Statistiques Page 18-1

18 ������������� ��������������������������

� ������

Reprenons le coefficient de Spearmann mesurant la dépendance entre 2 variablesordinales. Pour fixer les idées, examinons l'exemple suivant. On a demandé à de vraisjumeaux séparés depuis la naissance de classer dans l'ordre de leurs préférences 5tableaux.

Jumeau A Jumeau B Diff. des rangs

Diff. des rangs au carré

A 2 3 -1 1B 4 5 -1 1C 3 2 1 1D 1 1 0 0E 5 4 1 1

Somme = 4

Le coefficient de Spearmann vaut

RsD

n n� �

� ��

� � � � �

16

1

124

5 5 1

124

1201 0 2 08

2

2

2

.

.( )

.( )

. .

Est-ce une valeur significative d'une communauté de goût entre les jumeaux, ou bienest-ce une valeur attribuable au "hasard" sans qu'il ne soit nécessaire d'invoquer unedépendance quelconque ?Testons donc l'hypothèse nulle H0 qu'il n'existe pas de dépendance (H1 = "il existe unedépendance") à l'aide du coefficient de Spearmann.

Page 103: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'indépendance entre 2 variables ordinales

Statistiques Page 18-2

� ��������������� ����������������

Au chapitre consacré aux distributions de probabilité, nous avons vu comment il estpossible de connaître la distribution de probabilité du coefficient de corrélation deSpearmann dans le cas où les deux variables sont indépendantes (c'est-à-dire sousl'hypothèse nulle !). En reprenant le même raisonnement, voici les valeurs possibles ducoefficient rs et leur probabilité respective pour n=5.

Valeurspossibles

Nombre decas

Probabilité

-1 1 0.8%-0.9 4 3.3%-0.8 3 2.5%-0.7 6 5.0%-0.6 7 5.8%-0.5 6 5.0%-0.4 4 3.3%-0.3 10 8.3%-0.2 6 5.0%-0.1 10 8.3%0 6 5.0%0.1 10 8.3%0.2 6 5.0%0.3 10 8.3%0.4 4 3.3%0.5 6 5.0%0.6 7 5.8%0.7 6 5.0%0.8 3 2.5%0.9 4 3.3%1 1 0.8%

� Lorsque les variables sont indépendantes, Rs fluctue autour de 0; il prend la valeur 0avec une probabilité de 5%.

� Rs prend une valeur comprise entre -0.1 et +0.l avec une probabilité de 8.3% + 5% +8.3% = 21.6%

� Rs prend une valeur comprise entre -0.3 et +0.3 avec une probabilité de 46.2% , etc.� Sous l'hypothèse nulle, Rs prend rarement la valeur +1 (probabilité égale à 0.8%) ou -

1 (probabilité égale à 0.8%).� Par contre sous la contre-hypothèse (c'est-à-dire lorsque les variables sont

dépendantes), Rs fluctue autour de +1 (ou de -1).

Page 104: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'indépendance entre 2 variables ordinales

Statistiques Page 18-3

D'où l'idée de construire la zone d'acceptation de l'hypothèse nulle autour de 0, et telleque sa probabilité soit au plus de 1-� (niveau du test).

Par exemple pour un niveau de 10%, la zone d'acceptation est

Rs� 08.

en effet, la probabilité que Rs soit supérieur à 0.8 vaut;

2 08% 33%) 8 2%

10%

.( . . .� �

�c est dire' - à -

alors que la probabilité que Rs soit supérieur à 0.7 vaut:

2 08% 33% 2 5%) 132%

10%

.( . . . .

'

� � �

� � �c est à dire

Dans la pratique, pour déterminer la zone de rejet on dispose de tables donnant lesquantiles de Rs.

RH0 ssiRs > valeur tabulée

� ������������������������

Pour n grand (dans la pratique n>10), on peut montrer que

Rsn

Rstn

n.�

�� ���

2

1 210

2

est distribué suivant une loi de Student à n-2 degrés de liberté.

RH ssi

Rsn

Rstn

0

2

1 2 2 1

.

. ;

��

� ��

On rejette donc l'hypothèse si la valeur observée pour t dépasse la valeur lue dans lestables de t à n-2 degrés de liberté et au niveau 1-� (test unilatéral).

Par exemple un coefficient de 0.82 pour 12 observations conduit à

Page 105: M. Ingenbleek 1997-1998 - Abdelaziz Benkhalifadonc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus

Test d'indépendance entre 2 variables ordinales

Statistiques Page 18-4

t t

RH

��

�� � � �

08212 2

1 082082

10

0 32764 53 182

0

2. .

.. .

.. .

cette quantité est supérieure à 1.82, valeur lue dans les tables au niveau 5%; on rejettedonc l'hypothèse nulle d'indépendance au profit d'une dépendance positive.