Download - Statistique Descriptive Serie Statistique
-
Statistiquedescriptive
Sries statistiques une et deux variablesSries chronologiquesIndices
Une prsentation synthtique et illustre des sries statistiques une ou deux variables, des sries chronologiques et des indices.
Lim-891.qxd copie 1/12/05 9:46 Page 1
gerbig
-
Fabrice MAZEROLLEest Matre de confrences la Facult dAix-Marseille III. Il enseignegalement la statistique descriptive dans divers tablissementsdenseignement suprieur.
Gualino diteur, EJA Paris 2006ISBN 2 - 84200 - 891 - X
Site internet de lauteur : www.mazerolle.fr
Du mme auteur
Exercices corrigs de statistique descriptive (coll. Exercices corrigs) 1re dition 2006
Lim-891.qxd copie 1/12/05 9:46 Page 2
Dpt lgal : dcembre 2005
-
Fabrice MAZEROLLE
Statistiquedescriptive
Sries statistiques une et deux variablesSries chronologiquesIndices
Une prsentation synthtique et illustre des sries statistiques une ou deux variables,des sries chronologiques et des indices.
Lim-891.qxd copie 1/12/05 9:46 Page 3
-
Plusieurs sries de livres pour les tudiants des facults dedroit, des sciences politiques, conomiques et de gestionainsi que pour les candidats aux concours de la Fonctionpublique (catgorie A) :
Manuels Mmentos Les textes fondamentaux Panorama Abrgs illustrs Exercices corrigs
(collection en partenariat avec LGDJ) AnnaDroit LMD
(dition annuelle des sujets dexamen) Carrs Rouge Les glossaires QCM et QRC
Catalogue gnral adress gratuitement sur simple demande :
Gualino diteurTl. 01 56 54 16 00Fax : 01 56 54 16 49
e-mail : [email protected] Internet : www.eja.fr
Lim-891.qxd copie 1/12/05 9:46 Page 4
-
Remerciements
Je tiens remercier mon collgue Bernard PY pour mavoir,tout au long de la rdaction de ce Mmento,
fait bnficier de sa grande exprience de la statistique.
3755_C01XP 21/11/2005 10:50 Page 5
-
3755_C01XP 21/11/2005 10:50 Page 6
-
conomiques et sociales.
Aprs un chapitre introductif, dans lequel le vocabulaire des statistiques est expos,
contient de nombreux exemples permettant dacqurir une pratique de cette matire :
x Les sries statistiques une dimension : Qu'il s'agisse de la dcomposition du Produit Intrieur Brut d'un pays par secteur d'activit, ou de l'volution du chiffre
d'affaires d'une entreprise travers le temps, l'tudiant doit pouvoir en matriser la forme
et la signification : prsentation en tableaux, en graphiques et calcul des caractristiques
x Les sries statistiques deux dimensions : Le plus souvent, les tableaux et les graphiques prsentent simultanment deux - voire plusieurs - dimensions d'un mme
phnomne, dans le but d'tudier leur interdpendance. Il existe pour cela des mthodes
statistiques spcifiques, dont la plus connue est le coefficient de corrlation.
x Les sries chronologiques : L'volution des phnomnes conomiques et sociaux dans le temps joue un rle si important en conomie que l'tude des sries
chronologiques mrite un traitement particulier, afin d'exposer en dtail des outils tels
que la dcomposition d'une srie sous forme dun trend et dune composante
saisonnire.
x Les indicesindispensable d'en connatre la construction, la manipulation et les proprits.
aux tudiants d'AEJ et de sciences conomiques et
gestion, mais aussi tous les tudiants des formations dont le cursus comprend une
initiation la statistique descriptive.
Il peut tre utilement complt par :
Le livre Exercices Corrigs de Statistique Descriptive, publi dans la collection Fac-
logiciels des exercices et des techniques statistiques exposs dans cet ouvrage.
x Un glossaire, en fin douvrage, reprend les principales formules tudies dans le livre.
Universit, du mme auteur.
est rgulirement mise jour par des exercices corrigs, ainsi que des prolongements
L'ouvrage s'adresse en priorit
dont la rubrique Statistique descriptive
Ce mmento de Statistique Descriptive prsente de faon synthtique, structure et
l'ensemble des connaissances ncessaires est dvelopp en quatre parties. Louvrage
matriser en sciences illustre l'ensemble des connaissances et des techniques
rsumes d'une srie de chiffres (moyenne, cart-type, mode, mdiane, etc.).
: Ils sont trs utiliss en sciences sociales, de sorte quil est
Le site Internet de l'auteur, www.mazerolle.fr
Prsentation
3755_C01XP 21/11/2005 10:50 Page 7
-
3755_C01XP 21/11/2005 10:50 Page 8
-
PrsentationChapitre 1 Vocabulaire de la statistique descriptive 15
1 Champ de la statistique descriptive 15A Dfinition 15B Statistique descriptive et statistique mathmatique 15
2 Description dune population statistique 16A Units statistiques, population, chantillons 16B Caractres et variables 16C Modalits ordinales, modalits nominales 18D Valeurs discrtes, valeurs continues 19E Units individuelles et units groupes 19F Effectifs, frquences, pourcentages, ratios, taux et indices 21
1) Effectifs ou frquences absolues 212) Frquences relatives et pourcentages 213) Ratio, taux et indices 22
G Tableau rcapitulatif 23
3 Taux de croissance 24A Dfinition 24B volutions successives 25C Taux de croissance moyen 25D Taux de croissance dun produit 26E Taux de croissance dun rapport 26
4 Oprateurs somme et produit 27A Loprateur somme 27B Loprateur produit 28
Sommaire
3755_C01XP 21/11/2005 10:50 Page 9
7
-
PARTIE 1 Les sries statistiques une dimension
Chapitre 2 Tableaux et graphiques 331 Tableaux 33
A Tableaux de donnes qualitatives 33B Tableaux de donnes quantitatives 36
1) Variable quantitative discrte, valeurs connues individuellement 362) Variable quantitative discrte, valeurs regroupes 363) Variable quantitative continue, valeurs connues individuellement 374) Variable quantitative continue, donnes groupes 37
2 Graphiques 38A Importance des graphiques 38B Donnes individuelles 39
1) La ligne 392) Le graphique tige et feuilles 40
C Donnes groupes par modalits ou valeurs 411) Diagramme en btons 412) Diagramme en barres 423) Nuage de points dans le cas dune srie unidimensionnelle 43
D Camembert ou graphique en tarte ? 44E Lhistogramme 45F Lutilisation des graphiques des fins de comparaison 47
1) Le radar, excellent moyen deffectuer des comparaisons visuelles 472) Comparaisons dans le temps 483) Les graphiques de sries chronologiques 484) Un beau graphique vaut mieux quun long discours 495) Les graphiques dindices 506) Les chelles semi-logarithmiques 51
Chapitre 3 Les caractristiques de tendance centrale 531 Les moyennes 53
A La moyenne arithmtique 531) La moyenne arithmtique simple 532) La moyenne arithmtique pondre 543) La moyenne lague 56
B La moyenne quadratique 571) La moyenne quadratique simple 572) La moyenne quadratique pondre 57
C La moyenne gomtrique 581) La moyenne gomtrique simple 582) La moyenne gomtrique pondre 58
G10 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 10
-
D La moyenne harmonique 591) La moyenne harmonique simple 592) La moyenne harmonique pondre 59
2 La mdiane 60A Calcul de la mdiane : effectif impair et aucune valeur nest rpte 61B Calcul de la mdiane : effectif pair et aucune valeur nest rpte 61C Calcul de la mdiane : effectifs groups par valeurs 62D Calcul de la mdiane : effectifs groups par classes de valeurs 63
3 Le mode 65A Calcul du mode : srie simple, aucune valeur nest rpte 65B Calcul du mode : effectifs groups par valeurs 65C Calcul du mode : effectifs groups par classes damplitudes gales 65D Calcul du mode : effectifs groups par classes damplitudes ingales 66
4 Comment caractriser la forme dune distribution laide de la moyenne arithmtique, de la mdiane et du mode 68A Distribution parfaitement symtrique 68B Distribution tale droite 69C Distribution tale gauche 70
Chapitre 4 Dispersion et concentration 711 Lintervalle de variation 71
2 Lintervalle interquartile 72
3 La bote moustache 78A Dfinition 78B Utilit de la bote moustache pour comparer des sries 79C Utilit de la bote moustache pour dterminer la forme
dune distribution 80
4 Variance, cart-type et coefficient de variation 81A La variance 81
1) Dfinition 812) Mode de calcul de la formule (1-a) 823) Mode de calcul de la formule dveloppe 83
B Lcart-type et le coefficient de variation 841) Lcart-type 842) Le coefficient de variation 85
G11Sommaire
3755_C01XP 21/11/2005 10:50 Page 11
-
5 Les indicateurs de concentration 87A La mdiale 87B La dtermination de la concentration par la mthode graphique 88C Lindice de GINI 90D Lcart mdiale-mdiane rapport lintervalle de variation 92
PARTIE 2 Les sries statistiques deux dimensions
Chapitre 5 Les sries statistiques deux dimensions. I : tableaux, graphiques, vocabulaire 97
1 Tableaux et graphiques 97A Sries quantitatives connues individuellement 97B Sries quantitatives groupes 99C Sries qualitatives 100
2 Reprsentation abstraite dun tableau de contingence 101
3 Effectifs marginaux et frquences marginales 103
4 Moyennes et variances marginales 104A Moyennes marginales 104B Variances marginales 105
5 Frquences partielles sur effectif total 106
6 Distributions conditionnelles 106
7 Moyennes et variances conditionnelles 108A Moyennes conditionnelles 108B Variances conditionnelles 109
Chapitre 6 Les sries statistiques deux dimensions. II : outils danalyse 111
1 Sries quantitatives avec observations connues individuellement 111A Liaison linaire, liaison non linaire, absence de liaison 111B La droite de rgression linaire 114
1) Dfinition 1142) Calcul des coefficients 1153) Utilit de la droite de rgression 117
C Le coefficient de corrlation 1171) Dfinition et calcul 1172) Coefficient de corrlation et coefficient de dtermination 1183) Corrlation et causalit 118
G12 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 12
-
2 Sries quantitatives avec observations groupes 120A Cas des donnes groupes par valeurs
B Cas des donnes groupes par classes1) Le coefficient de corrlation2) Le test dindpendance 124
3 Sries qualitatives 125125
B Le test du Khi-carr de PEARSONS 127
PARTIE 3 Les sries chronologiques
Chapitre 7 Les sries chronologiques 1311 Introduction 131
A Dfinition 131B Priodicit 132C Tendance, variations saisonnires et accidentelles 133D Modle multiplicatif et modle additif 134
2 Dtermination du trend dune srie chronologique 135A La dtermination du trend par la rgression linaire 135B La dtermination du trend par la mthode des moyennes mobiles 137
3 Les variations saisonnires 140A Vocabulaire 140B Les tapes du calcul de la srie CVS 141
1) Dtermination de lquation du trend 1422) Calcul des coefficients saisonniers 1433) Dtermination de la srie CVS 145
4 Les variations accidentelles 146
PARTIE 4 Les indices
Chapitre 8 Les indices 1511 Introduction 151
A Dfinition et exemples 151B Indice temporel et indice de situation 152C Indice lmentaire et indice synthtique 154
G13Sommaire
3755_C01XP 21/11/2005 10:50 Page 13
A Le coefficient de corrlation de rang de SPEARMAN
120121121
-
2 Les indices synthtiques de LASPEYRES, PAASCHE et FISHER 156A Dfinition de la valeur dun panier de biens 156B Les indices de LASPEYRES 156
1) Lindice de LASPEYRES des prix 1562) Lindice de LASPEYRES des quantits 158
C Les indices de PAASCHE 1581) Lindice de PAASCHE des prix 1592) Lindice de PAASCHE des quantits 159
D Les indices de FISHER 1601) Lindice de FISHER des prix 1602) Lindice de FISHER des quantits 161
3 Lindice des prix la consommation de lINSEE 161
Glossaire des formules 163Bibliographie 173
G14 MMENTO STATISTIQUE DESCRIPTIVE
Avertissement
Les erreurs ventuelles qui subsisteraient dans cette premire dition sont toutes de mon fait etseront corriges dans les ditions ultrieures.
3755_C01XP 21/11/2005 10:50 Page 14
-
Il suffit d'allumer son ordinateur ou d'couter les informations la radio pour constater
que les statistiques sont partout. Ceci rvle que le monde moderne est presque
discipline relativement rcente, mais qui correspond parfaitement cette orientation du
monde moderne.
Ce chapitre introductif est consacr la dfinition de la statistique descriptive ainsi que
des diffrents termes qui en constituent le vocabulaire de base.
ensemble de mthodes permettant de dcrire et d'analyser, de faon quantifie, des
phnomnes reprs par des lments nombreux, de mme nature, susceptibles d'tre
Deux points importants ressortent de cette dfinition :
1) Ensemble de mthodes : la statistique descriptive ne contient aucune thorie, mais
seulement des outils d'investigation et de mesure des donnes chiffres.
2) Dcrire et analyser, de faon quantifie, des phnomnes reprs par des lments
nombreux : dcrire, c'est--dire faire des tableaux, des graphiques, calculer des
moyennes afin de faire ressortir la signification.
La statistique descriptive appartient cependant un ensemble plus vaste, la
statistique gnrale, qui se divise en deux branches : statistique descriptive, objet de
ce mmento, et la statistique mathmatique (ou statistique "infrentielle"), dont l'objet
est de formuler des lois de comportement partir d'observation souvent incompltes.
Cette dernire intervient dans les enqutes et les sondages. Elle s'appuie non
seulement sur la statistique descriptive, mais aussi sur le calcul des probabilits.
Statistique gnrale
Statistique mathmatique
Statistique descriptive
Schma 1 : Les deux branches de la statistique
A Dfinition
B Statistique descriptive et statistique mathmatique
1 x CHAMP DE LA STATISTIQUE DESCRIPTIVE
Vocabulaire de la statistique descriptive
dnombrs et classs.
comprendre et russir (ditions Economica) : La statistique [descriptive] est un
Il existe de nombreuses dfinitions (plusieurs centaines), celle que nous donnons ici est
entirement tourn vers le quantitatif et le mesurable. D'o l'intrt de la statistique,
celle de Bernard PY,dans son livre Statistique descriptive, nouvelle mthode pour bien
CHAPITRE 1
3755_C01XP 21/11/2005 10:50 Page 15
-
Les lments nombreux dont s'occupe la statistique descriptive sont appels des units
statistiques. Ces units sont regroupes dans une population. Lorsque la population est
trop importante pour tre connue entirement, on prlve un chantillon. Les relations qui
existent entre la population, les chantillons et les units statistiques sont rsumes dans
le schma ci-dessous.
PopulationEchantillon 2
Units
En thorie, on doit soigneusement distinguer la description d'un chantillon et la
description d'une population. C'est d'ailleurs l'un des objets principaux de la statistique
mathmatique que de prciser les conditions dans lesquelles un chantillon est
reprsentatif d'une population. De ce fait, certaines formules de calcul qui sont valables
pour une population sont lgrement diffrentes quand on les applique un chantillon.
C'est le cas notamment de la variance (voir le chapitre 3). Cependant, sauf mention
contraire explicite, nous considrons dans cet ouvrage que les sries tudies
constituent une population complte et non un chantillon.
Echantillon 1
repres par le nom et le prnom des tudiants (on a donc une liste). Si l'on souhaite
principale laquelle chaque tudiant se rattache, les matires optionnelles qu'il a choisi,
lge, le poids, la taille, etc.
Schma 2 : Units statistiques, population, chantillons
Parmi ces critres, certains sont quantitatifs, comme lge, le poids, la taille. On peut en
effet effectuer des calculs numriques sur ces critres : poids moyen, taille maximale,
taille minimale, etc. Dautres critres ne sont pas quantifiables, car on ne peut pas
effectuer de calculs dessus. Ils sont qualitatifs. Cest le cas du sexe par exemple. On
Afin de diffrencier les deux type de critres, les critres qualitatifs sont appels des
chiffres dune variable.
2 x DESCRIPTION DUNE POPULATION STATISTIQUEA Units statistiques, population, chantillons
B Caractres et variables
sexe moyen na pas de sens et ne peut dailleurs pas tre calcule.
Dans une population, par exemple celle des tudiants dune facult, les units sont
tudier cette population, on va retenir certains critres dtude comme le sexe, la filire
diffrentes catgories dun caractre qualitatif et on qualifie de valeurs les diffrents
peut connatre leffectif masculin et leffectif fminin dune population, mais la notion de
les caractres et les critres quantitatifs des variables. On dsigne par modalits
G16 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 16
-
effectif masculin de 370. Traduisons ces informations dans le vocabulaire de la statistique
descriptive.
P Effectif total : n = 600Population
i units statistiques
X Caractre
Modalits XF XM
nF
nM
Effectifs associs
chaque modalit370 hommes, 230 femmes
Chaque tudiant i = 1, 2, , n
Le sexe
Fminin ou Masculin
Tableau 1 : Exemple dun critre qualitatif
(*) Il ny a que 9 valeurs, parce que le 10 est rpt 2 fois. Ce qui montre limportance de distinguer les
valeurs de la variable et leffectif de lchantillon (ou de la population). Leffectif varie de 1 n (avec n=10),
tandis que les valeurs varient de 1 9 (avec h=9).
Exemple 2 : soit un chantillon de 10 tudiants ayant pass un examen. Ils ont obtenu les
notes suivantes (sur 20) : {16, 8, 6, 14, 10, 18, 13, 9, 10, 15}.
E Effectif de lchantillon : n=10chantillon
i Units statistiques
X Variable
Valeurs (*){x1, x2, , xh}
Effectifs associs
chaque valeur{1,1,1,2,1,1,1,1,1}
Chaque tudiant i = 1, 2, , n
Notes
{6,8,9,10,13,14,15,16,18}
Tableau 2 : Exemple dun critre quantitatif
{n1, n
2, , n
h}
Leffectif total, n, va se rpartir entre leffectif masculin et leffectif fminin, ce qui nous
permet dcrire que n = nF
+ nM. Cette galit, nous pouvons lcrire parce que les
diffrentes modalits dun caractre sont la fois exhaustives et incompatibles.
Exhaustives, car elles dcrivent toutes les valeurs ou tats possibles dun caractre.
Incompatibles, car un individu ne peut pas avoir plus dune modalit.
Exemple 1 : soit une population de 600 tudiants, avec un effectif fminin de 230 et un
G17Vocabulaire de la statistique descriptive
3755_C01XP 21/11/2005 10:50 Page 17
-
Les modalits d'un caractre qualitatif, si elles ne peuvent pas tre mesures
quantitativement, sont parfois susceptibles d'tre classes. Ce sont des modalits
ordinales.
Exemple 1 : Un questionnaire de satisfaction demande aux consommateurs d'valuer
une prestation en cochant lune des six catgories suivantes :
(a) nulle, (b) mdiocre, (c) moyenne, (d) assez bonne, (e) trs bonne, (f) excellente
Il s'agit de modalits ordinales puisqu'elles peuvent tre hirarchises : une prestation
excellente est meilleure qu'une prestation bonne, etc. La diffrence avec des valeurs
quantitatives est qu'on ne peut dire, par exemple, si une prestation juge excellente est
deux fois ou quatre fois meilleure qu'une prestation dcrite comme moyenne. On peut
effectuer un classement, non une quantification.
Remarque : certaines modalits ordinales peuvent nanmoins tre transformes
valeurs quantitatives. Ce sont en fait des valeurs quantitatives qui prennent l'apparence
de modalits qualitatives ordinales.
Exemple 2 : Des chemises sont classes par taille : XS, S, M, L, XL, XXL, XXXL. Il
s'agit de modalits faussement ordinales. En ralit il existe un tableau de
correspondance qui explicitera quelle taille en cm chacune de ces catgories
Les modalits d'un caractre qualitatif qui ne peuvent pas tre classes ou hirarchises
sont dites nominales.
Exemple 3 : On demande un chantillon de personnes ce qu'voque pour elles un
parfum. Plus prcisment, elles doivent cocher une des cases suivantes :
(a) aventure, (b) sensualit, (c) confort, (d) nostalgie
Il est clair qu'aucune comparaison ni hirarchisation ne peuvent tre tablies entre ces
modalits. Elles sont nominales.
Remarque : Certaines modalits purement nominales sont parfois codes avec des
chiffres. Par exemple, le sexe des individus d'une population sera cod par "1" pour les
hommes et par "2" pour les femmes. Il s'agit bien l d'une tentative de quantification
d'une variable purement nominale. On parle alors de variables pseudo-numriques. On
peut en effet de cette faon calculer une moyenne, qui sera en fait la proportion des
hommes dans la population ou dans l'chantillon.
C Modalits ordinales, modalits nominales
correspond.
G18 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 18
-
Une variable quantitative peut-tre discrte ou continue. Lorsque le nombre de valeurs
possibles est fini (exemple : le nombre denfants, le nombre de pices dun logement, etc.),
la variable est discrte. Lorsque le nombre de valeurs possibles de la variable est infini
(exemple : la taille, le poids ou le revenu des mnages), la variable est continue.
Les units dune population, que le critre soit qualitatif ou quantitatif (discret ou continu),
peuvent tre prsentes individuellement (cest gnralement le cas lorsque les donnes
sont saisies) ou regroupes. Le regroupement peut tre effectu par modalits, par
valeurs ou par classes de modalits ou de valeurs.
consommateurs d'valuer une prestation en cochant lune des six catgories suivantes :
(a) nulle, (b) mdiocre, (c) moyenne, (d) assez bonne, (e) trs bonne, (f) excellente
On prsenter les donnes individuellement (tableau 3), groupes par modalits (tableau 4)
ou par classes de modalits (tableau 5).
Identificateur(*) 1 2 3 4 5 6 7 8 9 10
valuation a e e c e f a f e b
Modalits a b c d e f
Effectif 2 1 1 0 4 2
ClassesDe nulle assez bonne
(a b c d)
De trs bonne excellente
(e f)
Effectif 4 6
Tableau 3 : Donnes prsentes individuellement
Tableau 4 : Donnes groupes par modalits
Tableau 5 : Donnes groupes par classes de modalits
D Valeurs discrtes, valeurs continues
E Units individuelles et units groupes
Exemple 1 : Un questionnaire de satisfaction demande un chantillon de 10
(*) Nom de la personne ou numro si lon veut prserver lanonymat.
G19Vocabulaire de la statistique descriptive
3755_C01XP 21/11/2005 10:50 Page 19
-
Exemple 2 : On a mesur 20 personnes et les rsultats sont (en cm) :
{148, 165, 145, 173, 148, 145, 152, 180, 135, 170, 170, 170, 142, 148, 165, 175, 180, 180, 180, 180}
Il s'agit d'un variable continue (la taille), mais dont les valeurs sont ici connues
individuellement. On peut aussi effectuer un regroupement par taille car certaines tailles,
comme 170 ou 180, apparaissent plusieurs fois (tableau 6).
Taille 135 142 145 148 152 165 170 173 175 180
Effectifs 1 1 2 3 1 2 3 1 1 5
Il est galement possible d'effectuer un regroupement par classes de valeurs. On choisira,
titre d'exemple, un regroupement par classes d'amplitudes gales (tableau 7), puis un
regroupement par classes d'amplitudes ingales (tableau 8). On dsigne par ai,
lamplitude dune classe. Dans le tableau 7, lamplitude de classe est la mme pour toutes
Classes Effectifs
[130-140[ 1
[140-150[ 6
[150-160[ 1
[160-170[ 2
[170-180] 10
Classes Effectifs
[130-150[ 7
[150-170[ 3
[170-180] 10
Lorsque les units statistiques sont groupes par classes, on calcule un centre de classe,
dsign par ci, qui est gal la moyenne des extrmits de classes (voir le tableau 9 pour
Tableau 6 : Donnes groupes par valeurs
Tableau 7 : Groupement par classes
(amplitudes gales)
Tableau 8 : Donnes groupes par valeurs
(amplitudes ingales)
Classes Centres de
classe (ci)
[130-150[ (130+150)/2 = 140
[150-170[ (150+170)/2 = 160
[170-180] (170+180)/2 = 175
Tableau 9 : Calcul des centres de classe
des donnes du tableau 8
les classes (10 cm) alors quelle est de 20 cm, 20 cm et 10 cm dans le tableau 8.
le calcul des centres de classe du tableau 8).
G20 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 20
-
Exemple 3 : On a questionn 100 mnages sur le nombre d'ampoules lectriques utilises
dans leur domicile. Dans le premier tableau, les donnes sont regroupes par nombre
d'ampoules. Dans le second tableau, elles sont regroupes par classes.
Nombre
d'ampoules2 3 4 5 6 7 8 9 11 12 13 15
3 2Effectifs 5 8 8 10 18 16 10 9 6 5
Classes Effectifs
[2-5[ 21
[5-10[ 63
[10-15[ 16
Une fois les units statistiques dune population rpertories, celles-ci sont prsentes
dans des tableaux (voir le chapitre 2), de diverses manires : effectifs ou frquences
absolues, frquences relatives, pourcentages, ratios, indices et taux. Il convient de
dfinir ces termes avec prcision :
Tableau 10 : Regroupement par nombre d'ampoules
Tableau 11 : Regroupement par classes
Il sagit de la rpartition brute des donnes. Lorsque les donnes sont prsentes
individuellement, chaque donne a la mme frquence unitaire dapparition, leur effectif
ou frquence absolue est gal 1. Lorsque les donnes sont regroupes par valeurs
ou modalits, les effectifs ou frquences absolues correspondent au nombre de
donnes qui ont la valeur ou modalit, ou encore qui sont groupes dans une classe
donne.
Symboliquement, les effectifs ou frquences absolues scrivent ni. Et la somme des
effectifs est gale n. Ainsi, dans le cas du tableau 11, les effectifs ou frquences
absolues dont respectivement gaux n1=21, n2=63 et n3=16. De plus, on a :
1 2 321 63 16 100 n n n n
La frquence relative est gale la frquence absolue divise par leffectif total :
i
i
nf
n
(1)
(2)
F Effectifs, frquences, pourcentages, ratios, taux et indices
1) Effectifs ou frquences absolues
2) Frquences relatives et pourcentages
G21Vocabulaire de la statistique descriptive
3755_C01XP 21/11/2005 10:50 Page 21
-
On a donc :
1 21 2
1 2
...... ... 1
h nh
n n n nn n nf f f
n n n n n
Classes
Effectifs ou
frquences
absolues
Frquences
relatives Pourcentages
0,21 21
63
16
100
0,63
0,16
Total 100 1
[2-5[ 21
[5-10[ 63
[10-15] 16
Tableau 12 : Rpartition des mnages en fonction du nombre
dampoules leur domicile
Le tableau 12 reprend lexemple de la rpartition des mnages en fonction du nombre
dampoules utilises leur domicile, en ajoutant la colonne des frquences relatives ct
de celle des frquence absolues. La dernire ligne correspond aux totaux.
Le pourcentage des donnes qui correspondent une modalit, une valeur ou une
classe sobtient en multipliant la frquence relative correspondante par 100. Cest--
dire:
Pourcentage de la valeur (modalit ou classe) i = fix 100
Les colonnes 2 (frquences absolues) et 4 (pourcentages) contiennent les mmes valeurs
car leffectif total est gal 100. Si celui-ci tait diffrent de 100, les valeurs contenues
dans les deux colonnes seraient diffrentes.
Un ratio est une fraction qui divise deux quantits. Les frquences relatives sont des
ratios puisquelles divisent deux quantits. Plus gnralement, les ratios sont trs utiliss
en statistiques.
Exemple 1 : Soit la srie de pices dfectueuses produites par 10 machines au cours
dune semaine donne.
{8, 16, 9, 33, 14, 5, 3, 7, 10, 7}
Le ratio du nombre de pices dfectueuses le plus lev au nombre de pices
dfectueuses le plus faible est 33/3 = 11. La machine numro 4 a donc produit 11 fois plus
de pices dfectueuses que la machine numro 7.
(4)
(5)
3) Ratio, taux et indices
G22 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 22
-
Un taux est le ratio dune quantit par unit (de temps, de surface, de poids, etc.)
Exemple 2 : Soit la srie de pices dfectueuses produites par 10 machines au cours
dune semaine donne.
{8, 16, 9, 33, 14, 5, 3, 7, 10, 7}
Ces chiffres sont des taux car ils sont exprims dans lunit semaine . Cette unit est
1 . On dit par consquent 8 pices par semaine, 16 pices par semaine, etc.
Un indice est le ratio dune quantit une autre quantit qui sert de rfrence, multipli
par 100.
Exemple 3 : Soit la srie de pices dfectueuses produites par 10 machines au cours
dune semaine donne de lexemple 1. Divisons chacune des valeurs de la srie par la
valeur la plus faible et multiplions ensuite chaque valeur par 100. Le rsultat est une srie
dindices, la base 100 tant la machine numro 7.
{ 266,7 ; 533,3 ; 300 ; 1100 ; 466,7 ; 166,7 ; 100 ; 233,3 ; 333,3 ; 233,3 }
Le Schma 3 ci-dessous rcapitule les diffrentes sortes de donnes que lon
rencontre en statistique, en partant de la distinction fondamentale entre donnes
qualitatives et donnes quantitatives.
Donnes
Qualitatives Quantitatives
Modalits
ordinales
Modalits
nominales
Valeurs
discrtes
Valeurs
continues
Donnes individuelles
Donnes groupes
par modalits
Donnes individuelles
Donnes groupes
par classes de modalits
Donnes groupes
par modalits
Donnes groupes
par classes de modalits
Donnes individuelles
Donnes groupes
par valeurs
Donnes groupes
par classes de valeurs
Donnes individuelles
Donnes groupes
par valeurs
Donnes groupes
par classes de valeurs
Schma 3 : Diffrentes sortes de donnes statistiques
G Tableau rcapitulatif
G23Vocabulaire de la statistique descriptive
3755_C01XP 21/11/2005 10:50 Page 23
-
Le taux de croissance est trs utilis en statistique et, plus gnralement, en conomie. Il
se dfinit ainsi :
Valeur d'arriveTaux de croissance = - 1
Valeur de dpart
Soit g = taux de croissance, V0
= valeur de dpart et Vt=valeur d'arrive. On a :
0
0 0
1 t tV V Vg
V V
Le rapport Vt/V
0est appel multiplicateur. Ds lors, on peut crire :
g = multiplicateur - 1
Ou encore :
multiplicateur = 1 + g
Prenons un exemple :
Vt
= 150
V0
= 100
1501 0,5
100g
Le taux de croissance, exprim en pourcentage, est gal 0,5 x 100 = 50%.
Ne pas confondre le taux de croissance, qui est une variation relative, et la variation
t 0
est gale 150 - 100 = 50. En d'autres termes :
0
0 0
1variation absolue
valeur de dpart
t tV V VgV V
(3)
(5)
(6)
(7)
3 x TAUX DE CROISSANCEA Dfinition
1) Ne pas confondre le taux de croissance, qui est une variation relative, avec la
Remarque :
absolue qui est V V . Ici, la variation absolue est gale 150-100 = 50.
variation absolue, qui est gale V V . Dans l'exemple prcdent, la variation absolue t 0
G24 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 24
-
2) En matire de taux de croissance, il n'y a pas de symtrie entre les hausses et les
baisses :
Lorsque je passe de 100 150, le taux de croissance, g est gal (150/100) 1 = 0,5,
comme on l'a vu prcdemment. Mais si maintenant on applique une baisse de 50%
150, on obtient 150(1-0,5) = 75. On ne retrouve pas la valeur de dpart. Le graphique ci-
dessous illustre ce point.
75
100
150
0 1 2
+50%
-50%
Soient g1, g
2,, g
tdes taux de croissance successifs. Le taux de croissance global sur
la priode 1,,t est :
1 21 1 .... 1 1ng g g g
Exemple : soit une hausse de 5% suivie dune hausse de 2%, puis dune baisse de
3%. Quel est le taux de croissance global (sur les 3 priodes) ?
1 0,05 1 0,02 1 0,03 1 0,03887g
Soient g1, g
2,, g
tdes taux de croissance successifs. Le taux de croissance moyen sur
la priode 1,,t est :
1 1tg g
C'est--dire :
1
1 1tg g
Exemple : soit une grandeur qui a augment successivement de g1 = 10%, g
2 = 20% et
g3
= 40% sur 3 ans. Son taux daccroissement global est :
g= (1+0,1)(1+0,2)(1+0,4)-1=0,848
Figure 1 : Une hausse de 50% suivie dune baisse de 50%
(8)
(9)
(9-1)
B volutions successives
C Taux de croissance moyen
G25Vocabulaire de la statistique descriptive
3755_C01XP 21/11/2005 10:50 Page 25
-
Et son taux de croissance moyen sur les trois priodes :
11
331 1 1,848 1g g
Soient deux grandeurs la date t :
01t vV g V 01t uU g U et
Et son taux de croissance est :
La grandeur qui reprsente leur produit est :
01 1t t t v uW V U g g W u
0
1 1 1 1t
w v u
Wg g g
W
Exemple : Soit un commerant qui augmente le prix d'un produit de 4%. la suite de
cette augmentation, la quantit vendue baisse de 3%. Le taux de croissance de la recette
totale est alors donne par :
(1 + 0,04)(1 - 0,03) 1 = (1,04 x 0,97) 1 = + 0,0088
Soit une hausse de 0,88% de la recette totale.
Soient deux grandeurs la date t :
0)1( VgV
vt
0)1( UgU
ut et
La grandeur qui reprsente leur rapport est :
0
(1 )
(1 )
t v
t
t u
V gZ Z
U g
(10)
(11)
(12)
(13)
(14)
(15)
D Taux de croissance d'un produit
E Taux de croissance d'un rapport
G26 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 26
-
Et son taux de croissance est :
(1 )1
(1 )
v
z
u
gg
g
Exemple : soit un commerant qui augmente le prix d'un produit de 4%. la suite de
cette augmentation, il constate que sa recette totale augmente de 0,88%. tonn, il
calcule le taux de croissance de la quantit vendue :
(1 + 0,0088)/(1 + 0,04) - 1= 0,97 1 = - 0,03
Il constate ainsi que la quantit vendue a baiss de 3%. Il comprend alors que si la
recette totale a augment en dpit de la baisse de la quantit vendue, c'est parce que la
baisse de la quantit vendue (3%) a t moins importante que l'augmentation du prix
(4%) et s'endort content.
L'expression de gauche se lit ainsi "somme des xi
pour i allant de 1 4". Plus
gnralement, pour une somme de n lments, on crit :
Sigma oprateur somme1 2 3 4
produit de ces 4 valeurs est donn par l'expression :
4
1 2 3 4
1
i
i
x x x x x
1 2 4
1
...
n
i
i
x x x x
xi
yi
1 2
-3 3
-4 4
2 5
4
1
i
i
x
4
1
i
i
y
4
2
1
i
i
x
4
1
i i
i
x y
4
2
1
i i
i
x y
Pour exprimer une somme d'lments de faon compacte, on utilise l'oprateur
somme, symbolis par la lettre grecque majuscule "Sigma".
(16)
4 x OPRATEURS SOMME ET PRODUITA Loprateur somme
Exemple 2 : soit le tableau de valeurs suivant. Calculons les expressions :
Exemple 1 : soit quatre valeurs d'une variable x, indices par i : x , x , x , x . Le
G27Vocabulaire de la statistique descriptive
3755_C01XP 21/11/2005 10:50 Page 27
-
1 2 1 3 2
-3 3 9 0 27
-4 4 16 0 64
2 5 4 7 20
- 4
ix
iy
2
ix i ix y
2
i ix y
4
1
14i
i
y
4
2
1
30i
i
x
4
1
10i i
i
x y
4
1
1 3 4 2 4i
i
x
4
2
1
113i i
i
x y
1 2 3 4
Pour exprimer un produit d'lment de faon compacte, on utilise l'oprateur produit,
symbolis par la lettre grecque majuscule Pi :
Pi oprateur produit
4
1 2 3 4
1
i
i
x x x x x
u u uL'expression de gauche se lit ainsi "produit des x
ipour i allant de 1 4". Plus
gnralement, pour un produit de n lments, on crit :
1 2 4
1
...
n
i
i
x x x x
u u u
Exemple 2 : soit le tableau de valeurs suivant. Calculons les expressions :
xi
yi
1 2
-3 3
-4 4
2 5
4
1
i
i
x
4
2
1
i
i
x
4
1
i
i
y
4
1
i i
i
x y
4
2
1
i i
i
x y
D'o le tableau :
B L'oprateur produit
produit de ces 4 valeurs est donne par l'expression :
Exemple 1 : soit quatre valeurs d'une variable x, indices par i : x , x , x , x . Le
G28 MMENTO STATISTIQUE DESCRIPTIVE
3755_C01XP 21/11/2005 10:50 Page 28
-
1 2 1 3 2
-3 3 9 0 27
-4 4 16 0 64
2 5 4 7 20
24
ix
iy
2
ix i ix y
2
i ix y
4
1
120i
i
y
4
1
0i i
i
x y
4
1
1 3 4 2 24i
i
x
u u u
4
2
1
576i
i
y
4
2
1
69120i i
i
x y
D'o le tableau :
G29Vocabulaire de la statistique descriptive
3755_C01XP 21/11/2005 10:50 Page 29
-
3755_C01XP 21/11/2005 10:50 Page 30
-
11PARTIELes sries statistiques
une dimension
3755_C02XP 21/11/2005 10:51 Page 31
-
3755_C02XP 21/11/2005 10:51 Page 32
-
Un tableau statistique est juste une liste de chiffres relative au caractre de la population
que l'on souhaite tudier, prsente de faon la plus comprhensible possible. Les
donnes peuvent tre prsentes individuellement, sous forme d'effectifs, de frquences
ou de pourcentages et encore de bien d'autres faons.
Tableaux et graphiques constituent les deux moyens principaux de prsentation des
donnes statistiques. tant donn l'abondance des prsentations tabulaires et
graphiques, nous n'tudierons ici que les principales.
Cette section propose d'tudier quelques exemples de tableaux-types, afin de
familiariser le lecteur avec les modes de prsentation les plus frquents. L'analyse des
tableaux deux ou plusieurs caractres est renvoye la seconde partie de l'ouvrage.
qualitatif. Il a sept modalits, listes dans la premire colonne. La seconde colonne
zones. La dernire ligne, en caractres gras, indique le total mondial.
Zones gographiques (1) Effectifs en millions
Asie 302,2
Europe 259,6
Amrique du Nord 221,4
Amrique du Sud/Carabes 56,2
Moyen-Orient 19,3
Ocanie/Australie 16,2
Afrique 13,4
Total 883,3
Source : www.internetworldstats.com/stats
Note : Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.
Tableau 1 : Utilisateurs d'Internet par zones gographiques
(Effectifs en mars 2005)
Tableaux et graphiques
1 x TABLEAUX
A Tableaux de donnes qualitatives
Le tableau (1) ci-dessous indique la rpartition par continent des utilisateurs d'Internet
indique les effectifs, c'est--dire ici le nombre d'utilisateurs d'internet dans chacune des
en 2003. Le caractre tudi la rpartition continentale des utilisateurs d'Internet est
CHAPITRE 2
3755_C02XP 21/11/2005 10:51 Page 33
-
Remarquons que les donnes ont t classes, non par ordre alphabtique des zones
(ce qui est normalement le cas), mais par ordre croissant du nombre d'utilisateurs, ceci
Ce tableau peut tre complt de plusieurs faons, afin d'en faciliter l'analyse.
Premirement, on peut prsenter les chiffres en pourcentages, dans une seconde
colonne, afin de mieux apprcier la part de chaque zone dans le total des utilisateurs.
C'est ce qui a t fait dans le tableau ci-dessous (colonne 3).
Deuximement, la colonne (4) prsente la somme cumule des pourcentages, de
concentration des utilisateurs. On voit ainsi que les 3 premires zones (Asie, Europe et
Amrique du Nord) totalisent 88,7% des utilisateurs, les quatre autres zones (Amrique
100 - 88,7 = 11,3% des utilisateurs.
Zones gographiques (1)Effectifs
en millionsPourcentages
302,2 34,02
29,22
24,92
6,33
2,17
1,82
1,51
100
259,6
221,4
56,2
19,3
16,2
13,4
883,3
Pourcentages
cumuls
Asie 34,02
62,24
88,17
94,49
96,67
98,49
100
Europe
Amrique du Nord
Amrique du Sud/Carabes
Moyen-Orient
Ocanie/Australie
Afrique
Total
Source : www.internetworldstats.com/stats
On prendra soin de toujours indiquer la source des donnes, afin que l'utilisateur du
tableau puisse ventuellement s'y rfrer. Il est galement important d'ajouter toute note
utile pour la comprhension des donnes. Dans l'exemple des zones gographiques, il
peut tre ncessaire soit d'numrer les pays qui figurent dans les zones, soit de rfrer
la source ( condition qu'elle le fasse, ce qui est le cas ici, mais il faut le vrifier).
Note : Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.
Troisimement, il est souvent ncessaire de prsenter des donnes complmentaires,
quand elles sont disponibles, pour faciliter la comprhension des donnes principales.
Ici, par exemple, on peut souhaiter connatre les populations des zones concernes,
ainsi que la population mondiale, afin de rapporter le nombre d'utilisateurs d'internet un
indicateur des utilisateurs potentiels.
afin de faire apparatre les zones o l'utilisation d'Internet est la plus rpandue.
du sud/carabes, Moyen-Orient et Ocanie/Australie) ne reprsentent quant elles que
faon mettre en vidence la contribution additionnelle de chaque zone ainsi que la
Tableau 2 : Utilisateurs d'Internet par zones gographiques
(Effectifs, pourcentages et pourcentages cumuls en mars 2005)
G34 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 34
-
en pourcentage de la
population de chaque zone, et la population mondiale de chaque zone en pourcentage de
la population mondiale totale. Le tableau fournit galement, sur la dernire ligne, le
multipliant les pourcentages par les totaux de la colonne correspondante.
Par exemple, si l'on veut retrouver le nombre d'utilisateurs d'internet en Asie, il suffit
d'effectuer l'opration suivante :
Zones gographiques (1)
Nombre dutilisateurs
en % de la population
de chaque zone
Population de chaque zone
en % de la population mondiale
Asie 34,02
29,22
24,92
6,33
2,17
1,82
1,51
888,3
Europe
9,61
11,48
51,58
8,59
4,07
0,52
14,14
Amrique du Nord
Amrique du Sud/Carabes
Moyen-Orient
Ocanie/Australie
Afrique
Total (en millions) 6411
Source : www.internetworldstats.com/stats
Note : Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.
Cette prsentation des donnes d'utilisateurs d'internet et de la population mondiale, ainsi
que des pourcentages qui en dcoulent, permet par exemple de faire apparatre que le
classement par zones des pourcentages d'utilisateurs d'internet n'est pas identique celui
du classement par zones des pourcentages de la population mondiale. Par exemple,
l'Afrique, qui constitue le 3me groupe en termes de pourcentage de population, se trouve
en dernire position pour ce qui est des utilisateurs d'internet. Inversement, l'Amrique du
de corrlation entre deux variables, ici le
pourcentage d'utilisateurs d'internet et de la population totale, sera tudi dans la seconde
partie de ce mmento.
Nombre d'utilisateurs d'internet en Asie = (34,02/100) * 888,3 = 302,2
De mme, si l'on veut retrouver la population d'Asie, il suffit d'effectuer l'opration suivante:
Tableau 3 : Utilisateurs d'Internet et population exprims pour chaque zone
gographique en pourcentage des totaux respectifs (Mars 2005)
Population d' Asie = (9,61/100) * 6411 = 3612
nombre total d'utilisateurs d'Internet, ce qui permet de retrouver les donnes brutes en
Le tableau ci-dessous donne le nombre d'utilisateurs d'Internet
d'Internet
rang des utilisateurs d'Internet. Le degr
Nord, qui est au dernier rang en termes de pourcentage de population, est au troisime
G35Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 35
-
Exemple : on interroge 100 mnages sur le nombre de pices de leur logement. La
variable nombre de pices est quantitative et discrte (les valeurs sont
dnombrables). En outre, les valeurs, n'ayant pas t groupes, sont connues
individuellement. On obtient le tableau ci-dessous, o xireprsente le nombre de pices
et niles effectifs correspondants :
xi
Effectifs (ni)
1 5
2 30
3 40
4 20
5 5
Exemple : on interroge 100 mnages sur le nombre de pices de leur logement. La
variable nombre de pices est quantitative et discrte (les valeurs sont
dnombrables). Cette fois, les valeurs ont t groupes. On obtient le tableau ci-
dessous :
(xi) Effectifs (n
i)
[1-3[ 35
[3-5] 65
Lorsque les donnes sont groupes, il faut porter attention aux crochets (les signes
dans la classe. Par exemple, dans le tableau ci-dessus, le groupe [1-3[ inclut les
mnages dont le logement na quune seule pice (cest le signe qui marque
La valeur 3 ayant t exclue du groupe [1-3[, elle sera ncessairement incluse dans
le groupe [3-5]. Cela correspond la proprit voque dans le chapitre 1, daprs
laquelle les modalits dun caractre (ici les valeurs dune variable) sont exhaustives et
incompatibles.
Tableau 4 : Nombre de pices du logement (xi)Tableau 4 : Nombre de pices du logement (xi)
Tableau 5 : Nombre de pices du logement (xi)
Groupement par classes
B Tableaux de donnes quantitatives
1) Variable quantitative discrte, valeurs connues individuellement
2) Variable quantitative discrte, valeurs regroupes
[
linclusion, mais exclut les mnages qui ont 3 pices (cest le signe [ ).
[ et ] ) car ce sont eux qui indiquent si les valeurs limites sont incluses ou non
G36 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 36
-
xi
ni
16 5
17 25
18 45
19 20
20 15
21 8
22 4
Exemple 1 : on dispose dun chantillon de 122 rponses dtudiants la question
quel ge avez-vous obtenu votre bac ? . Cette fois, les donnes sont prsentes par
groupe dge.
Exemple : on dispose dun chantillon de 122 rponses dtudiants la question
quel ge avez-vous obtenu votre bac ? . Bien quil sagisse dune variable quantitative
continue, les donnes sont prsentes par ge et non par groupe dge. On a donc le
tableau ci-aprs :
xi
ni
[16-18[ 30
[18-20[ 80
[20-22] 12
i
Groupement par valeurs
i
Groupement par classes
3) Variable quantitative continue, valeurs connues individuellement
4) Variable quantitative continue, donnes groupes
Tableau 6 : ge dobtention du bac (x )
Tableau 7 : ge dobtention du bac (x )
G37Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 37
-
Srie 1 Srie 2 Srie 3 Srie 4
X1
Y1
X2
Y2
X3
Y3
X4
Y4
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
Si lon calcule les moyennes arithmtiques simples de ces deux sries (voir le chapitre 3
pour la dfinition de la moyenne arithmtique simple), on constate que la moyenne de X1,
X2, X
3et X
4est gale 9, tandis que la moyenne de Y
1, Y
2, Y
3, Y
4est gale 7,5.
Tableau 6 : Sries ayant des moyennes identiques
(9 pour X et 7,5 pour Y)
Certes, il sagit dune curiosit, mais celle-ci illustre parfaitement que pour dcrire une
srie de chiffres (ici deux sries de chiffres), il ne suffit parfois pas de calculer des
indicateurs numriques. Dans cet exemple, lusage dun indicateur simple tel que la
moyenne dissimule en fait une trs grande diversit.
La figure 1 ci-aprs montre en fait les nuages de point associs chacune des sries
{X1,Y
1} , {X
2,Y
2} , {X
3,Y
3} et {X
4,Y
4}.
Source : Anscombe, Francis J. (1973) Graphs in statistical analysis.
Il est parfois indispensable de recourir la prsentation graphique des donnes. Le
parfaitement ce point.
2 x GRAPHIQUESA Importance des graphiques
tableau 6 ci-dessous, connu sous lappellation de quartet dAnscombe, illustre
American Statistician, 27, 1721.
G38 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 38
-
La prsentation des donnes statistiques sous forme de graphiques joue un rle
essentiel pour permettre un auditoire ou des lecteurs de suivre une explication. Ne
dit-on pas quun beau graphique vaut mieux quun long discours. On dit dailleurs que
Michael DELL est arriv un jour une assemble gnrale dactionnaires avec pour tout
document le graphique qui montrait lvolution spectaculaire du cours de laction des
entreprises DELL au cours des 5 dernires annes
La diversit des prsentations graphiques ne connat dautres limites que celles de
limagination. Nous nous bornerons dans les pages qui suivent passer en revue les
graphiques les plus connus et les mieux adapts aux donnes quil sagit de reprsenter.
Lorsque lon veut reprsenter graphiquement toutes les units statistiques dune
population un caractre ou une variable, on dispose de deux graphiques : la ligne et le
graphique dit tige et feuilles (de langlais stem and leaf ).
Figure 1 : Sries ayant des moyennes identiques
mais les nuages de points rvlent des formes extrmement diffrentes
Exemple 1 : Soit la srie de chiffres :
{8, 2, 3, 7, 4}
o aucune unit na la mme valeur.
B Donnes individuelles
1) La ligne
G39Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 39
-
On obtient alors la reprsentation graphique suivante :
2 3 4 7 8
{8, 2, 3, 7, 4, 7, 2}
En revanche, si certaines donnes sont rptes, comme dans lexemple ci-dessous, il
faut passer une reprsentation des donnes sous forme groupe, ce qui est lobjet de
la partie C de cette sous-section 2.
2 3 4 7 8
nombreuses et connues individuellement et non rptes.
Figure 3 : Reprsentation graphique quand les units statistiques sont peu
nombreuses et connues individuellement mais rptes.
Remarques :
1) la reprsentation en ligne horizontale, on peut parfois prfrer une reprsentation
en ligne verticale.
2) Cette reprsentation en ligne peut tre raffine, pour donner naissance un
graphique analytique, dit bote moustaches (de langlais Box and Whiskers ),
que nous aborderons dans le chapitre 4, car sa comprhension ncessite lacquisition
de notions telles que la mdiane et les quartiles.
Ce graphique trs original consiste empiler des units en conservant leur identification
(un numro, un nom, etc.). De cette faon, aucune donne initiale nest absente du
graphique et chacune peut facilement tre repre.
Exemple 2 : Soit la srie de chiffre o le 7 et le 2 sont rpts 2 fois :
Figure 2 : Reprsentation graphique en ligne quand les units statistiques sont peu
2) Le graphique tige et feuilles
G40 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 40
-
Exemple 1 : Soit 20 personnes, repres par un numro de 1 20, qui des notes
Notes = {{0, 12}, {0, 14}, {1, 7}, {1, 9}, {1, 13}, {1, 18}, {2, 4}, {2, 8}, { 2, 11}, {2, 15}, {2,
16}, {3, 17}, {3, 12}, {4, 5}, {4, 6}, {4, 20}, {5, 3}, {5, 19}}
Dans chaque couple de donnes, le premier chiffre correspond la note (de 0 5), cest
la tige et le second sert identifier la personne par un numro allant de 1 20, cest
les feuilles . La reprsentation tiges et feuilles donne la figure 4.
0
12
14
1
07
09
13
18
2
02
04
3
05
06
2008
01
15
4
03
19
Personnes identifies
par leur numro de 1 20
Notes de 0 5
Que les donnes soient regroupes par modalit, comme cest le cas pour les
groupements qualitatifs, ou par valeurs, comme cest le cas pour les groupements
quantitatifs, on dispose de nombreuses reprsentations graphiques. Nous limiterons
notre prsentation aux plus connues, savoir : le diagramme en btons, le diagramme
Cest peut-tre la reprsentation la plus simple qui soit. En ralit, le diagramme en
btons sinspire directement de la prsentation tige et feuilles, mais le contenu en
information est moins riche.
Figure 4 : Diagramme tige et feuilles
{{A, 4}, {B, 4}, {C, 1}, {D,1}}
Dans chaque couple de donnes, le premier chiffre correspond au produit (A,B,C,D) et
le second correspond au nombre de personnes qui ont choisi ce produit. La figure 5 (a)
illustre le rsultat.
Exemple 1 : On interroge 11 personnes sur leurs prfrences concernant les 4 produits
A,B,C,D. Chaque personne doit choisir seulement un produit. On obtient les rsultats
groups suivants :
C Donnes groupes par modalits ou valeurs
1) Diagramme en btons
allant de 0 5 ont t attribues.
en barres et le nuage de points, de langlais scatter plot .
G41Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 41
-
Figure 5 : Diagrammes en btons
Si le regroupement se fait par valeur, on a par exemple les couples :
Le diagramme en barres repose sur le mme principe que le diagramme en btons,
sauf quau lieu de btons, on a des barres rectangulaires de base identique et
identiquement espaces les unes des autres. La taille de la base, ainsi que celle de
lespacement nont pas de signification particulire. Lespacement nest pas obligatoire.
La figure 6 reprsente les mmes donnes que la figure 5, mais ces donnes sont
exprimes en pourcentage.
Figure 6 : Diagramme en barres verticales
ModalitsA B C D
Modalits
Pou
rcen
tages
Valeurs
(a) Modalits =
Produits A,B,C,D
1 2 3 4
{{1, 4}, {2, 4}, {3, 1}, {4, 1}}
O le premier chiffre de chaque couple correspond par exemple au nombre denfants.
On obtient alors le graphique de la figure 5(b).
(b) Valeurs
= nombre denfants 0,1,2,4
Pou
rcen
tages
Valeurs
(b) Valeurs
= nombre denfants 0,1,2,4
(a) Modalits =
Produits A,B,C,D
2) Diagramme en barres
G42 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 42
-
Le diagramme en barre est souvent prsent de faon horizontale. Ainsi, le graphique
de la figure 6 peut-il tre prsent ainsi :
Pourcentages
Modalit
s
Pourcentages
(a) Modalits =
Produits A,B,C,D
(b) Valeurs
= nombre denfants 0,1,2,3
0
1
2
Va
leu
rs
3
0
1
2
3
(a) Nuage de points (b) Nuage de
Points relis
relis nombre denfants par foyer
0 31 20 31 2
Figure 7 : Diagramme en barres horizontales
Pour des raisons pdagogiques, la figure 2 de ce chapitre a prsent des graphiques
sous forme de nuages de points concernant des variables bidimensionnelles. Il y avait
deux sries, et chaque point avait pour coordonne un lment de chaque srie. Mais le
nuage de points peut aussi tre employ pour reprsenter graphiquement une simple
srie de chiffres. Les donnes des figures 5 7 peuvent galement tre reprsentes
par un nuage de points ou par une ligne joignant ces points (voir la figure 8, qui reprend
les donnes prcdentes dans lhypothse quantitative.)
Figure 8 : Nuage de points, relis et non
3) Nuage de points dans le cas dune srie unidimensionnelle
G43Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 43
-
Les anglo-saxons lappellent Pie Chart cest--dire, littralement graphique en
tarte . En France, on lappelle le camembert. Ce graphique universel convient toutes
les donnes, ds linstant o il sagit dexprimer des parts ou des pourcentages.
Exemple :
EntrepriseChiffre
daffaires
Part de
march
A 50 31,25
B 70 43,75
C 10 6,25
D 30 18,75
Total 160 100
La part de march (colonne 3) nest en fait quun pourcentage. Chaque ligne de la
colonne 2 est divise par la dernire ligne (total) et multiplie par 100.
Notons quil sagit dun caractre qualitatif, les modalits tant les quatre entreprises.
Pour faire le graphique en camembert, il reste calculer la part que le chiffre daffaires
de chacune de ces entreprises reprsente dans 360 (voir le tableau 8 ci-dessous).
Tableau 7 : Chiffre daffaires en millions deuros de
quatre entreprises qui contrlent un march
EntreprisePart de
marchDegrs
A 31,25
43,75
6,25
18,75
100
(31,25 *360) / 100 = 112,5
B (43,75 *360) / 100 = 157,5
C (6,25 *360) / 100 = 22,5
D (6,25 *360) / 100 = 22,5
Total 360
Tableau 8 : Chiffre daffaires en millions deuros de
quatre entreprises qui contrlent un march
D Camembert ou graphique en tarte ?
entreprises du march dun produit (pour simplifier, on suppose que ces entreprises
contrlent la totalit du march) :
Soit les chiffres daffaires en millions deuros des quatre principales
G44 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 44
-
La dernire colonne du tableau 7 va nous permettre de dessiner le camembert, puis de
couper les parts . Il suffit pour cela de tracer un cercle, puis au moyen dun
rapporteur, de dterminer les angles correspondant chaque part. On obtient alors le
rsultat voulu. La figure ci-dessous illustre 2 variantes du mme graphique. Dans la
seconde variante, lentreprise qui a la part de march la plus leve est dtache du
lot.
(6,25%)
C
(6,25%)
C
Figure 9 : Le camembert ou pie chart
Le camembert peut aussi servir reprsenter des variables quantitatives, y compris des
variables quantitatives groupes par classes.
Lhistogramme convient particulirement aux variables quantitatives quand celles-ci
sont regroupes par classes. Parfois les classes ont des amplitudes gales. Cest le cas
le plus vident. Parfois, cependant, les amplitudes des classes sont diffrentes. Il faut
alors oprer une correction en suivant la mthode indique ci-aprs.
Classe de revenu ni
fi
[0;1500[ 20 0,2
0,4
0,3
0,1
[1500;3000[ 40
[3000;4500[ 30
[4500;6000[ 10
Tableau 9 : Rpartition
dun chantillon de 100
mnages par classe de
revenu mensuel
(amplitude de classe =
E Lhistogramme
1 500 euros)
dfinit des classes damplitudes gales 1 500 euros.
Exemple 1 : Soit 100 mnages distribus selon leur revenu mensuel en euros. On
G45Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 45
-
Lhistogramme peut-tre construit partir des effectifs (les ni) ou partir des frquences
(et dailleurs aussi en prenant les pourcentages). Contrairement au diagramme en
barre, avec lequel il ne faut pas le confondre, les rectangles qui composent
lhistogramme ont une base qui est dfinie par lamplitude de la classe quils
reprsentent et, de plus, ils sont colls les uns aux autres.
Figure 10 : Histogramme correspondant aux
donnes du tableau 9
0
0,1
0,2
0,3
0,4
Exemple 2 : Supposons que lon regroupe les donnes de lexemple 1 en classes
damplitudes ingales ([0-1500[;[1500-4500[,[4500-6000[).
Il faut dans ce cas effectuer une correction pour tenir compte des diffrences
damplitude. Il convient en fait de diviser la frquence de chaque classe par lamplitude
correspondante. On obtient ainsi lamplitude corrige (hi).
Classe de revenuAmplitude de classe
(ai)
ni
fi
hi=f
i/a
i
1500
3000
0,2
1500
0,7
0,00013
0,00023
0,000070,1
[0;1500[ 20
[1500;4500[ 70
[4500;6000[ 10
Tableau 10 : Calcul de lamplitude corrige
Sur lhistogramme de la figure 11, on aura donc lamplitude corrige en abscisse et des
classes dingales amplitudes en ordonne.
G46 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 46
-
0,00007
0,00013
0,00023
Figure 10 : Histogramme avec amplitudes ingales
(voir le tableau 10 pour les calculs)
Cest dans les possibilits de comparaisons quils offrent que les graphiques sont
particulirement utiles : comparaisons dans le temps, comparaisons spatiales, etc.
Figure 11 : Le graphique en radar pour reprsenter et comparer les parts
de march des entreprises du tableau 7
La figure 11 utilise le graphique dit en radar afin de comparer la rpartition relle des
parts de march des 4 entreprises A, B, C et D avec une rpartition galitaire o
chacune aurait 25% du march (cette rpartition galitaire est reprsente par le
losange en pointill). Les parts de march relles sont indiques sur chaque axe. On
voit ainsi immdiatement que A et B ont une part de march suprieure la rpartition
galitaire et B et C une part de march infrieure. On peut partir de l calculer
combien il faut retrancher A et B (et combien par consquent il faut redistribuer C
et D) pour revenir une rpartition galitaire).
A
B
C
D
31,25%
43,75%
6,25%
18,75%
F Lutilisation des graphiques des fins de comparaisons
1) Le radar, excellent moyen deffectuer des comparaisons visuelles
G47Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 47
-
Il est facile de voir que le graphique en radar permet aussi de comparer les parts de
points du temps. On aboutirait ainsi une toile daraigne dont la complexit irait
cependant grandissante avec le nombre dannes. Il est sage de se limiter une
comparaison de deux priodes.
Toutefois, le radar nest pas le seul moyen deffectuer des comparaisons temporelles,
loin de l. La figure 12, ci-dessous illustre une faon trs simple (et malheureusement
trs raliste) de comparer deux situations loignes dans le temps.
Figure 12 : Une faon trs simple
de reprsenter lvolution du
dveloppement humain sur une
dcennie pour quatre pays peu
dvelopps. Ces quatre pays sont
les seuls pour lesquels lindice du
dveloppement humain a rgress
au cours de la dcennie 1990.
Source : PNUD, Rapport sur le
mthode de calcul de lindicateur du
dveloppement humain, voir le chapitre 7
de ce mmento.
Pour les comparaisons dans le temps, rien ne remplace cependant la srie
chronologique. Typiquement, les annes sont en abscisse et la valeur qui volue dans
le temps est en ordonne.
Les graphiques de sries chronologiques sont parmi les plus frquents. Selon Edward
R. TUFTE(1), qui a procd un tirage alatoire de 4000 graphiques dans 15
magazines et journaux entre 1974 et 1980, il apparat que plus de 75% dentre eux sont
des graphiques de sries chronologiques.
Le graphique de la figure 13 ci-aprs reprsente lvolution de la population mondiale
telle quelle a t reconstitue (pour les donnes les plus loignes) et projete (pour
les donnes futures) par les dmographes de la division de la population de lONU.
(1) Edward R. TUFTE, The Visual Display of Quantitative Information, Graphics Press, LLC, 2001, page 25
2) Comparaisons dans le temps
3) Les graphiques de sries chronologiques
march des quatre entreprises A,B,C et D du tableau 7 en deux, voire trois ou quatre
dveloppement humain 2003, p. 40. Sur la
G48 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 48
-
p. 155.
Figure 13 : volution de la population mondiale de 1750 2150 (projection)
Rien ne vaut un graphique lorsquon veut mettre en valeur une comparaison
saisissante. La figure 14, par exemple, illustre de faon clatante linefficacit (pour ne
pas dire plus) de la rpartition des aides dans le monde. On y voit que les subventions
annuelles de lUnion Europenne par vache (et par an), sont presque deux fois
suprieures au revenu moyen par habitant (et par an) en Afrique subsaharienne. Ce
nest pas les agriculteurs qui sen plaindront.
Figure 14 : Un beau graphique vaut mieux quun long discours
Source : PNUD, Rapport sur le dveloppement humain 2003,
4) Un beau graphique vaut parfois mieux quun long discours
G49Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 49
-
Les indices se prtent galement particulirement bien aux comparaisons sous forme
graphique. Sans entrer dans le dtail de leur tude (que nous rservons au chapitre 7),
donnons-en une dfinition simple et illustrons-la par un exemple.
Un indice est un rapport de grandeurs exprimes dans la mme unit, ce qui en fait un
nombre sans dimension. Gnralement, ce rapport est multipli par 100. Lorsque lon
divise tous les lments dune srie chronologique par lun dentre eux (et que lon
multiplie par 100) on transforme la srie chronologique en indice. Ceci facilite les
comparaisons avec une annes de rfrence, laquelle aura alors pour valeur 100.
Exemple : Soit la srie chronologique suivante qui indique le nombre davions dun
certain modle, vendus par une grosse firme aronautique.
Annes 1997 1998 1999 2000 2001 2002 2003 2004 2005
Ventes 10 20 35 40 75 80 30 60 115
La reprsentation graphique de base est celle dune sri chronologique. Toutefois, si
on divise tous les chiffres par ceux de lanne 1997, anne de base (et que lon
multiplie par 100) on obtient une srie indice. La figure ci-dessous reprsente, outre la
indice ne modifie que lchelle de lordonne, non la forme de la courbe.
Figure 15 : Une srie chronologique transforme en sries indices
Tableau 11 : Ventes annuelles dun certain modle davion
Indic
es
Vente
s
Indic
es
Indic
es
(a) Srie non indice (b) Srie indice
1997=100
(c) Srie indice
2000=100
(d) Srie indice
2005=100
5) Les graphiques dindices
srie initiale, trois choix dindice : 1997, 2000 et 2005. noter que le passage un
G50 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 50
-
Les chelles arithmtiques ne sont pas toujours les plus adaptes la reprsentation
graphique des caractres continus. Dans lexemple suivant, les entreprises A et B ont
augment leur production dans des proportions diffrentes et pourtant le graphique
donne limpression que la progression est identique en raison du paralllisme des
progressions.
0
100
200
300
400
500
600
700
800
900
1000
1 2
Entreprise B
400
500
200
300
+25%
Entreprise A
+50%
ordonnes. Cela consiste prendre le logarithme base 10 des valeurs en ordonnes.
On obtient alors deux droites qui ne sont plus parallles. La droite A est plus pentue, ce
qui traduit une plus forte progression.
10 100 200 300 400 500
log 10=1 log 100 =2 log 200 =2,3 log 300 =
2,477
log 400
=2,602
log 500
=2,698
Figure 16 : Sur une chelle arithmtique les progressions parallles
semblent identiques
Tableau 12 : Quelques exemples de conversions de chiffres en
logarithme dcimal (de base 10)
6) Les chelles semi-logarithmiques
Pour remdier cela, on peut prendre une chelle semi-logarithmique pour laxe des
G51Tableaux et graphiques
3755_C02XP 21/11/2005 10:51 Page 51
-
110
100
1000
1 2
B
A
Figure 17 : Sur une chelle logarithmique les diffrences de vitesse de
progression se traduisent par des pentes diffrentes
100
200
300
400
500
G52 MMENTO STATISTIQUE DESCRIPTIVE
3755_C02XP 21/11/2005 10:51 Page 52
-
Quelles soient non groupes ou au contraires groupes par valeurs ou par classes,
les variables quantitatives peuvent tre utilement rsumes par des caractristiques
privilgient les valeurs principales de la distribution, au dtriment par exemple de ceux
qui caractrisent la dispersion ou la concentration des valeurs dune srie.
Exemple : Soit la srie de chiffres {8, 5, 9, 13, 25}. La moyenne arithmtique de cette
srie de chiffres se calcule ainsi :
Ces valeurs centrales sont les moyennes, la mdiane et le mode. Nous exposerons leur
mode de calcul et leur signification en distinguant pour chacune delles le cas des
donnes non groupes et le cas des donnes regroupes (soit par valeurs, soit par
classes).
8 5 9 13 25 6012
5 5x
Comme nous lavons indiqu dans le chapitre 1, nous ne distinguerons pas la moyenne de
la population et la moyenne de lchantillon. Par consquent, nous traitons ici la srie de
chiffres sans nous proccuper de savoir sil sagit dune population ou dun chantillon.
Signification de la moyenne : Construisons un tableau avec pour premire colonne la
srie de chiffres et pour seconde colonne lcart de chacun des chiffres la moyenne que
nous venons de calculer ( ) :12x
8 -4
5 -7
9 -3
13 1
25 1
ix
ix x
Tableau 1 : La somme des carts
la moyenne est nulle
5
1
0i
i
x x
Les caractristiques de tendance centrale
1 x LES MOYENNESA La moyenne arithmtique
1) La moyenne arithmtique simple
dites de tendance centrale . Ces nombres rsums sont ainsi appels car ils
CHAPITRE 3
3755_C03XP 21/11/2005 10:52 Page 53
-
Quand on soustrait la moyenne arithmtique chacun des chiffres de la srie, on observe
la proprit suivante :
1) La somme des carts la moyenne est nulle :
(-4)+(-7)+(-3)+(+1)+(+13)=0
la somme des carts ngatifs, au signe prs.
-4 -7 -3 1 13
-14 +14
Moyenne arithmtique : 12
Formule gnrale de la moyenne arithmtique simple :1 2 n
srie de chiffres. La formule de la moyenne arithmtique de cette srie est donne par :
1
1n
i
i
x xn
Schma 1 : En valeur absolue, la somme des carts ngatifs (panneau de gauche)
est gale la somme des carts positifs (panneau de droite)
(1)
Exemple 1 : Soit la srie de chiffres {8, 13, 5, 8, 5, 9, 13, 25, 13, 9}. Certains chiffres,
comme le 8, le 9 ou le 13 sont rpts. On peut simplifier la prsentation en regroupant
premires. En effet, on a par exemple :
15x
12n
1 12 5 10n x u
28x
22n
2 22 8 16n x u
Et ainsi de suite (voir le tableau 2).
2) La moyenne arithmtique pondre
Soit {x , x , .,x } une
les donnes par valeurs (voir le tableau 2). La troisime ligne est le produit des deux
2) Ou, ce qui revient au mme, mais est plus imag, la somme des carts positifs est gale
G54 MMENTO STATISTIQUE DESCRIPTIVE
3755_C03XP 21/11/2005 10:52 Page 54
-
5 8 9 13 25
2 2 2 3 1
10 16 18 39 25
ix
in
i in x
Tableau 2 : Calcul de la moyenne arithmtique pondre
5
1
108i i
i
n x
La moyenne pondre se calcule alors en faisant la somme pondre cest--dire la
somme des et en divisant par n. Elle est gale :i in x
(5 2) (8 2) (9 2) (13 2) (25 1) 10810,8
10 10x
u u u u u
Formule gnrale de la moyenne arithmtique pondre :1 2 h
srie de chiffres et {n1, n
2, .,n
h} les effectifs correspondants. La formule de la moyenne
arithmtique pondre de cette srie est donne par :
1
1h
i i
i
x n xn
Exemple 2 : Soit la srie de chiffres {8,13,5,8,5,9,13,25,13,9,35,44,54,28}. Supposons
que lon regroupe les valeurs en 3 catgories comme dans le tableau 3 ci-dessous.
Dans ce cas, il faut calculer le centre de chaque classe, ci, cest--dire la somme des
extrmits de classe divise par 2 et appliquer la formule de la moyenne pondre.
Classes
[5-13[ 6 9 54
[13-28[ 3 7,5 22,5
[28-54[ 5 41 205
ic
in
i in c
(2)
Tableau 3 : Calcul de la moyenne arithmtique
quand les valeurs sont groupes par classes
3
1
281,5i i
i
n c
Soit {x , x , .,x } une
G55Les caractristiques de tendance centrale
3755_C03XP 21/11/2005 10:52 Page 55
-
On applique donc la formule (2), mais en remplaant xi par c
i:
1
1h
i i
i
x n cn
(3)
Dans notre exemple, on a donc :
(6 9) (3 7,5) (5 41) 54 22,5 205 281,520,11
14 14 14x
u u u #
Exemple : Soit la srie de notes dun lve au cours de lanne {12, 13, 11, 14, 2}. Si
lon calcule la moyenne arithmtique simple on obtient :
12 13 11 14 2 5210,4
5 5x
Par contre, si on retire le 2 et que lon recalcule la moyenne lague sur 4 notes, on
obtient :
12 13 11 14 5012,5
4 4x
Dans ce cas, on a retir le 2 , qui est considr comme un accident, mais qui, si on le
maintient dans la srie, fait fortement baisser la moyenne. Dans certains cas, on retire
les valeurs extrmes et on calcule la moyenne uniquement sur un intervalle de valeurs
lagu, conformment au schma 2 ci-dessous. Le principe est identique quand les
donnes sont groupes par valeurs ou par classes.
Intervalle lagu
211,12,13,14
Schma 2 : La moyenne lague
On a exclu
arbitrairement
3) La moyenne lague
le 2
G56 MMENTO STATISTIQUE DESCRIPTIVE
3755_C03XP 21/11/2005 10:52 Page 56
-
Exemple : Soit la srie de chiffres {-4, -2, 0, 2, 4}. Si lon calcule la moyenne
arithmtique simple on obtient zro.
Parfois, on souhaite obtenir une caractristique de tendance centrale ayant une valeur
positive l o le calcul de la moyenne arithmtique simple aurait donn zro. On calcule
alors la moyenne quadratique simple en additionnant le carr de toutes les valeurs de
la srie et en prenant la racine carre du total. Autrement dit, dans notre exemple :
2 2 2 2 2( 4) ( 2) (0) (2) (4) 16 4 0 4 16 40
8 2,835 5 5
Q #
Formule gnrale de la moyenne quadratique simple : Soient {x1, x
2, .,x
n} une
srie de chiffres. La formule de la moyenne quadratique simple de cette srie est
donne par :
2
1
1n
i
i
Q xn
(4)
Exemple : Soit le tableau 4 ci-dessous :
25 10
8 16
4 25
12 20
ix
in
1 2 h 1 2 h
La formule de la moyenne quadratique pondre de cette srie est donne par :
21
1h
i i
i
Q n xn
(5)
Tableau 4 : Calcul de la moyenne quadratique pondre
Il suffit de rajouter deux colonnes, une pour
ix
2
i
x2
iin xet une pour (voir le tableau 5)
B La moyenne quadratique
1) La moyenne quadratique simple
2) La moyenne quadratique pondre
Soit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants.
G57Les caractristiques de tendance centrale
3755_C03XP 21/11/2005 10:52 Page 57
-
25 10 625
64
16
144
8 16
6250
1024
4004 25
12 20 2880
Tableau 5 : Calcul de la moyenne quadratique pondre
ix
in 2
i
x2
iin x
4
2
1
10554ii
i
n x
En appliquant la formule (5) on obtient :
21
1 1055412,1921
71
h
i i
i
Q n xn
#
Lorsque les valeurs sont regroupes en classes, il faut calculer les centres de classes et
appliquer ensuite la formule (5) en remplaant xipar c
i.
Exemple : Soit la srie de chiffres {8, 5, 9, 13, 25}. La moyenne gomtrique de cette
srie est gale :
1 2 n
simple de cette srie est donne par :
1
1
n n
i
i
G x
(6)
> @1
558 5 9 13 25 117000 10,32G u u u u #
1 2 h 1 2 h
La formule de la moyenne gomtrique pondre de cette srie est donne par :
1
1
i
h nn
i
i
G x
(7)
C La moyenne gomtrique
1) La moyenne gomtrique simple
2) La moyenne gomtrique pondre
Soit {x , x , .,x } une srie de chiffres. La formule de la moyenne gomtrique
Soit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants.
G58 MMENTO STATISTIQUE DESCRIPTIVE
3755_C03XP 21/11/2005 10:52 Page 58
-
Pour calculer la moyenne gomtrique pondre, on peut passer par les logarithmes
npriens (ln) :
> @
> @
1
1
10 16 25 20 71
1
2,1100704
25 8 4 12
1ln 10ln25 16ln8 25ln4 20ln12
71
1ln 32,1888 32,2711 34,6574 49,6981
71
149,815ln 2,1100704
71
8,2488
i
h nn
i
i
G x
G
G
G
G e
u u u
#
1 2 n
simple de cette srie est donne par :
1
1n
i i
nH
x
(8)
Exemple : Soit la srie de chiffres {8, 5, 9, 13, 25}. La moyenne harmonique de cette
srie est gale :
1
5 59,04
1 1 1 1 11 0,5530342
8 5 9 13 25
n
i i
nH
x
#
1 2 h 1 2 h
La formule de la moyenne harmonique pondre de cette srie est donne par :
1
h
i
i i
nH
n
x
(9)
D La moyenne harmonique
1) La moyenne harmonique simple
2) La moyenne harmonique pondre
Exemple : Soit les chiffres du tableau 4
Soit {x , x , ., x } une srie de chiffres. La formule de la moyenne harmonique
Soit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants.
G59Les caractristiques de tendance centrale
3755_C03XP 21/11/2005 10:52 Page 59
-
pondre, on applique la formule (9).
1
71 71 716,882
10 16 25 20 0,4 2 6,25 1,66667 10,3167
25 8 4 12
h
i
i i
nH
n
x
Exemple 2 : Une petite usine abrite 2 machines. La premire machine a produit 500
pices la vitesse de 100 pices par heure. Une seconde machine a produit 300 pices
la vitesse de 60 pices par heure. Calculer la vitesse moyenne (exprime en nombre
de pices par heure) de production dans l'usine.
Vitesse moyenne = nombre total de pices produites/nombre d'heures de production. La
premire machine a produit 500 pices en (500/100) heures (5 heures) La seconde
machine a produit 300 pices en (300/60) heures (5 heures). La vitesse moyenne est
donc donne par :
800 800vitesse moyenne = 80 pices/heure
500 300 10
100 60
1
1
n
x
2
2
n
x
n
La mdiane dune srie est la valeur qui partage cette srie, pralablement classe, en
deux sries aux effectifs gaux. Dans la premire srie, on trouve les valeurs infrieures
la mdiane. Dans la seconde srie on trouve les valeurs suprieures la mdiane.
La mdiane ne se calcule que pour les donnes quantitatives et son mode de calcul
dpend du type de donnes. On distinguera quatre cas :
2 x LA MDIANE
les sries non groupes dont leffectif est impair et o aucune valeur nest rpte,
les sries groupes par valeurs,
les sries groupes par classes de valeurs.
les sries non groupes dont leffectif est pair et o aucune valeur nest rpte,
Exemple 1 : Soit les chiffres du tableau 4. Pour calculer la moyenne harmonique
G60 MMENTO STATISTIQUE DESCRIPTIVE
3755_C03XP 21/11/2005 10:52 Page 60
-
Cest le cas idal, celui qui permet le mieux de comprendre cest quest la mdiane.
Exemple : Soit la srie de 5 chiffres suivants : {8 ,5 9, 13 , 25}
Pour trouver la mdiane, il faut :
a) Classer la srie par ordre croissant des valeurs
b) Localiser la valeur qui partage leffectif total en deux sous effectifs gaux en appliquant
la formule (n+1)/2, cest--dire ici (5+1)/2=3. La troisime valeur de la srie est le 9.
{5 ,8, 9, 13 , 25}
{ 5 8 9 13 25 }
mdiane
Sous-effectif des valeurs
infrieures la mdiane
Sous-effectif des valeurs
suprieures la mdiane
On vrifie quil y autant de valeurs infrieures la mdiane quil y a de valeurs
suprieures la mdiane. Leffectif total est bien partag en deux parties gales.
Quand leffectif est pair, la mdiane nest pas une valeur de la srie. Il faut la calculer.
Exemple : Soit la srie des 8 chiffres suivants : {13,1,9,10,2,4,12,7}
Pour trouver la mdiane, il faut :
a) Classer la srie par ordre croissant des valeurs
b) Appliquer la formule (n+1)/2, cest--dire ici (8+1)/2=4,5. Ceci nous indique que
lintervalle mdian est constitu par les 4me et la 5me valeurs. La mdiane est donc
gale la moyenne arithmtique simple de ces deux valeurs :
{1,2,4,7,9,10,12,13}
Me=(7+9)/2=8
{ 1 2 4 7 8 9 10 12 13 }
Mdiane
Sous-effectif des valeurs
infrieures la mdiane
Sous-effectif des valeurs
suprieures la mdiane
On vrifie quil y autant de valeurs infrieures la mdiane quil y a de valeurs
suprieures la mdiane. Leffectif total est bien partag en deux parties gales.
A Calcul de la mdiane : effectif impair et aucune valeur nest rpte
B Calcul de la mdiane : effectif pair et aucune valeur nest rpte
G61Les caractristiques de tendance centrale
3755_C03XP 21/11/2005 10:52 Page 61
-
Dans ce cas, la procdure ne permet pas toujours de partager leffectif total en deux
parties gales.
Exemple : Dans le tableau 6 ci-dessous, les valeurs de la variable X ont dj t classes
La troisime colonne est celle des frquences (fi) et la quatrime est celle des frquences
cumules F(x). La cinquime colonne, spare du tableau, est celle des effectifs cumuls
N(x).
0,066 0,066
0,167
0,3
0,433
0,6
0,7
0,9
0,933
1
0,1
0,133
0,133
0,167
0,1
0,2
0,033
0,067
2 2
8 3
9 4
10 4
11 5
12 3
13 6
15 1
18 2
ix
in
2
5
9
13
18
21
27
28
30
if ( )F x ( )N x
Pour dterminer la mdiane, on repre 0,5 dans la colonne des frquences cumules
F(x) ou bien n/2 dans la colonne des effectifs cumuls N(x). On choisit ensuite la valeur
F(x) gale ou immdiatement suprieure 0,5 (ou la valeur N(x) gale ou
immdiatement suprieure n/2) et lon suit le sens des flches comme indiqu sur le
tableau 6. Dans notre exemple, il ny a pas de valeur F(x) gale 0,5, la valeur
immdiatement suprieure 0,5 est 0,6 (et la valeur immdiatement suprieure
n/2=30/2=15 est 18). Par consquent, en suivant les flches, on remonte la valeur qui
correspond la mdiane, soit 11. On remarque alors que la mdiane ne spare pas
leffectif en deux parties gales. En effet, il y a 13 valeurs qui sont infrieures 11 (soit
43,3% de leffectif) et 12 valeurs qui sont suprieures 11 (soit 40% de leffectif). En
outre, que faire des 5 valeurs qui sont exactement gales 11 (16,6% de leffectif total).
Faut-il les compter dans leffectif des valeurs infrieures la mdiane ou dans leffectif
des valeurs suprieures la mdiane ? Il ny a pas de rponse cette question, chacun
fait comme il lentend (1).
Tableau 6 : Calcul de la mdiane quand les donnes sont groupes par valeurs
n/2=150,5
Mdiane =11
(1) La mthode de calcul de la mdiane propose ici est celle dcrite par Bernard PY, dans son ouvrage
Statistiques descriptives, ditions Economica, page 76.
C Calcul de la mdiane : effectifs groups par valeurs
G62 MMENTO STATISTIQUE DESCRIPTIVE
3755_C03XP 21/11/2005 10:52 Page 62
-
Dtermination graphique. La figure 1 ci-dessous illustre la dtermination de la mdiane
partir partir de N(xi), la courbe cumulative des effectifs. Cette courbe en escalier a
pour ordonne les effectifs dont la valeur est strictement infrieure xi. Par exemple,
leffectif des valeurs strictement infrieures 11 est gal 13. De mme, leffectif des
valeurs strictement infrieures 12 est gal 18.
n/2=30/2=15
N(xi)
xi
Figure 1 : Dtermination graphique de la mdiane
partir de la courbe cumulative des effectifs
Pour trouver la mdiane, il faut localiser n/2=30/2=15 sur laxe des ordonnes, puis tracer
une flche horizontale jusquau point M. Une fois au point M, il faut tracer une flche
verticale en direction de labscisse. On lit alors la valeur de la mdiane qui, dans notre
exemple, est gale 11.
M
Mdiane