rÉgressions et corrÉlations en hydrologieinfoterre.brgm.fr/rapports/74-sgn-170-ame.pdf ·...
TRANSCRIPT
MINISTÈRE DE L'INDUSTRIE ET DE LA RECHERCHE
BUREAU DE RECHERCHES GÉOLOGIQUES ET MINIÈRES
SERVICE GÉOLOGIQUE NATIONALB.P. 6009 - 45018 Orléans Cedex - Tél.: (38) 66.06.60
RÉGRESSIONS ET CORRÉLATIONS EN HYDROLOGIE
RÉSULTATS ÉLÉMENTAIRES, RÈGLES PRATIQUES
par
M . CANCEILL
Département géologie de l'aménagementHydrogéologie
B.P. 6009 - 45018 Orléans Cedex - Tél.: (38) 66.06.60
74SGN170 AME Mars 1974
Resume
L'emploi des "calculs de corrélation" se développant au B.R.G.M.» il a
paru souhaitable d'énoncer quelques règles d'emploi simples, et de préciser
quelques points de terminologie, pour en permettre un usage plus efficace.
C'est l'objet de ce rapport, dans lequel on ne trouvera que peu de théorie sta-
tistique.
On donne une description assez complète des propriétés de la régression
linéaire simple, suivie d'un exemple d'application à des chroniques piézométri-
ques.
La suite logique d'un tel exposé, c'est-à-dire les modèles linéaires
plus généraux, l'étude des valeurs extrêmes, et les techniques de calcul, n'est
que rapidement survolée.
Ce texte a été rédigé au titre des travaux méthodologiques du dépar-
tement Géologie de l'aménagement (hydrogéologie].
Sommaire
1. INTRODUCTION
2. GENERALITES SUR LA CORRELATION
2.1. Notations et définitions
2.2. Interprétation
2.3. Limites de validité
3. REGRESSION LINEAIRE SIMPLE
3.1. Résultats pratiques : les "recettes"
3.2. Les mécanismes du modèle (le "pourquoi" des recettes)
3.2.1. Le modèle
3.2.2. Qualité de l'ajustement
3.2.3. La précision de la reconstitution
3.2.4. Les hypothèses statistiques sur la distribution des erreurs
3.2.5. Vérification
4. APPLICATION AUX CHRONIQUES PIEZOMETRIQUES - EXEMPLE
4.1. Les conditions du problème
4.2. Mise en oeuvre des calculs
4.3. Interprétation statistique des résultats
4.4. Vérification
4.5. Commentaire sur les hypothèses statistiques
5. PREVISION DES NIVEAUX EXTREMES
5.1. Valeurs extrêmes au sens propre du terme
5.2. Analyse fréquentielle
5.3. Autres méthodes
B. APERCU SUR DES MODELES LINEAIRES PLUS GENERAUX
7. METHODES DE CALCUL
7.1. Calcul "à la main"
7.2. Calcul automatique
7.3. Choix entre les deux méthodes
8. CONCLUSIONS
ANNEXE : formulaire
1. INTRODUCTION
La citation suivante, extraite d'une note adressée par un hydrogéologue
d'une unité opérationnelle au département Géologie de l'aménagement en 1973,
est la meilleure introduction qui soit :
Début de citation :
"Nous sommes parfois amenés à établir la corrélation entre deux phéno-
mènes j l'un étant bien connu et l'autre assez peu, et d'en déduire des valeurs
pour ce dernier.
Le cas se présente en particulier en piêzométrie ou nous comparons des
fluctuations d'un ouvrage B observé durant 1 an par exemple à un ouvrage A
observé depuis 20 ans.
Quel risque prenons-nous à en déduire les niveaux extrêmes de B sur les
20 années concernées ?
Je serais heureux d'obtenir des informations à ce sujet3 informations
qui devraient se résumer à quelques règles simples (quitte à être plus ou moins
bien justifiées par la théorie)t voire empiriques, sur les limites d'extension
des corrélations linéaires. Ceci intéresse certainement de nombreux collègues".
fin de citation.
On va chercher, dans les pages suivantes, à répondre aux différentes
questions posées dans cette note. Les voici, par ordre de complexité croissante
- règles pratiques d'emploi du modèle de régression linéaire : voir $ 3 ;
- application de ce modèle à des séries d'observations piézométriques : voir
$ 4 ;
- problèmes de prévision de niveaux extrêmes : voir $ 5.
On commencera par des rappels sur le coefficient de corrélation ($ 2),
et on terminera par un aperçu sur des techniques de régression plus générales
($ 6), et une présentation des méthodes de calcul disponibles ($ 7].
N.B. Afin de permettre au lecteur de se reporter aisément aux différentes for-mules qu'on n'a pas pu éviter de citer dans le texte, celles-ci sontregroupées en un formulaire sur une feuille volante^ jointe en annexe 1.
2. GENERALITES SUR LA CORRELATION
2 . 7 . Uotationi>
On considérera deux séries d'observations (correspondant, par exemple,
à des relevés en deux points A et B) X et Y, notées :
| V X2 xn
( V y2 yn
ou, avec une notation plus condensée :
= 1.2.... n
= 1.2,... n
On appelle coefficient de corrélation la quantité r définie par :
n(xi - x) (yi - y)
rxy / s s/n 9 n n X
(x. - ~)2 l [y - 7 ) 2
1 i 1
x et y sont les moyennes :
- 1 ?
l y (3)
2 2s et s sont les variances :
x y
7 1 ? - 7s¿ = - y (x. - x) (4]
x n .. L'A i
= 1 \ (y. - y ] 2 (5)s2
y •• i = 1
cov (x,y) est la covariance :
1 ? -cov(x.y) = — I (x. - x)(y. - y) (6)
n 1 = 1 1
Les racines carrées des variances, s et s , sont appelées les "écart-
types". Ces quantités mesurent la dispersion des séries autour de leur moyenne.
2.2.
r est un indice, compris entre -1 et +1, mesurant l'intensité et le
sens d'une éventuelle liaison linéaire entre la série des x. et celle des y.,
- S i r = +1, il existe une relation linéaire exacte entre les deux séries
y. = ax. + b , a > 0 (liaison croissante).
- S i r = -1, il existe une relation linéaire exacte décroissante :
y. = a'x. + b' , a' < 0.
- Si r = 0, il n'existe pas de relation linéaire (et, plus généralement,
pas de relation monotone); mais il peut exister une relation paire (i.e.2
symétrique), du genre : y. = a"x. + b"x. + c").
-Si 0 < |r | < 1, cas intermédiaire : relation monotone plus ou moins
floue, croissante ou décroissante selon le signe de rxy
Ces différents cas sont résumés dans la fig. 1 :
. * .
r = + 1 0 < r < 1 0 < r < 1xy xy xy
Liaison linéaire exacte Liaison fonctionnelle non Liaison croissante[croissante) linéaire exacte (croissante) floue
r = 0xy
Indépendancexy
Liaison fonctionnellepaire
-1 < r < 0xy
Liaison décroissante
floue
- 1 < r < 0xy
Liaison fonctionnellenon linéaire exacte
(décroissante)
xy- 1
Liaison linéaire
décroissante
xyLes points sont bien alignés,mais il n'y a pas de liaison.
Figure 1
Remarque importante : On ne peut pas juger avec certitude, au seul vu du coef-ficient de corrélation et sans voir le graphique, à moins de posséder l'intui-tion résultant d'une longue pratique. Les cas "d'école" présentés à la fig. 1peuvent, dans la réalité, devenir de dangereux pièges à cause de la présencede points aberrants (qu'il faudra donc s'attacher à éliminer lors de la criti-que des données].
La figure 2 se passe de commentaires :
xxxxx XX X X
X *
Figuré 2
2.3. L-ún¿tfc¿ de. validité.
On ne peut répondre bien à cette question ici, pour deux raisons :
a) La réponse implique la mise en oeuvre de techniques statistiques compliquées,
dont il n'est pas simple d'expliquer les conditions d'emploi et de validité.
b) Elle ne présente, de toutes manières que peu d'intérêt pratique en ce qui
concerne le coefficient de corrélation. Elle en présente, par contre, en ce
qui concerne la régression. Voir $ 3.
Concrètement, on retiendra que :
- Ir I < 0,2 laisse présager une absence de liaison linéaire.1 xy '
- |r | > 0,8 laisse présager une liaison linéaire.
- L'effectif de l'échantillon sur lequel est calculé r est très important :
un r de 0,9 calculé sur 10 observations est à considérer avec plus de
méfiance qu'un r = 0,7 calculé sur 60 couples de valeurs. En fait, bien
qii'il soit théoriquement impossible de définir a priori une taille minimale
d'échantillon, on peut dire, pour fixer les idées, qu'il n'est pas toujours
prudent de travailler avec moins d'une trentaine d'observations ; on peut
descendre à la rigueur à 24 quand on travaille sur des données mensuelles,
ce qui correspond à 2 ans, le problème étant plus, alors, d'avoir deux
années bien représentatives que un grand nombre de mesures.
- La qualité d'une liaison est plus facilement mesurée par 1'écart-type
résiduel (voir plus loin), le coefficient de corrélation n'étant qu'un indice
global.
Précision terminologique : on parle parfois de "coefficient de corrélation
linéaire", ou de "coefficient de corrélation de BRAVAIS-PEARSON". Ces expressions
sont synonymes. Par contre, le terme "indice de corrélation" désigne un objet
statistique différent, qui peut détecter des liaisons non linéaires ; son emploi
est cependant peu répandu
1] parce que son calcul nécessite des échantillons importants,
2) parce que il est fréquemment possible de se ramener au cas linéaire par chan-
gement de variable.
3. REGRESSION/ LINEAIRE SIMPLE
3.7. RiiuitaU pnatLciUíQA : IZA "
C'est la réponse au problème posé : connaissant une série longue
x , x , ... x , ... x en un point A, et une série courte y , y , ... y en
un point B, peut-on induire des observations sur A un moyen de "rallonger" la
série B ? Il peut s'agir, par exemple, de pluies mensuelles observées pendant
deux ans en A et B (n = 24) et pendant 8 ans de plus en A Cm = 120).
On cherche donc des valeurs y. calculées à partir des x., et pouvant
être considérées comme de "bonnes" reconstitutions des valeurs y. en B. Il
est assez naturel de chercher à ce que les écarts entre y. et y., pour les
valeurs de i où les y. sont connus (i = 1, 2, ... n), soient les plus faibles
possibles. Il est également assez naturel de poser les y. comme fonctions
linéaires des x. : y. = a x. + b.
Le critère de minimisation des écarts entre les y. et les y. est, en
fait, le suivant : on cherche les paramètres a et b qui minimisent la somme
des carrés des écarts entre les y. et les y..
C'est le critère des moindres carrés. Il conduit aux valeurs suivantes
pour a et b :
( n( I Cx± - x)Cy± - y)( _ 1=1 cov (x,y) f ,
a - - i/j*• — 2 2( l Cx. - x) xC i = 1(ÍCC b = y - ax (8)
La droite définie dans le plan x, y par a et b est appelée droite des
moindres carrés, ou droite de régression de y en x.
Il y a une relation simple entre a et le coefficient de corrélation r
sr -£ (9)xy s
x
On voit tout de suite que les résultats de cet ajustement ne sont pas
symétriques en x,y : sauf si r = 1, la droite de régression de y en x diffère
de la droite de régression de x en y ! Ce résultat, choquant en apparence,
sera commenté plus longuement au J suivant.
On pourra "étendre" la série des y par :J
y = a x + b (10]J J
pour les valeurs de j où le "y vrai" est inconnu :J
j = n••-+ 1 , n + 2 ... m .
La quantité s définie par :
est appelée écart-type résiduel ("standard error of estimate" chez les
anglo-saxons).
L'intervalle de probabilité à 95 % autour de la valeur y. est donné,J
en première approximation et sous certaines hypothèses, par :
(x - x) 2 / (x - x) 2
n + n J _2 * Yv r a i " * 9i + 2Se / 1 + ñ + n _2
l (x -x) l (x -x)
pour j = n + 1, ... m.
L'expression "intervalle de probabilité à 95 %" signifie que les deux
inégalités (12) seront vérifiées par les valeurs y. réellement calculées dansJ
95 % des cas.
Les expressions (7), (8), (10), (11) et (12) donnent bien la réponse
au problème posé : elles permettent de construire une "série longue" à la
station B.
Nous venons donc de donner une suite de "recettes" ; elles ne sont
10
malheureusement pas applicables sans précaution, et ces précautions ne sont
elles-mêmes pas exprimables sans rentrer un peu plus dans le détail du modèle
statistique.
On voit donc que ce qui est appelé "limites d'extension des corréla-
tions linéaires", dans la note citée en introduction de ce rapport, peut avoir
un double sens :
- au sens restreint, quelle est l'erreur commise en étendant la série B par
les y ? La formule (12) répond à cette question ;
- au sens large, quand a-t-on le droit d'appliquer la formule (12) ? Nous
répondrons partiellement à cette question au paragraphe suivant.
3.2. L&& micaniAmeA du modeJLz [Iz pounquo¿ doA>
3.2.1. Le modèle
Ce paragraphe, bien que ne donnant pas de démonstrations, est déjà
plus technique, et fait appel à des concepts probabilistes.
On pose un modèle linéaire de la forme :
Y = ax + ß + e (13)
La variable aléatoire Y est fonction linéaire de la variable x, aug-
mentée d'une erreur aléatoire e.
Selon les applications et selon les auteurs, on donne des noms diffé-
rents à x et à Y :
X
variable explicativevariable indépendantevariable exogèneprédicteurpréviseur
Y
variable à expliquervariable dépendantevariable endogène
II apparaît bien que le modèle (13] n'est pas symétrique en x et Y,
à cause de l'erreur aléatoire e.
11
Les données : y ... y sont considérées comme des réalisations
successives et indépendantes du modèle, correspondant aux valeurs x ... x
de la variable explicative j il leur correspond des réalisations £..•• E
de l'erreur e (ces réalisations sont, bien entendu, purement fictives et non
observables].
Cette erreur e est supposés avoir une distribution de probabilité
symétrique autour de o, et munie d'un écart-type a.
La variable x est supposée connue sans erreur.
On va alors
1] ajuster le modèle (131 aux données sur la période d'observation commune,
et
2) utiliser les coefficients calculés lors de l'ajustement pour reconsti-
tuer les valeurs cherchées à la station B.
Ces deux phases, ajustement et reconstitution, peuvent être comparées,
méthodologiquement parlant, au calage et à l'exploitation d'un modèle
hydraulique de nappe.
Dans chacune de ces phases, on aura à énoncer les limites de validité
concernant, pour la première, la qualité de l'ajustement, et, pour la
deuxième, la précision de la reconstitution.
La démarche est résumée par la figure 3 :
ajustement reconstitution
r "N
xn+l xm
Figure 3
12
L'équation (13) est appelée équation de régression, le coefficient
a est appelé coefficient de régression de Y en x, et le coefficient ß est
appelé intercept ou terme constant.
Le modèle est caractérisé par les trois paramètres a, ß,et a. On ne
sait pas calculer ces paramètres (inconnus, et non aléatoires), mais on sait
les estimer par des réalisations de variables aléatoires (connues ! ) , avec
une certaine erreur.
On montre alors que, sous des hypothèses assez générales, les coef-
ficients a et b définis par les formules (7) et (B) sont des estimations
satisfaisantes de a et de g.
3.2.2. Qualité_de_l^ajustement
On peut la mesurer de deux manières :
Par le coefficient de corrélation r entre la série des y. et celle des y.
(calculé sur la période de calage : i = 1, 2, ... n).
On montre que r est égal au coefficient de corrélation entre la série des
x. et celle des y., ce qui est intuitivement satisfaisant.
L'ajustement sera d'autant meilleur que |r| sera proche de 1.
Par la distance entre les séries y. et y., mesurée à l'aide de l'écart-1 1 2
type résiduel s (formule (11)). On montre, à ce sujet, que s est un£ 2 e
estimateur "satisfaisant" de la variance de l'erreur a . Or, il est bienévident que, plus a sera faible, plus les erreurs seront concentrées
2autour de 0, et plus le modèle sera "bon". On peut en dire autant de s ,donc de s .
e
Autre interprétation équivalente : si s est faible, c'est que la
somme des carrés des écarts entre valeurs calculées y. et valeurs vraies
y. est faible ; c'est, par construction, ce qu'on cherche.
s_ est une mesure de l'erreur absolue ; une mesure de l'erreur rela-
jé2
e s2
tive est donnée par le rapport e , rapport variance résiduelle survariance totale. s
Les deux quantités, r et s sont, en fait, liées par les relations
2 (n " 2) Slr = 1 - (14)n s
y
13
[151
Remarque : les lignes qui suivent font appel à des concepts probabilistes
et statistiques plus élaborés. C'est signalé au lecteur par une marge en
retrait^ et toute cette partie peut être sautée par celui qui ne souhaite
pas approfondir.
Pour aller plus loin, il est nécessaire de faire une
hypothèse supplémentaire : la variable e doit suivre une loi de
LAPLACE-GAUSS.
Dans ces conditions, on peut montrer que :
la quantité
(a/ n
i=1 1
s
2- x)
suit une loi de STUDENT à n-2se
degrés de liberté.
On peut appliquer ce résultat au "test" de toute hypothèse
sur la valeur de a. On ne définira pas ici ce qu'est un test statis-
tique, mais on va en donner un exemple simple :
le test de l'hypothèse a = 0 au seuil 5 %.
Pour cela, on calcule t =
a / y (x.. - x)
s
et on lit dans la table de STUDENT la valeur t qui a la probabilité
5 % d'être dépassée en valeur absolue.
Si t > t , on rejette l'hypothèse a = 0, ce qu'on exprime en disant
que a est significativement différent de zéro, ou, par extension, en
disant que la dépendance de Y en x est significative.
Si t < t , au contraire, on accepte l'hypothèse a = 0, c'est-à-dire
qu'on conclut à l'absence de liaison.
On sait construire un test sur r, équivalent au précédent : la dépen-
dance sera considérée comme significative si la quantité
est supérieure au seuil t défini ci-dessus.
TT7
14
3.2.3. La précision de la reconstitution
La reconstitution est définie par y. = a x + b (cf. équa-
tion (10]).
On montre que, si l'erreur e suit une loi de LAPLACE-GAUSS,
les y. sont aussi des réalisations de variables de LAPLACE-GAUSS, dontJ
la variance vaut :
(x. - x)
n ny (x. -1
Ce résultat est malheureusement inutilisable car a est une inconnue.
Mais, et c'est beaucoup plus intéressant, on peut montrer que les
quantités :
"y . vrai" - y .
Cx - x ) 2
s / 1 + - + ^t / n n
l Cx - x)i = 1
sont des réalisations d'une loi de STUDENT à n-2 degrés de liberté,
II en résulte que la précision de la reconstitution
est fournie par l'intervalle :
(x .-x) (x .-x)y .-t syj oo e / n n
(1B)
-x)' -x)'
t étant, comme précédemment, la valeur lue dans la table de STUDENT
au seuil choisi pour n-2 degrés de liberté (seuil courant à 95 % ) .
Si n > 60, l'approximation normale est valide, et l'intéres
sante propriété qu'a la variable normale d'être voisine de 2 pour le
seuil bilatéral à 5 % donne la formule (12) déjà citée (5 3.1.) :
15
. (x -x)y , - 2 s /1+-!•+• 1
j e / n n -,2l (x -x)i=1
"y, vrai" $ y, + 2s_ /1+
En résumé, les règles pratiques qu'on peut retenir concernant
les conditions d'emploi de la formule (12] sont les suivantes :
- n % 60
- admettre que l'erreur, même si elle n'est pas rigoureusement gaussienne,
suit une loi unimodale symétrique.
Par ailleurs, l'interprétation de la formule (12) montre que
3 de l'intervalle pour y. est d'autant
distant de x, selon une variation hyperbolique :
l'amplitude de l'intervalle pour y. est d'autant plus grande que x. est
'JC
Figure 4
On a donc tout intérêt à ce que la période d'étalonnage
(x., i = 1 ... n) comporte des valeurs extrêmes, années humides et années
sèches ; les valeurs de la période de reconstitution tombant bien à l'in-
térieur de ces extrêmes seront alors mieux reconstituées. Si c'est le cas,
pour toutes les valeurs de la période de reconstitution, on pourra négliger
le terme en(x - x ) 2 /
•J
n
I î—,2 , et, si n est grand, négliger aussi
16
le terme en 1/n ; la formule (12) devient alors :
9* - 2s ¿ "y vrai" ¿ y + 2s (17)J E j J E
3.2.4. Les_hypothèses_statistigues_sur_la_distribution_des erreurs
La théorie à laquelle il est fait référence ci-dessus est puis-
sante, certes, mais soumise à un certain nombre d'hypothèses, qu'on a énoncé
les unes après les autres au cours du texte, quand le besoin s'en faisait
sentir.
Il est bon d'y revenir pour en avoir une vue d'ensemble :
Hypothèse 1 : les x. sont mesurés sans erreur.
Hypothèse 2 : les erreurs e suivent une loi symétrique.
Hypothèse 3 : les erreurs e suivent une loi à variance constante ("homoscedas-
ticité"), c'est-à-dire que la dispersion de t. est indépendante
de la valeur de x..
Hypothèse 4 : les erreurs e sont indépendantes.
Hypothèse 5 : les erreurs e suivent une loi de LAPLACE-GAUSS.
Quand l'ensemble de ces hypothèses est vérifié, tous les calculs
auxquels il est fait allusion plus haut sont licites (ce qui ne veut pas
dire que l'ajustement soit satisfaisant ! Il peut être désastreux, mais
on est sûr que les procédures statistiques de test st d'estimation utilisées
pour en juger sont employées à bon escient ! ) . Mais il n'est pas du tout
nécessaire que ces 5 hypothèses soient vérifiées simultanément, et certains
résultats partiels sont presque toujours valides :
- L'hypothèse 1 est fondamentale ; précisons un peu, pour comprendre son
importance, un point de théorie de l'estimation : on a écrit que les quan-
tités a et b, calculées par les formules (7) et (B), étaient des estimations
"satisfaisantes" des paramètres a et 3. Il faut entendre par là qu'elles
vérifient un certain nombre de propriétés statistiques intéressantes, qu'on
ne peut énumérer ici. L'une des plus importantes est que ce sont des
"estimateurs convergents et sans biais", c'est-à-dire que, si la taille
de l'échantillon n augmente indéfiniment, a et b convergent vers a et 3.
17
Or, et c'est ce qui rend l'hypothèse 1 fondamentale, lorsque les obser-
vations x. sont entachées d'erreur (même si ce n'est qu'une erreur aléa-
toire de moyenne nulle, et, à plus forte raison, si c'est une erreur sys-
tématique) , les estimateurs a et b ne convergent pas vers a et g!
Le "biais" est lié à l'importance relative de l'écart-type des erreurs
sur x par rapport à la dispersion des valeurs x. réellement observées.
On pourra donc, dans certains cas, le négliger.
Quand il n'est pas négligeable, il n'existe pas de règle générale, mais,
selon les hypothèses qu'on fait sur les erreurs de mesure des x., il est
possible de concevoir des "modèles à erreur" spécifiques. Il est impos-
sible d'énoncer des règles simples pour ces cas-là.
- L'hypothèse 2 est, dans le modèle simple que nous étudions, de peu d'im-
portance : la présence du terme constant ß fait que l'on peut toujours
admettre que les erreurs e. sont symétriquement réparties autour de 0.
- L'hypothèse 3 est assez importante, mais moins cependant que l'hypothèse
1 ; si elle n'est pas vérifiée, en effet, a et b convergent toujours vers
a et ß, mais ils convergeront moins vite ; pour une même précision, donc,
il faudra plus d'observations.
En cas de non-vérification, on peut se ramener à la vérification par un
changement de variable opportun.
- L'hypothèse 4 a, sur le résultat des estimations, la même incidence que
l'hypothèse 3. Il est plus délicat de s'y ramener par un changement de
variable en cas de non-vérification. La procédure la plus courante, dans
ce cas, consiste à séparer les séries en sous-séries où l'hypothèse d'in-
dépendance est réaliste : quand on travaille sur des séries mensuelles,
en effet, on peut craindre une corrélation positive entre e_, et e. „ duei 1+1
au fait que les facteurs de variation non identifiés agissent avec une
certaine continuité ; il faut alors, quand les séries sont assez longues,
faire un ajustement par mois - ou par saison - : on peut beaucoup plus
facilement admettre que les erreurs t., t.+ , e.+9» ••• sont indépen-
dantes .
En cas de séries courtes, le problème reste entier.
La vérification des 4 premières hypothèses rend valide toutes
les procédures d'estimation du modèle.
18
L'hypothèse 5 est nécessaire pour que les procédures de test aient un sens.
Elle est également nécessaire pour que les intervalles de probabilité à 95 %
soient valides. Nais, et c'est là ce qu'on appelle la "robustesse" d'une
procédure, les résultats ne sont pas très affectés quand cette hypothèse
n'est que à peu près vérifiée (en ce sens, les procédures statistiques
de la régression linéaire sont beaucoup plus robustes vis à vis de l'hy-
pothèse 5 que vis à vis des hypothèses précédentes, 3 et 4 en particulier].
En pratique, il suffit que l'on puisse admettre pour les erreurs une dis-
tribution symétrique et unimodale (cf. fig. 5).
3.2.5. Vérification
Comment juger que ces hypothèses sont vérifiées ? Que ce soit
par des méthodes statistiques objectives, ou grâce à l'intuition du statis-
ticien, il est difficile de vulgariser ces techniques. C'est pourquoi nous
ne conseillons ici qu'une méthode qui a les avantages d'être simple, globale,
compréhensible par tous, et qui est, en outre, un argument irréfutable (en
cas de résultat positif...) pour persuader un client, spécialiste ou non,
de la validité d'un modèle de régression. Elle a, en regard, le seul incon-
vénient de nécessiter un nombre d'observations plus élevé.
Cette méthode consiste, tout simplement, à"mettre de côté"
quelques observations pour procéder à des vérifications.
On se contente, donc, des p premières mesures (p < n) pour ajus-
ter le modèle (calculer a et b) puis appliquer le principe de reconstitution
au n - p mesures suivantes, où l'on connait les y., mais où on les "oublie"
volontairement ; on vérifie alors que 95 % des "y. vrais" sont bien dans les
intervalles calculés par les formules (12), (16) ou (17).
En cas de succès, on peut procéder à la reconstitution des m - n
dernières valeurs (à condition, bien sûr, qu'il n'y ait pas d'importants
changements climatiques ou géologiques entre la période de calage et la
période de reconstitution).
En cas d'échec, s'adresser au plus proche statisticien (sans op-
timisme exagéré...) : il n'y a pas de solution générale, et une étude de
chaque cas est nécessaire.
13
5.1. Distribution de LAPLACE-GAUSS exacte :
5.2 . Distributions approchées valides (symétriques et uni-modales)
5.3. Distributions moins valides ; ou pas valides du tout
symétrique et uni-modale,mais trop anguleuse
bi-modale
asymétrique
distribution "en U"(cas pathologique rarissime)
Figure 5
20
En résumé, cette règle pratique très importante (appliquée par
de nombreux statisticiens, qui n'ont qu'une confiance limitée dans le réalisme
d'hypothèses pas toujours vérifiables...) consiste à remplacer le schéma de la
fig. 3 par le schéma suivant :
Ajustement Vérification Reconstitution
Vl Vl •" xm
Figure 6
21
4. APPLICATION AUX CHRONIQUES PIEIOMETRIQUES : EXEMPLE
On a vu plus haut le rôle de l'hypothèse n° 4 (indépendance dans
le temps des erreurs e.J. Autant on peut l'admettre pour des séries, par exem-
ple, de pluies mensuelles, autant c'est plus discutable quand les observations
sont liées dans le temps : pluies journalières, par exemple, débits journaliers,
ou niveaux hebdomadaires. Il est certain, dans ce cas, que les y. ne sont pas
indépendants des y ; ceci n'implique pas que les e. soient liés aux e.+1»
mais laisse planer le doute. Il faut donc être assez prudent. Plutôt que les
considérations théoriques (cf. $ 3.2.], l'exemple suivant illustrera les condi-
tions d'application de la méthode.
4.1. LeA condLtixonA du problème.
- L§_problème : montrerque, dans un réseau piézométrique (celui du bassin
de l'Hallue), certains piézomètres n'apportent pas d'information supplé-
mentaire. Pour plus de détails, on se reportera au rapport n° 72 SGN 250
AME, où le principe de l'opération a été décrit.
!r_ED[)?5 : cinq années de mesures (196B - 1970] mensuelles en deux piézo-
mètres.
En conservant les notations du paragraphe précédent :
piézomètre A : ouvrage 46.03.06. (variable explicative]
piézomètre B : ouvrage 46.07.34. (variable à expliquer].
On se propose d'ajuster une équation de régression linéaire entre
A et B, sur une période d'ajustement de p mesures, puis d'"oublier" les
mesures au piézomètre B pendant une période de vérification, de p+1 à m,
où l'on va calculer des y. (mesures reconstituées en B] par l'équation
de régression ; la comparaison entre les y. calculés et les y. vrais per-
mettra de conclure : si l'ajustement est satisfaisant, on aura montré que
le piézomètre B n'apporte pas d'information, et qu'on peut y cesser les
mesures.
En pratique, on a pria P = 24, m = 60 , c'est-à-dire que l'ajus-
tement a lieu sur deux ans de mesures, et que la vérification porte sur
les trois années suivantes.
22
4.2. M¿¿¿ en 02JUL\)K<L CLQA calculi
II est possible de les faire "à la main". Il est également possible
de les exécuter sur ordinateur. Les avantages et inconvénients respectifs
de ces deux méthodes sont commentés au 5 7, on ne donnera ici que les résul-
tats.
On peut travailler, au choix, sur les profondeurs ou sur les niveaux
les résultats seront les mêmes s ici, nous avons utilisé les profondeurs.
- Amplitudes de variation :
piézomètre
A
B
période
62,
53,
1966
55 < x
39 < y
- 1967
< 68,
< 55,
81
77
63
53
1968
,28 <
,95 <
- 1
X
y
970
< 69,
< 55,
08
79
Les amplitudes de variation sont bien comparables sur les deux
périodes.
- Valeurs des coefficients de régression
a = 0,298
b = 35,320
d'où l'équation :
0,298 xi + 35,320
écart-type résiduel :
s = 0,383
coefficient de corrélation :
R = 0,841
23
4.3. ïnteAptâtcUlon AteutútÁque. doA fil¿>uZX.a£t>
Test de l'hypothèse g = 0 au risque 5 % :
a / I i*- - ^ 2
t = 7 i = 1 = 7,40s
On lit dans la table de la loi de STUDENT que le seuil à 95 %
vaut, pour P - 2 = 22 degrés de liberté : t = 2,074.
La valeur t observée est très largement supérieure à ce seuil, on
rejette donc l'hypothèse a = 0.
Intervalle à 95% pour y. :
la formule (16), la plus générale, est peut-être d'une précision superflue,
Calculons donc la valeur du terme / , —,21 tx - x)
c = / 1 + - + — • — J
P1=1
pour une valeur extrême de x..
Pour x. = 62,55, on trouve c = 1,0823
Pour x. = "x, on trouve c = 1,0206.J
Le terme t valant 2,074, on voit que le coefficient multiplicateur de s ,
qui vaut et , varie entre 2,24 et 2,12.o
L'approximation de la formule (17), qui consiste à poser e t = 2
est donc, ici, sensiblement différente (12%) de la valeur exacte - tout au
moins aux limites de l'intervalle de variation.
On a reporté, sur la fig. 7, la droite y = ax + b, et les intervalles
calculés par les deux méthodes (formule (12) ou (17)).
C'est à l'utilisateur de décider si la perte de précision est compen-
sée par la simplification des calculs !
(x) Consulter, par exemple, les tables statistiques de l'I.S.U.P., rééditéesdans un numéro spécial de la Revue de Statistique Appliquée en 19?'3.Centre d'enseignement et de recherche de statistique appliquée, I.S.U.P.,4, place Jussieu, 75230 Paris cedex 05.
o point ayant servi à I'¿talonnage (1966.67)
• point n'ayant pa« servi à l'étalonnage ( 1968.70)
ee 68 Ot/rrogt *69 Çurrogt
Fig.7 RECONSTITUTION DES NIVEAUX AU PIEZOMETRE X6.7.M(y)A PA RTI R DES NIVEAUX AU PIEZOMETRE <6. 3 .06 (x) R2-.0,71 N>
25
4.4.
On a reporté sur la fig. 7 les points de la période d'étalonnage,
mais aussi les points de la période de vérification : il apparaît que les
3 x 12 = 36 valeurs prévues tombent bien dans l'intervalle à 95 % calculé,
ce qui confirme la validité de l'ajustement.
La présentation graphique la plus parlante est fournie par la fig.
8, où l'on trouve, non plus les y. et y. en fonction des x., mais les y.
et les y. en fonction du temps.
C'est sur cette figure que 1'hydrogéologue "voit" le plus clairement
la signification de l'erreur statistique de reconstitution.
Afin d'éviter de lourds calculs on n'a reporté sur la fig. 8 que
les intervalles calculés par la formule (171 . (Le tracé de ces intervalles
s'est réduit à la simple translation d'un papier calque...].
4.5. Corm&ntcUAe. ¿>UA LZÂ hypothec<¿¿> ¿>taXÁAticnx<¿A
- Hypothèse 1 : n'est pas contrôlable au vu des résultats ; mais, a priori,
on peut admettre que l'erreur de mesure sur les niveaux est négligeable
(quelques mm, en regard d'une variation des x. de plusieurs m].
- Hypothèse 2 : symétrie des erreurs : assurée "par construction" (puisque
le modèle a un terme constant).
- Hypothèse 3 : constance de la variance - apparaît sur la fig. 7 :
la dispersion des points autour de la droite calculée y. = a x. + b (dis-
persion qui donne une idée de la "vraie valeur" a) semble régulière tout
le long de la droite : la dispersion de l'erreur semble bien indépendante
des valeurs x..i
- Hypothèse 4 : indépendance des erreurs - n'est peut-être pas totalement
vérifiée : il semble, sur la fig. 8, que les points se trouvent au dessus
ou au dessous de la courbe théorique par "séries".
Il est possible de faire des tests statistiques d'indépendance des résidus ;
nous ne ferons pas ici l'exposé de ces méthodes, d'un emploi délicat, mais
nous signalerons simplement que leur usage nous a amené à douter de
56
53V-*
27
l'indépendance : certains tests ont des résultats contradictoires, ce qui
peut laisser penser qu'on est dans un cas limite.
Hypothèse 5 : Normalité : si les erreurs e. suivent une loi de LAPLACE-
GAUSS, les erreurs observées, ou "résidus", y. - y., doivent en suivre une
aussi. Dn trouve, fig. 9, les histogrammes
a) de la série des 24 résidus de la période de calage
b) de la série totale des 60 résidus.
On peut difficilement admettre, au vu de ces histogrammes, que les rési-
dus observés sont issus d'une loi de GAUSS [nette asymétrie de la distri-
bution) .
Les considérations précédentes ne conduisent pas à des conclusions
directement interprétables ¡ une maîtrise solide des différentes techniques
statistiques est nécessaire pour les exploiter au mieux.
Ceci montre bien, donc, l'intérêt de la procédure de vérification
empirique suggérée au § 3.2.5., et illustrée par les fig. 7 et fl, procédure
qui, ici, et sous réserve de l'absence de modifications structurelles dans
l'avenir (pas de perturbation grave des conditions de l'écoulement, telle
que changement important du régime climatique, cataclysme naturel, ou amé-
nagement humain intense), permet de considérer le modèle comme valide.
50-
20-
10-
en %
-1.0 -.8 "6 -.4 -. 2 O .2 .4 .6 8 1.0 12
;ris de 24 résidus
30
10-
fréyvence. a.n "/o
- 1.0 -.8 -.6 -.4 -.2 O .2 .4 .s .8 f.O t.2
Série de 60 résidus
Figure 9
29
5. PREVISION VES NIl/EAUX EXTREMES
Sans aller jusqu'à considérer que le problème est insoluble, nous
n'abordons ce terrain qu'avec une extrême prudence.
Il est absolument impératif, dans ce domaine, de définir avec la
plus grande précision ce qu'on cherche. Il existe, en effet, plusieurs manières
de poser des problèmes de crue ou d'étiage, et la difficulté de résolution
comme la puissance de la solution sont très dépendantes de la manière dont on
a formulé le problème.
5.7. VoJLtLüAA 2.xtn.hneA> au Ann& people, du tojmz
Par "valeur extrême", on désigne la plus grande ou la plus petite
d'une série d'observations. Ceci suppose donc que les observations soient
classées par ordre de valeurs croissantes (ou décroissantes) et non dans
l'ordre où elles ont été relevées, ce qui modifie complètement leur loi de
probabilité.
Ce résultat, en apparence paradoxal, sera peut-être mieux compris
à l'aide d'un exemple simple :
On considère une série d'observations indépendantes x„, x_ ... x ;1 2 n
supposons qu'elles suivent toutes la même loi de probabilité, et que cette
loi commune soit la plus simple qui soit : la loi uniforme, c'est-à-dire que
toutes les valeurs soient équiprobables (à chacune des n observations, et
indépendamment des précédentes, on peut avoir n'importe quelle valeur dans
un intervalle donné avec la même probabilité). Si, alors, on s'intéresse à
la loi de la plus grande de ces variables, on peut constater qu'elle ne suit
pas la loi uniforme ! En classant les variables, en effet, on donne à la plus
grande des probabilités plus fortes de prendre de grandes valeurs. Le calcul
analytique exact de la loi de probabilité de cette variable est possible,
mais met en jeu des fonctions spéciales rendant cette loi peu maniable.
On imagine alors ce qu'il peut en être en hydrologie, où les obser-
vations sont rarement indépendantes, et où les lois (quand elles sont connues..)
sont complexes.
30
Nous écartons donc ce problème, pour sa complexité d'une part, pour
son manque d'intérêt pratique immédiat d'autre part. Plutôt que la loi de la
plus grande valeur, en effet, il est intéressant d'étudier les probabilités
de dépassement d'un seuil donné ¡c'est l'objet du paragraphe suivant. On
retiendra de ce qui précède que le terme "valeurs extrêmes" ne doit être
employé que dans le sens qu'on vient de décrire, et que, en ce cas, le trai-
tement est très délicat.
5.2. Analyse.
Une méthode plus courante, relativement facile à mettre en oeuvre,
consiste à étudier la loi de probabilité d'une variable, et à estimer les
valeurs de la "queue" de la loi.
Si, par exemple, x , x_ ... x sont n observations indépendantes(K)
(toujours ...) de la variable étudiée, on commence par ajuster une loi de
probabilité à cette série, puis à en estimer certains quantiles.
Le quantile d'ordre ex d'une distribution de probabilité est la
valeur de la variable qui n'est dépassée qu'avec une probabilité 1 - a
(voir fig. 10], L'ajustement de la loi permet
. de connaître la probabilité de dépassement d'une valeur donnée
. de connaître la valeur dépassée avec une probabilité donnée (quantile).
es/ ej ô f-C (Jôir* hochurçt*
ym C/K laire fofa/a)
Figure 10
(x) On n1expose pas ici les diverses techniques d1'ajustement, mais on peutsignaler qu'elles sont, en général, faciles à mettre en oeuvre (à l'aidede papiers à échelle spéciale).
31
Bien que ce type d'analyse soit applicable à l'ensemble de la distri-
bution, il est fréquemment employé pour les "queues" de distribution : à droite
pour les crues, à gauche pour les étiages.
Il est d'usage, dans ces applications, d'exprimer les probabilités,
ou les fréquences, en termes de durée moyenne de retour : quand on étudie des
données de débit annuelles, par exemple, on ne parlera pas de la crue de pro-
babilité 1 %, mais de la "crue centenaire".
La précision de ces estimations peut être connue plus ou moins labo-
rieusement selon la forme analytique de la loi ajustée ; le simple exposé des
formules donnant cette précision (en termes d'intervalles de confiance) sort
des limites qu'on a fixé à cet exposé j il est cependant intéressant de noter
quelques propriétés de simple bon sens :
- La précision est proportionnelle à la probabilité qu'on étudie : le débit
médian est estimé avec une précision bien supérieure à celle du débit de crue
décennal, et, a fortiori, à celle du débit centenaire.
- La précision est également liée à l'effectif de l'échantillon qui a servi
à l'ajustement.
On voit donc que, plus on se rapproche des "queues" des distributions,
plus la précision est faible. Il est, à la limite, absurde d'essayer d'esti-
mer par cette méthode une crue centenaire avec seulement cinquante ans d'ob-
servations ! Il est nécessaire, au contraire, d'en avoir plusieurs centaines.
Ces questions de précisions amènent aussi à remarquer que les que-
relles d'école sur le type de loi à ajuster (PEARSON III, GUMBEL, GALTON,
etc.) semblent de peu d'intérêt pratique, les différences entre les queues
de ces différentes lois ne pouvant être mises en évidence qu'avec des échan-
tillons de très grande taille.
L'hypothèse d'indépendance est fondamentale ; les données hydrolo-
giques ne la vérifient cependant que rarement. Il y a alors deux manières de
s'y ramener :
a) en séparant, comme on l'a vu au $ 3.2.4. à propos de l'hypothèse 4, les
données, selon l'échelle des temps, en plusieurs classes, et en faisant
autant d'ajustements qu'il y a de classes. Si, par exemple, on refuse d'ad-
mettre l'indépendance entre les débits d'octobre et ceux de novembre,
on fera un ajustement sur la série des débits d'octobre (qui, d'une année
sur l'autre, peuvent être considérés comme indépendants) et un autre ajus-
tement sur les débits de novembre.
32
b) en éliminant toutes les données inférieures à un seuil choisi de façon
à rendre, justement, les valeurs qui les dépassent à peu près indépen-
dantes. Cette technique, assez répandue dans l'étude des débits de crue,
semble difficilement généralisable à l'étude des chroniques piézométriques,
dont les "crêtes" n'ont pas du tout la même allure.
Dans le cas des débits, le cas de figure suivant se présente sou-
vent
Figure 11
L'hydrologue choisit empiriquement qQ de façon que les crêtes de
1'hydrogramme supérieures à q apparaissent à peu près indépendantes,
et, en tous cas, beaucoup moins liées que les débits moyens. La nouvelle
variable étudiée est alors le débit maximal d'un épisode de crue au dessus
de q .
On voit que ces deux techniques supposent un grand nombre d'obser
vations : d'où la tentation de chercher à "rallonger" les séries trop courtes
à l'aide d'une série longue avec laquelle elles auraient une corrélation
suffisamment élevée.
Il ne paraît pas possible ici de donner de règle générale concer-
nant l'erreur ainsi commise ; ce qui est certain, c'est que deux sources
d'erreur se cumulent : l'erreur due à l'estimation du quantile d'ordre a.
33
à partir de l'ajustement, et l'erreur due au fait qu'on a fait l'ajustement
sur des données estimées à partir d'une station plus longue.
Cette pratique n'est pas pour autant condamnable, loin de là s on
ne peut que remarquer qu'il n'y a pas de règle simple, et que des études cas
par cas sont nécessaires dès que l'on veut quantifier l'erreur.
5 . 3 . Aqfrie/ô mitkodte
On cite, seulement pour mémoire, deux outils utilisés en hydrologie
pour l'étude des crues :
- La méthode du "GRADEX". Mise au point par la D.T.G. de l'E.D.F. pour l'étude
des crues, elle utilise
a] des informations exogènes concernant la pluie
b) des hypothèses simplificatrices mais néanmoins réalistes, qui en font
une technique très sûre.
- La théorie des "processus de renouvellement", qui consiste à étudier simul-
tanément des lois d'intensité d'un phénomène supposé ponctuel et des lois
d'occurrence dans le temps (loi du nombre de crues sur une période donnée,
loi des durées de retour, etc...].
Nous n'avons pas l'expérience pratique de ces méthodes, et nous
n'en avons pas envisagé d'application aux variables hydrogéologiques pour
l'instant. On n'approfondira donc pas plus.
34
6. APERCU SUR VES MODELES LINEAIRES PLUS GENERAUX.
. Le modèle Y = ax + ß + e qu'on a commenté dans les paragraphes précédents
est un cas très simple de la théorie générale des modèles linéaires ; presque
tous les résultats qu'on a cités peuvent s'étendre à des modèles de la forme :
Y = a f (x , x ... x^) + a f (x , x ... x ) + ... a f (x , x ... x ] + ß +e
Les fonctions f , f_, ... f peuvent être quelconques, l'important est que le1 2 p
modèle soit linéaire en les paramètres a. ... a , ß.
. Le cas le plus répandu, pour lequel il existe un grand nombre de programmes
d'ordinateur, est celui de la régression linéaire multiple :
Y - V i * a2x2 ... • apxp • ß • e .
. Les modèles de régression polynomiale ont des formes variées, la plus simple
étant :Y = a xP + a xp + ... a x + ß + e .
D'autres formes utilisent des familles de polynômes orthogonaux.
Selon la manière dont on pose les variables explicatives, on aboutit à des
modèles plus ou moins spécifiques :
. Modèles à retards échelonnés :
nx. + a.x. . + ... a x. + ß + e. .0 i 1 1-1 p î-p i
. Modèles auto-régressifs :
Vi-2[si p = 1, on appelle aussi ce modèle "modèle markovien" ; ce terme est assez
répandu en hydrologie ; si, formellement, il est exact qu'un tel modèle soit
markovien, l'expression est maladroite car il existe beaucoup de modèles mar-
koviens qui n'ont aucun rapport avec celui-ci ! ) .
. Modèles de "moyenne mobile" ("moving averages"] : variante des modèles à re-
tards échelonnés,
. La combinaison des deux précédents donne des modèles assez à la mode, et dési-
gnés dans la littérature statistique par le aigle ARIMA (AutoRegressive
Integrated Moving Averages],
. Signalons, enfin, les "modèles à erreurs sur les variables" (cf. 5 3.2.4.).
35
L'exposé de ces modèles suppose l'utilisation d'un formalisme matri-
ciel encore assez simple, mais qui sort du cadre limité que nous avons fixé à
ce rapport. Leur approfondissement peut conduire à des problèmes délicats, dont
certains sont encore des questions ouvertes : les difficultés proviennent tou-
jours de l'abandon d'une ou de plusieurs des 5 hypothèses fondamentales énoncées
au S 3.2.4.
36
7. METHOVES VE CALCUL
Lorsqu'on pose un problème d'ajustement par moindres carrés, on est
conduit à un système d'équations linéaires (d'où le nom de "modèles linéaires")
dites "équations normales".
Dans le cas du modèle simple exposé ici, il s'agit d'un système de
deux équations à deux inconnues, dont la solution est donnée par les formules
(7) et (8).
Dans des cas plus généraux, où le nombre d'inconnues est plus grand,
il est numériquement aberrant de
a) poser la solution analytique (la "formule")
b) appliquer cette solution numériquement
comme on le fait dans le cas du problème simple. Les opérations à effectuer
sont alors, en effet, trop nombreuses, et, d'autre part, comprennent trop de
divisions (opérations longues et imprécises).
On procède donc, en ordinateur, à la résolution numérique du problème,
par des méthodes spéciales (du genre de celles qu'on utilise dans les modèles
hydrodynamiques).
Dans les cas généraux, donc, il n'y a pas le choix, il faut utiliser
1'ordinateur.
Dans le cas de la régression linéaire simple, il est possible de
faire les calculs avec une simple additionneuse de bureau. Les calculs de l'exem-
ple cité au 5 4 sont reproduits ci-dessous :
7.1. Calcul "à la main"
- Matériel souhaitable :
. une machine de bureau électronique ou électro-mécanique, capable d'addi-
tionner et de multiplier, avec, de préférence, impression des résultats,
. une règle à calcul,
. une table de carrés et de racines carrées (outil fondamental en statisti-
que numérique : tables de BARLOW, 4ème édition, librairie polytechnique
BERANGER, DUNOD, Paris 1966 - Carrés, cubes, racines carrées, racines
cubiques et inverses des nombres entiers de 1 à 12 500).
- Faute de ce matériel, un papier, un crayon, et quelques heures, sont suffi-
sants.
37
On prépare un tableau de calcul à 7 colonnes, comme ci-dessous :
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Total
1
Xi
64.76
64.72
64.34
64.42
64.77
65.57
66.06
67.01
67.57
68.08
68.32
67.77
62.55
62.88
63.10
63.68
64.48
65.53
66.17
66.98
67.80
68.18
68.56
68.81
1 582.11 1
2
y±
53.75
54.23
54.37
54.56
55.77
54.69
55.12
55.54
55.63
55.71
55.51
55.14
53.39
54.26
54.36
54.29
54.64
54.93
55.17
55.51
55.77
55.74
55.52
55.57
319.17
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
86
3
x.y.
480.85
509.76
498.16
514.75
612.22
586.02
647.22
721.73
758.91
792.73
792.44
736.83
339.54
411.86
430.11
457.18
523.18
599.56
650.59
718.05
781.20
800.35
806.45
823.77
987.46
4
4
4
4
4
4
4
4
4
4
4
4
3
3
3
4
4
4
4
4
4
4
4
4
104
4
2Xi
193.85
188.67
139.63
149.93
195.15
299.42
363.92
490.34
565.70
634.88
667.62
592.77
912.50
953.89
981.61
055.14
157.67
294.18
378.46
486.32
596.84
648.51
700.47
734.81
382.28
2
2
2
2
3
2
3
3
3
3
3
3
2
2
2
2
2
3
3
3
3
3
3
3
72
5
2
889.06
940.89
956.09
976.79
110.29
990.99
038.21
084.69
094.69
103.60
081.36
040.41
850.49
944.14
955.00
947.40
985.52
017.30
043.72
081.36
110.29
106.94
082.47
088.02
519.72
6
V ax.+b
54.618
54.606
54.493
54.517
54.621
54.859
55.005
55.288
55.455
55.607
55.679
55.515
53.959
54.058
54.123
54.296
54.535
54.847
55.038
55.280
55.524
55.637
55.750
55.825
y
-.868
-.376
-.123
-.169
-.169
-.375
-.569
-.006
-.230
-.255
-3.140•
7
i • h
+ .043
+1.149
+ .115
+ .252
+ .175
+ .103
+ .202
+ .237
+ .105
+ .083
+ .132
+ .230
+ .246
+ .103
+3.175035
- On commence par reporter dans le tableau (colonnes. CD et (2)) les valeurs
x. et y mesurées. On calcule les totaux, d'où en divisant par n, les
moyennes : 7 = (1582.11)/24 = 65.921
7 = (1319.173/24 = 54.965
38
On calcule ensuite les carrés (colonnes (4) et (5)), ce qui permet d'avoir
les variances. Pour cela, on n'applique pas les formules (4) et (5) direc-
tement, mais on utilise les formes suivantes, plus adaptées au calcul numé-
rique :
n __ n
1=1 1 1=1 1
2 7I y 2 i - 7 . l y.i=i i=i
On trouve :
2 = 104 3B2 .26 - (65.921) (1582.11]3x 24
,2 = 72 519.72 - (54.965)(1319.17)'y 24
3,666
0,4808
d'où : s = 1,9147
s = 0,6934
Vérification importante2 2s et s doivent toujours être % 0 !x y J
Le calcul des produits x.y. (col. 3) permet de calculer le coefficient a
par la formule :n n n
a =
n L V i "1 = 1
¿ xi ¿ yi1=1 1=1
- (E
Cette formule, plus adaptée au calcul numérique, est équivalente à la for-
mule (8).
On trouve :
[24)C86 987.46) - (1582.11)(1319.17)a =
(24H104 382.28) - (1582.11)'
626.9922102.668
a = 0.298
39
- On calcule enBuite b par :
b = o 'i - a I xi
[1319.173 - (.298] (15fl2.11) = 647.70224 " 24
= 35.320
A titre de verification, on calcule les valeurs y. = ax. + b (colonne B]
et les résidus (y. - y )(colonne 7). On vérifie que la somme des résidus
n'est pas trop différente de zéro. En toute rigueur, elle devrait être nulle ;
la valeur de cette somme, donc, représente l'addition des erreurs d'arrondi
et des erreurs d'application de la méthode (étourderie, machine défectueuse,
etc...), L'objet de cette vérification est de s'assurer qu'il n'y a pas
d'erreur grossière, d'une part, et que les erreurs d'arrondi ne sont pas
trop élevées d'autre part.
On trouve, ici :
n
l (y, - yJ = .035=1 X
et (y. - y.) .00146
ce qui montre que la précision des calculs est tout juste acceptable, mais
qu'il n'y a pas d'erreur grave.
Calcul du coefficient de corrélation : on peut y procéder à l'aide de la
formule (9) réécrite de la manière suivante :
sxr = a —y s
x= (.298)(1.915) / (0.693) = 0,822 .
Un calcul plus précis est obtenu en utilisant la formule (1) modifiée
I I
n I x.y. *i l yi 1
xy
¡ 4-i=i x ? - Í ï Vi
40
Deux des trois facteurs de cette expression ont déjà été calculés pour a,
II suffit de les reporter, ce qui donne :
B26.992r =xy
/ {2102.666] [(24H 72 519.72) - (1319.17)2]
J [2102.668] [263.792]
rxy • ° ' 7 0 7 «
- Calcul de l'écart-type résiduel :
Deux méthodes :
2. à partir du coefficient de corrélation et de s , par la formule (15) :
4(1 - r2) ̂ 4 « (-293^4H-48063 = -153
s = .391
en appliquant directement la formule (11), on obtient :
se = i 1 4 7
s = .383
La première valeur est affectée par les erreurs d'arrondi sur la valeur2
de r , la deuxième par les erreur!
dépendant des erreurs sur a et b.
2de r , la deuxième par les erreurs d'arrondi sur les y., elles-mêmes
A ce niveau de divergence, il faut raisonner sur les valeurs de s ,
qui sont homogènes aux mesures de départ : si l'erreur entre .391 et .383,
qui est de l'ordre de 1 cm, peut être négligée, on choisit n'importe quelle
valeur. Si elle n'est pas négligeable, il faut refaire tous les calculs
avec une machine plus précise, ou,avec plus de décimales.
41
7.2. Calcul cuitomcuUquz
Quatre possibilités :
a) Ecrire soi-même, dans un langage de programmation scientifique (F0RTRAN
IV, PL/1, ALGOL . . . ) , un programme effectuant les calculs précédents.
b) Utiliser une bibliothèque de sous-programmes de calcul, telle la biblio-
thèque SSP d'IBM (Scientific Subroutine Package], disponible au centre
de calcul d'Orléans. Il reste à l'utilisateur à écrire lui-même toute
la partie entrée - sortie en traitement.
c) Utiliser un programme de bibliothèque "tout fait", du genre de ceux de
la bibliothèque BMD (également disponible à Orléans).
d) Utiliser un sous-ensemble de la chaîne "AD0", mise au point au centre de
calcul d'Orléans j cette dernière solution paraît faire double emploi
avec la précédente (programmes BMD). Il n'en est rien, car le principe
général qui a régi la conception et la réalisation de la chaîne de
programmes AD0 est celui du système intégré, performant, et simple
d'emploi.
. Intégré : compatibilité entre différents types de traitement, dont la
régression n'est qu'un cas particulier, avec conservation des résultats
intermédiaires dans des fichiers sur disque.
. Performant : utilise au mieux les possibilités de la machine (alors
que le système BMD, ayant cherché à être universel et pouvant être
adapté sur tout ordinateur muni d'un compilateur F0RTRAN, est loin
d'utiliser au mieux temps et taille de mémoire).
. Simple : les "boutons de commande" du système sont manipulés à l'aide
de bordereaux pré-imprimés où l'utilisateur n'a qu'à cocher les cases
significatives. C'est donc un système accessible à tous, même ceux
qui n'ont jamais appris à programmer.
En conclusion, c'est les, 3e et 4é possibilités Q u e nous recomman-
dons ! Il n'en demeure pas moins que, selon les cas, les autres solutions
peuvent être envisagées (1'éloignement d'Orléans, dans une mission à l'é-
tranger par exemple, à déjà conduit à utiliser les solutions b) ou c)).
Le travail de préparation des données consiste à reporter les don-
nées sur bordereaux de perforation, selon un format quelconque, mais à
42
raison d'un couple XJ, yj par carte, et à faire perforer cea bordereaux.
La plupart du temps, en particulier dans AD0, il s'agit de programmes
de régression multiple, où de nombreux paramètres doivent être spécifiés, ce
qui fait l'objet de bordereaux spéciaux.
On n'entrera pas ici dans le détail de la mise en oeuvre de ces pro-
grammes ; on trouvera ci-dessous un exemple de bordereaux et un exemple de
listage de résultats :
figure 12 : fac. similé du bordereau de perforation des données
figure 13 : fac. similé du bordereau donnant les instructions de constitu-
tion du fichier
figure 14 : fac. similé du bordereau donnant les instructions de calcul
figure 15 : fac. similé des résultats
figure 16 : schéma d'ensemble du traitement.
7.3. Cho<Lx en&iz 1<¿A dzux
Un calculateur entraîné peut faire les calculs manuels du $ 7.1. en
deux heures ; il faut compter à peu près le même temps en ordinateur * (rem-
plir les bordereaux de données, les donner à perforer, récupérer les cartes
données, préparer les cartes paramètre et les cartes contrôle, porter le
tout en salle machine, revenir chercher le résultat quelques heures plus
tard), étalé sur 1 à 2 journées (délai de perforation, délai de restitution),
Mais, et c'est le plus important, les deux heures de calcul manuel
sont perdues en cas d'erreur ! Et, d'expérience, on peut constater que les
calculateurs, même les plus entraînés, se trompent.
Donc, nous conseillons sans réserve l'utilisation de l'ordinateur
pour ce genre de calculs !
Dès qu'on utilise des modèles un peu plus compliqués, d'ailleurs,
on n'a pas le choix, seul l'ordinateur peut mener à bien les calculs.
(*] Le temps réellement pris par la machine est, bien sûr, beaucoup plusbref : de l'ordre de quelques secondes.
B. R. G. M .
INFORMATIQUE
BORDEREAU DE DONNÉES
Figure 12.1
B. R. G. M .INFORMATIQUE
BORDEREAU DE DONNÉES
Figure 12.2
Demandeur: CflH(.£
Imputation : ftÛC- »<
Date : « A / , « * / , * ^
Disque: tf-iFt^ 06
BORDEREAU ADO 2 Page A de -1
CONSTITUTION SIMPLIFIÉE DE FICHIER
Remarques :
- Nombre de variables < 60- Longueur identificateur réduit < 4 caractères- Longueur Indicatif de groupe -í 4 caractères
- La séquence d'une observation devra se pré-
senter ainsi :
Identificateur réduit, Indicatif de groupe,(coordonnées), valeurs.
IDENTIFICATION
Fichier : Cases (5,6) lettres choisies par
l'utilisateur.
Cases (7,8) N° de génération.
Support des données :
01 si les données sont sur carte
07 si les données sont sur bande
C A R T E OPTIONS
Coefficients : codes unité ou codes quel-
conques, facultatifs et non utilisés dans
les calculs.
C A R T E F O R M A T
- m ê m e écriture qu'un format Fortran, ouver-ture de parenthèse en colonne 1, fermetureà la fin du format.
C A R T E N O M S
Les noms de variables sont cadrés à gauche.
C A R T E C O E F F I C I E N T S
Les coefficients sont cadrés à droite
D O N N E E S A B S E N T E S :
Une donnée absente ou Indéfinie est repéréepar des espaces dans les positions corres-dantes de la carte donnée.
Une donnée nulle (zéro mesuré) ne peutêtre strictement égale à 0; elle est repéréepar une valeur 1 dans la dernière des posi-tions correspondantes de la carte donnée.
Exemple :
donnée en Format F 4. 2
d o n n é e absente M i l l
d o n n é e nulle I I I H
FICHIER ETUDE
9 LIBELLE ' 6
TYPE DE TRAITEMENT
IDENTIFICATION
Support des données Nbre d'enreglstr. maximum
|A |D|0 IH1|O|A|1 |
73 80
31
1 2
Nombre de variables PPl
Présence de coefficients *LJ 3
* Cocher les cases utiles.
1 5 9 13 17
m u73 80
OPTIONS
Présence des coordonnées < Y * Q s
' Z.D6
Elimination données , n 7
absentes
IATDWIÏÏMCIII73 80
21
FORMAT
25 29 33 37 41 45 49 53 57 61 65 69 73 77 80
|(iAAi*
|*l*t»|X
1
1 1 11
1 1 1
1
1 1 1
lini
m
lini
M l
¥\
5
1 |
5
5
1 |
| ,
5
1 1
5
| |
5
II
rifa«
rf IJHJ
9
ill9
1 1 1
9
i l 1
ill9
ill9
ill9
ill
f\*\Y
i i
i |
i i
| |
| |
1 I
fa
| |13
| |
13
1 |
13
| |
I |
13
| |
13
| |
13
I |
i l l 117
i l l 117
1 1 M
17
lili
l i l i17
l i l i
17
l i l i
17
l i l i
n«l*i)i
ih i21
l i l i21
l i l i
21
l i l i
l i l i21
l i l i
21
l i l i
21
l i l i
l i l i
l i l i
25
l i l i25
l i l i
24
1 1
l i l i25
l i l i
25
l i l i24
ll
ill
ill29
ill29
1 1 1
1 1 129
ill29
ill
III, 1 1 1 1 1
NOMS DES
ni l
33
, , 1 I
33• Il i l i
. ll ,33
I , 1 I
33
1 ll 1
1 1 1 1 1
37
1 1 1 1 1
37
1 1 1 1 1
l i l i 1 1 1 1
VARIABLES
Mu41
l i l i
41
l i l i
i h45
ill45
1 1 1
COEFFICIENTS
i i 1 i i
37
1 1 1 1 1
37
1 1 1 1 1
l i l i41
l i l i41
l i l i
1 ll45
ih45
ill
1 1
1 1
! |
| |
| |
I I I
I I I49
1 II49
1 1 1
1 II49
I I I49
I I I
|
|
|
|
Il
h53
II53
1 !
Il53
II53
| |
| |
| |
| |
| |
| |
| |
In
lu57
1 M57
1 1 1
1 II57
I I I57
I I I
1
1
1
1
1
1
h
h61
| |
61
| |
II61
II61
| |
| |
| |
1 |
, |
1 1
M
| |
1
•
65
|
65
|
65
|
65
|
|
|
|
|
|
|
|
|
|
1
|
|
|
II
h69
| |
69
| !
I l69
h69
II
|
|
|
|
|
|
ll 1 M 111 ll
i lA .0 ,0 1 M 0 , D 11
73 80
i IAIDI0I1I1IOIDI2|
73
l | A | D I ^ I 1 | 1
73
|A,D,0 11l
80
¡0|D|3|
80
|0|D|4|
i I A I D , 0 I 1 | 1 I O , E I 1 |
73
i | A | D ^ | 1 | 1
73
i |A :D ,0 ,1 |1
73
|A ID I0 I1 |1
80
0 | E 2 |
80
0,E,3|
80
0|E|4 |
Demandeur :
Imputation : itût « <
Disque : **c£:^»»/-«tj» (-¡ne »l
Date : _ , ^ , .
Bordereau A D O 6 Figure 1-
ANALYSE STATISTIQUE
Page -J- de -f
Remarques
Codecarte :
• Placer 3 pour regressionPlacer 5 pour composantes principalesPlacer 6 pour correspondancesPlacer 8 pour facteurs c o m m u n s etspécifiques
• Carta typai de traitement
Cocher la case utile.
• Carta identification
Régression : si on ne veut pas calculer lesrésidus, on ne n o m m e pas de Fichierrésultat (cases 9 à 16).
• Carte bornas des observations
Régression : remplir seulement la* cases(là 4) et (5 à 8).
Autres : laisser à blanc les cases (9 a 121 et(13 i 16) s'il n'y a pas d'observationssupplémentaires.
• Carte options
Cocher les cases utiles.
Régression : cases (1) (2) (3) seulement.Analyse de données : le code de la case (5)permet de transformer les donnéesc o m m e suit :
31 [ *l I Re«re»«ion linéaire
321 I R«9re»ion eteoea
Correspondances
0 " pas de chang<1 • /somme
Compos, princip.
O = centrées réduites1 = / moyenne2*centrées
• Carte dimensions
Régression : remplir seulement les cases(1.2) et (3. 4 | .
Autres : placer 01 dans les cases (1, 2) et
remplir la suite.
N o m b r e d'indicatifs de groupes < 10
Nombre de variables < 6 0
N o m b r e de directions à extraire < 7
• C a n e n o m s des variables
Pour la régression : la première indiquéeait toujours la variable dépendante.
• Cartes bornes
Donner les bornes de toutes les variablesd u fichier qu'elles soient traitées ou nontraitées (format implicite F 8.2).
• Carte logarithmes
Régression : cocher les cartes qui corres-pondent aux variables devant êtreconverties en logarithmes suivant l'ordrede ces variables dans le fichier (qu'ellessoient traitées ou non traitées).Autres : ne cocher que la première casepour convertir toutes les variables enlogarithmes.
• Cartes divers
Régression linéaire : cartes absentes.
Régression étagée : une carte seulementavec critère d'entrée (1 a 41 et de sortie(S à 81.
Autres : coefficients de pondération des
variables (si pas de ponderdtion ; cartelsl
absente(s)).
Format implicite F 8.2
B Anslytt en compotantes ,principalei
TYPES DE TRAITEMENT
A M I y « m lictiun com-
IDENTIFICATION
9 16
IdentificateurloéDut
BORNES DES OBSE RVATIONSIdentificateur Identificateur_ _ _ ^ _ _ _ _ d c t e u ^ ^ ^ ^ ^ _ _ ^ - _ ^ _ _ _ _
I . IA I / 1 / loéDut I . I « I ¿ \s. lfm I f—T J—-I déDut I I I | | fin
O 7 g g oDwrvaliom 1 \I < r looier.ationj I I I ODiervatlom I I o m r m t l o n ». ' ' ' ' ' analysa» ' ' ' " . ' analytee» ' ' ' >-rï> lupplemenulrei ' ' ' I..' upplémenla
9 12
TITRE A IMPRIMER
ippiemontalrM
40OPTIONS
-B ¡SDIMENSIONS DES ZONES
I N o m b r e d'indicatifs
I « I ¿i3 4
Met I | | NomlI I I " " » '
Dr» d« »«ri* D U
lémantt.rts D dlrectiont a extraire
73 (0
INDICATIFS DE GROUPE
\ * P P P \ i 1 1 1 1 1 i 1 1 i i I M 1 1 i i 1 1 M i 11 i i I i i 11 i i i I i i 1 1 i i 1 1 1 i i 1 1 i 1 1 i i i 1 1 i 1 1 i i i 1 i 11 W O M ? I O I O I G | I |2S 2» 33 37 41 45 4« S3 97 «1
NOMS DES VARIABLES A TRAITER
I . . T T I I I I i i • I i • i I I i . I : i i I : i , 1 . , i I i i I 1 i I i í I i I I i i i 1 i i I I i i i I i i i | A , p ' l & | 0 i 0 , H h |13 17 21 2S 29 33 37 4) 43 49 S3 97 61 69 69 73 ' 60
I , • • I , • , I • i , I • . • I • • , I M i I • I : I i i i I . • i I . • i I • • . TUs
enrr~r^,i'..TiT7T7 l.r lT7i
I I 1 I ; I lI i i i I i i i I i i : I i M r V P ; > l | 0 | 0 | H | 2 |
T i ; ; I i i l ' . I l I I I i i i I ' i i I l i ; I . i i I i i i l : i i I i n T T T i [ I I I I I I I I I : I I I I I I I I I W i ï5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73
BORNES INFERIEURES DES VARIABLES DU FICHIER4 5 S T S
I i i ; ! : i I i i i i ; i i I i I i M i i I M i I I I I I I i i i i i i I i l'i i i i i K P J
I i i i : i i I I i i i i i i i I i I i i i i i I i i i i i i i I i i i i i i : I i i i i i i i I i i i i i i M i i i i : ¡ i I i i i i i i i
i i i i 1 1 1 1 i 1 1 i i i 1 1 i i i i i i
1
HZI i i i i i i i I i i i i i 1 1 1 1 i i i i i i I i i i i i i i I i| | M M I I M I M
I I l I I I I l l 1 l l l I I l I I Il l I I l I l I I l I M i I l l I I I I I l l l i T i i I l l I I I I I l l l i I II I I I l : i i i '°l ln¡0¡l|*l
LLL1
LUen
I I I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I i i I I I I I»1O|»I jOjOlI ¡S
I I I I I I I I I I I II I I I I I I I I I I I I II I I I I I I I : I i I I I I I I I I I I I I I I I I I I I TI 11 111 11 W l |o|o|'l«l
I II I I I I M I I I I 1 1 I I I I I I I I I I I I I I I I I I I ; I I I I M I i i i I17 25 33 41 49
BORNES SUPERIEURES DES VARIABLES DU FICHIER4 5^ 6 7
i I j i i I I i i I , i i i i i i I i i i i i i i i I i ; I I I I I29 , , 33 4Í 49 , , 57
1 1 1 1 1 1 1 1 1 1 1 1 i i i i 1 1 1 1 1 1 1 1 i i ¡ i i 1 1 i 1 1 i i |A;PλT|OI°RU)
I i i i i i i i I i i i i i i i I i i i i i i i 1 : i i ! i i i I i i i i i i i I i i i i i i i I i i i i i i i I i i i i i i i I i i . i i i ii 28 " 3 0 33 49 34 35
iQlOJJJ3|
I I I I I I I I I I I I I I I I II I I I I I M I I I I
37I I I I I I I I I I I I I I I I I I I I I I I I I I I II I I I I I I II I M I I I I I |A|Ojlf
i i i i i I i i i I i i ! I i i i i i i i I i i i M i i I i i i i i i i I i i i i i i i I i i i i i i i Ii I i i i i i i I I i i i i i i W W
SO S3
I I I I J I I I I I I I I I I I I I I I I I I I I i I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Ii I n i . , M Koj'l ;o|o|J|6|
I I I I I I I I I I I I I I I I M I I I I II I I I I I I M I I I I I I I I I I I I33 41 49
TRAITEMENT EN LOGARITHMES
I I I M I I TTTTTT
1
1
III
tu1
h1!1
i
i : i
10
1 1 !
19
1 1 '28
1 :
37
46
55
^*
J i9
»
J i9
ill
9
2
M i lII
M ! ¡20
: i . •
29
1 1 :
38
47
^ 5 o "
l l l l17
! l l l l
1 ' 1 • '17
1 ; | , ,
1 1S~. | .
••1
3
II II 112
'Mil21
' I I I IJO
i M :
39 ^
S^\ ; <48
57
, :
II25
¡ i
,i25
1ST
¿S
4
Mill13
1 1 1 1 1
12
J_ i ! L 1
31 s ^
il 1 ! !40
• ' l ; 1
49
1 i .
SI
II 133
II 1
1 wJ3
II 1
II 133
I i"
1
5
1 ! 1
14
1 1 1
2yi 1 1
.77
1 i I
41
• ; ;
50
59
DIVERS
_l_l_l 1 I I41
i L * r i l
s'
141
1 1 1 1 !
i l , !41
' 1 1 1 1
i l l '
g
| ¡
\ |
24
| |
J.7
| |42
SI
¡HO
i ¡
Ktl49
llll
llll49
llll
l i l i49
llll
1
1 1 M 1 1
16
1 1 1 1 1 1
25
1 1 1 1 1 1
34
1 1 i M 1
43
! 1 1 1 1 1
S2
1 1 i M 1
115f
| |
| |
57
! |
, .
97
! |
a1 |17
| |
26
| |
35
| |44
| |
5.7
| |
| |
| |
| |
| ¡
i |
llll65
llll
llll65
J_ |
|65
llll
9
llll
It
llll27
llll
Jff
llll45
llll
54
1 1 M
i Y\M7J
i W°l«l, |A¡0Í«|
7J
( IA D : O |
I |A|D>¡73
i h°!alk ' P « ;
JQ¡O|L|I |so
M#l| O | O | L | 3 |
80
:OJO|L 4•[OOL 5
aoiu|G\l 6
•
|d,0Jl|7
* RES U L T A T S CE LA PEHRFSSICN *
VARIABLE
* * * X
COEFFICIFNTSREGRESSION
0.30085E 00
ECAPTS-TYPFPEGRFS5ICN
0.¿1681E-Cl
T-VALFLPS
0.721P0F 01
***********************************************************************************************************«***^
CCNSTANTECHEF. CORRELATION MULTIPLE
STAND. D ESTIMAT.
C.35133E C20.E2P51C.3ÇC73E CO
**• je******** «•••#*•*• ********* ******** * •**•*•*•*••••*•* «41««*« ** ****••••* ••••••••**••••*•••••*•***•*•••••••***•*••>
SOURCE CEVARIATION
REGRESSIONRESIDUTOTAL
CEGRE DELIBERTE
12223
SOMMESDES CARPES
0.7953ÍF 01C.23587F 01G.11313F C2
C A R P F SM O Y E N S
C . 7 9 5 3 8 E 0 10 . 1 5 2 6 7 E 0 0
D E F
0 . 5 2 0 9 9 F 0 2
, * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * <
Figure 15.1
• DETERMINATION DES PFSIDUS *
IDENTIFICATEUR
01660266366466566666766P66966
106611661266167267367
567667767867967
106711671267
EUR E S T I M E E
0.54616E0.546C4F0.5449CE0.54514E0.54619F0.5486CEC.55CC7EC.55293F0.55461E0.55615F0.556e7E0.55522F0.53951E0.54C5CE0.54117F0.5429JE0.54532E0.54P46FC5504CF0.552P4EC.55531EC.55645E0.55759E0.55834E
02C2C202C20202C20202C20202C20202C202C2C2C?02C202
VALEUP OBSERVEE
0.5375CE0.5423CE0.54370E0.5456CE0.55770E0.5469CE0.5512CE0.5554CE0.5563CE0.5571CE0.55510F0.5514CE0.53390E0.5426CE0.54360E0.5429CE0.5464CF0.5493CF0.5517CE0.55510F0.5577CE0.5574CE0.5552CEO.5557CE
0202C2C202020202C202020202020202C202020202020202
PESIDUS
-0.P6598F 00-O.373C5E CO-0.11°63E 000.4631CE-CI0.1151CE 01
-0.1696PE 000.11292E 000.2471CE 000.16861E 00O.f55184E-Cl-0.17702E 00-O.3R155E CO-0.5611CE 000.20963E 000.24342F 00
-0.106B1E-020.10826E 000.n2352E-010.12982E 000.22612E 000.2B943E 000.95092E-C1
-O.23923E 00-0.26443E 00
CUMUL
-0.8fc59ßF-0.1239^E-0.13596F-0.13132F-0.16225F-0.3 3192F-0.219C1E0.20091^-
0.291P9F0.114P7F
-C.2f.fi<«E-0.82777F-0.61P15E-0.37473F-0.37579E-0.26753F-0.18518F-0.55359E-C.17076F0.41019F0.5C52PC0.266C5EC.16174F-
S
00PI01ClCO00
ceClCOCO00
ceCOCOCOCOCO00ClCOCO00COC2
Figure 15.2
CD
49
documents terrain
bordereaux de perfo-ration de données :(cf. fig. 12)
fichier des donnéessur cartes
instruction deconstitutionde fichier :(cf. fig. 13)
instructionde calcul :(cf. fig. 14)
atelier de perforation
cartes rJ
passage en ordinateur :programme AD0 110
(constitution du fichiersur disque)
cartes
disque magnétique
T_Y
passage en ordinateur :programme AD0 300
(calculs de régression)
résultats(cf. fig. 15)
Figure 16 : Schéma d'ensemble du traitement automatique
50
Le calcul manuel, donc, n'a pour avantage que sa souplesse (mise en
oeuvre relativement rapide, sans matériel important - à la limite, crayon
et papier sont suffisants] et son intérêt pédagogique.
S. CONCLUSION
On a décrit un outil statistique élémentaire, puissant et facile à
mettre en oeuvre, sous réserve que quelques hypothèses de validité soient res-
pectées, et on a donné un moyen empirique de vérification de ces hypothèses.
On peut en conclure que la régression linéaire est un outil rustique
et robuste, dont l'emploi devrait rendre des services en hydrogéologie.
Dans l'exemple cité, on arrive à reconstituer des niveaux avec une
erreur de _+_ 76 cm ; c'est à l'utilisateur de définir si cette précision le
satisfait.
Il faut donc, pour cet outil comme pour tous les autres, savoir le
situer dans la démarche méthodologique générale d'une part, et l'appliquer
correctement d'autre part.
ANNEXE
VoHmuJtaiMn. :
_ _
- x) [y - y) íx,y)
/ l (x - x]2 (y - y)i=1
x] 2 (y y ) 2y
n
y
. . . 2 1 V r "i2
(4) s = - l ix - x)x n i 1 i
s = — y (y. -y n 4 - - , i
1 ?cov(x,y) = — l (x. - x)Cy. - y)
n _ _l Cx ± - x1iyi - y)
1=1 _ cov(x,y ]
— 2 s
£ (x. - x] x
(8] b = y - ax
(9) a = rxy
s
- y -
(10) y, = a x. + b
(11)1 = 1
(13] Y = ax + ß + E
(14)(n - 2) a'
1 -n syt
(15)n s
II
2(x,-x)
I (x.-7r2 s
(x.-x)2
1=1
. (x -x ) 2
( 1 6 ) y . - t s / 1 + - + ^j o e / n n — ,2
)1 = 1
/vrai" < y + t s / 1
J o e /1- +
(x -x)
—, 2n n _I Cx -x)
1=1
(17) - 2s£ < »yj vrai" < y^ * 2s£