rÉgressions et corrÉlations en hydrologieinfoterre.brgm.fr/rapports/74-sgn-170-ame.pdf ·...

MINISTÈRE DE L'INDUSTRIE ET DE LA RECHERCHE

BUREAU DE RECHERCHES GÉOLOGIQUES ET MINIÈRES

SERVICE GÉOLOGIQUE NATIONALB.P. 6009 - 45018 Orléans Cedex - Tél.: (38) 66.06.60

RÉGRESSIONS ET CORRÉLATIONS EN HYDROLOGIE

RÉSULTATS ÉLÉMENTAIRES, RÈGLES PRATIQUES

par

M . CANCEILL

Département géologie de l'aménagementHydrogéologie

B.P. 6009 - 45018 Orléans Cedex - Tél.: (38) 66.06.60

74SGN170 AME Mars 1974

Resume

L'emploi des "calculs de corrélation" se développant au B.R.G.M.» il a

paru souhaitable d'énoncer quelques règles d'emploi simples, et de préciser

quelques points de terminologie, pour en permettre un usage plus efficace.

C'est l'objet de ce rapport, dans lequel on ne trouvera que peu de théorie sta-

tistique.

On donne une description assez complète des propriétés de la régression

linéaire simple, suivie d'un exemple d'application à des chroniques piézométri-

ques.

La suite logique d'un tel exposé, c'est-à-dire les modèles linéaires

plus généraux, l'étude des valeurs extrêmes, et les techniques de calcul, n'est

que rapidement survolée.

Ce texte a été rédigé au titre des travaux méthodologiques du dépar-

tement Géologie de l'aménagement (hydrogéologie].

Sommaire

1. INTRODUCTION

2. GENERALITES SUR LA CORRELATION

2.1. Notations et définitions

2.2. Interprétation

2.3. Limites de validité

3. REGRESSION LINEAIRE SIMPLE

3.1. Résultats pratiques : les "recettes"

3.2. Les mécanismes du modèle (le "pourquoi" des recettes)

3.2.1. Le modèle

3.2.2. Qualité de l'ajustement

3.2.3. La précision de la reconstitution

3.2.4. Les hypothèses statistiques sur la distribution des erreurs

3.2.5. Vérification

4. APPLICATION AUX CHRONIQUES PIEZOMETRIQUES - EXEMPLE

4.1. Les conditions du problème

4.2. Mise en oeuvre des calculs

4.3. Interprétation statistique des résultats

4.4. Vérification

4.5. Commentaire sur les hypothèses statistiques

5. PREVISION DES NIVEAUX EXTREMES

5.1. Valeurs extrêmes au sens propre du terme

5.2. Analyse fréquentielle

5.3. Autres méthodes

B. APERCU SUR DES MODELES LINEAIRES PLUS GENERAUX

7. METHODES DE CALCUL

7.1. Calcul "à la main"

7.2. Calcul automatique

7.3. Choix entre les deux méthodes

8. CONCLUSIONS

ANNEXE : formulaire

1. INTRODUCTION

La citation suivante, extraite d'une note adressée par un hydrogéologue

d'une unité opérationnelle au département Géologie de l'aménagement en 1973,

est la meilleure introduction qui soit :

Début de citation :

"Nous sommes parfois amenés à établir la corrélation entre deux phéno-

mènes j l'un étant bien connu et l'autre assez peu, et d'en déduire des valeurs

pour ce dernier.

Le cas se présente en particulier en piêzométrie ou nous comparons des

fluctuations d'un ouvrage B observé durant 1 an par exemple à un ouvrage A

observé depuis 20 ans.

Quel risque prenons-nous à en déduire les niveaux extrêmes de B sur les

20 années concernées ?

Je serais heureux d'obtenir des informations à ce sujet3 informations

qui devraient se résumer à quelques règles simples (quitte à être plus ou moins

bien justifiées par la théorie)t voire empiriques, sur les limites d'extension

des corrélations linéaires. Ceci intéresse certainement de nombreux collègues".

fin de citation.

On va chercher, dans les pages suivantes, à répondre aux différentes

questions posées dans cette note. Les voici, par ordre de complexité croissante

- règles pratiques d'emploi du modèle de régression linéaire : voir $ 3 ;

- application de ce modèle à des séries d'observations piézométriques : voir

$ 4 ;

- problèmes de prévision de niveaux extrêmes : voir $ 5.

On commencera par des rappels sur le coefficient de corrélation ($ 2),

et on terminera par un aperçu sur des techniques de régression plus générales

($ 6), et une présentation des méthodes de calcul disponibles ($ 7].

N.B. Afin de permettre au lecteur de se reporter aisément aux différentes for-mules qu'on n'a pas pu éviter de citer dans le texte, celles-ci sontregroupées en un formulaire sur une feuille volante^ jointe en annexe 1.

2. GENERALITES SUR LA CORRELATION

2 . 7 . Uotationi>

On considérera deux séries d'observations (correspondant, par exemple,

à des relevés en deux points A et B) X et Y, notées :

| V X2 xn

( V y2 yn

ou, avec une notation plus condensée :

= 1.2.... n

= 1.2,... n

On appelle coefficient de corrélation la quantité r définie par :

n(xi - x) (yi - y)

rxy / s s/n 9 n n X

(x. - ~)2 l [y - 7 ) 2

1 i 1

x et y sont les moyennes :

- 1 ?

l y (3)

2 2s et s sont les variances :

x y

7 1 ? - 7s¿ = - y (x. - x) (4]

x n .. L'A i

= 1 \ (y. - y ] 2 (5)s2

y •• i = 1

cov (x,y) est la covariance :

1 ? -cov(x.y) = — I (x. - x)(y. - y) (6)

n 1 = 1 1

Les racines carrées des variances, s et s , sont appelées les "écart-

types". Ces quantités mesurent la dispersion des séries autour de leur moyenne.

2.2.

r est un indice, compris entre -1 et +1, mesurant l'intensité et le

sens d'une éventuelle liaison linéaire entre la série des x. et celle des y.,

- S i r = +1, il existe une relation linéaire exacte entre les deux séries

y. = ax. + b , a > 0 (liaison croissante).

- S i r = -1, il existe une relation linéaire exacte décroissante :

y. = a'x. + b' , a' < 0.

- Si r = 0, il n'existe pas de relation linéaire (et, plus généralement,

pas de relation monotone); mais il peut exister une relation paire (i.e.2

symétrique), du genre : y. = a"x. + b"x. + c").

-Si 0 < |r | < 1, cas intermédiaire : relation monotone plus ou moins

floue, croissante ou décroissante selon le signe de rxy

Ces différents cas sont résumés dans la fig. 1 :

. * .

r = + 1 0 < r < 1 0 < r < 1xy xy xy

Liaison linéaire exacte Liaison fonctionnelle non Liaison croissante[croissante) linéaire exacte (croissante) floue

r = 0xy

Indépendancexy

Liaison fonctionnellepaire

-1 < r < 0xy

Liaison décroissante

floue

- 1 < r < 0xy

Liaison fonctionnellenon linéaire exacte

(décroissante)

xy- 1

Liaison linéaire

décroissante

xyLes points sont bien alignés,mais il n'y a pas de liaison.

Figure 1

Remarque importante : On ne peut pas juger avec certitude, au seul vu du coef-ficient de corrélation et sans voir le graphique, à moins de posséder l'intui-tion résultant d'une longue pratique. Les cas "d'école" présentés à la fig. 1peuvent, dans la réalité, devenir de dangereux pièges à cause de la présencede points aberrants (qu'il faudra donc s'attacher à éliminer lors de la criti-que des données].

La figure 2 se passe de commentaires :

xxxxx XX X X

X *

Figuré 2

2.3. L-ún¿tfc¿ de. validité.

On ne peut répondre bien à cette question ici, pour deux raisons :

a) La réponse implique la mise en oeuvre de techniques statistiques compliquées,

dont il n'est pas simple d'expliquer les conditions d'emploi et de validité.

b) Elle ne présente, de toutes manières que peu d'intérêt pratique en ce qui

concerne le coefficient de corrélation. Elle en présente, par contre, en ce

qui concerne la régression. Voir $ 3.

Concrètement, on retiendra que :

- Ir I < 0,2 laisse présager une absence de liaison linéaire.1 xy '

- |r | > 0,8 laisse présager une liaison linéaire.

- L'effectif de l'échantillon sur lequel est calculé r est très important :

un r de 0,9 calculé sur 10 observations est à considérer avec plus de

méfiance qu'un r = 0,7 calculé sur 60 couples de valeurs. En fait, bien

qii'il soit théoriquement impossible de définir a priori une taille minimale

d'échantillon, on peut dire, pour fixer les idées, qu'il n'est pas toujours

prudent de travailler avec moins d'une trentaine d'observations ; on peut

descendre à la rigueur à 24 quand on travaille sur des données mensuelles,

ce qui correspond à 2 ans, le problème étant plus, alors, d'avoir deux

années bien représentatives que un grand nombre de mesures.

- La qualité d'une liaison est plus facilement mesurée par 1'écart-type

résiduel (voir plus loin), le coefficient de corrélation n'étant qu'un indice

global.

Précision terminologique : on parle parfois de "coefficient de corrélation

linéaire", ou de "coefficient de corrélation de BRAVAIS-PEARSON". Ces expressions

sont synonymes. Par contre, le terme "indice de corrélation" désigne un objet

statistique différent, qui peut détecter des liaisons non linéaires ; son emploi

est cependant peu répandu

1] parce que son calcul nécessite des échantillons importants,

2) parce que il est fréquemment possible de se ramener au cas linéaire par chan-

gement de variable.

3. REGRESSION/ LINEAIRE SIMPLE

3.7. RiiuitaU pnatLciUíQA : IZA "

C'est la réponse au problème posé : connaissant une série longue

x , x , ... x , ... x en un point A, et une série courte y , y , ... y en

un point B, peut-on induire des observations sur A un moyen de "rallonger" la

série B ? Il peut s'agir, par exemple, de pluies mensuelles observées pendant

deux ans en A et B (n = 24) et pendant 8 ans de plus en A Cm = 120).

On cherche donc des valeurs y. calculées à partir des x., et pouvant

être considérées comme de "bonnes" reconstitutions des valeurs y. en B. Il

est assez naturel de chercher à ce que les écarts entre y. et y., pour les

valeurs de i où les y. sont connus (i = 1, 2, ... n), soient les plus faibles

possibles. Il est également assez naturel de poser les y. comme fonctions

linéaires des x. : y. = a x. + b.

Le critère de minimisation des écarts entre les y. et les y. est, en

fait, le suivant : on cherche les paramètres a et b qui minimisent la somme

des carrés des écarts entre les y. et les y..

C'est le critère des moindres carrés. Il conduit aux valeurs suivantes

pour a et b :

( n( I Cx± - x)Cy± - y)( _ 1=1 cov (x,y) f ,

a - - i/j*• — 2 2( l Cx. - x) xC i = 1(ÍCC b = y - ax (8)

La droite définie dans le plan x, y par a et b est appelée droite des

moindres carrés, ou droite de régression de y en x.

Il y a une relation simple entre a et le coefficient de corrélation r

sr -£ (9)xy s

x

On voit tout de suite que les résultats de cet ajustement ne sont pas

symétriques en x,y : sauf si r = 1, la droite de régression de y en x diffère

de la droite de régression de x en y ! Ce résultat, choquant en apparence,

sera commenté plus longuement au J suivant.

On pourra "étendre" la série des y par :J

y = a x + b (10]J J

pour les valeurs de j où le "y vrai" est inconnu :J

j = n••-+ 1 , n + 2 ... m .

La quantité s définie par :

est appelée écart-type résiduel ("standard error of estimate" chez les

anglo-saxons).

L'intervalle de probabilité à 95 % autour de la valeur y. est donné,J

en première approximation et sous certaines hypothèses, par :

(x - x) 2 / (x - x) 2

n + n J _2 * Yv r a i " * 9i + 2Se / 1 + ñ + n _2

l (x -x) l (x -x)

pour j = n + 1, ... m.

L'expression "intervalle de probabilité à 95 %" signifie que les deux

inégalités (12) seront vérifiées par les valeurs y. réellement calculées dansJ

95 % des cas.

Les expressions (7), (8), (10), (11) et (12) donnent bien la réponse

au problème posé : elles permettent de construire une "série longue" à la

station B.

Nous venons donc de donner une suite de "recettes" ; elles ne sont

10

malheureusement pas applicables sans précaution, et ces précautions ne sont

elles-mêmes pas exprimables sans rentrer un peu plus dans le détail du modèle

statistique.

On voit donc que ce qui est appelé "limites d'extension des corréla-

tions linéaires", dans la note citée en introduction de ce rapport, peut avoir

un double sens :

- au sens restreint, quelle est l'erreur commise en étendant la série B par

les y ? La formule (12) répond à cette question ;

- au sens large, quand a-t-on le droit d'appliquer la formule (12) ? Nous

répondrons partiellement à cette question au paragraphe suivant.

3.2. L&& micaniAmeA du modeJLz [Iz pounquo¿ doA>

3.2.1. Le modèle

Ce paragraphe, bien que ne donnant pas de démonstrations, est déjà

plus technique, et fait appel à des concepts probabilistes.

On pose un modèle linéaire de la forme :

Y = ax + ß + e (13)

La variable aléatoire Y est fonction linéaire de la variable x, aug-

mentée d'une erreur aléatoire e.

Selon les applications et selon les auteurs, on donne des noms diffé-

rents à x et à Y :

X

variable explicativevariable indépendantevariable exogèneprédicteurpréviseur

Y

variable à expliquervariable dépendantevariable endogène

II apparaît bien que le modèle (13] n'est pas symétrique en x et Y,

à cause de l'erreur aléatoire e.

11

Les données : y ... y sont considérées comme des réalisations

successives et indépendantes du modèle, correspondant aux valeurs x ... x

de la variable explicative j il leur correspond des réalisations £..•• E

de l'erreur e (ces réalisations sont, bien entendu, purement fictives et non

observables].

Cette erreur e est supposés avoir une distribution de probabilité

symétrique autour de o, et munie d'un écart-type a.

La variable x est supposée connue sans erreur.

On va alors

1] ajuster le modèle (131 aux données sur la période d'observation commune,

et

2) utiliser les coefficients calculés lors de l'ajustement pour reconsti-

tuer les valeurs cherchées à la station B.

Ces deux phases, ajustement et reconstitution, peuvent être comparées,

méthodologiquement parlant, au calage et à l'exploitation d'un modèle

hydraulique de nappe.

Dans chacune de ces phases, on aura à énoncer les limites de validité

concernant, pour la première, la qualité de l'ajustement, et, pour la

deuxième, la précision de la reconstitution.

La démarche est résumée par la figure 3 :

ajustement reconstitution

r "N

xn+l xm

Figure 3

12

L'équation (13) est appelée équation de régression, le coefficient

a est appelé coefficient de régression de Y en x, et le coefficient ß est

appelé intercept ou terme constant.

Le modèle est caractérisé par les trois paramètres a, ß,et a. On ne

sait pas calculer ces paramètres (inconnus, et non aléatoires), mais on sait

les estimer par des réalisations de variables aléatoires (connues ! ) , avec

une certaine erreur.

On montre alors que, sous des hypothèses assez générales, les coef-

ficients a et b définis par les formules (7) et (B) sont des estimations

satisfaisantes de a et de g.

3.2.2. Qualité_de_l^ajustement

On peut la mesurer de deux manières :

Par le coefficient de corrélation r entre la série des y. et celle des y.

(calculé sur la période de calage : i = 1, 2, ... n).

On montre que r est égal au coefficient de corrélation entre la série des

x. et celle des y., ce qui est intuitivement satisfaisant.

L'ajustement sera d'autant meilleur que |r| sera proche de 1.

Par la distance entre les séries y. et y., mesurée à l'aide de l'écart-1 1 2

type résiduel s (formule (11)). On montre, à ce sujet, que s est un£ 2 e

estimateur "satisfaisant" de la variance de l'erreur a . Or, il est bienévident que, plus a sera faible, plus les erreurs seront concentrées

2autour de 0, et plus le modèle sera "bon". On peut en dire autant de s ,donc de s .

e

Autre interprétation équivalente : si s est faible, c'est que la

somme des carrés des écarts entre valeurs calculées y. et valeurs vraies

y. est faible ; c'est, par construction, ce qu'on cherche.

s_ est une mesure de l'erreur absolue ; une mesure de l'erreur rela-

jé2

e s2

tive est donnée par le rapport e , rapport variance résiduelle survariance totale. s

Les deux quantités, r et s sont, en fait, liées par les relations

2 (n " 2) Slr = 1 - (14)n s

y

13

[151

Remarque : les lignes qui suivent font appel à des concepts probabilistes

et statistiques plus élaborés. C'est signalé au lecteur par une marge en

retrait^ et toute cette partie peut être sautée par celui qui ne souhaite

pas approfondir.

Pour aller plus loin, il est nécessaire de faire une

hypothèse supplémentaire : la variable e doit suivre une loi de

LAPLACE-GAUSS.

Dans ces conditions, on peut montrer que :

la quantité

(a/ n

i=1 1

s

2- x)

suit une loi de STUDENT à n-2se

degrés de liberté.

On peut appliquer ce résultat au "test" de toute hypothèse

sur la valeur de a. On ne définira pas ici ce qu'est un test statis-

tique, mais on va en donner un exemple simple :

le test de l'hypothèse a = 0 au seuil 5 %.

Pour cela, on calcule t =

a / y (x.. - x)

s

et on lit dans la table de STUDENT la valeur t qui a la probabilité

5 % d'être dépassée en valeur absolue.

Si t > t , on rejette l'hypothèse a = 0, ce qu'on exprime en disant

que a est significativement différent de zéro, ou, par extension, en

disant que la dépendance de Y en x est significative.

Si t < t , au contraire, on accepte l'hypothèse a = 0, c'est-à-dire

qu'on conclut à l'absence de liaison.

On sait construire un test sur r, équivalent au précédent : la dépen-

dance sera considérée comme significative si la quantité

est supérieure au seuil t défini ci-dessus.

TT7

14

3.2.3. La précision de la reconstitution

La reconstitution est définie par y. = a x + b (cf. équa-

tion (10]).

On montre que, si l'erreur e suit une loi de LAPLACE-GAUSS,

les y. sont aussi des réalisations de variables de LAPLACE-GAUSS, dontJ

la variance vaut :

(x. - x)

n ny (x. -1

Ce résultat est malheureusement inutilisable car a est une inconnue.

Mais, et c'est beaucoup plus intéressant, on peut montrer que les

quantités :

"y . vrai" - y .

Cx - x ) 2

s / 1 + - + ^t / n n

l Cx - x)i = 1

sont des réalisations d'une loi de STUDENT à n-2 degrés de liberté,

II en résulte que la précision de la reconstitution

est fournie par l'intervalle :

(x .-x) (x .-x)y .-t syj oo e / n n

(1B)

-x)' -x)'

t étant, comme précédemment, la valeur lue dans la table de STUDENT

au seuil choisi pour n-2 degrés de liberté (seuil courant à 95 % ) .

Si n > 60, l'approximation normale est valide, et l'intéres

sante propriété qu'a la variable normale d'être voisine de 2 pour le

seuil bilatéral à 5 % donne la formule (12) déjà citée (5 3.1.) :

15

. (x -x)y , - 2 s /1+-!•+• 1

j e / n n -,2l (x -x)i=1

"y, vrai" $ y, + 2s_ /1+

En résumé, les règles pratiques qu'on peut retenir concernant

les conditions d'emploi de la formule (12] sont les suivantes :

- n % 60

- admettre que l'erreur, même si elle n'est pas rigoureusement gaussienne,

suit une loi unimodale symétrique.

Par ailleurs, l'interprétation de la formule (12) montre que

3 de l'intervalle pour y. est d'autant

distant de x, selon une variation hyperbolique :

l'amplitude de l'intervalle pour y. est d'autant plus grande que x. est

'JC

Figure 4

On a donc tout intérêt à ce que la période d'étalonnage

(x., i = 1 ... n) comporte des valeurs extrêmes, années humides et années

sèches ; les valeurs de la période de reconstitution tombant bien à l'in-

térieur de ces extrêmes seront alors mieux reconstituées. Si c'est le cas,

pour toutes les valeurs de la période de reconstitution, on pourra négliger

le terme en(x - x ) 2 /

•J

n

I î—,2 , et, si n est grand, négliger aussi

16

le terme en 1/n ; la formule (12) devient alors :

9* - 2s ¿ "y vrai" ¿ y + 2s (17)J E j J E

3.2.4. Les_hypothèses_statistigues_sur_la_distribution_des erreurs

La théorie à laquelle il est fait référence ci-dessus est puis-

sante, certes, mais soumise à un certain nombre d'hypothèses, qu'on a énoncé

les unes après les autres au cours du texte, quand le besoin s'en faisait

sentir.

Il est bon d'y revenir pour en avoir une vue d'ensemble :

Hypothèse 1 : les x. sont mesurés sans erreur.

Hypothèse 2 : les erreurs e suivent une loi symétrique.

Hypothèse 3 : les erreurs e suivent une loi à variance constante ("homoscedas-

ticité"), c'est-à-dire que la dispersion de t. est indépendante

de la valeur de x..

Hypothèse 4 : les erreurs e sont indépendantes.

Hypothèse 5 : les erreurs e suivent une loi de LAPLACE-GAUSS.

Quand l'ensemble de ces hypothèses est vérifié, tous les calculs

auxquels il est fait allusion plus haut sont licites (ce qui ne veut pas

dire que l'ajustement soit satisfaisant ! Il peut être désastreux, mais

on est sûr que les procédures statistiques de test st d'estimation utilisées

pour en juger sont employées à bon escient ! ) . Mais il n'est pas du tout

nécessaire que ces 5 hypothèses soient vérifiées simultanément, et certains

résultats partiels sont presque toujours valides :

- L'hypothèse 1 est fondamentale ; précisons un peu, pour comprendre son

importance, un point de théorie de l'estimation : on a écrit que les quan-

tités a et b, calculées par les formules (7) et (B), étaient des estimations

"satisfaisantes" des paramètres a et 3. Il faut entendre par là qu'elles

vérifient un certain nombre de propriétés statistiques intéressantes, qu'on

ne peut énumérer ici. L'une des plus importantes est que ce sont des

"estimateurs convergents et sans biais", c'est-à-dire que, si la taille

de l'échantillon n augmente indéfiniment, a et b convergent vers a et 3.

17

Or, et c'est ce qui rend l'hypothèse 1 fondamentale, lorsque les obser-

vations x. sont entachées d'erreur (même si ce n'est qu'une erreur aléa-

toire de moyenne nulle, et, à plus forte raison, si c'est une erreur sys-

tématique) , les estimateurs a et b ne convergent pas vers a et g!

Le "biais" est lié à l'importance relative de l'écart-type des erreurs

sur x par rapport à la dispersion des valeurs x. réellement observées.

On pourra donc, dans certains cas, le négliger.

Quand il n'est pas négligeable, il n'existe pas de règle générale, mais,

selon les hypothèses qu'on fait sur les erreurs de mesure des x., il est

possible de concevoir des "modèles à erreur" spécifiques. Il est impos-

sible d'énoncer des règles simples pour ces cas-là.

- L'hypothèse 2 est, dans le modèle simple que nous étudions, de peu d'im-

portance : la présence du terme constant ß fait que l'on peut toujours

admettre que les erreurs e. sont symétriquement réparties autour de 0.

- L'hypothèse 3 est assez importante, mais moins cependant que l'hypothèse

1 ; si elle n'est pas vérifiée, en effet, a et b convergent toujours vers

a et ß, mais ils convergeront moins vite ; pour une même précision, donc,

il faudra plus d'observations.

En cas de non-vérification, on peut se ramener à la vérification par un

changement de variable opportun.

- L'hypothèse 4 a, sur le résultat des estimations, la même incidence que

l'hypothèse 3. Il est plus délicat de s'y ramener par un changement de

variable en cas de non-vérification. La procédure la plus courante, dans

ce cas, consiste à séparer les séries en sous-séries où l'hypothèse d'in-

dépendance est réaliste : quand on travaille sur des séries mensuelles,

en effet, on peut craindre une corrélation positive entre e_, et e. „ duei 1+1

au fait que les facteurs de variation non identifiés agissent avec une

certaine continuité ; il faut alors, quand les séries sont assez longues,

faire un ajustement par mois - ou par saison - : on peut beaucoup plus

facilement admettre que les erreurs t., t.+ , e.+9» ••• sont indépen-

dantes .

En cas de séries courtes, le problème reste entier.

La vérification des 4 premières hypothèses rend valide toutes

les procédures d'estimation du modèle.

18

L'hypothèse 5 est nécessaire pour que les procédures de test aient un sens.

Elle est également nécessaire pour que les intervalles de probabilité à 95 %

soient valides. Nais, et c'est là ce qu'on appelle la "robustesse" d'une

procédure, les résultats ne sont pas très affectés quand cette hypothèse

n'est que à peu près vérifiée (en ce sens, les procédures statistiques

de la régression linéaire sont beaucoup plus robustes vis à vis de l'hy-

pothèse 5 que vis à vis des hypothèses précédentes, 3 et 4 en particulier].

En pratique, il suffit que l'on puisse admettre pour les erreurs une dis-

tribution symétrique et unimodale (cf. fig. 5).

3.2.5. Vérification

Comment juger que ces hypothèses sont vérifiées ? Que ce soit

par des méthodes statistiques objectives, ou grâce à l'intuition du statis-

ticien, il est difficile de vulgariser ces techniques. C'est pourquoi nous

ne conseillons ici qu'une méthode qui a les avantages d'être simple, globale,

compréhensible par tous, et qui est, en outre, un argument irréfutable (en

cas de résultat positif...) pour persuader un client, spécialiste ou non,

de la validité d'un modèle de régression. Elle a, en regard, le seul incon-

vénient de nécessiter un nombre d'observations plus élevé.

Cette méthode consiste, tout simplement, à"mettre de côté"

quelques observations pour procéder à des vérifications.

On se contente, donc, des p premières mesures (p < n) pour ajus-

ter le modèle (calculer a et b) puis appliquer le principe de reconstitution

au n - p mesures suivantes, où l'on connait les y., mais où on les "oublie"

volontairement ; on vérifie alors que 95 % des "y. vrais" sont bien dans les

intervalles calculés par les formules (12), (16) ou (17).

En cas de succès, on peut procéder à la reconstitution des m - n

dernières valeurs (à condition, bien sûr, qu'il n'y ait pas d'importants

changements climatiques ou géologiques entre la période de calage et la

période de reconstitution).

En cas d'échec, s'adresser au plus proche statisticien (sans op-

timisme exagéré...) : il n'y a pas de solution générale, et une étude de

chaque cas est nécessaire.

13

5.1. Distribution de LAPLACE-GAUSS exacte :

5.2 . Distributions approchées valides (symétriques et uni-modales)

5.3. Distributions moins valides ; ou pas valides du tout

symétrique et uni-modale,mais trop anguleuse

bi-modale

asymétrique

distribution "en U"(cas pathologique rarissime)

Figure 5

20

En résumé, cette règle pratique très importante (appliquée par

de nombreux statisticiens, qui n'ont qu'une confiance limitée dans le réalisme

d'hypothèses pas toujours vérifiables...) consiste à remplacer le schéma de la

fig. 3 par le schéma suivant :

Ajustement Vérification Reconstitution

Vl Vl •" xm

Figure 6

21

4. APPLICATION AUX CHRONIQUES PIEIOMETRIQUES : EXEMPLE

On a vu plus haut le rôle de l'hypothèse n° 4 (indépendance dans

le temps des erreurs e.J. Autant on peut l'admettre pour des séries, par exem-

ple, de pluies mensuelles, autant c'est plus discutable quand les observations

sont liées dans le temps : pluies journalières, par exemple, débits journaliers,

ou niveaux hebdomadaires. Il est certain, dans ce cas, que les y. ne sont pas

indépendants des y ; ceci n'implique pas que les e. soient liés aux e.+1»

mais laisse planer le doute. Il faut donc être assez prudent. Plutôt que les

considérations théoriques (cf. $ 3.2.], l'exemple suivant illustrera les condi-

tions d'application de la méthode.

4.1. LeA condLtixonA du problème.

- L§_problème : montrerque, dans un réseau piézométrique (celui du bassin

de l'Hallue), certains piézomètres n'apportent pas d'information supplé-

mentaire. Pour plus de détails, on se reportera au rapport n° 72 SGN 250

AME, où le principe de l'opération a été décrit.

!r_ED[)?5 : cinq années de mesures (196B - 1970] mensuelles en deux piézo-

mètres.

En conservant les notations du paragraphe précédent :

piézomètre A : ouvrage 46.03.06. (variable explicative]

piézomètre B : ouvrage 46.07.34. (variable à expliquer].

On se propose d'ajuster une équation de régression linéaire entre

A et B, sur une période d'ajustement de p mesures, puis d'"oublier" les

mesures au piézomètre B pendant une période de vérification, de p+1 à m,

où l'on va calculer des y. (mesures reconstituées en B] par l'équation

de régression ; la comparaison entre les y. calculés et les y. vrais per-

mettra de conclure : si l'ajustement est satisfaisant, on aura montré que

le piézomètre B n'apporte pas d'information, et qu'on peut y cesser les

mesures.

En pratique, on a pria P = 24, m = 60 , c'est-à-dire que l'ajus-

tement a lieu sur deux ans de mesures, et que la vérification porte sur

les trois années suivantes.

22

4.2. M¿¿¿ en 02JUL\)K<L CLQA calculi

II est possible de les faire "à la main". Il est également possible

de les exécuter sur ordinateur. Les avantages et inconvénients respectifs

de ces deux méthodes sont commentés au 5 7, on ne donnera ici que les résul-

tats.

On peut travailler, au choix, sur les profondeurs ou sur les niveaux

les résultats seront les mêmes s ici, nous avons utilisé les profondeurs.

- Amplitudes de variation :

piézomètre

A

B

période

62,

53,

1966

55 < x

39 < y

- 1967

< 68,

< 55,

81

77

63

53

1968

,28 <

,95 <

- 1

X

y

970

< 69,

< 55,

08

79

Les amplitudes de variation sont bien comparables sur les deux

périodes.

- Valeurs des coefficients de régression

a = 0,298

b = 35,320

d'où l'équation :

0,298 xi + 35,320

écart-type résiduel :

s = 0,383

coefficient de corrélation :

R = 0,841

23

4.3. ïnteAptâtcUlon AteutútÁque. doA fil¿>uZX.a£t>

Test de l'hypothèse g = 0 au risque 5 % :

a / I i*- - ^ 2

t = 7 i = 1 = 7,40s

On lit dans la table de la loi de STUDENT que le seuil à 95 %

vaut, pour P - 2 = 22 degrés de liberté : t = 2,074.

La valeur t observée est très largement supérieure à ce seuil, on

rejette donc l'hypothèse a = 0.

Intervalle à 95% pour y. :

la formule (16), la plus générale, est peut-être d'une précision superflue,

Calculons donc la valeur du terme / , —,21 tx - x)

c = / 1 + - + — • — J

P1=1

pour une valeur extrême de x..

Pour x. = 62,55, on trouve c = 1,0823

Pour x. = "x, on trouve c = 1,0206.J

Le terme t valant 2,074, on voit que le coefficient multiplicateur de s ,

qui vaut et , varie entre 2,24 et 2,12.o

L'approximation de la formule (17), qui consiste à poser e t = 2

est donc, ici, sensiblement différente (12%) de la valeur exacte - tout au

moins aux limites de l'intervalle de variation.

On a reporté, sur la fig. 7, la droite y = ax + b, et les intervalles

calculés par les deux méthodes (formule (12) ou (17)).

C'est à l'utilisateur de décider si la perte de précision est compen-

sée par la simplification des calculs !

(x) Consulter, par exemple, les tables statistiques de l'I.S.U.P., rééditéesdans un numéro spécial de la Revue de Statistique Appliquée en 19?'3.Centre d'enseignement et de recherche de statistique appliquée, I.S.U.P.,4, place Jussieu, 75230 Paris cedex 05.

o point ayant servi à I'¿talonnage (1966.67)

• point n'ayant pa« servi à l'étalonnage ( 1968.70)

ee 68 Ot/rrogt *69 Çurrogt

Fig.7 RECONSTITUTION DES NIVEAUX AU PIEZOMETRE X6.7.M(y)A PA RTI R DES NIVEAUX AU PIEZOMETRE <6. 3 .06 (x) R2-.0,71 N>

25

4.4.

On a reporté sur la fig. 7 les points de la période d'étalonnage,

mais aussi les points de la période de vérification : il apparaît que les

3 x 12 = 36 valeurs prévues tombent bien dans l'intervalle à 95 % calculé,

ce qui confirme la validité de l'ajustement.

La présentation graphique la plus parlante est fournie par la fig.

8, où l'on trouve, non plus les y. et y. en fonction des x., mais les y.

et les y. en fonction du temps.

C'est sur cette figure que 1'hydrogéologue "voit" le plus clairement

la signification de l'erreur statistique de reconstitution.

Afin d'éviter de lourds calculs on n'a reporté sur la fig. 8 que

les intervalles calculés par la formule (171 . (Le tracé de ces intervalles

s'est réduit à la simple translation d'un papier calque...].

4.5. Corm&ntcUAe. ¿>UA LZÂ hypothec<¿¿> ¿>taXÁAticnx<¿A

- Hypothèse 1 : n'est pas contrôlable au vu des résultats ; mais, a priori,

on peut admettre que l'erreur de mesure sur les niveaux est négligeable

(quelques mm, en regard d'une variation des x. de plusieurs m].

- Hypothèse 2 : symétrie des erreurs : assurée "par construction" (puisque

le modèle a un terme constant).

- Hypothèse 3 : constance de la variance - apparaît sur la fig. 7 :

la dispersion des points autour de la droite calculée y. = a x. + b (dis-

persion qui donne une idée de la "vraie valeur" a) semble régulière tout

le long de la droite : la dispersion de l'erreur semble bien indépendante

des valeurs x..i

- Hypothèse 4 : indépendance des erreurs - n'est peut-être pas totalement

vérifiée : il semble, sur la fig. 8, que les points se trouvent au dessus

ou au dessous de la courbe théorique par "séries".

Il est possible de faire des tests statistiques d'indépendance des résidus ;

nous ne ferons pas ici l'exposé de ces méthodes, d'un emploi délicat, mais

nous signalerons simplement que leur usage nous a amené à douter de

56

53V-*

27

l'indépendance : certains tests ont des résultats contradictoires, ce qui

peut laisser penser qu'on est dans un cas limite.

Hypothèse 5 : Normalité : si les erreurs e. suivent une loi de LAPLACE-

GAUSS, les erreurs observées, ou "résidus", y. - y., doivent en suivre une

aussi. Dn trouve, fig. 9, les histogrammes

a) de la série des 24 résidus de la période de calage

b) de la série totale des 60 résidus.

On peut difficilement admettre, au vu de ces histogrammes, que les rési-

dus observés sont issus d'une loi de GAUSS [nette asymétrie de la distri-

bution) .

Les considérations précédentes ne conduisent pas à des conclusions

directement interprétables ¡ une maîtrise solide des différentes techniques

statistiques est nécessaire pour les exploiter au mieux.

Ceci montre bien, donc, l'intérêt de la procédure de vérification

empirique suggérée au § 3.2.5., et illustrée par les fig. 7 et fl, procédure

qui, ici, et sous réserve de l'absence de modifications structurelles dans

l'avenir (pas de perturbation grave des conditions de l'écoulement, telle

que changement important du régime climatique, cataclysme naturel, ou amé-

nagement humain intense), permet de considérer le modèle comme valide.

50-

20-

10-

en %

-1.0 -.8 "6 -.4 -. 2 O .2 .4 .6 8 1.0 12

;ris de 24 résidus

30

10-

fréyvence. a.n "/o

- 1.0 -.8 -.6 -.4 -.2 O .2 .4 .s .8 f.O t.2

Série de 60 résidus

Figure 9

29

5. PREVISION VES NIl/EAUX EXTREMES

Sans aller jusqu'à considérer que le problème est insoluble, nous

n'abordons ce terrain qu'avec une extrême prudence.

Il est absolument impératif, dans ce domaine, de définir avec la

plus grande précision ce qu'on cherche. Il existe, en effet, plusieurs manières

de poser des problèmes de crue ou d'étiage, et la difficulté de résolution

comme la puissance de la solution sont très dépendantes de la manière dont on

a formulé le problème.

5.7. VoJLtLüAA 2.xtn.hneA> au Ann& people, du tojmz

Par "valeur extrême", on désigne la plus grande ou la plus petite

d'une série d'observations. Ceci suppose donc que les observations soient

classées par ordre de valeurs croissantes (ou décroissantes) et non dans

l'ordre où elles ont été relevées, ce qui modifie complètement leur loi de

probabilité.

Ce résultat, en apparence paradoxal, sera peut-être mieux compris

à l'aide d'un exemple simple :

On considère une série d'observations indépendantes x„, x_ ... x ;1 2 n

supposons qu'elles suivent toutes la même loi de probabilité, et que cette

loi commune soit la plus simple qui soit : la loi uniforme, c'est-à-dire que

toutes les valeurs soient équiprobables (à chacune des n observations, et

indépendamment des précédentes, on peut avoir n'importe quelle valeur dans

un intervalle donné avec la même probabilité). Si, alors, on s'intéresse à

la loi de la plus grande de ces variables, on peut constater qu'elle ne suit

pas la loi uniforme ! En classant les variables, en effet, on donne à la plus

grande des probabilités plus fortes de prendre de grandes valeurs. Le calcul

analytique exact de la loi de probabilité de cette variable est possible,

mais met en jeu des fonctions spéciales rendant cette loi peu maniable.

On imagine alors ce qu'il peut en être en hydrologie, où les obser-

vations sont rarement indépendantes, et où les lois (quand elles sont connues..)

sont complexes.

30

Nous écartons donc ce problème, pour sa complexité d'une part, pour

son manque d'intérêt pratique immédiat d'autre part. Plutôt que la loi de la

plus grande valeur, en effet, il est intéressant d'étudier les probabilités

de dépassement d'un seuil donné ¡c'est l'objet du paragraphe suivant. On

retiendra de ce qui précède que le terme "valeurs extrêmes" ne doit être

employé que dans le sens qu'on vient de décrire, et que, en ce cas, le trai-

tement est très délicat.

5.2. Analyse.

Une méthode plus courante, relativement facile à mettre en oeuvre,

consiste à étudier la loi de probabilité d'une variable, et à estimer les

valeurs de la "queue" de la loi.

Si, par exemple, x , x_ ... x sont n observations indépendantes(K)

(toujours ...) de la variable étudiée, on commence par ajuster une loi de

probabilité à cette série, puis à en estimer certains quantiles.

Le quantile d'ordre ex d'une distribution de probabilité est la

valeur de la variable qui n'est dépassée qu'avec une probabilité 1 - a

(voir fig. 10], L'ajustement de la loi permet

. de connaître la probabilité de dépassement d'une valeur donnée

. de connaître la valeur dépassée avec une probabilité donnée (quantile).

es/ ej ô f-C (Jôir* hochurçt*

ym C/K laire fofa/a)

Figure 10

(x) On n1expose pas ici les diverses techniques d1'ajustement, mais on peutsignaler qu'elles sont, en général, faciles à mettre en oeuvre (à l'aidede papiers à échelle spéciale).

31

Bien que ce type d'analyse soit applicable à l'ensemble de la distri-

bution, il est fréquemment employé pour les "queues" de distribution : à droite

pour les crues, à gauche pour les étiages.

Il est d'usage, dans ces applications, d'exprimer les probabilités,

ou les fréquences, en termes de durée moyenne de retour : quand on étudie des

données de débit annuelles, par exemple, on ne parlera pas de la crue de pro-

babilité 1 %, mais de la "crue centenaire".

La précision de ces estimations peut être connue plus ou moins labo-

rieusement selon la forme analytique de la loi ajustée ; le simple exposé des

formules donnant cette précision (en termes d'intervalles de confiance) sort

des limites qu'on a fixé à cet exposé j il est cependant intéressant de noter

quelques propriétés de simple bon sens :

- La précision est proportionnelle à la probabilité qu'on étudie : le débit

médian est estimé avec une précision bien supérieure à celle du débit de crue

décennal, et, a fortiori, à celle du débit centenaire.

- La précision est également liée à l'effectif de l'échantillon qui a servi

à l'ajustement.

On voit donc que, plus on se rapproche des "queues" des distributions,

plus la précision est faible. Il est, à la limite, absurde d'essayer d'esti-

mer par cette méthode une crue centenaire avec seulement cinquante ans d'ob-

servations ! Il est nécessaire, au contraire, d'en avoir plusieurs centaines.

Ces questions de précisions amènent aussi à remarquer que les que-

relles d'école sur le type de loi à ajuster (PEARSON III, GUMBEL, GALTON,

etc.) semblent de peu d'intérêt pratique, les différences entre les queues

de ces différentes lois ne pouvant être mises en évidence qu'avec des échan-

tillons de très grande taille.

L'hypothèse d'indépendance est fondamentale ; les données hydrolo-

giques ne la vérifient cependant que rarement. Il y a alors deux manières de

s'y ramener :

a) en séparant, comme on l'a vu au $ 3.2.4. à propos de l'hypothèse 4, les

données, selon l'échelle des temps, en plusieurs classes, et en faisant

autant d'ajustements qu'il y a de classes. Si, par exemple, on refuse d'ad-

mettre l'indépendance entre les débits d'octobre et ceux de novembre,

on fera un ajustement sur la série des débits d'octobre (qui, d'une année

sur l'autre, peuvent être considérés comme indépendants) et un autre ajus-

tement sur les débits de novembre.

32

b) en éliminant toutes les données inférieures à un seuil choisi de façon

à rendre, justement, les valeurs qui les dépassent à peu près indépen-

dantes. Cette technique, assez répandue dans l'étude des débits de crue,

semble difficilement généralisable à l'étude des chroniques piézométriques,

dont les "crêtes" n'ont pas du tout la même allure.

Dans le cas des débits, le cas de figure suivant se présente sou-

vent

Figure 11

L'hydrologue choisit empiriquement qQ de façon que les crêtes de

1'hydrogramme supérieures à q apparaissent à peu près indépendantes,

et, en tous cas, beaucoup moins liées que les débits moyens. La nouvelle

variable étudiée est alors le débit maximal d'un épisode de crue au dessus

de q .

On voit que ces deux techniques supposent un grand nombre d'obser

vations : d'où la tentation de chercher à "rallonger" les séries trop courtes

à l'aide d'une série longue avec laquelle elles auraient une corrélation

suffisamment élevée.

Il ne paraît pas possible ici de donner de règle générale concer-

nant l'erreur ainsi commise ; ce qui est certain, c'est que deux sources

d'erreur se cumulent : l'erreur due à l'estimation du quantile d'ordre a.

33

à partir de l'ajustement, et l'erreur due au fait qu'on a fait l'ajustement

sur des données estimées à partir d'une station plus longue.

Cette pratique n'est pas pour autant condamnable, loin de là s on

ne peut que remarquer qu'il n'y a pas de règle simple, et que des études cas

par cas sont nécessaires dès que l'on veut quantifier l'erreur.

5 . 3 . Aqfrie/ô mitkodte

On cite, seulement pour mémoire, deux outils utilisés en hydrologie

pour l'étude des crues :

- La méthode du "GRADEX". Mise au point par la D.T.G. de l'E.D.F. pour l'étude

des crues, elle utilise

a] des informations exogènes concernant la pluie

b) des hypothèses simplificatrices mais néanmoins réalistes, qui en font

une technique très sûre.

- La théorie des "processus de renouvellement", qui consiste à étudier simul-

tanément des lois d'intensité d'un phénomène supposé ponctuel et des lois

d'occurrence dans le temps (loi du nombre de crues sur une période donnée,

loi des durées de retour, etc...].

Nous n'avons pas l'expérience pratique de ces méthodes, et nous

n'en avons pas envisagé d'application aux variables hydrogéologiques pour

l'instant. On n'approfondira donc pas plus.

34

6. APERCU SUR VES MODELES LINEAIRES PLUS GENERAUX.

. Le modèle Y = ax + ß + e qu'on a commenté dans les paragraphes précédents

est un cas très simple de la théorie générale des modèles linéaires ; presque

tous les résultats qu'on a cités peuvent s'étendre à des modèles de la forme :

Y = a f (x , x ... x^) + a f (x , x ... x ) + ... a f (x , x ... x ] + ß +e

Les fonctions f , f_, ... f peuvent être quelconques, l'important est que le1 2 p

modèle soit linéaire en les paramètres a. ... a , ß.

. Le cas le plus répandu, pour lequel il existe un grand nombre de programmes

d'ordinateur, est celui de la régression linéaire multiple :

Y - V i * a2x2 ... • apxp • ß • e .

. Les modèles de régression polynomiale ont des formes variées, la plus simple

étant :Y = a xP + a xp + ... a x + ß + e .

D'autres formes utilisent des familles de polynômes orthogonaux.

Selon la manière dont on pose les variables explicatives, on aboutit à des

modèles plus ou moins spécifiques :

. Modèles à retards échelonnés :

nx. + a.x. . + ... a x. + ß + e. .0 i 1 1-1 p î-p i

. Modèles auto-régressifs :

Vi-2[si p = 1, on appelle aussi ce modèle "modèle markovien" ; ce terme est assez

répandu en hydrologie ; si, formellement, il est exact qu'un tel modèle soit

markovien, l'expression est maladroite car il existe beaucoup de modèles mar-

koviens qui n'ont aucun rapport avec celui-ci ! ) .

. Modèles de "moyenne mobile" ("moving averages"] : variante des modèles à re-

tards échelonnés,

. La combinaison des deux précédents donne des modèles assez à la mode, et dési-

gnés dans la littérature statistique par le aigle ARIMA (AutoRegressive

Integrated Moving Averages],

. Signalons, enfin, les "modèles à erreurs sur les variables" (cf. 5 3.2.4.).

35

L'exposé de ces modèles suppose l'utilisation d'un formalisme matri-

ciel encore assez simple, mais qui sort du cadre limité que nous avons fixé à

ce rapport. Leur approfondissement peut conduire à des problèmes délicats, dont

certains sont encore des questions ouvertes : les difficultés proviennent tou-

jours de l'abandon d'une ou de plusieurs des 5 hypothèses fondamentales énoncées

au S 3.2.4.

36

7. METHOVES VE CALCUL

Lorsqu'on pose un problème d'ajustement par moindres carrés, on est

conduit à un système d'équations linéaires (d'où le nom de "modèles linéaires")

dites "équations normales".

Dans le cas du modèle simple exposé ici, il s'agit d'un système de

deux équations à deux inconnues, dont la solution est donnée par les formules

(7) et (8).

Dans des cas plus généraux, où le nombre d'inconnues est plus grand,

il est numériquement aberrant de

a) poser la solution analytique (la "formule")

b) appliquer cette solution numériquement

comme on le fait dans le cas du problème simple. Les opérations à effectuer

sont alors, en effet, trop nombreuses, et, d'autre part, comprennent trop de

divisions (opérations longues et imprécises).

On procède donc, en ordinateur, à la résolution numérique du problème,

par des méthodes spéciales (du genre de celles qu'on utilise dans les modèles

hydrodynamiques).

Dans les cas généraux, donc, il n'y a pas le choix, il faut utiliser

1'ordinateur.

Dans le cas de la régression linéaire simple, il est possible de

faire les calculs avec une simple additionneuse de bureau. Les calculs de l'exem-

ple cité au 5 4 sont reproduits ci-dessous :

7.1. Calcul "à la main"

- Matériel souhaitable :

. une machine de bureau électronique ou électro-mécanique, capable d'addi-

tionner et de multiplier, avec, de préférence, impression des résultats,

. une règle à calcul,

. une table de carrés et de racines carrées (outil fondamental en statisti-

que numérique : tables de BARLOW, 4ème édition, librairie polytechnique

BERANGER, DUNOD, Paris 1966 - Carrés, cubes, racines carrées, racines

cubiques et inverses des nombres entiers de 1 à 12 500).

- Faute de ce matériel, un papier, un crayon, et quelques heures, sont suffi-

sants.

37

On prépare un tableau de calcul à 7 colonnes, comme ci-dessous :

i

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

Total

1

Xi

64.76

64.72

64.34

64.42

64.77

65.57

66.06

67.01

67.57

68.08

68.32

67.77

62.55

62.88

63.10

63.68

64.48

65.53

66.17

66.98

67.80

68.18

68.56

68.81

1 582.11 1

2

y±

53.75

54.23

54.37

54.56

55.77

54.69

55.12

55.54

55.63

55.71

55.51

55.14

53.39

54.26

54.36

54.29

54.64

54.93

55.17

55.51

55.77

55.74

55.52

55.57

319.17

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

86

3

x.y.

480.85

509.76

498.16

514.75

612.22

586.02

647.22

721.73

758.91

792.73

792.44

736.83

339.54

411.86

430.11

457.18

523.18

599.56

650.59

718.05

781.20

800.35

806.45

823.77

987.46

4

4

4

4

4

4

4

4

4

4

4

4

3

3

3

4

4

4

4

4

4

4

4

4

104

4

2Xi

193.85

188.67

139.63

149.93

195.15

299.42

363.92

490.34

565.70

634.88

667.62

592.77

912.50

953.89

981.61

055.14

157.67

294.18

378.46

486.32

596.84

648.51

700.47

734.81

382.28

2

2

2

2

3

2

3

3

3

3

3

3

2

2

2

2

2

3

3

3

3

3

3

3

72

5

2

889.06

940.89

956.09

976.79

110.29

990.99

038.21

084.69

094.69

103.60

081.36

040.41

850.49

944.14

955.00

947.40

985.52

017.30

043.72

081.36

110.29

106.94

082.47

088.02

519.72

6

V ax.+b

54.618

54.606

54.493

54.517

54.621

54.859

55.005

55.288

55.455

55.607

55.679

55.515

53.959

54.058

54.123

54.296

54.535

54.847

55.038

55.280

55.524

55.637

55.750

55.825

y

-.868

-.376

-.123

-.169

-.169

-.375

-.569

-.006

-.230

-.255

-3.140•

7

i • h

+ .043

+1.149

+ .115

+ .252

+ .175

+ .103

+ .202

+ .237

+ .105

+ .083

+ .132

+ .230

+ .246

+ .103

+3.175035

- On commence par reporter dans le tableau (colonnes. CD et (2)) les valeurs

x. et y mesurées. On calcule les totaux, d'où en divisant par n, les

moyennes : 7 = (1582.11)/24 = 65.921

7 = (1319.173/24 = 54.965

38

On calcule ensuite les carrés (colonnes (4) et (5)), ce qui permet d'avoir

les variances. Pour cela, on n'applique pas les formules (4) et (5) direc-

tement, mais on utilise les formes suivantes, plus adaptées au calcul numé-

rique :

n __ n

1=1 1 1=1 1

2 7I y 2 i - 7 . l y.i=i i=i

On trouve :

2 = 104 3B2 .26 - (65.921) (1582.11]3x 24

,2 = 72 519.72 - (54.965)(1319.17)'y 24

3,666

0,4808

d'où : s = 1,9147

s = 0,6934

Vérification importante2 2s et s doivent toujours être % 0 !x y J

Le calcul des produits x.y. (col. 3) permet de calculer le coefficient a

par la formule :n n n

a =

n L V i "1 = 1

¿ xi ¿ yi1=1 1=1

- (E

Cette formule, plus adaptée au calcul numérique, est équivalente à la for-

mule (8).

On trouve :

[24)C86 987.46) - (1582.11)(1319.17)a =

(24H104 382.28) - (1582.11)'

626.9922102.668

a = 0.298

39

- On calcule enBuite b par :

b = o 'i - a I xi

[1319.173 - (.298] (15fl2.11) = 647.70224 " 24

= 35.320

A titre de verification, on calcule les valeurs y. = ax. + b (colonne B]

et les résidus (y. - y )(colonne 7). On vérifie que la somme des résidus

n'est pas trop différente de zéro. En toute rigueur, elle devrait être nulle ;

la valeur de cette somme, donc, représente l'addition des erreurs d'arrondi

et des erreurs d'application de la méthode (étourderie, machine défectueuse,

etc...), L'objet de cette vérification est de s'assurer qu'il n'y a pas

d'erreur grossière, d'une part, et que les erreurs d'arrondi ne sont pas

trop élevées d'autre part.

On trouve, ici :

n

l (y, - yJ = .035=1 X

et (y. - y.) .00146

ce qui montre que la précision des calculs est tout juste acceptable, mais

qu'il n'y a pas d'erreur grave.

Calcul du coefficient de corrélation : on peut y procéder à l'aide de la

formule (9) réécrite de la manière suivante :

sxr = a —y s

x= (.298)(1.915) / (0.693) = 0,822 .

Un calcul plus précis est obtenu en utilisant la formule (1) modifiée

I I

n I x.y. *i l yi 1

xy

¡ 4-i=i x ? - Í ï Vi

40

Deux des trois facteurs de cette expression ont déjà été calculés pour a,

II suffit de les reporter, ce qui donne :

B26.992r =xy

/ {2102.666] [(24H 72 519.72) - (1319.17)2]

J [2102.668] [263.792]

rxy • ° ' 7 0 7 «

- Calcul de l'écart-type résiduel :

Deux méthodes :

2. à partir du coefficient de corrélation et de s , par la formule (15) :

4(1 - r2) ̂ 4 « (-293^4H-48063 = -153

s = .391

en appliquant directement la formule (11), on obtient :

se = i 1 4 7

s = .383

La première valeur est affectée par les erreurs d'arrondi sur la valeur2

de r , la deuxième par les erreur!

dépendant des erreurs sur a et b.

2de r , la deuxième par les erreurs d'arrondi sur les y., elles-mêmes

A ce niveau de divergence, il faut raisonner sur les valeurs de s ,

qui sont homogènes aux mesures de départ : si l'erreur entre .391 et .383,

qui est de l'ordre de 1 cm, peut être négligée, on choisit n'importe quelle

valeur. Si elle n'est pas négligeable, il faut refaire tous les calculs

avec une machine plus précise, ou,avec plus de décimales.

41

7.2. Calcul cuitomcuUquz

Quatre possibilités :

a) Ecrire soi-même, dans un langage de programmation scientifique (F0RTRAN

IV, PL/1, ALGOL . . . ) , un programme effectuant les calculs précédents.

b) Utiliser une bibliothèque de sous-programmes de calcul, telle la biblio-

thèque SSP d'IBM (Scientific Subroutine Package], disponible au centre

de calcul d'Orléans. Il reste à l'utilisateur à écrire lui-même toute

la partie entrée - sortie en traitement.

c) Utiliser un programme de bibliothèque "tout fait", du genre de ceux de

la bibliothèque BMD (également disponible à Orléans).

d) Utiliser un sous-ensemble de la chaîne "AD0", mise au point au centre de

calcul d'Orléans j cette dernière solution paraît faire double emploi

avec la précédente (programmes BMD). Il n'en est rien, car le principe

général qui a régi la conception et la réalisation de la chaîne de

programmes AD0 est celui du système intégré, performant, et simple

d'emploi.

. Intégré : compatibilité entre différents types de traitement, dont la

régression n'est qu'un cas particulier, avec conservation des résultats

intermédiaires dans des fichiers sur disque.

. Performant : utilise au mieux les possibilités de la machine (alors

que le système BMD, ayant cherché à être universel et pouvant être

adapté sur tout ordinateur muni d'un compilateur F0RTRAN, est loin

d'utiliser au mieux temps et taille de mémoire).

. Simple : les "boutons de commande" du système sont manipulés à l'aide

de bordereaux pré-imprimés où l'utilisateur n'a qu'à cocher les cases

significatives. C'est donc un système accessible à tous, même ceux

qui n'ont jamais appris à programmer.

En conclusion, c'est les, 3e et 4é possibilités Q u e nous recomman-

dons ! Il n'en demeure pas moins que, selon les cas, les autres solutions

peuvent être envisagées (1'éloignement d'Orléans, dans une mission à l'é-

tranger par exemple, à déjà conduit à utiliser les solutions b) ou c)).

Le travail de préparation des données consiste à reporter les don-

nées sur bordereaux de perforation, selon un format quelconque, mais à

42

raison d'un couple XJ, yj par carte, et à faire perforer cea bordereaux.

La plupart du temps, en particulier dans AD0, il s'agit de programmes

de régression multiple, où de nombreux paramètres doivent être spécifiés, ce

qui fait l'objet de bordereaux spéciaux.

On n'entrera pas ici dans le détail de la mise en oeuvre de ces pro-

grammes ; on trouvera ci-dessous un exemple de bordereaux et un exemple de

listage de résultats :

figure 12 : fac. similé du bordereau de perforation des données

figure 13 : fac. similé du bordereau donnant les instructions de constitu-

tion du fichier

figure 14 : fac. similé du bordereau donnant les instructions de calcul

figure 15 : fac. similé des résultats

figure 16 : schéma d'ensemble du traitement.

7.3. Cho<Lx en&iz 1<¿A dzux

Un calculateur entraîné peut faire les calculs manuels du $ 7.1. en

deux heures ; il faut compter à peu près le même temps en ordinateur * (rem-

plir les bordereaux de données, les donner à perforer, récupérer les cartes

données, préparer les cartes paramètre et les cartes contrôle, porter le

tout en salle machine, revenir chercher le résultat quelques heures plus

tard), étalé sur 1 à 2 journées (délai de perforation, délai de restitution),

Mais, et c'est le plus important, les deux heures de calcul manuel

sont perdues en cas d'erreur ! Et, d'expérience, on peut constater que les

calculateurs, même les plus entraînés, se trompent.

Donc, nous conseillons sans réserve l'utilisation de l'ordinateur

pour ce genre de calculs !

Dès qu'on utilise des modèles un peu plus compliqués, d'ailleurs,

on n'a pas le choix, seul l'ordinateur peut mener à bien les calculs.

(*] Le temps réellement pris par la machine est, bien sûr, beaucoup plusbref : de l'ordre de quelques secondes.

B. R. G. M .

INFORMATIQUE

BORDEREAU DE DONNÉES

Figure 12.1

B. R. G. M .INFORMATIQUE

BORDEREAU DE DONNÉES

Figure 12.2

Demandeur: CflH(.£

Imputation : ftÛC- »<

Date : « A / , « * / , * ^

Disque: tf-iFt^ 06

BORDEREAU ADO 2 Page A de -1

CONSTITUTION SIMPLIFIÉE DE FICHIER

Remarques :

- Nombre de variables < 60- Longueur identificateur réduit < 4 caractères- Longueur Indicatif de groupe -í 4 caractères

- La séquence d'une observation devra se pré-

senter ainsi :

Identificateur réduit, Indicatif de groupe,(coordonnées), valeurs.

IDENTIFICATION

Fichier : Cases (5,6) lettres choisies par

l'utilisateur.

Cases (7,8) N° de génération.

Support des données :

01 si les données sont sur carte

07 si les données sont sur bande

C A R T E OPTIONS

Coefficients : codes unité ou codes quel-

conques, facultatifs et non utilisés dans

les calculs.

C A R T E F O R M A T

- m ê m e écriture qu'un format Fortran, ouver-ture de parenthèse en colonne 1, fermetureà la fin du format.

C A R T E N O M S

Les noms de variables sont cadrés à gauche.

C A R T E C O E F F I C I E N T S

Les coefficients sont cadrés à droite

D O N N E E S A B S E N T E S :

Une donnée absente ou Indéfinie est repéréepar des espaces dans les positions corres-dantes de la carte donnée.

Une donnée nulle (zéro mesuré) ne peutêtre strictement égale à 0; elle est repéréepar une valeur 1 dans la dernière des posi-tions correspondantes de la carte donnée.

Exemple :

donnée en Format F 4. 2

d o n n é e absente M i l l

d o n n é e nulle I I I H

FICHIER ETUDE

9 LIBELLE ' 6

TYPE DE TRAITEMENT

IDENTIFICATION

Support des données Nbre d'enreglstr. maximum

|A |D|0 IH1|O|A|1 |

73 80

31

1 2

Nombre de variables PPl

Présence de coefficients *LJ 3

* Cocher les cases utiles.

1 5 9 13 17

m u73 80

OPTIONS

Présence des coordonnées < Y * Q s

' Z.D6

Elimination données , n 7

absentes

IATDWIÏÏMCIII73 80

21

FORMAT

25 29 33 37 41 45 49 53 57 61 65 69 73 77 80

|(iAAi*

|*l*t»|X

1

1 1 11

1 1 1

1

1 1 1

lini

m

lini

M l

¥\

5

1 |

5

5

1 |

| ,

5

1 1

5

| |

5

II

rifa«

rf IJHJ

9

ill9

1 1 1

9

i l 1

ill9

ill9

ill9

ill

f\*\Y

i i

i |

i i

| |

| |

1 I

fa

| |13

| |

13

1 |

13

| |

I |

13

| |

13

| |

13

I |

i l l 117

i l l 117

1 1 M

17

lili

l i l i17

l i l i

17

l i l i

17

l i l i

n«l*i)i

ih i21

l i l i21

l i l i

21

l i l i

l i l i21

l i l i

21

l i l i

21

l i l i

l i l i

l i l i

25

l i l i25

l i l i

24

1 1

l i l i25

l i l i

25

l i l i24

ll

ill

ill29

ill29

1 1 1

1 1 129

ill29

ill

III, 1 1 1 1 1

NOMS DES

ni l

33

, , 1 I

33• Il i l i

. ll ,33

I , 1 I

33

1 ll 1

1 1 1 1 1

37

1 1 1 1 1

37

1 1 1 1 1

l i l i 1 1 1 1

VARIABLES

Mu41

l i l i

41

l i l i

i h45

ill45

1 1 1

COEFFICIENTS

i i 1 i i

37

1 1 1 1 1

37

1 1 1 1 1

l i l i41

l i l i41

l i l i

1 ll45

ih45

ill

1 1

1 1

! |

| |

| |

I I I

I I I49

1 II49

1 1 1

1 II49

I I I49

I I I

|

|

|

|

Il

h53

II53

1 !

Il53

II53

| |

| |

| |

| |

| |

| |

| |

In

lu57

1 M57

1 1 1

1 II57

I I I57

I I I

1

1

1

1

1

1

h

h61

| |

61

| |

II61

II61

| |

| |

| |

1 |

, |

1 1

M

| |

1

•

65

|

65

|

65

|

65

|

|

|

|

|

|

|

|

|

|

1

|

|

|

II

h69

| |

69

| !

I l69

h69

II

|

|

|

|

|

|

ll 1 M 111 ll

i lA .0 ,0 1 M 0 , D 11

73 80

i IAIDI0I1I1IOIDI2|

73

l | A | D I ^ I 1 | 1

73

|A,D,0 11l

80

¡0|D|3|

80

|0|D|4|

i I A I D , 0 I 1 | 1 I O , E I 1 |

73

i | A | D ^ | 1 | 1

73

i |A :D ,0 ,1 |1

73

|A ID I0 I1 |1

80

0 | E 2 |

80

0,E,3|

80

0|E|4 |

Demandeur :

Imputation : itût « <

Disque : **c£:^»»/-«tj» (-¡ne »l

Date : _ , ^ , .

Bordereau A D O 6 Figure 1-

ANALYSE STATISTIQUE

Page -J- de -f

Remarques

Codecarte :

• Placer 3 pour regressionPlacer 5 pour composantes principalesPlacer 6 pour correspondancesPlacer 8 pour facteurs c o m m u n s etspécifiques

• Carta typai de traitement

Cocher la case utile.

• Carta identification

Régression : si on ne veut pas calculer lesrésidus, on ne n o m m e pas de Fichierrésultat (cases 9 à 16).

• Carte bornas des observations

Régression : remplir seulement la* cases(là 4) et (5 à 8).

Autres : laisser à blanc les cases (9 a 121 et(13 i 16) s'il n'y a pas d'observationssupplémentaires.

• Carte options

Cocher les cases utiles.

Régression : cases (1) (2) (3) seulement.Analyse de données : le code de la case (5)permet de transformer les donnéesc o m m e suit :

31 [ *l I Re«re»«ion linéaire

321 I R«9re»ion eteoea

Correspondances

0 " pas de chang<1 • /somme

Compos, princip.

O = centrées réduites1 = / moyenne2*centrées

• Carte dimensions

Régression : remplir seulement les cases(1.2) et (3. 4 | .

Autres : placer 01 dans les cases (1, 2) et

remplir la suite.

N o m b r e d'indicatifs de groupes < 10

Nombre de variables < 6 0

N o m b r e de directions à extraire < 7

• C a n e n o m s des variables

Pour la régression : la première indiquéeait toujours la variable dépendante.

• Cartes bornes

Donner les bornes de toutes les variablesd u fichier qu'elles soient traitées ou nontraitées (format implicite F 8.2).

• Carte logarithmes

Régression : cocher les cartes qui corres-pondent aux variables devant êtreconverties en logarithmes suivant l'ordrede ces variables dans le fichier (qu'ellessoient traitées ou non traitées).Autres : ne cocher que la première casepour convertir toutes les variables enlogarithmes.

• Cartes divers

Régression linéaire : cartes absentes.

Régression étagée : une carte seulementavec critère d'entrée (1 a 41 et de sortie(S à 81.

Autres : coefficients de pondération des

variables (si pas de ponderdtion ; cartelsl

absente(s)).

Format implicite F 8.2

B Anslytt en compotantes ,principalei

TYPES DE TRAITEMENT

A M I y « m lictiun com-

IDENTIFICATION

9 16

IdentificateurloéDut

BORNES DES OBSE RVATIONSIdentificateur Identificateur_ _ _ ^ _ _ _ _ d c t e u ^ ^ ^ ^ ^ _ _ ^ - _ ^ _ _ _ _

I . IA I / 1 / loéDut I . I « I ¿ \s. lfm I f—T J—-I déDut I I I | | fin

O 7 g g oDwrvaliom 1 \I < r looier.ationj I I I ODiervatlom I I o m r m t l o n ». ' ' ' ' ' analysa» ' ' ' " . ' analytee» ' ' ' >-rï> lupplemenulrei ' ' ' I..' upplémenla

9 12

TITRE A IMPRIMER

ippiemontalrM

40OPTIONS

-B ¡SDIMENSIONS DES ZONES

I N o m b r e d'indicatifs

I « I ¿i3 4

Met I | | NomlI I I " " » '

Dr» d« »«ri* D U

lémantt.rts D dlrectiont a extraire

73 (0

INDICATIFS DE GROUPE

\ * P P P \ i 1 1 1 1 1 i 1 1 i i I M 1 1 i i 1 1 M i 11 i i I i i 11 i i i I i i 1 1 i i 1 1 1 i i 1 1 i 1 1 i i i 1 1 i 1 1 i i i 1 i 11 W O M ? I O I O I G | I |2S 2» 33 37 41 45 4« S3 97 «1

NOMS DES VARIABLES A TRAITER

I . . T T I I I I i i • I i • i I I i . I : i i I : i , 1 . , i I i i I 1 i I i í I i I I i i i 1 i i I I i i i I i i i | A , p ' l & | 0 i 0 , H h |13 17 21 2S 29 33 37 4) 43 49 S3 97 61 69 69 73 ' 60

I , • • I , • , I • i , I • . • I • • , I M i I • I : I i i i I . • i I . • i I • • . TUs

enrr~r^,i'..TiT7T7 l.r lT7i

I I 1 I ; I lI i i i I i i i I i i : I i M r V P ; > l | 0 | 0 | H | 2 |

T i ; ; I i i l ' . I l I I I i i i I ' i i I l i ; I . i i I i i i l : i i I i n T T T i [ I I I I I I I I I : I I I I I I I I I W i ï5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73

BORNES INFERIEURES DES VARIABLES DU FICHIER4 5 S T S

I i i ; ! : i I i i i i ; i i I i I i M i i I M i I I I I I I i i i i i i I i l'i i i i i K P J

I i i i : i i I I i i i i i i i I i I i i i i i I i i i i i i i I i i i i i i : I i i i i i i i I i i i i i i M i i i i : ¡ i I i i i i i i i

i i i i 1 1 1 1 i 1 1 i i i 1 1 i i i i i i

1

HZI i i i i i i i I i i i i i 1 1 1 1 i i i i i i I i i i i i i i I i| | M M I I M I M

I I l I I I I l l 1 l l l I I l I I Il l I I l I l I I l I M i I l l I I I I I l l l i T i i I l l I I I I I l l l i I II I I I l : i i i '°l ln¡0¡l|*l

LLL1

LUen

I I I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I i i I I I I I»1O|»I jOjOlI ¡S

I I I I I I I I I I I II I I I I I I I I I I I I II I I I I I I I : I i I I I I I I I I I I I I I I I I I I I TI 11 111 11 W l |o|o|'l«l

I II I I I I M I I I I 1 1 I I I I I I I I I I I I I I I I I I I ; I I I I M I i i i I17 25 33 41 49

BORNES SUPERIEURES DES VARIABLES DU FICHIER4 5^ 6 7

i I j i i I I i i I , i i i i i i I i i i i i i i i I i ; I I I I I29 , , 33 4Í 49 , , 57

1 1 1 1 1 1 1 1 1 1 1 1 i i i i 1 1 1 1 1 1 1 1 i i ¡ i i 1 1 i 1 1 i i |A;PÎ»T|OI°RU)

I i i i i i i i I i i i i i i i I i i i i i i i 1 : i i ! i i i I i i i i i i i I i i i i i i i I i i i i i i i I i i i i i i i I i i . i i i ii 28 " 3 0 33 49 34 35

iQlOJJJ3|

I I I I I I I I I I I I I I I I II I I I I I M I I I I

37I I I I I I I I I I I I I I I I I I I I I I I I I I I II I I I I I I II I M I I I I I |A|Ojlf

i i i i i I i i i I i i ! I i i i i i i i I i i i M i i I i i i i i i i I i i i i i i i I i i i i i i i Ii I i i i i i i I I i i i i i i W W

SO S3

I I I I J I I I I I I I I I I I I I I I I I I I I i I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Ii I n i . , M Koj'l ;o|o|J|6|

I I I I I I I I I I I I I I I I M I I I I II I I I I I I M I I I I I I I I I I I I33 41 49

TRAITEMENT EN LOGARITHMES

I I I M I I TTTTTT

1

1

III

tu1

h1!1

i

i : i

10

1 1 !

19

1 1 '28

1 :

37

46

55

^*

J i9

»

J i9

ill

9

2

M i lII

M ! ¡20

: i . •

29

1 1 :

38

47

^ 5 o "

l l l l17

! l l l l

1 ' 1 • '17

1 ; | , ,

1 1S~. | .

••1

3

II II 112

'Mil21

' I I I IJO

i M :

39 ^

S^\ ; <48

57

, :

II25

¡ i

,i25

1ST

¿S

4

Mill13

1 1 1 1 1

12

J_ i ! L 1

31 s ^

il 1 ! !40

• ' l ; 1

49

1 i .

SI

II 133

II 1

1 wJ3

II 1

II 133

I i"

1

5

1 ! 1

14

1 1 1

2yi 1 1

.77

1 i I

41

• ; ;

50

59

DIVERS

_l_l_l 1 I I41

i L * r i l

s'

141

1 1 1 1 !

i l , !41

' 1 1 1 1

i l l '

g

| ¡

\ |

24

| |

J.7

| |42

SI

¡HO

i ¡

Ktl49

llll

llll49

llll

l i l i49

llll

1

1 1 M 1 1

16

1 1 1 1 1 1

25

1 1 1 1 1 1

34

1 1 i M 1

43

! 1 1 1 1 1

S2

1 1 i M 1

115f

| |

| |

57

! |

, .

97

! |

a1 |17

| |

26

| |

35

| |44

| |

5.7

| |

| |

| |

| |

| ¡

i |

llll65

llll

llll65

J_ |

|65

llll

9

llll

It

llll27

llll

Jff

llll45

llll

54

1 1 M

i Y\M7J

i W°l«l, |A¡0Í«|

7J

( IA D : O |

I |A|D>¡73

i h°!alk ' P « ;

JQ¡O|L|I |so

M#l| O | O | L | 3 |

80

:OJO|L 4•[OOL 5

aoiu|G\l 6

•

|d,0Jl|7

* RES U L T A T S CE LA PEHRFSSICN *

VARIABLE

* * * X

COEFFICIFNTSREGRESSION

0.30085E 00

ECAPTS-TYPFPEGRFS5ICN

0.¿1681E-Cl

T-VALFLPS

0.721P0F 01

***********************************************************************************************************«***^

CCNSTANTECHEF. CORRELATION MULTIPLE

STAND. D ESTIMAT.

C.35133E C20.E2P51C.3ÇC73E CO

**• je******** «•••#*•*• ********* ******** * •**•*•*•*••••*•* «41««*« ** ****••••* ••••••••**••••*•••••*•***•*•••••••***•*••>

SOURCE CEVARIATION

REGRESSIONRESIDUTOTAL

CEGRE DELIBERTE

12223

SOMMESDES CARPES

0.7953ÍF 01C.23587F 01G.11313F C2

C A R P F SM O Y E N S

C . 7 9 5 3 8 E 0 10 . 1 5 2 6 7 E 0 0

D E F

0 . 5 2 0 9 9 F 0 2

, * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * <

Figure 15.1

• DETERMINATION DES PFSIDUS *

IDENTIFICATEUR

01660266366466566666766P66966

106611661266167267367

567667767867967

106711671267

EUR E S T I M E E

0.54616E0.546C4F0.5449CE0.54514E0.54619F0.5486CEC.55CC7EC.55293F0.55461E0.55615F0.556e7E0.55522F0.53951E0.54C5CE0.54117F0.5429JE0.54532E0.54P46FC5504CF0.552P4EC.55531EC.55645E0.55759E0.55834E

02C2C202C20202C20202C20202C20202C202C2C2C?02C202

VALEUP OBSERVEE

0.5375CE0.5423CE0.54370E0.5456CE0.55770E0.5469CE0.5512CE0.5554CE0.5563CE0.5571CE0.55510F0.5514CE0.53390E0.5426CE0.54360E0.5429CE0.5464CF0.5493CF0.5517CE0.55510F0.5577CE0.5574CE0.5552CEO.5557CE

0202C2C202020202C202020202020202C202020202020202

PESIDUS

-0.P6598F 00-O.373C5E CO-0.11°63E 000.4631CE-CI0.1151CE 01

-0.1696PE 000.11292E 000.2471CE 000.16861E 00O.f55184E-Cl-0.17702E 00-O.3R155E CO-0.5611CE 000.20963E 000.24342F 00

-0.106B1E-020.10826E 000.n2352E-010.12982E 000.22612E 000.2B943E 000.95092E-C1

-O.23923E 00-0.26443E 00

CUMUL

-0.8fc59ßF-0.1239^E-0.13596F-0.13132F-0.16225F-0.3 3192F-0.219C1E0.20091^-

0.291P9F0.114P7F

-C.2f.fi<«E-0.82777F-0.61P15E-0.37473F-0.37579E-0.26753F-0.18518F-0.55359E-C.17076F0.41019F0.5C52PC0.266C5EC.16174F-

S

00PI01ClCO00

ceClCOCO00

ceCOCOCOCOCO00ClCOCO00COC2

Figure 15.2

CD

49

documents terrain

bordereaux de perfo-ration de données :(cf. fig. 12)

fichier des donnéessur cartes

instruction deconstitutionde fichier :(cf. fig. 13)

instructionde calcul :(cf. fig. 14)

atelier de perforation

cartes rJ

passage en ordinateur :programme AD0 110

(constitution du fichiersur disque)

cartes

disque magnétique

T_Y

passage en ordinateur :programme AD0 300

(calculs de régression)

résultats(cf. fig. 15)

Figure 16 : Schéma d'ensemble du traitement automatique

50

Le calcul manuel, donc, n'a pour avantage que sa souplesse (mise en

oeuvre relativement rapide, sans matériel important - à la limite, crayon

et papier sont suffisants] et son intérêt pédagogique.

S. CONCLUSION

On a décrit un outil statistique élémentaire, puissant et facile à

mettre en oeuvre, sous réserve que quelques hypothèses de validité soient res-

pectées, et on a donné un moyen empirique de vérification de ces hypothèses.

On peut en conclure que la régression linéaire est un outil rustique

et robuste, dont l'emploi devrait rendre des services en hydrogéologie.

Dans l'exemple cité, on arrive à reconstituer des niveaux avec une

erreur de _+_ 76 cm ; c'est à l'utilisateur de définir si cette précision le

satisfait.

Il faut donc, pour cet outil comme pour tous les autres, savoir le

situer dans la démarche méthodologique générale d'une part, et l'appliquer

correctement d'autre part.

ANNEXE

VoHmuJtaiMn. :

_ _

- x) [y - y) íx,y)

/ l (x - x]2 (y - y)i=1

x] 2 (y y ) 2y

n

y

. . . 2 1 V r "i2

(4) s = - l ix - x)x n i 1 i

s = — y (y. -y n 4 - - , i

1 ?cov(x,y) = — l (x. - x)Cy. - y)

n _ _l Cx ± - x1iyi - y)

1=1 _ cov(x,y ]

— 2 s

£ (x. - x] x

(8] b = y - ax

(9) a = rxy

s

- y -

(10) y, = a x. + b

(11)1 = 1

(13] Y = ax + ß + E

(14)(n - 2) a'

1 -n syt

(15)n s

II

2(x,-x)

I (x.-7r2 s

(x.-x)2

1=1

. (x -x ) 2

( 1 6 ) y . - t s / 1 + - + ^j o e / n n — ,2

)1 = 1

/vrai" < y + t s / 1

J o e /1- +

(x -x)

—, 2n n _I Cx -x)

1=1

(17) - 2s£ < »yj vrai" < y^ * 2s£

rÉgressions et corrÉlations en hydrologieinfoterre.brgm.fr/rapports/74-sgn-170-ame.pdf ·...

Documents