corrélation et régression linéaire simple 1.la corrélation 2.la régression linéaire simple

Corrélation et régression linéaire simple

1. La corrélation

2. La régression linéaire simple

Introduction

Etude de la relation entre deux variables quantitatives:

-description de l’association linéaire: corrélation, régression linéaire simple

- explication / prédiction d’une variable à partir de l’autre: modèle linéaire simpleX

Y

Nuage de points:

La corrélation

Statistique descriptive de la relation entre X et Y: variation conjointe

1. La covariance

Dans l’échantillon:

cov(x, y) 1

nx iy i

i1

n

x y

Estimation pour la population:

cov(x, y) ˆ xy 1

n 1(x i

i1

n

x )(y i y )

cov(x,y) 1

n 1x iy i

i1

n

n

n 1x y

Covariance et nuage de points

(x i x ) 0

x

y

(y i y ) 0Contribution > 0

> 0< 0

< 0

La corrélation

2. Le coefficient de corrélation linéaire

« de Pearson »

Dans l’échantillon:

Estimation pour la population:

22yx

xyxy

ss

sr

ˆ xy rxy sxy

sx2sy

2

La corrélation

2. Le coefficient de corrélation linéaire

X1

X2

r = 0.9

X2

r = 0.5

X2

r = 0

r = 0r = -0.5

Indice de covariance absolu: -1 ≤ r ≤ 1

La corrélation

r = -0.9

X2 X2 X2

3. Conditions d’utilisation

La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy)est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa.

r = 0.8r = 0

La corrélation

Normalité

Homoscédasticité

La variance de Y est indépendante de X et vice-versa.

Y

X

Y

Homoscédasticité

Hétéroscédasticité

La corrélation


Linéarité

La relation est linéaire

Y

Linéarité

X

Y

Non-linéarité

X

La corrélation


Non respect des conditions d’utilisation

0 10 20 30 40 50AGE

20

30

40

50

60

FK

LNG

TH

0.5 1.0 1.5 2.0LAGE

1.3

1.4

1.5

1.6

1.7

1.8

LFK

L

Relation âge - longueur chez l’esturgeon: transformation log-log;Alternative: utiliser la corrélation non paramétrique

La corrélation

4. Tests de la corrélation

a. Distribution d’échantillonnage du coefficient de corrélation linéaire

Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies,

sous Ho: = 0:

Attention, sous Ha: ≠ 0: distribution complexe

R n 2

1 R2: Tn 2 (Student)

La corrélation

b. Test de = 0

H 0 : 0

H a : 0

Absence de relation linéaire (mais pas absence de relation y compris causale)

Sous Ho:

tobs r n 2

1 r2 tn 2,

Si H0 est rejetée: corrélation ≠ causalité

4. Tests de la corrélation

La corrélation

La régression linéaire simple

Y

X

Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses.

Courbes de régression

Description de la relation: densité de probabilité de Y conditionnellement à X: Y

X

fxx0(y)dy P(y Y y dy / X x0)

Courbe de régression = E(Y/X) et E(X/Y)

Si (X,Y) binormale alors les courbes de régression sont des droites

E(Y/X)

E(X/Y)

- X et Y tiennent un rôle symétrique !- Plusieurs courbes possibles


1. Le modèle

On suppose: y = f(x) = a + bx

Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, )

X = variable explicative (« indépendante »), contrôléeY = variable expliquée (dépendante ), aléatoire Y

X

Relation de causalité ≠ interdépendance


2. L’estimation des paramètres

a? b?Méthode d’estimation: les moindres carrés:

Y

X

Mi

ei

M’i

xi

yi y = a+bx

ei = yi - (a + bxi)

ei2 minimale

ˆ y i


Méthode des moindres carrés

On cherche le minimum de ),())((1

2 baEbxayn

iii

Ea

2(y i (a bx i))( 1) 0 (1)i1

n

E

b 2(y i (a bx i))( x i) 0 (2)

i1

n



(1) y i (a bx i)i1

n

i1

n

na b x i

i1

n

ny na nbx

a y bx




n(cov(x, y) x y ) (y bx )nx bn(sx2 x 2) 0

cov(x,y) bsx2

b cov(x,y)

sx2

Si y = a+bx alors

ˆ b cov(x,y)

sx2

et

ˆ a y bx

On peut alors prédire y pour x compris dans l’intervalle des

valeurs de l’échantillon:

ˆ y i ˆ a ˆ b x i




3. Qualité de l’ajustement

On a supposé: Yi = a + bXi + ei avec

pour X = xi, Yi : N(a+bxi, )

- distribution normale des erreurs- variance identique (homoscédasticité)- indépendance: - linéarité de la relation

cov(ei,e j ) 0

Test a posteriori : étude du nuage de points/ du graphe des résidus


Normalité de l’erreur

Valeurs prédites

Ré

sid

us

Questions à se poser: structure de l’erreur?Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?



Homoscédasticité

Ré

sid

us

Valeurs prédites

Possibilité de transformation: attention aux transformations ad hoc



Indépendance entre erreurs, linéarité

Ré

sid

us

Ré

sid

us

Structure de l’erreur?

Relation non linéaire?



Décomposition de la variation

Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X?

Variabilité? Somme des Carrés des Ecarts SCE:

SCET (y i y )2

i1

n

nsy2


4. Coefficient de détermination

SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)

Y

Y

= +

( )Y Yii

N

1

2 ( )Y Yii

N

1

2 ( )Y Yii

N

i

1

2= +

Décomposition de la variation




La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression:

r2 SCE reg .lin.

SCET

Coefficient de détermination

Relation avec r?

0 ≤ r2 ≤ 1


Relation entre r et r2

SCE reg .lin . ( ˆ y i y )2

i1

n

((a bx i) (a bx ))2

i1

n

b2 (x i x )2

i1

n

b2nsx2 b2SCEx

Donc

r2 b2nsx

2

nsy2 (

cov(x, y)

sx2 )2 sx

2

sy2

(cov(x, y))2

sx2sy

2 (r)2

En particulier, r = 0 <=> r2 = 0



5. Tests

Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : 2 = 0

reg .lin.2

horsreg.lin.2

SCE reg .lin. /1

SCEhorsreg.lin. /(n 2): Fn 2

1

NB:

SCE reg .lin . /1

SCEhorsreg .lin . /(n 2)

r2SCET

(1 r2)SCET /(n 2)(

r n 2

1 r2)2

SCE reg .lin. /1

SCEhorsreg .lin. /(n 2): Fn 2

1

r n 2

1 r2: Tn 2numériquement

équivalent à


Test sur la pente

Ho: b = 0

ˆ b ˆ s b

: Tn 2

Ici:

ˆ b ˆ s b

ˆ b

(1 r2)sy2

(n 2)sx2

: Tn 2

Principe des tests sur les paramètres:

NB:

ˆ b

(1 r2)sy2

(n 2)sx2

cov(x, y)

sx2

(n 2)sx2

(1 r2)sy2

r n 2

1 r2

Les tests de nullité de b, r et r2 sont numériquement équivalents


Autres tests

- comparaison de la pente à une valeur non nulle

- comparaison de l’ordonnée à l’origine à une valeur quelconque

- comparaison de pentes


Bilan

X et Y aléatoires X contrôlée, Y aléatoire

Y a-t-il un lien? CorrélationQuel lien? Régression

Explication de Y par X: Modèle linéaire simple

Question

Modèle(X,Y) binormal => linéarité des régressionsDy/x : a, bDx/y : c, d

Y = a + bx + e

Pour X = xi, Yi : N(a+bxi, )


X et Y aléatoires X contrôlée, Y aléatoire

r: paramètre de la distribution de (X,Y)

R2 : part de variation de Y expliquée par X

Lien

Tests- test de -Tests sur les pentes b et d

- test de r2: ANOVA

r2(n 2)

1 r2 Fn 21

- test sur la pente

Bilan


corrélation et régression linéaire simple 1.la corrélation 2.la régression linéaire simple

Documents

corrlation page

x relation

rgression linaire simple

linarit x

corrlation normalit

modle linaire simple

corrlation linaire de

couple x