corrélation et régression linéaire simple 1.la corrélation 2.la régression linéaire simple
TRANSCRIPT
Corrélation et régression linéaire simple
1. La corrélation
2. La régression linéaire simple
Introduction
Etude de la relation entre deux variables quantitatives:
-description de l’association linéaire: corrélation, régression linéaire simple
- explication / prédiction d’une variable à partir de l’autre: modèle linéaire simpleX
Y
Nuage de points:
La corrélation
Statistique descriptive de la relation entre X et Y: variation conjointe
1. La covariance
Dans l’échantillon:
cov(x, y) 1
nx iy i
i1
n
x y
Estimation pour la population:
cov(x, y) ˆ xy 1
n 1(x i
i1
n
x )(y i y )
cov(x,y) 1
n 1x iy i
i1
n
n
n 1x y
Covariance et nuage de points
(x i x ) 0
x
y
(y i y ) 0Contribution > 0
> 0< 0
< 0
La corrélation
2. Le coefficient de corrélation linéaire
« de Pearson »
Dans l’échantillon:
Estimation pour la population:
22yx
xyxy
ss
sr
ˆ xy rxy sxy
sx2sy
2
La corrélation
2. Le coefficient de corrélation linéaire
X1
X2
r = 0.9
X2
r = 0.5
X2
r = 0
r = 0r = -0.5
Indice de covariance absolu: -1 ≤ r ≤ 1
La corrélation
r = -0.9
X2 X2 X2
3. Conditions d’utilisation
La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy)est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa.
r = 0.8r = 0
La corrélation
Normalité
Homoscédasticité
La variance de Y est indépendante de X et vice-versa.
Y
X
Y
Homoscédasticité
Hétéroscédasticité
La corrélation
3. Conditions d’utilisation
Linéarité
La relation est linéaire
Y
Linéarité
X
Y
Non-linéarité
X
La corrélation
3. Conditions d’utilisation
Non respect des conditions d’utilisation
0 10 20 30 40 50AGE
20
30
40
50
60
FK
LNG
TH
0.5 1.0 1.5 2.0LAGE
1.3
1.4
1.5
1.6
1.7
1.8
LFK
L
Relation âge - longueur chez l’esturgeon: transformation log-log;Alternative: utiliser la corrélation non paramétrique
La corrélation
4. Tests de la corrélation
a. Distribution d’échantillonnage du coefficient de corrélation linéaire
Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies,
sous Ho: = 0:
Attention, sous Ha: ≠ 0: distribution complexe
R n 2
1 R2: Tn 2 (Student)
La corrélation
b. Test de = 0
H 0 : 0
H a : 0
Absence de relation linéaire (mais pas absence de relation y compris causale)
Sous Ho:
tobs r n 2
1 r2 tn 2,
Si H0 est rejetée: corrélation ≠ causalité
4. Tests de la corrélation
La corrélation
La régression linéaire simple
Y
X
Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses.
Courbes de régression
Description de la relation: densité de probabilité de Y conditionnellement à X: Y
X
fxx0(y)dy P(y Y y dy / X x0)
Courbe de régression = E(Y/X) et E(X/Y)
Si (X,Y) binormale alors les courbes de régression sont des droites
E(Y/X)
E(X/Y)
- X et Y tiennent un rôle symétrique !- Plusieurs courbes possibles
La régression linéaire simple
1. Le modèle
On suppose: y = f(x) = a + bx
Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, )
X = variable explicative (« indépendante »), contrôléeY = variable expliquée (dépendante ), aléatoire Y
X
Relation de causalité ≠ interdépendance
La régression linéaire simple
2. L’estimation des paramètres
a? b?Méthode d’estimation: les moindres carrés:
Y
X
Mi
ei
M’i
xi
yi y = a+bx
ei = yi - (a + bxi)
ei2 minimale
ˆ y i
La régression linéaire simple
Méthode des moindres carrés
On cherche le minimum de ),())((1
2 baEbxayn
iii
Ea
2(y i (a bx i))( 1) 0 (1)i1
n
E
b 2(y i (a bx i))( x i) 0 (2)
i1
n
2. L’estimation des paramètres
La régression linéaire simple
(1) y i (a bx i)i1
n
i1
n
na b x i
i1
n
ny na nbx
a y bx
Méthode des moindres carrés
2. L’estimation des paramètres
La régression linéaire simple
n(cov(x, y) x y ) (y bx )nx bn(sx2 x 2) 0
cov(x,y) bsx2
b cov(x,y)
sx2
Si y = a+bx alors
ˆ b cov(x,y)
sx2
et
ˆ a y bx
On peut alors prédire y pour x compris dans l’intervalle des
valeurs de l’échantillon:
ˆ y i ˆ a ˆ b x i
Méthode des moindres carrés
2. L’estimation des paramètres
La régression linéaire simple
3. Qualité de l’ajustement
On a supposé: Yi = a + bXi + ei avec
pour X = xi, Yi : N(a+bxi, )
- distribution normale des erreurs- variance identique (homoscédasticité)- indépendance: - linéarité de la relation
cov(ei,e j ) 0
Test a posteriori : étude du nuage de points/ du graphe des résidus
La régression linéaire simple
Normalité de l’erreur
Valeurs prédites
Ré
sid
us
Questions à se poser: structure de l’erreur?Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?
La régression linéaire simple
3. Qualité de l’ajustement
Homoscédasticité
Ré
sid
us
Valeurs prédites
Possibilité de transformation: attention aux transformations ad hoc
La régression linéaire simple
3. Qualité de l’ajustement
Indépendance entre erreurs, linéarité
Ré
sid
us
Ré
sid
us
Structure de l’erreur?
Relation non linéaire?
La régression linéaire simple
3. Qualité de l’ajustement
Décomposition de la variation
Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X?
Variabilité? Somme des Carrés des Ecarts SCE:
SCET (y i y )2
i1
n
nsy2
La régression linéaire simple
4. Coefficient de détermination
SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)
Y
Y
= +
( )Y Yii
N
1
2 ( )Y Yii
N
1
2 ( )Y Yii
N
i
1
2= +
Décomposition de la variation
La régression linéaire simple
4. Coefficient de détermination
4. Coefficient de détermination
La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression:
r2 SCE reg .lin.
SCET
Coefficient de détermination
Relation avec r?
0 ≤ r2 ≤ 1
La régression linéaire simple
Relation entre r et r2
SCE reg .lin . ( ˆ y i y )2
i1
n
((a bx i) (a bx ))2
i1
n
b2 (x i x )2
i1
n
b2nsx2 b2SCEx
Donc
r2 b2nsx
2
nsy2 (
cov(x, y)
sx2 )2 sx
2
sy2
(cov(x, y))2
sx2sy
2 (r)2
En particulier, r = 0 <=> r2 = 0
4. Coefficient de détermination
La régression linéaire simple
5. Tests
Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : 2 = 0
reg .lin.2
horsreg.lin.2
SCE reg .lin. /1
SCEhorsreg.lin. /(n 2): Fn 2
1
NB:
SCE reg .lin . /1
SCEhorsreg .lin . /(n 2)
r2SCET
(1 r2)SCET /(n 2)(
r n 2
1 r2)2
SCE reg .lin. /1
SCEhorsreg .lin. /(n 2): Fn 2
1
r n 2
1 r2: Tn 2numériquement
équivalent à
La régression linéaire simple
Test sur la pente
Ho: b = 0
ˆ b ˆ s b
: Tn 2
Ici:
ˆ b ˆ s b
ˆ b
(1 r2)sy2
(n 2)sx2
: Tn 2
Principe des tests sur les paramètres:
NB:
ˆ b
(1 r2)sy2
(n 2)sx2
cov(x, y)
sx2
(n 2)sx2
(1 r2)sy2
r n 2
1 r2
Les tests de nullité de b, r et r2 sont numériquement équivalents
La régression linéaire simple
Autres tests
- comparaison de la pente à une valeur non nulle
- comparaison de l’ordonnée à l’origine à une valeur quelconque
- comparaison de pentes
La régression linéaire simple
Bilan
X et Y aléatoires X contrôlée, Y aléatoire
Y a-t-il un lien? CorrélationQuel lien? Régression
Explication de Y par X: Modèle linéaire simple
Question
Modèle(X,Y) binormal => linéarité des régressionsDy/x : a, bDx/y : c, d
Y = a + bx + e
Pour X = xi, Yi : N(a+bxi, )
La régression linéaire simple
X et Y aléatoires X contrôlée, Y aléatoire
r: paramètre de la distribution de (X,Y)
R2 : part de variation de Y expliquée par X
Lien
Tests- test de -Tests sur les pentes b et d
- test de r2: ANOVA
r2(n 2)
1 r2 Fn 21
- test sur la pente
Bilan
La régression linéaire simple