régression multiple

13
© SPI-EAO Faculté de médecine de Nancy 1 Régression multiple C1 Bio- statistiques F. KOHLER

Upload: dustin-hardy

Post on 31-Dec-2015

13 views

Category:

Documents


0 download

DESCRIPTION

Régression multiple. C1 Bio-statistiques F. KOHLER. Régression multiple. Conditions d’application Utilisée chaque fois qu’une variable observée, dite variable dépendante, doit être exprimée en fonction de 2 ou plusieurs autres variables observées, dites indépendantes ou mieux explicatives. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 1

Régression multiple

C1 Bio-statistiques

F. KOHLER

Page 2: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 2

Régression multiple• Conditions d’application

– Utilisée chaque fois qu’une variable observée, dite variable dépendante, doit être exprimée en fonction de 2 ou plusieurs autres variables observées, dites indépendantes ou mieux explicatives.

– Le cas le plus simple est celui où les variables explicatives sont des variables non aléatoires, leurs valeurs étant toutes choisies a priori de façon arbitraire (dose d’un médicament…).

• On suppose que la relation est linéaire et que les différentes valeurs de la variable dépendante sont extraites de distributions normales, indépendantes de même variance

• Modèle théorique :– Yx= B0 +B1 x1a +B2X2a +….+ Bpxpa + da = B0+ Bx + dx

– Les conditions peuvent être exprimées en affirmant que les résidus aléatoires da relatif aux différents individus a doivent tous posséder une même distribution normale de moyenne nulle et de variance constante et qu’ils doivent être indépendants les uns des autres.

– D’autre part les p variables explicatives peuvent être des variables aléatoires dont les valeurs sont observées dans des conditions analogues à celle de la variable dépendante.

• On suppose alors généralement que les p+1 variables possèdent une distribution normale à p+1 dimensions ou que la relation est linéaire et que toutes les distributions conditionnelles de la variable dépendante sont normales à une dimension, indépendantes et de même variance

• On suppose que les échantillons sont aléatoires simples.

Page 3: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 3

Cas particulier de 2 variables explicatives

• SPE, SCE

])()(1*[1),cov(11111

n

ii

n

ii

n

iii yxn

yxn

yx

])()(1*[111

n

ii

n

ii

n

iii yxn

yxSPE

SPE = sum of products deviate = somme des produits des écarts aux moyennes

])(1[2

112

n

ii

n

i i xn

xSCE

SCE = somme des carrés des écarts à la moyenne

Page 4: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 4

Cas particulier de 2 variables explicatives

• Estimation et intervalle de confiance des paramètres– Coefficient de régression partielle b1 et b2

• Les indices 1 et 2 correspondent aux variables explicatives x1 et x2 et y à la variable expliquée.

21221

2122111

SPESCESCESPESPESCESPEb yy

21221

1121222

SPESCESCESPESPESCESPEb yy

– Ordonnée à l’origine

^

^

221100 xbxbyb

– Les résidus sont les différences entre la réalité et la représentation

– Variance résiduelle

2

1221

21122122

21.2^2

31

312

12. SPESCESCESPESPESPESPESCESPESCE

SCEnn

SCE yyyyy

yy

– Équation recherchée

Y = b0 +b1x1 +b2x2

DDL = n-3= n-p-1

Page 5: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 5

Tests de conformité et de signification des coefficients de

régression partielle

• Test de conformité– H0 1 = 1théo

^2

2.

212

11)1(

y

obsrSCEthéobt

Test de signification :1théo =0 DDL = n-3

• Analyse de la variance– Strictement équivalent au test t

– Permet de tester globalement la signification des 2 coefficients de régression partielle

–H0 1 =2 = 0

Page 6: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 6

Tableau de l’analyse de la variance

Principe :Décomposition de la somme des carrés des écarts totale SCEy, en une somme des carrés des écarts résiduelles SCEy.1…p ou SCEy.x et une somme des écarts factorielle :

SCEy(1..p) ou SCEyx- SCEy.x

qui possède p degrés de liberté

Source de variation DDLSomme des carrés des

écartsCarré moyen F

Régresseion multiple : x p SCEyx CMyx FyxVariation résiduelle n-p-1 SCEy.x Cmy.xTotal n-1 SCEy

Coefficient de corrélation multiple

SCEyR SCEy.x1 Somme des carrés des écarts résiduelle

Somme des carrés des écarts y

R2 = Coefficient de détermination multiple= part de variance expliquée

RR

p

pnF 2

2

1

1

DDL p; n-p-1

Page 7: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 7

Coefficient de corrélation partielle

• Cas de 3 variables x, y, z– Le coefficient de corrélation partielle entre

y et z est le coefficient de corrélation entre les résidus y-y(x) et z-z(x) des régressions linéaires à deux dimensions

– On définit de la même façon les coefficients de corrélation partielle x et y et x et z.

– Ils mesurent l’intensité de la relation qui existe entre deux variables indépendamment de l’influence de la troisième.

– Ces notions s’étendent à p variables

22.

11 xzxy

xzxyyzxyz

rrrrrr

Page 8: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 8

Exemple

AnnéePrécipitation Décembre

Température Juillet

Précipitation Juillet

Radiation Rendement

1 921 87,9 19,6 1,0 1 661 28,37 1 922 89,9 15,2 90,1 968 23,77 1 923 153,0 19,7 56,6 1 353 26,04 1 924 132,1 17,0 91,0 1 293 25,74 1 925 88,8 18,3 93,7 1 153 26,68 1 926 220,9 17,8 106,9 1 286 24,29 1 927 117,7 17,8 65,5 1 104 28,00 1 928 109,0 18,3 41,8 1 574 28,37 1 929 156,1 17,8 57,4 1 222 24,96 1 930 181,5 16,8 140,6 902 21,66 1 931 181,4 17,0 74,3 1 150 24,37

Sommes 1 518,3 195,3 818,9 13 666,0 282,3 229 299,79 26 907,52 121 026,17 1 861 887,2 38 386,0590

3 483,830 14 246,41 244 805,6 5 028,5670 74 431,970 949 144,3 20 391,4250

17 507 288,0 354 275,1700 7 287,2365

Sommes des carrés

et des produits

Exprimer le rendement en fonction des précipitations de décembre et de la température de juillet.

Page 9: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 9

Solution

])()(1*[1111

n

ii

n

ii

n

iii yxn

yxSPE

])(1[2

112

n

ii

n

i i xn

xSCE

21221

2122111

SPESCESCESPESPESCESPEb yy

2,282*3,1518*111383861 SPE

= -572,139

21

206,493679,1698,197323465,17206,493673,16139,572

b

= 0,02655

21221

1121222

SPESCESCESPESPESCESPEb yy

= 0,9800

221100 xbxbyb = 11,924

Page 10: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 10

Solution suiteVariance résiduelle

2

1221

21122122

21.2^2

31

312

12. SPESCESCESPESPESPESPESCESPESCE

SCEnn

SCE yyyyy

yy

2

222

12.0866,01

0866,06395,06074,026395,06074,0189581,44

y

= 1,596

Équation

Y = 11,92 – 0,0266 x1 + 0,980 x2

Remarques : 1) Attention il ne faut pas de corrélation entre x1 et x2

2) On peut déduire les limites de confiance de b1 et b2

2121

212.

2/111 rSCE

tb y

2122

212.

2/121 rSCE

tb y

Page 11: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 11

Cas général : p variables explicatives

• Deux problèmes– Choix du modèle :

• linéaire • Autres (polynomiale, curvilinéaire)

– Estimation des paramètres

• Calculs complexes• Choix des variables explicatives

– Choisir des variables explicatives fortement corrélées à la variable dépendante et faiblement corrélées entre elles.

– Méthode de régression pas à pas :• Introduction successives de variables de telle

sorte qu’avant toute introduction d’une variable supplémentaire, la signification des variables explicatives déjà présentes dans l’équation soit testée. Les variables qui n’apportent pas de contribution significatives sont éliminées.

Page 12: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 12

Régression multiple et analyse discriminante

• Y = variable qualitative à deux modalités codée 1 et 0– Le vecteur y est composé

uniquement de 1 et de 0– Les variables explicatives

peuvent prendre toutes les valeurs

• Dans ce cas particulier, la régression multiple pas à pas est identique à l’analyse discriminante.

Page 13: Régression multiple

© SPI-EAO Faculté de médecine de Nancy 13

SAS et Régression multiple

• GLM procedure : general linear models– Simple regression

– Multiple regression

– Anova

– Analysis of covariance

– Response surface models

– Weighted regression

– Polynomial regression

– Partial correlation

– Manova

– Repeated measures analysis of variance