introductie tot de lineaire regressie l twee gemiddelden l meer gemiddelden l nog meer gemiddelden:...

Introductie tot de lineaire regressie

Twee gemiddelden Meer gemiddelden Nog meer gemiddelden:

Enkelvoudige regressie en correlatie Multiple lineaire regressie

RECAP: twee gemiddelden: t-test

Spreidingsdiagram

PROVINCIE

LE

NG

TE

160

165

170

175

180

185

190

195

200

205

Friesland Limburg


±1.96*Std. Err.

±1.00*Std. Err.

Mean

Box & Whisker Plot: LENGTE

PROVINCIE

LE

NG

TE

172

174

176

178

180

182

184

186

Friesland Limburg


Group Statistics

24 179,83 9,748 1,990

20 177,50 10,293 2,302

GROEPFriesland

Limburg

LENGTEN Mean Std. Deviation

Std. ErrorMean

Independent Samples Test

,000 ,993 ,771 42 ,445 2,33 3,027 -3,776 8,442

,767 39,696 ,448 2,33 3,042 -3,817 8,484

Equal variancesassumed

Equal variancesnot assumed

LENGTEF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Gewichtsverlies per groep

GROEP

VE

RL

IES

-2

0

2

4

6

8

10

12

14

A B C

RECAP: meerdere gemiddelden: variantie analyse (AN O VA)


±Std. Dev.

±Std. Err.

Mean

Box & Whisker Plot: gewichtsverlies per groep

GROEP

VE

RL

IES

-2

0

2

4

6

8

10

12

A B C


Descriptives

VERLIES

10 2,9200 2,49880 ,79019 1,1325 4,7075 -1,00 6,80

10 6,5800 3,37369 1,06685 4,1666 8,9934 1,70 12,60

10 8,2000 2,23805 ,70774 6,5990 9,8010 4,10 11,80

30 5,9000 3,47424 ,63431 4,6027 7,1973 -1,00 12,60

1,00

2,00

3,00

Total

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

ANOVA

VERLIES

146,328 2 73,164 9,697 ,001

203,712 27 7,545

350,040 29

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

VAR5

3,002,001,00

Me

an

of

VE

RL

IES

9

8

7

6

5

4

3

2

Inleiding

Doel: bestuderen van de relatie tussen twee continue variabelen X en Y

statistisch verband: associatie (# causaal verband); positief vs negatief

wanneer het doel is te weten of twee variabelen geassocieerd zijn:correlatie onderzoek

wanneer het doel is de ene variabele uit de andere te voorspellen:regressie onderzoek


Correlatie-onderzoek


DNAIND

PR

OL

IND

-5

0

5

10

15

20

25

30

35

0,2 0,8 1,4 2,0 2,6 3,2

Stap 1: spreidingsdiagramma (scatterplot)Zijn DNA-index en proliferatieindex geassocieerd?

Correlatie-onderzoekIntroductie tot de lineaire regressie

nummer systolische bloeddruk diastolische bloeddruk lichaamsgewicht

1 122.5 82.5 45

2 125 82.5 55

3 125 75 43

4 110 65 55

5 137.5 90 44

6 122.5 82.5 47

7 110 75 47

8 112.5 80 33

9 135 85 41

10 130 90 60

11 120 75 39

12 130 80 45

13 110 67.5 37

14 100 75 33

15 105 70 47

16 102.5 72.5 43

Gemiddelde 118.6 78 44.6

Stand. Dev. 11.7 7.4 7.5


Spreidingsdiagram SBD tegen DBDCorrelation: r = ,78177

DBD

SB

D

95

105

115

125

135

145

62 68 74 80 86 92


Spreidingsdiagram SBD tegen lichaamsgewichtCorrelation: r = ,30653

Lichaamsgewicht

SB

D

95

105

115

125

135

145

30 34 38 42 46 50 54 58 62



Stap 2: berekenen van een correlatiecoëfficiënt

PearsonSpearmanKendall

Waarde: -1 tot +1-1 en +1 geven perfect verband aan

Meest gebruikt: Pearson (productmoment-correlatiecoëfficiënt), rToets en betrouwbaarheidsinterval

Populatie correlatiecoëfficiënt:

Pearson productmoment-correlatiecoëfficiënt


22 )()(

))((

yyxx

yyxxr

ii

ii


y(SBD x(DBP) y-gem(y) x-gem(x) (y-gem(y))² (x-gem(x))² (y-gem(y))(x-gem(x))122,5 82,5 3,9 4,5 15,21 20,25 17,55

125 82,5 6,4 4,5 40,96 20,25 28,8125 75 6,4 -3 40,96 9 -19,2110 65 -8,6 -13 73,96 169 111,8

137,5 90 18,9 12 357,21 144 226,8122,5 82,5 3,9 4,5 15,21 20,25 17,55

110 75 -8,6 -3 73,96 9 25,8112,5 80 -6,1 2 37,21 4 -12,2

135 85 16,4 7 268,96 49 114,8130 90 11,4 12 129,96 144 136,8120 75 1,4 -3 1,96 9 -4,2130 80 11,4 2 129,96 4 22,8110 67,5 -8,6 -10,5 73,96 110,25 90,3100 75 -18,6 -3 345,96 9 55,8105 70 -13,6 -8 184,96 64 108,8

102,5 72,5 -16,1 -5,5 259,21 30,25 88,55

1897,5 1247,5 0 0 2049,6 815,25 110,55



78.0)25.815)(6.2049(

55.1010

)()(

))((

22

r

yyxx

yyxxr

ii

ii



Deel teller en noemer door n-1, dan is

22 )()(

))((

yyxx

yyxxr

ii

ii

YX

XY

SS

Sr

waarin SX en SY de steekproefstandaardafwijkingen zijn van X en Y en SXY is de zgn steekproefcovariantie van X en Y

1

))((

n

yyxxS iiXY

Covariantie: gevoelig voor mate van associatie


LEEFTIJD vs. POLS

Correlation: r = ,17594

LEEFTIJD

PO

LS

55

60

65

70

75

80

85

90

95

100

15 20 25 30 35 40 45 50 55 60 65 70 75

0))(( yyxx ii

0))(( yyxx ii

0))(( yyxx ii

0))(( yyxx ii

Gemiddelde pols

Gemiddelde leeftijd


Spreidingsdiagram SBD tegen DBDCorrelation: r = ,78177

DBD

SB

D

95

105

115

125

135

145

62 68 74 80 86 92

Covariantie: gevoelig voor mate van associatie

0))(( yyxx ii

0))(( yyxx ii

0))(( yyxx ii

0))(( yyxx ii



22 )()(

))((

yyxx

yyxxr

ii

ii

Test: Nul hypothese: correlatiecoëfficiënt is 0

Betrouwbaarheidsinterval

Correlatiematrix


Correlations

1 ,782** ,307

. ,000 ,248

16 16 16

,782** 1 ,208

,000 . ,440

16 16 16

,307 ,208 1

,248 ,440 .

16 16 16

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

SRR

DRR

GEWICHT

SRR DRR GEWICHT

Correlation is significant at the 0.01 level (2-tailed).**.

Correlatiematrix


Correlations (GEWICH~2.STA 3v*16c)

SRR

DRR

GEWICHT

Drie-dimensioneel:


32,939 35,877 38,816 41,755 44,694 47,632 50,571 53,51 56,449 59,387 above

Quadratic Surface

SRR vs. DRR vs. GEWICHT

(Casewise deletion of missing data)



Regression95% confid.

DNAIND vs. PROLIND

(PROLIND = ,30681 + 8,3624 * DNAIND)


DNAIND

PR

OL

IND

-5

0

5

10

15

20

25

30

35

0,2 0,8 1,4 2,0 2,6 3,2




DIAM vs. DNAIND (Casewise MD deletion)

DNAIND = -1,189 + ,34627 * DIAM


DIAM

DN

AIN

D

0,2

0,8

1,4

2,0

2,6

3,2

5 6 7 8 9 10




DIAM vs. DIAM2 (Casewise MD deletion)

DIAM2 = 0,0000 + 2,0000 * DIAM

Correlation: r = 1,0000

DIAM

DIA

M2

10

12

14

16

18

20

5 6 7 8 9 10



Contraindicaties, voorwaarden

X en Y: bivariate normaalverdelingLineariteitUitbijters

DNAIND

PL

OID

BA

L

-60

-40

-20

0

20

40

60

80

100

120

0,2 0,8 1,4 2,0 2,6 3,2

DNAIND

PL

OID

BA

L

-60

-40

-20

0

20

40

60

80

100

120

0,2 0,8 1,4 2,0 2,6 3,2



Voorwaarden niet voldaan

Niet parametrische equivalent:

SPEARMAN Correlatiecoëfficiënt

Enkelvoudige lineaire regressie (simple linear regression)


X en Y: spelen verschillende rolY (afhankelijke variabele) wordt verklaard door X (onafhankelijke variabele)

X-en moeten geen aselecte steekproef zijnEr mag evenwel niet geselecteerd worden voor Y.

Eerste stap: spreidingsdiagramma

Y heeft voor elke waarde van X een kansverdeling met als gemiddelde µ(x)Doel regressie-analyse: het maken van een schatting van µ(x) voor elke waarde van x

µ(x) = alfa + beta.xalfa en beta worden geschat (a en b).

Enkelvoudige lineaire regressie


DNAIND

PR

OL

IND

-5

0

5

10

15

20

25

30

35

0,2 0,8 1,4 2,0 2,6 3,2

Stap 1: spreidingsdiagramma (scatterplot)




DNAIND vs. PROLIND (Casewise MD deletion)

PROLIND = 0,30681 + 8,3624 * DNAIND

(Correlation: r = ,48856)

DNAIND

PR

OL

IND

-5

0

5

10

15

20

25

30

35

0,2 0,8 1,4 2,0 2,6 3,2



Voor elke observatie is Y e (het residu) verwijderd van de verwachte waarde

X iii eXY

ei

iii eXY



Verwachte waarde van residu (e) = 0

Criterium: ‘kleinste kwadratencriterium’ (least squares)d.w.z. dat de som van de gekwadrateerde geschatte residuen minimaal is:

Berekening van de richtingscoëfficient wordt dan:

(de covariantie tussen X en Y gedeelt door de steekproefvariantie van X)

n

iii

n

iii XYYYSSE

11)².()²(),(

iii eXY

2)(

))((

xx

yyxxb

i

ii



SpreidingsdiagramLeeftijd vs bloeddruk

20 Vrouwen

LEEFTIJD

Sys

tolis

che

blo

ed

dru

k

80

100

120

140

160

180

15 25 35 45 55 65 75



Nummer x(lft) y(SBD) x-gem y-gem (x-gem)² (y-gem)² (x-gem)(y-gem)1 20 105 -24 -17,25 576 297,5625 4142 23 105 -21 -17,25 441 297,5625 362,253 25 125 -19 2,75 361 7,5625 -52,254 28 107,5 -16 -14,75 256 217,5625 2365 31 137,5 -13 15,25 169 232,5625 -198,256 35 127,5 -9 5,25 81 27,5625 -47,257 37 105 -7 -17,25 49 297,5625 120,758 39 120 -5 -2,25 25 5,0625 11,259 40 112,5 -4 -9,75 16 95,0625 39

10 43 120 -1 -2,25 1 5,0625 2,2511 45 120 1 -2,25 1 5,0625 -2,2512 47 120 3 -2,25 9 5,0625 -6,7513 50 147,5 6 25,25 36 637,5625 151,514 52 95 8 -27,25 64 742,5625 -21815 54 127,5 10 5,25 100 27,5625 52,516 54 130 10 7,75 100 60,0625 77,517 60 132,5 16 10,25 256 105,0625 16418 62 117,5 18 -4,75 324 22,5625 -85,519 65 120 21 -2,25 441 5,0625 -47,2520 70 170 26 47,75 676 2280,063 1241,5

Som 880 2445 0 0 3982 5373,75 2215



556,03982

2215

)(

))((2

b

xx

yyxxb

i

ii

8,97

44556,025,122

a

a

xbya

Relatie correlatie & lineaire regressie


22)(

))((

X

XY

i

ii

s

s

xx

yyxxb

YX

XY

ii

ii

ss

s

yyxx

yyxxr

22 )()(

))((

Y

X

s

sbr

Als r nul is, is ook b nul

Verklaarde variantie


222.

222.

)1(

)1(2

1

YxY

YxY

srs

srn

ns

Hoe goed men Y kan voorspellen op basis van gemiddelde: hangt af van variabiliteit

Bij gebruik X hangt de variabiliteit af van de variabiliteit van Y voor een gegeven waarde van Xr² kan geïnterpreteerd worden als de relatieve reductie van de variabiliteit van Y door gebruik te maken van de regressie van Y op Xr² x 100% is het percentage door X ‘verklaarde variantie’




LEEFTIJD vs. SBD

SBD = 97,775 + ,55625 * LEEFTIJD


LEEFTIJD

SB

D

80

100

120

140

160

180

15 25 35 45 55 65 75



Voorwaarden:

Lineariteit: de relatie tussen Y en X is lineair (som residuen 0)Gelijke varianties: de standaardafwijking van Y is voor alle waarden van X

gelijk (variantie van e constant)Normaliteit: voor elke waarde van X volgt Y een normale verdeling (e

normaal)

Evaluatie:

op basis van spreidingsdiagrammaop basis van residuenplot

Multiple lineaire regressie

Inleiding: multiple regressie

Meerdere onafhankelijke variabelen:

Multiple of multivariate regressie ?

Voorspellen Y of wegwerken verstoring ?

Typeverdeling Y Regressiemodel

normaal multiple lineaire regressiedichotoom multiple logistische regressiePoisson Poisson regressieoverlevingsduurgegevens Cox proportionele hazard regressie



Veronderstelling:

Y normaal verdeeld met gemiddelde:

Verdeling X-en: geen eisenaselect, select, gestratificeerd…

Y is wel aselect getrokken gegeven de waarden van de verschillende X-en

Regressiecoëfficiënten: gemiddelde toename van Y bij de toename vanéén eenheid X.geeft de invloed van X weer, gecorrigeerd voor de andere X-en.

pp XXX ...... 2211



Alternatieve formulering:

waarbij e een normaal verdeling volgt met als gemiddelde 0 en onbekende standaardafwijking sigma, die niet van de Xi’s afhangt.

De regressiecoëfficiënten worden opnieuw geschat door gebruik te maken van het kleinste kwadratencriterium

moet minimaal zijn.

Schattingen (+ se (p-waarde) en betrouwbaarheidsintervallen): computerprogramma nodig

eXXXY pp ...... 2211

)²......( 22111

pipii

n

ii XXXY


Voorbeeld

Medisch onderzoeker heeft in een ontwikkelingsland uit enkele plattelandsdorpen 31 mensen willekeurig geselecteerd.

Bij hen werd de systolische bloeddruk, het lichaamsgewicht, de leeftijd en de polsfrequentie gemeten.

Aan de hand van een multiple regrssie wordt nagegaan hoe de systolische bloeddruk afhangt van gewicht, leeftijd en polsslag.

afhankelijke variabele : Y (systolische bloeddruk in mm Hg)onafhankelijke variabelen : X1 (gewicht in kg)

X2 (leeftijd in jaren)X3 (polsfrequentie in slagen/minuut)


Analyse:– Eerst enkelvoudige regressies– Onderlinge correlaties tussen X-en?– Multiple lineaire regressie

» Schatten van de intercept en van de regressiecoëfficiënten kleinste kwadratencriterium computerprogramma nodig standaardfouten voor de coëfficiënten en p-waarde voor toetsing nul-hypothese (regressiecoëfficiënt = 0)

» Interpretatie cave: causaliteit?


Voorbeeld


GEWICHT vs. SYSTBLDR

SYSTBLDR = 87,084 + ,63267 * GEWICHT


GEWICHT

SY

ST

BL

DR

90

100

110

120

130

140

150

160

170

25 35 45 55 65 75 85 95


Voorbeeld


LEEFTIJD vs. SYSTBLDR

SYSTBLDR = 107,69 + ,38975 * LEEFTIJD


LEEFTIJD

SY

ST

BL

DR

90

100

110

120

130

140

150

160

170

15 25 35 45 55 65 75


Voorbeeld


POLS vs. SYSTBLDR

SYSTBLDR = 67,423 + ,68690 * POLS


POLS

SY

ST

BL

DR

90

100

110

120

130

140

150

160

170

55 60 65 70 75 80 85 90 95 100


Voorbeeld

GEWICHT vs. POLS


GEWICHT

PO

LS

55

60

65

70

75

80

85

90

95

100

25 35 45 55 65 75 85 95


Voorbeeld

LEEFTIJD vs. POLS


LEEFTIJD

PO

LS

55

60

65

70

75

80

85

90

95

100

15 25 35 45 55 65 75


Voorbeeld

LEEFTIJD vs. GEWICHT


LEEFTIJD

GE

WIC

HT

25

35

45

55

65

75

85

95

15 25 35 45 55 65 75


Analyse:– Variantieanalyse tabel

» afwijking yi t.o.v. gemiddelde y is de regressiecomponent + de residuele component

» kwadratensommen

» F-toets

» R²

n

iii

n

ii

n

ii yyyyyy

1

2

1

2

1

2 )ˆ()ˆ()(

)ˆ()ˆ( iiii yyyyyy

tot

reg

SS

SSR 2

res

reg

MS

MSF


Voorbeeld

ANOVAb

2493,057 3 831,019 5,636 ,004a

3980,814 27 147,438

6473,871 30

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), POLS, LEEFTIJD, GEWICHTa.

Dependent Variable: SYSTBLDRb.

Model Summary

,621a ,385 ,317 12,14Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), POLS, LEEFTIJD, GEWICHTa.

Coefficientsa

46,258 20,783 2,226 ,035

,492 ,207 ,388 2,376 ,025

,163 ,185 ,144 ,880 ,386

,536 ,249 ,332 2,152 ,040

(Constant)

GEWICHT

LEEFTIJD

POLS

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: SYSTBLDRa.

Inspectie - Inspectie +

0

20

40

60

80

100

Geen hoge koorts

Hoge koorts

Prevalentie als een functie van het diagnostisch profiel

Prev= 0.04 + 0.25(koorts) + 0.41(inspectie)

multiple lineaire regressie

Streptococcen infectie

Ja Neen totaal

inspectie + hoge koorts 104 45 149

geen hoge koorts 270 330 600

inspectie - hoge koorts 177 435 612


totaal 554 882 1436

Voorbeeld: diagnose van streptococcen keelontsteking gebaseerd op klinische bevindingen


Prevalentie als een functie van het diagnostisch profiel

Prev= 0.04 + 0.25(koorts) + 0.41(inspectie) + 0.20(inspectie)(koorts)

Streptococcen infectie

Ja Neen totaal

inspectie + hoge koorts 134 15 149


inspectie - hoge koorts 177 435 612


totaal 554 882 1436

Voorbeeld: diagnose van streptococcen keelontsteking gebaseerd op klinische bevindingen

Inspectie - Inspectie +

0

20

40

60

80

100

Geen hoge koorts

Hoge koorts

interactieterm



Voorbeeld


Voorbeeld

http://faculty.vassar.edu/lowry/webtext.html

introductie tot de lineaire regressie l twee gemiddelden l meer gemiddelden l nog meer gemiddelden:...

Documents