introductie tot de lineaire regressie l twee gemiddelden l meer gemiddelden l nog meer gemiddelden:...
TRANSCRIPT
Introductie tot de lineaire regressie
Twee gemiddelden Meer gemiddelden Nog meer gemiddelden:
Enkelvoudige regressie en correlatie Multiple lineaire regressie
RECAP: twee gemiddelden: t-test
Spreidingsdiagram
PROVINCIE
LE
NG
TE
160
165
170
175
180
185
190
195
200
205
Friesland Limburg
RECAP: twee gemiddelden: t-test
±1.96*Std. Err.
±1.00*Std. Err.
Mean
Box & Whisker Plot: LENGTE
PROVINCIE
LE
NG
TE
172
174
176
178
180
182
184
186
Friesland Limburg
RECAP: twee gemiddelden: t-test
Group Statistics
24 179,83 9,748 1,990
20 177,50 10,293 2,302
GROEPFriesland
Limburg
LENGTEN Mean Std. Deviation
Std. ErrorMean
Independent Samples Test
,000 ,993 ,771 42 ,445 2,33 3,027 -3,776 8,442
,767 39,696 ,448 2,33 3,042 -3,817 8,484
Equal variancesassumed
Equal variancesnot assumed
LENGTEF Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
Gewichtsverlies per groep
GROEP
VE
RL
IES
-2
0
2
4
6
8
10
12
14
A B C
RECAP: meerdere gemiddelden: variantie analyse (AN O VA)
RECAP: meerdere gemiddelden: variantie analyse (AN O VA)
±Std. Dev.
±Std. Err.
Mean
Box & Whisker Plot: gewichtsverlies per groep
GROEP
VE
RL
IES
-2
0
2
4
6
8
10
12
A B C
RECAP: meerdere gemiddelden: variantie analyse (AN O VA)
Descriptives
VERLIES
10 2,9200 2,49880 ,79019 1,1325 4,7075 -1,00 6,80
10 6,5800 3,37369 1,06685 4,1666 8,9934 1,70 12,60
10 8,2000 2,23805 ,70774 6,5990 9,8010 4,10 11,80
30 5,9000 3,47424 ,63431 4,6027 7,1973 -1,00 12,60
1,00
2,00
3,00
Total
N Mean Std. Deviation Std. Error Lower Bound Upper Bound
95% Confidence Interval forMean
Minimum Maximum
ANOVA
VERLIES
146,328 2 73,164 9,697 ,001
203,712 27 7,545
350,040 29
Between Groups
Within Groups
Total
Sum ofSquares df Mean Square F Sig.
VAR5
3,002,001,00
Me
an
of
VE
RL
IES
9
8
7
6
5
4
3
2
Inleiding
Doel: bestuderen van de relatie tussen twee continue variabelen X en Y
statistisch verband: associatie (# causaal verband); positief vs negatief
wanneer het doel is te weten of twee variabelen geassocieerd zijn:correlatie onderzoek
wanneer het doel is de ene variabele uit de andere te voorspellen:regressie onderzoek
Introductie tot de lineaire regressie
Correlatie-onderzoek
Introductie tot de lineaire regressie
DNAIND
PR
OL
IND
-5
0
5
10
15
20
25
30
35
0,2 0,8 1,4 2,0 2,6 3,2
Stap 1: spreidingsdiagramma (scatterplot)Zijn DNA-index en proliferatieindex geassocieerd?
Correlatie-onderzoekIntroductie tot de lineaire regressie
nummer systolische bloeddruk diastolische bloeddruk lichaamsgewicht
1 122.5 82.5 45
2 125 82.5 55
3 125 75 43
4 110 65 55
5 137.5 90 44
6 122.5 82.5 47
7 110 75 47
8 112.5 80 33
9 135 85 41
10 130 90 60
11 120 75 39
12 130 80 45
13 110 67.5 37
14 100 75 33
15 105 70 47
16 102.5 72.5 43
Gemiddelde 118.6 78 44.6
Stand. Dev. 11.7 7.4 7.5
Correlatie-onderzoekIntroductie tot de lineaire regressie
Spreidingsdiagram SBD tegen DBDCorrelation: r = ,78177
DBD
SB
D
95
105
115
125
135
145
62 68 74 80 86 92
Correlatie-onderzoekIntroductie tot de lineaire regressie
Spreidingsdiagram SBD tegen lichaamsgewichtCorrelation: r = ,30653
Lichaamsgewicht
SB
D
95
105
115
125
135
145
30 34 38 42 46 50 54 58 62
Correlatie-onderzoek
Introductie tot de lineaire regressie
Stap 2: berekenen van een correlatiecoëfficiënt
PearsonSpearmanKendall
Waarde: -1 tot +1-1 en +1 geven perfect verband aan
Meest gebruikt: Pearson (productmoment-correlatiecoëfficiënt), rToets en betrouwbaarheidsinterval
Populatie correlatiecoëfficiënt:
Pearson productmoment-correlatiecoëfficiënt
Introductie tot de lineaire regressie
22 )()(
))((
yyxx
yyxxr
ii
ii
Correlatie-onderzoekIntroductie tot de lineaire regressie
y(SBD x(DBP) y-gem(y) x-gem(x) (y-gem(y))² (x-gem(x))² (y-gem(y))(x-gem(x))122,5 82,5 3,9 4,5 15,21 20,25 17,55
125 82,5 6,4 4,5 40,96 20,25 28,8125 75 6,4 -3 40,96 9 -19,2110 65 -8,6 -13 73,96 169 111,8
137,5 90 18,9 12 357,21 144 226,8122,5 82,5 3,9 4,5 15,21 20,25 17,55
110 75 -8,6 -3 73,96 9 25,8112,5 80 -6,1 2 37,21 4 -12,2
135 85 16,4 7 268,96 49 114,8130 90 11,4 12 129,96 144 136,8120 75 1,4 -3 1,96 9 -4,2130 80 11,4 2 129,96 4 22,8110 67,5 -8,6 -10,5 73,96 110,25 90,3100 75 -18,6 -3 345,96 9 55,8105 70 -13,6 -8 184,96 64 108,8
102,5 72,5 -16,1 -5,5 259,21 30,25 88,55
1897,5 1247,5 0 0 2049,6 815,25 110,55
Pearson productmoment-correlatiecoëfficiënt
Introductie tot de lineaire regressie
78.0)25.815)(6.2049(
55.1010
)()(
))((
22
r
yyxx
yyxxr
ii
ii
Pearson productmoment-correlatiecoëfficiënt
Introductie tot de lineaire regressie
Deel teller en noemer door n-1, dan is
22 )()(
))((
yyxx
yyxxr
ii
ii
YX
XY
SS
Sr
waarin SX en SY de steekproefstandaardafwijkingen zijn van X en Y en SXY is de zgn steekproefcovariantie van X en Y
1
))((
n
yyxxS iiXY
Covariantie: gevoelig voor mate van associatie
Introductie tot de lineaire regressie
LEEFTIJD vs. POLS
Correlation: r = ,17594
LEEFTIJD
PO
LS
55
60
65
70
75
80
85
90
95
100
15 20 25 30 35 40 45 50 55 60 65 70 75
0))(( yyxx ii
0))(( yyxx ii
0))(( yyxx ii
0))(( yyxx ii
Gemiddelde pols
Gemiddelde leeftijd
Introductie tot de lineaire regressie
Spreidingsdiagram SBD tegen DBDCorrelation: r = ,78177
DBD
SB
D
95
105
115
125
135
145
62 68 74 80 86 92
Covariantie: gevoelig voor mate van associatie
0))(( yyxx ii
0))(( yyxx ii
0))(( yyxx ii
0))(( yyxx ii
Pearson productmoment-correlatiecoëfficiënt
Introductie tot de lineaire regressie
22 )()(
))((
yyxx
yyxxr
ii
ii
Test: Nul hypothese: correlatiecoëfficiënt is 0
Betrouwbaarheidsinterval
Correlatiematrix
Introductie tot de lineaire regressie
Correlations
1 ,782** ,307
. ,000 ,248
16 16 16
,782** 1 ,208
,000 . ,440
16 16 16
,307 ,208 1
,248 ,440 .
16 16 16
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
SRR
DRR
GEWICHT
SRR DRR GEWICHT
Correlation is significant at the 0.01 level (2-tailed).**.
Correlatiematrix
Introductie tot de lineaire regressie
Correlations (GEWICH~2.STA 3v*16c)
SRR
DRR
GEWICHT
Drie-dimensioneel:
Introductie tot de lineaire regressie
32,939 35,877 38,816 41,755 44,694 47,632 50,571 53,51 56,449 59,387 above
Quadratic Surface
SRR vs. DRR vs. GEWICHT
(Casewise deletion of missing data)
Correlatie-onderzoek
Introductie tot de lineaire regressie
Regression95% confid.
DNAIND vs. PROLIND
(PROLIND = ,30681 + 8,3624 * DNAIND)
Correlation: r = ,48856
DNAIND
PR
OL
IND
-5
0
5
10
15
20
25
30
35
0,2 0,8 1,4 2,0 2,6 3,2
Correlatie-onderzoek
Introductie tot de lineaire regressie
Regression95% confid.
DIAM vs. DNAIND (Casewise MD deletion)
DNAIND = -1,189 + ,34627 * DIAM
Correlation: r = ,71806
DIAM
DN
AIN
D
0,2
0,8
1,4
2,0
2,6
3,2
5 6 7 8 9 10
Correlatie-onderzoek
Introductie tot de lineaire regressie
Regression95% confid.
DIAM vs. DIAM2 (Casewise MD deletion)
DIAM2 = 0,0000 + 2,0000 * DIAM
Correlation: r = 1,0000
DIAM
DIA
M2
10
12
14
16
18
20
5 6 7 8 9 10
Correlatie-onderzoek
Introductie tot de lineaire regressie
Contraindicaties, voorwaarden
X en Y: bivariate normaalverdelingLineariteitUitbijters
DNAIND
PL
OID
BA
L
-60
-40
-20
0
20
40
60
80
100
120
0,2 0,8 1,4 2,0 2,6 3,2
DNAIND
PL
OID
BA
L
-60
-40
-20
0
20
40
60
80
100
120
0,2 0,8 1,4 2,0 2,6 3,2
Correlatie-onderzoek
Introductie tot de lineaire regressie
Voorwaarden niet voldaan
Niet parametrische equivalent:
SPEARMAN Correlatiecoëfficiënt
Enkelvoudige lineaire regressie (simple linear regression)
Introductie tot de lineaire regressie
X en Y: spelen verschillende rolY (afhankelijke variabele) wordt verklaard door X (onafhankelijke variabele)
X-en moeten geen aselecte steekproef zijnEr mag evenwel niet geselecteerd worden voor Y.
Eerste stap: spreidingsdiagramma
Y heeft voor elke waarde van X een kansverdeling met als gemiddelde µ(x)Doel regressie-analyse: het maken van een schatting van µ(x) voor elke waarde van x
µ(x) = alfa + beta.xalfa en beta worden geschat (a en b).
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
DNAIND
PR
OL
IND
-5
0
5
10
15
20
25
30
35
0,2 0,8 1,4 2,0 2,6 3,2
Stap 1: spreidingsdiagramma (scatterplot)
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
Regression95% confid.
DNAIND vs. PROLIND (Casewise MD deletion)
PROLIND = 0,30681 + 8,3624 * DNAIND
(Correlation: r = ,48856)
DNAIND
PR
OL
IND
-5
0
5
10
15
20
25
30
35
0,2 0,8 1,4 2,0 2,6 3,2
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
Voor elke observatie is Y e (het residu) verwijderd van de verwachte waarde
X iii eXY
ei
iii eXY
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
Verwachte waarde van residu (e) = 0
Criterium: ‘kleinste kwadratencriterium’ (least squares)d.w.z. dat de som van de gekwadrateerde geschatte residuen minimaal is:
Berekening van de richtingscoëfficient wordt dan:
(de covariantie tussen X en Y gedeelt door de steekproefvariantie van X)
n
iii
n
iii XYYYSSE
11)².()²(),(
iii eXY
2)(
))((
xx
yyxxb
i
ii
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
SpreidingsdiagramLeeftijd vs bloeddruk
20 Vrouwen
LEEFTIJD
Sys
tolis
che
blo
ed
dru
k
80
100
120
140
160
180
15 25 35 45 55 65 75
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
Nummer x(lft) y(SBD) x-gem y-gem (x-gem)² (y-gem)² (x-gem)(y-gem)1 20 105 -24 -17,25 576 297,5625 4142 23 105 -21 -17,25 441 297,5625 362,253 25 125 -19 2,75 361 7,5625 -52,254 28 107,5 -16 -14,75 256 217,5625 2365 31 137,5 -13 15,25 169 232,5625 -198,256 35 127,5 -9 5,25 81 27,5625 -47,257 37 105 -7 -17,25 49 297,5625 120,758 39 120 -5 -2,25 25 5,0625 11,259 40 112,5 -4 -9,75 16 95,0625 39
10 43 120 -1 -2,25 1 5,0625 2,2511 45 120 1 -2,25 1 5,0625 -2,2512 47 120 3 -2,25 9 5,0625 -6,7513 50 147,5 6 25,25 36 637,5625 151,514 52 95 8 -27,25 64 742,5625 -21815 54 127,5 10 5,25 100 27,5625 52,516 54 130 10 7,75 100 60,0625 77,517 60 132,5 16 10,25 256 105,0625 16418 62 117,5 18 -4,75 324 22,5625 -85,519 65 120 21 -2,25 441 5,0625 -47,2520 70 170 26 47,75 676 2280,063 1241,5
Som 880 2445 0 0 3982 5373,75 2215
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
556,03982
2215
)(
))((2
b
xx
yyxxb
i
ii
8,97
44556,025,122
a
a
xbya
Relatie correlatie & lineaire regressie
Introductie tot de lineaire regressie
22)(
))((
X
XY
i
ii
s
s
xx
yyxxb
YX
XY
ii
ii
ss
s
yyxx
yyxxr
22 )()(
))((
Y
X
s
sbr
Als r nul is, is ook b nul
Verklaarde variantie
Introductie tot de lineaire regressie
222.
222.
)1(
)1(2
1
YxY
YxY
srs
srn
ns
Hoe goed men Y kan voorspellen op basis van gemiddelde: hangt af van variabiliteit
Bij gebruik X hangt de variabiliteit af van de variabiliteit van Y voor een gegeven waarde van Xr² kan geïnterpreteerd worden als de relatieve reductie van de variabiliteit van Y door gebruik te maken van de regressie van Y op Xr² x 100% is het percentage door X ‘verklaarde variantie’
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
Regression95% confid.
LEEFTIJD vs. SBD
SBD = 97,775 + ,55625 * LEEFTIJD
Correlation: r = ,47883
LEEFTIJD
SB
D
80
100
120
140
160
180
15 25 35 45 55 65 75
Enkelvoudige lineaire regressie
Introductie tot de lineaire regressie
Voorwaarden:
Lineariteit: de relatie tussen Y en X is lineair (som residuen 0)Gelijke varianties: de standaardafwijking van Y is voor alle waarden van X
gelijk (variantie van e constant)Normaliteit: voor elke waarde van X volgt Y een normale verdeling (e
normaal)
Evaluatie:
op basis van spreidingsdiagrammaop basis van residuenplot
Multiple lineaire regressie
Inleiding: multiple regressie
Meerdere onafhankelijke variabelen:
Multiple of multivariate regressie ?
Voorspellen Y of wegwerken verstoring ?
Typeverdeling Y Regressiemodel
normaal multiple lineaire regressiedichotoom multiple logistische regressiePoisson Poisson regressieoverlevingsduurgegevens Cox proportionele hazard regressie
Multiple lineaire regressie
Multiple lineaire regressie
Veronderstelling:
Y normaal verdeeld met gemiddelde:
Verdeling X-en: geen eisenaselect, select, gestratificeerd…
Y is wel aselect getrokken gegeven de waarden van de verschillende X-en
Regressiecoëfficiënten: gemiddelde toename van Y bij de toename vanéén eenheid X.geeft de invloed van X weer, gecorrigeerd voor de andere X-en.
pp XXX ...... 2211
Multiple lineaire regressie
Multiple lineaire regressie
Alternatieve formulering:
waarbij e een normaal verdeling volgt met als gemiddelde 0 en onbekende standaardafwijking sigma, die niet van de Xi’s afhangt.
De regressiecoëfficiënten worden opnieuw geschat door gebruik te maken van het kleinste kwadratencriterium
moet minimaal zijn.
Schattingen (+ se (p-waarde) en betrouwbaarheidsintervallen): computerprogramma nodig
eXXXY pp ...... 2211
)²......( 22111
pipii
n
ii XXXY
Multiple lineaire regressie
Voorbeeld
Medisch onderzoeker heeft in een ontwikkelingsland uit enkele plattelandsdorpen 31 mensen willekeurig geselecteerd.
Bij hen werd de systolische bloeddruk, het lichaamsgewicht, de leeftijd en de polsfrequentie gemeten.
Aan de hand van een multiple regrssie wordt nagegaan hoe de systolische bloeddruk afhangt van gewicht, leeftijd en polsslag.
afhankelijke variabele : Y (systolische bloeddruk in mm Hg)onafhankelijke variabelen : X1 (gewicht in kg)
X2 (leeftijd in jaren)X3 (polsfrequentie in slagen/minuut)
Multiple lineaire regressie
Analyse:– Eerst enkelvoudige regressies– Onderlinge correlaties tussen X-en?– Multiple lineaire regressie
» Schatten van de intercept en van de regressiecoëfficiënten kleinste kwadratencriterium computerprogramma nodig standaardfouten voor de coëfficiënten en p-waarde voor toetsing nul-hypothese (regressiecoëfficiënt = 0)
» Interpretatie cave: causaliteit?
Multiple lineaire regressie
Voorbeeld
Regression95% confid.
GEWICHT vs. SYSTBLDR
SYSTBLDR = 87,084 + ,63267 * GEWICHT
Correlation: r = ,49944
GEWICHT
SY
ST
BL
DR
90
100
110
120
130
140
150
160
170
25 35 45 55 65 75 85 95
Multiple lineaire regressie
Voorbeeld
Regression95% confid.
LEEFTIJD vs. SYSTBLDR
SYSTBLDR = 107,69 + ,38975 * LEEFTIJD
Correlation: r = ,34415
LEEFTIJD
SY
ST
BL
DR
90
100
110
120
130
140
150
160
170
15 25 35 45 55 65 75
Multiple lineaire regressie
Voorbeeld
Regression95% confid.
POLS vs. SYSTBLDR
SYSTBLDR = 67,423 + ,68690 * POLS
Correlation: r = ,42632
POLS
SY
ST
BL
DR
90
100
110
120
130
140
150
160
170
55 60 65 70 75 80 85 90 95 100
Multiple lineaire regressie
Voorbeeld
GEWICHT vs. POLS
Correlation: r = ,17657
GEWICHT
PO
LS
55
60
65
70
75
80
85
90
95
100
25 35 45 55 65 75 85 95
Multiple lineaire regressie
Voorbeeld
LEEFTIJD vs. POLS
Correlation: r = ,17594
LEEFTIJD
PO
LS
55
60
65
70
75
80
85
90
95
100
15 25 35 45 55 65 75
Multiple lineaire regressie
Voorbeeld
LEEFTIJD vs. GEWICHT
Correlation: r = ,36546
LEEFTIJD
GE
WIC
HT
25
35
45
55
65
75
85
95
15 25 35 45 55 65 75
Multiple lineaire regressie
Analyse:– Variantieanalyse tabel
» afwijking yi t.o.v. gemiddelde y is de regressiecomponent + de residuele component
» kwadratensommen
» F-toets
» R²
n
iii
n
ii
n
ii yyyyyy
1
2
1
2
1
2 )ˆ()ˆ()(
)ˆ()ˆ( iiii yyyyyy
tot
reg
SS
SSR 2
res
reg
MS
MSF
Multiple lineaire regressie
Voorbeeld
ANOVAb
2493,057 3 831,019 5,636 ,004a
3980,814 27 147,438
6473,871 30
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), POLS, LEEFTIJD, GEWICHTa.
Dependent Variable: SYSTBLDRb.
Model Summary
,621a ,385 ,317 12,14Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), POLS, LEEFTIJD, GEWICHTa.
Coefficientsa
46,258 20,783 2,226 ,035
,492 ,207 ,388 2,376 ,025
,163 ,185 ,144 ,880 ,386
,536 ,249 ,332 2,152 ,040
(Constant)
GEWICHT
LEEFTIJD
POLS
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: SYSTBLDRa.
Inspectie - Inspectie +
0
20
40
60
80
100
Geen hoge koorts
Hoge koorts
Prevalentie als een functie van het diagnostisch profiel
Prev= 0.04 + 0.25(koorts) + 0.41(inspectie)
multiple lineaire regressie
Streptococcen infectie
Ja Neen totaal
inspectie + hoge koorts 104 45 149
geen hoge koorts 270 330 600
inspectie - hoge koorts 177 435 612
geen hoge koorts 3 72 75
totaal 554 882 1436
Voorbeeld: diagnose van streptococcen keelontsteking gebaseerd op klinische bevindingen
Multiple lineaire regressie
Prevalentie als een functie van het diagnostisch profiel
Prev= 0.04 + 0.25(koorts) + 0.41(inspectie) + 0.20(inspectie)(koorts)
Streptococcen infectie
Ja Neen totaal
inspectie + hoge koorts 134 15 149
geen hoge koorts 270 330 600
inspectie - hoge koorts 177 435 612
geen hoge koorts 3 72 75
totaal 554 882 1436
Voorbeeld: diagnose van streptococcen keelontsteking gebaseerd op klinische bevindingen
Inspectie - Inspectie +
0
20
40
60
80
100
Geen hoge koorts
Hoge koorts
interactieterm
Multiple lineaire regressie
Multiple lineaire regressie
Voorbeeld
Multiple lineaire regressie
Voorbeeld
http://faculty.vassar.edu/lowry/webtext.html