multipelregressionpublicifsv.sund.ku.dk/~ebj/basal08_2/overheads/multipel_regression... ·...
TRANSCRIPT
Multipel regressionBirthe Lykke Thomsen
H. Lundbeck A/S
1
Multipel regression:Et outcome, mange forklarende variable
Eksempel:Ultralydsscanning, umiddelbart inden fødslen(1-3 dage inden)
OBS VAEGT BPD AD1 2350 88 922 2450 91 983 3300 94 110. . . .. . . .. . . .
105 3550 92 116106 1173 72 73107 2900 92 104
Problemstillingen kan eksempelvis være:
• Prediktion, konstruktion af normalområdetil diagnostisk brug (som her)
• Ønske om at justere for �forstyrrende�variable (�confoundere�)
• Flere forklarende variable af interesse:Hvilke er vigtige? Fanger de det sammeaspekt? Har de selvstændig betydning?
2
Repetition af simpel lineær regressionFørst ser vi på en enkelt kovariat, BPD
3
Modelkontrol i simpel lineær regressionStatistisk model:
Yi = a + bXi + ei, ei ∼ N(0, σ2) uafh.
Hvad skal vi checke her?
1. linearitet � tegne
2. varianshomogenitet � tegne
3. normalfordelte afvigelser(afstande til linien) � tegneOBS:• Intet krav om normalfordeling på
Xi'erne eller Yi'erne!!
4. uafhængighed mellem afvigelserne � tænke!• Er der �ere observationer på samme
individ?• Indgår der personer fra samme familie?
Tvillinger?
4
Modelkontrol består af• gra�k, typisk med residualer=forskellen
på den observerede værdi og den forventede(prædikterede, �ttede) værdi
• evt. formelle tests
Residualplots:
Residualerne plottes mod
1. den (eller de) forklarende variable xi
� for at checke linearitet
2. de �ttede værdier yi
� for at checke varianshomogenitet
3. 'normal scores' dvs. fraktildiagram(probability plot)� for at checke normalfordelingsantagelsen
De to første skal give indtryk af uordendvs. der må ikke være nogen systematik somf.eks. U-form (for den første) ellertrompet-facon (for den anden)
Fraktildiagrammet skal ligne en ret linie
5
Modelkontroltegninger:
6
En stor del af plottene kan konstrueres direkteved i regressionsopsætningen at klikkePlots/Residualhvor der f.eks. vælges Ordinary Residual modPredicted
7
Der er 4 typer residualer at vælge imellem:
1. ordinary: afstand fra observation lodretned til 'linie' = observeret - �ttet værdi:
ei = yi − yi
2. standardized (student): ordinary,normeret med spredning
3. press: observeret minus predikteret, men ien model, hvor den aktuelle observationhar været udeladt i estimationsprocessen
4. rstudent (studentized, rstudent):normerede Press-residualer
Fordele og ulemper:
• Rart med residualer, der bevarer enhederne(type 1 og 3); men nemmere at vurdere gradenaf outlier med standardiserede (type 2 og 4)
• Lettest at �nde outliers, når observationerneudelades en ad gangen (type 3 og 4)
8
De viste typer af plots kan produceres (i enikke særligt pæn version) ved hjælp afprogramkodenPROC REG DATA=secher;MODEL vaegt = bpd;VAR ad; * AD bruges i et af plottene;PLOT RESIDUAL.*(bpd PRED.) PRESS.*ad
STUDENT.*NQQ.;RUN;
Pæne plots kræver, at residualerne gemmes pået datasæt ved hjælp afPROC REG DATA=secher;MODEL vaegt = bpd;OUTPUT OUT=med_resid P=predict
R=resid STUDENT=stdizedPRESS=without_currRSTUDENT=stdized_without_curr;
RUN;
og tegnes med diverse speci�kketegneprocedurer (f.eks. GPLOT, BOXPLOT,PROBPLOT under UNIVARIATE, . . . )
9
Hvorfor standardisere?
Problemer med de sædvanlige residualerVi har antaget, at
ei ∼ N(0, σ2) uafh.
så vi ville forvente, at det samme galdt forresidualerne ei = yi − yi.Det gør det ikke!• De er ikke uafhængige (de summerer til 0)
� betyder ikke meget, når der er tilstrækkeligmange
• De har ikke helt samme varians
Var(ei) = σ2(1− hii)
hvorhii =
1n
+(xi − x)2
Sxxbetegnes leverage for den i'te observation
Standardiserede residualer (standardized)(normerede residualer, student residualer):
ri = ei
s√
1−hii, Var(ri)≈ 1
10
Modelkontroltegninger � linearitet?
11
LinearitetHvis lineariteten ikke holder,bliver modellen misvisende og ufortolkelig
Afhjælpning:
• tilføj �ere kovariater, f.eks.� ad
� kvadratleddet BPD2
vaegt=a+b1bpd+b2bpd2
Test af linearitet: b2=0
• transformer variablene med� logaritmer� kvadratrod� invers
• Lad være med at gøre nogetikke-lineær regression
12
Modelkontroltegningerne fra den simple lineæreregression � varianshomogenitet?
13
Varianshomogenitet(konstant varians / konstant spredning)Var(ei)=σ2, i=1,· · · ,nHvis der ikke er rimelig varianshomogenitet, bliverestimationen ine�cient (unødigt stor usikkerhed påparameterestimaterne)
Hvilke alternativer kan der typisk være?• konstant relativ spredning
= konstant variationskoe�cientVariationskoe�cient = spredning
middelværdi� ofte konstant, når man ser på størrelser,
der (evt. skjult) involverer division(f.eks. koncentrationer, BMI, andel positive celler,visse laboratorie assays, observationer beregnet udfra lys- eller farveintensiteter . . . )
� vil give anledning til trompetfacon påplottet af residualerne mod deprædikterede værdier
� afhjælpes ved at transformere outcome (Yi)med logaritme
• Forskellige grupper,� f.eks. �ere instrumenter eller laboratorier,
mænd/kvinder, forskellige patienttyper
14
Modelkontroltegninger � normalitet?
15
NormalfordelingsantagelsenHusk:Det er kun modelafvigelserne, der antages atvære normalfordelte, hverken outcome ellerkovariater!
Normalfordelingsantagelsen• er ikke kritisk for selve �ttet:
Mindste kvadraters metode giver under alleomstændigheder 'de bedste' estimater
• er formelt en forudsætning for t-fordelingenaf teststørrelsen, men reelt behøves kun ennormalfordelingsantagelse for estimatet b,og dette passer ofte, når der er rimeligtmange observationer, på grund af:Den centrale grænseværdisætning,der siger, at summer og andre funktioner afmange observationer bliver 'mere og mere'normalfordelte.
Tunge haler i den høje ende kan ofte afhjælpesved at logaritmetransformere outcome.
16
Transformation• logaritmer, kvadratrod, invers
Hvorfor tage logaritmer?
• af de forklarende variable� for at opnå linearitet, hvis det er %-vise
forskelle, der har konstant e�ekt. Bruggerne 2-tals logaritmer (e�ekt affordobling) eller XX=log(X)/log(1.1);(e�ekt af 10% stigning i X)
� for at se på multiplikativesammensætninger af to variable (f.eks.vægt og højde, jf. BMI)
• af respons / outcome� for at opnå linearitet� for at opnå varianshomogenitet
Var(ln(y)) ≈ Var(y)
y2
dvs. en konstant variationskoe�cient på Y
betyder konstant varians på log(Y ) (gælderfor alle logaritmetransformationer)
� for at opnå normalitet
17
Utransformeret
18
Efter log2-transformation af vaegt:
19
Efter log2-transformation af både vaegt ogbpd:
logaritme-transformationer ikke nok, AD skalmed!
20
Multipel regression
DATA: n personer, dvs. n sæt afsammenhørende observationer:
person x1....xp y1 x11....x1p y1
2 x21....x2p y2
3 x31....x3p y3
. . . . . . . .n xn1....xnp yn
Den lineære regressionsmodel med pforklarende variable skrives:
y = b0 + b1x1 + · · ·+ bpxp + ei
respons middelværdi biologiskregressionsfunktionen variation
Parametre:b0 afskæring, interceptb1, · · · , bp regressionskoe�cienter
21
Graphs/Scatter Plot/Three-Dimensional,under Display vælges Needles/Pillar
PROC G3D;SCATTER bpd*ad=vaegt /SHAPE='PILLAR' SIZE=0.5;
RUN;
22
Regressionsmodel:
yi = b0+b1xi1+· · ·+bpxip+eij , i = 1, · · · , n
Traditionelle antagelser:ei ∼ N(0, σ2), uafhængige
Mindste kvadraters metode:
S(b0, b1, · · · , bp) =∑
(yi−b0−b1xi1−· · ·−bpxip)2
23
Eksempel:Sechers data med fødselsvægt som funktion afsåvel bpd som ad
Analyse i Analyst:
Statistics/Regression/Linear,vælg vaegt som Dependent,bpd og ad som Explanatory
eller som programmering
PROC REG DATA=secher;MODEL vaegt=bpd ad;PLOT RESIDUAL.*(bpd PRED. ad)
STUDENT.*NQQ.;RUN;
24
The REG ProcedureDependent Variable: vaegt
Analysis of Variance
Sum of MeanSource DF Squares Square F Value Pr > F
Model 2 40736854 20368427 216.72 <.0001Error 104 9774647 93987Corrected Total 106 50511501
Root MSE 306.57298 R-Square 0.8065Dependent Mean 2739.09346 Adj R-Sq 0.8028Coeff Var 11.19250
Parameter Estimates
Parameter StandardVariable DF Estimate Error t Value Pr > |t|
Intercept 1 -4628.11813 455.98980 -10.15 <.0001bpd 1 37.13292 7.61510 4.88 <.0001ad 1 39.76305 4.16394 9.55 <.0001
Stærk signi�kant e�ekt af begge kovariater,men holder modelforudsætningerne?
25
Modelkontrol af utransformeret model:
26
Vurdering af modellen:
• Normalfordelingen halter lidt, med nogleenkelte ret store positive afvigelser, hvilketkunne tale for at logaritmetransformerevægten.
• Måske lidt trompetfacon i plot af residualermod predikterede værdier, hvilket ogsåtaler for logaritmetransformation (menhusk på, at observationerne ikke er ligeligtfordelt over x-aksen).
• Linearitet er ikke helt god, men det skyldeshovedsageligt de få børn med de særligtlave ultralydsmål
• Teoretiske argumenter fra den fagligeekspertise foreslår en multiplikativsammenhæng, dvs. en samtidiglogaritmetransformation af kovariaterne
27
Logaritmetransformerede data:
DATA secher; SET secher;lvaegt=LOG2(vaegt)lbpd=LOG2(bpd)lad=LOG2(ad)
RUN;
Analyse i Analyst:
Statistics/Regression/Linear,vælg lvaegt som Dependent,lbpd og lad som Explanatory
eller som programmering
PROC REG DATA=secher;MODEL lvaegt=lbpd lad;VAR bpd ad; * bruges i plots;PLOT RESIDUAL.*(bpd PRED. ad)
STUDENT.*NQQ.;RUN;
28
Dependent Variable: LVAEGTAnalysis of Variance
Sum of MeanSource DF Squares Square F Value Prob>FModel 2 14.95054 7.47527 314.925 0.0001Error 104 2.46861 0.02374C Total 106 17.41915
Root MSE 0.15407 R-square 0.8583Dep Mean 11.36775 Adj R-sq 0.8556C.V. 1.35530
Parameter EstimatesParameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|INTERCEP 1 -8.456359 0.95456918 -8.859 0.0001LBPD 1 1.551943 0.22944935 6.764 0.0001LAD 1 1.466662 0.14669097 9.998 0.0001
29
Modelkontrol af log2-transformeret model:
30
Utransformeret model (til sammenligning):
31
Marginale (univariate) modeller:Responsen vurderes overfor hver enkeltforklarende variabel for sig.
Multipel regressionsmodel:Responsen vurderes overfor beggeforklarende variable samtidigt.
Estimaterne for disse modeller (med tilhørendestandard errors i parentes) bliver:
b0 (int.) b1 (lbpd) b2 (lad) s R2
-10.223 3.332(0.202) - 0.215 0.72-3.527 - 2.237(0.111) 0.184 0.80-8.456 1.552(0.229) 1.467(0.147) 0.154 0.86
Bemærk koe�cienterne (b1 og b2) ændres ogstandard errors bliver større
32
Fortolkning af koe�cient b1 til lbpd:
• Marginal model:Ændringen i lvaegt, når kovariaten lbpdændres 1 enhed (dvs. når bpd fordobles)
• Multipel regressionsmodelÆndringen i lvaegt, når kovariaten lbpdændres 1 enhed, men hvor alle andrekovariater (her kun ad) holdes fast
Vi siger, at vi har korrigeret for e�ektenaf de andre kovariater i modellen.
Forskellen kan være markant, fordikovariaterne typisk er relaterede:� Når en af dem ændres,
ændres de andre også
Vigtigt: Den �biologiske� fortolkning afparameterestimaterne ændres:Det videnskabelige spørgsmål, derbesvares, er et andet!
33
Prædiktion ud fra modellen
log2(vaegt) = −8.46 + 1.55 log2(bpd)
+1.47 log2(ad) ⇒
vaegt = 2−8.46 × bpd1.55 × ad1.47
= 0.00284× bpd1.55 × ad1.47
Hvis ad holdes fast, svarer en forskel på 10% ibpd (dvs. bpd2=bpd1 × 1.1) til at gange vægtenmed
1.11.55 = 1.16
altså en 16% større vægt.
34
Regneeksempel (barn nr. 1)
For bpd=88 og ad=92, vil man forventelog2(vaegt)
= −8.46 + 1.55× log2(88) + 1.47× log2(92)
= −8.46 + 1.55× 6.46 + 1.47× 6.52
= 11.14
Forventet fødselsvægt: 211.14 g = 2257 g
Prædiktionsgrænserne beregnes for denanalyserede variabel, dvs. for log2(vægt), ogtilbagetransformeres!11.14± 1.96× Root MSE =
11.14± 1.96× 0.154 = (10.84, 11.44)
(210.84 g, 211.44 g) = (1833 g, 2778 g)
Vi har snydt en smule: Vi har negligeret selveestimationsusikkerheden på b'erne.
Faktisk observeret fødselsvægt: 2350 g
35
Prediktionsusikkerhed
NB: log-skalaen medfører konstantrelativ usikkerhed
2±1.96×0.154 = (0.81, 1.23)
Dette betyder, at med 95% sandsynlighed vilfødselsvægten ligge et sted mellem 19% underog 23% over den predikterede værdi.
Vi har stadig snydt en smule og negligeret selveestimationsusikkerheden på b'erne.
36
Test af hypoteserEr AD uden betydning, når BPD allerede ermed i modellen?
H0 : b2=0
Her har vi b2=1.467 med se(b2)=0.147,og dermed t-testet
t =b2
se(b2)= 9.998 ∼ t(104), P < 0.0001
95% kon�densinterval:b2 ± t(97.5%,n−p−1)se(b2)
= 1.467 ± 1.984×0.147 = (1.175,1.759)
Men:bj 'erne er korrelerede� med mindre de forklarende variable er
uafhængigeså man kan ikke lave et kombineret test ellerkon�densområde for begge variable ud frakon�densgrænserne for hver af variablene
37
Goodness-of-�t mål
R2 =Sum Sq(Model)Sum Sq(Total)
�Hvor stor en del af variationen kan forklares afmodellen?�(her 0.8583, dvs. 85.83%)
Fortolkningsproblemer når værdierne forkovariaterne er fastlagt direkte eller indirekteud fra forsøgsdesignet (ganske som forkorrelationskoe�cienten)
R2 stiger med antallet af kovariater � selv hvisdisse er uden betydning!
Adjusted R2:
R2adj = 1− Mean Sq(Residual)
Mean Sq(Total)
(her 0.8556)
38
Modelkontrol• Plots:
� residualer mod hver kovariat for sig(linearitet)
� residualer mod �ttede (predikterede)værdier(varianshomogenitet)
� fraktildiagram, 'probability plot'(normalfordelingen)
• Tests:Udvid modellen med� krumning: Kvadratled, 3. gradsled,...� vekselvirkning: Produktled ?
• Ind�ydelsesrige observationer� modi�cerede residualer� Cooks afstand
39
Regression diagnostics
Understøttes konklusionerneaf hele materialet?
Eller er der observationer med meget storind�ydelse på resultaterne?
Leverage = potentiel ind�ydelse(hat-matrix, i sas kaldet Hat Diag eller H)Hvis der kun er en kovariat er det simpelt:
hii =1n
+(xi − x)2
Sxx
Observationer med ekstreme x-værdier kanhave stor ind�ydelse på resultaterne,
40
0 1 2 3 4 5 6
02
46
810
x
y
men de har det ikke nødvendigvis!
• hvis de ligger 'pænt' i forhold tilregressionslinien, dvs. har et lille residual
41
Ind�ydelsesrige observationerhar en kombination af
• høj leverage
• stort residual
42
Regression diagnostics
• Udelad den i'te person og �nd nyeestimater, b
(i)0 , b
(i)1 og b
(i)2
• Udregn Cook's afstand, et samlet mål forændringen i parameterestimaterne
• Spalt Cooks afstand ud i koordinaterog angiv:Hvor mange se'er ændres f.eks. b1,når den i'te person udelades?
Hvad gør vi ved ind�ydelsesrige observationer?
• udelader dem?
• anfører et mål for deres ind�ydelse?
43
Diagnostics:Cooks afstand som mål for ind�ydelse
44
Outliers
Observationer, der ikke passer ind isammenhængen
• de er ikke nødvendigvis ind�ydelsesrige
• de har ikke nødvendigvis et stort residual
Hvad gør vi ved outliers?
• ser nærmere på dem,de er tit ganske interessante
Hvornår kan vi udelade dem?
• hvis de ligger meget yderligt, dvs. har højleverage� husk at afgrænse konklusionerne
tilsvarende!
• hvis man kan �nde årsagen� og da skal alle sådanne observationer
udelades!
45
Modelkontrol og Diagnostics i ANALYST
Mange tegninger kan fås direkte fra regressionenunder Plots/Residual eller Plots/Diagnostics.
Vil man lave yderligere (f.eks. en tegning af Cook'sdistance), er man nødt til at danne et nyt datasæti Analyst:
1. I regressionsopsætningen klikkesSave Data
2. afkrydsCreate and save diagnostics data
3. over�yt (klik Add) de størrelser, der skalgemmes(typisk Predicted, Residual, Student,Rstudent, Cookd, Press)
4. Kør analysen
5. Dobbeltklik på Diagnostics Table iprojekttræet
6. Gem det ved at klikkeFile/Save as By SAS Name
46
Modelkontrol og Diagnostics vedprogrammering
Ved programmering kan Cook's distance tegnesumiddelbart ved hjælp af PLOT eller gemmes pådatasæt ved hjælp af OUTPUT
PROC REG DATA=secher;MODEL lvaegt=lbpd lad;VAR bpd;PLOT COOKD*bpd;OUTPUT OUT=med_resid P=predict
R=resid STUDENT=stdizedPRESS=without_currRSTUDENT=stdized_without_currCOOKD=Cooks_D;
RUN;
47
Mange forklarende variableEksempel: O'Neill et. al. (1983):Lungefunktion hos 25 patientermed cystisk �brose.
48
Hvilke forklarende variable har enunivariat/marginal e�ekt på responset PEmax?
Er det så disse variable, der skal med imodellen?
49
Korrelationer:Correlation AnalysisPearson Correlation Coefficients / Prob>|R| under Ho:Rho=0 / N=25
AGE SEX HEIGHT WEIGHT BMPAGE 1.00000 -0.16712 0.92605 0.90587 0.37776
0.0 0.4246 0.0001 0.0001 0.0626
SEX -0.16712 1.00000 -0.16755 -0.19044 -0.137560.4246 0.0 0.4234 0.3619 0.5120
HEIGHT 0.92605 -0.16755 1.00000 0.92070 0.440760.0001 0.4234 0.0 0.0001 0.0274
WEIGHT 0.90587 -0.19044 0.92070 1.00000 0.672550.0001 0.3619 0.0001 0.0 0.0002
BMP 0.37776 -0.13756 0.44076 0.67255 1.000000.0626 0.5120 0.0274 0.0002 0.0
FEV1 0.29449 -0.52826 0.31666 0.44884 0.545520.1530 0.0066 0.1230 0.0244 0.0048
RV -0.55194 0.27135 -0.56952 -0.62151 -0.582370.0042 0.1895 0.0030 0.0009 0.0023
FRC -0.63936 0.18361 -0.62428 -0.61726 -0.434390.0006 0.3797 0.0009 0.0010 0.0300
TLC -0.46937 0.02423 -0.45708 -0.41847 -0.364900.0179 0.9085 0.0216 0.0374 0.0729
PEMAX 0.61347 -0.28857 0.59922 0.63522 0.229510.0011 0.1618 0.0015 0.0006 0.2698
50
Correlation AnalysisPearson Correlation Coefficients / Prob>|R| under Ho:Rho=0 / N=25
FEV1 RV FRC TLC PEMAXAGE 0.29449 -0.55194 -0.63936 -0.46937 0.61347
0.1530 0.0042 0.0006 0.0179 0.0011
SEX -0.52826 0.27135 0.18361 0.02423 -0.288570.0066 0.1895 0.3797 0.9085 0.1618
HEIGHT 0.31666 -0.56952 -0.62428 -0.45708 0.599220.1230 0.0030 0.0009 0.0216 0.0015
WEIGHT 0.44884 -0.62151 -0.61726 -0.41847 0.635220.0244 0.0009 0.0010 0.0374 0.0006
BMP 0.54552 -0.58237 -0.43439 -0.36490 0.229510.0048 0.0023 0.0300 0.0729 0.2698
FEV1 1.00000 -0.66586 -0.66511 -0.44299 0.453380.0 0.0003 0.0003 0.0266 0.0228
RV -0.66586 1.00000 0.91060 0.58914 -0.315550.0003 0.0 0.0001 0.0019 0.1244
FRC -0.66511 0.91060 1.00000 0.70440 -0.417210.0003 0.0001 0.0 0.0001 0.0380
TLC -0.44299 0.58914 0.70440 1.00000 -0.181620.0266 0.0019 0.0001 0.0 0.3849
PEMAX 0.45338 -0.31555 -0.41721 -0.18162 1.000000.0228 0.1244 0.0380 0.3849 0.0
Bemærk især korrelationerne mellem alder, højdeog vægt.
51
ModelselektionAutomatisk (computergenereret):• ANALYST: Vælges under Model iRegression/Linear)
• programmering:PROC REG DATA=pemax;
MODEL pemax=age sex height weightbmp fev1 rv frc tlc /SELECTION=STEPWISE;
RUN;
ellerPROC REG DATA=pemax;
MODEL pemax=age sex height weightbmp fev1 rv frc tlc /SELECTION=BACKWARD;
RUN;
Videnskabeligt: Gennemtænk præcis hvilketvidenskabeligt spørgsmål, man ønsker besvaret� det præcise spørgsmål bestemmer, hvilkevariable, der skal inkluderes i modellen. Svært� men den eneste måde at opnå egentligvidenskabelig indsigt!
52
Automatisk modelselektion
• Forlæns selektionMedtag hver gang den mest signi�kanteSlutmodel: WEIGHT BMP FEV1
• Baglæns eliminationStart med alle, udelad hver gang denmindst signi�kanteSlutmodel: WEIGHT BMP FEV1
Det ser jo meget stabilt ud!?
Men:Hvis nu WEIGHT havde væretlogaritmetransformeret fra starten?Så havde vi fået slutmodellen AGE FEV1
Tommel�ngerregel:
Antallet af observationer skal være mindst 10gange så stort som antallet af undersøgteparametre i modellen!
53
Når alle 9 kovariater medtages:Dependent: pemaxExplanatory:age sex height weight bmp fev1 rv frc tlc
Dependent Variable: PEMAXAnalysis of Variance
Sum of MeanSource DF Squares Square F Value Prob>F
Model 9 17101.39040 1900.15449 2.929 0.0320Error 15 9731.24960 648.74997C Total 24 26832.64000
Root MSE 25.47057 R-square 0.6373Dep Mean 109.12000 Adj R-sq 0.4197C.V. 23.34180
Parameter EstimatesParameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|INTERCEP 1 176.058206 225.89115895 0.779 0.4479AGE 1 -2.541960 4.80169881 -0.529 0.6043SEX 1 -3.736781 15.45982182 -0.242 0.8123HEIGHT 1 -0.446255 0.90335490 -0.494 0.6285WEIGHT 1 2.992816 2.00795743 1.490 0.1568BMP 1 -1.744944 1.15523751 -1.510 0.1517FEV1 1 1.080697 1.08094746 1.000 0.3333RV 1 0.196972 0.19621362 1.004 0.3314FRC 1 -0.308431 0.49238994 -0.626 0.5405TLC 1 0.188602 0.49973514 0.377 0.7112
54
Baglæns elimination
Tabel over successive p-værdier
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
age 0.604 0.632 0.519 0.616 - - - - -sex 0.812 - - - - - - - -height 0.628 0.649 0.550 0.600 0.557 - - - -weight 0.157 0.143 0.072 0.072 0.040 0.000 0.000 0.000 0.001bmp 0.152 0.140 0.060 0.056 0.035 0.024 0.019 0.098 -fev1 0.333 0.108 0.103 0.036 0.024 0.014 0.043 - -rv 0.331 0.323 0.347 0.326 0.228 0.146 - - -frc 0.540 0.555 0.638 - - - - - -tlc 0.711 0.669 - - - - - - -
(Altman stopper ved skridt nr. 7)
55
56
Advarsel ved modelselektion
• Massesigni�kans!
• Undgå at inkludere mange variable, derudtrykker mere eller mindre det samme
• Automatisk variabelselektion:� Signi�kanserne overvurderes!� Hvad kan vi sige om 'vinderne'?∗ Var de hele tiden signi�kante, eller blev de det
lige pludselig?∗ I sidstnævnte tilfælde kunne de jo være blevet
smidt ud, mens de var insigni�kante. . .
• Traditionel anbefaling(datagenereret/automatisk modelreduktion):� Baglæns elimination� Gennemregning af alle modeller� Cross-validation: Foretag model�ttet på en del
af data, afprøv bagefter på resten
• Min anbefaling: Tænk selv (undgå uklareproblemstillinger), test noget meningsfuldt (og ladvære med at smide de andre variable ud, bare fordideres p-værdi (tilfældigvis?) er stor) � så er detogså nemmere at få det publiceret
57
Hvad sker der ved udeladelse af en forklarendevariabel?
• Fittet bliver dårligere, dvs.residualkvadratsummen bliver større.
• Antallet af frihedsgrader (forresidualkvadratsummen) stiger.
• Estimatet s2 for residualvariansen σ2 kanbåde stige og falde
s2 =∑
()2
n− p− 1
• %-delen af variation, som forklares afmodellen, R2, falder. Dette kompenseresder for i den justerededeterminationskoe�cient R2
adjSom kriterium for, om modellen er god, kan vialtså bruge s2 eller R2
adj
58
Marginale (univariate) modeller:• Model 1: pemax overfor height• Model 2: pemax overfor weight
Multipel regressionsmodel:• Model 3: pemax overfor height og weight
b0 b1(height) b2(weight) s R2 R2
-33.276 0.932(0.260) - 27.34 0.3591 0.3363.546 - 1.187(0.301) 26.38 0.4035 0.3847.355 0.147(0.655) 1.024(0.787) 26.94 0.4049 0.35
• Hver af de to forklarende variable harbetydning, vurderet ud fra de marginalemodeller.
• I den multiple regressionsmodel ser ingenaf dem ud til at have nogen betydning.
• De to variable fanger et betydningsfuldtaspekt, men det er svært at sige hvilken,der er bedst � vægten ser ud til at væreden med stærkest sammenhæng i dissedata, men pas på! Det betyder ikke atvægten er den �sande� årsag � måskeopsummerer vægten bare aspekter fra �ereaf de egentlige årsager.
59
ANALYST: Options i Statistics/Regression/:
• Model:� Forward� Backward
• Statistics� clb: kon�densgrænser for estimater� corrb: korrelation mellem estimater� stb: standardiserede koe�cienter:
e�ekt af ændring på 1 SD for kovariat
• Statistics/Tests� collin: kollinearitets diagnostics� tol: tolerance factor= 1-R2 for
regression af en kovariat på de øvrige� vif: variance in�ation factor = 1/tol,
variansøgning p.g.a. kollinearitet
Ved programmering er de options til MODEL,dvs. de skal stå efter �/� og inden �;� i MODELspeci�kationen i kaldet af PROC REG;
60
Når vi tilføjer clb, stb, vif og tol, får vi:Parameter Estimates
Standardized VarianceVariable DF Estimate Tolerance InflationIntercept 1 0 . 0age 1 -0.38460 0.04581 21.82984sex 1 -0.05662 0.44064 2.26941height 1 -0.28694 0.07166 13.95493weight 1 1.60200 0.02093 47.78130bmp 1 -0.62651 0.14053 7.11575fev1 1 0.36190 0.18452 5.41951rv 1 0.50671 0.09489 10.53805frc 1 -0.40327 0.05833 17.14307tlc 1 0.09571 0.37594 2.65999
Parameter EstimatesVariable DF 95% Confidence LimitsIntercept 1 -305.41740 657.53381age 1 -12.77654 7.69262sex 1 -36.68861 29.21505height 1 -2.37171 1.47920weight 1 -1.28704 7.27268bmp 1 -4.20727 0.71739fev1 1 -1.22329 3.38468rv 1 -0.22125 0.61519frc 1 -1.35794 0.74107tlc 1 -0.87656 1.25376
61
Størrelser udregnet for hver observation kan medfordel gemmes i et nyt datasæt, så man kan se pådeskriptive størrelserThe MEANS ProcedureVariable Label Mean---------------------------------------------------------------resid Residual 2.50111E-14stresid Studentized Residual 0.0193870press Residual without Current Observation 1.2483399residud Studentized Residual without Current Obs 0.0073219leverage Leverage 0.4000000cook Cook's D Influence Statistic 0.0643761inflpred Standard Influence on Predicted Value 0.0477590---------------------------------------------------------------
Variable Label Minimum---------------------------------------------------------------resid Residual -37.3376860stresid Studentized Residual -1.7680347press Residual without Current Observation -60.7098868residud Studentized Residual without Current Obs -1.9197970leverage Leverage 0.1925968cook Cook's D Influence Statistic 0.000558647inflpred Standard Influence on Predicted Value -1.7428452---------------------------------------------------------------
Variable Label Maximum---------------------------------------------------------------resid Residual 33.4051731stresid Studentized Residual 1.7053874press Residual without Current Observation 56.4819549residud Studentized Residual without Current Obs 1.8350344leverage Leverage 0.5806599cook Cook's D Influence Statistic 0.2582067inflpred Standard Influence on Predicted Value 1.5251936---------------------------------------------------------------
62
Udvalgte diagnostics tegninger
63
Kollinearitet:Kovariaterne er lineært relateredeDet vil de altid være til en vis grad, undtagen i designedeforsøg (f.eks. landbrugsforsøg)
Symptomer på kollinearitet:
• Visse af kovariaterne er stærkt korrelerede
• Nogle parameterestimater har meget storestandard errors
• Alle kovariater i den multipleregressionsanalyse er insigni�kante, men R2
er alligevel stor
• Der sker store forskydninger i estimaterne,når en kovariat udelades af modellen
• Der sker store forskydninger i estimaterne,når en observation udelades af modellen
• Resultaterne er anderledes end forventet
• Check vif: Den må ikke være for stor!
64
Kollinearitet
Hvad er problemet ved kollinearitet?1. Fortolkningen af resultaterne: �Hvad er
årsagen til den observerede sammenhæng�2. Nogle gange: Tekniske problemer med
estimationen
Hvad gør man så, når der er kollinearitet?1. Find ud af, om det er grupper af variable,
der hænger sammen• Drejer det sig om ét fælles aspekt, så
man kan nøjes med den ene ogbegrunde, hvorfor man vælger netopden?
2. Gennemtænk grundigt, hvad den enkeltevariabel står for afhængigt af hvilke af deandre mulige variable, der fastholdes
3. Lav analyser med og uden justering forforskellige grupper af de andre variable, ogprøv at forstå forskellene i resultaterne
4. Fortolk med stor forsigtighed
65
KollinearitetVigtigt: I modstrid med anbefalingen fra visse(udygtige) epidemiologer, så må man ikke nøjesmed at præsentere univariate analyser for allevariablene! Problemet med fortolkningen forsvinderikke af, at man tillægger hver enkelt variabel alforklaringsevnen.
Andre fejlagtige påstande:Påstand: Signi�kansen for den enkelte variabelbliver svagere, når de andre tages med.Sandhed: Oftest, men ikke altid. Nogle gange bliversigni�kanserne væsentligt stærkere.Påstand (ernæringsepidemiologer): Problemet løsesved �residual-metoden�, hvor eksempelvis hverenkelt næringsstof erstattes af residualerne fra enregression af næringssto�et på totalt energiindtag.Sandhed: Det betyder bare, at man på forhåndtillægger totalt energiindtag mest muligtforklaringsevne, så betydningen af totaltenergiindtag overvurderes. Resultaterne for deenkelte næringssto�er er essentielt de samme. Hvistotalt energiindtag er det væsentlige, så vil det visesig ved, at alle energikilder giver ca. sammeparameterestimat, når de inkluderes på en gangmålt i energienheder (f.eks. kJ)!
66