multipelregressionpublicifsv.sund.ku.dk/~ebj/basal08_2/overheads/multipel_regression... ·...

Multipel regressionBirthe Lykke Thomsen

H. Lundbeck A/S

1

Multipel regression:Et outcome, mange forklarende variable

Eksempel:Ultralydsscanning, umiddelbart inden fødslen(1-3 dage inden)

OBS VAEGT BPD AD1 2350 88 922 2450 91 983 3300 94 110. . . .. . . .. . . .

105 3550 92 116106 1173 72 73107 2900 92 104

Problemstillingen kan eksempelvis være:

• Prediktion, konstruktion af normalområdetil diagnostisk brug (som her)

• Ønske om at justere for �forstyrrende�variable (�confoundere�)

• Flere forklarende variable af interesse:Hvilke er vigtige? Fanger de det sammeaspekt? Har de selvstændig betydning?

2

Repetition af simpel lineær regressionFørst ser vi på en enkelt kovariat, BPD

3

Modelkontrol i simpel lineær regressionStatistisk model:

Yi = a + bXi + ei, ei ∼ N(0, σ2) uafh.

Hvad skal vi checke her?

1. linearitet � tegne

2. varianshomogenitet � tegne

3. normalfordelte afvigelser(afstande til linien) � tegneOBS:• Intet krav om normalfordeling på

Xi'erne eller Yi'erne!!

4. uafhængighed mellem afvigelserne � tænke!• Er der �ere observationer på samme

individ?• Indgår der personer fra samme familie?

Tvillinger?

4

Modelkontrol består af• gra�k, typisk med residualer=forskellen

på den observerede værdi og den forventede(prædikterede, �ttede) værdi

• evt. formelle tests

Residualplots:

Residualerne plottes mod

1. den (eller de) forklarende variable xi

� for at checke linearitet

2. de �ttede værdier yi

� for at checke varianshomogenitet

3. 'normal scores' dvs. fraktildiagram(probability plot)� for at checke normalfordelingsantagelsen

De to første skal give indtryk af uordendvs. der må ikke være nogen systematik somf.eks. U-form (for den første) ellertrompet-facon (for den anden)

Fraktildiagrammet skal ligne en ret linie

5

Modelkontroltegninger:

6

En stor del af plottene kan konstrueres direkteved i regressionsopsætningen at klikkePlots/Residualhvor der f.eks. vælges Ordinary Residual modPredicted

7

Der er 4 typer residualer at vælge imellem:

1. ordinary: afstand fra observation lodretned til 'linie' = observeret - �ttet værdi:

ei = yi − yi

2. standardized (student): ordinary,normeret med spredning

3. press: observeret minus predikteret, men ien model, hvor den aktuelle observationhar været udeladt i estimationsprocessen

4. rstudent (studentized, rstudent):normerede Press-residualer

Fordele og ulemper:

• Rart med residualer, der bevarer enhederne(type 1 og 3); men nemmere at vurdere gradenaf outlier med standardiserede (type 2 og 4)

• Lettest at �nde outliers, når observationerneudelades en ad gangen (type 3 og 4)

8

De viste typer af plots kan produceres (i enikke særligt pæn version) ved hjælp afprogramkodenPROC REG DATA=secher;MODEL vaegt = bpd;VAR ad; * AD bruges i et af plottene;PLOT RESIDUAL.*(bpd PRED.) PRESS.*ad

STUDENT.*NQQ.;RUN;

Pæne plots kræver, at residualerne gemmes pået datasæt ved hjælp afPROC REG DATA=secher;MODEL vaegt = bpd;OUTPUT OUT=med_resid P=predict

R=resid STUDENT=stdizedPRESS=without_currRSTUDENT=stdized_without_curr;

RUN;

og tegnes med diverse speci�kketegneprocedurer (f.eks. GPLOT, BOXPLOT,PROBPLOT under UNIVARIATE, . . . )

9

Hvorfor standardisere?

Problemer med de sædvanlige residualerVi har antaget, at

ei ∼ N(0, σ2) uafh.

så vi ville forvente, at det samme galdt forresidualerne ei = yi − yi.Det gør det ikke!• De er ikke uafhængige (de summerer til 0)

� betyder ikke meget, når der er tilstrækkeligmange

• De har ikke helt samme varians

Var(ei) = σ2(1− hii)

hvorhii =

1n

+(xi − x)2

Sxxbetegnes leverage for den i'te observation

Standardiserede residualer (standardized)(normerede residualer, student residualer):

ri = ei

s√

1−hii, Var(ri)≈ 1

10

Modelkontroltegninger � linearitet?

11

LinearitetHvis lineariteten ikke holder,bliver modellen misvisende og ufortolkelig

Afhjælpning:

• tilføj �ere kovariater, f.eks.� ad

� kvadratleddet BPD2

vaegt=a+b1bpd+b2bpd2

Test af linearitet: b2=0

• transformer variablene med� logaritmer� kvadratrod� invers

• Lad være med at gøre nogetikke-lineær regression

12

Modelkontroltegningerne fra den simple lineæreregression � varianshomogenitet?

13

Varianshomogenitet(konstant varians / konstant spredning)Var(ei)=σ2, i=1,· · · ,nHvis der ikke er rimelig varianshomogenitet, bliverestimationen ine�cient (unødigt stor usikkerhed påparameterestimaterne)

Hvilke alternativer kan der typisk være?• konstant relativ spredning

= konstant variationskoe�cientVariationskoe�cient = spredning

middelværdi� ofte konstant, når man ser på størrelser,

der (evt. skjult) involverer division(f.eks. koncentrationer, BMI, andel positive celler,visse laboratorie assays, observationer beregnet udfra lys- eller farveintensiteter . . . )

� vil give anledning til trompetfacon påplottet af residualerne mod deprædikterede værdier

� afhjælpes ved at transformere outcome (Yi)med logaritme

• Forskellige grupper,� f.eks. �ere instrumenter eller laboratorier,

mænd/kvinder, forskellige patienttyper

14

Modelkontroltegninger � normalitet?

15

NormalfordelingsantagelsenHusk:Det er kun modelafvigelserne, der antages atvære normalfordelte, hverken outcome ellerkovariater!

Normalfordelingsantagelsen• er ikke kritisk for selve �ttet:

Mindste kvadraters metode giver under alleomstændigheder 'de bedste' estimater

• er formelt en forudsætning for t-fordelingenaf teststørrelsen, men reelt behøves kun ennormalfordelingsantagelse for estimatet b,og dette passer ofte, når der er rimeligtmange observationer, på grund af:Den centrale grænseværdisætning,der siger, at summer og andre funktioner afmange observationer bliver 'mere og mere'normalfordelte.

Tunge haler i den høje ende kan ofte afhjælpesved at logaritmetransformere outcome.

16

Transformation• logaritmer, kvadratrod, invers

Hvorfor tage logaritmer?

• af de forklarende variable� for at opnå linearitet, hvis det er %-vise

forskelle, der har konstant e�ekt. Bruggerne 2-tals logaritmer (e�ekt affordobling) eller XX=log(X)/log(1.1);(e�ekt af 10% stigning i X)

� for at se på multiplikativesammensætninger af to variable (f.eks.vægt og højde, jf. BMI)

• af respons / outcome� for at opnå linearitet� for at opnå varianshomogenitet

Var(ln(y)) ≈ Var(y)

y2

dvs. en konstant variationskoe�cient på Y

betyder konstant varians på log(Y ) (gælderfor alle logaritmetransformationer)

� for at opnå normalitet

17

Utransformeret

18

Efter log2-transformation af vaegt:

19

Efter log2-transformation af både vaegt ogbpd:

logaritme-transformationer ikke nok, AD skalmed!

20

Multipel regression

DATA: n personer, dvs. n sæt afsammenhørende observationer:

person x1....xp y1 x11....x1p y1

2 x21....x2p y2

3 x31....x3p y3

. . . . . . . .n xn1....xnp yn

Den lineære regressionsmodel med pforklarende variable skrives:

y = b0 + b1x1 + · · ·+ bpxp + ei

respons middelværdi biologiskregressionsfunktionen variation

Parametre:b0 afskæring, interceptb1, · · · , bp regressionskoe�cienter

21

Graphs/Scatter Plot/Three-Dimensional,under Display vælges Needles/Pillar

PROC G3D;SCATTER bpd*ad=vaegt /SHAPE='PILLAR' SIZE=0.5;

RUN;

22

Regressionsmodel:

yi = b0+b1xi1+· · ·+bpxip+eij , i = 1, · · · , n

Traditionelle antagelser:ei ∼ N(0, σ2), uafhængige

Mindste kvadraters metode:

S(b0, b1, · · · , bp) =∑

(yi−b0−b1xi1−· · ·−bpxip)2

23

Eksempel:Sechers data med fødselsvægt som funktion afsåvel bpd som ad

Analyse i Analyst:

Statistics/Regression/Linear,vælg vaegt som Dependent,bpd og ad som Explanatory

eller som programmering

PROC REG DATA=secher;MODEL vaegt=bpd ad;PLOT RESIDUAL.*(bpd PRED. ad)

STUDENT.*NQQ.;RUN;

24

The REG ProcedureDependent Variable: vaegt

Analysis of Variance

Sum of MeanSource DF Squares Square F Value Pr > F

Model 2 40736854 20368427 216.72 <.0001Error 104 9774647 93987Corrected Total 106 50511501

Root MSE 306.57298 R-Square 0.8065Dependent Mean 2739.09346 Adj R-Sq 0.8028Coeff Var 11.19250

Parameter Estimates

Parameter StandardVariable DF Estimate Error t Value Pr > |t|

Intercept 1 -4628.11813 455.98980 -10.15 <.0001bpd 1 37.13292 7.61510 4.88 <.0001ad 1 39.76305 4.16394 9.55 <.0001

Stærk signi�kant e�ekt af begge kovariater,men holder modelforudsætningerne?

25

Modelkontrol af utransformeret model:

26

Vurdering af modellen:

• Normalfordelingen halter lidt, med nogleenkelte ret store positive afvigelser, hvilketkunne tale for at logaritmetransformerevægten.

• Måske lidt trompetfacon i plot af residualermod predikterede værdier, hvilket ogsåtaler for logaritmetransformation (menhusk på, at observationerne ikke er ligeligtfordelt over x-aksen).

• Linearitet er ikke helt god, men det skyldeshovedsageligt de få børn med de særligtlave ultralydsmål

• Teoretiske argumenter fra den fagligeekspertise foreslår en multiplikativsammenhæng, dvs. en samtidiglogaritmetransformation af kovariaterne

27

Logaritmetransformerede data:

DATA secher; SET secher;lvaegt=LOG2(vaegt)lbpd=LOG2(bpd)lad=LOG2(ad)

RUN;

Analyse i Analyst:

Statistics/Regression/Linear,vælg lvaegt som Dependent,lbpd og lad som Explanatory

eller som programmering

PROC REG DATA=secher;MODEL lvaegt=lbpd lad;VAR bpd ad; * bruges i plots;PLOT RESIDUAL.*(bpd PRED. ad)

STUDENT.*NQQ.;RUN;

28

Dependent Variable: LVAEGTAnalysis of Variance

Sum of MeanSource DF Squares Square F Value Prob>FModel 2 14.95054 7.47527 314.925 0.0001Error 104 2.46861 0.02374C Total 106 17.41915

Root MSE 0.15407 R-square 0.8583Dep Mean 11.36775 Adj R-sq 0.8556C.V. 1.35530

Parameter EstimatesParameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T|INTERCEP 1 -8.456359 0.95456918 -8.859 0.0001LBPD 1 1.551943 0.22944935 6.764 0.0001LAD 1 1.466662 0.14669097 9.998 0.0001

29

Modelkontrol af log2-transformeret model:

30

Utransformeret model (til sammenligning):

31

Marginale (univariate) modeller:Responsen vurderes overfor hver enkeltforklarende variabel for sig.

Multipel regressionsmodel:Responsen vurderes overfor beggeforklarende variable samtidigt.

Estimaterne for disse modeller (med tilhørendestandard errors i parentes) bliver:

b0 (int.) b1 (lbpd) b2 (lad) s R2

-10.223 3.332(0.202) - 0.215 0.72-3.527 - 2.237(0.111) 0.184 0.80-8.456 1.552(0.229) 1.467(0.147) 0.154 0.86

Bemærk koe�cienterne (b1 og b2) ændres ogstandard errors bliver større

32

Fortolkning af koe�cient b1 til lbpd:

• Marginal model:Ændringen i lvaegt, når kovariaten lbpdændres 1 enhed (dvs. når bpd fordobles)

• Multipel regressionsmodelÆndringen i lvaegt, når kovariaten lbpdændres 1 enhed, men hvor alle andrekovariater (her kun ad) holdes fast

Vi siger, at vi har korrigeret for e�ektenaf de andre kovariater i modellen.

Forskellen kan være markant, fordikovariaterne typisk er relaterede:� Når en af dem ændres,

ændres de andre også

Vigtigt: Den �biologiske� fortolkning afparameterestimaterne ændres:Det videnskabelige spørgsmål, derbesvares, er et andet!

33

Prædiktion ud fra modellen

log2(vaegt) = −8.46 + 1.55 log2(bpd)

+1.47 log2(ad) ⇒

vaegt = 2−8.46 × bpd1.55 × ad1.47

= 0.00284× bpd1.55 × ad1.47

Hvis ad holdes fast, svarer en forskel på 10% ibpd (dvs. bpd2=bpd1 × 1.1) til at gange vægtenmed

1.11.55 = 1.16

altså en 16% større vægt.

34

Regneeksempel (barn nr. 1)

For bpd=88 og ad=92, vil man forventelog2(vaegt)

= −8.46 + 1.55× log2(88) + 1.47× log2(92)

= −8.46 + 1.55× 6.46 + 1.47× 6.52

= 11.14

Forventet fødselsvægt: 211.14 g = 2257 g

Prædiktionsgrænserne beregnes for denanalyserede variabel, dvs. for log2(vægt), ogtilbagetransformeres!11.14± 1.96× Root MSE =

11.14± 1.96× 0.154 = (10.84, 11.44)

(210.84 g, 211.44 g) = (1833 g, 2778 g)

Vi har snydt en smule: Vi har negligeret selveestimationsusikkerheden på b'erne.

Faktisk observeret fødselsvægt: 2350 g

35

Prediktionsusikkerhed

NB: log-skalaen medfører konstantrelativ usikkerhed

2±1.96×0.154 = (0.81, 1.23)

Dette betyder, at med 95% sandsynlighed vilfødselsvægten ligge et sted mellem 19% underog 23% over den predikterede værdi.

Vi har stadig snydt en smule og negligeret selveestimationsusikkerheden på b'erne.

36

Test af hypoteserEr AD uden betydning, når BPD allerede ermed i modellen?

H0 : b2=0

Her har vi b2=1.467 med se(b2)=0.147,og dermed t-testet

t =b2

se(b2)= 9.998 ∼ t(104), P < 0.0001

95% kon�densinterval:b2 ± t(97.5%,n−p−1)se(b2)

= 1.467 ± 1.984×0.147 = (1.175,1.759)

Men:bj 'erne er korrelerede� med mindre de forklarende variable er

uafhængigeså man kan ikke lave et kombineret test ellerkon�densområde for begge variable ud frakon�densgrænserne for hver af variablene

37

Goodness-of-�t mål

R2 =Sum Sq(Model)Sum Sq(Total)

�Hvor stor en del af variationen kan forklares afmodellen?�(her 0.8583, dvs. 85.83%)

Fortolkningsproblemer når værdierne forkovariaterne er fastlagt direkte eller indirekteud fra forsøgsdesignet (ganske som forkorrelationskoe�cienten)

R2 stiger med antallet af kovariater � selv hvisdisse er uden betydning!

Adjusted R2:

R2adj = 1− Mean Sq(Residual)

Mean Sq(Total)

(her 0.8556)

38

Modelkontrol• Plots:

� residualer mod hver kovariat for sig(linearitet)

� residualer mod �ttede (predikterede)værdier(varianshomogenitet)

� fraktildiagram, 'probability plot'(normalfordelingen)

• Tests:Udvid modellen med� krumning: Kvadratled, 3. gradsled,...� vekselvirkning: Produktled ?

• Ind�ydelsesrige observationer� modi�cerede residualer� Cooks afstand

39

Regression diagnostics

Understøttes konklusionerneaf hele materialet?

Eller er der observationer med meget storind�ydelse på resultaterne?

Leverage = potentiel ind�ydelse(hat-matrix, i sas kaldet Hat Diag eller H)Hvis der kun er en kovariat er det simpelt:

hii =1n

+(xi − x)2

Sxx

Observationer med ekstreme x-værdier kanhave stor ind�ydelse på resultaterne,

40

0 1 2 3 4 5 6

02

46

810

x

y

men de har det ikke nødvendigvis!

• hvis de ligger 'pænt' i forhold tilregressionslinien, dvs. har et lille residual

41

Ind�ydelsesrige observationerhar en kombination af

• høj leverage

• stort residual

42

Regression diagnostics

• Udelad den i'te person og �nd nyeestimater, b

(i)0 , b

(i)1 og b

(i)2

• Udregn Cook's afstand, et samlet mål forændringen i parameterestimaterne

• Spalt Cooks afstand ud i koordinaterog angiv:Hvor mange se'er ændres f.eks. b1,når den i'te person udelades?

Hvad gør vi ved ind�ydelsesrige observationer?

• udelader dem?

• anfører et mål for deres ind�ydelse?

43

Diagnostics:Cooks afstand som mål for ind�ydelse

44

Outliers

Observationer, der ikke passer ind isammenhængen

• de er ikke nødvendigvis ind�ydelsesrige

• de har ikke nødvendigvis et stort residual

Hvad gør vi ved outliers?

• ser nærmere på dem,de er tit ganske interessante

Hvornår kan vi udelade dem?

• hvis de ligger meget yderligt, dvs. har højleverage� husk at afgrænse konklusionerne

tilsvarende!

• hvis man kan �nde årsagen� og da skal alle sådanne observationer

udelades!

45

Modelkontrol og Diagnostics i ANALYST

Mange tegninger kan fås direkte fra regressionenunder Plots/Residual eller Plots/Diagnostics.

Vil man lave yderligere (f.eks. en tegning af Cook'sdistance), er man nødt til at danne et nyt datasæti Analyst:

1. I regressionsopsætningen klikkesSave Data

2. afkrydsCreate and save diagnostics data

3. over�yt (klik Add) de størrelser, der skalgemmes(typisk Predicted, Residual, Student,Rstudent, Cookd, Press)

4. Kør analysen

5. Dobbeltklik på Diagnostics Table iprojekttræet

6. Gem det ved at klikkeFile/Save as By SAS Name

46

Modelkontrol og Diagnostics vedprogrammering

Ved programmering kan Cook's distance tegnesumiddelbart ved hjælp af PLOT eller gemmes pådatasæt ved hjælp af OUTPUT

PROC REG DATA=secher;MODEL lvaegt=lbpd lad;VAR bpd;PLOT COOKD*bpd;OUTPUT OUT=med_resid P=predict

R=resid STUDENT=stdizedPRESS=without_currRSTUDENT=stdized_without_currCOOKD=Cooks_D;

RUN;

47

Mange forklarende variableEksempel: O'Neill et. al. (1983):Lungefunktion hos 25 patientermed cystisk �brose.

48

Hvilke forklarende variable har enunivariat/marginal e�ekt på responset PEmax?

Er det så disse variable, der skal med imodellen?

49

Korrelationer:Correlation AnalysisPearson Correlation Coefficients / Prob>|R| under Ho:Rho=0 / N=25

AGE SEX HEIGHT WEIGHT BMPAGE 1.00000 -0.16712 0.92605 0.90587 0.37776

0.0 0.4246 0.0001 0.0001 0.0626

SEX -0.16712 1.00000 -0.16755 -0.19044 -0.137560.4246 0.0 0.4234 0.3619 0.5120

HEIGHT 0.92605 -0.16755 1.00000 0.92070 0.440760.0001 0.4234 0.0 0.0001 0.0274

WEIGHT 0.90587 -0.19044 0.92070 1.00000 0.672550.0001 0.3619 0.0001 0.0 0.0002

BMP 0.37776 -0.13756 0.44076 0.67255 1.000000.0626 0.5120 0.0274 0.0002 0.0

FEV1 0.29449 -0.52826 0.31666 0.44884 0.545520.1530 0.0066 0.1230 0.0244 0.0048

RV -0.55194 0.27135 -0.56952 -0.62151 -0.582370.0042 0.1895 0.0030 0.0009 0.0023

FRC -0.63936 0.18361 -0.62428 -0.61726 -0.434390.0006 0.3797 0.0009 0.0010 0.0300

TLC -0.46937 0.02423 -0.45708 -0.41847 -0.364900.0179 0.9085 0.0216 0.0374 0.0729

PEMAX 0.61347 -0.28857 0.59922 0.63522 0.229510.0011 0.1618 0.0015 0.0006 0.2698

50

Correlation AnalysisPearson Correlation Coefficients / Prob>|R| under Ho:Rho=0 / N=25

FEV1 RV FRC TLC PEMAXAGE 0.29449 -0.55194 -0.63936 -0.46937 0.61347

0.1530 0.0042 0.0006 0.0179 0.0011

SEX -0.52826 0.27135 0.18361 0.02423 -0.288570.0066 0.1895 0.3797 0.9085 0.1618

HEIGHT 0.31666 -0.56952 -0.62428 -0.45708 0.599220.1230 0.0030 0.0009 0.0216 0.0015

WEIGHT 0.44884 -0.62151 -0.61726 -0.41847 0.635220.0244 0.0009 0.0010 0.0374 0.0006

BMP 0.54552 -0.58237 -0.43439 -0.36490 0.229510.0048 0.0023 0.0300 0.0729 0.2698

FEV1 1.00000 -0.66586 -0.66511 -0.44299 0.453380.0 0.0003 0.0003 0.0266 0.0228

RV -0.66586 1.00000 0.91060 0.58914 -0.315550.0003 0.0 0.0001 0.0019 0.1244

FRC -0.66511 0.91060 1.00000 0.70440 -0.417210.0003 0.0001 0.0 0.0001 0.0380

TLC -0.44299 0.58914 0.70440 1.00000 -0.181620.0266 0.0019 0.0001 0.0 0.3849

PEMAX 0.45338 -0.31555 -0.41721 -0.18162 1.000000.0228 0.1244 0.0380 0.3849 0.0

Bemærk især korrelationerne mellem alder, højdeog vægt.

51

ModelselektionAutomatisk (computergenereret):• ANALYST: Vælges under Model iRegression/Linear)

• programmering:PROC REG DATA=pemax;

MODEL pemax=age sex height weightbmp fev1 rv frc tlc /SELECTION=STEPWISE;

RUN;

ellerPROC REG DATA=pemax;

MODEL pemax=age sex height weightbmp fev1 rv frc tlc /SELECTION=BACKWARD;

RUN;

Videnskabeligt: Gennemtænk præcis hvilketvidenskabeligt spørgsmål, man ønsker besvaret� det præcise spørgsmål bestemmer, hvilkevariable, der skal inkluderes i modellen. Svært� men den eneste måde at opnå egentligvidenskabelig indsigt!

52

Automatisk modelselektion

• Forlæns selektionMedtag hver gang den mest signi�kanteSlutmodel: WEIGHT BMP FEV1

• Baglæns eliminationStart med alle, udelad hver gang denmindst signi�kanteSlutmodel: WEIGHT BMP FEV1

Det ser jo meget stabilt ud!?

Men:Hvis nu WEIGHT havde væretlogaritmetransformeret fra starten?Så havde vi fået slutmodellen AGE FEV1

Tommel�ngerregel:

Antallet af observationer skal være mindst 10gange så stort som antallet af undersøgteparametre i modellen!

53

Når alle 9 kovariater medtages:Dependent: pemaxExplanatory:age sex height weight bmp fev1 rv frc tlc

Dependent Variable: PEMAXAnalysis of Variance

Sum of MeanSource DF Squares Square F Value Prob>F

Model 9 17101.39040 1900.15449 2.929 0.0320Error 15 9731.24960 648.74997C Total 24 26832.64000

Root MSE 25.47057 R-square 0.6373Dep Mean 109.12000 Adj R-sq 0.4197C.V. 23.34180

Parameter EstimatesParameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T|INTERCEP 1 176.058206 225.89115895 0.779 0.4479AGE 1 -2.541960 4.80169881 -0.529 0.6043SEX 1 -3.736781 15.45982182 -0.242 0.8123HEIGHT 1 -0.446255 0.90335490 -0.494 0.6285WEIGHT 1 2.992816 2.00795743 1.490 0.1568BMP 1 -1.744944 1.15523751 -1.510 0.1517FEV1 1 1.080697 1.08094746 1.000 0.3333RV 1 0.196972 0.19621362 1.004 0.3314FRC 1 -0.308431 0.49238994 -0.626 0.5405TLC 1 0.188602 0.49973514 0.377 0.7112

54

Baglæns elimination

Tabel over successive p-værdier

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]

age 0.604 0.632 0.519 0.616 - - - - -sex 0.812 - - - - - - - -height 0.628 0.649 0.550 0.600 0.557 - - - -weight 0.157 0.143 0.072 0.072 0.040 0.000 0.000 0.000 0.001bmp 0.152 0.140 0.060 0.056 0.035 0.024 0.019 0.098 -fev1 0.333 0.108 0.103 0.036 0.024 0.014 0.043 - -rv 0.331 0.323 0.347 0.326 0.228 0.146 - - -frc 0.540 0.555 0.638 - - - - - -tlc 0.711 0.669 - - - - - - -

(Altman stopper ved skridt nr. 7)

55

Advarsel ved modelselektion

• Massesigni�kans!

• Undgå at inkludere mange variable, derudtrykker mere eller mindre det samme

• Automatisk variabelselektion:� Signi�kanserne overvurderes!� Hvad kan vi sige om 'vinderne'?∗ Var de hele tiden signi�kante, eller blev de det

lige pludselig?∗ I sidstnævnte tilfælde kunne de jo være blevet

smidt ud, mens de var insigni�kante. . .

• Traditionel anbefaling(datagenereret/automatisk modelreduktion):� Baglæns elimination� Gennemregning af alle modeller� Cross-validation: Foretag model�ttet på en del

af data, afprøv bagefter på resten

• Min anbefaling: Tænk selv (undgå uklareproblemstillinger), test noget meningsfuldt (og ladvære med at smide de andre variable ud, bare fordideres p-værdi (tilfældigvis?) er stor) � så er detogså nemmere at få det publiceret

57

Hvad sker der ved udeladelse af en forklarendevariabel?

• Fittet bliver dårligere, dvs.residualkvadratsummen bliver større.

• Antallet af frihedsgrader (forresidualkvadratsummen) stiger.

• Estimatet s2 for residualvariansen σ2 kanbåde stige og falde

s2 =∑

()2

n− p− 1

• %-delen af variation, som forklares afmodellen, R2, falder. Dette kompenseresder for i den justerededeterminationskoe�cient R2

adjSom kriterium for, om modellen er god, kan vialtså bruge s2 eller R2

adj

58

Marginale (univariate) modeller:• Model 1: pemax overfor height• Model 2: pemax overfor weight

Multipel regressionsmodel:• Model 3: pemax overfor height og weight

b0 b1(height) b2(weight) s R2 R2

-33.276 0.932(0.260) - 27.34 0.3591 0.3363.546 - 1.187(0.301) 26.38 0.4035 0.3847.355 0.147(0.655) 1.024(0.787) 26.94 0.4049 0.35

• Hver af de to forklarende variable harbetydning, vurderet ud fra de marginalemodeller.

• I den multiple regressionsmodel ser ingenaf dem ud til at have nogen betydning.

• De to variable fanger et betydningsfuldtaspekt, men det er svært at sige hvilken,der er bedst � vægten ser ud til at væreden med stærkest sammenhæng i dissedata, men pas på! Det betyder ikke atvægten er den �sande� årsag � måskeopsummerer vægten bare aspekter fra �ereaf de egentlige årsager.

59

ANALYST: Options i Statistics/Regression/:

• Model:� Forward� Backward

• Statistics� clb: kon�densgrænser for estimater� corrb: korrelation mellem estimater� stb: standardiserede koe�cienter:

e�ekt af ændring på 1 SD for kovariat

• Statistics/Tests� collin: kollinearitets diagnostics� tol: tolerance factor= 1-R2 for

regression af en kovariat på de øvrige� vif: variance in�ation factor = 1/tol,

variansøgning p.g.a. kollinearitet

Ved programmering er de options til MODEL,dvs. de skal stå efter �/� og inden �;� i MODELspeci�kationen i kaldet af PROC REG;

60

Når vi tilføjer clb, stb, vif og tol, får vi:Parameter Estimates

Standardized VarianceVariable DF Estimate Tolerance InflationIntercept 1 0 . 0age 1 -0.38460 0.04581 21.82984sex 1 -0.05662 0.44064 2.26941height 1 -0.28694 0.07166 13.95493weight 1 1.60200 0.02093 47.78130bmp 1 -0.62651 0.14053 7.11575fev1 1 0.36190 0.18452 5.41951rv 1 0.50671 0.09489 10.53805frc 1 -0.40327 0.05833 17.14307tlc 1 0.09571 0.37594 2.65999

Parameter EstimatesVariable DF 95% Confidence LimitsIntercept 1 -305.41740 657.53381age 1 -12.77654 7.69262sex 1 -36.68861 29.21505height 1 -2.37171 1.47920weight 1 -1.28704 7.27268bmp 1 -4.20727 0.71739fev1 1 -1.22329 3.38468rv 1 -0.22125 0.61519frc 1 -1.35794 0.74107tlc 1 -0.87656 1.25376

61

Størrelser udregnet for hver observation kan medfordel gemmes i et nyt datasæt, så man kan se pådeskriptive størrelserThe MEANS ProcedureVariable Label Mean---------------------------------------------------------------resid Residual 2.50111E-14stresid Studentized Residual 0.0193870press Residual without Current Observation 1.2483399residud Studentized Residual without Current Obs 0.0073219leverage Leverage 0.4000000cook Cook's D Influence Statistic 0.0643761inflpred Standard Influence on Predicted Value 0.0477590---------------------------------------------------------------

Variable Label Minimum---------------------------------------------------------------resid Residual -37.3376860stresid Studentized Residual -1.7680347press Residual without Current Observation -60.7098868residud Studentized Residual without Current Obs -1.9197970leverage Leverage 0.1925968cook Cook's D Influence Statistic 0.000558647inflpred Standard Influence on Predicted Value -1.7428452---------------------------------------------------------------

Variable Label Maximum---------------------------------------------------------------resid Residual 33.4051731stresid Studentized Residual 1.7053874press Residual without Current Observation 56.4819549residud Studentized Residual without Current Obs 1.8350344leverage Leverage 0.5806599cook Cook's D Influence Statistic 0.2582067inflpred Standard Influence on Predicted Value 1.5251936---------------------------------------------------------------

62

Udvalgte diagnostics tegninger

63

Kollinearitet:Kovariaterne er lineært relateredeDet vil de altid være til en vis grad, undtagen i designedeforsøg (f.eks. landbrugsforsøg)

Symptomer på kollinearitet:

• Visse af kovariaterne er stærkt korrelerede

• Nogle parameterestimater har meget storestandard errors

• Alle kovariater i den multipleregressionsanalyse er insigni�kante, men R2

er alligevel stor

• Der sker store forskydninger i estimaterne,når en kovariat udelades af modellen

• Der sker store forskydninger i estimaterne,når en observation udelades af modellen

• Resultaterne er anderledes end forventet

• Check vif: Den må ikke være for stor!

64

Kollinearitet

Hvad er problemet ved kollinearitet?1. Fortolkningen af resultaterne: �Hvad er

årsagen til den observerede sammenhæng�2. Nogle gange: Tekniske problemer med

estimationen

Hvad gør man så, når der er kollinearitet?1. Find ud af, om det er grupper af variable,

der hænger sammen• Drejer det sig om ét fælles aspekt, så

man kan nøjes med den ene ogbegrunde, hvorfor man vælger netopden?

2. Gennemtænk grundigt, hvad den enkeltevariabel står for afhængigt af hvilke af deandre mulige variable, der fastholdes

3. Lav analyser med og uden justering forforskellige grupper af de andre variable, ogprøv at forstå forskellene i resultaterne

4. Fortolk med stor forsigtighed

65

KollinearitetVigtigt: I modstrid med anbefalingen fra visse(udygtige) epidemiologer, så må man ikke nøjesmed at præsentere univariate analyser for allevariablene! Problemet med fortolkningen forsvinderikke af, at man tillægger hver enkelt variabel alforklaringsevnen.

Andre fejlagtige påstande:Påstand: Signi�kansen for den enkelte variabelbliver svagere, når de andre tages med.Sandhed: Oftest, men ikke altid. Nogle gange bliversigni�kanserne væsentligt stærkere.Påstand (ernæringsepidemiologer): Problemet løsesved �residual-metoden�, hvor eksempelvis hverenkelt næringsstof erstattes af residualerne fra enregression af næringssto�et på totalt energiindtag.Sandhed: Det betyder bare, at man på forhåndtillægger totalt energiindtag mest muligtforklaringsevne, så betydningen af totaltenergiindtag overvurderes. Resultaterne for deenkelte næringssto�er er essentielt de samme. Hvistotalt energiindtag er det væsentlige, så vil det visesig ved, at alle energikilder giver ca. sammeparameterestimat, når de inkluderes på en gangmålt i energienheder (f.eks. kJ)!

66

multipelregressionpublicifsv.sund.ku.dk/~ebj/basal08_2/overheads/multipel_regression... ·...

Documents