basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...den...

70
Basal statistik 21. oktober 2008

Upload: others

Post on 18-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Basal statistik

21. oktober 2008

Page 2: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model

• Repetition af variansanalyse

og multipel regression

• Interaktion

• Parametriseringer

• Kovariansanalyse

Page 3: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Esben Budtz-Jørgensen,

Biostatistisk Afdeling

Institut for Folkesundhedsvidenskab,

Københavns Universitet

Slides af Lene Theil Skovgaard og Esben findes pa,

http://staff.pubhealth.ku.dk/~ebj/basal08_2

Page 4: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 1

Repetition af multipel regressionsanalyse

Outcome: Y

Forklarende variable, kovariater: X1, · · · , Xk

Model: Y = β0 + β1x1 + · · · + βkxk + ǫ

(Generel) lineær model:

En model, der kan skrives op som ovenfor,

med ’hvad som helst’ som x’er.

SAS Analyst: Statistics/ANOVA/Linear models

SAS programmering: GLM

Page 5: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 2

Eksempel: Ensidet varians-analyse

Identifikation af k grupper vha ”dummy”variable:

x1 er 1 hvis person er i første gruppe og 0 ellers

x2 er 1 hvis person er i anden gruppe og 0 ellers

.

xk−1 er 1 hvis person er i k-1 gruppe og 0 ellers

Model:

Y = β0 + β1x1 + · · · + βk−1xk−1 + ǫ

Page 6: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 3

Med denne kodning vil β0 svare til niveauet for k’te gruppe;

β1 er forskel i niveau mellem første og k’te gruppe;

β2 er forskel i niveau mellem anden og k’te gruppe; osv....

Det er netop den kodning der bruges i SAS, nar gruppe-variabel

angives som kategorisk (”Statistics/Anova/Linear Models/Class”).

Bemærk:

Ved omkodning af grupper kan man fa vilkarlige forskelle frem!

Dette skrives som en NOTE i SAS-outputtet.

Page 7: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 4

SAS output fra øvelsesopgaven ”Alder ved gang”

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 12.35000000 B 0.67815216 18.21 <.0001

grp 1 -2.22500000 B 0.91822236 -2.42 0.0255

grp 2 -0.97500000 B 0.91822236 -1.06 0.3016

grp 3 -0.64166667 B 0.91822236 -0.70 0.4931

grp 4 0.00000000 B . . .

NOTE: The X’X matrix has been found to be singular, and a generalized

inverse was used to solve the normal equations. Terms whose

estimates are followed by the letter ’B’ are not uniquely estimable.

Denne NOTE er altsa ikke farlig!

Page 8: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 5

Eksempel: Tosidet varians-analyse (uden interaktion)

k1 × k2 grupper,

identificeret ved to Class-variable med hhv k1 og k2 niveauer.

Default parametrisering:

• Et niveau (intercept) for referencegruppen

(sidste niveau af samtlige indgaende faktorer)

• (k1 − 1) parametre, der beskriver forskelle til sidste niveau af

faktor nr. 1

• (k2 − 1) parametre, der beskriver forskelle til sidste niveau af

faktor nr. 2

Faktorerne indgar additivt

Page 9: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 6

Tosidet variansanalyse uden interaktion i SAS

SAS output fra øvelsesopgaven ”Sædkvalitet”, efter transformation

med 10-tals logaritmen:

The GLM Procedure

Class Level Information

Class Levels Values

sas_ansat 2 ja nej

abstid 3 1 2 3

Number of Observations Used 188

Source DF Type III SS Mean Square F Value Pr > F

sas_ansat 1 1.32546710 1.32546710 6.47 0.0118

abstid 2 1.25619157 0.62809578 3.07 0.0490

Page 10: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 7

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 1.921020681 B 0.07138491 26.91 <.0001

sas_ansat ja -0.186905638 B 0.07348387 -2.54 0.0118

sas_ansat nej 0.000000000 B . . .

abstid 1 -0.187233951 B 0.08873769 -2.11 0.0362

abstid 2 -0.145921066 B 0.07473457 -1.95 0.0524

abstid 3 0.000000000 B . . .

Page 11: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 8

Fortolkning:

SAS-ansatte har en signifikant lavere sædkoncentration end

økologer med samme abstinenstid.

Forskellen pa logaritmisk-skala er −0.187, svarende til at

de SAS-ansattes sædkoncentration generelt kun udgør

10−0.187= 65% af økologernes koncentrationsniveau.

95% sikkerhedsintervallet for denne forskel er angivet af

SAS til (−0.332,−0.042), og nar dette

tilbagetransformeres, fas:

(10−0.332, 10−0.042) = (47%; 91%)

Page 12: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 9

Fittede værdier (y)

Bemærk: forskel mellem SAS-ansatte og landmænd er her uafhængig af abstinenstider

Page 13: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 10

Vekselvirkning (interaktion), tænkt eksempel:

• To inddelingskriterier: køn og rygestatus

• Outcome: FEV1

• Effekten af rygning afhænger af køn

• Forskellen pa kønnene afhænger af rygestatus

Page 14: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 11

Eksempel: Rygnings effekt pa fødselsvægt

Page 15: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 12

Interaktion/vekselvirkning mellem mængden og varigheden af

rygningen

• Der er effekt af mængden, men kun hvis man har røget længe.

• Der er effekt af varigheden, og denne effekt øges med mængden.

Effekten af mængden afhænger af varigheden

og effekten af varigheden afhænger af mængden

Page 16: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 13

Interaktion i eksemplet om sædkvalitet

Her tilføjes to interaktionsparametre, der beskriver:

• hvordan effekten af den ene faktor modificeres, nar vi gar fra

referencegruppen for den anden faktor til et af de andre niveauer

Interaktionen repræsenterer synergi-effekten

mellem variabel 1 og 2, og er et symmetrisk koncept.

I epidemiologiske termer: Variabel 1 modificerer effekten af

variabel 2 og kaldes derfor ogsa en effekt modifikator.

Page 17: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 14

For eksemplet med sædkoncentration:

Source DF Type III SS Mean Square F Value Pr > F

sas_ansat 1 0.91298917 0.91298917 4.45 0.0363

abstid 2 1.25068088 0.62534044 3.05 0.0499

sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323

Bemærk: Nar der er interaktion, giver det ikke længere mening at

tolke de marginale effekter (dvs. effekten af den ene variable, uden

samtidig at angive hvad niveauet af den anden er)

Page 18: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 15

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 1.940623988 B 0.09060587 21.42 <.0001

sas_ansat ja -0.214288035 B 0.10708469 -2.00 0.0469

sas_ansat nej 0.000000000 B . . .

abstid 1 -0.327004862 B 0.15909868 -2.06 0.0413

abstid 2 -0.106028838 B 0.14504016 -0.73 0.4657

abstid 3 0.000000000 B . . .

sas_ansat*abstid ja 1 0.205230452 B 0.19177988 1.07 0.2860

sas_ansat*abstid ja 2 -0.052366937 B 0.16929581 -0.31 0.7574

sas_ansat*abstid ja 3 0.000000000 B . . .

sas_ansat*abstid nej 1 0.000000000 B . . .

sas_ansat*abstid nej 2 0.000000000 B . . .

sas_ansat*abstid nej 3 0.000000000 B . . .

Page 19: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 16

Modellen tillader at niveauet i hver gruppe varierer frit.

Som I kan se af outputtet bruger SAS en kompliceret

parametrisering ved beskrivelse disse gruppeniveauer. Det

skal forstas som følger:

For lang abstinenstid (niveau 3) er den estimerede forskel

mellem SAS-ansatte og økologiske landmænd: −0.2143

Hvordan er denne forskel ved mellem-lang abstinenstid

(niveau 2)?

Den øges med −0.0524 til i alt −0.2143− 0.0524 = −0.2667

Ved niveau 1?

Den øges med 0.2052 til i alt −0.2143 + 0.2052 = −0.0091

Page 20: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 17

Udregning af det estimerede niveau i hver celle

abstinenstid

erhverv 1:kort 2:mellem 3:lang

1.9406 1.9406 1.9406

-0.2143 -0.2143 -0.2143

sas-ansatte -0.3270 -0.1060

+0.2052 -0.0524

= 1.6046 = 1.5679 = 1.7263

1.9406 1.9406 1.9406

landmænd -0.3270 -0.1060

= 1.6136 = 1.8346 reference

Page 21: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 18

Direkte udregning af disse estimater i SAS:

Udelad begge faktorerne sas_ansat og abstid fra modellen

(men bibehold interaktionen). Kryds af i no intercept

Dette ændrer ikke modellen, kun maden, den præsenteres pa:

Source DF Type III SS Mean Square F Value Pr > F

sas_ansat*abstid 6 546.9143780 91.1523963 444.14 <.0001

Standard

Parameter Estimate Error t Value Pr > |t|

sas_ansat*abstid ja 1 1.604561542 0.09060587 17.71 <.0001

sas_ansat*abstid ja 2 1.567940178 0.06608112 23.73 <.0001

sas_ansat*abstid ja 3 1.726335953 0.05707633 30.25 <.0001

sas_ansat*abstid nej 1 1.613619126 0.13077831 12.34 <.0001

sas_ansat*abstid nej 2 1.834595151 0.11325734 16.20 <.0001

sas_ansat*abstid nej 3 1.940623988 0.09060587 21.42 <.0001

Page 22: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 19

Fortolkning af p-værdien for vekselvirkningsleddet

Udelad begge faktorerne sas_ansat og abstid fra modellen

(men bibehold interaktionen). Kryds af i no intercept

Source DF Type III SS Mean Square F Value Pr > F

sas_ansat*abstid 6 546.9143780 91.1523963 444.14 <.0001

Nu er vekselvirkningen stærkt signifikant?

Fortolkning af p-værdien for vekselvirkningsleddet ændres nar

hovedvirkningerne udelades.

Ovenstaende F-test tester ikke kun vekselvirkningen. Der testes om

niveauet i alle celler er nul - dvs en meget kraftigere reduktion af

modellen.

Page 23: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 20

Men: Outcome var jo logaritmetransformeret

Vi skal transformere tilbage:

sas_ansat abstid pa log10-skala tilbagetransformeret

1: kort 1.6046 40.2

ja 2: mellem 1.5679 37.0

3: lang 1.7263 53.3

1: kort 1.6136 41.1

nej 2: mellem 1.8346 68.3

3: lang 1.9406 87.2

Page 24: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 21

Sadan ser de fittede værdier (y) ud grafisk

Page 25: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 22

Fittede værdier (y) i den reducerede model uden interaktion

Page 26: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 23

SAS-udregning af forskelle for hver abstinenstid:

Udelad faktoren sas_ansat fra modellen

(men bibehold interaktionen).

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 1.940623988 B 0.09060587 21.42 <.0001

abstid 1 -0.327004862 B 0.15909868 -2.06 0.0413

abstid 2 -0.106028838 B 0.14504016 -0.73 0.4657

abstid 3 0.000000000 B . . .

sas_ansat*abstid ja 1 -0.009057584 B 0.15909868 -0.06 0.9547

sas_ansat*abstid ja 2 -0.266654973 B 0.13112566 -2.03 0.0434

sas_ansat*abstid ja 3 -0.214288035 B 0.10708469 -2.00 0.0469

sas_ansat*abstid nej 1 0.000000000 B . . .

sas_ansat*abstid nej 2 0.000000000 B . . .

sas_ansat*abstid nej 3 0.000000000 B . . .

Page 27: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 24

Pa den oprindelige skala kan vi nu udregne effekten af at være

SAS-ansat, for hver abstinenstid for sig, ved at benytte ovenstaende

estimater som potens med grundtal 10

(fordi vi oprindeligt tog 10-tals logaritmer):

Niveau 1: 10−0.0091 = 0.98

Niveau 2: 10−0.2667 = 0.54

Niveau 3: 10−0.2143 = 0.61

altsa svarende til en reduktion pa hhv. 2, 46 og 39% for SAS-ansatte i

forhold til økologiske landmænd.

Page 28: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 25

Fortolkning af p-værdien for vekselvirkningsleddet

Udelad faktoren sas_ansat fra modellen

(men bibehold interaktionen).

Dette ændrer ikke modellen, kun maden, den præsenteres pa:

Source DF Type III SS Mean Square F Value Pr > F

abstid 2 1.25068088 0.62534044 3.05 0.0499

sas_ansat*abstid 3 1.67126130 0.55708710 2.71 0.0463

test af sas-ansat*abstid: vekselvirkningsmodel mod model der kun

tillader responsen at afhænge af abstid. dvs udover vekselvirkningen

prøver vi at fjerne hovedvirkningen af sas-ansat.

Page 29: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 26

Forskellige parametriseringer i SAS

Udelad faktor (men bibehold interaktionen)

Modellen ændres ikke

Smart fordi outputtet nu indeholder relevante effekter

MEN testet for interaktion findes kun i det output hvor begge

hovedvirkninger er med

Page 30: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 27

Modelreduktion - kvadratsummer

For generelle lineære modeller er det ikke altid tilstrækkeligt at lave

t-test pa regressionskoefficienter.

I stedet bruges F test til sammenligning af kvadratsummer.

Modelkvadratsum, SSmodel =∑

i(yi − y)2

Forklaret variation: Hvor meget varierer de predikterede værdier?

(stort er godt, men pas pa fortolkningen af selve størrelsen!)

Residualkvadratsum SSresid =∑

i(yi − yi)2

Tilbageblevet variation: Hvor store er modelafvigelserne?

(smat er godt, og her kan størrelsen fortolkes!)

Page 31: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 28

Modelreduktion - F test

Vi skal sammenligne to modeller:

Den oprindelige (nr. 1) og den simplere (hypotesen, nr. 2)

Kan vi forsvare at bruge den simpleste af dem?

Beskriver den data tilstrækkeligt godt?

NB: Modellerne skal være “nestede”, dvs. den ene fremkommer af den

anden, typisk ved at sætte parametre til nul (“fjerne effekter”).

Se pa ændring i model-kvadratsum:

Hvor meget mindre forklares af den simplere model?

∆SS = SS(Model1) − SS(Model2)

Page 32: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 29

Flere parametre kan forklare (lidt) mere variation: ∆SS > 0

Spørgsmalet er: Hvor meget mere?

Hvor stor ma ∆SS blive, inden vi erklærer testet signifikant?

Page 33: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 30

Størrelsen af ∆SS skal ses i forhold til ændringen i antallet af

parametre:

∆DF = DF2 − DF1

og vurderes i forhold til den allerede eksisterende residualvariation

MS(Residual):

∆MS = ∆SS/∆DF

F =∆MS

MS(Residual)∼ F (∆DF, DF1)

Page 34: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 31

Tosidet anova

Dependent Variable: lkonc

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 5 2.91775922 0.58355184 2.84 0.0169

Error 182 37.35287772 0.20523559

Corrected Total 187 40.27063694

Model 1: med interaktion

DF1 = 182

Page 35: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 32

Model 1: med interaktion

Hypotesen, model 2: uden interaktion

∆MS = 0.1729, ∆DF = 2, DF1 = 182

Source DF Type I SS Mean Square F Value Pr > F

sas_ansat 1 1.31577345 1.31577345 6.41 0.0122

abstid 2 1.25619157 0.62809578 3.06 0.0493

sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323

Source DF Type III SS Mean Square F Value Pr > F

sas_ansat 1 0.91298917 0.91298917 4.45 0.0363

abstid 2 1.25068088 0.62534044 3.05 0.0499

sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323

F = 0.1729

0.2052= 0.84 ∼ F (2, 182)

Page 36: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 33

Bemærk at der er 2 slags kvadratsummer!

De sikre rad:

• Brug altid Type III

med mindre du er helt sikker pa, hvad du gør

• Test kun en relevant virkning af gangen

Hvis reduceret model accepteres,

lav da ny analyse for denne model.

• Se ikke pa hovedvirkninger, der indgar i vekselvirkninger!

Page 37: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 34

Fittede værdier (y) i den reducerede model uden interaktion

Page 38: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 35

Fittede værdier (y) i model med interaktion

Page 39: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 36

Et nyt begreb: Kovariansanalyse

— er blot en (historisk betinget) betegnelse for en generel lineær

model med netop en gruppering (Class-variabel) og netop en

kvantitativ variabel (kovariat, forklarende variabel).

Formalet med at inddrage en ekstra kovariat

• fjerne bias

f.eks at korrigere for en evt. højdeforskel ved sammenligning af

lungefunktion for rygere og ikke-rygere

• øge styrken

ved at nedbringe den uforklarede del af variationen,

f.eks. ved at inddrage alder som kovariat i en randomiseret

undersøgelse

Page 40: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 37

Bias ved sammenligning af grupper forekommer

• hvis der er i grupperne er forskel pa fordelingen af en

betydningsfuld kovariat

(kaldes ofte en confounder)

Confounder

Gruppe/behandling

Outcome

��

��

@@

@R

Page 41: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 38

Eksempel om lungekapacitet, TLC

32 patienter skal have foretaget hjerte/lunge transplantation

TLC (Total Lung Capacity)

bestemmes ved hjælp af helkrops plethysmografi

Er der forskel pa mænd og kvinder?

OBS SEX AGE HEIGHT TLC

1 F 35 149 3.40

2 F 11 138 3.41

3 M 12 148 3.80

. . . . .

. . . . .

30 M 25 180 8.10

31 M 22 173 8.70

32 M 25 171 9.45

Page 42: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 39

• Tydelig kønsforskel for savel TLC som HEIGHT

• Kan højdeforskellen alene forklare forskellen i

lungekapacitet?

Page 43: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 40

Relation mellem tlc og height:

height

sex

lung capacity

��

��

@@

@R

• Eller er der ogsa en selvstændig kønseffekt?

Page 44: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 41

Kovariansanalyse: Sammenligning af parallelle regressionslinier

Model:

ygi = αg + βxgi + εgi g = 1, 2; i = 1, · · · , ng

α2 − α1 er den forventede forskel i respons mellem de to grupper for

fastholdt værdi af x. Vi har justret for x.

Page 45: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 42

Hvad sker der , hvis vi ‘glemmer’ x i modellen?

Page 46: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 43

Kovariansanalyse:

Model:

ygi = αg + βxgi + ǫgi g = 1, 2; i = 1, . . . , ng

Og hvad er det sa, der sker, hvis vi ‘glemmer’ x i modellen?

1. Bias.

Hvis x1 6= x2, bliver forskellen forkert vurderet.

2. Inefficiens.

Selv om x1 = x2, mister vi styrke (spredning for stor).

Page 47: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 44

Men skal linierne nødvendigvis være parallelle?

Mere generel model: ygi = αg + βgxgi + εgi

Nar β1 6= β2, siger vi, at der er

vekselvirkning = interaktion. Det betyder:

• Effekten af højde (x) afhænger af kønnet (g)

• Forskellen pa kønnene afhænger af højden

Her kan man ikke udtale sig om en generel effekt af højde eller køn.

Page 48: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 45

I forsøg pa at skaffe varianshomogenitet, logaritmerer vi tlc

... men det bliver ikke rigtigt godt...

Page 49: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 46

Specifikation af model

Model med vekselvirkning:

I SAS Analyst: Statistics/ANOVA/Linear models

• indsætte height som kvantitativ variabel

• indsætte sex som kategorisk (Class-variabel)

• Under Model-knap kan man indsætte “cross”-led

Page 50: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 47

OutputDependent Variable: ltlc

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 3 0.27230446 0.09076815 13.05 <.0001

Error 28 0.19478293 0.00695653

Corrected Total 31 0.46708739

R-Square Coeff Var Root MSE ltlc Mean

0.582984 10.85524 0.083406 0.768346

Source DF Type I SS Mean Square F Value Pr > F

sex 1 0.13626303 0.13626303 19.59 0.0001

height 1 0.13451291 0.13451291 19.34 0.0001

height*sex 1 0.00152852 0.00152852 0.22 0.6429

Page 51: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 48

Source DF Type III SS Mean Square F Value Pr > F

sex 1 0.00210426 0.00210426 0.30 0.5867

height 1 0.13597107 0.13597107 19.55 0.0001

height*sex 1 0.00152852 0.00152852 0.22 0.6429

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept -.2190181620 B 0.35221658 -0.62 0.5391

sex F -.2810587157 B 0.51102682 -0.55 0.5867

sex M 0.0000000000 B . . .

height 0.0060473650 B 0.00201996 2.99 0.0057

height*sex F 0.0014344422 B 0.00306016 0.47 0.6429

height*sex M 0.0000000000 B . . .

Page 52: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 49

Omregning til de to linier:

Linie for mænd (reference gruppen):

log10(Lung capacity) = −0.219 + 0.00605 × height

Linie for kvinder:

log10(Lung capacity) = −0.219 + (−0.281) + (0.00605 + 0.00143) × height

= −0.500 + 0.00748 × height

Page 53: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 50

SAS-udregning af de to linier

• Bibehold interaktionen sex*height

• Udelad den marginale effekt height

• Udelad intercept (under Model)

Source DF Type III SS Mean Square F Value Pr > F

sex 2 0.01537968 0.00768984 1.11 0.3451

height*sex 2 0.13604143 0.06802071 9.78 0.0006

Standard

Parameter Estimate Error t Value Pr > |t|

sex F -.5000768777 0.37025922 -1.35 0.1876

sex M -.2190181620 0.35221658 -0.62 0.5391

height*sex F 0.0074818072 0.00229877 3.25 0.0030

height*sex M 0.0060473650 0.00201996 2.99 0.0057

Page 54: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 51

Fortolkning af p-værdien for vekselvirkningsleddet

• Bibehold interaktionen sex*height

• Udelad den marginale effekt height

• Udelad intercept

Source DF Type III SS Mean Square F Value Pr > F

sex 2 0.01537968 0.00768984 1.11 0.3451

height*sex 2 0.13604143 0.06802071 9.78 0.0006

Nu er vekselvirkningen stærkt signifikant?

Fortolkning af p-værdien for vekselvirkningsleddet ændres nar en af

hovedvirkningerne udelades.

Ovenstaende F-test tester ikke kun vekselvirkningen. Der testes ned

til en model der kun tillader at responsniveauet at afhænge af sex.

Page 55: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 52

Forskellige parametriseringer i SAS

Udelad height, men bibehold interaktionen: height*sex

Modellen ændres ikke

Smart fordi outputtet angiver de to regressionslinjer direkte

MEN testet for interaktion findes kun i det output hvor begge

hovedvirkninger er med

Page 56: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 53

Modelreduktion

Vi kunne ikke se nogen vekselvirkning og udelader den af modellen

Source DF Type III SS Mean Square F Value Pr > F

sex 1 0.00968023 0.00968023 1.43 0.2415

height 1 0.13451291 0.13451291 19.87 0.0001

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept -.3278068826 B 0.26135206 -1.25 0.2198

sex F -.0421012632 B 0.03520676 -1.20 0.2415

sex M 0.0000000000 B . . .

height 0.0066723630 0.00149683 4.46 0.0001

Bemærk: Nu er kønseffekten forsvundet

Page 57: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 54

Fortolkning

I dette eksempel sa vi

• Den observerede forskel i (log10) lungekapacitet mellem mænd og

kvinder kunne godt tilskrives højdeforskellen mellem kønnene.

Der kan dog stadig være en kønsforskel op til

0.0421 ± 2.045 × 0.0352 = (−0.030, 0.114),

svarende til intervallet (0.933, 1.300) for ratio’en,

dvs. op til en 30% øget lungefunktion hos mænd

Page 58: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 55

Husk modelkontrol:

Page 59: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 56

Det kan ogsa forekomme, at

• Tilsyneladende ens grupper (f.eks. blodtryk hos mænd og

kvinder) udviser forskelle, nar der bliver korrigeret for

inhomogeniteter (f.eks. fedmegrad)

Man skal huske “alle” variable med potentiel betydning for

outcome!

... uden at ga for meget pa fisketur!!

Page 60: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 57

Eksempel: Fedmegrad og blodtryk

obese: vægt/idealvægt

bp: systolisk blodtryk

obs sex obese bp

1 male 1.31 130

2 male 1.31 148

3 male 1.19 146

4 male 1.11 122

. . . .

. . . .

101 female 1.64 136

102 female 1.73 208

Page 61: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 58

Illustration af blodtryk vs. fedmegrad

Page 62: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 59

Marginale sammenligninger af kønnene (t-tests):

Først outcome, logaritmeret blodtryk, lbp

Statistics

Lower CL Upper CL Lower CL

Variable sex N Mean Mean Mean Std Dev Std Dev

lbp female 58 2.0806 2.0969 2.1132 0.0524 0.062

lbp male 44 2.0873 2.1037 2.1201 0.0445 0.0539

lbp Diff (1-2) -0.03 -0.007 0.0165 0.0515 0.0587

T-Tests

Variable Method Variances DF t Value Pr > |t|

lbp Pooled Equal 100 -0.58 0.5625

lbp Satterthwaite Unequal 98.1 -0.59 0.5549

Equality of Variances

Variable Method Num DF Den DF F Value Pr > F

lbp Folded F 57 43 1.32 0.3383

Vi ser ikke nogen signifikant forskel pa mænd og kvinder.

Page 63: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 60

og sa kovariaten, logaritmeret fedmegrad, lobese

Statistics

Lower CL Upper CL Lower CL

Variable sex N Mean Mean Mean Std Dev Std Dev

lobese female 58 0.1184 0.1396 0.1608 0.0683 0.0807

lobese male 44 0.0534 0.0725 0.0917 0.052 0.063

lobese Diff (1-2) 0.0379 0.0671 0.0963 0.0647 0.0736

T-Tests

Variable Method Variances DF t Value Pr > |t|

lobese Pooled Equal 100 4.56 <.0001

lobese Satterthwaite Unequal 99.9 4.71 <.0001

Equality of Variances

Variable Method Num DF Den DF F Value Pr > F

lobese Folded F 57 43 1.64 0.0913

Her ses en signifikant forskel i fedmegrad for mænd og kvinder, sa

hvis fedmegrad ogsa hænger sammen med blodtryk....

Page 64: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 61

Og der er en sammenhæng mellem fedmegrad og blodtryk:

sex=female

Spearman Correlation Coefficients, N = 58

Prob > |r| under H0: Rho=0

bp obese

bp 1.00000 0.49121

<.0001

obese 0.49121 1.00000

<.0001

sex=male

Spearman Correlation Coefficients, N = 44

Prob > |r| under H0: Rho=0

bp obese

bp 1.00000 0.24828

0.1042

obese 0.24828 1.00000

0.1042

Page 65: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 62

Nar vi sammenligner blodtryk kønnene imellem, ma vi ma derfor

korrigere for fedmegrad, først med vekselvirkning:

Dependent Variable: lbp

R-Square Coeff Var Root MSE lbp Mean

0.161679 2.588486 0.054354 2.099830

Source DF Type I SS Mean Square F Value Pr > F

lobese 1 0.03809379 0.03809379 12.89 0.0005

sex 1 0.01597238 0.01597238 5.41 0.0221

lobese*sex 1 0.00177193 0.00177193 0.60 0.4405

Source DF Type III SS Mean Square F Value Pr > F

lobese 1 0.03920980 0.03920980 13.27 0.0004

sex 1 0.01252714 0.01252714 4.24 0.0421

lobese*sex 1 0.00177193 0.00177193 0.60 0.4405

Page 66: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 63

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 2.087171366 B 0.01257865 165.93 <.0001

lobese 0.227981122 B 0.13158758 1.73 0.0863

sex female -0.039290663 B 0.01908066 -2.06 0.0421

sex male 0.000000000 B . . .

lobese*sex female 0.123097524 B 0.15894836 0.77 0.4405

lobese*sex male 0.000000000 B . . .

Ingen signifikant vekselvirkning, vi udelader den.

Page 67: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 64

Model uden vekselvirkning (parallelle linier):

Dependent Variable: lbp

Source DF Type I SS Mean Square F Value Pr > F

lobese 1 0.03809379 0.03809379 12.95 0.0005

sex 1 0.01597238 0.01597238 5.43 0.0218

Source DF Type III SS Mean Square F Value Pr > F

lobese 1 0.05290402 0.05290402 17.98 <.0001

sex 1 0.01597238 0.01597238 5.43 0.0218

Standard

Parameter Estimate Error t Value Pr > |t|

Intercept 2.081052655 B 0.00976800 213.05 <.0001

lobese 0.312347032 0.07366198 4.24 <.0001

sex female -0.027765105 B 0.01191694 -2.33 0.0218

sex male 0.000000000 B . . .

Sa kom der pludselig en signifikant kønsforskel

Page 68: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 65

Illustration af blodtryk vs. fedmegrad

Page 69: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 66

Metoder til at undga bias

Matchning. Dvs. udvælge individer, saledes at de er nogenlunde ens

med hensyn til de vigtige forstyrrende kovariater.

(Dette kan gøres parvist eller i større grupper)

Randomisering. Dvs. trække lod om behandling (gruppe)

NB: Dette kan naturligvis kun lade sig gøre, hvis grupperne er

noget, man selv bestemmer over.

Korrektion Dvs. at medtage den skævt fordelte variabel som

kovariat, altsa: en kovariansanalyse

Page 70: Basal statistik 21. oktober 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/glm_08...Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation

Den generelle lineære model, oktober 2008 67

Metoder til at øge styrken

• flere observationer/personer

• øg spredning i ’eksponeringen’

• design-ændring (f.eks fra uparret til parret)

• inddrage vigtige forklarende variable (kovariater)

Men pas pa med at ga for meget pa fisketur!!