statikstik ii 4. lektion
DESCRIPTION
Statikstik II 4. Lektion. Generelle Lineære Modeller. Generel Lineær Model. Yafhængig skala variabel X 1 ,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i ’te observation ud af n er givet ved - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/1.jpg)
Statikstik II4. Lektion
Generelle Lineære Modeller
![Page 2: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/2.jpg)
Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære
Model: Middelværdien af Y givet X
Mere præcist: i’te observation ud af n er givet ved
xj,i er j’te forklarende variabel for i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)
k
i iikk xxxXYE111)|(
iikkii xxY e ,,11
IID
![Page 3: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/3.jpg)
Simpel lineær regression
X
Y
Xi
Yi { β1
10
εi
E[Y|X] = + β1X
iii xy e 1),0( 2se Ni iid
GLM med én skala forklarende variabel (k=1)
Modellen er
Modellen siger: E(Y|X) = + 1X V(Y|X) = σ2
Y|X ~ N( + β1X, σ2)
![Page 4: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/4.jpg)
Endnu en tegning…
X
Y
i.i.d. normalfordelte fejlled
Yi|xi~N( + β1xi,σ2)
x1 x3x2 x4 x5
xY 1
![Page 5: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/5.jpg)
Estimation Model:
yi = + 1 xi + ei εi er i.i.d. N(0,σ2) , β1 og σ2 er modellens parametre – ukendte!
Estimation af og 1 svarer til at vælge den linje, der passer bedst til de observerede punkter.
Estimerede regressions linje
a er estimat for og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og 1?
xbay 1ˆ
![Page 6: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/6.jpg)
er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).
)ˆ( iii yye
Residual led
iYiYieˆ
Y
X
iY
iY
Xi
iXYiY givet for værdi eforvendted den ˆ
),( ii YX
XbaY 1ˆ
Den estimerede regressionslinje
datapunkt eobservered Det
![Page 7: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/7.jpg)
Mindste kvadraters metode
Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.
Dvs, vi vil minimere
SSE er Sum of Squared Errors. Skrevet ud:
Bemærk: Funktion af to variable (a og b1).
n
i ieSSE1
2
n
i iin
i iin
i i xbayyye1
211
21
2 )()ˆ(
![Page 8: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/8.jpg)
SSE er en funktion af a og b1.
Vi vil finde a og b1 så SSE er mindst mulig.
Minimering
aSSE
b1
![Page 9: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/9.jpg)
Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:
Teststørrelse:
Numerisk store værdier af t er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1.
Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.
0:0: 1110 vs HH
)( 1
1
bSEbt
![Page 10: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/10.jpg)
Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen
Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.
0 . 8
0 . 7
0 . 6
0 . 5
0 . 4
0 . 3
0 . 2
0 . 1
0 . 0
tOrange område = p-værdi
t0
t-fordeling med n-2 frihedsgrader
![Page 11: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/11.jpg)
Fortolkning/Eksempler på H0Er der en lineær sammenhæng mellem X og Y?
H0: 1 = 0 ingen lineær sammenhængH1: 1 0 lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Y
X
Y
X
Y
X
Konstant Y Usystematisk variation Ikke-lineær sammenhæng
![Page 12: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/12.jpg)
SPSS Analyze → General Linear Models → Univariate…
Kategoriske forklarende variableSkala forklarende variable
![Page 13: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/13.jpg)
Eksempel
Y : Forbrug af gas (gas) X : Udetemperatur (temp)
Scatterplot →
SPSS:
Estimerede model:
Både skæring () og hældning (1) er signifikante!xy 290.0486,5ˆ
![Page 14: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/14.jpg)
Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er yi’s afvigelse fra kan opdeles i to.
.Y
X
Y
Y
Y
X
Forklaret afvigelse
Totale afvigelse
Uforklaret afvigelse
X
y
y
),( yxbxay ˆ
![Page 15: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/15.jpg)
Total og forklaret variation - illustration
Den totale variationses når vi “kigger langs” x-aksen
Den uforklarede variation ses når vi “kigger langs” regressionslinjen
Y
X X
Y
![Page 16: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/16.jpg)
Den totale variation
Lad være gennemsnittet af alle yi’er
Den totale variation for data er
”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total
n
i i yySST1
2)(
y
![Page 17: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/17.jpg)
Opslitning af den totale variation Den totale variation kan opslittes:
er den uforklarede variation.
er den forklarede variation.
SSR = Sum of Squares Regression
2
1
2
1
2
1ˆˆ
n
i in
i iin
i i yyyyyy
2
1ˆ
n
i ii yySSE
2
1ˆ
n
i i yySSR
![Page 18: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/18.jpg)
Total og forklaret variation
Opsplitning af variationen
SSRSSESST
yyyyyy n
i in
i iin
i i
2
1
2
1
2
1ˆˆ
Forklaret Uforklaret Total
![Page 19: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/19.jpg)
Determinations koeffcienten R2 Determinations Koeffcienten: Andelen af den totale
variation, der er forklaret.
Pr definition: 0 ≤ R2 ≤ 1.
Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.
R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.
SSTSSE
SSTSSESST
SSTSSRR
12
variation Totalvariation Forklaret
![Page 20: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/20.jpg)
Eksempler på R2
Y
X
R2 = 0 SSE
SST
Y
X
R2 = 0.90SSE
SSTSSR
Y
X
R2 = 0.50 SSESST
SSR
![Page 21: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/21.jpg)
H0: 1 = 2 = … = k = 0
H1: Mindst et i ≠ 0
Teststørrelse:
Store værdier af F er ufordelagtige for H0.
Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable
Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable
2,1~1
nFMSEMSR
knSSEkSSRF
Mean Squared Error
Mean Squared Regression
![Page 22: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/22.jpg)
Eksempel: R2 og F-test
SSR
SSE
SST
467,0014,75019,352
SSTSSRR
282,47741,0019,35
F
MSR
p-værdi
MSE
F=MSR/MSE
![Page 23: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/23.jpg)
F-fordelingen
543210
0 .7
0 .6
0 .5
0 .4
0 .3
0 .2
0 .1
0 .0
F
f(F
)
Areal = p-værdi
F-fordeling
F
![Page 24: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/24.jpg)
Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp) XIsolering: {Før, Efter}, kategorisk (insulate)
Omkod XIsolering til binær variabel XFør
XFør = 1 hvis XIsolering = Før XFør = 0 hvis XIsolering = Efter
Model: e FørFørTempTemp xxY 0
![Page 25: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/25.jpg)
Når XIsolering = Før
Når XIsolering = Efter
To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.
e
e
TempTemp
FørTempTemp
x
xY 0
Fortolkning af model
e
e
TempTempFør
FørTempTemp
x
xY 1
![Page 26: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/26.jpg)
To regressionslinjer med forskellige skæringer, men samme hældning
X1
Y
Linje for XFør=1
Linje for XFør=0
+ Før
![Page 27: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/27.jpg)
Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’
Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan
modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!
![Page 28: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/28.jpg)
Estimater
Estimeret model:
Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):
Eksempel og SPSS
FørTemp xxy 565,1337,0986,4ˆ
192,41565,17337,0986,4
![Page 29: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/29.jpg)
Vekselvirkning / Interaktion
Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.
Y, XTemp og XFør er som før. Introducer: XTemp,Før = XTemp∙XFør
Modele FørTempFørTempFørFørTempTemp xxxY ,,
),0(~ 2se N
![Page 30: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/30.jpg)
Fortolkning Når XIsolering = Før:
Når XIsolering = Efter:
Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.
TempTemp
TempFørTempFørTempTemp
x
xxxYE
00| ,
TempFørTempTempFør
TempFørTempFørTempTemp
x
xxxYE
,
, 11|
![Page 31: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/31.jpg)
SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og
interaktionsled. Indsæt altid hoved-effekter først!
![Page 32: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/32.jpg)
Scatterplot → Estimater
Estimeret model:
FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ
![Page 33: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/33.jpg)
Variansanalyse (ANOVA)
En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse.
På engelsk: Analysis of Variance (ANOVA)
Eksempel: Y: Månedlige forbrug Shoppingstil: Hver 2. uge, Ugentligt, Oftere Køn: Mand, Kvinde
![Page 34: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/34.jpg)
Dummy-variable
To kategoriske variable: Omkodning til dummy variable.
Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference)
Køn XMand
Mand 1Kvinde 0
Stil XH2U XUge
Hver 2. uge 1 0Ugentlig 0 1
Ofte 0 0
![Page 35: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/35.jpg)
Model Den generelle lineære model er:
E(Y|x) = + KvindeXKvinde + H2UXH2U + UgeXUge
Fortolkning: Sammenligning and mand og kvinde med samme ”Stil”: E(Y|Køn=Mand, Stil) - E(Y|Køn=Kvinde, Stil) =
( + Mand∙1 + H2U XH2U + Uge XUge ) –( + Mand∙0 + H2U XH2U + Uge XUge) = Kvinde
Dvs. Mand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).
![Page 36: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/36.jpg)
Mere fortolkning
H2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte.
Uge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.
![Page 37: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/37.jpg)
Hypotesetest Hypoteser
H0: H2U = Uge = 0 Dvs. ingen effekt af shoppe-stil. H1: H2U ≠ 0 og/eller Uge ≠ 0
Teststørrelse:
SSstil er forskellen i den forklarede variation (SSR) med og uden ”Stil” i modellen.
Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SSStil og dermed F.
Store værdier af F er dermed ufordelagtige for H0.
)1,(~1
knqFMSEMS
knSSEqSSF StilStil
SSStil : Sum of Squares for ’Stil’
q : Antal parametre forbundet med ’Stil’ (2)
![Page 38: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/38.jpg)
SPSS Analyze → General Linear Model → Univarite ’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’
Bemærk at ’style’ ikke er signifikant! Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er
forklaret af modellen!
SST
SSE
SSR
SSStil
![Page 39: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/39.jpg)
Estimerede model
Den estimerede model: E(Y|x) = 374,133 61,183 XMand 27,703 XH2U 4,271 XUge
Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: E(Y|Køn = Mand, Shopping = Ugentligt ) =
374,133 + 61,183 ∙1 27,703 ∙0 4,271∙1 = 431,045
![Page 40: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/40.jpg)
Vekselvirkning
Introducer vekselvirkning: Køn*Stil Nye dummy variable: XKøn,Stil = Xkøn* XStil. Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-
kategori er indblandet.
Mand Kvinde (ref.kat.)
Hver 2. uge XMand,H2U ٪Ugentlig XMand,Uge ٪Ofte (ref.kat.) ٪ ٪
![Page 41: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/41.jpg)
Model
Den generelle lineære model er:
E(Y|x) = + Mand XMand + H2U XH2U + Uge XUge +Mand,H2U XMand,H2U + Mand,Uge XMand,Uge
Bemærk: Alle X’er er dummy variable.
![Page 42: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/42.jpg)
SPSS
Bemærk: Hoved-effekter før interaktioner!
![Page 43: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/43.jpg)
SPSS
R2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens
hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst
signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis
den indgår i en interaktion.
![Page 44: Statikstik II 4. Lektion](https://reader035.vdocuments.mx/reader035/viewer/2022062323/56815b47550346895dc92406/html5/thumbnails/44.jpg)
Estimerede model
Estimerede model er: = 405,727 + 2,048 XMand
61,751 XH2U 44,006 XUge +67,042 XMand,H2U + 77,196 XMand,Uge
y