2. enkel regressionsanalys
DESCRIPTION
Regressionsanalysens grunder. 2. Enkel regressionsanalys. Vad är regressionsanalys?. - PowerPoint PPT PresentationTRANSCRIPT
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:1
2. Enkel regressionsanalys
Regressionsanalysens grunder
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:2
Vad är regressionsanalys?• Regressionsanalys behandlar studiet av en
variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna).
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:3
Vad är regressionsanalys?
• Exempel:• Skatta privata konsumtionens beroende av reell
disponibel inkomst.• Skatta hur efterfrågan påverkas av
prisförändringar (elasticitet).• Skatta sambandet mellan reklam och försäljning.
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:4
Begrepp, termer och datatyper• Deterministiska – statistiska samband• Statistiska – kausala samband• Terminologi:
• Beroende variabel, Yi (eller Yt)• Förklarande variabel, Xi (eller Xt)
• Datatyper:• Tidsseriedata• Tvärsnittsdata• Poolat data
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:5
Populationens regressionskurva och funktion
• Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi)
• Om sambandet är linjärt kan vi skriva populationens regressionsfunktion, E(Y | X = Xi) = 0 + 1 Xi
• Detta är ekvationen för en rät linje
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:6
Populationens regressionskurva och funktion
50
100
150
200
60 80 100 120 140 160 180 200 220 240 260 280Inkomst, dollar/vecka
Kon
sum
tion,
dol
lar/ve
cka
80 140 220X
Inkomst, dollar/vecka
65
101
149
Betingat medelvärde
Fördelning för Ygivet X = 220
E ( Y | X )
YKonsumtion, dollar/vecka
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:7
Linjär i variablerna/parametrarna
• Linjär i variablerna:• X men ej: X2, X½, X·Z
• Linjär i parametrarna:• 1 men ej:
• Med linjär regression avses en modell som är linjär i parametrarna.
1012
1 ,,
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:8
Den linjära regressionsmodellen
• Stokastisk specifikation av populationens regressionsfunktion• Det faktiska värdet på Y avviker i regel från det
förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm:ei = Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei
• Den linjära regressionsmodellen kan då skrivas som:Yi = 0 + 1 Xi + ei där E(ei | Xi) = 0
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:9
Stokastisk felterm
• Varför behövs den stokastiska feltermen, ei?• Vag teori• Otillgängliga data• Centrala kontra perifera variabler• Inre slumpmässighet i det mänskliga beteendet• Dåliga proxyvariabler• Sparsamhetsprincipen• Fel funktionell form
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:10
Stickprovets regressionsfunktion
• Stickprovets regressionsfunktion:• Den skattade modellen (utifrån ett stickprov) kan
skrivas som,
eller
där är en residualterm (residual), dvs en skattning av ei.
ii XY 10ˆˆˆ
iii eXY ˆˆˆ10
ie
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:11
Skattningsproblemet
• Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt:
• Minsta kvadratmetoden innebär att vi minimerarsom är en funktion av estimatorerna och .
)ˆ(ˆ iii YYe iii YYe ˆˆ 22 )ˆ(ˆ iii YYe
22 )ˆ(ˆ iii YYe 0 1
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:12
Regressionslinjens egenskaper
• Regressionslinjens egenskaper:• Linjen går genom punkten .• Medelvärdet av alla skattade Y-värden =
medelvärdet för alla observerade Y.• Medelvärdet för (och summan av) alla residualer
är noll.• Residualerna är okorrelerade med de skattade Y-
värdena.• Residualerna är okorrelerade med Xi.
),( YX
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:13
Antaganden bakom minsta-kvadratmetoden
• Antaganden bakom minsta-kvadratmetoden:• ia) Linjär regressionsmodell• ib) Regressionsmodellen är korrekt specificerad,
dvs ingen specifikationsbias eller fel i modellen
Förä
ndrin
g i l
önen
ivå,
%
Y i = 1 + 2 (1/X i )
Y i = 1 + 2 X i
Arbetslöshet, %
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:14
Antaganden bakom minsta-kvadratmetoden
• iia) X-värdena är fixa vid upprepade stickprov
• iib) variation i X-värdena
•iiia) Medelvärdet är noll för ei, E(ei) = 0, iMedelvärde
Y
+ui
–u i
PRF: Yi =1+2Xi
XX1 X3X2 X4
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:15
• iiib) Homoskedasticitet, lika varians för alla ei
V(ei) = 2,
Täthet
Sparande, Y
Inkomst, X
X1 2+ i
Täthet
Sparande, Y
Inkomst, X
X1 2+ i
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:16
Antaganden bakom minsta-kvadratmetoden
• iiic) Ingen (auto)korrelation mellan ei:na
+uj
+ui
–uj
–ui
+uj
+ui
–uj
–ui
+uj
+ui
–uj
–ui
.:,,0)( jijieeE ji
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:17
Antaganden bakom minsta-kvadratmetoden
• iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,2)• Anm. ii) & iiia) E(Xiei) = Xi E(ei) = 0, dvs
ingen kovarians mellan ei och Xi
Den konstanta variansen 2 i iiib) är en okänd parameter tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regres- sionsmodellen. iiid) viktig för inferensen
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:18
Standardfel och BLUE
• Gauss-Markovs sats:Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för 0 resp. 1
• OLS-skattningarna är linjära eftersom de är linjära funktioner av en stokastisk variabel (Y)
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:19
Medelfel och BLUE
• Standardavvikelse och kovarians för minsta-kvadratskattningarna
21)(
)ˆ(sdXX i
;
)()ˆ ( sd
2
2
0
XXn
Xσβ
i
i
221 )(
)ˆˆ(
XXXCov
io
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:20
Standardfel och BLUE
• enligt iiid) har vi Yi ~ N(0 + 1Xi , 2) och enligt iiic) är Yi och Yj oberoende
•
2ˆˆ
2
n
es i
),(~ˆ 200
i
i
xnX
N )1,(~ˆ 211 ix
N och
OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad
Standardavvikelsen skattas med
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:21
Standardfel och BLUE• s brukar även kallas regressionens medelfel• Substituerar vi s för i uttrycken ovan för vi
skattade standardavvikelser för skattningarna
10ˆoch ˆ
vilka kallas medelfelen för skattningarna.På samma sätt får en skattning för kovariansen mellan 10
ˆoch ˆ
Korrelationskoefficienten skattas med
2
22ˆ2
222ˆ2
2
ˆ,ˆˆˆ
ˆˆˆ,ˆ
1020
10
10
10,,där ;
ii
i
i xss
xnXs
sxsXc
ss
cr
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:22
Konfidensintervall
• Konfidensintervall för regressions-koefficienterna och feltermens varians• då skattningarna är normalfördelade
standardiserar vi och får
)1,0(~)ˆ(
ˆN
sd i
ii
• standardavvikelsen (sd) för skattningen innehåller vilken är okänd och ersätts med skattningen s så att vi får medelfelet för parameterskattningen (s.e)
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:23
Konfidensintervall• då gäller att
)2(~)ˆ(.
ˆ
ntes i
ii
• Ett 100 · (1–) procents konfidensintervall för i
ges av,)ˆ()2(ˆ
2/1 ii βs.entIi
• För variansen gäller
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:24
Konfidensintervall
• vilket alltså ger konfidensintervallet för 2 med konfidensgraden 1 -
)2(~
ˆ)2( 22
2
nn
1))2(ˆ)2()2(( 2
2/12
22
2/ nnnP
1})2(
ˆ)2()2(
ˆ)2({ 22/
22
22/1
2
nn
nnP
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:25
Test
• Då vi testar på signifikansnivån har vi att H0 förkastas om för ett tvåsidigt test
och för ett ensidigt om
01
01
00
00
::::
tEnkelsidiggtDubbelsidi
iiii
iiii
HHHH
)2(~)ˆ(.
ˆ 0
ntes
ti
iii
testvariabeln är
)2(2/1 ntti
)2(1 ntti
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:26
• OBS! Ofta testas H0: i = , H1: i
)2(~)ˆ(.
ˆ nt
est
i
ii
• t-kvoten i datorutskrifter
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:27
R2, variansanalys och korrelation• Anpassningsgraden
• residualerna anger hur bra regressionslinjen anpassas till observationerna|
• liten spridning ’små’ residualer ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen
• stor spridning ’stora’ residualer ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad
• residualernas värde (storlek) beror på mätenhet• residualvariansen är
2)ˆ( 2
2
n
YYs ii
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:28
R2, variansanalys och korrelation• residualkvadratsumman (Yi – Yi)2 utnyttjas för att mäta
variationen i residualerna• variationen i Y mäts med kvadratsumman (Yi – Y )2
)ˆ()ˆ( YYYYYY iiii
)ˆ()ˆ(2)ˆ()ˆ(
)ˆ()ˆ( )(22
2 2
YYYYYYYY
YYYYYY
iiiiii
iiii
• korsproduktsumman är 0, så vi får222 )ˆ()ˆ()( YYYYYY iiii
eller
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:29
R2, variansanalys och korrelation• totala = residual (fel) + förklarade (regr.)
kvadratsumman kvadratsumman kvadratsummanTSS = ESS + RSS
• Vi dividerar med TSS • 1 = ESS/TSS + RSS/TSS
• Determinationskoefficienten, R2, definieras som
TSSESS
TSSRSSR 12
R2 = den del av variationen i Y som förklaras av Y:s regression på X.
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:30
R2, variansanalys och korrelation 0 R2 1. R2då Yi = Y, dvs 1 = 0 R2då Yi = Yi, dvs observetionerna ligger på den räta linjen
2
22
12
22
12 ˆˆ
y
x
i
i
ss
yx
R
Då vi, som här, har endast en oberoende variabel X har vi då att
2ˆ
22YYXY rrR
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:31
R2, variansanalys och korrelation• Uppdelningen av kvadratsumman (och variansen) ovan
kan sammanfattas i en variansanalystabell
Variationsorsak SS df MS=SS/df F
Regression RSS 1 RMS=RSS RMS Residual ESS n-2 EMS=ESS/(n-2) EMS Total TSS n-1
0 ),2,1(~
,
1
221
2
22
dånFEMSRMSF
xRMSE
EMSEsEMS
i
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:32
R2, variansanalys och korrelation• Testar H0: = 0; H1: 1 0
H0 förkastas om F > F1-(1,n-2)
. ,
ˆˆ OBS! 2
221
2
ˆ
12
1
RSSdå RMS EMSRMS
EMSRSS
sxx
stF i
F- och t-testen för 1 är ekvivalenta
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:33
Konfidensintervall E(Y|Xi), Yi
• Yi N(0 + 1 Xi, 2) .• Prediktion av medelvärdet E(Y | X = Xi)• E(Y | X = Xi) skattas med
• Prediktion av ett individuellt Y-värde• Y för ett givet X predikteras på samma sätt som ovan
2
22 )(1)ˆvar(
j
ii x
XXn
Y
ii XY 10ˆˆˆ
2
22 )(11)ˆvar(
j
ii x
XXn
Y
• Konfidensintervallen beräknas därefter på vanligt sätt.
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:34
Konfidensintervall
0
50
100
150
60 80 100 120 140 160 180 200 220 240 260 280
Y
X
92
5868
83
Konfidensintervall för Y -medelvärdet
Konfidensintervall för individuellt Y
X
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:35
Rapportering av resultat
• Utvärdering av regressionsanalysens resultat• Är tecken på de skattade koefficienterna rimliga?• Är koefficienterna statistiskt signifikant 0?• Är andelen förklarad variation tillfredsställande?• Är feltermen normalfördelad?
)000000289,0()002571,0()2405,14()8128,3()0357,0()4138,6(
5091,04545,24ˆ
ptse
XY ii
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:36
Normalfördelningstest• Jarque-Beras (JB) normalfördelningstest
• Teststatistika:
där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel)
• JB är asymptotiskt 2-fördelad med 2 frihetsgr.• Förkasta nollhypotesen om JB > kritiskt värde.
24
)3(6
JB22 KSn
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:37
Funktionell form
Modell Linjär Log-linjärEkvationLutning
Elasticitet
• Log-lin, Lin-log, Reciprok
XY 10
1
XY lnln 10
1
YX
1
XY
1
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:38
Tolkning av SPSS-utskriftModel Summaryb
,659a ,434 ,378 ,1138Model1
R R SquareAdjustedR Square
Std. Errorof the
Estimate
Predictors: (Constant), EFFEKTa.
Dependent Variable: FORBRUKNb. ANOVAb
,0994 1 ,0994 7,681 ,020a
,1294 10 ,0129,2288 11
RegressionResidualTotal
Model1
Sum ofSquares df
MeanSquare F Sig.
Predictors: (Constant), EFFEKTa.
Dependent Variable: FORBRUKNb.
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:39
Tolkning av SPSS-utskriftCoefficientsa
,4021 ,1587 2,533 ,030,0051 ,0018 ,659 2,771 ,020
(Constant)EFFEKT
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: FORBRUKNa.
Casewise Diagnosticsa
-2,441 ,68 ,9577 -,2777Case Number8
Std.Residual
FORBRUKN
PredictedValue Residual
Dependent Variable: FORBRUKNa.
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:40
Tolkning av SPSS-utskrift
EFFEKT
12011010090807060
FOR
BR
UK
N
1,2
1,1
1,0
,9
,8
,7
,6
Volvo 480 ES
Toy Corolla
SAAB 9000
Peug 405 GLI
Opel Kad GSIMits Lancer
MB 190 E 2,6
Mazda 323
Ford Si 2,9i
Citr BX19 Ko
BMW 318i
Alfa 33 1,5i
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:41
Maximum-likelihoodskattningar• Maximum likelihoodskattningen för en parameter
definieras som det värde , vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn.
• Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar
~
funktionenlikelihood )( )(...)()( 21
in YpYpYpYp
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:42
Maximum-likelihoodskattningar• För vår regr.modell har vi
Yi ~N(0 + 1Xi, 2 )
Täthetsfunktionen för Yi är 2
10221
22
1 ii XY
i e)p(Y
Likelihoodfunktionen
21022
1
2
12
101
2
1
),,;,...,
ii XY
inn
e
)p(Y)p(Y...)p(YYL(Y
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:43
Maximum-likelihoodskattningarVi maximerar L( ), m.a.p. 0, 1, 2.
Blir enklare om vi logaritmerar L( )
2102
2
2102
2
21
2/12
21ln
22ln
2
21ln2ln
21
2lnln2
102
ii
ii
XY
XYnn
XY
eLlii
Ekon
omet
ri, 3
sv
2005© Rune Höglund Enkel regression K 2:44
Maximum-likelihoodskattningarVi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0
.~
~ ;~ ;~~ 22
2110 ne
xyx
XYi
ii
v.v.r.ej ~ ;ˆ~ ;ˆ~ ;ˆ~ 2221100