732g71 statistik b
DESCRIPTION
732G71 Statistik B. Institution: IDA, avd. för statistik Kursansvarig: Anders Nordgaard, ANd [email protected] 013-281974 B-huset, ing. 27, 1 tr, korridor E (ovanför Café Java) Arbetar deltid ( främst tor, fre) Övriga lärare: Olle Eriksson (OE) Josefine Johansson (JJ) - PowerPoint PPT PresentationTRANSCRIPT
732G71 Statistik B• Institution: IDA, avd. för statistik
• Kursansvarig: Anders Nordgaard, ANd– [email protected]– 013-281974– B-huset, ing. 27, 1 tr, korridor E (ovanför Café Java)– Arbetar deltid ( främst tor, fre)
• Övriga lärare:– Olle Eriksson (OE)– Josefine Johansson (JJ)– Handledare vid datorövningar (NN)
• Kurshemsida:
www.ida.liu.se/~732G71
• Kurslitteratur:– Andersson G, Jorner U, Ågren A: Regressions- och tidsserieanalys. 3:e
uppl. Studentlitteratur Bokakademin
– Nordgaard: Något om index Hemsidan
– Extra övningsuppgifter Hemsidan
– (Formelsamling) Hemsidan
• Undervisning:– 10 föreläsningar (ANd, Teori och exempel)– 6 lektioner (OE, JJ, ANd, Genomgång av övningsuppgifter, alla
studerande förväntas ta aktiv del i diskussionen av lösningar)– 5 räknestugor (OE, JJ, eget räknande med tillgång till handledning)– 7 datorlaborationer (OE, JJ, ANd, NN) viktiga övningar i att använda dator
(Minitab) för regressions- och tidsserieanalys
• Rekommenderade övningar till lektioner och räknestugor: Se undervisningsplanen på hemsidan.
• Instruktioner till datorövningar: Finns löpande på hemsidan.
• Examination– Projektarbete i grupp, 2.5 hp:
• Projektmomentet bedöms med något av betygen Godkänd eller Underkänd. För de flesta blir den praktiska betygsskalan Godkänd eller Komplettering.
– Tentamen, 5.5 hp:• 4-5 uppgifter. Till den första uppgiften skall fullständig lösning
inlämnas, till övriga ges svar på svarsblankett enl. ”multiple choice”-modellen. Formelsamling och tabeller kommer att finnas fasthäftade i tentan. Bedöms med något av betygen Väl godkänd, Godkänd eller Underkänd.
– Slutbetyg:• Väl Godkänd, Godkänd eller Underkänd
• För Godkänd krävs att bägge examinationsmomenten är godkända
• För Väl Godkänd krävs att bägge examinationsmomenten är godkända samt betyget Väl Godkänd på tentamen.
• Projektarbetet:– Grupparbete i grupp om max 4 personer. Gruppindelningen
skall vara klar och meddelad senast 12 november .
– Arbetet handlar om tidsserieanalys och bygger på Datorövning 6 och 7.
– Skriftlig redovisning till kursansvarig senast 7 december.– Vid komplettering: Komplettering skall normalt göras inom
5 arbetsdagar. Om kompletteringen inte räcker till ges normalt ytterligare 5 arbetsdagar för förnyad komplettering etc.
Mer information kommer att finnas på hemsidan.
Återkoppling till närmast tidigare kursvärdering
Följande punkter togs speciellt upp vid föregående års kursvärdering:
• Lektionslärarna hade helt olika sätt att lösa problemen, vilket ledde till överbesökta lektioner för den ene av lärarna
• Formelsamlingen överensstämde inte tillfredsställande med lärobokens formler
• Mer information om vad finansiella data är behövs inför projektarbetet
• Lärobokens facit innehöll väl många fel
• Föreläsningsunderlagen bör komma ut något tidigare
• Dålig disciplin hos studenterna på att hålla sig till de schemalagda tiderna för datorövningar för respektive grupp
Kursdefinition
Kursboken täcker tyvärr inte helt upp vad kursplanen förespråkar om innehållet. Den har dock valts efter tidigare års konstanta kritik av den dåvarande engelskspråkiga kursboken.
Kursen Statistik B definieras utifrån kurslitteraturen och föreläsningarna
Föreläsningsunderlag kommer alltid att hållas tillgängligt på kurshemsidan
Litet om vad kursen handlar om
• Enkel linjär regressionsanalys
Exempel: Försäljning av pizza relaterat till antalet studenter i restaurangens omgivning för 10 slumpmässigt valda restauranger
Kvartalsvis försäljning (1000-tals € )
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
Kan man tänka sig att försäljningen ökar linjärt med antal studenter i omgivningen?
Förmodligen!
Hur tillförlitlig är den framräknade ekvationen för linjen: y =5x + 60 ?
Hur kan vi tolka värdena 5 och 60 i ekvationen?
Om vi har en “ny” restaurang med 15000 studenter i omgivningen, vad kan vi förvänta oss att kvartalsförsäljningen blir?
Kvartalsvis försäljning (1000-tals €)
y = 5x + 60
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
• Multipel linjär regressionsanalys
Exempel: Restider för ett transportföretag relaterade till transportavstånd och antal leveranser för 10 slumpmässigt valda transporter
Restid (timmar)
0
2
4
6
8
10
0 50 100 150
Transportavstånd (km)
Restid (timmar)
0
2
4
6
8
10
0 1 2 3 4 5
Antal leveranser
Kan vi kombinera till “ett” samband?
10090
80
2
4Transp.avstånd
5
70
6
7
8
9
360
Restid
504Leveranser
Framräknat matematiskt samband:
Restid = - 0.869 + 0.0611 Transp.avstånd + 0.923 Leveranser
• Tillförlitligt?
• Tolkningar?
• Prognoser?
• Index
Exempel: fastighetsprisindex, fritidshus, Stockholms län 1975-2005
Fasighetsprisindex, fritidshus, Stockholms län, 1975-2005
0
100
200
300
400
500
600
7001
97
5
19
77
19
79
19
81
19
83
19
85
19
87
19
89
19
91
19
93
19
95
19
97
19
99
20
01
20
03
20
05
• Hur har värdena på y-axeln räknats fram?
• Hur kan indexserien användas?
•Exponentiella modeller och elasticitetssamband
Exempel: Befolkningsutveckling i Göteborgs och Bohus län 1805-2000
Befolkning Göteborgs och Bohus län 1805-200
0100000200000300000400000500000600000700000800000900000
1805
1820
1835
1850
1865
1880
1895
1910
1925
1940
1955
1970
1985
2000
• Är det rimligt med ett linjärt samband här?
• Hur kan vi räkna fram ett icke-linjärt samband?
Efterfrågad volym
02000400060008000
1000012000
0 50 100 150
Prisindex
Exempel: Efterfrågad volym av en viss varugrupp i förhållande till pris
• Hur kan vi avgöra om varan är priskänslig?
• Hur kan vi relatera Nationalekonomins modeller till statistiska modeller?
• Tidsserier
Exempel: Antal på arbetsmarknaden sysselsatta kvinnor januari 1995 – mars 2005
På arbetsmarkanden sysselsatta kvinnor jan 1995- mars 2005
17000175001800018500190001950020000205002100021500
19
95
M0
1
19
95
M0
7
19
96
M0
1
19
96
M0
7
19
97
M0
1
19
97
M0
7
19
98
M0
1
19
98
M0
7
19
99
M0
1
19
99
M0
7
20
00
M0
1
20
00
M0
7
20
01
M0
1
20
01
M0
7
20
02
M0
1
20
02
M0
7
20
03
M0
1
20
03
M0
7
20
04
M0
1
20
04
M0
7
20
05
M0
1
• Vad för slags variation består data av? Trend? Säsongsmönster? Konjunkturmönster?
• Hur kan vi prognosticera? 2 år framåt? 10 år framåt?
2007200520032001199919971995
350000
300000
250000
200000
150000
100000
år
dis
p_
ink
Hushållens disponibla inkomster 1995-2001
2007200520032001199919971995
350000
300000
250000
200000
150000
100000
år
dis
p_in
k
observeradeprognoser
Variable
Hushållens disp inkomster 1995-2001, linjära prognoser 2002-2007
2007200520032001199919971995
350000
300000
250000
200000
150000
100000
år
dis
p_in
k
verkligaprognoser
Variable
Hushållens disp. inkomster 1995-2007, prognoser 2002-2007
2007200520032001199919971995
350000
300000
250000
200000
150000
100000
år
dis
p_in
k
verkligaprognoser
Variable
Hushållens disp. inkomster 1995-2001, exp. prognoser 2002-2007
Inte så bra… Bättre?…
Enkel linjär regressionsanalys
Exempel: En pizzakedja har undersökt försäljningen vid restauranger som ligger i anslutning till högskolecampus.
Följande data har sammanställts in från 10 slumpmässigt valda restauranger:
Restaurang Försäljning senaste kvartal Antal studenter vid (i 1000-tals € ) campus (i 1000-tal)
1 58 2
2 105 6
3 88 8
4 118 8
5 117 12
6 137 16
7 157 20
8 169 20
9 149 22
10 202 26
Vi plottar kvartalsförsäljningen mot Antal studenter
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
Försäljningen tycks ha ett positivt samband med Antal studenter
Kan sambandet vara linjärt?
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
Den räta linjen?
• Betyder alla punkter lika mycket?
• Drar alla som tittar på plotten ungefär samma linje?
• Försöker man få så många punkter som möjligt att ansluta till linjen?
• Finns det någon sann linje?
• Räta linjens ekvation:
Kan den utnyttjas här på lämpligt sätt?
mxky
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)10
00-t
als
Eu
ro
Blå linje: Bygger enbart på punkten längst t.v. och punkten längs t.h.
Grön linje: Bygger på alla punkter utom den längst t.v. och den längst t.h.
Rosa linje: Bygger på de fem punkterna längst t.v.
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
Målsättning: Att anpassa en linje till punkterna så att avstånden mellan punkterna och linjen blir så små som möjligt enligt något gemensamt (globalt) mått.
Låt y=b0+b1·x vara det matematiska uttrycket för den linje som skall anpassas.
b0=skärningspunkten på y-axeln (interceptet)b1=lutningskoefficienten (lutningsparametern)
y står alltså för kvartalsförsäljning och x står för antalet studenter
(Observera att vi frångår beteckningssättet y=k·x+m.)
Kursboken (AJÅ) skriver y=a+b·x , men i föreläsningsunderlagen används genomgående b0 i stället för a (av internationella skäl)
Problemet att lösa är hur vi skall bestämma b0 och b1 i det matematiska uttrycket
Betrakta avstånden mellan punkterna och den dragna linjen. (Gröna klamrar)
Dessa är såväl positiva som negativa
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
Avståndet mellan en punkt (restaurang) med koordinaterna (xi , yi ) och linjen kan skrivas:
yi står alltså för kvartalsförsäljningen
xi står för antalet studenter
Summan av alla avstånd blir
men denna summa blir 0 så fort de negativa avstånden ”tar ut” de positiva även om de faktiska avstånden (absolutavvikelserna) skulle vara mycket stora.
Det är alltså inte särskilt vettigt att använda sig av positiva och negativa avstånd.
)( 10 ii xbby
10
110 ))((
iii xbby
för restaurang i
För att förtydliga det här med summatecknet:
10
10
1010
101010
21021101
10
110
140101300
26202
6105258
bb
bb
bbbb
xbby
xbbyxbby
xbbyi
ii
Det är ganska enkelt att hitta värden på b0 och b1 så att detta blir =0, dvs. Så att de positiva och negativa avstånden tar ut varandra.
t.e.x b0=0, b1=9.29 ; b0=50, b1=5.71 ; b0=100, b1=2.14 …
Hur vore det då att utnyttja absolutavvikelserna:
?
(Absolutbeloppet | · | är sådant att t ex |2|=2 och |2|=2 )
Vi borde då välja b0 och b1 så att summan av alla absolutavvikelser
blir så liten som möjligt.
Fullt tänkbart och vettigt för vissa datamaterial men matematiskt svårt.
)( 10 ii xbby
10
110 )(
iii xbby
Matematiskt enklare blir att välja b0 och b1 så att följande summa minimeras:
De resulterande värdena på b0 och b1 kalla Minsta Kvadrat – skattningarna av linjens parametrar (se längre fram)
Hur går detta till?
10
1
210 )(
iii xbby
Låt
Dvs. Q är en matematisk funktion av b0 och b1.
För att minimera denna krävs att vi deriverar Q med avseende på såväl b0 som b1 , sätter dessa derivator till 0 och löser ut b0 och b1 ur det ekvationssystem som då bildas.
10
1
21010 )(),(
iii xbbybbQ
xbyb
xx
yxyx
xx
yyxxb
ii
iii
ii
iii
10
210
1
2
10
!10
1
2
10
11
10
10
Matte!!
Vi behöver alltså beräkna xy , x2 samt medeltalen för x och y ur vårt datamaterial:
x y x2 x·y
2 58 4 116
6 105 36 630
8 88 64 704
8 118 64 944
12 117 144 1404
16 137 256 2192
20 157 400 3140
20 169 400 3380
22 149 484 3278
26 202 676 5252
140 1300 2528 21040
Medel 14 130
60145130
514102528
130141021040
0
21
b
b
Den resulterande linjen blir då
y=60+5·x
60
5
x
y
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
x
y
y=60+5·x
Om alla dessa summor
Ur beräknings- och skrivmässig synvinkel är det bra att använda snabbformler och dessutom ha bra beteckningar på ingående summor
Vänj er därför vid följande:
n
i
xx
xy
iiiiiiiixy
iiiiyy
iiiixx
SS
SSb
n
yxyxyxnyxyyxxSS
n
yyynyyySS
n
xxxnxxxSS
1
1
2
2222
2
2222
sägsannat inget ombetyder
)()(
)(
)(
Notera dock att kursboken (AJÅ) använder sig av ytterligare en formelvariant för b1 (som skrivs b i AJÅ):
Alla formler ger samma värde, men AJÅ motiverar denna formel med att den är enklare beräkningsmässigt. Samma argument kan användas för följande fjärde variant av formeln:
2
11
2
1111
n
ii
n
ii
n
ii
n
ii
n
iii
xxn
yxyxn
bb
n
x
x
n
yx
yx
bn
iin
ii
n
ii
n
iin
iii
2
1
1
2
11
11
Alla formler är helt ekvivalenta. Det handlar egentligen bara om var man placerar n:et
Om sambandet mellan y och x är linjärt, dvs. följer en rät linje, gäller detta överallt?
Svar: Nej! Endast i det område där vi har observationer.
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
Vad har detta med statistik att göra?
Om det finns ett generellt linjärt samband mellan y och x
Vi kan knappast ha sådan tur att vi prickar in detta exakt med de 10 observationer vi har.
Data utgörs av ett urval.
Nytt urval Nya punkter Annan anpassad rät linje
y=60+5·x skall ses som en skattning av det bakomliggande generella sambandet, den teoretiska räta linjen
Modell:
Låt y och x ha ett teoretiskt samband enligt:
E (y )= μy|x = 0 + 1· x
dvs. väntevärdet hos y (eller det genomsnittliga värdet hos y ) beror linjärt av det aktuella värdet hos x .
Försäljning senaste kvartal
0
50
100
150
200
0 10 20 30
Antal studenter (i 1000-tal)
1000-t
als
Eu
ro
För varje värde på x tänker vi oss att det finns en (del)population av möjliga värden på y sådan att sambandet stämmer, dvs. att väntevärdet av y är lika med y-värdet i den punkt på linjen som motsvarar x-värdet.
Det inses att en anpassad linje b0+b1·x kan få många olika utseenden beroende på vilka punkter som fås i urvalet.
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
Korrelation
I vardagligt tal hör man ofta resonemang som talar om huruvida två företeelser är korrelerade. Detta sätt att uttrycka sig är något missvisande.
Två företeelser kan ha ett samband men att de är korrelerade innebär att detta samband är till stor del linjärt.
Ett perfekt linjärt samband mellan två variabler är det starkaste samband som finns. För två sådana variabler y och x betyder det att känner man till den ena så känner man automatiskt till den andra.
För ett datamaterial av det slag vi hittills har tagit upp (dvs. n parvisa observationer av två variabler y och x ) mäts graden av linjärt samband med den s.k. korrelationskoefficienten:
n
ii
n
ii
n
iii
yyxx
yyxx
r
1
2
1
2
1
r antar endast värden mellan –1 och 1.
Om r = 0 kan inget linjärt samband sägas finnas (okorrelerade variabler) och om r = +1 eller –1 råder perfekt linjärt samband.
Även här finns beräkningstekniskt sett ”enklare” formler för r :
n
y
yn
x
x
n
yx
yx
yynxxn
yxyxn
ynyxnx
yxnyx
r
n
iin
ii
n
iin
ii
n
ii
n
iin
iii
n
ii
n
ii
n
ii
n
ii
n
ii
n
ii
n
iii
n
ii
n
ii
n
iii
2
1
1
2
2
1
1
2
11
1
2
11
22
11
2
111
2
1
22
1
2
1
Notera likheten mellan b och r, men märk väl att det är två skilda storheter!
r mäter alltså graden av linjärt samband
medan
b anger hur det innehållande linjära sambandet ser ut
I vårt exempel blir
Jämför detta med b = 5 som ju är ett helt annat värde.
Värdet r = 0.95 anger att graden av linjärt samband är mycket hög, näst intill perfekt. Vidare är sambandet positivt, dvs. höga värden hos den ena variabeln åtföljs som regel av höga värden hos den andra och motsvarande för låga värden.
Ett negativt värde på r anger ett negativt samband, dvs. höga värden hos den ena variabeln åtföljs som regel av låga värden hos den andra och vice versa.
95.01301018473014102528
130141021040
18473020210558
22
22210
1
2
r
yi
i
En modell som beskriver sambandet mellan ett enskilt värde yi och ett enskilt värde xi kan nu skrivas
yi= 0 + 1 · xi+i (1)
där i är en slumpvariabel med väntevärde 0.
Vanligast är att anta att i är fördelad N (0, )
0 + 1 · xi är då det betingade väntevärdet av yi givet att x=xi .
kan också skrivas e eller bara kort .
Med modellen (1) kan vi förklara varför observationerna inte ligger samlade på en rät linje, medan deras genomsnittliga värden gör det.
Man kan visa att statistiskt har då punktskattningarna b0 och b1 följande egenskaper (stickprovsfördelningar):
211
2
2
00
,~
1,~
xxNb
xx
x
nNb
i
i
där i detta exempel n=10.
Räknar vi ut termerna innehållande x-värden får vi
)042.0,(83.23
,~
667.0,~
111
00
NNb
Nb
Skattning av :
I ett ”vanligt” stickprov med observationer y1 , y2,…, yn skattar vi populationsvariansen, 2 med
Här måste vi ersätta med något som följer genomsnittsvärdet hos y då x ändras. Bäst är att sätta in uttrycket för den skattade linjen:
Observera att vi här dividerar med n – 2 i stället för n – 1. Orsaken är att vi annars underskattar 2 (Samma skäl som till varför vi tidigare dividerade med n – 1 och inte med n. )
Eftersom vi egentligen skattar en linje och inte använder den teoretiska linjen är det mer korrekt att skriva ekvationen för denna som
Det blir då naturligt att förkorta skrivsättet för se2 enligt
Termen brukar betecknas ei och kallas residual (avvikelsen mellan observerat värde och anpassat värde) och kan vara såväl positiv som negativ.
se kallas därför ofta residualspridningen och se2 residualvariansen
n
ii yy
ns
1
222
1
1
y
n
iiie xbby
ns
1
210
22
2
1
xbby 10ˆ
n
iiie yy
ns
1
22 ˆ2
1
ii yy ˆ
x y ŷi yi - ŷi
(yi – ŷi )2
2 58 70 –12 144
6 105 90 15 225
8 88 100 –12 144
8 118 100 18 324
12 117 120 –3 9
16 137 140 –3 9
20 157 160 –3 9
20 169 160 9 81
22 149 170 –21 441
26 202 190 12 144
140 1300 1300 0 1530
83.1325.191och
25.1911530)210(
12
e
e
s
s
n
iiie yy
ns
1
22 ˆ2
1
De gröna klamrarna visar residualerna e1, e2, …, e10
och det är standardavvikelsen hos dessa som beräknas till se=13.83
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
Mer terminologi och beräkningsteknik:
se2 har en mer internationell beteckning. Vanligt är att beteckna
Square Sum of Errors.
På svenska säger man residualkvadratsumman. (Residual översätts ibland till Error)
se2 blir då SSE/(n–2) och denna brukar internationellt även betecknas MSE (Mean
Square sum of Errors)
Vanligen skriver man också s och s2 och utelämnar alltså ”e” i beteckningen.
För att beräkna SSE behöver man inte gå den ”långa” vägen som vi gjorde tidigare. Man kan visa att
De ingående summorna skrivs (enligt ovan) enklare som
n
iii yySSE
1
2ˆ
xyyy
n
i
n
iiii SSbSSyyxxbyySSE
1
1 11
2
n
i
n
iiiii
n
i
n
iii
yxnyxyyxx
ynyyy
1 1
1 1
222 och sätts in i formeln:
iiii yxbybySSE 102
Med värden i exemplet erhålls:
eller snabbare:
83.1325.191
25.191)210/(1530
15302840515730
2840130141021040
1573013010184730
2
1
210
1
22
MSEs
MSEs
SSE
yxnyx
yny
e
e
n
iii
ii
etc.
1530210405130060184730
10
11
10
10
10
1
2
i
iii
ii
i yxbybySSE
Vi understryker att summorna
har beräkningstekniskt enklare former.
Alla dessa kommer att stå i formelsamlingen. Använd dem och inte den mer tidsödande metoden att beräkna samtliga differenser, kvadrater och/eller produkter innan de summeras.
“Vanliga” fel:
yyxxyyxx iiii ,,22
yyxxyyxx
yxyx
xxyy
n
ii
n
ii
n
iii
n
ii
n
ii
n
iii
n
ii
n
ii
n
ii
n
ii
111
111
2
11
2
2
11
2 och
Låt t.ex. n = 3 och x1 = 1 , x2 = 2 , x3 = 3 samt y1 = 2 , y2 = 4 , y3 = 5
Testa och upptäck att ovanstående stämmer!
Med hjälp av s kan vi beräkna konfidensintervall för
• 0
• 1
• 0 + 1 ·x0 dvs. väntevärdet hos y då x= x0 eller annorlunda betecknat
Vi kan också testa hypoteser rörande specifika värden hos dessa parametrar.
Vidare kan vi beräkna s k prognos- eller prediktionsintervall för det faktiska värdet hos y då x= x0
0|xy
Exempel:
Ett 95% konfidensintervall för 1 beräknas med formeln
där t0.025,n–2 hämtas från en tabell över t-fördelningen med n – 2 frihetsgrader.
Observera att vi alltså har en frihetsgrad mindre här jämfört med de test och intervall ni beräknade i grundkursen
Med våra data får vi
22
2,025.0122,025.01
xnx
stb
xx
stb
i
n
i
n
3.10.5
14102528
83.135
2
306.2
8,025.0
t
Antag också att vi vill testa följande hypotes:
H0: 1 =0
mot Ha: 1 0 på 5% nivå
dvs. vi vill testa om det överhuvudtaget förekommer något linjärt samband mellan y och x.
Alt. 1: Använd det nyss framräknade 95%-iga konfidensintervallet. Om detta inte omfattar värdet 0 kan H0 förkastas på (100-95)%=5% nivå.
Intervallet 5.0 1.3 = (3.7 , 6.3) omfattar inte värdet 0 och alltså kan H0 förkastas
Alt. 2: Använd ett formellt test. Teststorheten blir då
där 1,0 är värdet på 1 i nollhypotesen, dvs i vårt fall =0. (Vanligast men det finns situationer då det är ett annat värde.)
1
0,110,11
2
0,11
bxxis
b
SSs
b
xxs
bT
H0 förkastas om teststorheten är <t0.0025,n-2 eller > t0.0025,n-2 eftersom alternativhypotesen är dubbelsidig.
Med våra data:
62.8
1410252883.13
052
T
8.62>2.306 H0 förkastas
Konfidensintervall och test kan också göras för parametern β0 . Formler för detta kommer att finnas i formelsamlingen.
Om dock datamaterialet ligger på ett tydligt avstånd från y-axeln blir tolkningen av β0 av liten betydelse.
Det linjära sambandet gäller ju bara inom datamaterialets gränser.
Antag nu att vi vill skatta väntevärdet av y för ett specifikt värde x0 hos x , dvs. vi vill skatta
x0 kan vara en punkt inom datamaterialets gränser för vilken inga observationer finns.
Alternativt: Vi vill skatta det genomsnittliga värdet av y för alla observationer i populationen för vilka x = x0
0|xy
En väntevärdesriktig punktskattning av blir
Kombination av de statistiska egenskaperna hos b0 och b1
Ett 95% konfidensintervall för blir
0100ˆ xbby
2
2
02,025.0010
2
2
02,025.00
1
1ˆ
xx
xx
nstxbb
xx
xx
nsty
i
n
i
n
0|xy
0|xy
Väntevärdesriktig: Om förfarandet
upprepas gång på gång kommer de i genomsnitt att bli = 0|xy
Notera alltså att det är samma t-fördelning som tidigare. Denna bestäms uteslutande av SSE.
Antag t ex att vi vill skatta då x0=10, dvs. en restaurang vid ett campus med 10000 studenter. (Detta värde finns ju inte representerat bland observationerna, men ligger inom datamaterialets gränser.)
Ett 95% konfidensintervall blir då
)4.121,6.98(4.110.110
14102528
1410
10
183.13306.210560 2
2
0|xy
2
2
02,025.0010
1
xx
xx
nstxbb
i
n
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
Förutom att skatta väntevärdet hos y i en ny punkt kan vi också vilja göra en prognos eller prediktion av det faktiska värdet hos y i denna punkt.
Punktprognos:
Sammanfaller med punktskattningen av väntevärdet, dvs.
Osäkerhet i denna prognos?
Prognosfelet kan uttryckas:
Detta prognosfel har väntevärde 0 samt en osäkerhetskomponent i själva värdet y0 och en osäkerhetskomponent i prognosen.
Variansen för prognosfelet blir
ty den nya punkten har ej ingått i beräkningen av prognosen, vilket gör de två variablerna oberoende.
y0= 0 + 1 · x0 + 0 Var (y0 ) = Var (0 ) = 2
0100ˆ xbby
000 yye
)ˆ()()ˆ( 0000 yVaryVaryyVar
Variansen hos prognosen blir (enligt tidigare beräkningar och kombinationer):
Om vi skattar 2 med s2 i variansuttrycken erhålls t. ex.
• ett 95% osäkerhetsintervall för prognosfelet:
•ett 95% prognos- eller prediktionsintervall för y0 :
Prognosintervall är inte konfidensintervall och dess bredd blir betydligt större än bredden hos motsvarande konfidensintervall för
2
202
01
)ˆ(xx
xx
nyVar
i
2
2
02,025.0
110
xx
xx
nst
i
n
2
202
2
2022
001
11
)ˆ(xx
xx
nxx
xx
nyyVar
ii
2
2
02,025.00102
2
02,025.00
11
11ˆ
xx
xx
nstxbb
xx
xx
nsty
i
n
i
n
0|xy
Ett 95% prognosintervall för y då x0=10 blir
)9.143,1.76(9.330.110
14102528
1410
10
1183.13306.210560 2
2
Försäljning senaste kvartal
0
50
100
150
200
250
0 10 20 30
Antal studenter (i 1000-tal)
1000
-tal
s E
uro
I den tidigare läroboken (och i formelsamlingen) används ibland följande definition
Uttrycket kan nämligen ses som avståndet i x-led från den nya punkten till centrum av alla punkter när man tar hänsyn till att det finns kopplingar mellan punkterna.
Detta synsätt underlättar uppställningen av motsvarande intervall vid multipel linjär regression.
En något tydligare tolkning av Distance value kommer att ges längre fram.
xxi
SS
xx
nxx
xx
n
20
2
20 11
valueDistance
Residualanalys
Residualerna ei = yi – ŷi kan användas till mer än bara variansskattning.
De residualer vi erhållit i vår analys är:
x y ŷi ei = yi - ŷi
2 58 70 –12
6 105 90 15
8 88 100 –12
8 118 100 18
12 117 120 –3
16 137 140 –3
20 157 160 –3
20 169 160 9
22 149 170 –21
26 202 190 12
Notera att
ei= yi - ŷi= 0 + 1 · xi + i - ( b0 + b1 · x ) = (0 – b0 ) + (1 - b1) · xi + i i
om vi antar att b0 och b1 är bra skattningar av 0 och 1 .
Vi kan förvänta oss att e1,…, e10 skall bete sig ungefär som oberoende och N (0, )-fördelade.
Oberoende? Normalfördelade?
Plott i observationsordning
-30
-20
-10
0
10
20
1 2 3 4 5 6 7 8 9 10
Obs. nr.
Re
sid
ua
l
100-10-20
Punktdiagram
Verkar vara konstant och oberoende av nivån hos y?
Plott av residualer mot anpassade värden
-30
-20
-10
0
10
20
0 50 100 150 200
Anpassade värden
Re
sid
ua
l
ŷi
ei
Finns det något samband kvar mellan y och x som ej har tagits med i regressionen?
Plott av residualer mot x-värden
-30
-20
-10
0
10
20
0 10 20 30
x i
Re
sid
ua
l (ei)
”Typiska”
Histogram
Mot anpassade värden
I tidsordning
Mot x-variabeln
0
1
2
3
4
5
6
7
8
9
-0.7 -0.23 0.23 0.7
0
1
2
3
4
5
6
-0.7 -0.23 0.23 0.7 1.17 1.64 2.11 More
-2
-1.5
-1
-0.5
0
0.5
1
1.5
0 1 2 3 4 5 6 7
-5
-4
-3
-2
-1
0
1
2
3
0 1 2 3 4 5 6 7
-2
-1.5
-1
-0.5
0
0.5
1
1.5
0 5 10 15 20 25
-1.5
-1
-0.5
0
0.5
1
0 5 10 15 20 25
-2
-1.5
-1
-0.5
0
0.5
1
1.5
0 5 10 15 20 25
-1.5
-1
-0.5
0
0.5
1
1.5
2
0 5 10 15 20 25
OK Inte OK
Exempel på datorkörning med Minitab:
MTB > print c1 c2
Data Display
Row x y
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
y=b0+b1·x
30150-15-30
99
90
50
10
1
Residual
Perc
ent
200150100
20
10
0
-10
-20
Fitted Value
Resi
dual
20100-10-20
3
2
1
0
Residual
Fre
quency
10987654321
20
10
0
-10
-20
Observation OrderR
esi
dual
Normal Probability Plot Versus Fits
Histogram Versus Order
Residual Plots for y
Tas upp senare i kursen
Krav på variabler i regressionsanalys
Kan regressionsanalys alltid användas för att beskriva ett samband mellan två variabler y och x ?
Nej!
Det samband som beskrivs av en regressionsmodell är linjärt i sin konstruktion.
Alla koefficienter kan tolkas som en absolut förändring i y-variabeln när x-variabeln ökar med en enhet.
Det måste finnas en “mening” med att x-variabeln ökar en enhet och en “mening” i en absolut förändring av y-variabeln.
02468
1012141618
0 2 4 602468
1012141618
0 2 4 6
Verkar en ökning av x med en enhet ge i princip samma förändring i y-led överallt i bägge figurerna?
y-variabeln måste vidare vara på intervallskala.
dvs. det finns ett väldefinierat avståndsmått mellan värdena. T.ex. är avståndet mellan 2 och 4 lika stort som avståndet mellan 5 och 7.
Sådant är inte alltid fallet.
Tag t.ex. en variabel som utgörs av attityder till en annons.
En sådan variabel kanske har graderna 1, 2, 3 och 4, där 1 innebär “gillar inte alls” och 4 innebär “gillar verkligen”.
Avståndet mellan 1 och 2 är för denna variabel inte lika stort som avståndet mellan 2 och 3 eller mellan 3 och 4.
x-variabeln måste egentligen också vara på intervallskala, men det finns ett undantag:
Om variabeln endast kan anta två värden , t.ex. “småföretag” och “storföretag” kan dessa kodas med värden 0 och 1 och variabeln kan användas.
Avståndsmåttet har ingen betydelse här eftersom det endast finns två värden.
Dock blir tolkningen litet speciell. Det går att öka x med en enhet om nuvärdet är 0, men inte om nuvärdet är 1. Tolkningen av koefficienten blir då följande:
Om x = 0 så är y = 0 + , och om x = 1 så är y = 0 + 1 +
b0 blir en skattning av genomsnittet hos y när x = 0 (i exemplet för småföretag)
b0 + b1 blir en skattning av genomsnittet hos y när x = 1 (i exemplet för storföretag)
Kvadratsummeuppdelning/Variansanalys
Låt
dvs. ”råvariationen” bland y-värdena får ytterligare en beteckning (Square Sum of Total variation)
Tidigare har vi sett att SST inte duger som bas för en skattning av 2
Man kan visa att
dvs. SST kan delas upp i två kvadratsummor varav den ena är SSE.
Den andra, betecknad SSR, innehåller den del av den totala variationen som inte är slump utan beror på regressionssambandet mellan y och x.
SSR står för Square Sum of Regression och det svenska namnet är regressionskvadratsumma.
I exemplet från föreläsning med pizzarestaurangerna är
SST= 15730 och SSE=1530
SSR=15730 – 1530 = 14200
yyi SSyySST 2
SSR
yy
SSE
yy
SST
yy iiii 222ˆˆ
Förklaringsgrad
Den del av SST som utgörs av SSR , dvs. den del av den totala variationen som utgörs av regressionssambandet kallas förklaringsgrad och betecknas r2 , dvs.
Ju högre förklaringsgrad, desto bättre lyckas vår skattade modell förklara variationen i data Modellen kan anses vara bra.
I exemplet med pizzarestaurangerna blir
dvs. 90.3% av den totala variationen i y kan sägas förklaras av sambandet med x.
Notera!
I den enkla regressionsmodellen är förklaringsgraden = (korrelationskoefficienten)2
Däremot behöver inte r = kvadratroten ur r2. Det är den bara om sambandet är positivt!
SSTSSR
r 2
%3.90903.015730
142002 r
r är som tidigare också korrelationskoefficienten
F-test:
Kvadratsummeuppdelningen SST=SSE+SSR kan användas till mer än bra förklaringsgrad.
Tidigare har vi tagit upp begreppet frihetsgrader
har n1 frihetsgrader ty om n1 av termerna i summan är kända så kan man räkna ut den n:e.
Motsvarande argument SSE har n2 frihetsgrader
I kvadratsummeuppdelningen SST=SSE+SSR gäller att antalet frihetsgrader till vänster om likhetstecknet skall vara samma som till höger
SSR har (n1) (n2) = 1 frihetsgrad
2yySST i
Vi har tidigare definierat
MSE=SSE/(n2)
MSE är en medelkvadratsumma och erhålls alltså genom att dividera SSE med dess frihetsgrader
Motsvarande definierar vi då MSR=SSR/1 (= SSR )
Betrakta åter hypotesprövningen
H0: 1 =0
Ha: 1 0
Om H0 är sann kan man visa att kvoten MSR/MSE får en regelbunden sannolikhetsfördelning över alla tänkbara stickprov av data.
Fördelningen brukar kallas F-fördelning .
Fördelningen kännetecknas av att den alltid är över positiva värden på x-axeln.
(Just i vårt exempel med 1 frihetsgrad i SSR börjar den dock inte i 0)
Om nollhypotesen är sann skall vi alltså få ett värde på MSR/MSE som ligger väl i linje med denna fördelning.
Om nollhypotesen (H0: 1 =0 ) inte är sann:
Det finns ett regressionssamband mellan y och x
Förklaringsgraden borde vara hyfsat hög vilket den blir om SSR utgör en stor del av SST. (SST=SSE+SSR )
Kvoten MSR/MSE borde bli högre än vad den är om inget regressionssamband finns.
Nollhypotesen bör förkastas om värdet hos MSR/MSE ligger ”långt ut” i den högra svansen av F-fördelningen
Man jämför alltså MSR/MSE med ett tabellvärde hämtat ur F-förd.
F-fördelningen bestäms av frihetsgraderna hos de två kvadratsummorna, i exemplet med pizzarestaurangerna blir de 1 resp. 10 – 2 = 8
F1,8 -fördelning
Vidare har vi i exemplet MSR = 14200/1= 14200 och MSE= 1530/8=191.25
MSR/MSE=14200/191.25 72.25
Statistical table of F distribution, alpha = 0.05
http://www.statsoft.com/textbook/sttable.html#f05, 2009-10-30
Kritisk gräns blir 5.32
72.25 > 5.32 H0 förkastas på 5% nivå