georg lindgren programforklaring i - maths.lth.se · 3.1 3.2 ml−skattning = ... 1 13 25 37 49 61...

Statistik for modellval och prediktionatt beskriva, forklara och forutsaga

Georg Lindgren

Matematisk statistik, Lunds universitet

Statistik for modellval och prediktion – p.1/42

PROGRAMFORKLARING I


Beskriva, forklara, forutsaga

Statistikens uppgift: att skilja systematiskasamband fran slumpmassig variation

Tre nivaer:

• att beskriva observerad variation och samband• histogram, fordelningsanpassning, skattningar

• att forklara variation och samband genom genomtolkbara modellval• skattningar, osakerhet, test

• att forutsaga variation – normal och extrem• modellvalidering


Ett exempel: vagriktning och vaghojd

0 100 200 300 4000

50

100

150Våghöjd

0 100 200 3000

50

100

150

200Riktning

0 50 100 150 200 250 300 3500

100

200

300

400Samvariation riktning − våghöjd


http://www.maths.lth.se/matstat/staff/georg/

Riktningsfordelning


Ex: Uppdelning i normalfordelningar

0 50 100 150 200 250 300 3500

0.002

0.004

0.006

0.008

0.01

0 50 100 150 200 250 300 3500

0.2

0.4

0.6

0.8

115

Uppdelning av våghöjd i två normalfördelningar

Sannolikhet för tillhörighet

Riktnings- och hojdfordelning kan var for sig delas upp i tvanormalfordelningar – stods inte av tvadimensionell plott.


REPETITION


Lite repetition

Data = observationer x1, . . . , xn av en stokastisk(slump-)variabel X

Fordelningsfunktion CDF:

FX(x) = Prob(slumpvariaben ≤ x)

Empirisk fordelningfunktion EDF:

Femp(x) =antalet observationer ≤ x

n

Kvantil qα ar sadan att FX(qα) = 1 − α

Alternativt “the return period”FX(q1/α) = 1 − α


Mer repetition

Sannolikhetstathet PDF, for stokastisk variabel X:

fX(x) : fX(x) dx = P(x ≤ X ≤ x + dx)

Histogram motsvarar EDF

Vantevarde = (medelvarde) = tyngdpunkt i fordelningen:

E(X) =

∫x fX(x) dx = mX

Varians = (standardavvikelse)2

V(X) = σ2 = E((X − mX)2)

D(X) =√

V(X) = σ


Oberoende, beroende, betingning

• Oberoende handelser: P(A och B) = P(A) · P(B)

• Oberoende matningar:

P(x ≤ X ≤ x + dx och y ≤ Y ≤ y + dy)

= fX(x)fY (y) dx dy

• Betingad sannolikhet for handelse A om B:

P(A | B) =P (A och B)

P(B)


Summor och medelvarden

• Vantevarden adderas alltid

E(X1 + . . . + Xn) = E(X1) . . . + E(Xn)

• Varianser av oberoende variabler adderas

V(X1 + . . . + Xn) = V(X1) . . . + V(Xn)

• For medelvardet X = (X1 + . . . + Xn)/n av oberoende

observationer med vantevarde m och varians σ2 betyderdetta att

E(X) = m

V(X) = σ2/n, D(X) = σ/√

n


Rep: normalfordelning

Normalfordelning N(m,σ) har vantevarde m och varians σ2:

fX(x;m,σ) =1

σ√

2πe−(x−m)2/2σ2

−5 0 5 10 150

0.02

0.04

0.06

0.08

0.1

0.12

0.14

67% inomm ± σ

95% inom m ± 2σ

PDF förN(5,3)


Rep: Exponentialfordelning

Exponentialfordelning Exp(µ) har PDF och CDF

fX(x) =1

µe−x/µ, FX(x) = 1−e−x/µ, x ≥ 0, E(X) = D(X) = µ

0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

ExponentialfördelningHistogram och PDF

E = D = µ = 5


Extremvardesfordelningar

Exponentialfordelningen ar en slags extremvardesfordelningfor minimum liksom Weibullfordelningen.

Minimum av oberoende exponentialfordelade variabler arexponentialfordelad

Vantetider mellan handelser som kan orsakas av mangaoberoende aktorer har ofta en exponentiell fordelning –“nastahandelse” ar alltid den som intraffar forst – snabbast att dravinner! Handelseintensiteten = 1/µ

1

µ(min)=

1

µ1+ . . . +

1

µn


Minimum av tre exponential

0 2 4 6 8 10 12 14 16 18 200

50

100

0 2 4 6 8 10 12 14 16 18 200

50

100

0 2 4 6 8 10 12 14 16 18 200

50

100

0 1 2 3 4 5 6 70

50

100

Histogram för minimum av tre exponentialvariabler


Andra extremvardesfordelningar

Gumbelfordelning =“Extremvardesfordelningen”for maximumhar PDF:

fX(x) = e−e−(x−a)/b

Weibullfordelningen ar en extremvardesfordelning forminimum har CDF:

FX(x) = 1 − e−((x−a)/b)c

, x > a

Maximum av Gumbel ar Gumbel !

Minimum av Weibull ar Weibull !


Ett hjalpmedel: fordelningspapper

Anpassa skalor sa att CDF blir en rat linje:

0 5 10 15 20 25−4

−2

0

2

4Normal Probability Plot

Qua

ntile

s of

sta

ndar

d no

rmal

0.01%0.1%0.5%1%2%5%10%30%50%70%90%95%98%99%99.5%99.9%99.99%

5 10 15 20−4

−2

0

2


Qua

ntile

s of

sta

ndar

d no

rmal

0.01%0.1%0.5%1%2%5%10%30%50%70%90%95%98%99%99.5%99.9%99.99%

0 5 10 15 20 25−4

−2

0

2


Qua

ntile

s of

sta

ndar

d no

rmal

0.01%0.1%0.5%1%2%5%10%30%50%70%90%95%98%99%99.5%99.9%99.99%

0 5 10 15−4

−2

0

2


Qua

ntile

s of

sta

ndar

d no

rmal

0.01%0.1%0.5%1%2%5%10%30%50%70%90%95%98%99%99.5%99.9%99.99%


PROGRAMFORKLARING II


Modellval – anpassning – validering

Mal pa tre nivaer: att sa bra som mojligt

B: beskriva – valj fordelningstyp och“skatta”parametrar, sam-manfattar det man har sett

F: forklara – valj fordelningstyp och modell for samband(logiskt, fysikaliskt, tolkbart) och skatta parametrar – provahypotes – uppskatta osakerhet

P: forutsaga – valj modell, validera, extrapolera utanfor detredan sedda – vad kan handa


Beskriva


B: Data eller modellantaganden?

Ju mer data man har desto farre modellantaganden behovs!

B, beskriva: Modell + lite data eller mycket data

Likelihood-principen: Valj den modell och de parametrar somgor att data och modell stammer bast overens i statistiskmening

Likelihood-funktionen i modellen med PDF fX(x; θ) ar propor-tionell mot sannolikheten att fa de data x1, . . . , xn man fatt:

L(x1, . . . , xn; θ) =∏

j

fX(xj ; θ)

OBS: P(X ∈ [xj , xj + dx]) = fX(xj) dx


Exempel pa ML-skattning

−5 0 5 10 150

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

Blå: sann pdfm=5σ=3

Röd: "bästa" pdfm=4.3 σ=2.9

ML−skattningmed 100 observationer


Normalobservationer och likelihood

−4 −2 0 2 4 6 8 10 12−1

−0.5

0

0.5

1

−4 −2 0 2 4 6 8 10 120

0.5

1

1.5

2

2.5x 10

−32

Likelihood−funktion Rätt m och σ

Fel m och σFel m rätt σ


ML-skattning vid normalfordelning

Observationer x1, x2, . . . , xn fran en fordelning med pdffX(x; θ), t ex N(m,σ):

fX(x) =1

σ√

2πe−(x−m)2/2σ2

.

ML-skattningen ar de varden pa m och σ man skall anvanda imodellen N(m,σ) for att det skall bli maximalt troligt att manskall fa det man verkligen fick!

m∗ = x =1

n

∑

i

xi

σ∗ = s =

√1

n

∑

i

(xi − x)2


Likelihood-funktion for normalfordelning

Likelihood-funktionen ar proportionell mot“sannolikheten attfa just de varden som man fatt”, som funktion av de okandaparametrarna:

L(m,σ;x1, . . . , xn) =∏

i

fX(xi;m,σ)

for normalfordelningen:

`n(m,σ) = log Ln = −n log σ − n

2log(2π) − 1

2σ2

∑

i

(xi − m)2


ML-skattning i exponentialfordelning

• Skatta vantevardet µ med hjalp av x1, . . . , xn

• PDF: fX(x) = (1/µ) e−x/µ, x > 0

• Likelihoodfunktion

L(µ;x1, . . . , xn) =1

µne−

P

j xJ/µ

`(µ) = −n log µ − (1/µ)∑

xj

• Derivera och satt derivatan = 0

− n

µ+

1

µ2

∑xj = 0

• Ger maximum for µ =∑

xj/n = x


Likelihood-ytan har maximum i ML-skattningen

4.2 4.25 4.3 4.35 4.4 4.45 4.52.6

2.7

2.8

2.9

3

3.1

3.2

ML−skattning = maximipunkten i Likelihoodytan

m* = 4.3422σ * = 2.8647

m

σ


Skattningar i andra fordelningar

Exempel: I exponentialfordelningen Exp(µ), dvs PDF

fX(x) = (1/µ) e−x/µ ar ML-skattningen

µ∗ = x

precis som for normalfordelningen.

ML-skattningen ar ofta enkel att berakna – se Blom – antin-gen exakt med formel, som for normal- och exponentialfordel-ningarna, eller med ett numeriskt optimeringsprogram som forWeibull eller Extremvardesfordelningarna – aven blandningsex-emplet med vaghojd och riktning.

Man kan ocksa jamfora olika fordelningstyper med hjalp avLikelihoodfunktionen – den med hogst likelihood passar bast!


ML-skattning med kovariater

10 ars manadsvarden fran en exponentialfordelning – arvantevardet manadsberoende?

1 13 25 37 49 61 73 85 97 1090

5

10

15

20

25

3010 års månadsdata




1 13 25 37 49 61 73 85 97 1090

5

10

15

20

25





1 13 25 37 49 61 73 85 97 1090

5

10

15

20

25



Modell och skattning

• Maximering av likelihood-funktionen med

µ(t) = a + b sin 2πt/12

L(a, b) =∏

t

(1/µ(t) e−xt/µ(t)

ger ML-skattningar a∗ = 3.88, b∗ = 2.52

• Om manadseffekt saknas ar b = 0.

• Skatta aven c i den utokade modellen

µ(t) = a + b sin(2πt/12 + c)


Ar b = 0 ?

Likelihood-funktionen b ⇒ L(a∗, b) visar om b kan vara 0!

−1 −0.5 0 0.5 1 1.5 2 2.5 3−300

−295

−290

−285

−280

−275

−270

−265Profil−likelihood, a=3.88

log L(b)

b* = 2.52


Forklara


F: Forklara – osakerhet, konfidens, test

Hur saker ar man pa sin anpassade modell? Hur osaker ar skat-tningen θ∗ av en parameter, t ex θ = medeltemperaturhojnin-gen per ar ?

Kan det tankas att parametern θ ar 0 ?

Konfidensomrade for en skattad parameter ar ett omradeberaknat fran observerade data, som med viss given sanno-likhet, konfidens, innehaller det efterfragade parametervardet.

Om data avviker fran nagon uppsatt hypotes sa kan man fragasig om avvikelsen ar ett tecken pa att hypotesen ar fel.Signifikans ar sannolikheten att fa sa “avvikande” varden somman faktiskt fatt, om hypotesen skulle vara sann.


Konfidensomrade

Likelihood-ytans krokning ger en uppskattning av osakerheten:

Liten krokning, t ex i m-led, ⇒manga m-varden passar ungefar lika bra till data ⇒stor osakerhet i skattningen av m.

Osakerheten i skattningarna anges med ett konfidensomradesom med given sannolikhet, konfidens, innehaller det sokta“ratta”parametervardet.


Konfidensintervall vid normalfordelning

Skattningarna av m och σ baserade pa n > 100 observationeri en normalfordelning N(m,σ) har konfidensintervall med 95%konfidens:

Im : x ± 2 s/√

n = 4.34 ± 0.57

Iσ : s ·(

1 ±√

2

n

)= 2.86 · (1 ± 0.14)

T ex n = 200 for ett fel inom ± 10% i skattning av standard-avvikelsen σ.


Forklaring

• Skatta m med enda observation x av en normalvariabelX ∈ N(m,σ)

• Skattningen m∗ = x har osakerheten σ:

P(m − 2σ < X < m + 2σ) = 0.95 = P(X − 2σ < m < X + 2σ)

dvs sannolikheten att hamna inom ±2σ = tvastandardavvikelser fran vantevardet ar 95%.

• Med fler matningar tar man medelvardet X. Det harocksa vantevardet m men variansen σ2/n ochstandardavvikelsen σ/

√n.

• Alltsa: X och m har 95% chans att hamna hogst σ/√

nfran varandra.

• Ersatt σ med skattningen s.


Komplikation vid sma stickprov

Eftersom skattningen σ∗ = s i sig ar osaker maste man modi-fiera x± 2s/

√n vid sma stickprov nar man skall skatta m i en

normalfordelning.

Koefficienten 2 maste bytas mot en “t-kvantil” t0.025(n), somberor av n. For konfidensen 95% galler:

n 10 20 30 40 50

t(n) 2.23 2.09 2.04 2.02 2.01


Allman princip for konfidensomraden

Antag att vi har r okanda parametrar som skall skattas ochforses med osakerhet; t ex θ = σ (r = 1) eller θ = (m,σ)(r = 2) i normalfordelning med kant medelvarde eller medbade medelvarde och standardavvikelse okanda.

Om n = antalet observationer ar“stort”kan man anvanda engenerell, approximativ, metod for att gora ettkonfidensomrade for θ baserad pa log-likelihooden,

`n(θ) = log Ln(θ;x1, . . . , xn).

ML-skattningen θ ar det θ-varde som gor likelihooden sa storsom mojligt. Konfidensomradet skall innehalla de θ-varden somgor likelihooden“nastan lika stor”.


Allman princip vid stora stickprov

Ett 95% konfidensomrade for en r-dimensionell parameter θ

med ML-skattningen θ, dvs `n(θ) = maxθ `n(θ), ar de vardenpa θ som gor

`n(θ) >

`n(θ) − 1.9 om r = 1

`n(θ) − 3.0 om r = 2

`n(θ) − 3.9 om r = 3


Exempel pa likelihood-konfidensintervall

I exemplet med normalfordelning blir konfidensomradena form med 95%, 99%, 99.9% konfidens:

3 3.5 4 4.5 5 5.5−258

−256

−254

−252

−250

−248

−246

95%

99%

99.9%

m*

ln(m)


georg lindgren programforklaring i - maths.lth.se · 3.1 3.2 ml−skattning = ... 1 13 25 37 49 61...

Documents