estymacja bledu predykcji dla logarytmicznej funkcji...

of 33 /33
Estymacja blędu predykcji dla logarytmicznej funkcji straty. Predykcja w modelu liniowym Wyklad II Wisla, grudzień 2009

Author: duongcong

Post on 28-Feb-2019

221 views

Category:

Documents


0 download

Embed Size (px)

TRANSCRIPT

Estymacja bdu predykcji dla logarytmicznejfunkcji straty. Predykcja w modelu liniowym

Wykad II

Wisa, grudzie 2009

Plan

Tw. Takeuchiego: obcienie err w przypadku logarytmicznej funkcjistraty.

Bd 0-1 a bd L2 w problemie klasyfikacji.

Predykcja w modelu liniowym.

Model (iii)

Y1, . . . ,Yn prosta prba losowa f , (Y1,Y2, . . . ,Yn) estymator NW wmodelu M = {f}.

Zauwamy, e (U = {Y1, . . . ,Yn} i L(y , ) = 2 log f(y))

2Ef log f(Y0) = Ef (L(Y 0, )|U) = ErrU = Errin

Skonstruujemy asymptotycznie nieobcione estymatory Err w oparciu oerr .

err =1n

ni=1

L(Yi , NW ) = 2n

ni=1

log fNW (Yi ) = 2 logL(NW )/n

Przyblienie E (err).

Rzut informacyjny f na M = {f}.

minimalizuje odlego Kullbacka-Leiblera f od M = {f}.

= argminEf log(f /f) = argmin{ 2Ef log f(Y 0)

}=

argmin{Ef L(Y 0, )}.

Twierdzenie 2. (Takeuchi (1976)) Przy odpowiednich warunkachregularnoci na M = {f}

Err E (err) = 2ntr{I ()J()1}+ o

(1n

),

gdzie

I () = Ef

{ log f(Y 0)

log f(Y 0) |=

}

J() = Ef

{2 log f(Y 0)

|=

}Idea:

Err E log f(Y 0) E log f(Y 0) E (err) 1ntr{I ()J()1}.

Heurystyka dowodu.

PorwnanienEYn(err) = EYn log fn(Yn) = (1)

z

nErr = nEYn(ErrU ) = nEYnEf log fn(Y0) = (2)

(1) (2) = EYn{

log fn(Yn) log f(Yn)}

+

+EYn{

log f(Yn) nEf log f(Y 0)}

+EYn{nEf log f(Y 0) Ef log fn(Y

0)}

= D1 + D2 + D3.

D2 = 0, D2 =12tr{I ()J()1}+ o(1) = D3

Analiza D1 i D3 oparta na rozwiniciu Taylora. Niech logL = `

`() `(NW ) =12

( NW )2`()

( NW )

Std

`() `(NW ) n2

( NW )J()( NW )

D1 n2EYn(

NW )J()( NW ) =

n2EYn(tr(J(

)( NW )( NW )) 12tr(I ()J()1)

(nE (NW )(NW ) J()1I ()J()1).

Podobnie D3 = 12 tr(I ()J()1) + o(1).

Jeli f M (f = f) to przy warunku2f(x) |=

dx =2

{f(x) dx

}|=

= 0

I () = J() ().

W przypadku bdnej specyfikacji modelu parametrycznego niekoniecznierwno !W przypadku () as. nieobciony estymator Err ma posta

err +2pn

= 2 log L(NW ) +2pn

(kryterium Akaikego (AIC)).W oglnym przypadku (Kryterium Takeuchiego (TIC))

err +2tr I (NW )J(NW )1

n

Model (iv)

Analogiczna wasno do tezy tw. Takeuchiego jest czsto uywana wprzypadku modelu (iv)

Errin = EY0(1n

ni=1

2 log f(Xi )(Y0i )),

gdzie Y 0i niezalenie generowane z rozkadu PY |X=Xi . Wtedy

EY(Errin) EY(1n

ni=1

2 log f(Xi )(Yi ))

+2pn

brak formalnego dowodu ..

EY(Errin|X) 2nEY( ni=1

log f(Xi )(Yi ))

+2pn

()

W przypadku modelu liniowego ze znanym 2 nieobciony estymatorprawej strony () ma posta

RSSn2

+2pn

+ C

(2 zastpowane przez nieobciony estymator)W przypadku modelu liniowego z nieznanym 2 nieobciony estymatorprawej strony () ma posta

log(RSSn

)+

2pn

+ C

.

Przykad Zbir mjap zawiera rekordy dotyczce temperatury (minimalnatemperatura stycznia uredniona z lat 19712000), dugoci, szerokocigeog. oraz wysokoci 26 miast japoskich. Interesuje nas wybr zbioruzmiennych prognozujcego temperatur.

Temp Latitude Longitude Altitude

1 -7.6 45.413 141.683 2.82 -7.7 43.057 141.332 17.2................26 14.3 26.203 127.688 28.1

g=lm(Temp~1,data=mjap) # model pocztkowy

wprzod=step(g,direction="forward",scope=list(upper=.~.+Latitude + Longitude + Altitude))Start: AIC=88.51Temp ~ 1

Df Sum of Sq RSS AIC+ Latitude 1 576.69 147.72 49.17+ Longitude 1 518.12 206.29 57.85+ Altitude 1 93.93 630.48 86.90 724.41 88.51

Step: AIC=49.17Temp ~ Latitude

Warto AIC wynosi dla modelu ze sta 88.5, najwiksza redukcja AICprzy dodaniu Latitude. J wybieramy. Zauwamy, e doczeniezmiennej Altitude spowodowaoby minimaln zmian AIC ( z 88.51 do86.90).

Df Sum of Sq RSS AIC+ Altitude 1 95.098 52.625 24.332+ Longitude 1 12.791 134.931 48.813 147.722 49.168

Step: AIC=24.33Temp ~ Latitude + Altitude

Df Sum of Sq RSS AIC 52.625 24.332+ Longitude 1 0.840 51.785 25.914

W drugim kroku wybieramy jednak Altitude, mimo jej pozornie maejprzydatnoci. Model Temp Latitude + Altitude daje redukcj AICdo 24.3, dodanie Longitude zwiksza AIC wic nie dokadamy jej domodelu.

Dlaczego na drugim kroku wybrana zostaa Altitude zamiastLongitude? Wspliniowo Longitude i Latitude... Kierunek wyspNE SW.

130 135 140 145

3035

4045

Longitude

Latit

ude

Przeszukanie wszystkich podzbiorw i uycie BIC daje w tym przypadkuten sam wybr zmiennych.

Oglna posta funkcji kryterialnej z kar w modelu regresyjnym

2ni=1

log fNW (Yi |Xi ) + pCn

Kryterium Akaike: Cn = 2

Kryterium Schwarza Cn = log n.

Kryterium Schwarza: standardowa motywacja oparta o podejciebayesowskie:M1, . . . ,MM , parameter m modelu Mm o gstoci p(m|Mm). Wtedy

P(Mm|U) P(Mm)P(U|Mm)

P(Mm)P(U|Mm, m)p(m|Mm) dm.

Dla regularnej gstoci p(m|Mm)

logP(U|Mm) = logP(U|NW ,Mm)pm2

log n + 0(1)

Przy jednostajnym rozkadzie apriori na modelach P(Mm) = 1/M ipominiciu czonu 0(1) dostajemy kryterium Schwarza. Inne podejcie:Pokarowski, JM (09) -kryterium MPVC.

Problem klasyfikacji: strata 0-1 vs strata L2

Niech f (x) = P(Y = 1|X = x) i dB(x) = I{f (x) > 1/2},

argmindErr(x0) = dB(x0) regua bayesowska

dB(x) = I{f (x) > 1/2}

empiryczna regua bayesowska. Czy dobra estymacja f w sensieredniokwadratowym przekada si na nisk warto Err ?

E (f (X0) f (X0))2 = EX0{Var(f (X0)) + (E f (X0) f (X0))2}

Przykad (ESL, str. 226)

(Y ,X) {0, 1} R20, X- r. jednostajny na [0, 1]20

(i) Y = 0 jeli X1 1/2, Y = 1 w p.p.;

(ii) Y = 0 jeli10i=1 Xi 5, Y = 1 w p.p.;

Metody estymacji: regresja liniowa (najlepszy podzbir predyktorw danejlicznoci) i metoda kNN.Zwizane klasyfikatory: f (x) > 0.5 d(x) = 1, = 0 w p.p.

Bd redniokwadratowy lub bad klasyfikacji

kwadrat obcienia f (x)

wariancja f (x)

Dla dobrej reguy klasyfikacji, wane, aby f (x) > 1/2, gdy f (x) > 1/2,

Warto (f (x) f (x))2 nie ma znaczenia !

Err(x0) = E (L(Y 0, d(X0))|X0 = x0) = P(Y 0 6= d(X0)|X0 = x0)

dla funkcji straty 0-1.Niech f (x) = P(Y = 1|X = x) i dB(x) = I{f (x) > 1/2}

argmindErr(x0) = dB(x0) regua bayesowska

dB(x) = I{f (x) > 1/2}

empiryczna regua bayesowska.Bd empirycznej reguy bayesowskiej vs reguy bayesowskiej ?

ErrdB (x0) = (1 f (x0))I{f (x0) > 1/2}+ f (x0)I{f (x0) 1/2}

ErrdB (x0) = (1 f (x0))P(f (x0) > 1/2) + f (x0)P(f (x0) 1/2)

ErrdB (x0) = ErrdB (x0) + |2f (x0) 1|P(dB(x0) 6= dB(x0)|X0 = x0)

Zachowanie P(dB(x0) 6= dB(x0)) ()?

Zamy, e f (x0) N(E f (x0),Var(f (x0))).

12f (x0) f (x0)

12f (x0) f (x0)

Wtedy

P(d(x0) 6= d(x0)|X0 = x0) =

((sign(1/2 f (x0))(E f (x0) 1/2)

(Var(f (x0))1/2

)

Jeli (sign(1/2 f (x0))(E f (x0) 1/2) > 0 to zmniejszenie wariancji(Var(f x0)) zmniejsza bd,

natomiast jeli

(sign(1/2 f (x0))(E f (x0) 1/2) < 0 to zwikszenie wariancji(Var(f x0)) zmniejsza bad !

Predykcja w modelu liniowym

Do koca wykadu II: L(y , f (x)) = (y x)2.W modelu liniowym moemy bezporednio liczy E (Errin|X)) dla modeluopartego o wektor predyktorw x bdcy podwektorem wektorawszystkich predyktorw x.Zakadamy, e zachodzi Y = X +

EY (Errin|X) = (n + p)2 + X(I H)X =: (1) + (2)

gdzie p to wymiar wektora X i H = X(XX)1X.

Jeli mniejszy model dobrze wyspecyfikowany, to (2)=0.

Model liniowy: kryteria CV i GCV

W sytuacji gdy Y = SY, gdzie S : Rn Rn jest przeksztaceniemliniowym.Dla modelu liniowego (S = H) (i wielu innych S)

Yi Yi(i) =Yi Yi1 sii

,

gdzie S = (sij). Umoliwia liczenie funkcji CV (n-krotnej kroswalidacji)bez koniecznoci n-krotnego dopasowywania modelu.

CV = n1ni=1

(Yi Yi1 sii

)2GCV: aproksymacja CV: sii tr(S/n)

GCV = n1ni=1

( Yi Yi1 tr(S/n)

)2

Zwizek GCV z AIC

GCV =RSS

n(1 tr(S)/n)2 RSSn

+ 2pRSSn

=RSSn

+ 2p2

Zamieniajc 2 przez 2p (obliczony na podstawie penego modelu)dostajemy kryterium AIC (z dokadnoci do staej).

Konserwatywno CV

Y = X + , Rp.

2p1 podmodeli odpowiadajcych wszystkim podwektorom wektorapredyktorw

Y = X + , Rp .

Mmin: minimalny model liniowy, taki, e P Mmin. Jeli

(i) XX = 0(n) i XX1 = 0(n)

(ii) Dla kadego limnmaxin (H)ii = 0

tolimnP(MCV Mmin) = 1.

Jednoczenie dla M Mmin i M 6= Mmin

P(MCV = Mmin) = P(2(p pmin)2 < (H Hmin)) + o(1)

Estymator E (Errin|X) metod jacknife

= EY(Errin|X) = n1ni=1

EY,Y0(Y0i Yi )2|X)

estymowane za pomoc n = err = RSS/n.Estymator typu jacknife na podstawie n. Oglna konstrukcja dla n,takich, e

E n = a1()/n + 0(n2), ()

(err spenia () na podstawie twierdzenia podstawowego)

J,n = nn (n 1)ni=1

i/n

E J,n = + 0(n2).

J,n = nn (n 1)ni=1

i/n =

RSS n1ni=1

j 6=i

(Yj Yj(i))2

Pokarowski (2009)

J,n = n1ni=1

(Yi Yi )(Yi Yi(i)) = n1ni=1

(Yi Yi )2

1 hii

Porwnanie AIC, BIC i SRM

Dwa przykady rozpatrzone poprzednio (ESL, str. 247):

Liczono ErrU (M) dla metody selekcji (#U = 80, prby testowe licznoci10 000). Miara jakoci

100 ErrU (M)minM ErrU (M)maxM ErrU (M)minM ErrU (M)