estymacja bledu predykcji dla logarytmicznej funkcji...
Embed Size (px)
TRANSCRIPT
Estymacja bdu predykcji dla logarytmicznejfunkcji straty. Predykcja w modelu liniowym
Wykad II
Wisa, grudzie 2009
Plan
Tw. Takeuchiego: obcienie err w przypadku logarytmicznej funkcjistraty.
Bd 0-1 a bd L2 w problemie klasyfikacji.
Predykcja w modelu liniowym.
Model (iii)
Y1, . . . ,Yn prosta prba losowa f , (Y1,Y2, . . . ,Yn) estymator NW wmodelu M = {f}.
Zauwamy, e (U = {Y1, . . . ,Yn} i L(y , ) = 2 log f(y))
2Ef log f(Y0) = Ef (L(Y 0, )|U) = ErrU = Errin
Skonstruujemy asymptotycznie nieobcione estymatory Err w oparciu oerr .
err =1n
ni=1
L(Yi , NW ) = 2n
ni=1
log fNW (Yi ) = 2 logL(NW )/n
Przyblienie E (err).
Rzut informacyjny f na M = {f}.
minimalizuje odlego Kullbacka-Leiblera f od M = {f}.
= argminEf log(f /f) = argmin{ 2Ef log f(Y 0)
}=
argmin{Ef L(Y 0, )}.
Twierdzenie 2. (Takeuchi (1976)) Przy odpowiednich warunkachregularnoci na M = {f}
Err E (err) = 2ntr{I ()J()1}+ o
(1n
),
gdzie
I () = Ef
{ log f(Y 0)
log f(Y 0) |=
}
J() = Ef
{2 log f(Y 0)
|=
}Idea:
Err E log f(Y 0) E log f(Y 0) E (err) 1ntr{I ()J()1}.
Heurystyka dowodu.
PorwnanienEYn(err) = EYn log fn(Yn) = (1)
z
nErr = nEYn(ErrU ) = nEYnEf log fn(Y0) = (2)
(1) (2) = EYn{
log fn(Yn) log f(Yn)}
+
+EYn{
log f(Yn) nEf log f(Y 0)}
+EYn{nEf log f(Y 0) Ef log fn(Y
0)}
= D1 + D2 + D3.
D2 = 0, D2 =12tr{I ()J()1}+ o(1) = D3
Analiza D1 i D3 oparta na rozwiniciu Taylora. Niech logL = `
`() `(NW ) =12
( NW )2`()
( NW )
Std
`() `(NW ) n2
( NW )J()( NW )
D1 n2EYn(
NW )J()( NW ) =
n2EYn(tr(J(
)( NW )( NW )) 12tr(I ()J()1)
(nE (NW )(NW ) J()1I ()J()1).
Podobnie D3 = 12 tr(I ()J()1) + o(1).
Jeli f M (f = f) to przy warunku2f(x) |=
dx =2
{f(x) dx
}|=
= 0
I () = J() ().
W przypadku bdnej specyfikacji modelu parametrycznego niekoniecznierwno !W przypadku () as. nieobciony estymator Err ma posta
err +2pn
= 2 log L(NW ) +2pn
(kryterium Akaikego (AIC)).W oglnym przypadku (Kryterium Takeuchiego (TIC))
err +2tr I (NW )J(NW )1
n
Model (iv)
Analogiczna wasno do tezy tw. Takeuchiego jest czsto uywana wprzypadku modelu (iv)
Errin = EY0(1n
ni=1
2 log f(Xi )(Y0i )),
gdzie Y 0i niezalenie generowane z rozkadu PY |X=Xi . Wtedy
EY(Errin) EY(1n
ni=1
2 log f(Xi )(Yi ))
+2pn
brak formalnego dowodu ..
EY(Errin|X) 2nEY( ni=1
log f(Xi )(Yi ))
+2pn
()
W przypadku modelu liniowego ze znanym 2 nieobciony estymatorprawej strony () ma posta
RSSn2
+2pn
+ C
(2 zastpowane przez nieobciony estymator)W przypadku modelu liniowego z nieznanym 2 nieobciony estymatorprawej strony () ma posta
log(RSSn
)+
2pn
+ C
.
Przykad Zbir mjap zawiera rekordy dotyczce temperatury (minimalnatemperatura stycznia uredniona z lat 19712000), dugoci, szerokocigeog. oraz wysokoci 26 miast japoskich. Interesuje nas wybr zbioruzmiennych prognozujcego temperatur.
Temp Latitude Longitude Altitude
1 -7.6 45.413 141.683 2.82 -7.7 43.057 141.332 17.2................26 14.3 26.203 127.688 28.1
g=lm(Temp~1,data=mjap) # model pocztkowy
wprzod=step(g,direction="forward",scope=list(upper=.~.+Latitude + Longitude + Altitude))Start: AIC=88.51Temp ~ 1
Df Sum of Sq RSS AIC+ Latitude 1 576.69 147.72 49.17+ Longitude 1 518.12 206.29 57.85+ Altitude 1 93.93 630.48 86.90 724.41 88.51
Step: AIC=49.17Temp ~ Latitude
Warto AIC wynosi dla modelu ze sta 88.5, najwiksza redukcja AICprzy dodaniu Latitude. J wybieramy. Zauwamy, e doczeniezmiennej Altitude spowodowaoby minimaln zmian AIC ( z 88.51 do86.90).
Df Sum of Sq RSS AIC+ Altitude 1 95.098 52.625 24.332+ Longitude 1 12.791 134.931 48.813 147.722 49.168
Step: AIC=24.33Temp ~ Latitude + Altitude
Df Sum of Sq RSS AIC 52.625 24.332+ Longitude 1 0.840 51.785 25.914
W drugim kroku wybieramy jednak Altitude, mimo jej pozornie maejprzydatnoci. Model Temp Latitude + Altitude daje redukcj AICdo 24.3, dodanie Longitude zwiksza AIC wic nie dokadamy jej domodelu.
Dlaczego na drugim kroku wybrana zostaa Altitude zamiastLongitude? Wspliniowo Longitude i Latitude... Kierunek wyspNE SW.
130 135 140 145
3035
4045
Longitude
Latit
ude
Przeszukanie wszystkich podzbiorw i uycie BIC daje w tym przypadkuten sam wybr zmiennych.
Oglna posta funkcji kryterialnej z kar w modelu regresyjnym
2ni=1
log fNW (Yi |Xi ) + pCn
Kryterium Akaike: Cn = 2
Kryterium Schwarza Cn = log n.
Kryterium Schwarza: standardowa motywacja oparta o podejciebayesowskie:M1, . . . ,MM , parameter m modelu Mm o gstoci p(m|Mm). Wtedy
P(Mm|U) P(Mm)P(U|Mm)
P(Mm)P(U|Mm, m)p(m|Mm) dm.
Dla regularnej gstoci p(m|Mm)
logP(U|Mm) = logP(U|NW ,Mm)pm2
log n + 0(1)
Przy jednostajnym rozkadzie apriori na modelach P(Mm) = 1/M ipominiciu czonu 0(1) dostajemy kryterium Schwarza. Inne podejcie:Pokarowski, JM (09) -kryterium MPVC.
Problem klasyfikacji: strata 0-1 vs strata L2
Niech f (x) = P(Y = 1|X = x) i dB(x) = I{f (x) > 1/2},
argmindErr(x0) = dB(x0) regua bayesowska
dB(x) = I{f (x) > 1/2}
empiryczna regua bayesowska. Czy dobra estymacja f w sensieredniokwadratowym przekada si na nisk warto Err ?
E (f (X0) f (X0))2 = EX0{Var(f (X0)) + (E f (X0) f (X0))2}
Przykad (ESL, str. 226)
(Y ,X) {0, 1} R20, X- r. jednostajny na [0, 1]20
(i) Y = 0 jeli X1 1/2, Y = 1 w p.p.;
(ii) Y = 0 jeli10i=1 Xi 5, Y = 1 w p.p.;
Metody estymacji: regresja liniowa (najlepszy podzbir predyktorw danejlicznoci) i metoda kNN.Zwizane klasyfikatory: f (x) > 0.5 d(x) = 1, = 0 w p.p.
Bd redniokwadratowy lub bad klasyfikacji
kwadrat obcienia f (x)
wariancja f (x)
Dla dobrej reguy klasyfikacji, wane, aby f (x) > 1/2, gdy f (x) > 1/2,
Warto (f (x) f (x))2 nie ma znaczenia !
Err(x0) = E (L(Y 0, d(X0))|X0 = x0) = P(Y 0 6= d(X0)|X0 = x0)
dla funkcji straty 0-1.Niech f (x) = P(Y = 1|X = x) i dB(x) = I{f (x) > 1/2}
argmindErr(x0) = dB(x0) regua bayesowska
dB(x) = I{f (x) > 1/2}
empiryczna regua bayesowska.Bd empirycznej reguy bayesowskiej vs reguy bayesowskiej ?
ErrdB (x0) = (1 f (x0))I{f (x0) > 1/2}+ f (x0)I{f (x0) 1/2}
ErrdB (x0) = (1 f (x0))P(f (x0) > 1/2) + f (x0)P(f (x0) 1/2)
ErrdB (x0) = ErrdB (x0) + |2f (x0) 1|P(dB(x0) 6= dB(x0)|X0 = x0)
Zachowanie P(dB(x0) 6= dB(x0)) ()?
Zamy, e f (x0) N(E f (x0),Var(f (x0))).
12f (x0) f (x0)
12f (x0) f (x0)
Wtedy
P(d(x0) 6= d(x0)|X0 = x0) =
((sign(1/2 f (x0))(E f (x0) 1/2)
(Var(f (x0))1/2
)
Jeli (sign(1/2 f (x0))(E f (x0) 1/2) > 0 to zmniejszenie wariancji(Var(f x0)) zmniejsza bd,
natomiast jeli
(sign(1/2 f (x0))(E f (x0) 1/2) < 0 to zwikszenie wariancji(Var(f x0)) zmniejsza bad !
Predykcja w modelu liniowym
Do koca wykadu II: L(y , f (x)) = (y x)2.W modelu liniowym moemy bezporednio liczy E (Errin|X)) dla modeluopartego o wektor predyktorw x bdcy podwektorem wektorawszystkich predyktorw x.Zakadamy, e zachodzi Y = X +
EY (Errin|X) = (n + p)2 + X(I H)X =: (1) + (2)
gdzie p to wymiar wektora X i H = X(XX)1X.
Jeli mniejszy model dobrze wyspecyfikowany, to (2)=0.
Model liniowy: kryteria CV i GCV
W sytuacji gdy Y = SY, gdzie S : Rn Rn jest przeksztaceniemliniowym.Dla modelu liniowego (S = H) (i wielu innych S)
Yi Yi(i) =Yi Yi1 sii
,
gdzie S = (sij). Umoliwia liczenie funkcji CV (n-krotnej kroswalidacji)bez koniecznoci n-krotnego dopasowywania modelu.
CV = n1ni=1
(Yi Yi1 sii
)2GCV: aproksymacja CV: sii tr(S/n)
GCV = n1ni=1
( Yi Yi1 tr(S/n)
)2
Zwizek GCV z AIC
GCV =RSS
n(1 tr(S)/n)2 RSSn
+ 2pRSSn
=RSSn
+ 2p2
Zamieniajc 2 przez 2p (obliczony na podstawie penego modelu)dostajemy kryterium AIC (z dokadnoci do staej).
Konserwatywno CV
Y = X + , Rp.
2p1 podmodeli odpowiadajcych wszystkim podwektorom wektorapredyktorw
Y = X + , Rp .
Mmin: minimalny model liniowy, taki, e P Mmin. Jeli
(i) XX = 0(n) i XX1 = 0(n)
(ii) Dla kadego limnmaxin (H)ii = 0
tolimnP(MCV Mmin) = 1.
Jednoczenie dla M Mmin i M 6= Mmin
P(MCV = Mmin) = P(2(p pmin)2 < (H Hmin)) + o(1)
Estymator E (Errin|X) metod jacknife
= EY(Errin|X) = n1ni=1
EY,Y0(Y0i Yi )2|X)
estymowane za pomoc n = err = RSS/n.Estymator typu jacknife na podstawie n. Oglna konstrukcja dla n,takich, e
E n = a1()/n + 0(n2), ()
(err spenia () na podstawie twierdzenia podstawowego)
J,n = nn (n 1)ni=1
i/n
E J,n = + 0(n2).
J,n = nn (n 1)ni=1
i/n =
RSS n1ni=1
j 6=i
(Yj Yj(i))2
Pokarowski (2009)
J,n = n1ni=1
(Yi Yi )(Yi Yi(i)) = n1ni=1
(Yi Yi )2
1 hii
Porwnanie AIC, BIC i SRM
Dwa przykady rozpatrzone poprzednio (ESL, str. 247):
Liczono ErrU (M) dla metody selekcji (#U = 80, prby testowe licznoci10 000). Miara jakoci
100 ErrU (M)minM ErrU (M)maxM ErrU (M)minM ErrU (M)