wykŁad 2 problem regresji - modele liniowezieba/w2_pmwzi.pdf · regresja regresja(ang....
TRANSCRIPT
Wrocław University of Technology
WYKŁAD 2
Problem regresji - modele liniowe
Maciej Zięba
Politechnika Wrocławska
Regresja
Regresja (ang. Regression):
Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.
Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.
Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.
2/14
Regresja
Regresja (ang. Regression):
Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.
Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.
Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.
2/14
Regresja
Regresja (ang. Regression):
Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.
Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.
Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.
2/14
Regresja
Regresja (ang. Regression):
Dysponujemy obserwacjami zodpowiadającymi im wartościamiciągłymi.
Celem uczenia jest skonstruowaniemodelu regresji na podstawie danych.
Model konstruowany jest tak, abymożliwe było przewidywanie nowychobserwacji.
2/14
Regresja: Śledzenie ruchu
Cel: Wyznaczenie następnego położeniaobiektu.
Dane: Sekwencja obrazów z poruszającymi sięobiektami.
Na podstawie dotychczaszarejestrowanej sekwencji obrazówwyznaczane jest położenie obiektu.
3/14
Regresja: Predykcja notowań giełdowych
Cel: Wycena akcji.
Dane: Notowania akcji z poprzednich okresóworaz inne czynniki wpływające na cenęakcji.
Na podstawie notowań historycznych iinnych czynników mających wpływ nacenę akcji budowany jest modelpredykcyjny.
Model aktualizowany jest zwykorzystaniem bieżących notowań.
4/14
Regresja: Predykcja przeżywalności pooperacyjnej
Cel: Określenie jaki okres czasu pacjentprzeżyje po operacji.
Dane: Wyniki badań pacjentaprzeprowadzonych przed i po operacji,ogólna charakterystyka zdrowiapacjenta.
Na podstawie danych o pacjencienależy określić jaki okres czasuprzeżyje on po operacji.
5/14
Deterministyczny model liniowy
Rozpatrujemy model liniowy:
y = w · x+ w0,
Dysponujemy zestawem danych:
D = {(xn, yn)}Nn=1.
Chcielibyśmy dopasować model do danych -znaleść najlepsze wartości w, oraz w0.
W tym celu definiujemy, odpowiednie kryterium:
w∗, w0 = arg minw,w0
12
N∑n=1
(yn − (w · xn + w0))2
6/14
Ekstrakcja cech
Zbiór M funkcji bazowych (ang. basis function), każdareprezentuje jedną cechę.
Każda z N obserwacji przetwarzana jest przez każdą z M funkcjibazowych.
Wynikiem jest tzw. design matrix:
Φ =
φ1(x1) φ2(x1) · · · φM (x1)...
.... . .
...φ1(xN ) φ2(xN ) · · · φM (xN )
7/14
Deterministyczny model liniowyPrzypadek wielowymiarowy
Rozpatrujemy wielowymiarowy model liniowy:
y = wTφ(x).
Interesuje nas znalezienie takiego modelu, który spełnia:
w∗ = argminw
J(w),
gdzie:
J(w) =12
N∑n=1
(yn −wTφ(xn))2 =12||y −Φw||22.
8/14
Regresja liniowa w ujęciu probabilistycznym
Modelem regresji liniowej (ang. linearregression):
y = wTφ(x) + ε
Zmienna ε ∼ N (ε|0, σ2) modeluje niepewnośćobserwacji y.
Model rozkładu warunkowego:
p(y|x,w, σ2) = N (y|wTφ(x), σ2)
Parametry modelu: w ∈ RM i σ2 > 0.
9/14
Funkcja wiarygodności
Dane: X = {x1, . . . ,xN}, y = {y1, . . . , yN}.
Warunkowa funkcja wiarygodności:
p(y|X,w, σ2) =N∏n=1
N (yn|wTφ(xn), σ2).
Logarytm funkcji wiarygodności:
ln p(y|X,w, σ2) = −N2lnσ2 − N
2ln(2π)− 1
σ2J(w)
J(w) =12
N∑n=1
(yn −wTφ(xn))2
=12‖y −Φw‖22
10/14
Estymator ML
Logarytm funkcji wiarygodności jest funkcją celu, którąoptymalizujemy względem parametrów w. Licząc gradient zewzględu na parametry:
∇w ln p(y|X,w, σ2) =1σ2
ΦT(y −Φw) = 0
i rozwiązując względem w otrzymujemy
wML = (ΦTΦ)−1ΦTy
Optymalizując względem σ2:
σ2ML =1N
N∑n=1
(yn −wTMLφ(xn)
)2
11/14
Overfitting
12/14
Rozkład a priori
W celu przeciwdziałania overfittingowi wprowadzamy rozkład apriori na w, który zmniejszy ich wahanie:
p(w|β2) = N (w|0, β2I)
=1
(2πβ2)M2e− 12β2‖w‖22
Rozkład a posteriori wyznaczamy ze wzoru Bayesa:
p(w|X,y, σ2, β2) = p(y|X,w, σ2)p(w|β2)p(y|X, σ2, β2)
13/14
Estymator MAP
Logarytmując i biorąc z minusem dostajemy kryterium uczenia dlaestymacji MAP:
− ln p(w|X,y, σ2, β2) = 12σ2‖y −Φw‖22︸ ︷︷ ︸
funkcja straty
+12β2‖w‖22︸ ︷︷ ︸
regularyzator
+const
Różniczkując po w i rozwiązując powyższe kryterium otrzymujemyestymator MAP:
wMAP = (ΦTΦ+ λI)−1ΦTy
gdzie λ =σ2
β2– parametr regularyzacji.
14/14