Linearnı a logisticka regrese
Martin Branda
Univerzita Karlova v PrazeMatematicko-fyzikalnı fakulta
Katedra pravdepodobnosti a matematicke statistiky
Vypocetnı prostredky financnı a pojistne matematiky2012
M.Branda (KPMS MFF UK) Regrese 2012 1 / 33
Obsah
1 Data
2 Linearnı regrese
3 Logisticka regrese
4 Reference
M.Branda (KPMS MFF UK) Regrese 2012 2 / 33
Data
Obsah
1 Data
2 Linearnı regrese
3 Logisticka regrese
4 Reference
M.Branda (KPMS MFF UK) Regrese 2012 3 / 33
Data
Data
Zavisle promenna (odezva): Y′ = (Y1, . . . ,Yn)
Nezavisle promenne (prediktory, regresory): x′i = (Xi1, . . . ,Xim)
X =
X11 . . . , X1m...
...Xn1 . . . , Xnm
Predpokladame, ze matice ma plnou sloupcovou hodnost.
Kvantitativnı promenne - napr. vek, pocet aktivnıch smluv, pocetnajetych kilometru, ... Casto jsou kategorizovany kvuli nevhodnemurozdelenı, odlehlym pozorovanım nebo nelinerite vztahu mezi jimi azavisle promennou.Kvalitativnı (kategorialnı) promenne - kodovany pomocı 0-1 “dummy”promennych, napr. pohlavı, region (kraj, okres), ...Interakce - odlisny vliv regresoru pro ruzne kategorie jinehokategorialnıho regresoru.
M.Branda (KPMS MFF UK) Regrese 2012 4 / 33
Data
Data
Zavisle promenna (odezva): Y′ = (Y1, . . . ,Yn)
Nezavisle promenne (prediktory, regresory): x′i = (Xi1, . . . ,Xim)
X =
X11 . . . , X1m...
...Xn1 . . . , Xnm
Predpokladame, ze matice ma plnou sloupcovou hodnost.
Kvantitativnı promenne - napr. vek, pocet aktivnıch smluv, pocetnajetych kilometru, ... Casto jsou kategorizovany kvuli nevhodnemurozdelenı, odlehlym pozorovanım nebo nelinerite vztahu mezi jimi azavisle promennou.Kvalitativnı (kategorialnı) promenne - kodovany pomocı 0-1 “dummy”promennych, napr. pohlavı, region (kraj, okres), ...Interakce - odlisny vliv regresoru pro ruzne kategorie jinehokategorialnıho regresoru.
M.Branda (KPMS MFF UK) Regrese 2012 4 / 33
Data
Predpoklady
Rozdelenı Yi zavisı na xi .
Pozorovanı (Yi , xi ) jsou nezavisla.
Pozorovanı Yi jsou nezavisla a xi jsou merene konstanty - budemenadale uvazovat.
M.Branda (KPMS MFF UK) Regrese 2012 5 / 33
Data
DataV databazi/vytorena nad databazı
Y Data
Pocet skod Pohlavı Pocet obyvatel Vek(v letech)
2 muz 15 423 210 muz 1 205 321 441 zena 20 893 350 zena 580 51...
......
.... . .
M.Branda (KPMS MFF UK) Regrese 2012 6 / 33
Data
DataBez absolutnıho clenu
Y Data
Pocet skod Pohlavı Region Vekzena muz velka mala venkov (v letech)
mesta mesta
2 0 1 0 1 0 210 0 1 1 0 0 441 1 0 0 1 0 350 1 0 0 0 1 51...
......
......
......
. . .
M.Branda (KPMS MFF UK) Regrese 2012 7 / 33
Data
DataS absolutnım clenem
Y X
Pocet skod Abs.clen Pohlavı Region Vekzena velka mala (v letech)
mesta mesta
2 1 0 0 1 210 1 0 1 0 441 1 1 0 1 350 1 1 0 0 51...
......
......
.... . .
M.Branda (KPMS MFF UK) Regrese 2012 8 / 33
Linearnı regrese
Obsah
1 Data
2 Linearnı regrese
3 Logisticka regrese
4 Reference
M.Branda (KPMS MFF UK) Regrese 2012 9 / 33
Linearnı regrese
Linearnı regreseModel
Model linearnı regrese
Yi =m∑j=1
Xijβj + εi , i = 1, . . . , n,
kde predpokladame
1 εi (disturbance, chyby) jsou nezavisle,
2 Eεi = 0,
3 varεi = σ2 > 0 (rezidualnı rozptyl).
Maticovy zapisY = Xβ + ε,
kde β′ = (β1, . . . , βm) a ε′ = (ε1, . . . , εn).
M.Branda (KPMS MFF UK) Regrese 2012 10 / 33
Linearnı regrese
Linearnı regreseModel
Model linearnı regrese
Yi =m∑j=1
Xijβj + εi , i = 1, . . . , n,
kde predpokladame
1 εi (disturbance, chyby) jsou nezavisle,
2 Eεi = 0,
3 varεi = σ2 > 0 (rezidualnı rozptyl).
Maticovy zapisY = Xβ + ε,
kde β′ = (β1, . . . , βm) a ε′ = (ε1, . . . , εn).
M.Branda (KPMS MFF UK) Regrese 2012 10 / 33
Linearnı regrese
Linearnı regreseOdhad parametru
Odhad parametru β metodou nejmensıch ctvercu (LS)
β = arg minβ∈Rm
n∑i=1
(Yi −m∑j=1
Xijβj)2
= arg minβ∈Rm
(Y − XTβ)T (Y − XTβ)
= (XTX)−1(XTY).
Odhad splnuje soustavu normalnıch rovnic
XTXβ = XTY.
M.Branda (KPMS MFF UK) Regrese 2012 11 / 33
Linearnı regrese
Linearnı regreseOdhad parametru
Odhad parametru β metodou nejmensıch ctvercu (LS)
β = arg minβ∈Rm
n∑i=1
(Yi −m∑j=1
Xijβj)2
= arg minβ∈Rm
(Y − XTβ)T (Y − XTβ)
= (XTX)−1(XTY).
Odhad splnuje soustavu normalnıch rovnic
XTXβ = XTY.
M.Branda (KPMS MFF UK) Regrese 2012 11 / 33
Linearnı regrese
Linearnı regreseOdhady
Odhad parametru je nestranny, tj. Eβ = β s rozptylemvar β = σ2(XTX)−1.
Vyrovnane hodnoty Y = Xβ = X(XTX)−1XTY.
Rezidua u = Y − Y = (I − X(XTX)−1XT )Y, kde I je jednotkovamatice rozmeru n × n.
Nestranny odhad σ2:
σ2 =E[uTu]
n −m
Za predpokladu normality β ∼ N(β, σ2(XTX)−1) a Y ∼ N(Xβ, σ2I ).
M.Branda (KPMS MFF UK) Regrese 2012 12 / 33
Linearnı regrese
Linearnı regreseOdhady
Odhad parametru je nestranny, tj. Eβ = β s rozptylemvar β = σ2(XTX)−1.
Vyrovnane hodnoty Y = Xβ = X(XTX)−1XTY.
Rezidua u = Y − Y = (I − X(XTX)−1XT )Y, kde I je jednotkovamatice rozmeru n × n.
Nestranny odhad σ2:
σ2 =E[uTu]
n −m
Za predpokladu normality β ∼ N(β, σ2(XTX)−1) a Y ∼ N(Xβ, σ2I ).
M.Branda (KPMS MFF UK) Regrese 2012 12 / 33
Linearnı regrese
Linearnı regreseOdhady
Odhad parametru je nestranny, tj. Eβ = β s rozptylemvar β = σ2(XTX)−1.
Vyrovnane hodnoty Y = Xβ = X(XTX)−1XTY.
Rezidua u = Y − Y = (I − X(XTX)−1XT )Y, kde I je jednotkovamatice rozmeru n × n.
Nestranny odhad σ2:
σ2 =E[uTu]
n −m
Za predpokladu normality β ∼ N(β, σ2(XTX)−1) a Y ∼ N(Xβ, σ2I ).
M.Branda (KPMS MFF UK) Regrese 2012 12 / 33
Logisticka regrese
Obsah
1 Data
2 Linearnı regrese
3 Logisticka regrese
4 Reference
M.Branda (KPMS MFF UK) Regrese 2012 13 / 33
Logisticka regrese
Srovnanı regresnıch modelu
Linearnı regrese Logisticka regrese
Rozdelenı: Y ∼ N(µ, σ2) Y ∼ ALT (p)
Zavislost: E[Y ] = x′β E[Y ] = 1/(1 + exp{−x′β)})
Rozpyl: varY = σ2 varY = p(1− p)
M.Branda (KPMS MFF UK) Regrese 2012 14 / 33
Logisticka regrese
Logisticka regrese
EYi = pi =ex′iβ
1 + ex′iβ
=e∑m
j=1 Xijβj
1 + e∑m
j=1 Xijβj
=1
1 + e−∑m
j=1 Xijβj.
M.Branda (KPMS MFF UK) Regrese 2012 15 / 33
Logisticka regrese
Logisticka regrese
eθ
1+eθ
-4 -2 2 4
0.2
0.4
0.6
0.8
1.0
M.Branda (KPMS MFF UK) Regrese 2012 16 / 33
Logisticka regrese
Logisticka regreseRegresnı model stornovosti
Model pravdepodobnosti storna smlouvy (odchodu ke konkurenci) vzavislosti na
tarifnı skupine dle objemu motoru (TS): 5 kategoriı (do 1000, do1350, do 1850, do 2500, nad 2500 ccm)
velikosti mısta bydliste (region): 4 kategorie (nad 500 000, nad 50000, nad 5 000, do 5 000)
pohlavı (pohlavi): 2 kategorie (1 - zena, 2 - muz)
starı pojistnıka spojite (veks): 18-75 let
M.Branda (KPMS MFF UK) Regrese 2012 17 / 33
Logisticka regrese
Logisticka regreseKriteria pro hodnocenı dobre shody
Kriterium DF Hodnota Hodnota/DF
Deviance 5E4 56802.0249 1.1363Scaled Deviance 5E4 56802.0249 1.1363Pearsonuv Chı-kvad 5E4 49969.3190 0.9996Scaled Pearson X2 5E4 49969.3190 0.9996Log verohodnost -28401.0124
M.Branda (KPMS MFF UK) Regrese 2012 18 / 33
Logisticka regrese
Logisticka regreseAnalyza odhadu parametru
Par. DF Odhad Stand. Waldovy Chı-kv. Pr > ChıKvchyba meze intrv.
spol.
Intercept 1 -1.6157 0.0429 -1.6998 -1.5316 1417.00 <.0001
TS 1 1 -0.3326 0.0323 -0.3959 -0.2692 105.90 <.0001TS 2 1 -0.2814 0.0322 -0.3445 -0.2183 76.36 <.0001TS 3 1 -0.2248 0.0320 -0.2874 -0.1622 49.51 <.0001TS 4 1 -0.0711 0.0314 -0.1326 -0.0095 5.12 0.0237TS 5 0 0.0000 0.0000 0.0000 0.0000 . .
region 1 1 0.4820 0.0290 0.4252 0.5389 275.76 <.0001region 2 1 0.2633 0.0296 0.2053 0.3214 79.06 <.0001region 3 1 0.1272 0.0300 0.0683 0.1860 17.96 <.0001region 4 0 0.0000 0.0000 0.0000 0.0000 . .
pohlavi 1 1 0.5584 0.0206 0.5180 0.5989 731.75 <.0001pohlavi 2 0 0.0000 0.0000 0.0000 0.0000 . .
veks 1 0.0058 0.0006 0.0046 0.0071 82.36 <.0001
Skala 0 1.0000 0.0000 1.0000 1.0000
M.Branda (KPMS MFF UK) Regrese 2012 19 / 33
Logisticka regrese
Logisticka regreseSance, interpretace parametru
Sance
pi
1− pi= exp{x′iβ} = exp{
m∑j=1
Xijβj}.
Pokud zvysıme regresor j o jednotku Xi j + 1, potom pro sanci platı
pi
1− pi= exp
m∑
j=1,j 6=j
Xijβj + (Xi j + 1)βj
= exp
m∑j=1
Xijβj
exp{βj},
tj. eβj vyjadruje zmenu sance pri zvysenı prıslusneho regresoru o jednotku.
M.Branda (KPMS MFF UK) Regrese 2012 20 / 33
Logisticka regrese
Logisticka regresePredikovana hodnota (pravdepodobnost)
TS = 5 (nad 2500 ccm), region = 4 (do 5000), pohlavi = 2 (muz),veks = 22 let
η = −1, 6157 + 0 + 0 + 0 + 22 · 0.0058 = −1, 4881
µ =exp{−1, 4881}
1 + exp{−1, 4881}= 0, 1842.
M.Branda (KPMS MFF UK) Regrese 2012 21 / 33
Logisticka regrese
Logisticka regreseStatistiky LR pro analyzu typu 1
Zdroj Deviance DF Chı-kvadrat Pr > ChıKv
Intercept 58087.7242TS 57937.9201 4 149.80 <.0001region 57626.8576 3 311.06 <.0001pohlavi 56884.5504 1 742.31 <.0001veks 56802.0249 1 82.53 <.0001
Postupne pridavanı regresoru (zalezı na poradı v zadanı).
M.Branda (KPMS MFF UK) Regrese 2012 22 / 33
Logisticka regrese
Logisticka regreseStatistiky LR pro analyzu typu 3
Zdroj DF Chı-kvadrat Pr > ChıKv
TS 4 154.02 <.0001region 3 309.14 <.0001pohlavi 1 743.64 <.0001veks 1 82.53 <.0001
Test vyznamnosti regresoru pri ponechanı vsech ostatnıch regresoru vmodelu (nezalezı na poradı).
M.Branda (KPMS MFF UK) Regrese 2012 23 / 33
Logisticka regrese
ROC krivkaReceiver Operating Characteristic
ROC krivka slouzı k posouzenı kvality modelu a nastavenı prahovehodnoty.
Na svisle ose grafu je relativnı cetnost skutecne pozitivnıch prıpaduTP, tedy pravdepodobnost, ze jako spravny bude vyhodnocenpozitivnı prıpad: Sensitivity = TP/(TP+FN).
Na vodorovne ose je relativnı cetnost falesne pozitivnıch prıpadu FP,tedy pravdepodobnost, ze jako spravny bude vyhodnocen negativnıprıpad: 1-Specificity = FP/(TN+FP).
skutecnost/predikce 1 0
1 TP FP
0 FN TN
True (T), False (F), Positive (P), Negative (N)
M.Branda (KPMS MFF UK) Regrese 2012 25 / 33
Reference
Obsah
1 Data
2 Linearnı regrese
3 Logisticka regrese
4 Reference
M.Branda (KPMS MFF UK) Regrese 2012 26 / 33
Reference
Reference
M. Denuit, X. Marechal, S. Pitrebois, J.-F. Walhin: ActuarialModelling of Claim Counts: Risk Classification, Credibility andBonus-Malus Systems. John Wiley & Sons, Chichester, 2007.
P. de Jong, G. Z. Heller: Generalized Linear Models for InsuranceData. Cambridge University Press 2008.
P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed.Chapman and Hall, London, 1989.
K. Zvara: Regrese. Matfyzpress, Praha, 2008.
Zapisky z prednasky Zobecnene linearnı modely (NSTP196), MFFUK, prednasejıcı Doc. Mgr. Michal Kulich, Ph.D.
SAS/STAT 9.3: User’s Guide.
M.Branda (KPMS MFF UK) Regrese 2012 27 / 33
Reference
Dekuji za pozornost.
e-mail: [email protected]: http://artax.karlin.mff.cuni.cz/˜branm1am
M.Branda (KPMS MFF UK) Regrese 2012 28 / 33