modely diskrÉtnÍ volby 3. cvičení
DESCRIPTION
MODELY DISKRÉTNÍ VOLBY 3. cvičení. Osnova. Podstata modelů diskrétní volby Modely binární volby LPM Logitový Probitový Aplikace Ukázka – cílení marketingových kampaní. Podstata modelů diskrétní volby. Vychází z principu regrese Používají se pro diskrétní endogenní proměnou - PowerPoint PPT PresentationTRANSCRIPT
1
MODELY DISKRÉTNÍ VOLBY
3. cvičení
2
Osnova
1. Podstata modelů diskrétní volby
2. Modely binární volbyLPM
Logitový
Probitový
3. AplikaceUkázka – cílení marketingových kampaní
3
Podstata modelů diskrétní volby
Vychází z principu regrese
Používají se pro diskrétní endogenní proměnou
Princip: Jinak se rozhoduji mezi nekonečně mnoha alternativami a mezi dvěma (několika)
Vhodné pro marketingový výzkum a data mining apod.
4
REGRESE
Y - SPOJITÁ Y - DISKRÉTNÍ
LOGISTICKÁ REGRESE
BINÁRNÍ MULTINOMICKÁ ORDINÁLNÍ
LINEÁRNÍ REGRESE
5
Modely binární diskrétní volby(1)
Y nabývá pouze dvou hodnotZnačené: 0, 1
Na čem závisí, že zákazník zůstává u banky/operátora/pojišťovny nebo odchází.
Na čem závisí, zda zákazník vlastní daný produkt?
Na čem závisí to, že zákazník nesplatí úvěr?
Na čem závisí to, že zákazník podvádí banku?
...
6
Modely binární diskrétní volby(2)
Lineární pravděpodobnostní model
Odhadnuté hodnoty udávají pravděpodobnost, že pro dané pozorování i bude Y rovno 1.
Problémy:Náhodné složky vykazují heteroskedasticitu – nutno odhadovat MZNČ, MVNČPravděpodobnost leží mimo interval <0,1>Interpretace modelu - linearita
0 1 1 ... k kY X X u
ˆ |i iY p E Y x
Logitový model diskrétní binární volby
Využívá KDF logistického rozděleníMatematické hledisko pohledu – flexibilní a jednoduchá funkce
Smysluplná interpretace
Odhad pomocí MMV
0 1
0 1.
1
X
i X
ep
e
0 1( ) ln .1
i
i
pg X X
p
1
( ) ln ( ) ln( ) (1 ) ln(1 )n
i i i ii
L l y p y p
KDF Logistického rozdělení
0
0,5
1
-4 -3 -2 -1 0 1 2 3 4
x
p
Probitový model diskrétní binární volby
Využívá KDF standardního normálního rozděleníMatematické hledisko pohledu – flexibilní a jednoduchá funkce
Smysluplná interpretace
Odhad pomocí MMV
0
0,5
1
-4 -3 -2 -1 0 1 2 3 4
p
x
KDF Normálního rozdělení
9
Srovnání KDF normálního a logistického rozdělení
10
Vyhodnocení modelů
LPM – Stejný princip jako pro KLRM
Logit, probitWaldův chí-kvadrát test
Score test
Test věrohodnostním poměrem
Modifikovaný R2
11
APLIKACE
SpolečnostiBanky, úvěrové a finanční společnosti
Telekomunikační společnosti
Pojišťovny
Retailové společnosti ...
MarketingOdchod zákazníka
Pořízení produktu – cross sell
Risk managementNesplacení úvěru - Skóring
Podvod
Marketingové kampaně
Cílené marketingové kampaně jako součást podlinkové komunikace se zákazníkem (z ang. BTL)
Firma oslovuje konkrétní skupinu zákazníků s konkrétní nabídkou (produkt, sleva...) pomocí různých komunikačních kanálů (dopis, email, sms, telefonát...)
ProblémVelké množství zákazníků
Které zákazníky oslovit?
Jaký produkt jim nabídnout?
Pomocí jakého komunikačního kanálu?
Marketingové kampaně
Cíl:Vyšší odezva klientů na marketingové kampaně při stejných marketingových nákladech
Snížení marketingových nákladů při stejné odezvě klientů
Zvýšení zisků firmy
Aplikace - zadání
Klíčovými produkty banky jsou spotřebitelské úvěry, kreditní karty a spořicí účty.
Úkol: zlepšit cílení marketingových kampaní, v současné době platí, že jsou klienti do kampaní vybíráni pomocí expertních pravidel.
Součástí řešení je spočítání pravděpodobnosti, že si klient pořídí dané produkty a nastavení automatizace počítání modelů s měsíčními intervaly.
15
1. Krok – Příprava dat
Co vše víme o klientech banky?Socio demo: Věk, Pohlaví, Místo bydliště, Zaměstnání, Vzdělání
Behaviorální: Počet a typy produktů, doba využívání produktů, počet žádostí
Transakční data: obrat na účtech, zůstatek, průměrné příjmy,
Informace o kampaních, stížnostech klienta – komunikace klient - banka
Odkud bereme údaje?Primární zdroje: pobočky, call-centrum, internetové bankovnictví, účetní software ...
Co je klíčový krok v přípravě
dat?Unifikace a identifikace klienta
1. Krok – Příprava dat
Pro jednotlivá období byla vytvořena analytická tabulka
Přidány odvozené (trendy, kategorie, průměry...) a transformované proměnné (kategorizace, logaritmická transformace
Práce s chybějícími hodnotami, odlehlými pozorováními ...
Počet klientů: cca 900 tis. (aktivní i neaktivní klienti)
Počet vysvětlujících proměnných: 1100
17
2. Krok – Odhad modelu
Princip práce s daty a odhad modelu pro spotřebitelské úvěry
<=0 0 - 7999 8000 - 19999 > =20000
0.0000%5.0000%
10.0000%15.0000%20.0000%25.0000%30.0000%35.0000%40.0000%45.0000%50.0000%
0.0000%
0.0100%
0.0200%
0.0300%
0.0400%
0.0500%
0.0600%
DISP_PROSTR
Velikost skupiny Y
2. Krok – Odhad modelu - Logit
Proměnná Báze Parametr Poměr šancí
P-hodnota
KONSTANTA -0,653 <,0001
NEAKTIVNI_KARTA -0,920 0.331 <,0001
REAG_KAMP_032 0,505 1.390 <,0001
ZADOST_CREDIT 1,734 4.187 <,0001
DPOSL_PRODUKT -0,033 0.957 <,0001
MAX_UVER_RAMEC 0,000 1.000 <,0001PROFESE - Delnik Zdravotnik 0,234 0.762 0,0038PROFESE - Duchodce Zdravotnik -1,201 0.154 <,0001PROFESE - Invalida Zdravotnik 0,158 0.621 0,4169PROFESE - Manager Zdravotnik 0,214 0.720 0,0801PROFESE - Ostatni Zdravotnik -0,223 0.433 0,2164PROFESE - Podnikatel Zdravotnik 0,333 0.810 0,0069PROFESE - Prodavac Zdravotnik -0,227 0.426 0,2356PROFESE - Ridic Zdravotnik 0,360 0.794 0,028PROFESE - Rizikovi Zdravotnik -0,028 0.478 0,9104PROFESE - StatniZam Zdravotnik 0,250 0.697 0,1637PROFESE - Technik Zdravotnik 0,041 0.592 0,7743PROFESE - Urednik Zdravotnik 0,077 0.627 0,5315DISP_PROSTR < =0 >= 20000 -0,550 0.590 <,0001DISP_PROSTR 1 - 7999 >= 20000 0,642 1.820 <,0001DISP_PROSTR 8000 - 19999 > =20000 0,124 1.014 0,2897
0,653 0,920 _ 0,505 _ _ 032 ...
0,653 0,920 _ 0,505 _ _ 032 ....
1
NEAKTIVNI KARTA REAG KAMP
i NEAKTIVNI KARTA REAG KAMP
ep
e
Výsledný model
Interpretace prametru:
Znaménka – zvyšuje se, snižuje pravděpodobnost
Poměr šancí – pro klienta, který žádal o úvěr, je 4,2 krát vyšší pravděpodobnost, že si vezme úvěr v daný měsíc, než u klienta, který o úvěr nežádal.
19
2. Krok – Odhad modelu
Statistika „lift“ – vhodná pro nestatistické
uživatele modelu
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
0
2
4
6
8
10
12
14
16
18
20
Model Náhodně
% Zákazníků
Lif
t
2009
02
2009
03
2009
04
2009
05
2009
06
2009
07
2009
08
2009
09
2009
10
2009
110
1
2
3
4
5
6
7
8
Lif
t
3. Krok - Implementace
9
4
5
6
7
8
3
2
1
500
100 000
100 000
50 000
50 000
20 000
20 000
10 000
1 000
Od Do9 0 499 5008 500 1 499 1 0007 1 500 11 499 10 0006 11 500 31 499 20 0005 31 500 51 499 20 0004 51 500 101 499 50 0003 101 500 151 499 50 0002 151 500 251 499 100 0001 251 500 351 499 100 0000 351 500 - -
Obchodnískóre
Pořadí klientů dle pravděpod.
nákupuVelikost skupiny
Převod pravděpodobnosti na obchodní skóre
Co je vlastně výsledkem modelu
Výsledkem je „pravděpodobnost“
Výsledkem je skóre
Přepočet pravděpodobnost-> skóre
Obojí je ve campaign management system
Model se automaticky přepočítává každý měsíc
Cíl: předpovědět odchod zákazníků
Náklady na získání nového klienta překračují náklady na udržení stávajícího klienta
S předstihem předpovědět:Storno smlouvy, účtu, služby, …Pokles využívání služeb
Vhodná kombinace s hodnotu zákazníkaOdcházející ziskové klienty nebo klienty s vysokým potenciálem si udržet -> vynaložit prostředky
Odcházející ztrátové klienty přenechat konkurenci
Aplikace DM – Odchod klientů
Aplikace – Credit scoring / fraud detection
Credit scoring – výpočet pravděpodobnosti neplaceníPro nové úvěry/tarifní zákazníky (schvalování) – máme data:
ze žádosti,
z registrů (credit bureau, SOLUS),
z dalších zdrojů (demografické profily, výsledky cenzů atd.
Pro stávající úvěry/zákazníky (řízení rizik - kapitálová přiměřenost – Basel II)
24
Aplikace – Fraud detection
Fraud detection – výpočet pravděpodobnosti podvodů
u pojistných událostí
kreditních karet
spotřebitelských úvěrů a jiných úvěrů
„praní špinavých peněz“
billingové podvody
25
Zdroje
Hušek R, Pelikán J,: APLIKOVANÁ EKONOMETRIE, teorie a praxe
Hosmer D, Lemeshow S,: APPLIED LOGISTIC REGRESSION
Fíglová Z,: ANALÝZA MODELOV DISKRÉTNEJ VOLBY A ICH APLIKÁCIA
Eko-kom