adatbányászati modellek aggregálása
DESCRIPTION
Adatbányászati modellek aggregálása. Dr. Pitlik László – Szűcs Imre – Pető István – Andrei Pisartsov – Orosz Erika. SZIE GTK GMI - SZIE GTK GSZDI. V. Alkalmazott Informatika Konferencia Kaposvár, Kaposvári Egyetem 2006. Május 26. Tartalom. Bevezetés Felhasznált adatok - PowerPoint PPT PresentationTRANSCRIPT
Adatbányászati modellek aggregálása
Dr. Pitlik László – Szűcs Imre – Pető István – Andrei Pisartsov – Orosz Erika
SZIE GTK GMI - SZIE GTK GSZDI
V. Alkalmazott Informatika Konferencia
Kaposvár, Kaposvári Egyetem 2006. Május 26.
V. Akalmazott Informatika Konferencia
2
Tartalom
Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió
V. Akalmazott Informatika Konferencia
3
Bevezetés I
Adatbányászati modellek Kockázatelemzés
Credit Scoring Basel II
CRM (Ügyfélkapcsolat menedzsment) Termékvásárlási / válaszadási modellek Lemorzsolódás Szegmentáció Vásárlói kosár elemzés Ügyfélérték számítás
V. Akalmazott Informatika Konferencia
4
Bevezetés II
Modellek felhasználása Preferencia Számszerű érték
Inkonzisztencia Különböző modellek eltérő eredményt adnak
ugyanarra a kérdésre Makro modellek vs Belső modellek
V. Akalmazott Informatika Konferencia
5
Tartalom
Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió
V. Akalmazott Informatika Konferencia
6
Felhasznált adatok IVáltozó Típus Státusz Dimenzió Minimális érték Maximális érték
Ügyfél azonosító id 1,2 azonosítóÜgyfél besorolás nominális 1,2 kategóriaÜgyfél kora folytonos 1,2 év 24 75Ügyfél jövedelme folytonos 1,2 HUF 0 1 500 000Kártyával végzett tranzakciók összege folytonos 1,2 HUF 0 3 000 000Bankfiókban végzett készpénzes forgalom folytonos 1 HUF 0 30 000 000Számlára érkező terhelések folytonos 1 HUF 0 100 000 000Számlára érkező jóváírások folytonos 1 HUF 0 200 000 000Ügyfélkapcsolati idő folytonos 1,2 hónap 0 70Ügyfél VIP jelző ordinális 1,2 kategória 0 5Jövedelmezőség folytonos 1,2 HUF -500 000 5 000 000Hány terméktípussal rendelkezik az ügyfél folytonos 1,2 darabszám 0 9Hitelállomány folytonos 1,2 HUF 0 40 000 000Betétállomány folytonos 1,2 HUF 0 50 000 000Jelzáloghitel állomány folytonos 1,2 HUF 0 50 000 000Személyi kölcsön állomány folytonos 1,2 HUF 0 5 000 000Hitelkártya állomány folytonos 2 HUF 0 1 000 000Lekötött betét állomány folytonos 1,2 HUF 0 50 000 000Folyószámlahitel állomány folytonos 1 HUF 0 5 000 000Számlaegyenleg folytonos 1 HUF 0 100 000 000Értékpapír számla állomány folytonos 1,2 HUF 0 5 000 000Hitelkártya típusa nominális 2 kategória A ESzámlaegyenleg lefogyási mutató folytonos 1 % 0 1Legnagyobb hitelkeret kihazsnáltság folytonos 2 HUF 0 1 000 000Hitelkártyával végzett tranzakciók száma folytonos 2 darabszám 0 50
V. Akalmazott Informatika Konferencia
7
Felhasznált adatok II
Modell_1 Modell_2
Objektumok Ügyfelek ÜgyfelekAttribútumok Demográfiai és termék_1-vel
kapcsolatos információkDemográfiai és termék_2-vel
kapcsolatos információk Célváltozó Termékvásárlás Termékvásárlás„Jó” ügyfelek aránya a mintában 33,33% 33,33%Minta nagysága 120 000 21 500Tréning / Teszt 70% / 30% 70% / 30%Vásárlók számának várhtaóértéke a becsült valószínűség alapján 33,33% 33,33%Besorolási hiba p=0.5 vágási pontnál 22,60% 21,25%Átlagos négyzetes hiba (ASE) 0,1544 0,1562
V. Akalmazott Informatika Konferencia
8
Tartalom
Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió
V. Akalmazott Informatika Konferencia
9
Inkonzisztencia I
Adott esemény bekövetkeztére vonatkozó eltérő eredményű becslések Inkonzisztens jövőkép!
Közös ügyfélkör 8500 objektum 46,38% „jó” ügyfél
Termékfelvétel várható értéke
Besorolási hiba (0,5-nél)
Average Squred Error
ROC görbe alatti terület
Accuracy Ratio
Termék_1 alapján becsült valószínűség
0,4269 26,73 0,1941 0,7718 0,5437
Termék_2 alapján becsült valószínűség
0,3741 25,25 0,1951 0,491 0,5821
V. Akalmazott Informatika Konferencia
10
Inkonzisztencia II
Következmények Döntéshozatal támogatása? Várható veszteség számítása (Basel II)
EL = PD * EAD * LGD Kampány hatékonyság tervezés Lemorzsolódás következtében elmaradt
nyereség Ügyfélérték
V. Akalmazott Informatika Konferencia
11
Tartalom
Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió
V. Akalmazott Informatika Konferencia
12
Módszerek I
Közös modell fejlesztése Modell fejlesztése minden lehetséges
termékkombinációra Modell aggregálás
Szakértői módszer Mesterséges neurális hálózat Component-based Object Comparison for
Objectivity (COCO)
V. Akalmazott Informatika Konferencia
13
Módszerek II
Közös modell Hiányzó értékek Inaktív ~ Termékkel nem rendelkező
Modellek termék kombinációnként Túl sok modell Automatizált modellfejlesztés? Modellek menedzselése?
V. Akalmazott Informatika Konferencia
14
Módszerek III
Modell aggregálás Közepesen sok modell Aggregálási módszer?
Termékek száma
Modell fejlesztése monden
termékkombinációra
Modell aggregálás
2 2 23 9 64 28 125 75 206 186 30
V. Akalmazott Informatika Konferencia
15
Tartalom
Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió
V. Akalmazott Informatika Konferencia
16
Modell aggregálás – Szakértői módszer
Hibával fordított arányban súlyozott átlag
p = (ASE_1 * p2 + ASE_2 * p1) / (ASE_1 + ASE_2)
Klaszterezés p1-p2 K-középpontú 18 szegmens Szegmensenként számítjuk a súlyozást
Modell_1 Modell_2Aggregált modell
ASE 0,194 0,1951 0,190923
V. Akalmazott Informatika Konferencia
17
Modell aggregálás – MNH I
Az alkalmazott neurális hálózat: Multilayer Perceptron Aktivációs függvény: tangens hiperbolikus Kombinációs függvény: lineáris Rétegek száma: 1-2 Tanulási – tesztelési minta megoszlása: 70% - 30% Leállítási kritérium: Early stopping
Memory Based Reasoning: Alapmodellek hibájának becslésére Hasonlóság = Euklidészi távolság 50 legközelebbi szomszéd
V. Akalmazott Informatika Konferencia
18
Modell aggregálás – MNH II
Becsült hibák használatának vizsgálata(2 rejtett réteg, 5-4 neuronnal)
Rétegek és neuronok számának vizsgálata
Megfelelő struktúra mellett a becsült hibák használata felesleges!
Bemeneti paraméterek Termékfelvétel várható értéke
Besorolási hiba (0,5-nél)
Average Squred Error
ROC görbe alatti
terület
Accuracy Ratio
p1, p2 0,4628 25,52 0,18 0,8019 0,6038p1, p2, p1_ase, p2_ase 0,4637 24,91 0,176 0,8036 0,6072
Belső neuronok száma Termékfelvétel várható értéke
Besorolási hiba (0,5-nél)
Average Squred Error
3 0,4659 25,89 0,17895 0,4659 25,28 0,17835 - 4 0,4637 24,91 0,1765 - 6 0,4637 24,93 0,1755
V. Akalmazott Informatika Konferencia
19
Modell aggregálás – COCO I
Dr. Pitlik László – SZIE GTK GMI Ügyfelek csoportosítása: p1, p2 szegmensek Alapadat mátrix (szegmens szint)
Input: átlag_p1, átlag_p2 Cél: átlag termékvásárlás
Szegmensenkénti becslés Modell kiterjesztése ügyfelekre
http://miau.gau.hu/miau/93/5ai-coco.xls
Állomány Termékfelvétel várható értéke
Besorolási hiba (0,5-nél)
Average Squred Error
Tréning 0,4735 24,86 0,1749Teszt 0,4712 25,39 0,1841
V. Akalmazott Informatika Konferencia
20
Modell aggregálás – COCO II
COCO és MNH összehasonlítása Adatbázis: COCO alapadat mátrix 75 objektum (tréning ügyfél szegmensek) Modell eredményének kiterjesztése a teszt
szegmensekbe tartozó ügyfelekre
COCO MNH
5 - 4 5 - 4 - 3 8 - 8 - 8
ASE 0,1841 0,1873 0,1844 0,1840
V. Akalmazott Informatika Konferencia
21
Tartalom
Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió
V. Akalmazott Informatika Konferencia
22
Eredmények I
Inkonzisztencia feloldása az egyetlen mutatószám által
Aggregált modellek pontosabbak, mint az alapmodellek a közös ügyfélkörön
Nem érjük el az alapmodellek fejlesztési állományon produkált pontosságát Fontosak a precíz alapmodellek
V. Akalmazott Informatika Konferencia
23
Eredmények II
ModellekRekordok
számaTanuló
halmaz (%)Teszt
halmaz (%)
Fejlesztési idők
arányaTermékfelvétel várható értéke
Besorolási hiba
(p=0.5)ASE
(teszt)
Alapmodell_1 120000 70 30 2 0,4269 26,73 0,1941
Alapmodell_2 21500 70 30 2 0,3741 25,25 0,1951
MNH 8500 70 30 3 0,4637 24,91 0,176
COCO 138 (8478) 54 46 1 0,4712 25,39 0,1841
Szakértői módszer 8500 100 0 1 0,4007 27,55 0,1909
V. Akalmazott Informatika Konferencia
24
Konklúzió
Inkonzisztencia feloldása Döntéshozatal
Aggregált modellek pontosabbak, mint az alapmodellek a közös ügyfélkörön
Várható veszteség Kampány eredményesség Ügyfélérték
Fel kell ismerni és tudatosan kezelni kell az előrejelzésekben rejlő inkonzisztenciát!