adatbányászati modellek aggregálása

25
Adatbányászati modellek aggregálása Dr. Pitlik László – Szűcs Imre – Pető István – Andrei Pisartsov – Orosz Erika SZIE GTK GMI - SZIE GTK GSZDI V. Alkalmazott Informatika Konferencia Kaposvár, Kaposvári Egyetem 2006.

Upload: jolie-davidson

Post on 03-Jan-2016

43 views

Category:

Documents


0 download

DESCRIPTION

Adatbányászati modellek aggregálása. Dr. Pitlik László – Szűcs Imre – Pető István – Andrei Pisartsov – Orosz Erika. SZIE GTK GMI - SZIE GTK GSZDI. V. Alkalmazott Informatika Konferencia Kaposvár, Kaposvári Egyetem 2006. Május 26. Tartalom. Bevezetés Felhasznált adatok - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Adatbányászati modellek aggregálása

Adatbányászati modellek aggregálása

Dr. Pitlik László – Szűcs Imre – Pető István – Andrei Pisartsov – Orosz Erika

SZIE GTK GMI - SZIE GTK GSZDI

V. Alkalmazott Informatika Konferencia

Kaposvár, Kaposvári Egyetem 2006. Május 26.

Page 2: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

2

Tartalom

Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió

Page 3: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

3

Bevezetés I

Adatbányászati modellek Kockázatelemzés

Credit Scoring Basel II

CRM (Ügyfélkapcsolat menedzsment) Termékvásárlási / válaszadási modellek Lemorzsolódás Szegmentáció Vásárlói kosár elemzés Ügyfélérték számítás

Page 4: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

4

Bevezetés II

Modellek felhasználása Preferencia Számszerű érték

Inkonzisztencia Különböző modellek eltérő eredményt adnak

ugyanarra a kérdésre Makro modellek vs Belső modellek

Page 5: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

5

Tartalom

Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió

Page 6: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

6

Felhasznált adatok IVáltozó Típus Státusz Dimenzió Minimális érték Maximális érték

Ügyfél azonosító id 1,2 azonosítóÜgyfél besorolás nominális 1,2 kategóriaÜgyfél kora folytonos 1,2 év 24 75Ügyfél jövedelme folytonos 1,2 HUF 0 1 500 000Kártyával végzett tranzakciók összege folytonos 1,2 HUF 0 3 000 000Bankfiókban végzett készpénzes forgalom folytonos 1 HUF 0 30 000 000Számlára érkező terhelések folytonos 1 HUF 0 100 000 000Számlára érkező jóváírások folytonos 1 HUF 0 200 000 000Ügyfélkapcsolati idő folytonos 1,2 hónap 0 70Ügyfél VIP jelző ordinális 1,2 kategória 0 5Jövedelmezőség folytonos 1,2 HUF -500 000 5 000 000Hány terméktípussal rendelkezik az ügyfél folytonos 1,2 darabszám 0 9Hitelállomány folytonos 1,2 HUF 0 40 000 000Betétállomány folytonos 1,2 HUF 0 50 000 000Jelzáloghitel állomány folytonos 1,2 HUF 0 50 000 000Személyi kölcsön állomány folytonos 1,2 HUF 0 5 000 000Hitelkártya állomány folytonos 2 HUF 0 1 000 000Lekötött betét állomány folytonos 1,2 HUF 0 50 000 000Folyószámlahitel állomány folytonos 1 HUF 0 5 000 000Számlaegyenleg folytonos 1 HUF 0 100 000 000Értékpapír számla állomány folytonos 1,2 HUF 0 5 000 000Hitelkártya típusa nominális 2 kategória A ESzámlaegyenleg lefogyási mutató folytonos 1 % 0 1Legnagyobb hitelkeret kihazsnáltság folytonos 2 HUF 0 1 000 000Hitelkártyával végzett tranzakciók száma folytonos 2 darabszám 0 50

Page 7: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

7

Felhasznált adatok II

Modell_1 Modell_2

Objektumok Ügyfelek ÜgyfelekAttribútumok Demográfiai és termék_1-vel

kapcsolatos információkDemográfiai és termék_2-vel

kapcsolatos információk Célváltozó Termékvásárlás Termékvásárlás„Jó” ügyfelek aránya a mintában 33,33% 33,33%Minta nagysága 120 000 21 500Tréning / Teszt 70% / 30% 70% / 30%Vásárlók számának várhtaóértéke a becsült valószínűség alapján 33,33% 33,33%Besorolási hiba p=0.5 vágási pontnál 22,60% 21,25%Átlagos négyzetes hiba (ASE) 0,1544 0,1562

Page 8: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

8

Tartalom

Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió

Page 9: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

9

Inkonzisztencia I

Adott esemény bekövetkeztére vonatkozó eltérő eredményű becslések Inkonzisztens jövőkép!

Közös ügyfélkör 8500 objektum 46,38% „jó” ügyfél

Termékfelvétel várható értéke

Besorolási hiba (0,5-nél)

Average Squred Error

ROC görbe alatti terület

Accuracy Ratio

Termék_1 alapján becsült valószínűség

0,4269 26,73 0,1941 0,7718 0,5437

Termék_2 alapján becsült valószínűség

0,3741 25,25 0,1951 0,491 0,5821

Page 10: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

10

Inkonzisztencia II

Következmények Döntéshozatal támogatása? Várható veszteség számítása (Basel II)

EL = PD * EAD * LGD Kampány hatékonyság tervezés Lemorzsolódás következtében elmaradt

nyereség Ügyfélérték

Page 11: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

11

Tartalom

Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió

Page 12: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

12

Módszerek I

Közös modell fejlesztése Modell fejlesztése minden lehetséges

termékkombinációra Modell aggregálás

Szakértői módszer Mesterséges neurális hálózat Component-based Object Comparison for

Objectivity (COCO)

Page 13: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

13

Módszerek II

Közös modell Hiányzó értékek Inaktív ~ Termékkel nem rendelkező

Modellek termék kombinációnként Túl sok modell Automatizált modellfejlesztés? Modellek menedzselése?

Page 14: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

14

Módszerek III

Modell aggregálás Közepesen sok modell Aggregálási módszer?

Termékek száma

Modell fejlesztése monden

termékkombinációra

Modell aggregálás

2 2 23 9 64 28 125 75 206 186 30

Page 15: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

15

Tartalom

Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió

Page 16: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

16

Modell aggregálás – Szakértői módszer

Hibával fordított arányban súlyozott átlag

p = (ASE_1 * p2 + ASE_2 * p1) / (ASE_1 + ASE_2)

Klaszterezés p1-p2 K-középpontú 18 szegmens Szegmensenként számítjuk a súlyozást

Modell_1 Modell_2Aggregált modell

ASE 0,194 0,1951 0,190923

Page 17: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

17

Modell aggregálás – MNH I

Az alkalmazott neurális hálózat: Multilayer Perceptron Aktivációs függvény: tangens hiperbolikus Kombinációs függvény: lineáris Rétegek száma: 1-2 Tanulási – tesztelési minta megoszlása: 70% - 30% Leállítási kritérium: Early stopping

Memory Based Reasoning: Alapmodellek hibájának becslésére Hasonlóság = Euklidészi távolság 50 legközelebbi szomszéd

Page 18: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

18

Modell aggregálás – MNH II

Becsült hibák használatának vizsgálata(2 rejtett réteg, 5-4 neuronnal)

Rétegek és neuronok számának vizsgálata

Megfelelő struktúra mellett a becsült hibák használata felesleges!

Bemeneti paraméterek Termékfelvétel várható értéke

Besorolási hiba (0,5-nél)

Average Squred Error

ROC görbe alatti

terület

Accuracy Ratio

p1, p2 0,4628 25,52 0,18 0,8019 0,6038p1, p2, p1_ase, p2_ase 0,4637 24,91 0,176 0,8036 0,6072

Belső neuronok száma Termékfelvétel várható értéke

Besorolási hiba (0,5-nél)

Average Squred Error

3 0,4659 25,89 0,17895 0,4659 25,28 0,17835 - 4 0,4637 24,91 0,1765 - 6 0,4637 24,93 0,1755

Page 19: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

19

Modell aggregálás – COCO I

Dr. Pitlik László – SZIE GTK GMI Ügyfelek csoportosítása: p1, p2 szegmensek Alapadat mátrix (szegmens szint)

Input: átlag_p1, átlag_p2 Cél: átlag termékvásárlás

Szegmensenkénti becslés Modell kiterjesztése ügyfelekre

http://miau.gau.hu/miau/93/5ai-coco.xls

Állomány Termékfelvétel várható értéke

Besorolási hiba (0,5-nél)

Average Squred Error

Tréning 0,4735 24,86 0,1749Teszt 0,4712 25,39 0,1841

Page 20: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

20

Modell aggregálás – COCO II

COCO és MNH összehasonlítása Adatbázis: COCO alapadat mátrix 75 objektum (tréning ügyfél szegmensek) Modell eredményének kiterjesztése a teszt

szegmensekbe tartozó ügyfelekre

  COCO MNH

    5 - 4 5 - 4 - 3 8 - 8 - 8

ASE 0,1841 0,1873 0,1844 0,1840

Page 21: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

21

Tartalom

Bevezetés Felhasznált adatok Probléma felvetése: Inkonzisztencia Módszerek Modell aggregálás Eredmények Konklúzió

Page 22: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

22

Eredmények I

Inkonzisztencia feloldása az egyetlen mutatószám által

Aggregált modellek pontosabbak, mint az alapmodellek a közös ügyfélkörön

Nem érjük el az alapmodellek fejlesztési állományon produkált pontosságát Fontosak a precíz alapmodellek

Page 23: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

23

Eredmények II

ModellekRekordok

számaTanuló

halmaz (%)Teszt

halmaz (%)

Fejlesztési idők

arányaTermékfelvétel várható értéke

Besorolási hiba

(p=0.5)ASE

(teszt)

Alapmodell_1 120000 70 30 2 0,4269 26,73 0,1941

Alapmodell_2 21500 70 30 2 0,3741 25,25 0,1951

MNH 8500 70 30 3 0,4637 24,91 0,176

COCO 138 (8478) 54 46 1 0,4712 25,39 0,1841

Szakértői módszer 8500 100 0 1 0,4007 27,55 0,1909

Page 24: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

24

Konklúzió

Inkonzisztencia feloldása Döntéshozatal

Aggregált modellek pontosabbak, mint az alapmodellek a közös ügyfélkörön

Várható veszteség Kampány eredményesség Ügyfélérték

Fel kell ismerni és tudatosan kezelni kell az előrejelzésekben rejlő inkonzisztenciát!

Page 25: Adatbányászati modellek aggregálása

V. Akalmazott Informatika Konferencia

25

Köszönöm a figyelmet!

Szűcs Imre

[email protected]