Újfajta, automatikus, döntési fa alapú adatbányászati ... · knn, c4.5 döntési fa, logistic...

23
Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs Konzulens: Gáspár-Papanek Csaba 2009. Május 20. [email protected] Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Távközlési és Médiainformatikai Tanszék VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest

Upload: others

Post on 17-Feb-2020

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Hidasi Balázs

Konzulens: Gáspár-Papanek Csaba

2009. Május 20.

[email protected]

Budapesti Műszaki és Gazdaságtudományi EgyetemVillamosmérnöki és Informatikai Kar

Távközlési és Médiainformatikai Tanszék

VÉGZŐS KONFERENCIA 20092009. május 20, Budapest

Page 2: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

2

Tartalom� Motiváció� Célok� A ShiftTree algoritmus

� A módszer alapjai� Tanulás (ötlet)� Osztályozás példa� Optimalizálás: többszörös modellezés

� Eredmények� Benchmark� Verseny

� Alkalmazási lehetőségek� Beszélő felismerése� Gesztusfelismerés (+felhasználó azonosítás)� „Gondolatok” felismerése

� Összefoglalás

Page 3: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

3

Motiváció� Idősorok osztályozása

� Sok az idősor-jellegű adat� Előtérbe kerülő alkalmazási területek

� Nyomkövetés� Hangfelismerés� Diagnosztika� Gesztusfelismerés

ModellTanítás

Modell

Osztályozás

� Jelenlegi algoritmusok hátrányai� Klasszikus módszerek

� Jelentős emberi munka (előkészítés)� Nem erre találták ki

� Információvesztés (pontatlanság)� Általában nem magyaráz

� Terület-specifikus algoritmusok� Más területen nem hatékony

Page 4: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

4

Célok� Automatikus

� Kevés emberi munka� Rövid előkészítési fázis

� Minél több típus általános kezelése� Változók száma, osztályok száma, idősorok hossza, stb.

� Több területen használható (általános)� Pontos osztályozás

� Magas találati arány� Magyarázó

� Könnyen értelmezhető modellt épít� Ellenőrizhető

Page 5: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

5

ShiftTree – A módszer alapjai� Hibrid algoritmus

� Döntési fa alap� Szerkezet� Vágások jóság értékei� Leállási feltételek

� Módosított csomópont-szerkezet� Moduláris felépítés

� Szemtologató (EyeShifter)� ES-Operator (ESO)� Szem (pointer) mozgatás

� Feltételállító (ConditionBuilder)� CB-Operator (CBO)� Érték származtatás a szem által

mutatott értékből � (és környezetéből)

� Döntő (Decider)� Vágási helyek vizsgálata� Jóságérték számítás� Optimális vágás választása a

lehetségesekből� Feltétel kiszámítása

L1

Cs1

Cs2

L2Cs3

ES: Szem beállítása

L3 L4

CB: Érték számítása

D: Feltétel választása

Modell

Felt?

F(x)

M

Page 6: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

6

ShiftTree – Tanulás (ötlet)� „Dinamikus attribútumok”

� Hol nézzük? (ESO)� 25 időegységgel előrefele (ESONext(25))� A globális maximumnál (ESOMax)� 60 méretű intervallumon belül a legkisebb értéknél� …

� Mit nézzünk? (CBO)� A pontbeli értéket (CBOSimple)� Az érték környezetének normális eloszlás szerinti súlyozott átlagát (CBONormal)� Az ugrás során a lokális maximumok számát� Az ugrás hosszát� …

� Tanulás egy csomópontban� Leállási feltételek vizsgálata� Lehetséges attribútumok kiszámolása (ESO-CBO párok)� Az (első) optimális vágás megtalálása (ezt végzi a Decider)

� Attribútumok közül egy� Feltétel érték

� Operátorok és a feltétel érték megjegyzése� Vágás az attribútum és a feltétel alapján

� Kettéosztani a tanítópontokat a jobb és bal gyermeknek� Rekurzívan ugyanez a gyermek csomópontokban

F(x)

Page 7: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 8: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 9: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Érték:1,89136

Érték:2,15333

Érték:2,97557

Page 10: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Érték:1,89136

Érték:2,15333

Érték:2,97557

Page 11: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 12: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 13: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Érték:1,32432

Érték:-0,953538

Page 14: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Érték:1,32432

Érték:-0,953538

Page 15: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 16: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

7

ShiftTree – Osztályozás példa

0. szintESOMax

CBOSimple

Felt: 2,028

1. szintESONext(25)

CBOSimple

Felt: 0,201982

2. szint 2. szint

1. szint

Levél Levél

Levél

Page 17: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

8

1. szintESONext(25)CBOSimpleFeltétel1

2. szint 2. szint

Levél Levél

Optimalizálás: többszörös modellezés� Több optimális attribútum esetén

� Az összeset kiválasztjuk� Az összes szerint vágunk� Többszörös fát építünk

� De csak ott sokszorozunk, ahol kell, nem az egész fát� Egy másik halmazzal kiválasztjuk a legjobbat

Az 1. optimális

(25-öt előre)

Ez is optimális

(25-öt vissza)

1. szintESOPrev(25)CBOSimpleFeltétel2

2. szint 2. szint

Levél Levél

Page 18: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

9

Eredmények: benchmark adatokon� 20 adatsor különböző területekről

� Egy változó� Eltérő tulajdonságok� 7 másik algoritmussal szemben

� KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest

� Konfiguráció� Nincs optimalizálás� Legegyszerűbb operátorok

� Ugrás előre/hátra fix távot� Ugrás a következő lokális maximumra/minimumra� Ugrás a maximumra/minimumra� Pontbeli érték, normális súlyozás, exponenciális súlyozás

ShiftTree vs más osztályozók

0

2

4

6

8

10

12

14

16

18

20

1 2 3 4 5 6 7 8

Helyezés

Optimalizálás hatása

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

50W

ord

s

Adia

c

Beef

CB

F

Coff

ee

EC

G200

FaceA

ll

FaceF

our

Fis

h

GunP

oin

t

Lig

hting2

Lig

hting7

Oliv

eO

il

OS

ULeaf

Sw

edis

hLeaf

Synth

eticC

ontr

ol

Tra

ce

Tw

oP

att

ern

s

Wafe

r

Yoga

Adatsorok

Po

nto

sság

(%

)

Többszörös modellezés nyeséssel

Többszörös modellezés

Egyszerű modellezés

Page 19: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

10

Eredmények: verseny körülmények� SIGKDD’07 Time Series Challange

adatsorain� 20 adatsor� Kombinált osztályozók ellen

� Erősebb konfiguráció� Fejlettebb operátorok� Több futtatás, többségi szavazás� De a paraméterek nincsenek

finomhangolva� Eredmények

� 6 első helyezés (legtöbb)� 4 adatsoron még lehetne nyerni� 2 adatsoron lehetne javítani� 8 adatsoron kevés a tanítóminta

� Modell alapú algoritmusok itt elvéreznek

� Összesítésben: 6-8 hely � Holtversenyben (a 13-ból)

Helyezések megoszlása

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10 11 12 13

Helyezés

Db ShiftTree

Győztes

Page 20: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

11

� Gesztus adatai gyorsulásmérővel� 3 változó (koordináta tengelyek)� 10 gesztus, 4 felhasználó� Kevés adat

� Lehetséges feladatok:� Gesztus felismerése� Adott gesztusnál a felhasználó

felismerése (nehéz feladat)� Bonyolult gesztusnál jobb eredmény� Kiemelkedő találati arány

Alkalmazás: hang- és, gesztusfelismerésHangfelismerés (AE): pontosság

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Tanítópontok aránya (%)

Talá

lati

ará

ny (

%)

Felhasználó felismerés a "love" gesztusnál: pontosság

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Tanítópontok aránya (%)

Talá

lati

ará

ny (

%)

� Személy felismerése az aemagánhangzó kiejtése alapján� 12 változó� 9 személy (osztály)

� Egyszerű operátorok� Nincs optimalizálás� Találati arány kellően magas

Page 21: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

12

Alkalmazás: „Gondolat” felismerés

� EEG hullámok osztályozása� Adatsor:

� Két osztály: FEL, LE� 6 változó

� Jelenleg ~90% körüli pontosság� 2003-as versenyen a top3-ban

� Alkalmazás típusai� Offline osztályozás

� Alkatrészek tesztelésének automatikus kiértékelése

� Stream adatsorban jelek felismerése� Még sok nyitott kérdés� Folyamatban lévő kutatás

Page 22: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

13

Összefoglalás� Új idősor-osztályozó: ShiftTree

� Automatikus� Minden egydimenziós idősorral működik� Operátorok definiálása a szakértő feladata

� Nem automatikus� Pontos

� Már egyszerű operátorokkal, optimalizálás nélkül is kellően pontos� Optimalizálással kifejezetten hatékony

� Ha a tanítóminta nem túl kicsi� Magyarázó

� Könnyen értelmezhető modellek, ellenőrizhető� Legnagyobb előnye: általános

� Tématerülettől függetlenül hatékonyan használható

Page 23: Újfajta, automatikus, döntési fa alapú adatbányászati ... · KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest Konfiguráció Nincs optimalizálás

Köszönöm a figyelmet!

ES: Szem beállítása

CB: Érték számítása

D: Feltétel választása

Modell

ES: Szem beállítása

CB: Érték számítása

D: Feltétel választása

Modell

ES: Szem beállítása

CB: Érték számítása

D: Feltétel választása

Modell

További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon: http://www.hidasi.eu