Újfajta, automatikus, döntési fa alapú adatbányászati ... · knn, c4.5 döntési fa, logistic...
TRANSCRIPT
Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására
Hidasi Balázs
Konzulens: Gáspár-Papanek Csaba
2009. Május 20.
Budapesti Műszaki és Gazdaságtudományi EgyetemVillamosmérnöki és Informatikai Kar
Távközlési és Médiainformatikai Tanszék
VÉGZŐS KONFERENCIA 20092009. május 20, Budapest
2
Tartalom� Motiváció� Célok� A ShiftTree algoritmus
� A módszer alapjai� Tanulás (ötlet)� Osztályozás példa� Optimalizálás: többszörös modellezés
� Eredmények� Benchmark� Verseny
� Alkalmazási lehetőségek� Beszélő felismerése� Gesztusfelismerés (+felhasználó azonosítás)� „Gondolatok” felismerése
� Összefoglalás
3
Motiváció� Idősorok osztályozása
� Sok az idősor-jellegű adat� Előtérbe kerülő alkalmazási területek
� Nyomkövetés� Hangfelismerés� Diagnosztika� Gesztusfelismerés
ModellTanítás
Modell
Osztályozás
� Jelenlegi algoritmusok hátrányai� Klasszikus módszerek
� Jelentős emberi munka (előkészítés)� Nem erre találták ki
� Információvesztés (pontatlanság)� Általában nem magyaráz
� Terület-specifikus algoritmusok� Más területen nem hatékony
4
Célok� Automatikus
� Kevés emberi munka� Rövid előkészítési fázis
� Minél több típus általános kezelése� Változók száma, osztályok száma, idősorok hossza, stb.
� Több területen használható (általános)� Pontos osztályozás
� Magas találati arány� Magyarázó
� Könnyen értelmezhető modellt épít� Ellenőrizhető
5
ShiftTree – A módszer alapjai� Hibrid algoritmus
� Döntési fa alap� Szerkezet� Vágások jóság értékei� Leállási feltételek
� Módosított csomópont-szerkezet� Moduláris felépítés
� Szemtologató (EyeShifter)� ES-Operator (ESO)� Szem (pointer) mozgatás
� Feltételállító (ConditionBuilder)� CB-Operator (CBO)� Érték származtatás a szem által
mutatott értékből � (és környezetéből)
� Döntő (Decider)� Vágási helyek vizsgálata� Jóságérték számítás� Optimális vágás választása a
lehetségesekből� Feltétel kiszámítása
L1
Cs1
Cs2
L2Cs3
ES: Szem beállítása
L3 L4
CB: Érték számítása
D: Feltétel választása
Modell
Felt?
F(x)
M
6
ShiftTree – Tanulás (ötlet)� „Dinamikus attribútumok”
� Hol nézzük? (ESO)� 25 időegységgel előrefele (ESONext(25))� A globális maximumnál (ESOMax)� 60 méretű intervallumon belül a legkisebb értéknél� …
� Mit nézzünk? (CBO)� A pontbeli értéket (CBOSimple)� Az érték környezetének normális eloszlás szerinti súlyozott átlagát (CBONormal)� Az ugrás során a lokális maximumok számát� Az ugrás hosszát� …
� Tanulás egy csomópontban� Leállási feltételek vizsgálata� Lehetséges attribútumok kiszámolása (ESO-CBO párok)� Az (első) optimális vágás megtalálása (ezt végzi a Decider)
� Attribútumok közül egy� Feltétel érték
� Operátorok és a feltétel érték megjegyzése� Vágás az attribútum és a feltétel alapján
� Kettéosztani a tanítópontokat a jobb és bal gyermeknek� Rekurzívan ugyanez a gyermek csomópontokban
F(x)
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
Érték:1,89136
Érték:2,15333
Érték:2,97557
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
Érték:1,89136
Érték:2,15333
Érték:2,97557
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
Érték:1,32432
Érték:-0,953538
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
Érték:1,32432
Érték:-0,953538
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
7
ShiftTree – Osztályozás példa
0. szintESOMax
CBOSimple
Felt: 2,028
1. szintESONext(25)
CBOSimple
Felt: 0,201982
2. szint 2. szint
1. szint
Levél Levél
Levél
8
1. szintESONext(25)CBOSimpleFeltétel1
2. szint 2. szint
Levél Levél
Optimalizálás: többszörös modellezés� Több optimális attribútum esetén
� Az összeset kiválasztjuk� Az összes szerint vágunk� Többszörös fát építünk
� De csak ott sokszorozunk, ahol kell, nem az egész fát� Egy másik halmazzal kiválasztjuk a legjobbat
Az 1. optimális
(25-öt előre)
Ez is optimális
(25-öt vissza)
1. szintESOPrev(25)CBOSimpleFeltétel2
2. szint 2. szint
Levél Levél
9
Eredmények: benchmark adatokon� 20 adatsor különböző területekről
� Egy változó� Eltérő tulajdonságok� 7 másik algoritmussal szemben
� KNN, C4.5 döntési fa, Logistic Model Tree, MLP, SVM, Naív Bayes háló, Random Forest
� Konfiguráció� Nincs optimalizálás� Legegyszerűbb operátorok
� Ugrás előre/hátra fix távot� Ugrás a következő lokális maximumra/minimumra� Ugrás a maximumra/minimumra� Pontbeli érték, normális súlyozás, exponenciális súlyozás
ShiftTree vs más osztályozók
0
2
4
6
8
10
12
14
16
18
20
1 2 3 4 5 6 7 8
Helyezés
Optimalizálás hatása
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
50W
ord
s
Adia
c
Beef
CB
F
Coff
ee
EC
G200
FaceA
ll
FaceF
our
Fis
h
GunP
oin
t
Lig
hting2
Lig
hting7
Oliv
eO
il
OS
ULeaf
Sw
edis
hLeaf
Synth
eticC
ontr
ol
Tra
ce
Tw
oP
att
ern
s
Wafe
r
Yoga
Adatsorok
Po
nto
sság
(%
)
Többszörös modellezés nyeséssel
Többszörös modellezés
Egyszerű modellezés
10
Eredmények: verseny körülmények� SIGKDD’07 Time Series Challange
adatsorain� 20 adatsor� Kombinált osztályozók ellen
� Erősebb konfiguráció� Fejlettebb operátorok� Több futtatás, többségi szavazás� De a paraméterek nincsenek
finomhangolva� Eredmények
� 6 első helyezés (legtöbb)� 4 adatsoron még lehetne nyerni� 2 adatsoron lehetne javítani� 8 adatsoron kevés a tanítóminta
� Modell alapú algoritmusok itt elvéreznek
� Összesítésben: 6-8 hely � Holtversenyben (a 13-ból)
Helyezések megoszlása
0
1
2
3
4
5
6
7
1 2 3 4 5 6 7 8 9 10 11 12 13
Helyezés
Db ShiftTree
Győztes
11
� Gesztus adatai gyorsulásmérővel� 3 változó (koordináta tengelyek)� 10 gesztus, 4 felhasználó� Kevés adat
� Lehetséges feladatok:� Gesztus felismerése� Adott gesztusnál a felhasználó
felismerése (nehéz feladat)� Bonyolult gesztusnál jobb eredmény� Kiemelkedő találati arány
Alkalmazás: hang- és, gesztusfelismerésHangfelismerés (AE): pontosság
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Tanítópontok aránya (%)
Talá
lati
ará
ny (
%)
Felhasználó felismerés a "love" gesztusnál: pontosság
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Tanítópontok aránya (%)
Talá
lati
ará
ny (
%)
� Személy felismerése az aemagánhangzó kiejtése alapján� 12 változó� 9 személy (osztály)
� Egyszerű operátorok� Nincs optimalizálás� Találati arány kellően magas
12
Alkalmazás: „Gondolat” felismerés
� EEG hullámok osztályozása� Adatsor:
� Két osztály: FEL, LE� 6 változó
� Jelenleg ~90% körüli pontosság� 2003-as versenyen a top3-ban
� Alkalmazás típusai� Offline osztályozás
� Alkatrészek tesztelésének automatikus kiértékelése
� Stream adatsorban jelek felismerése� Még sok nyitott kérdés� Folyamatban lévő kutatás
13
Összefoglalás� Új idősor-osztályozó: ShiftTree
� Automatikus� Minden egydimenziós idősorral működik� Operátorok definiálása a szakértő feladata
� Nem automatikus� Pontos
� Már egyszerű operátorokkal, optimalizálás nélkül is kellően pontos� Optimalizálással kifejezetten hatékony
� Ha a tanítóminta nem túl kicsi� Magyarázó
� Könnyen értelmezhető modellek, ellenőrizhető� Legnagyobb előnye: általános
� Tématerülettől függetlenül hatékonyan használható
Köszönöm a figyelmet!
ES: Szem beállítása
CB: Érték számítása
D: Feltétel választása
Modell
ES: Szem beállítása
CB: Érték számítása
D: Feltétel választása
Modell
ES: Szem beállítása
CB: Érték számítása
D: Feltétel választása
Modell
További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon: http://www.hidasi.eu