kognitivní inspirace třídění na základě závislostí atributů
DESCRIPTION
Kognitivní inspirace třídění na základě závislostí atributů. Jan Burian Eurfomise centrum – Kardio, Ú stav informatiky AV ČR Článek je dostupný na WWW : http: //nb.vse.cz/~ burianj /articles/ burian_classification.rtf. Učení bez učitele a třídění. - PowerPoint PPT PresentationTRANSCRIPT
1
Kognitivní inspirace třídění na základě závislostí atributů
Jan Burian
Eurfomise centrum – Kardio, Ústav informatiky AV ČR
Článek je dostupný na WWW: http://nb.vse.cz/~burianj/articles/burian_classification.rtf
2
Učení bez učitele a třídění
• Učení bez učitele – rozpoznáváme v datech jisté pravidelnosti, aniž bychom disponovali informací, kde a jak tyto pravidelnosti hledat
• Typická úloha – nalézt způsob jak roztřídit záznamy v tabulce relační databáze
• Klasické třídění – nalézt funkci rozdělující shluky záznamů v prostoru atributů s danou metrikou
3
Problém klasického třídění
• V případě, že máme kategoriální atributy, klasické třídění postihuje vztahy mezi záznamy v třídě vždy v rámci jednoho atributu, nepostihuje vztahy mezi atributy
• Vztah mezi atributy je vlastností celku• Klasické třídění nepostihuje vlastnost skupiny
záznamů jako celku, vlastnosti třídy se dají redukovat na vlastnosti jednotlivých částí (záznamů)
• Inspirativní řešení – kognitivní vědy
4
Kognitivní vědy
• Zabývají se procesem poznávání v živých i umělých systémech
• Poznávání můžeme chápat jako proces získávání znalostí
• Učení jedna ze základních složek poznávání
• Inspirace – neurofyziologie ukládání a vybavování znalostí v mozku
5
Kognitivní inspirace
• Poškození mozku nezpůsobuje úplnou ztrátu schopnosti vybavovat si naučené znalosti, ale pouze zmenšení této schopnosti
• Znalosti nejsou poškozením odstraněny nebo vymazány, jen je snížena jejich celková kvalita
6
Kognitivní inspirace
• Znalosti nejsou v mozku uložené v jednotlivých neuronech, ale jsou distribuovány v rozsáhlých vzorech aktivit neuronových drah
• Znalosti v mozku se nedají redukovat na součet jednotlivých částí, ale vznikají až jako vlastnost celku
• Inspirace - chápat vztahy mezi třídami záznamů v databázi nikoliv jako odlišnost jednotlivých záznamů, ale jako odlišnost mezi charakteristikami celků jednotlivých tříd
7
Vztah atributů
• Vhodnou charakteristikou skupiny záznamů je ohodnocení závislostí atributů na základě kontingenční tabulky
8
Třídící atribut
• V odlišných skupinách záznamů mohou (ale nemusí) být odlišné závislosti atributy
• Chceme najít způsob jak roztřídit záznamy tak, aby mezi třídami byly co nejodlišnější závislosti mezi atributy
• Pokusme se najít takový atribut jehož kategorie roztřídí záznamy do tříd s maximálně odlišnými závislostmi atributů.
9
Závislost atributů
• Nechť V je množina všech atributů tabulky databáze
• Nechť C V je kandidát na třídící atribut a C1,C2
… Ck jsou kategorie (třídy) tohoto atributu
• Pro A,S V; A S; A,S C označme AD(A,S|Ci) odnotu nějaké testové statistiky (například χ²,
Kendallův koeficient apod.) o závislosti dvou atributů A a S ve třídě Ci.
10
Odlišnost jako úhel mezi vektorem závislostí a osou souřadnic
• Pro AD(A,S|C1) =AD(A,S|C2)
• bod [AD(A,S|C1) ; AD(A,S|C2) ] se nalézá na ose souřadnic
• úhel je nulový
• závislost A a S není podmíněna C
AD(A,S|C2)
δ
(AD(A,S|C1), AD(A,S|C2) )
AD(A,S|C1)
(1,1)
11
Odlišnost závislostí atributů v třídách
• ADCD (Attribute Dependency Class Difference) • Suma odlišností závislostí atributů v třídách pro různé
kombinace atributů• Použití kosinové věty
• Maximální odlišnost závislostí mezi atributy má minimální ADCD
12
Postup identifikace třídícího atributu
• Pro každého kandidáta na třídící atribut vyber z databázové tabulky třídy podle jeho kategorií (skupina záznamů, u kterých se daná kategorie vyskytuje). Pro tyto třídy vygeneruj závislosti dvojic ostatních atributů.
• Urči odlišnost závislostí atributů v třídách (ADCD) pro jednotlivé kandidáty na třídící algoritmus.
• Vyber jako třídící ten atribut, u nějž je odlišnost závislostí atributů v třídách maximální.
13
Závěr a další vývoj
• Zatím není implementováno, ale …• Procedura KL-Miner (součást systému
LISp-Miner), generuje vztahy mezi atributy na základě kontingenční tabulky
• Ve vývoji je program SDKL-Miner hledající zajímavé odlišnosti mezi vztahy atributů ve dvou zadaných skupinách záznamů
14
Závěr a další vývoj
• Obecný problém: Tvorba nového atributu, který záznamy roztřídí tak, aby odlišnost závislostí atributů v třídách byla maximální ze všech možných roztřídění.
• Patrně vhodné použití suboptimálních a subsymbolických metod (neuronové sítě, genetické algoritmy)