kognitivní inspirace třídění na základě závislostí atributů

1

Kognitivní inspirace třídění na základě závislostí atributů

Jan Burian

Eurfomise centrum – Kardio, Ústav informatiky AV ČR

Článek je dostupný na WWW: http://nb.vse.cz/~burianj/articles/burian_classification.rtf

2

Učení bez učitele a třídění

• Učení bez učitele – rozpoznáváme v datech jisté pravidelnosti, aniž bychom disponovali informací, kde a jak tyto pravidelnosti hledat

• Typická úloha – nalézt způsob jak roztřídit záznamy v tabulce relační databáze

• Klasické třídění – nalézt funkci rozdělující shluky záznamů v prostoru atributů s danou metrikou

3

Problém klasického třídění

• V případě, že máme kategoriální atributy, klasické třídění postihuje vztahy mezi záznamy v třídě vždy v rámci jednoho atributu, nepostihuje vztahy mezi atributy

• Vztah mezi atributy je vlastností celku• Klasické třídění nepostihuje vlastnost skupiny

záznamů jako celku, vlastnosti třídy se dají redukovat na vlastnosti jednotlivých částí (záznamů)

• Inspirativní řešení – kognitivní vědy

4

Kognitivní vědy

• Zabývají se procesem poznávání v živých i umělých systémech

• Poznávání můžeme chápat jako proces získávání znalostí

• Učení jedna ze základních složek poznávání

• Inspirace – neurofyziologie ukládání a vybavování znalostí v mozku

5

Kognitivní inspirace

• Poškození mozku nezpůsobuje úplnou ztrátu schopnosti vybavovat si naučené znalosti, ale pouze zmenšení této schopnosti

• Znalosti nejsou poškozením odstraněny nebo vymazány, jen je snížena jejich celková kvalita

6

Kognitivní inspirace

• Znalosti nejsou v mozku uložené v jednotlivých neuronech, ale jsou distribuovány v rozsáhlých vzorech aktivit neuronových drah

• Znalosti v mozku se nedají redukovat na součet jednotlivých částí, ale vznikají až jako vlastnost celku

• Inspirace - chápat vztahy mezi třídami záznamů v databázi nikoliv jako odlišnost jednotlivých záznamů, ale jako odlišnost mezi charakteristikami celků jednotlivých tříd

7

Vztah atributů

• Vhodnou charakteristikou skupiny záznamů je ohodnocení závislostí atributů na základě kontingenční tabulky

8

Třídící atribut

• V odlišných skupinách záznamů mohou (ale nemusí) být odlišné závislosti atributy

• Chceme najít způsob jak roztřídit záznamy tak, aby mezi třídami byly co nejodlišnější závislosti mezi atributy

• Pokusme se najít takový atribut jehož kategorie roztřídí záznamy do tříd s maximálně odlišnými závislostmi atributů.

9

Závislost atributů

• Nechť V je množina všech atributů tabulky databáze

• Nechť C V je kandidát na třídící atribut a C1,C2

… Ck jsou kategorie (třídy) tohoto atributu

• Pro A,S V; A S; A,S C označme AD(A,S|Ci) odnotu nějaké testové statistiky (například χ²,

Kendallův koeficient apod.) o závislosti dvou atributů A a S ve třídě Ci.

11

Odlišnost závislostí atributů v třídách

• ADCD (Attribute Dependency Class Difference) • Suma odlišností závislostí atributů v třídách pro různé

kombinace atributů• Použití kosinové věty

• Maximální odlišnost závislostí mezi atributy má minimální ADCD

12

Postup identifikace třídícího atributu

• Pro každého kandidáta na třídící atribut vyber z databázové tabulky třídy podle jeho kategorií (skupina záznamů, u kterých se daná kategorie vyskytuje). Pro tyto třídy vygeneruj závislosti dvojic ostatních atributů.

• Urči odlišnost závislostí atributů v třídách (ADCD) pro jednotlivé kandidáty na třídící algoritmus.

• Vyber jako třídící ten atribut, u nějž je odlišnost závislostí atributů v třídách maximální.

13

Závěr a další vývoj

• Zatím není implementováno, ale …• Procedura KL-Miner (součást systému

LISp-Miner), generuje vztahy mezi atributy na základě kontingenční tabulky

• Ve vývoji je program SDKL-Miner hledající zajímavé odlišnosti mezi vztahy atributů ve dvou zadaných skupinách záznamů

14

Závěr a další vývoj

• Obecný problém: Tvorba nového atributu, který záznamy roztřídí tak, aby odlišnost závislostí atributů v třídách byla maximální ze všech možných roztřídění.

• Patrně vhodné použití suboptimálních a subsymbolických metod (neuronové sítě, genetické algoritmy)

kognitivní inspirace třídění na základě závislostí atributů

Documents