kognitivní inspirace třídění na základě závislostí atributů

14
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW: http://nb.vse.cz/~burianj/articles/burian_classificat ion.rtf

Upload: aysha

Post on 21-Jan-2016

37 views

Category:

Documents


2 download

DESCRIPTION

Kognitivní inspirace třídění na základě závislostí atributů. Jan Burian Eurfomise centrum – Kardio, Ú stav informatiky AV ČR Článek je dostupný na WWW : http: //nb.vse.cz/~ burianj /articles/ burian_classification.rtf. Učení bez učitele a třídění. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Kognitivní inspirace třídění na základě závislostí atributů

1

Kognitivní inspirace třídění na základě závislostí atributů

Jan Burian

Eurfomise centrum – Kardio, Ústav informatiky AV ČR

Článek je dostupný na WWW: http://nb.vse.cz/~burianj/articles/burian_classification.rtf

Page 2: Kognitivní inspirace třídění na základě závislostí atributů

2

Učení bez učitele a třídění

• Učení bez učitele – rozpoznáváme v datech jisté pravidelnosti, aniž bychom disponovali informací, kde a jak tyto pravidelnosti hledat

• Typická úloha – nalézt způsob jak roztřídit záznamy v tabulce relační databáze

• Klasické třídění – nalézt funkci rozdělující shluky záznamů v prostoru atributů s danou metrikou

Page 3: Kognitivní inspirace třídění na základě závislostí atributů

3

Problém klasického třídění

• V případě, že máme kategoriální atributy, klasické třídění postihuje vztahy mezi záznamy v třídě vždy v rámci jednoho atributu, nepostihuje vztahy mezi atributy

• Vztah mezi atributy je vlastností celku• Klasické třídění nepostihuje vlastnost skupiny

záznamů jako celku, vlastnosti třídy se dají redukovat na vlastnosti jednotlivých částí (záznamů)

• Inspirativní řešení – kognitivní vědy

Page 4: Kognitivní inspirace třídění na základě závislostí atributů

4

Kognitivní vědy

• Zabývají se procesem poznávání v živých i umělých systémech

• Poznávání můžeme chápat jako proces získávání znalostí

• Učení jedna ze základních složek poznávání

• Inspirace – neurofyziologie ukládání a vybavování znalostí v mozku

Page 5: Kognitivní inspirace třídění na základě závislostí atributů

5

Kognitivní inspirace

• Poškození mozku nezpůsobuje úplnou ztrátu schopnosti vybavovat si naučené znalosti, ale pouze zmenšení této schopnosti

• Znalosti nejsou poškozením odstraněny nebo vymazány, jen je snížena jejich celková kvalita

Page 6: Kognitivní inspirace třídění na základě závislostí atributů

6

Kognitivní inspirace

• Znalosti nejsou v mozku uložené v jednotlivých neuronech, ale jsou distribuovány v rozsáhlých vzorech aktivit neuronových drah

• Znalosti v mozku se nedají redukovat na součet jednotlivých částí, ale vznikají až jako vlastnost celku

• Inspirace - chápat vztahy mezi třídami záznamů v databázi nikoliv jako odlišnost jednotlivých záznamů, ale jako odlišnost mezi charakteristikami celků jednotlivých tříd

Page 7: Kognitivní inspirace třídění na základě závislostí atributů

7

Vztah atributů

• Vhodnou charakteristikou skupiny záznamů je ohodnocení závislostí atributů na základě kontingenční tabulky

Page 8: Kognitivní inspirace třídění na základě závislostí atributů

8

Třídící atribut

• V odlišných skupinách záznamů mohou (ale nemusí) být odlišné závislosti atributy

• Chceme najít způsob jak roztřídit záznamy tak, aby mezi třídami byly co nejodlišnější závislosti mezi atributy

• Pokusme se najít takový atribut jehož kategorie roztřídí záznamy do tříd s maximálně odlišnými závislostmi atributů.

Page 9: Kognitivní inspirace třídění na základě závislostí atributů

9

Závislost atributů

• Nechť V je množina všech atributů tabulky databáze

• Nechť C V je kandidát na třídící atribut a C1,C2

… Ck jsou kategorie (třídy) tohoto atributu

• Pro A,S V; A S; A,S C označme AD(A,S|Ci) odnotu nějaké testové statistiky (například χ²,

Kendallův koeficient apod.) o závislosti dvou atributů A a S ve třídě Ci.

Page 10: Kognitivní inspirace třídění na základě závislostí atributů

10

Odlišnost jako úhel mezi vektorem závislostí a osou souřadnic

• Pro AD(A,S|C1) =AD(A,S|C2)

• bod [AD(A,S|C1) ; AD(A,S|C2) ] se nalézá na ose souřadnic

• úhel je nulový

• závislost A a S není podmíněna C

AD(A,S|C2)

δ

(AD(A,S|C1), AD(A,S|C2) )

AD(A,S|C1)

(1,1)

Page 11: Kognitivní inspirace třídění na základě závislostí atributů

11

Odlišnost závislostí atributů v třídách

• ADCD (Attribute Dependency Class Difference) • Suma odlišností závislostí atributů v třídách pro různé

kombinace atributů• Použití kosinové věty

• Maximální odlišnost závislostí mezi atributy má minimální ADCD

Page 12: Kognitivní inspirace třídění na základě závislostí atributů

12

Postup identifikace třídícího atributu

• Pro každého kandidáta na třídící atribut vyber z databázové tabulky třídy podle jeho kategorií (skupina záznamů, u kterých se daná kategorie vyskytuje). Pro tyto třídy vygeneruj závislosti dvojic ostatních atributů.

• Urči odlišnost závislostí atributů v třídách (ADCD) pro jednotlivé kandidáty na třídící algoritmus.

• Vyber jako třídící ten atribut, u nějž je odlišnost závislostí atributů v třídách maximální.

Page 13: Kognitivní inspirace třídění na základě závislostí atributů

13

Závěr a další vývoj

• Zatím není implementováno, ale …• Procedura KL-Miner (součást systému

LISp-Miner), generuje vztahy mezi atributy na základě kontingenční tabulky

• Ve vývoji je program SDKL-Miner hledající zajímavé odlišnosti mezi vztahy atributů ve dvou zadaných skupinách záznamů

Page 14: Kognitivní inspirace třídění na základě závislostí atributů

14

Závěr a další vývoj

• Obecný problém: Tvorba nového atributu, který záznamy roztřídí tak, aby odlišnost závislostí atributů v třídách byla maximální ze všech možných roztřídění.

• Patrně vhodné použití suboptimálních a subsymbolických metod (neuronové sítě, genetické algoritmy)