Transcript
Page 1: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

ZhlukovZhluková analýzaá analýzaCluster Analysis (CACluster Analysis (CA))

Mária VojtkováMária VojtkováKatedra štatistiky FHI EU v BratislaveKatedra štatistiky FHI EU v Bratislave

február 2008február 2008

Page 2: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza Charakteristika CACharakteristika CA

rozklad súboru na niekoľko rozklad súboru na niekoľko homogénnych podsúborovhomogénnych podsúborov

štatistické jednotky v jednom zhluku sú čo štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšienajpodobnejšie, najbližšie

štatistické jednotky rôznych zhlukov sú štatistické jednotky rôznych zhlukov sú navzájom čo najodlišnejšie, najvzdialenejšienavzájom čo najodlišnejšie, najvzdialenejšie

zoskupiť Xzoskupiť Xi i i=(1, ....n) do zhlukov ci=(1, ....n) do zhlukov c11,....c,....cq q (2 (2 < q < n< q < n))

Page 3: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza Postup CAPostup CA

výber miery výber miery podobnostipodobnosti (resp. (resp. nepodobnosti)nepodobnosti)

výber druhu výber druhu zhlukovacieho postupuzhlukovacieho postupu výber výber zhlukovacej metódyzhlukovacej metódy určenie určenie počtupočtu významných významných zhlukovzhlukov interpretáciainterpretácia zhlukov zhlukov

Page 4: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýza - výber Zhluková analýza - výber miery podobnostimiery podobnosti

miery podobnostimiery podobnosti koeficienty asociáciekoeficienty asociácie koeficienty koreláciekoeficienty korelácie pravdepodobnostné mierypravdepodobnostné miery

miery nepodobnosti miery nepodobnosti vzdialenostivzdialenosti – nezáporné reálne funkcie – nezáporné reálne funkcie d(XY) d(XY)

Page 5: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza - - vlastnosti miery vzdialenostivlastnosti miery vzdialenosti

a. pozitivity: d (X, Y) 0 d (X, Y)=0 ak X = Y

b. symetrie: d (X, Y) = d (Y, X) c. trojuholníková nerovnosť: d (X, Y) d (X, Z) + d (Y, Z)

Page 6: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Euklidovská vzdialenosťEuklidovská vzdialenosťdij =

n

1k

2jkik XX )(

Obrázok 1: Grafické znázornenie výpočtu Euklidovskej vzdialenosti

Page 7: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Hammingova vzdialenosť Hammingova vzdialenosť (city-block distance)(city-block distance)

dij = jk

n

1kik XX

Obrázok 2: Grafické znázornenie výpočtu Hammingovej vzdialenosti

Page 8: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Prehľad mier vzdialenostiPrehľad mier vzdialenosti

Euklidovská vzdialenosťEuklidovská vzdialenosťDDijij= = (x(xikik- x- xjkjk))22

Hammingova vzdialenosť Hammingova vzdialenosť DDijij= = |x|xikik- x- xjkjk||

Minkovskeho vzdialenosťMinkovskeho vzdialenosť DDijij= (= (|x|xikik- x- xjkjk||r r )) 1/r 1/r

Mahalanobisova vzdialenosťMahalanobisova vzdialenosť DDijij= (X= (Xii – X – Xjj))'' .S .S-1-1.(X.(Xii – X – Xjj))

Page 9: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza výber druhu zhlukovacieho postupuvýber druhu zhlukovacieho postupu

hierarchický postuphierarchický postup úplná analýza štatistického súboruúplná analýza štatistického súboru výsledok možno zobraziť pomocou hierarchického výsledok možno zobraziť pomocou hierarchického

grafu - dendrogramu grafu - dendrogramu aglomeratívnyaglomeratívny

v prvom kroku je každá jednotka samostatným v prvom kroku je každá jednotka samostatným zhlukomzhlukom

v poslednom kroku sú všetky jednotky v jednom v poslednom kroku sú všetky jednotky v jednom zhlukuzhluku

divíznydivízny v prvom kroku sú všetky jednotky v jednom zhlukuv prvom kroku sú všetky jednotky v jednom zhluku v poslednom kroku každá jednotka predstavuje zhlukv poslednom kroku každá jednotka predstavuje zhluk

Page 10: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza výber druhu zhlukovacieho postupuvýber druhu zhlukovacieho postupu

nehierarchický postupnehierarchický postup vopred určený počet zhlukovvopred určený počet zhlukov iteratívny postup určenia ich stredoviteratívny postup určenia ich stredov postupné zaraďovanie jednotiek k vybraným postupné zaraďovanie jednotiek k vybraným

stredomstredom

Page 11: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Všeobecný hierarchický Všeobecný hierarchický zhlukovací postupzhlukovací postup

1. Vypočítame maticu D vhodných mier vzdialeností. 2. Začneme proces rozkladu od n zhlukov, z ktorých každý obsahuje jeden objekt.

3. Prezrieme maticu D a nájdeme dva zhluky Ch a Ch’, ktorých vzdialenosť dij je

minimálna.

4. Spojíme zhluk Ch a Ch’do nového q-teho zhluku. V matici D vynecháme riadok a stĺpec reprezentujúci vzdialenosť zhlukov Ch a Ch’ a nahradíme ho novým reprezentujúcim ich spoločnú vzdialenosť od ostatných zhlukov podľa typu zvolenej metódy. Rozmer matice sa zníži o 1.

5. Postup opakujeme od kroku 3, až kým nedôjde k spojeniu všetkých objektov do

jedného zhluku.

Page 12: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy

hierarchické – aglomeratívnehierarchické – aglomeratívne metóda najbližšieho suseda (metóda najbližšieho suseda (nearest-neighbornearest-neighbor))

poznáme maticu euklidovských vzdialenostípoznáme maticu euklidovských vzdialeností vyberieme spojenie na základe min vzdialenostivyberieme spojenie na základe min vzdialenosti nové spojenie = min dnové spojenie = min dijij

tzv. reťaziaci efekttzv. reťaziaci efekt

Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najbližšieho suseda

Page 13: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy

hierarchické – aglomeratívnehierarchické – aglomeratívne metóda najvzdialenejšieho suseda metóda najvzdialenejšieho suseda

((furthest-neighborfurthest-neighbor)) poznáme maticu euklidovských vzdialenostípoznáme maticu euklidovských vzdialeností nové spojenie = max dnové spojenie = max dijij vyberieme spojenie, prepočítame, atď.vyberieme spojenie, prepočítame, atď. konzistentné, izolované zhlukykonzistentné, izolované zhluky

Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najvzdialenejšieho suseda

Page 14: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza

výber zhlukovacej metódyvýber zhlukovacej metódy hierarchické – aglomeratívnehierarchické – aglomeratívne

metóda priemernej väzby metóda priemernej väzby (group average)(group average)

poznáme maticu euklidovských vzdialenostípoznáme maticu euklidovských vzdialeností vzdialenosť medzi dvomi zhlukmi je vypočítaná vzdialenosť medzi dvomi zhlukmi je vypočítaná

ako priemerná min vzdialenosť prvkovako priemerná min vzdialenosť prvkov

Page 15: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy

hierarchické – aglomeratívnehierarchické – aglomeratívne centroidná metóda (centroid method)centroidná metóda (centroid method)

poznáme maticu euklidovských vzdialenostípoznáme maticu euklidovských vzdialeností každý novovytvorený zhluk je nahradený každý novovytvorený zhluk je nahradený

priemernpriemerným prvkom = centroidomým prvkom = centroidom nové spojenie = štvorec euklidovskej vzdialenostinové spojenie = štvorec euklidovskej vzdialenosti nevýhodou sú inverzienevýhodou sú inverzie

mediánová metóda (median method)mediánová metóda (median method) reprezentantom zhluku je jeho mediánreprezentantom zhluku je jeho medián vylepšenie centroidnej metódy vylepšenie centroidnej metódy

Page 16: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy

hierarchické – aglomeratívnehierarchické – aglomeratívne Wardova metóda (Ward method)Wardova metóda (Ward method)

nepočítame maticu vzdialenostínepočítame maticu vzdialeností kritérium spojenia = max vnútrozhlukovejkritérium spojenia = max vnútrozhlukovej

homogenityhomogenity mierou homogenity ESSmierou homogenity ESS inicializačné spojenie znamená minimálny prírastokinicializačné spojenie znamená minimálny prírastok

ESS = ΣΣ(XESS = ΣΣ(Xijij – priemX – priemXtjtj) ) 22 zhluky rovnakej veľkosti a tvaruzhluky rovnakej veľkosti a tvaru

Page 17: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy

nehierarchickénehierarchické Metóda typických bodov (seeded)Metóda typických bodov (seeded)

seed = typický predstaviteľ zhlukuseed = typický predstaviteľ zhluku ostatné objekty rozdelené podľa euklidovskejostatné objekty rozdelené podľa euklidovskej

vzdialenosti od seedvzdialenosti od seed Metóda k-priemerovMetóda k-priemerov

celý rad modifikáciicelý rad modifikácii Metóda optimálnych stredov alebo medoidovMetóda optimálnych stredov alebo medoidov

medoid – optimálny stred zhluku medoid – optimálny stred zhluku jeho priemerná vzdialenosť k ostatným objektom v zhluku je jeho priemerná vzdialenosť k ostatným objektom v zhluku je

minimálna minimálna Fuzzy zhlukovanieFuzzy zhlukovanie

umožňuje zumožňuje zaradeniearadenie jedného objektu do viacerých zhlukov jedného objektu do viacerých zhlukov pprítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je rítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je

medzi 0 a 1 – tzv. fuzifikácia zhlukovej konfiguráciemedzi 0 a 1 – tzv. fuzifikácia zhlukovej konfigurácie väčší počet prijateľných riešeníväčší počet prijateľných riešení

Page 18: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza NehierarchickNehierarchické zhlukovanieé zhlukovanie využíva tri využíva tri

postupy:postupy: sekvenčný:sekvenčný: najprv sa určí prvý predstaviteľ zhluku, najprv sa určí prvý predstaviteľ zhluku,

ku ktorému sa na základe špecifikovanej ku ktorému sa na základe špecifikovanej vzdialenosti priradia objekty, potom sa určí druhý vzdialenosti priradia objekty, potom sa určí druhý predstaviteľ a proces sa opakuje,predstaviteľ a proces sa opakuje,

paralelný:paralelný: na začiatku sa určí niekoľko na začiatku sa určí niekoľko predstaviteľov, ku ktorým sú jednotlivé objekty predstaviteľov, ku ktorým sú jednotlivé objekty priraďované paralelne,priraďované paralelne,

optimalizačný:optimalizačný: podobný predchádzajúcemu podobný predchádzajúcemu postupu avšak umožňuje znovuzaradenie objektu.postupu avšak umožňuje znovuzaradenie objektu.

Page 19: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Porovnanie zhlukovacích Porovnanie zhlukovacích metódmetód

Hierarchické metódyHierarchické metódy::

v minulosti populárnejšie (za najlepšie metódy v minulosti populárnejšie (za najlepšie metódy považované Wardová, metóda priemernej väzby považované Wardová, metóda priemernej väzby a centroidná metóda)a centroidná metóda)

rýchle, menšia spotreba stojového času rýchle, menšia spotreba stojového času a jednoduchéa jednoduché

poskytujú podrobnú štruktúru dát, nie je potrebné poskytujú podrobnú štruktúru dát, nie je potrebné poznať počet zhlukov na začiatku analýzypoznať počet zhlukov na začiatku analýzy

na ich výsledky majú vplyv odľahlé pozorovaniana ich výsledky majú vplyv odľahlé pozorovania nevhodné na analýzu veľmi veľkých súborovnevhodné na analýzu veľmi veľkých súborov

Page 20: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Porovnanie zhlukovacích Porovnanie zhlukovacích metódmetód

Nehierarchické metódyNehierarchické metódy::

v poslednom čase sa využívajú viacv poslednom čase sa využívajú viac vyžadujú zadanie počtu zhlukov na začiatku analýzyvyžadujú zadanie počtu zhlukov na začiatku analýzy výsledky sú ovplyvnené praktickými znalosťami výsledky sú ovplyvnené praktickými znalosťami

užívateľa a objektívnou teóriou, ako stanoviť užívateľa a objektívnou teóriou, ako stanoviť predstaviteľov zhlukovpredstaviteľov zhlukov

nie sú natoľko ovplyvnené odľahlými pozorovaniaminie sú natoľko ovplyvnené odľahlými pozorovaniami poskytujú viacero prijateľných alternatív štruktúry poskytujú viacero prijateľných alternatív štruktúry

dátdát

Page 21: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza určenie počtu významných zhlukovurčenie počtu významných zhlukov

heuristický prístupheuristický prístup

ukazovatele kvality zhlukovaniaukazovatele kvality zhlukovania

1.1. Štandardná odchýlkaŠtandardná odchýlka premenných tvoriacich premenných tvoriacich zhluk (RMSSTD),zhluk (RMSSTD),

2.2. Koeficient determinácieKoeficient determinácie (RSQ), (RSQ), 3.3. Semiparciálny koeficient determinácieSemiparciálny koeficient determinácie

(SPRSQ),(SPRSQ),4.4. Vzdialenosť zhlukovVzdialenosť zhlukov (CD). (CD).

Page 22: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza určenie počtu významných zhlukovurčenie počtu významných zhlukov

RMSSTD - homogenita nového zhlukuRMSSTD - homogenita nového zhluku malémalé

SPRSQ – homogenita spojených zhlukovSPRSQ – homogenita spojených zhlukov malémalé

RSQ – heterogenita zhlukovRSQ – heterogenita zhlukov vysokévysoké

CD – homogenita spojených zhlukovCD – homogenita spojených zhlukov malémalé

Page 23: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza určenie počtu významných zhlukov určenie počtu významných zhlukov v SASe cubic clustering criterion (CCC)v SASe cubic clustering criterion (CCC)

1.1. Vhodný počet zhlukov indikuje Vhodný počet zhlukov indikuje CCC>3CCC>3, vo všeobecnosti, čím vyššie je , vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame.CCC, tým lepší počet zhlukov získame.

2.2. Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov.počiatočného určenia počtu zhlukov.

3.3. Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá.hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá.

4.4. Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz.zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz.

5.5. Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.

Page 24: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Zhluková analýzaZhluková analýza interpretácia zhlukovinterpretácia zhlukov

dendrogramdendrogram grafickgrafická analýzaá analýza popisná štatistikapopisná štatistika

hodnotiaca miera je zhlukový centroidhodnotiaca miera je zhlukový centroid(ťažisko zhluku) podľa jednotlivých premenných(ťažisko zhluku) podľa jednotlivých premenných

popis každého zhluku na základe sledovaných popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho vlastností napr. podľa metód viackriteriálneho hodnoteniahodnotenia

Page 25: Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Bližšie pozri: Bližšie pozri:

Stankovičová, Vojtková: Stankovičová, Vojtková: Viacrozmerné štatistické metódy s Viacrozmerné štatistické metódy s aplikáciami, Bratislava: Iura edition, aplikáciami, Bratislava: Iura edition, 2007, ISBN 978-80-8078-152-12007, ISBN 978-80-8078-152-1


Top Related