Download - Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave
ZhlukovZhluková analýzaá analýzaCluster Analysis (CACluster Analysis (CA))
Mária VojtkováMária VojtkováKatedra štatistiky FHI EU v BratislaveKatedra štatistiky FHI EU v Bratislave
február 2008február 2008
Zhluková analýzaZhluková analýza Charakteristika CACharakteristika CA
rozklad súboru na niekoľko rozklad súboru na niekoľko homogénnych podsúborovhomogénnych podsúborov
štatistické jednotky v jednom zhluku sú čo štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšienajpodobnejšie, najbližšie
štatistické jednotky rôznych zhlukov sú štatistické jednotky rôznych zhlukov sú navzájom čo najodlišnejšie, najvzdialenejšienavzájom čo najodlišnejšie, najvzdialenejšie
zoskupiť Xzoskupiť Xi i i=(1, ....n) do zhlukov ci=(1, ....n) do zhlukov c11,....c,....cq q (2 (2 < q < n< q < n))
Zhluková analýzaZhluková analýza Postup CAPostup CA
výber miery výber miery podobnostipodobnosti (resp. (resp. nepodobnosti)nepodobnosti)
výber druhu výber druhu zhlukovacieho postupuzhlukovacieho postupu výber výber zhlukovacej metódyzhlukovacej metódy určenie určenie počtupočtu významných významných zhlukovzhlukov interpretáciainterpretácia zhlukov zhlukov
Zhluková analýza - výber Zhluková analýza - výber miery podobnostimiery podobnosti
miery podobnostimiery podobnosti koeficienty asociáciekoeficienty asociácie koeficienty koreláciekoeficienty korelácie pravdepodobnostné mierypravdepodobnostné miery
miery nepodobnosti miery nepodobnosti vzdialenostivzdialenosti – nezáporné reálne funkcie – nezáporné reálne funkcie d(XY) d(XY)
Zhluková analýzaZhluková analýza - - vlastnosti miery vzdialenostivlastnosti miery vzdialenosti
a. pozitivity: d (X, Y) 0 d (X, Y)=0 ak X = Y
b. symetrie: d (X, Y) = d (Y, X) c. trojuholníková nerovnosť: d (X, Y) d (X, Z) + d (Y, Z)
Euklidovská vzdialenosťEuklidovská vzdialenosťdij =
n
1k
2jkik XX )(
Obrázok 1: Grafické znázornenie výpočtu Euklidovskej vzdialenosti
Hammingova vzdialenosť Hammingova vzdialenosť (city-block distance)(city-block distance)
dij = jk
n
1kik XX
Obrázok 2: Grafické znázornenie výpočtu Hammingovej vzdialenosti
Prehľad mier vzdialenostiPrehľad mier vzdialenosti
Euklidovská vzdialenosťEuklidovská vzdialenosťDDijij= = (x(xikik- x- xjkjk))22
Hammingova vzdialenosť Hammingova vzdialenosť DDijij= = |x|xikik- x- xjkjk||
Minkovskeho vzdialenosťMinkovskeho vzdialenosť DDijij= (= (|x|xikik- x- xjkjk||r r )) 1/r 1/r
Mahalanobisova vzdialenosťMahalanobisova vzdialenosť DDijij= (X= (Xii – X – Xjj))'' .S .S-1-1.(X.(Xii – X – Xjj))
Zhluková analýzaZhluková analýza výber druhu zhlukovacieho postupuvýber druhu zhlukovacieho postupu
hierarchický postuphierarchický postup úplná analýza štatistického súboruúplná analýza štatistického súboru výsledok možno zobraziť pomocou hierarchického výsledok možno zobraziť pomocou hierarchického
grafu - dendrogramu grafu - dendrogramu aglomeratívnyaglomeratívny
v prvom kroku je každá jednotka samostatným v prvom kroku je každá jednotka samostatným zhlukomzhlukom
v poslednom kroku sú všetky jednotky v jednom v poslednom kroku sú všetky jednotky v jednom zhlukuzhluku
divíznydivízny v prvom kroku sú všetky jednotky v jednom zhlukuv prvom kroku sú všetky jednotky v jednom zhluku v poslednom kroku každá jednotka predstavuje zhlukv poslednom kroku každá jednotka predstavuje zhluk
Zhluková analýzaZhluková analýza výber druhu zhlukovacieho postupuvýber druhu zhlukovacieho postupu
nehierarchický postupnehierarchický postup vopred určený počet zhlukovvopred určený počet zhlukov iteratívny postup určenia ich stredoviteratívny postup určenia ich stredov postupné zaraďovanie jednotiek k vybraným postupné zaraďovanie jednotiek k vybraným
stredomstredom
Všeobecný hierarchický Všeobecný hierarchický zhlukovací postupzhlukovací postup
1. Vypočítame maticu D vhodných mier vzdialeností. 2. Začneme proces rozkladu od n zhlukov, z ktorých každý obsahuje jeden objekt.
3. Prezrieme maticu D a nájdeme dva zhluky Ch a Ch’, ktorých vzdialenosť dij je
minimálna.
4. Spojíme zhluk Ch a Ch’do nového q-teho zhluku. V matici D vynecháme riadok a stĺpec reprezentujúci vzdialenosť zhlukov Ch a Ch’ a nahradíme ho novým reprezentujúcim ich spoločnú vzdialenosť od ostatných zhlukov podľa typu zvolenej metódy. Rozmer matice sa zníži o 1.
5. Postup opakujeme od kroku 3, až kým nedôjde k spojeniu všetkých objektov do
jedného zhluku.
Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy
hierarchické – aglomeratívnehierarchické – aglomeratívne metóda najbližšieho suseda (metóda najbližšieho suseda (nearest-neighbornearest-neighbor))
poznáme maticu euklidovských vzdialenostípoznáme maticu euklidovských vzdialeností vyberieme spojenie na základe min vzdialenostivyberieme spojenie na základe min vzdialenosti nové spojenie = min dnové spojenie = min dijij
tzv. reťaziaci efekttzv. reťaziaci efekt
Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najbližšieho suseda
Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy
hierarchické – aglomeratívnehierarchické – aglomeratívne metóda najvzdialenejšieho suseda metóda najvzdialenejšieho suseda
((furthest-neighborfurthest-neighbor)) poznáme maticu euklidovských vzdialenostípoznáme maticu euklidovských vzdialeností nové spojenie = max dnové spojenie = max dijij vyberieme spojenie, prepočítame, atď.vyberieme spojenie, prepočítame, atď. konzistentné, izolované zhlukykonzistentné, izolované zhluky
Grafické znázornenie vzdialenosti medzi novými zhlukmi pri metóde najvzdialenejšieho suseda
Zhluková analýzaZhluková analýza
výber zhlukovacej metódyvýber zhlukovacej metódy hierarchické – aglomeratívnehierarchické – aglomeratívne
metóda priemernej väzby metóda priemernej väzby (group average)(group average)
poznáme maticu euklidovských vzdialenostípoznáme maticu euklidovských vzdialeností vzdialenosť medzi dvomi zhlukmi je vypočítaná vzdialenosť medzi dvomi zhlukmi je vypočítaná
ako priemerná min vzdialenosť prvkovako priemerná min vzdialenosť prvkov
Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy
hierarchické – aglomeratívnehierarchické – aglomeratívne centroidná metóda (centroid method)centroidná metóda (centroid method)
poznáme maticu euklidovských vzdialenostípoznáme maticu euklidovských vzdialeností každý novovytvorený zhluk je nahradený každý novovytvorený zhluk je nahradený
priemernpriemerným prvkom = centroidomým prvkom = centroidom nové spojenie = štvorec euklidovskej vzdialenostinové spojenie = štvorec euklidovskej vzdialenosti nevýhodou sú inverzienevýhodou sú inverzie
mediánová metóda (median method)mediánová metóda (median method) reprezentantom zhluku je jeho mediánreprezentantom zhluku je jeho medián vylepšenie centroidnej metódy vylepšenie centroidnej metódy
Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy
hierarchické – aglomeratívnehierarchické – aglomeratívne Wardova metóda (Ward method)Wardova metóda (Ward method)
nepočítame maticu vzdialenostínepočítame maticu vzdialeností kritérium spojenia = max vnútrozhlukovejkritérium spojenia = max vnútrozhlukovej
homogenityhomogenity mierou homogenity ESSmierou homogenity ESS inicializačné spojenie znamená minimálny prírastokinicializačné spojenie znamená minimálny prírastok
ESS = ΣΣ(XESS = ΣΣ(Xijij – priemX – priemXtjtj) ) 22 zhluky rovnakej veľkosti a tvaruzhluky rovnakej veľkosti a tvaru
Zhluková analýzaZhluková analýza výber zhlukovacej metódyvýber zhlukovacej metódy
nehierarchickénehierarchické Metóda typických bodov (seeded)Metóda typických bodov (seeded)
seed = typický predstaviteľ zhlukuseed = typický predstaviteľ zhluku ostatné objekty rozdelené podľa euklidovskejostatné objekty rozdelené podľa euklidovskej
vzdialenosti od seedvzdialenosti od seed Metóda k-priemerovMetóda k-priemerov
celý rad modifikáciicelý rad modifikácii Metóda optimálnych stredov alebo medoidovMetóda optimálnych stredov alebo medoidov
medoid – optimálny stred zhluku medoid – optimálny stred zhluku jeho priemerná vzdialenosť k ostatným objektom v zhluku je jeho priemerná vzdialenosť k ostatným objektom v zhluku je
minimálna minimálna Fuzzy zhlukovanieFuzzy zhlukovanie
umožňuje zumožňuje zaradeniearadenie jedného objektu do viacerých zhlukov jedného objektu do viacerých zhlukov pprítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je rítomnosť objektu v zhluku je daná pravdepodobnosťou, ktorá je
medzi 0 a 1 – tzv. fuzifikácia zhlukovej konfiguráciemedzi 0 a 1 – tzv. fuzifikácia zhlukovej konfigurácie väčší počet prijateľných riešeníväčší počet prijateľných riešení
Zhluková analýzaZhluková analýza NehierarchickNehierarchické zhlukovanieé zhlukovanie využíva tri využíva tri
postupy:postupy: sekvenčný:sekvenčný: najprv sa určí prvý predstaviteľ zhluku, najprv sa určí prvý predstaviteľ zhluku,
ku ktorému sa na základe špecifikovanej ku ktorému sa na základe špecifikovanej vzdialenosti priradia objekty, potom sa určí druhý vzdialenosti priradia objekty, potom sa určí druhý predstaviteľ a proces sa opakuje,predstaviteľ a proces sa opakuje,
paralelný:paralelný: na začiatku sa určí niekoľko na začiatku sa určí niekoľko predstaviteľov, ku ktorým sú jednotlivé objekty predstaviteľov, ku ktorým sú jednotlivé objekty priraďované paralelne,priraďované paralelne,
optimalizačný:optimalizačný: podobný predchádzajúcemu podobný predchádzajúcemu postupu avšak umožňuje znovuzaradenie objektu.postupu avšak umožňuje znovuzaradenie objektu.
Porovnanie zhlukovacích Porovnanie zhlukovacích metódmetód
Hierarchické metódyHierarchické metódy::
v minulosti populárnejšie (za najlepšie metódy v minulosti populárnejšie (za najlepšie metódy považované Wardová, metóda priemernej väzby považované Wardová, metóda priemernej väzby a centroidná metóda)a centroidná metóda)
rýchle, menšia spotreba stojového času rýchle, menšia spotreba stojového času a jednoduchéa jednoduché
poskytujú podrobnú štruktúru dát, nie je potrebné poskytujú podrobnú štruktúru dát, nie je potrebné poznať počet zhlukov na začiatku analýzypoznať počet zhlukov na začiatku analýzy
na ich výsledky majú vplyv odľahlé pozorovaniana ich výsledky majú vplyv odľahlé pozorovania nevhodné na analýzu veľmi veľkých súborovnevhodné na analýzu veľmi veľkých súborov
Porovnanie zhlukovacích Porovnanie zhlukovacích metódmetód
Nehierarchické metódyNehierarchické metódy::
v poslednom čase sa využívajú viacv poslednom čase sa využívajú viac vyžadujú zadanie počtu zhlukov na začiatku analýzyvyžadujú zadanie počtu zhlukov na začiatku analýzy výsledky sú ovplyvnené praktickými znalosťami výsledky sú ovplyvnené praktickými znalosťami
užívateľa a objektívnou teóriou, ako stanoviť užívateľa a objektívnou teóriou, ako stanoviť predstaviteľov zhlukovpredstaviteľov zhlukov
nie sú natoľko ovplyvnené odľahlými pozorovaniaminie sú natoľko ovplyvnené odľahlými pozorovaniami poskytujú viacero prijateľných alternatív štruktúry poskytujú viacero prijateľných alternatív štruktúry
dátdát
Zhluková analýzaZhluková analýza určenie počtu významných zhlukovurčenie počtu významných zhlukov
heuristický prístupheuristický prístup
ukazovatele kvality zhlukovaniaukazovatele kvality zhlukovania
1.1. Štandardná odchýlkaŠtandardná odchýlka premenných tvoriacich premenných tvoriacich zhluk (RMSSTD),zhluk (RMSSTD),
2.2. Koeficient determinácieKoeficient determinácie (RSQ), (RSQ), 3.3. Semiparciálny koeficient determinácieSemiparciálny koeficient determinácie
(SPRSQ),(SPRSQ),4.4. Vzdialenosť zhlukovVzdialenosť zhlukov (CD). (CD).
Zhluková analýzaZhluková analýza určenie počtu významných zhlukovurčenie počtu významných zhlukov
RMSSTD - homogenita nového zhlukuRMSSTD - homogenita nového zhluku malémalé
SPRSQ – homogenita spojených zhlukovSPRSQ – homogenita spojených zhlukov malémalé
RSQ – heterogenita zhlukovRSQ – heterogenita zhlukov vysokévysoké
CD – homogenita spojených zhlukovCD – homogenita spojených zhlukov malémalé
Zhluková analýzaZhluková analýza určenie počtu významných zhlukov určenie počtu významných zhlukov v SASe cubic clustering criterion (CCC)v SASe cubic clustering criterion (CCC)
1.1. Vhodný počet zhlukov indikuje Vhodný počet zhlukov indikuje CCC>3CCC>3, vo všeobecnosti, čím vyššie je , vo všeobecnosti, čím vyššie je CCC, tým lepší počet zhlukov získame.CCC, tým lepší počet zhlukov získame.
2.2. Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je pozorované veľmi odlišné globálne maximum CCC v závislosti od pozorované veľmi odlišné globálne maximum CCC v závislosti od počiatočného určenia počtu zhlukov.počiatočného určenia počtu zhlukov.
3.3. Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá.hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá.
4.4. Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť Ak CCC neustále rastie, s počtom zhlukov je možná prítomnosť reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých reťazenia, t.j. objekty vo vnútri zhluku sú pospájané z niekoľkých zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz.zhlukov, pričom jednotlivé objekty vytvárajú medzi nimi reťaz.
5.5. Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.objektov, CCC nie je vhodným kritériom na stanovenie počtu zhlukov.
Zhluková analýzaZhluková analýza interpretácia zhlukovinterpretácia zhlukov
dendrogramdendrogram grafickgrafická analýzaá analýza popisná štatistikapopisná štatistika
hodnotiaca miera je zhlukový centroidhodnotiaca miera je zhlukový centroid(ťažisko zhluku) podľa jednotlivých premenných(ťažisko zhluku) podľa jednotlivých premenných
popis každého zhluku na základe sledovaných popis každého zhluku na základe sledovaných vlastností napr. podľa metód viackriteriálneho vlastností napr. podľa metód viackriteriálneho hodnoteniahodnotenia
Bližšie pozri: Bližšie pozri:
Stankovičová, Vojtková: Stankovičová, Vojtková: Viacrozmerné štatistické metódy s Viacrozmerné štatistické metódy s aplikáciami, Bratislava: Iura edition, aplikáciami, Bratislava: Iura edition, 2007, ISBN 978-80-8078-152-12007, ISBN 978-80-8078-152-1