zhlukov á analýza cluster analysis (ca ) mária vojtková katedra štatistiky fhi eu v bratislave

Download Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave

Post on 15-Mar-2016

56 views

Category:

Documents

4 download

Embed Size (px)

DESCRIPTION

Zhlukov á analýza Cluster Analysis (CA ) Mária Vojtková Katedra štatistiky FHI EU v Bratislave február 2008. Zhluková analýza. Charakteristika CA rozklad súboru na niekoľko homogénnych podsúborov štatistické jednotky v jednom zhluku sú čo najpodobnejšie, najbližšie - PowerPoint PPT Presentation

TRANSCRIPT

  • Zhlukov analzaCluster Analysis (CA)

    Mria Vojtkov

    Katedra tatistiky FHI EU v Bratislave

    februr 2008

  • Zhlukov analzaCharakteristika CA

    rozklad sboru na niekoko homognnych podsborovtatistick jednotky v jednom zhluku s o najpodobnejie, najbliietatistick jednotky rznych zhlukov s navzjom o najodlinejie, najvzdialenejie

    zoskupi Xi i=(1, ....n) do zhlukov c1,....cq (2 < q < n)

  • Zhlukov analzaPostup CA

    vber miery podobnosti (resp. nepodobnosti)vber druhu zhlukovacieho postupuvber zhlukovacej metdyurenie potu vznamnch zhlukovinterpretcia zhlukov

  • Zhlukov analza - vber miery podobnosti

    miery podobnostikoeficienty asociciekoeficienty korelciepravdepodobnostn miery

    miery nepodobnosti vzdialenosti nezporn relne funkcie d(XY)

  • Zhlukov analza - vlastnosti miery vzdialenosti

    a. pozitivity:

    d (X, Y) ( 0

    d (X, Y)=0 ak X = Y

    b. symetrie:

    d (X, Y) = d (Y, X)

    c. trojuholnkov nerovnos:d (X, Y) ( d (X, Z) + d (Y, Z)

  • Euklidovsk vzdialenosObrzok 1: Grafick znzornenie vpotu Euklidovskej vzdialenosti

    dij =

    _1056296616.unknown

  • Hammingova vzdialenos (city-block distance) Obrzok 2: Grafick znzornenie vpotu Hammingovej vzdialenosti

    dij =

    _1056297190.unknown

  • Prehad mier vzdialenosti

    Euklidovsk vzdialenosDij= (xik- xjk)2Hammingova vzdialenos Dij= |xik- xjk|

    Minkovskeho vzdialenos Dij= (|xik- xjk|r ) 1/r

    Mahalanobisova vzdialenos Dij= (Xi Xj)' .S-1.(Xi Xj)

  • Zhlukov analzavber druhu zhlukovacieho postupuhierarchick postuppln analza tatistickho sboruvsledok mono zobrazi pomocou hierarchickho grafu - dendrogramu aglomeratvnyv prvom kroku je kad jednotka samostatnm zhlukomv poslednom kroku s vetky jednotky v jednom zhlukudivznyv prvom kroku s vetky jednotky v jednom zhlukuv poslednom kroku kad jednotka predstavuje zhluk

  • Zhlukov analzavber druhu zhlukovacieho postupu

    nehierarchick postupvopred uren poet zhlukoviteratvny postup urenia ich stredovpostupn zaraovanie jednotiek k vybranm stredom

  • Veobecn hierarchick zhlukovac postup

    1. Vypotame maticu D vhodnch mier vzdialenost.

    2. Zaneme proces rozkladu od n zhlukov, zktorch kad obsahuje jeden objekt.

    3. Prezrieme maticu D a njdeme dva zhluky Ch a Ch, ktorch vzdialenos dij je minimlna.

    4. Spojme zhluk Ch a Chdo novho q-teho zhluku. Vmatici D vynechme riadok astpec reprezentujci vzdialenos zhlukov Ch a Ch a nahradme ho novm reprezentujcim ich spolon vzdialenos od ostatnch zhlukov poda typu zvolenej metdy. Rozmer matice sa zni o 1.

    5. Postup opakujeme od kroku 3, a km nedjde kspojeniu vetkch objektov do jednho zhluku.

  • Zhlukov analzavber zhlukovacej metdyhierarchick aglomeratvnemetda najbliieho suseda (nearest-neighbor)poznme maticu euklidovskch vzdialenostvyberieme spojenie na zklade min vzdialenostinov spojenie = min dijtzv. reaziaci efekt

    Grafick znzornenie vzdialenosti medzi novmi zhlukmi pri metde najbliieho suseda

  • Zhlukov analzavber zhlukovacej metdyhierarchick aglomeratvnemetda najvzdialenejieho suseda (furthest-neighbor)poznme maticu euklidovskch vzdialenostnov spojenie = max dijvyberieme spojenie, prepotame, at.konzistentn, izolovan zhluky

    Grafick znzornenie vzdialenosti medzi novmi zhlukmi pri metde najvzdialenejieho suseda

  • Zhlukov analzavber zhlukovacej metdyhierarchick aglomeratvnemetda priemernej vzby (group average)poznme maticu euklidovskch vzdialenostvzdialenos medzi dvomi zhlukmi je vypotan ako priemern min vzdialenos prvkov

  • Zhlukov analzavber zhlukovacej metdyhierarchick aglomeratvnecentroidn metda (centroid method)poznme maticu euklidovskch vzdialenostkad novovytvoren zhluk je nahraden priemernm prvkom = centroidomnov spojenie = tvorec euklidovskej vzdialenostinevhodou s inverziemedinov metda (median method)reprezentantom zhluku je jeho medinvylepenie centroidnej metdy

  • Zhlukov analzavber zhlukovacej metdy

    hierarchick aglomeratvneWardova metda (Ward method)nepotame maticu vzdialenostkritrium spojenia = max vntrozhlukovejhomogenitymierou homogenity ESSinicializan spojenie znamen minimlny prrastokESS = (Xij priemXtj) 2zhluky rovnakej vekosti a tvaru

  • Zhlukov analzavber zhlukovacej metdynehierarchickMetda typickch bodov (seeded)seed = typick predstavite zhlukuostatn objekty rozdelen poda euklidovskejvzdialenosti od seedMetda k-priemerovcel rad modifikciiMetda optimlnych stredov alebo medoidovmedoid optimlny stred zhluku jeho priemern vzdialenos k ostatnm objektom v zhluku je minimlna Fuzzy zhlukovanieumouje zaradenie jednho objektu do viacerch zhlukovprtomnos objektu v zhluku je dan pravdepodobnosou, ktor je medzi 0 a 1 tzv. fuzifikcia zhlukovej konfigurciev poet prijatench rieen

  • Zhlukov analzaNehierarchick zhlukovanie vyuva tri postupy:sekvenn: najprv sa ur prv predstavite zhluku, ku ktormu sa na zklade pecifikovanej vzdialenosti priradia objekty, potom sa ur druh predstavite aproces sa opakuje,

    paraleln: na zaiatku sa ur niekoko predstaviteov, ku ktorm s jednotliv objekty priraovan paralelne,

    optimalizan: podobn predchdzajcemu postupu avak umouje znovuzaradenie objektu.

  • Porovnanie zhlukovacch metdHierarchick metdy:

    vminulosti populrnejie (za najlepie metdy povaovan Wardov,metda priemernej vzby acentroidn metda)rchle, menia spotreba stojovho asu ajednoduchposkytuj podrobn truktru dt, nie je potrebn pozna poet zhlukov na zaiatku analzyna ich vsledky maj vplyv odahl pozorovanianevhodn na analzu vemi vekch sborov

  • Porovnanie zhlukovacch metdNehierarchick metdy:

    vposlednom ase sa vyuvaj viacvyaduj zadanie potu zhlukov na zaiatku analzyvsledky s ovplyvnen praktickmi znalosami uvatea aobjektvnou teriou, ako stanovi predstaviteov zhlukovnie s natoko ovplyvnen odahlmi pozorovaniamiposkytuj viacero prijatench alternatv truktry dt

  • Zhlukov analzaurenie potu vznamnch zhlukov

    heuristick prstup

    ukazovatele kvality zhlukovania

    tandardn odchlka premennch tvoriacich zhluk (RMSSTD),Koeficient determincie (RSQ), Semiparcilny koeficient determincie (SPRSQ),Vzdialenos zhlukov (CD).

  • Zhlukov analzaurenie potu vznamnch zhlukov

    RMSSTD - homogenita novho zhlukumalSPRSQ homogenita spojench zhlukovmalRSQ heterogenita zhlukovvysokCD homogenita spojench zhlukovmal

  • Zhlukov analzaurenie potu vznamnch zhlukov v SASe cubic clustering criterion (CCC) Vhodn poet zhlukov indikuje CCC>3, vo veobecnosti, m vyie je CCC, tm lep poet zhlukov zskame.Pri hierarchickom postupe zhlukovania mono pozorova niekoko loklnych, vysokch hodnt CCC. Pri nehierarchickom zhlukovan je pozorovan vemi odlin globlne maximum CCC vzvislosti od poiatonho urenia potu zhlukov.Pri zoikmench rozdeleniach me hodnota CCC nadobda zporn hodnotu, priom spotom zhlukov jej hodnota ete kles.Ak CCC neustle rastie, spotom zhlukov je mon prtomnos reazenia, t.j. objekty vo vntri zhluku s pospjan zniekokch zhlukov, priom jednotliv objekty vytvraj medzi nimi reaz.Pre dta snepravidelnm tvarom alebo pre preden skupiny objektov, CCC nie je vhodnm kritriom na stanovenie potu zhlukov.

  • Zhlukov analzainterpretcia zhlukov

    dendrogramgrafick analzapopisn tatistikahodnotiaca miera je zhlukov centroid(aisko zhluku) poda jednotlivch premennchpopis kadho zhluku na zklade sledovanch vlastnost napr. poda metd viackriterilneho hodnotenia

  • Bliie pozri:

    Stankoviov, Vojtkov: Viacrozmern tatistick metdy s aplikciami, Bratislava: Iura edition, 2007, ISBN 978-80-8078-152-1