1) klāsteru analīze

of 18/18
1) klāsteru analīze aktiskā ekoloģija, Līga Strazdiņa Botānikas un ekoloģijas katedr DATU GRUPĒŠANA

Post on 12-Feb-2016

65 views

Category:

Documents

1 download

Embed Size (px)

DESCRIPTION

DATU GRUPĒŠANA. 1) klāsteru analīze. Praktiskā ekoloģija, Līga Strazdiņa. Botānikas un ekoloģijas katedra. MĒRĶIS klasificēt datu kopu apakšgrupās jeb klāsteros. Katrā klāsterī tiek apvienoti savstarpēji visciešāk saistītie objekti. JĒGA - PowerPoint PPT Presentation

TRANSCRIPT

  • 1) klsteru analzePraktisk ekoloija, Lga StrazdiaBotnikas un ekoloijas katedraDATU GRUPANA

  • MRISklasifict datu kopu apakgrups jeb klsteros. Katr klster tiek apvienoti savstarpji visciek saisttie objekti.

    JGAsaprast, cik ldzgi (jeb atirgi) ir objekti, kas tiek grupti.

    REZULTTSdendrogramma.

  • HIERARHISKA klasifikcijano apakgrupm pakpeniski vairkos soos tiek veidotas lielkas grupas.Ethem Alpaydin http://www.cmpe.boun.edu.tr/~ethem/i2ml/NEHIERARHISKA klasifikcijadatu kopai tiek meklta optiml struktra, kur grupas var ar nebt savstarpji saisttas un nesastv no apakgrupm.PIEMRS.ar vidj k (k-mean) metodi datu kopu atkrtoti grup klsteros pc objektu tuvkas atraans klstera centram

  • ABCDED , EA , BC , D , EA , B , C , D , Egrupu apvienoanaklsteru sadalanaKuras grupas?AGLOMERATV (APVIENOANAS) metodeapakgrupas hierarhiski apvieno lielks, ldz iegst tikai vienu grupu ar visiem objektiem.

    DALANAS metodedatu kopu dala divs grups, ts dala atkrtoti, ...

  • DISTANCE MEASURE(detaliztks apraksts iepriekjs lekcijs).

    Visbiek tiek izmantoti:+ Sorensen (Bray-Curtis vai Relative)+ Euclidean (Pythagorean vai Relative)

    Mazk piemroti: Jaccard Correlation Chi-squaredPARAMETRI izvloties grupu savienoanas metodi (Group linkage method), jem vr, k tiks mrts ldzgums/atirgums starp ptmajiem objektiem (Distance measure).

  • GROUP LINKAGE METHODgrupu savienoanas metodes tiek vrttas pc parametriem:

    KOMBINATORISKA STRATIJA atirbas starp grupm aprina ar kombinciju viendojumu.NEKOMBINATORISKA STRATIJA grupu atirbas aprina pc katra soa, td metode ir lnka un aizem vairk datoratmias.

    SAVIENOJAMAS ar attluma jeb atirbas mranas metodi vairkm grupu savienoanas metodm neder Sorensen metode.

    NEMAINGS LAUKS apvienojot grupas, to skotnjais attlums paliek konstants (pozitva paba).MAINGS LAUKS apvienots grupas pietuvojas (lauku saspie) vai attlins (lauku izple) vl atlikuajiem objektiem un izmaina to skotnjo attlumu. Rezultt veidojas kdainas dendrogrammas.

  • GROUP LINKAGE METHODNEAREST NEIGHBORattlums starp divm grupm =attlums starp diviem tuvkajiem objektiem no pretjm grupm atirbu starp grupm nosaka tikai pc diviem objektiem nespj apstrdt lielu populciju datus saspie lauku dendrogrammai gari zari

  • GROUP LINKAGE METHODFARTHEST NEIGHBORattlums starp divm grupm =attlums starp diviem tlkajiem objektiem no pretjm grupm+ veido daudz blvus klsterus atirbu starp grupm nosaka tikai pc diviem objektiem izple lauku, tdejdi veido grupas, pat ja nevajadztu uzsver outlier jeb nepiederoos datus

  • GROUP LINKAGE METHODMEDIAN & CENTROIDTikai ar Euclidean distance measure!!attlums starp divm grupm =attlums starp grupu centrodm, ko mra ar Eiklda metodi G1G2 abas metodes saspie lauku, tiek pievienotas grupas, kas vartu veidot atsevius klsterus nav savienojamas ar Sorensen metodi

  • GROUP LINKAGE METHODGROUP AVERAGEattlums starp divm grupm =vidj vrtba no attluma starp visiem vienas grupas objektiem ar visiem otras grupas objektiem+ nemaina lauku- dendrogrammai gari zari

  • GROUP LINKAGE METHODWARDS METHODTikai ar Euclidean distance measure!!+ nemaina lauku+ veido ldzga izmra klsterus- nav savienojama ar Sorensen metodi

  • GROUP LINKAGE METHODFLEXIBLE BETA = -0.25 - ldzga dendrogramma k Wards metodei = 0 - ldzga dendrogramma k McQuittys metodei+ nemaina lauku

  • GROUP LINKAGE METHODMCQUITTYS METHODTikai ar Euclidean distance measure!! saspie lauku nav savienojamas ar Sorensen metodi lieliem populciju datiem dendrogrammai gari zari

  • SECINJUMIpar piemrotkajm metodm uzskatmas:DISTANCE MEASUREGROUP LINKAGE METHOD

    Sorensen & EuclideanGroup averageEuclideanWards methodSorensen & EuclideanFlexible beta ( = -0.25)

  • PAPILDUS FUNKCIJAsadala parauglaukumus vairkos grupu lmeos

  • PAPILDUS FUNKCIJA

    izvrt, cik grupu lmei ir piemroti esoai datu kopai. Mazk iespja ir divas grupas.

  • K INTERPRETT KLSTERANALZES REZULTTUS?atsevii klsteri

  • K INTERPRETT KLSTERANALZES REZULTTUS?grupu savienoanas metodeattluma jeb ldzguma/atirguma mranas metodechaining jeb virknana ir secga mazu grupu pievienoana lielai. Jo lielks rdtjs, jo grtk interpretjama dendrogramma