1) klāsteru analīze

18
1) klāsteru analīze aktiskā ekoloģija, Līga Strazdiņa Botānikas un ekoloģijas katedr DATU GRUPĒŠANA

Upload: noreen

Post on 12-Feb-2016

71 views

Category:

Documents


1 download

DESCRIPTION

DATU GRUPĒŠANA. 1) klāsteru analīze. Praktiskā ekoloģija, Līga Strazdiņa. Botānikas un ekoloģijas katedra. MĒRĶIS klasificēt datu kopu apakšgrupās jeb klāsteros. Katrā klāsterī tiek apvienoti savstarpēji visciešāk saistītie objekti. JĒGA - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 1) klāsteru analīze

1) klāsteru analīze

Praktiskā ekoloģija, Līga Strazdiņa Botānikas un ekoloģijas katedra

DATU GRUPĒŠANA

Page 2: 1) klāsteru analīze

MĒRĶISklasificēt datu kopu apakšgrupās jeb klāsteros. Katrā klāsterī tiek apvienoti savstarpēji visciešāk saistītie objekti.

JĒGAsaprast, cik līdzīgi (jeb atšķirīgi) ir objekti, kas tiek grupēti.

REZULTĀTS

dendrogramma.

Page 3: 1) klāsteru analīze

HIERARHISKA klasifikācija

no apakšgrupām pakāpeniski vairākos soļos tiek veidotas lielākas grupas.

Ethem Alpaydin http://www.cmpe.boun.edu.tr/~ethem/i2ml/

NEHIERARHISKA klasifikācija

datu kopai tiek meklēta optimālā struktūra, kurā grupas var arī nebūt savstarpēji saistītas un nesastāv no apakšgrupām.

PIEMĒRS.ar vidējā k (k-mean) metodi

datu kopu atkārtoti grupē klāsteros pēc objektu tuvākas

atrašanās klāstera centram

Page 4: 1) klāsteru analīze

A B C D E

D , E

A , B

C , D , E

A , B , C , D , Egrupu apvienoša

na

klāsteru sadalīša

na

Kuras grupas

?

AGLOMERATĪVĀ (APVIENOŠANAS) metode

apakšgrupas hierarhiski apvieno lielākās, līdz iegūst tikai vienu grupu ar visiem objektiem.

DALĪŠANAS metode

datu kopu dala divās grupās, tās dala atkārtoti, ...

Page 5: 1) klāsteru analīze

DISTANCE MEASURE(detalizētāks apraksts iepriekšējās lekcijās).

Visbiežāk tiek izmantoti:+ Sorensen (Bray-Curtis vai Relative)+ Euclidean (Pythagorean vai Relative)

Mazāk piemēroti:- Jaccard- Correlation- Chi-squared

PARAMETRIizvēloties grupu savienošanas metodi (Group linkage method), jāņem vērā, kā tiks mērīts līdzīgums/atšķirīgums starp pētāmajiem objektiem (Distance measure).

Page 6: 1) klāsteru analīze

GROUP LINKAGE METHODgrupu savienošanas metodes tiek vērtētas pēc parametriem:

KOMBINATORISKA STRATĒĢIJA – atšķirības starp grupām aprēķina ar kombināciju vienādojumu.

NEKOMBINATORISKA STRATĒĢIJA – grupu atšķirības aprēķina pēc katra soļa, tādēļ metode ir lēnāka un aizņem vairāk datoratmiņas.

SAVIENOJAMAS ar attāluma jeb atšķirības mērīšanas metodi – vairākām grupu savienošanas metodēm neder Sorensen metode.

NEMAINĪGS LAUKS – apvienojot grupas, to sākotnējais attālums paliek konstants (pozitīva īpašība).

MAINĪGS LAUKS – apvienotās grupas pietuvojas (lauku saspiež) vai attālinās (lauku izpleš) vēl atlikušajiem objektiem un izmaina to sākotnējo attālumu. Rezultātā veidojas kļūdainas dendrogrammas.

Page 7: 1) klāsteru analīze

GROUP LINKAGE METHODNEAREST NEIGHBOR

attālums starp divām grupām =attālums starp diviem tuvākajiem objektiem no pretējām grupām

+

+G1

G2

- atšķirību starp grupām nosaka tikai pēc diviem objektiem

- nespēj apstrādāt lielu populāciju datus

- saspiež lauku

- dendrogrammai gari ‘zari’

Page 8: 1) klāsteru analīze

+

+G1

G2

GROUP LINKAGE METHOD

FARTHEST NEIGHBOR

attālums starp divām grupām =attālums starp diviem tālākajiem objektiem no pretējām grupām

+ veido daudz blīvus klāsterus

- atšķirību starp grupām nosaka tikai pēc diviem objektiem

- izpleš lauku, tādejādi veido grupas, pat ja nevajadzētu – uzsver outlier jeb nepiederošos datus

Page 9: 1) klāsteru analīze

GROUP LINKAGE METHODMEDIAN & CENTROIDTikai ar Euclidean distance measure!!

attālums starp divām grupām =

attālums starp grupu centroīdām, ko mēra ar Eiklīda metodi

G1G2

- abas metodes saspiež lauku, tiek pievienotas grupas, kas varētu veidot atsevišķus klāsterus- nav savienojamas ar Sorensen metodi

Page 10: 1) klāsteru analīze

GROUP LINKAGE METHOD

GROUP AVERAGE

+

+G1

G2

attālums starp divām grupām =vidējā vērtība no attāluma starp visiem vienas grupas objektiem ar visiem otras grupas objektiem

+ nemaina lauku- dendrogrammai gari ‘zari’

Page 11: 1) klāsteru analīze

GROUP LINKAGE METHODWARD’S METHODTikai ar Euclidean distance measure!!

+ nemaina lauku+ veido līdzīga izmēra klāsterus- nav savienojama ar Sorensen metodi

Page 12: 1) klāsteru analīze

GROUP LINKAGE METHODFLEXIBLE BETAß = -0.25 - līdzīga dendrogramma kā Ward’s metodeiß = 0 - līdzīga dendrogramma kā McQuitty’s metodei

+ nemaina lauku

Page 13: 1) klāsteru analīze

GROUP LINKAGE METHOD

MCQUITTY’S METHODTikai ar Euclidean distance measure!!

- saspiež lauku- nav savienojamas ar Sorensen metodi- lieliem populāciju datiem dendrogrammai gari ‘zari’

Page 14: 1) klāsteru analīze

SECINĀJUMI

par piemērotākajām metodēm uzskatāmas:

DISTANCE MEASURE GROUP LINKAGE METHOD

Sorensen & Euclidean Group averageEuclidean Ward’s methodSorensen & Euclidean Flexible beta (ß = -0.25)

Page 15: 1) klāsteru analīze

PAPILDUS FUNKCIJAsadala parauglaukumus vairākos grupu līmeņos

Page 16: 1) klāsteru analīze

PAPILDUS FUNKCIJA

izvērtē, cik grupu līmeņi ir piemēroti esošai datu kopai. Mazākā iespēja ir divas grupas.

Page 17: 1) klāsteru analīze

KĀ INTERPRETĒT KLĀSTERANALĪZES REZULTĀTUS?

Distance (Objective function) – norāda informācijas zudumus aglomerācijas (grupu apvienošanas) procesā

Information Remaining (%) – norāda %, cik informācijas vēl nav apstrādātas

A1; A55; ... Parauglaukumu numuri

atsevišķi klāsteri

Page 18: 1) klāsteru analīze

KĀ INTERPRETĒT KLĀSTERANALĪZES REZULTĀTUS?

grupu savienošanas metode

attāluma jeb līdzīguma/atšķirīguma mērīšanas metode

‘chaining’ jeb virknēšana ir secīga mazu grupu pievienošana lielai. Jo lielāks rādītājs, jo grūtāk interpretējama dendrogramma