mul cluster analysis

Download MUL Cluster Analysis

Post on 02-Aug-2015

19 views

Category:

Documents

4 download

Embed Size (px)

TRANSCRIPT

1. Multivarijantna statistika analiza

1

Klaster analizaUvodKlaster analiza vri grupisanje jedinica posmatranja u grupe ili klase tako da se sline jedinice nau u istoj klasi (klasteru). Grupisanje se vri na osnovu rezultata (skora) koji se izraunava na osnovu vrednosti obeleja po svim varijablama, za svaku jedinicu posmatranja posebno. Metod koji se koristi za klasifikaciju mora biti potpuno numeriki, a broj klasa se unapred obino ne zna. Postoji mnogo razloga za upotrebu klaster analize. Na primer, prilikom segmentacije trita kada se formiraju klasteri potroaa u nekoj zemlji, pa se onda pravi poseban plan poslovnih aktivnosti za svaki klaster pojedinano. Pored toga, u marketingu se klaster analiza koristi prilikom analize karakteristika proizvoda ili usluga, stavova kupaca, demografskih faktora itd. Klaster analiza se moe dobro iskoristiti za redukciju podataka. Ukoliko je, na primer, potrebno izvriti testiranje novog proizvoda na tritu po gradovima, naprave se klasteri slinih gradova pa se iz svakog klastera odabere po jedan grad za testiranje, da se ne bi analizirali svi gradovi. Pored toga, ako klaster analiza pokae neko neoekivano grupisanje jedinica posmatranja, onda postoji verovatnoa da su pronaene odreene relacije izmeu jedinica posmatranja koje do tada nisu bile poznate i koje treba ispitati. Vrlo je bitno znati da to je vie varijabli ukljueno u analizu i to su one vie meusobno nezavisne, tee je pronai odgovarajui obrazac za grupisanje jedinica posmatranja.

Tipovi klaster analizeMnogi algoritmi su korieni za klaster analizu. Ipak, dva pristupa su se izdvojila kao najbolja. Prvi je hijerarhijski metod koji kao krajnji rezultat ima dendogram. To je grafiki prikaz klastera (grupa) u obliku stabla povezivanja. Prvo se vre izraunavanja udaljenosti svih jedinica meusobno, a zatim se grupe formiraju putem tehnika spajanja ili razdvajanja. Tehnika spajanja (aglomerativni, hijerarhijski metod) polazi od toga da je svaka jedinica sama u grupi od jednog lana. Bliske grupe se postepeno spajaju dok se na kraju ne nau sve jedinice u jednoj grupi. Kod tehnike razdvajanja ide se obrnutim redosledom, gde se od jedne grupe stvaraju dve, pa od te dve sledee dve i tako sve dok ne bude svaka jedinica posmatranja posebno. To je takozvani divizioni hijerarhijski metod koji se, ipak, primenuje mnogo ree nego aglomerativni. Drugi pristup, nehijerarhijski, je da se vri ralanjivanje tako da jedinice mogu da se kreu iz jedne u drugu grupu u razliitim fazama analize. Postoji mnogo varijacija u primeni ove tehnike, ali poenta je da se prvo pronae taka grupisanja oko koje se nalaze jedinice, na vie ili manje proizvoljan nain, a zatim se izraunavaju nove take grupisanja na osnovu prosene vrednosti jedinica. Jedinica posmatranja se tada pomera iz jedne u drugu grupu ukoliko je blia

1. Multivarijantna statistika analiza

2

novoizraunatoj taki grupisanja. Proces se odvija iterativno, sve do postizanja stabilnosti za unapred zadani broj grupa.

Hijerarhijski metodAglomerativni, hijerarhijski metod poinje sa matricom udaljenosti izmeu jedinica posmatranja. Sve jedinice su u grupama veliine jedan, a zatim se vri spajanje u vee grupe koje su blizu jedna druge. Postoji vie naina da se definie ta je to blizu. Najjednostavniji nain je preko najbliih suseda. Na primer, u tabeli su date udaljenosti izmeu pet jedinica posmatranja. Grupisanje je zatim prikazano u tabeli. Tabela: Udaljenosti posmatranja Jedinica posmatranja A B C D E izmeu jedinica

Jedinica posmatranja A 2 6 10 9 5 9 8 4 5 3 B C D E

Tabela: Grupisanje na osnovu udaljenosti najbliih suseda Udaljenost 0 2 3 4 5 Grupe A, B, C, D, E (A, B), C, D, E (A, B), C, (D, E) (A, B), (C, D, E) (A, B, C, D, E)

Dve grupe se spajaju u jednu ukoliko je neka jedinica posmatranja iz jedne grupe najblia nekoj jedinici iz druge grupe. Pri nultoj udaljenosti sve jedinice su posebno, odnosno ima onoliko grupa koliko ima i jedinica posmatranja. Zatim, najmanja udaljenost izmeu dve jedinice je 2 koja postoji

1. Multivarijantna statistika analiza

3

izmeu jedinica posmatranja A i B. Zbog toga na nivou udaljenosti od 2 imamo etiri grupe: (A, B), (C), (D) i (E). Sledea najmanja udaljenost je 3 i imamo tri grupe: (A, B), (C) i (D, E) itd. Na kraju su sve jedinici u jednoj grupi, na udaljenosti 5. Slika pokazuje dendogram claster analize u kojem se vidi kako je vreno grupisanje.

Udaljenost 6 5 4 3 2 1 A B C D E Jedinice posmatranja

Slika: Grupisanje najbliih suseda Kod povezivanja najdaljih suseda, dve grupe e se spoijiti ukoliko je udaljenost najdaljih lanova iz dve grupe najmanja. Na primer, posle formiranja grupa (A,B), (C) i (D, E), jedinica posmatranja C e biti pridruena grupi (D, E) na nivou udaljenosti od 5 jer je to udaljenost izmeu najudaljenijih jedinica iz dve grupe. Dve poslednje grupe (A, B) i (C, D, E) e biti spojene na nivou udaljenosti 10 jer je to najvea udaljenost izmeu jedinica A i D. Postupak je prikazan u tabeli i na slici. Tabela: Grupisanje na osnovu udaljenosti najbliih suseda Udaljenost 0 2 3 5 10 Grupe A, B, C, D, E (A, B), C, D, E (A, B), C, (D, E) (A, B), (C, D, E) (A, B, C, D, E)

1. Multivarijantna statistika analiza

4

10 9 8 7 6 5 4 3 2 1

Udaljenost

Jedinice posmatranja A B C D E

Slika: Grupisanje najdaljih suseda Trea tehnika grupisanja je na osnovu prosenih udaljenosti, odnosno kada je prosena udaljenost izmeu dve grupe najmanja u odnosu na sve ostale prosene udaljenosti izmeu grupa. Ovo grupisanje je predstavljeno u tabeli i na slici. Na primer, grupe (A, B) i (C, D, E) su spoljene na nivou udaljenosti od 7,8 jer je to prosena udaljenost koja je izraunata na sledei nain: Udaljenosti izmeu jedinice A iz prve grupe i jedinica C, D i E iz druge grupe su 6, 10 i 9 respektivno, dok su udaljenosti izmeu jedinice B iz prve grupe i jedinica C, D i E iz druge grupe 5, 9 i 8 respektivno. Prosena vrednost je aritmetika sredina: (6+10+9+5+9+8):6=7,8. Tabela: Grupisanje na osnovu prosene udaljenosti grupa Udaljenost 0 2 3 4,5 7,8 Grupe A, B, C, D, E (A, B), C, D, E (A, B), C, (D, E) (A, B), (C, D, E) (A, B, C, D, E)

1. Multivarijantna statistika analiza

5

Udaljenost

8 7 6 5 4 3 2 1 A B C D E Jedinice posmatranja

Slika: Grupisanje na osnovu prosene udaljenosti grupa

Razlike izmeu tehnika grupisanjaNijedna od postojeih tehnika grupisanja podataka u klastere se nije izdvojila kao najbolja i najupotrebljavanija. Problem je u tome to razliite tehnike mogu da daju sasvim razliite rezultate. Veliki uticaj ima priroda originalnih podataka. Ukoliko postoji odreeni stepen preklapanja izmeu podataka, vrlo je mogue da e razliite tehnike grupisanja dati i razliite rezultate.a) b) c)

d)

e)

f)

Slika: Mogui rasporedi originalnih podataka kada postoje dva klastera (grupe) Na slici su prikazani neki od moguih rasporeda originalnih podataka. U sluaju a) i b) sve tehnike e verovatno dati iste klastere. U sluaju c) neke tehnike moda nee uspeti da izdvoje dva klastera. U sluajevima d), e) i f) e veina tehika imati tekoa u definisanju dva klastera. Veliku ulogu u grupisanju ima subjektivni faktor, odnosno sam pristup u odreivanju varijabli na osnovu kojih e se vriti analiza. Izabrane varijable moraju biti relevantne u odnosu na klasifikaciju

1. Multivarijantna statistika analiza

6

koja se trai. U sluaju klaster analize proizvoaa mobilnih telefona sa aspekta potroaa bilo bi najverovatnije nepotrebno kao jednu od varijabli navesti broj radnika mukog i enskog pola.

Merenje udaljenostiOriginalni podaci na osnovu kojih se vri klaster analiza obino predstavljaju raspored n jedinca posmatranja u odnosu na p varijabli. Na primer, napravljena je lista kupaca automobila i evidentiran je njihov pol, struna sprema, boja vozila koje su kupili, kubikaa, plaena cena, itd. Za izraunavanje udaljenosti jedinica posmatranja obino se koristi Euklidova funkcija:p

d ijk 1

xik

x jk

2

1 2

gde je xik vrednost jedinice posmatranja xi za varijablu Xk, a xjk vrednost jedinice posmatranja xj za varijablu Xk.. Varijable su obino standardizovane pre izraunavanja udaljenosti da bi svih p varijabli bilo u jednakom poloaju. To znai da e aritmetika sredina za svaku varijablu biti jednaka nuli, a standardna devijacija jedinici. Na alost, standardizacija ima i jedan negativan efekat, a to je to se na taj naini minimiziraju razlike izmeu klastera. Neke klaster analize zapoinju sa izraunavanjem glavnih komponenti da bi se smanjio broj originalnih varijabli. Na ovaj nain se smanjuje raunski deo posla u klaster analizi ali se na taj nain dobijaju i drugaiji rezultati. Danas se ipak analiza glavnih komponenti uglavnom izbegava zbog toga. Primer: Klaster analiza evropskih zemalja hijerarhijski metod Za klaster analizu e posluiti podaci o zaposlenosti u evropskim zemljama (tabela).

Tabela: Procenat radne snage zaposlen u devet grana industrije u 30 zemalja EvropeCountry Belgium Denmark France Germany Ireland Greece Italy Luxembourg Netherlands Portugal Spain Group EU EU EU EU EU EU EU EU EU EU EU AGR 2.6 5.6 5.1 3.2 22.2 13.8 8.4 3.3 4.2 11.5 9.9 MIN 0.2 0.1 0.3 0.7 0.5 0.6 1.1 0.1 0.1 0.5 0.5 MAN 20.8 20.4 20.2 24.8 19.2 19.8 21.93 19.6 19.2 23.6 21.1 PS 0.8 0.7 0.9 1 1 1.2 0 0.7 0.7 0.7 0.6 CON 6.3 6.4 7.1 9.4 6.8 7.1 9.1 9.9 0.6 8.2 9.5 SER 16.9 14.5 16.7 17.2 18.2 17.8 21.6 21.2 18.5 19.8 20.1 FIN 8.7 9.1 10.2 9.6 5.3 8.4 4.6 8.7 11.5 6.3 5.9 SPS 36.9 36.3 33.1 28.4 19.8 25.5 28 29.6 38.3 24.6 26.7 TC 6.8 7 6.4 5.6 6.9 5.8 5.3 6.8 6.8 4.8 5.8

1. Multivarijantna statistika analiza

7

U.K. Austria Finland Iceland Norway Sweden Switzerland Albania Bulgaria Czech/Slovak Rep. Hungary Poland Romania USSR (form.) Yugoslavia (form.) Cyprus Gibraltar Malta Turkey

EU EFTA EFTA EFTA EFTA EFTA EFTA East