algoritmiistrukturepodataka iii. klasteri · 2015. 4. 30. · ako uvedemo kriterij da je bolja...

6
Algoritmi i strukture podataka * III. Klasteri Rudolf Scitovski, Martina Briš Alić 30. travnja 2015. Sadržaj 1 Uvod 1 Literatura 4 1 Uvod Definicija 1. Neka je A = {a i R n : i =1,...,m} skup s m 2 elemenata. Rastav skupa A na 1 k m disjunktnih nepraznih podskupova π 1 ,...,π k , takvih da bude (i) k j =1 π j = A, (ii) π r π s = , r = s, (iii) m j := |π j |≥ 1, j =1,...,k. zovemo particija Π skupa A. Elemente particije Π = {π 1 ,...,π k } zovemo klasteri. Skup svih particija skupa A sastavljenih od k klastera koje zadovoljavaju (i)-(iii) označavamo s P (A; k). Nadalje, kad god budemo govorili o particiji skupa A, podrazumijevat ćemo da je ona sastavljena od ovakvih podskupova skupa A. Na taj način svjesno smo iz razmatranja isključili particije, koje sadržavaju prazan skup ili skup A. Sinonimi: grupiranje, segmentiranje, klasifikacija, rangiranje * Izborni predmet u 2. semestru sveučilišnog diplomskog studijskog programa Poslovna infor- matika Ekonomskog fakulteta u Osijeku (30 sati predavanja, 15 sati seminara i 15 sati vježbi, 5 ECTS bodova)

Upload: others

Post on 14-Mar-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Algoritmiistrukturepodataka III. Klasteri · 2015. 4. 30. · Ako uvedemo kriterij da je bolja particija ona čiji su klasteri kompaktniji i bolje raz- dvojeni ,ondabismomoglipostavitipitanje

Algoritmi i strukture podataka ∗III. Klasteri

Rudolf Scitovski, Martina Briš Alić

30. travnja 2015.

Sadržaj1 Uvod 1

Literatura 4

1 UvodDefinicija 1. Neka je A = {ai ∈ Rn : i = 1, . . . ,m} skup s m ≥ 2 elemenata. Rastavskupa A na 1 ≤ k ≤ m disjunktnih nepraznih podskupova π1, . . . , πk, takvih da bude

(i)k⋃j=1

πj = A,

(ii) πr⋂πs = ∅, r 6= s,

(iii) mj := |πj| ≥ 1, j = 1, . . . , k.

zovemo particija Π skupa A. Elemente particije Π = {π1, . . . , πk} zovemo klasteri. Skupsvih particija skupa A sastavljenih od k klastera koje zadovoljavaju (i)-(iii) označavamos P(A; k).

Nadalje, kad god budemo govorili o particiji skupa A, podrazumijevat ćemo da je onasastavljena od ovakvih podskupova skupa A. Na taj način svjesno smo iz razmatranjaisključili particije, koje sadržavaju prazan skup ili skup A.

Sinonimi: grupiranje, segmentiranje, klasifikacija, rangiranje∗Izborni predmet u 2. semestru sveučilišnog diplomskog studijskog programa Poslovna infor-

matika Ekonomskog fakulteta u Osijeku (30 sati predavanja, 15 sati seminara i 15 sati vježbi, 5ECTS bodova)

Page 2: Algoritmiistrukturepodataka III. Klasteri · 2015. 4. 30. · Ako uvedemo kriterij da je bolja particija ona čiji su klasteri kompaktniji i bolje raz- dvojeni ,ondabismomoglipostavitipitanje

En.: cluster analysis, clustering, data mining

Može se pokazati (Veljan, 2001) da je broj svih particija skupa A iz Definicije 1 jednakStirlingovom broju druge vrste

|P(A; k)| = 1k!

k∑j=1

(−1)k−j(k

j

)jm. (1)

Specijalno

za k = 2: |P(A; 2)| = 12(2m − 2) = 2m−1 − 1, (2)

za k = 3: |P(A; 3)| = 12

(1− 2m + 3m−1

), (3)

Primjer 1. Broj svih particija skupa A koje zadovoljavaju Definiciju 1 specijalno za m =10, 50, 1200, 106 i k = 2, 3, 4, 5, 6, 8, 10 Vidljiv je u Tablici 1

|P(A; k)| k = 2 k = 3 k = 4 k = 5 k = 6 k = 8 k = 10m = 10 511 9330 34105 42525 22827 750 1m = 50 1015 1023 1029 1033 1036 1041 1044

m = 1200 10361 10572 10721 10837 10931 101079 101193

m = 106 10301030 10477120 10602058 10698968 10778148 10903085 10106

Tablica 1: Broj particija u ovisnosti o broju elemenata i broju klastera

Primjer 2. Zadan je skup A ⊂ R2 prikazan na Slici 1a koji sadržava m = 1200 eleme-nata. U Tablici 1 može se vidjeti broj svih particija od k = 2, 3, 4, 5, 6 klastera.

Ako uvedemo kriterij da je bolja particija ona čiji su klasteri kompaktniji i bolje raz-dvojeni, onda bismo mogli postaviti pitanje optimalne (najbolje) particije.

Mjeru kompaktnosti i dobre razdvojenosti klastera u nekoj particiji Π s k klasteraπ1, . . . , πk mogli bismo definirati na sljedeći način:

1. Udaljenost elemenata skupa A mjerit ćemo LS-kvazimetričkom funkcijomdLS(a, b) = ‖a− b‖2;

2. U svakom klasteru πj odredimo centroid cj = 1|πj |

∑ai∈πj

ai;

3. Za svaki klaster πj odredimo ukupno rasipanje F (πj) = ∑ai∈πj

‖cj − ai‖2;

4. Mjera kompaktnosti i dobre razdvojenosti klastera u particiji tada je iskazana funk-cijom cilja F (π1, . . . , πk) =

k∑j=1

F (πj).

2

Page 3: Algoritmiistrukturepodataka III. Klasteri · 2015. 4. 30. · Ako uvedemo kriterij da je bolja particija ona čiji su klasteri kompaktniji i bolje raz- dvojeni ,ondabismomoglipostavitipitanje

Na Slici 1 mogu se vidjeti po jedna particija s 2, 3, 4, 5 i 6 klastera i odgovarajućevrijednosti funkcije cilja. Vidi se da je primjerice particija s tri klastera prikazana naSlici 1c bolja od particija s dva klastera prikazana na Slici 1b, ali je pitanje je li particijaprikazana na Slici 1c ujedno i najbolja od svih particija s tri klastera.

Iz navedenog primjera vidi se da traženje optimalne particije općenito neće biti mogućeprovesti pretraživanjem čitavog skupa P(A; k). Odmah teba reći da problem traženja op-timalne particije spada u NP-teške probleme (Gan et al., 2007) nekonveksne optimizacijeopćenito nediferencijabilne funkcije više varijabli, koja najčešće posjeduje značajan brojstacionarnih točaka.

-10 -5 5 10

-10

-5

5

10

(a) Skup A

-10 -5 5 10

-10

-5

5

10

(b) k = 2; F = 21689

-10 -5 5 10

-10

-5

5

10

(c) k = 3; F = 10344

-10 -5 5 10

-10

-5

5

10

(d) k = 4; F = 6826

-10 -5 5 10

-10

-5

5

10

(e) k = 5; F = 5152

-10 -5 5 10

-10

-5

5

10

(f) k = 6; F = 3424

Slika 1: Neke particije skupa A

Primjene:poljoprivreda (primjerice, razvrstavanje oranica prema plodnosti zemljišta);biologija (primjerice, klsasifikacija kukaca u grupe)medicina (primjerice, analiza rengenskih slika)promet (primjerice, identifikacija prometnih “čepova”)analiza i pretraživanje tekstaanaliza klimatskih kretanjadonošenje raznih odluka u tijelima državne i lokalne administracije.definiranje izbornih sustava

3

Page 4: Algoritmiistrukturepodataka III. Klasteri · 2015. 4. 30. · Ako uvedemo kriterij da je bolja particija ona čiji su klasteri kompaktniji i bolje raz- dvojeni ,ondabismomoglipostavitipitanje

Primjer 3. Navedimo nekoliko ilustrativnih primjera. Na Slici 2a prikazane su zonepotresnih aktivnosti u širem području Republike Hrvatske (Morales-Esteban et al., 2014).Na Slici 2b prikazana je optimalna konfiguracija izbornih jedinica i broja zastupnika uRepublici Hrvatskoj (Marošević et al., 2013). Na Slici 2c prikazani su klasteri projekatadruštveno-humanističkih znanosti na Sveučilištu u Osijeku (Ž. Turkalj et al.).

Na Slici 3 prikazana je „crno-bijela” 512× 512 slika „Elaine” i njena segmentacija u2 i 8 klastera. U ovom slučaju skup podataka A = {ai ∈ R : i = 1, . . . , 262 144} sastoji seod podataka s jednim atributom (gray level).

(a) Zone potresa (b) Izborne jedinice

3.0 3.5 4.0 4.5 5.06

7

8

9

10

(c) Klasteri projekata

Slika 2: Različite primjene klaster analize

(a) Reprezentacija s 2 nijanse (b) Originalna fotografija (c) Reprezentacija s 8 nijansi

Slika 3: Segmentacija crno-bijele slike „Elaine”

Programska podrška:

• Programski sustav Mathematica: naredba FindClusters s kvazimetričkim funkci-jama:DistanceFunction→ SquaredEuclideanDistance (default),DistanceFunction→ManhattanDistance, . . .

• (Sabo et al., 2010):http://www.mathos.hr/oml/software.htm

4

Page 5: Algoritmiistrukturepodataka III. Klasteri · 2015. 4. 30. · Ako uvedemo kriterij da je bolja particija ona čiji su klasteri kompaktniji i bolje raz- dvojeni ,ondabismomoglipostavitipitanje

LiteraturaM. Benšić, N. Šuvak, Primijenjena statistika, Odjel za matematiku„ 2012.

I. S. Dhillon, Y. Guan, B. Kulis, Kernel k-means, spectral clustering and norma-lized cuts, In: Proceedings of the 10-th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining (KDD), August 22–25, 2004, Seattle, Washin-gton, USA, 2004, 551–556.

G. Gan, C. Ma, J. Wu, Data Clustering: Theory, Algorithms, and Applications, SIAM,Philadelphia, 2007.

C. Gurwitz, Weighted median algorithms for l1 approximation, BIT, 30(1990) 301–310.

E. M. T. Hendrix, B. G. Tóth, Introduciton to Nonlinear and Global Optimization,Springer, 2010.

C. Iyigun, A. Ben-Israel, A generalized weiszfeld method for the multi-facility locationproblem, Operations Research Letters, 38(2010) 207–214.

D. Jukić, R. Scitovski, Matematika I, Odjel za matematiku, Sveučilište u Osijeku,2004.

J. Kogan, Introduction to Clustering Large and High-dimensional Data, CambridgeUniversity Press, New York, 2007.

F. Leisch, A toolbox for k-centroids cluster analysis, Computational Statistics & DataAnalysis, 51(2006) 526–544.

T. Marošević, K. Sabo, P. Taler, A mathematical model for uniform distributionof voters per constituencies, Croatian Operational Research Review, 4(2013) 53–64.

S. Miodragović, D. J. Maširević, Geometric median in the plane, Elemente derMathematik, (2011).

A. Morales-Esteban, F. Martínez-Álvarez, S. Scitovski, R. Scitovski, A fastpartitioning algorithm using adaptive mahalanobis clustering with application to seismiczoning, Computers & Geosciences, 73(2014) 132–141, To appear.

P. J. Rousseeuw, A. M. Leroy, Robust Regression and Outlier Detection, Wiley,New York, 2003.

K. Sabo, R. Scitovski, The best least absolute deviations line – properties and twoefficient methods, ANZIAM Journal, 50(2008a) 185–198.

K. Sabo, R. Scitovski, The best least absolute deviations line – properties and twoefficient methods, ANZIAM Journal, 50(2008b) 185–198.

K. Sabo, R. Scitovski, I. Vazler, Grupiranje podataka - klasteri, Osječki matematičkilist, 10(2010) 149–178.

A. Schöbel, Locating Lines and Hyperplanes: Theory and Algorithms, Springer Verlag,Berlin, 1999.

5

Page 6: Algoritmiistrukturepodataka III. Klasteri · 2015. 4. 30. · Ako uvedemo kriterij da je bolja particija ona čiji su klasteri kompaktniji i bolje raz- dvojeni ,ondabismomoglipostavitipitanje

R. Scitovski, Problemi najmanjih kvadrata. Financijska matematika, Ekonomski fakul-tet, Elektrotehnički fakultet, Sveučilište u Osijeku, 1993.

R. Scitovski, Numerička matematika, Odjel za matematiku, Sveučilište u Osijeku,2015, 3 edition.

R. Scitovski, K. Sabo, Analysis of the k-means algorithm in the case of data pointsoccurring on the border of two or more clusters, Knowledge-Based Systems, 57(2014)1–7.

R. Scitovski, N. Truhar, Z. Tomljanović, Metode optimizacije, Odjel za matema-tiku, Sveučilište u Osijeku, 2014.

H. Späth, Cluster-Formation und Analyse, R. Oldenburg Verlag, München, 1983a.

H. Späth, Cluster-Formation und Analyse, R. Oldenburg Verlag, München, 1983b.

M. Teboulle, A unified continuous optimization framework for center-based clusteringmethods, Journal of Machine Learning Research, 8(2007) 65–102.

I. Vazler, K. Sabo, R. Scitovski, Weighted median of the data in solving leastabsolute deviations problems, Communications in Statistics - Theory and Methods,41:8(2012) 1455–1465.

D. Veljan, Kombinatorna i diskretna matematika, Algoritam, Zagreb, 2001.

Ž. Turkalj, D. Markulak, S. Singer, R. Scitovski, Project clustering by usingadaptive mahalanobis clustering, ().

6