clustering
DESCRIPTION
Clustering. Clustering. Cluster : a collection of objects which are simmilar between them and dissimilar to the objects belonging to other cluster Clustering : the process of organizing objects into groups whose members are similar in some way. Ilustrasi. Classification vs Clustering. - PowerPoint PPT PresentationTRANSCRIPT
Clustering
Clustering
• Cluster : a collection of objects which are simmilar between them and dissimilar to the objects belonging to other cluster
• Clustering : the process of organizing objects into groups whose members are similar in some way
Ilustrasi
Classification vs Clustering
• Classification
Classification
Classification vs Clustering
• Clustering
Clustering
Karakteristik Clustering
Clustering
Partitioning
Hierarchical
Overlapping
Partitioning Clustering
• Disebut juga Exclusive Clustering
• Memungkinkan setiap data untuk masuk ke dalam cluster tertentu pada suatu tahapan proses clustering dan pada tahapan berikutnya berpindah ke cluster lain.
• Contoh : K-Means
Hierarchical Clustering
• Suatu data yang masuk ke dalam suatu cluster pada suatu tahapan proses tidak bisa berpindah ke cluster lain pada tahapan proses berikutnya.
• Contoh : Agglomerative Clustering.
Overlapping Clustering
• Setiap data dapat menjadi anggota dari beberapa cluster sekaligus berdasarkan nilai/derajat keanggotaannya.
• Contoh : Fuzzy C-Means, Gaussian Mixture
Hierarchical Clustering
Hierarchical Clustering
• Clustering dengan pendekatan hirarki mengelompokkan data yang memiliki kemiripan karakteristik dalam hirarki yang sama dan yang tidak mirip dalam hirarki yang berbeda.
Metode
Hierarchical Clustering
Divisive
Top to down division (1 to N cluster)
Agglomerative
Down to top merge (N to k cluster)
Algoritma Agglomerative
Clustering
1. Mulai dengan N cluster, setiap cluster mengandung entiti tunggal dan sebuah matriks simetrik dari jarak (similarities) D = {dik} dengan tipe NxN.
2. Cari matriks jarak untuk pasangan cluster yang terdekat (paling mirip). Misalkan jarak antara cluster U dan V yang paling mirip adalah duv.
3. Gabungkan cluster U dan V. Label cluster yang baru dibentuk dengan (UV).
Algoritma Agglomerative
Clustering (lanjutan)
Update entries pada matrik jarak dengan cara :• Hapus baris dan kolom yang bersesuaian dengan
cluster U dan V• Tambahkan baris dan kolom yang memberikan
jarak-jarak antara cluster (UV) dan cluster-cluster yang tersisa.
4. Ulangi langkah 2 dan 3 sebanyak (N-1) kali. (Semua objek akan berada dalam cluster tunggal setelah algoritma berahir). Catat identitas dari cluster yang digabungkan dan tingkat-tingkat (jarak atau similaritas) di mana penggabungan terjadi.
Proses Clustering
Jarak Antar Cluster
Single Linkage
Complete Linkage
Average Linkage
Contoh (Single Linkage)
x yp1 0.40 0.53p2 0.22 0.38p3 0.35 0.32p4 0.26 0.19p5 0.08 0.41p6 0.45 0.30
Jarak Euclidean
Matriks Jarak
p1 0p2 0.23 0p3 0.22 0.15 0p4 0.37 0.20 0.15 0p5 0.34 0.14 0.28 0.29 0p6 0.23 0.25 0.11 0.22 0.39 0
p1 p2 p3 p4 p5 p6
p1 0p2 0.24 0(p3, p6) 0.22 0.15 0p4 0.37 0.20 0.15 0p5 0.34 0.14 0.28 0.29 0
p1 p2 (p3, p6) p4 p5
dist( (p3, p6), p1 ) = MIN ( dist(p3, p1) , dist(p6, p1) ) = MIN ( 0.22 , 0.23 )
= 0.22
p1 0(p2, p5) 0.24 0(p3, p6) 0.22 0.15 0p4 0.37 0.20 0.15 0
p1 (p2, p5) (p3, p6) p4
dist( (p3, p6), (p2, p5) ) = MIN ( dist(p3, p2) , dist(p6, p2), dist(p3, p5), dist(p6, p5) ) = MIN ( 0.15 , 0.25, 0.28, 0.39 )
= 0.15
p1 0(p2, p5, p3, p6) 0.22 0
p4 0.37 0.15 0p1 (p2, p5, p3, p6) p4
p1 0(p2, p5, p3, p6, p4) 0.22 0
p1 (p2, p5, p3, p6, p4)