means++ clustering (studi kasus - usd repository

i

PENGELOMPOKAN SEKOLAH MENENGAH PERTAMA

BERDASARKAN DISTRIBUSI USIA GURU DENGAN ALGORITMA K-

MEANS++ CLUSTERING

(STUDI KASUS : DATA GURU SEKOLAH MENENGAH PERTAMA DI

PULAU KALIMANTAN)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh

Gelar Sarjana Komputer

Program Studi Informatika

Oleh:

Bagas Dhitya Taufiqqi

165314093

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

CLUSTERING OF JUNIOR HIGH SCHOOLS BASED ON AGE

DISTRIBUTION OF TEACHERS WITH K-MEANS++ CLUSTERING

ALGORITHM

(CASE STUDY : DATA OF JUNIOR HIGH SCHOOL TEACHERS IN

KALIMANTAN)

UNDERGRADUATE THESIS

Presented as Partial Fullfillment of the Requirement

to Obtain Sarjana Komputer Degree

in Informatics Study Program

By:

Bagas Dhitya Taufiqqi

165314093

INFORMATICS STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2020


HALAMAN PERSEMBAHAN

v

“The Greater Our Knowledge Increases

The More Our Ignorance Unfolds”

John F. Kennedy, 35th President of United

States of America

Karya Dipersembahkan Oleh Penulis Untuk :

Allah SWT

Orangtua

Keluarga

Teman-teman


ABSTRAK

vii

Menurut data DAPODIK tahun 2018, pulau Kalimantan memiliki Sekolah

Menengah Pertama (SMP) sebanyak 1210 sekolah yang tersebar di berbagai

provinsi. Berdasarkan banyaknya SMP tersebut, seringkali menimbulkan

ketidakseimbangan pada perbandingan jumlah guru berusia muda dengan guru

berusia lanjut. Guru berusia lanjut yang akan memasuki masa pensiun, tentu sudah

tidak seproduktif guru yang masih berusia muda. Namun, guru berusia lanjut

mempunyai pengalaman dan pengetahuan lebih banyak dari guru yang berusia

muda. Maka, perbandingan antara guru muda dan guru berusia lanjut sebaiknya

harus seimbang, supaya dapat saling berkolaborasi dalam meningkatkan mutu

sekolah. Pengelompokan merupakan solusi tepat untuk mengatasi permasalahan

tersebut, dengan metode ini diharapkan pemerintah dapat memeriksa SMP yang

memiliki kemiripan jumlah guru muda dan berusia lanjut, agar dapat dilakukan

upaya lanjutan untuk melakukan pemerataan.

Dalam penelitian ini, penulis mengimplementasikan metode clustering

dengan algoritma K-Means++ Clustering menggunakan bahasa pemrograman Java

untuk mengelompokkan SMP yang memiliki kemiripan dalam distribusi usia guru.

Jumlah cluster terbaik ditentukan dengan metode Elbow. Hasil dari metode Elbow

berupa grafik yang menggambarkan nilai Sum of Square Error dari setiap

penambahan cluster pada proses clustering.

Dalam hasil akhir penelitian, metode clustering dengan algoritma K-

Means++ Clustering telah berhasil diimplementasikan pada Sistem

Pengelompokan Sekolah Menengah Pertama Berdasarkan Distribusi Usia Guru.

Nilai Sum of Square Error dapat divisualisasikan dengan menggunakan grafik

Elbow yang berfungsi untuk menentukan jumlah cluster terbaik. Dari pengujian

data yang berjumlah 1204 record, didapatkan hasil bahwa jumlah cluster terbaik

berada di k = 6.

Kata Kunci : SMP, Distribusi, Guru, Usia, Clustering, K-Means++ Clustering, Metode Elbow, Nilai Sum of Square Error


ABSTRACT

viii

Based on DAPODIK year of 2018, Kalimantan island has 1212 Junior High

School spread across various provinces. Based on amount of Junior High Schools,

it often creates an imbalance in the amount comparison between young teachers

with older teachers. Older teachers who are about to retire are certainly not as

productive as teachers who are still young. However, older teachers have more

experience and knowledge than younger teachers. So, the comparison between

young teachers and elderly teachers should be balanced, so that they can collaborate

with each other in improving the quality of schools. Clustering is the right solution

to overcome these problems, with this method the government is expected to be

able to examine junior high schools that have similar amounts of young and elderly

teachers, so that further efforts can be made to make equity.

In this research, the authors implemented the clustering method with K-

Means++ Clustering algorithm using Java programming language to clustering

Junior High School that have similarities in the distribution of teachers age. The

best number of cluster was determined by the Elbow method. The results of the

Elbow method in the form of a graph that illustrates the value of Sum of Square

Error of each additional cluster in the clustering process.

In the final result, the clustering method with K-Means++ Clustering

algorithm has been succesful implemented in the Junior High School Clustering

Based on Teachers Age Distribution System. The value of Sum of Square Error can

be visualized using the Elbow graphic which serves to determine the best number

of clusters. From testing data totaling 1204 records, the result show that the best

cluster number is at k = 6.

Key Words : Junior High School, Distribution, Teacher, Age, Clustering,

Clustering, K-Means++ Clustering, Elbow method, Sum of Square Error value


xii

DAFTAR ISI

HALAMAN JUDUL ............................................................................................... I

TITLE PAGE ........................................................................................................... II

HALAMAN PERSETUJUAN .............................................................................. III

HALAMAN PENGESAHAN ............................................................................... IV

HALAMAN PERSEMBAHAN............................................................................. V

PERNYATAAN KEASLIAN KARYA ............................................................... VI

ABSTRAK ........................................................................................................... VII

ABSTRACT ......................................................................................................... VIII

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN AKADEMIS ................................................................. IX

KATA PENGANTAR ........................................................................................... X

DAFTAR ISI. ...................................................................................................... XII

DAFTAR TABEL ............................................................................................... XV

DAFTAR GAMBAR. ........................................................................................ XVI

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang ............................................................................................. 1

1.2 Rumusan Masalah ........................................................................................ 2

1.3 Tujuan .......................................................................................................... 3

1.4 Batasan Masalah ........................................................................................... 3

1.5 Manfaat ........................................................................................................ 3

1.6 Sistematika Penulisan ................................................................................... 3

BAB II LANDASAN TEORI ................................................................................. 6


xiii

2.1 Data .............................................................................................................. 6

2.1.1 Pengertian Data .................................................................................... 6

2.1.2 Jenis Data ............................................................................................. 6

2.2 Data Mining ................................................................................................. 6

2.2.1 Pengertian Data Mining ....................................................................... 6

2.2.2 Tahapan Knowledge Discovery Database............................................ 7

2.2.2 Karakteristik Data Mining ................................................................... 8

2.2.3 Tugas-tugas Data Mining ..................................................................... 9

2.3 Clustering ..................................................................................................... 9

2.3.1 Pengertian Clustering ........................................................................... 9

2.3.2 K-Means Clustering ........................................................................... 10

2.3.3 K-Means++ Clustering ...................................................................... 11

2.3.3.1 Randomized Seeding Technique ................................................. 12

2.3.4 Flowchart K-Means++ Clustering .................................................... 12

2.3.5 Tinjauan Pustaka ................................................................................ 14

2.4 Metode Elbow ........................................................................................... 15

BAB III METODE PENELITIAN ....................................................................... 18

3.1 Gambaran Umum ....................................................................................... 18

3.2 Bahan Riset/Data ........................................................................................ 20

3.2.1 Pemrosesan Awal ............................................................................... 22

3.2.1.1 Pembersihan Data(Data Cleaning) ............................................ 22

3.2.1.2 Integrasi Data(Data Integration) ................................................ 23

3.2.1.3 Seleksi Data(Data Selection) ..................................................... 23

3.2.1.4 Transformasi Data(Data Transformation) ................................. 24

3.3 Peralatan Penelitian .................................................................................... 24

3.4 Desain Alat Uji ........................................................................................... 24

3.5 Model Fungsi Sistem .................................................................................. 26


xiv

3.5.1 Diagram Usecase ................................................................................ 26

3.5.2 Diagram Class .................................................................................... 27

3.5.3 Desain Algoritma ................................................................................ 27

BAB IV IMPLEMENTASI SISTEM DAN ANALISIS HASIL ......................... 31

4.1 Implementasi Sistem .................................................................................. 31

4.1.1 Menu Cari File ................................................................................... 32

4.1.2 Menu Tambah .................................................................................... 33

4.1.3 Menu Hitung Cluster .......................................................................... 33

4.1.4 Menu Hitung Nilai SSE ..................................................................... 34

4.1.5 Jumlah Cluster .................................................................................... 35

4.2 Analisis Hasil Implementasi Algoritma K-Means++ Clustering ............... 36

4.2.1 Uji Validasi ........................................................................................ 36

4.2.1.2 Perhitungan Manual ................................................................... 37

4.2.1.3 Perhitungan Perangkat Lunak .................................................... 48

4.2.2 Evaluasi Hasil Perhitungan Manual dan Perangkat Lunak ................. 50

4.3 Analisis Penentuan Jumlah Cluster terbaik ................................................ 51

BAB V PENUTUP ................................................................................................ 56

5.1 Simpulan .................................................................................................... 56

5.2 Saran ........................................................................................................... 56

DAFTAR PUSTAKA ........................................................................................... 57

Lampiran 1 : Desain Algoritma ............................................................................ 58


DAFTAR TABEL

xv

Tabel 3.1 . Sampel Data Dapodik 2018. ................................................................. 20

Tabel 3.2 . Keterangan Atribut ................................................................................ 21

Tabel 3.3 . Keterangan Noise .................................................................................. 22

Tabel 3.4 . Atribut Yang Tidak

Digunakan Pada Data Dapodik Tahun 2018........................................................... 23

Tabel 3.5 . Keterangan Fungsi................................................................................ 25

Tabel 5.1 . Dataset Uji Validasi .............................................................................. 38

Tabel 5.2 . Hasil Perhitungan

Randomized Seeding Technique ............................................................................ 40

Tabel 5.3 . Iterasi Pertama ....................................................................................... 42

Tabel 5.4 . Iterasi Kedua ......................................................................................... 45

Tabel 5.5 . Iterasi Ketiga......................................................................................... 47

Tabel 5.6 . Hasil Perhitungan MATLAB. ............................................................... 48

Tabel 5.7 . Hasil Akhir Perhitungan Manual, Perangkat Lunak, dan MATLAB. .. 50

Tabel 5.8 . Nilai SSE (Sum of Square Error) ........................................................ 52


DAFTAR GAMBAR

xvi

Gambar 2. 1 . Tahapan Dalam Data Mining (Fayyad,1996). ................................. 8

Gambar 2. 2 . Flowchart Algoritma K-Means++ Clustering .................................. 13

Gambar 3. 1 . Gambaran Umum Sistem.................................................................. 19

Gambar 3.2 . Prototype Sistem .............................................................................. 24

Gambar 3.3 . Diagram Usecase............................................................................... 26

Gambar 3.4 . Diagram Class................................................................................... 27

Gambar 4.1 . Tampilan Halaman Masuk. ............................................................... 31

Gambar 4.2 . Tampilan Halaman Utama ................................................................. 32

Gambar 4.3 . Menu Cari File .................................................................................. 32

Gambar 4.4 . Menu Tambah................................................................................... 33

Gambar 4.5 . Tabel Data......................................................................................... 33

Gambar 4.6 . Menu Hitung Cluster......................................................................... 34

Gambar 4.7 . Tempat Output Hasil K-Means++ Clustering. ................................... 34

Gambar 4.8 . Menu Hitung Nilai SSE ..................................................................... 34

Gambar 4.9 . Tabel Output Nilai SSE .................................................................... 35

Gambar 4.10 . Menu Jumlah Cluster....................................................................... 35

Gambar 4.11 . Menu Lihat Grafik. ......................................................................... 35

Gambar 4.12 . Tampilan Grafik Elbow .................................................................. 36

Gambar 4.13 . Nilai Random Pada Excel ................................................................ 42

Gambar 4.14 . Hasil Clustering Pada Perangkat Lunak. .......................................... 49

Gambar 4.15 . Grafik Elbow Data Dapodik Tahun 2018........................................


1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Indonesia merupakan negara kepulauan yang memiliki luas wilayah

membentang dari Sabang sampai Merauke. Menurut data dari Perserikatan Bangsa-

Bangsa(PBB) pada tahun 2005, total luas keseluruhan wilayah Indonesia mencapai

1910931 km2, dengan perkiraan penduduk mencapai 261.115.456 orang pada tahun

2016. Dengan wilayah luas dan penduduk yang mencapai ratusan juta tersebut,

seringkali membuat pemerintah daerah mengalami kesulitan dalam memperhatikan

kualitas pendidikan di daerahnya masing-masing, khususnya Pulau Kalimantan.

Menurut data yang bersumber dari Data Pokok Pendidikan (DAPODIK)

tahun 2018, Pulau Kalimantan memiliki sekolah baik negeri maupun swasta

berjumlah 1824 yang tersebar di berbagai provinsi, dengan rincian Sekolah

Menengah Pertama(SMP) negeri/swasta sebanyak 1204 sekolah. Salah satu faktor

yang mempengaruhi kualitas suatu SMP ialah jumlah guru yang berusia muda,

karena usia muda dianggap lebih produktif untuk diterjunkan sebagai tenaga

pengajar.

Berdasarkan paragraf sebelumnya, dapat digali pokok-pokok permasalahan

yang ditimbulkan dari banyaknya jumlah SMP di Pulau Kalimantan. Jumlah SMP

yang sebanyak itu seringkali menimbulkan ketidakseimbangan pada jumlah guru

berusia muda, dengan guru berusia lanjut. Guru berusia lanjut yang akan memasuki

masa pensiun, tentu sudah tidak seproduktif guru yang masih berusia muda.

Namun, guru berusia lanjut memiliki pengalaman dan pengetahuan lebih banyak

dari guru yang berusia muda. Maka, perbandingan antara guru muda dan guru

berusia lanjut sebaiknya memiliki jumlah yang seimbang, supaya dapat saling

berkolaborasi dalam meningkatkan kualitas sekolah. Berdasarkan fakta yang

ditemukan, terdapat beberapa sekolah tidak memiliki jumlah guru muda dan guru

berusia lanjut yang seimbang. Akibat yang ditimbulkan dari ketidakseimbangan

tersebut, tentu mempengaruhi kualitas antara satu SMP dengan SMP yang lain.


2

Solusi untuk menyelesaikan persoalan tersebut salah satunya ialah

pengelompokan menggunakan algoritma K-Means++ Clustering yang ditemukan

oleh David Arthur dan Sergei Vassilvitski pada tahun 2007 silam. Dalam jurnalnya,

David Arthur dan Sergei Vassilvitski mengemukakan bahwa algoritma temuannya

ini mempunyai performa lebih baik dalam hal kecepatan dan akurasi dibandingkan

pendahulunya (Arthur dan Vassilvitski, 2007). Selain itu, dalam jurnal yang

berjudul Pengelompokan Kualitas Kerja Pegawai Menggunakan Algoritma K-

Means++ Dan COP-Kmeans Untuk Merencanakan Program Pemeliharaan

Kesehatan Pegawai Di PT. PLN P2B JB Depok, (Chandra dkk., 2017) juga

dibuktikan bahwa algoritma K-Means++ Clustering mampu memberikan hasil

yang lebih mendekati kebenaran dibandingkan K-Means Clustering, walaupun

kecepatan perhitungan algoritma K-Means++ Clustering lebih lambat.

Dengan berbagai permasalahan yang ada di latar belakang ini, maka penulis

tertarik untuk mengangkat tema Pengelompokan Sekolah Menengah Pertama

Berdasarkan Distribusi Usia Guru Dengan Algoritma K-Means++ Clustering.

Penelitian ini diharapkan dapat membantu dinas pendidikan daerah di Pulau

Kalimantan dalam mengelompokkan SMP berdasarkan distribusi usia guru guna

meningkatkan kualitas sekolah. Data yang digunakan mengacu kepada data jumlah

guru muda dan guru berusia lanjut yang mengajar pada SMP yang terletak di Pulau

Kalimantan.

1.2 Rumusan Masalah

1. Bagaimana algoritma K-Means++ Clustering dapat mengelompokkan

SMP berdasarkan distribusi usia guru?

2. Bagaimana menentukan jumlah cluster terbaik dalam proses clustering

dengan metode Elbow?


3

1.3 Tujuan

1. Menerapkan algoritma K-Means++ Clustering dalam melakukan

pengelompokan SMP berdasarkan distribusi usia guru

2. Menentukan jumlah cluster terbaik dalam proses clustering dengan

menggunakan metode Elbow

1.4 Batasan Masalah

1. Implementasi menggunakan Netbeans

2. Data yang digunakan adalah data rentang usia guru SMP di Pulau

Kalimantan yang berasal dari Data Pokok Pendidikan (DAPODIK)

Tahun 2018

1.5 Manfaat

1. Membantu dinas pendidikan daerah dalam memperhatikan kualitas

pendidikan, khususnya di pulau Kalimantan, dengan mengidentifikasi

SMP mana saja yang memiliki kemiripan dalam hal distribusi usia guru.

2. Memberikan gambaran pengklasteran mengenai SMP mana saja yang

memiliki kemiripan distribusi usia guru.

1.6 Sistematika Penulisan

1. Bab I, berisi tentang latar belakang, rumusan masalah, tujuan, manfaat,

batasan masalah, dan sistematika penulisan

2. Bab II, memaparkan teori yang digunakan sebagai dasar penelitian, serta

mendukung perancangan dan implementasi selama penelitian

berlangsung.

3. Bab III, membahas mengenai metodologi penelitian yang terdiri dari

rumusan masalah, tahap perencanaan, observasi dan pengumpulan data,

studi literatur, serta algoritma K-Means++ Clustering

4. Bab IV, membahas mengenai pemrosesan awal, implementasi sistem

dan analisis hasil, terdiri dari teknik atau model analisis yang disebutkan


4

di bab metodologi penelitian. Dalam bab ini juga dipaparkan mengenai

bagian-bagian dalam sistem(GUI) yang akan digunakan untuk

melakukan clustering dengan algoritma K-Means++ Clustering, dan

pengujian terhadap data beserta hasil ujinya.

5. Bab V, membahas mengenai penutup yang terdiri dari kesimpulan dan

saran. Kesimpulan merupakan jawaban atas permasalahan yang telah

dirumuskan pada latar belakang, sedangkan saran berisi tentang

himbauan penulis kepada pihak pembaca untuk mengatasi

permasalahan yang belum sempat diselesaikan karena tidak ada

relevansi dengan pokok bahasannya secara langsung.


BAB II

LANDASAN TEORI

2.1 Data

2.1.1 Pengertian Data

Menurut pendapat Drs.Jhon J Longkutoy (1996), data merupakan istilah

majemuk dari fakta yang menyimpan arti dan dihubungkan dengan simbol, angka,

huruf, gambar maupun kenyataan yang membuktikan suatu objek,ide, atau kondisi.

Selain itu, seorang ahli yang bernama Vercellis (2009) juga mengemukakan bahwa

data merupakan sebuah penggambaran fakta yang tersusun secara terstruktur.

Dalam pendapat lain, data merupakan sebuah rekaman dari konsep,fakta, atau

instruksi pada media penyimpanan untuk hubungan perolehan, dan pemrosesan

dengan cara otomatis sebagai informasi yang dapat dipahami oleh manusia

(Inmon,2005)

2.1.2 Jenis Data

Data yang digunakan dalam penelitian ini merupakan kombinasi antara data

kuantitatif dan data kualitatif. Data kuantitatif merupakan salah satu jenis data yang

berisi informasi berupa bilangan atau angka sehingga dapat dihitung maupun diukur

secara langsung, sedangkan data kualitatif merupakan data yang berupa kata,

gambar, alur skema. (Sugiyono,2015). Data kuantitatif dalam penelitian ini adalah

jumlah guru pada rentang usia tertentu, sedangkan data kualitatifnya berupa nama

sekolah dan nama provinsi.

2.2 Data Mining

2.2.1 Pengertian Data Mining

Data Mining merupakan disiplin ilmu yang mengkaji metode dalam

menggali informasi atau mendapatkan pola dari suatu data (Han dan Kamber,

6


7

2006). Data Mining juga menggambarkan proses semi otomatik yang

memanfaatkan teknik Machine Learning, Artificial Intelligence, statistik, dan

matematika dalam mengenali serta mengekstraksi informasi yang berguna dan

bermanfaat pada database besar (Turban dkk., 2005). Data Mining sering disebut

sebagai Knowledge Discovery in Database (KDD), yaitu kegiatan yang mencakup

pemakaian data,pengumpulan data, historis untuk mendapatkan keteraturan, pola

maupun hubungan dalam set data berukuran besar (Santoso, 2007).

2.2.2 Tahapan Knowledge Discovery Database

Data Mining merupakan bagian dari proses Knowledge Discovery in

Database (KDD). Sebagai bagian dari proses KDD, Data Mining berkaitan erat

dengan penghitungan pada pola suatu data. Adapun beberapa tahapan dalam KDD

adalah sebagai berikut (Fayyad, 1996) :

1. Data Selection

Seleksi data dikerjakan dari suatu himpunan data operasional. Sebelum

memasuki tahap penggalian informasi dalam KDD, tahapan ini perlu

dikerjakan. Data hasil seleksi akan disimpan pada berkas yang terpisah dari

database operasional

2. Preprocessing/Cleaning

Dalam tahapan ini, terjadi proses pembuangan data yang

mempunyai duplikasi, data yang inkonsisten, serta memperbaiki kesalahan

pada data. Dilakukan pula proses enrichment untuk memperkaya data yang

telah ada dengan data/informasi lain yang tentunya harus relevan.

3. Transformation

Coding merupakan proses transformasi yang sesuai untuk

pengerjaan Data Mining pada data yang telah dipilih. Coding dalam KDD

sangat dipengaruhi oleh jenis atau pola informasi yang akan dicari dalam

database.

4. Data Mining

Proses dalam mencari sebuah pola atau informasi yang menarik

dalam data terpilih dengan metode tertentu disebut sebagai Data Mining.


8

Data Mining mempunyai algoritma, teknik, ataupun metode yang

bervariasi. Proses KDD pun sangat dipengaruhi oleh pemilihan algoritma

dan metode yang tepat.

5. Interpretation/Evaluation

Proses untuk membawakan pola informasi yang dihasilkan dari

kegiatan Data Mining oleh pihak yang berkepentingan, disebut sebagai

Interpretation/Evaluation. Interpretation/Evaluation mencakup

pengecekan terhadap informasi atau pola yang ditemukan supaya tidak

berseberangan dengan hipotesis atau fakta yang ada sebelumnya. Penjelasan

diatas dapat diilustrasikan pada gambar 2.1

Gambar 2. 1 . Tahapan dalam Data Mining (Fayyad,1996)

2.2.2 Karakteristik Data Mining

Adapun beberapa karakteristik Data Mining sebagai berikut (Davies, 2004) :

1. Data Mining sering digunakan pada data yang jumlahnya sangat besar.

Hal ini dilakukan agar mendapatkan hasil yang lebih dipercaya.

2. Data Mining berasosiasi dengan penciptaan sesuatu yang masih

tersembunyi dan pola data tertentu yang belum diketahui sebelumnya.

3. Data Mining bermanfaat dalam pembuatan keputusan yang kritis,

terutama strategi.


9

2.2.3 Tugas-tugas Data Mining

Data Mining dibagi ke dalam beberapa tugas, antara lain (Fayyad dan Usama,

1996):

1. Klasifikasi (Classification)

Menyamaratakan model yang diketahui untuk diterapkan pada data

yang baru. Misalkan, klasifikasi penyakit ke dalam sejumlah jenis.

2. Regresi (Regression)

Menciptakan fungsi yang memodelkan data dengan kesalahan prediksi

sesedikit mungkin.

3. Klastering (Clustering)

Menggolongkan data, yang belum diketahui label kelasnya, ke dalam

beberapa golongan tertentu sesuai dengan presentase kemiripannya.

2.3 Clustering

2.3.1 Pengertian Clustering

Clustering atau pengelompokan data memperhitungkan sebuah pendekatan

dalam menyelidiki kesamaan dalam data dan meletakkan data yang memiliki

kesamaan ke berbagai kelompok. Algoritma ini membagi himpunan data ke dalam

beberapa kelompok dimana kesamaan dalam sebuah kelompok lebih besar daripada

kelompok yang lain (Wunsch II dan Xu, 2009). Algoritma Clustering dipergunakan

secara menyeluruh, tidak hanya terpaut pada masalah pengkategorian data, namun

juga dapat menangani kompresi data maupun struktur model (Dubes dan Jain,

1988).


10

2.3.2 K-Means Clustering

Algoritma Clustering ini mempunyai beberapa metode, salah satu

diantaranya ialah K-Means Clustering. Cara kerja K-Means Clustering berpatokan

pada pemilihan jumlah awal kelompok dengan menginterpretasikan nilai centroid

awalnya (Madhulatha, 2012). Dalam prosesnya, K-Means Clustering akan

memproduksi titik centroid yang dijadikan target atau tujuan dari K-Means

Clustering itu sendiri. Saat iterasi K-Means Clustering berhenti, dataset sudah terisi

oleh objek yang menjadi anggota dari suatu cluster. Nilai cluster dihasilkan dengan

mencari seluruh objek untuk mengidentifikasi cluster dengan jarak terdekat ke

objek. K-Means Clustering mengumpulkan item data dalam suatu dataset ke suatu

cluster berdasarkan jarak terdekat (Bangoria dkk., 2013). Adapun algoritma K-

Means Clustering sebagai berikut (Arthur dan Vassilvitski, 2007) :

1. Pilih secara acak k pusat awal C = {c1, . . . , ck}.

2. Untuk setiap i ∈ {1,...,k} , atur cluster Ci menjadi himpunan poin

di X yang lebih dekat ke ci daripada mereka untuk cj untuk semua

jz�

3. Untuk setiap i ∈ {1,...,k} , atur ci menjadi pusat massa semua titik

dalam

Ci: ci = 1/ ¨Ci ¨6 x� Cix

4. Ulangi langkah 2 dan 3 hingga C tidak berubah

Dalam machine learning dan statistik, clustering K-Means merupakan

metode analisis kelompok yang mengarah kepada pembagian N objek pemantauan

ke dalam cluster dimana setiap objek pemantauan dimiliki oleh kelompok dengan

mean terdekat, dimana keduanya berupaya untuk mendapatkan centroid dari dalam

data sebanyak iterasi yang dilakukan. Pengukuran jarak dengan Euclidean

menggunakan formula:


11

$%!

𝐷(푋! , 푋") = '∑# (푋! − 푋")"……………………….(2.1)

D merupakan jarak antara data X2 dengan X1 adalah nilai mutlak (Manvreet

dan Usvir, 2013) dimana X merupakan sebuah titik centroid.

2.3.3 K-Means++ Clustering

Algoritma K-Means Clustering pun mengalami perkembangan dari tahun

ke tahun. Pada tahun 2007, David Arthur dan Sergei Vassilvitski menemukan

algoritma K-Means++ Clustering. Dalam jurnalnya, David Arthur dan Sergei

Vassilvitski membuktikan bahwa K-Means++ Clustering lebih unggul daripada

pendahulunya, yaitu K-Means Clustering, dalam hal akurasi dan kecepatan.

Adapun algoritma K-Means++ Clustering sebagai berikut (Arthur dan Vassilvitski,

2007) :

1. Pilih satu centroid secara acak dari antara titik data.

2. Untuk setiap titik data x , hitung D ( x ), jarak antara x dan centroid

terdekat yang telah dipilih.

3. Pilih satu titik data baru secara acak sebagai centroid baru,

menggunakan distribusi probabilitas tertimbang di mana titik x

dipilih dengan probabilitas sebanding dengan D ( x ) 2 .

4. Ulangi Langkah 2 dan 3 sampai k centroid telah dipilih.

5. Sekarang setelah centroid awal telah dipilih, lanjutkan

menggunakan pengelompokan standar k -means

Meskipun algoritma ini membutuhkan waktu yang lebih lama dalam

pencarian centroid awal, bagian K-Means Clustering itu sendiri menyatu secara

cepat setelah algoritma ini dieksekusi, dengan demikian algoritma tersebut

sebenarnya menurunkan waktu komputasi. Algoritma ini diuji dengan dataset nyata

maupun buatan dengan hasil diperoleh peningkatan lebih cepat dua kali lipat dalam

hal kecepatan daripada K-Means Clustering biasa (Kanungo, T. dkk., 2004).


12

2.3.3.1 Randomized Seeding Technique

Masing-masing anggota mempunyai peluang untuk terpilih menjadi

centroid sehingga setiap anggota dihitung nilai peluang untuk terpilih dan yang

paling mendekati adalah yang paling tepat. Berikut formula randomized seeding

technique:

Dengan keterangan :

!(#’)!

∑#�' !(#’)!

……………………(2.2)

X = titik centroid

x = cluster

D(x’)2 = Jarak Euclidean Distance

¦x�XD(x’)2 = Jumlah Jarak Euclidean Distance Rumus Randomized Seeding Technique akan menghasilkan sebuah

angka yang dijadikan sebagai acuan semakin jauh nilai objek, maka

semakin besar kemungkinan nilai objek akan menjadi nilai C

berikutnya

2.3.4 Flowchart K-Means++ Clustering

Pada Gambar 2.2 akan dijelaskan mengenai alur algoritma K-Means++

Clustering ke dalam bentuk flowchart. Alur dimulai dari tahapan memproses data

(Data Processing), dimana tahapan ini meliputi pemilihan atribut data, jumlah data,

dll. Setelah itu memasuki tahap penentuan jumlah cluster yang akan dipatok, lalu

dilanjut dengan menentukan centroid awal secara acak. Kemudian, melakukan

penghitungan jarak data terhadap masing-masing centroid menggunakan formula

Randomized Seeding Technique.

Langkah selanjutnya ialah menentukan nilai centroid kembali secara acak,

hingga setelahnya dilakukan pengelompokan data sesuai minimum jarak ke

masing-masing centroid menggunakan formula Euclidean Distance. Setelah

pengelompokan data, maka dimulai mencari centroid selanjutnya dengan algoritma

K-Means, dari tahap ini akan diketahui perubahan cluster. Jika cluster berubah,


13

maka akan mengulang kembali pencarian centroid dengan algoritma K-Means. Jika

cluster tetap, maka hasil cluster telah diperoleh.


14

Gambar 2. 2 . Flowchart Algoritma K-Means++ Clustering

2.3.5 Tinjauan Pustaka

Dalam tinjauan pustaka penelitian Algoritma K-Means++ Clustering,

penulis merujuk referensi contoh kasus pada sebuah jurnal yang ditulis oleh

Chandra dkk., 2017. Dalam referensi jurnal ini menyimpulkan bahwa Algoritma K-

Means++ Clustering dapat diimplementasikan dengan baik pada sebuah database


15

)%!

kesehatan. Hal tersebut telah dibuktikan sebagaimana yang dikatakan oleh Chandra

dkk., 2017 pada akhir kesimpulan bahwa dalam hasil perhitungan akhir menyatakan

kualitas kerja pegawai dapat dikelompokkan menjadi 5 kelompok serta tidak ada

pegawai yang sama dengan kelompok lain.

2.4 Metode Elbow

Metode Elbow adalah sebuah metode yang diaplikasikan untuk membentuk suatu

informasi dalam menentukan jumlah cluster terbaik dengan cara melihat persentase

hasil perbandingan antara jumlah cluster yang akan membentuk siku pada sebuah

titik. Berikut merupakan algoritma dari metode Elbow dalam menentukan jumlah

cluster terbaik (Merliana, N.P.E. dkk.,2015) :

1. Mendeklarasikan awal nilai k;

2. Menaikkan nilai k;

3. Menghitung hasil dari SSE (Sum of Square Error) dari tiap nilai k;

4. Menganalisa hasil SSE dari nilai k yang mengalami penurunan secara

signifikan;

5. Cari dan tetapkan nilai k yang berbentuk siku;

Dalam metode Elbow, nilai cluster terbaik diambil dari nilai SSE yang mengalami

penurunan signifikan serta membentuk sebuah siku. Berikut merupakan formula

untuk menghitung SSE (Kodinariya & Makwana, 2013)

𝑆𝑆𝐸 = ∑) ∑$∈'! || 푋$ − 𝐶(||"……………... (2.3)

Keterangan :

K = jumlah cluster

S = K-cluster yang telah terbentuk

푋$ = data x pada indeks ke - i

𝐶( = rata-rata K-cluster pada nilai k (k=1,2,...K)


16

Sum of Square Error (SSE) adalah formula yang sering dimanfaatkan untuk

melakukan pengukuran terhadap data yang diperoleh dengan model prediksi yang

telah dilakukan sebelumnya. SSE sering digunakan acuan dalam menentukan

cluster yang optimal.


BAB III

METODE PENELITIAN

3.1 Gambaran Umum

Penelitian ini bertujuan untuk membantu dinas pendidikan daerah masing-

masing provinsi di Pulau Kalimantan dalam mendapatkan informasi mengenai

persebaran SMP mana saja yang memiliki jumlah guru seimbang dan belum

seimbang dengan mengacu pada perbandingan antara guru muda dengan guru yang

berusia lanjut menggunakan algoritma K-Means++ Clustering. Dari hasil

pengklasteran tersebut nantinya akan dihasilkan pengelompokan ke dalam beberapa

cluster sekolah-sekolah yang memiliki kemiripan jumlah distribusi usia guru.

Dengan penelitian ini, diharapkan dapat membantu dinas pendidikan daerah dalam

meningkatkan kualitas pendidikan di masing-masing daerah dengan melakukan

pengelompokan terhadap sekolah-sekolah yang mempunyai kemiripan jumlah guru

muda dan guru berusia lanjut. Dalam Gambar 3.1 berikut merupakan rancangan

umum penggunaan sistem dari penelitian ini :

1. Menekan tombol “Masukan File untuk memasukkan DAPODIK yang

bertipe xls

2. Mengklik button “BUKA” untuk membuka data yang sudah diinputkan

sebelumnya ke dalam Tabel Data

3. Mengklik button “HAPUS” bila ingin menghapus isi tabel

4. Menginputkan jumlah cluster yang diinginkan sebelum melakukan

clustering

5. Mengklik button “HITUNG” untuk menghitung hasil clustering dari

algoritma K-Means++ Clustering dan menampilkan hasilnya

6. Mengklik button “HITUNG NILAI SSE” untuk menghitung nilai Sum of

Square Error dan menampilkan hasilnya

18


19

7. Mengklik button “LIHAT GRAFIK ELBOW” untuk menampilkan grafik

dari metode Elbow yang dihasilkan dari penghitungan nilai Sum of Square

Error


20

Gambar 3. 1 . Gambaran Umum Sistem

3.2 Bahan Riset/Data

Penelitian ini menggunakan Data Pokok Pendidikan (DAPODIK) tahun

2018. Total data sejumlah 1204 record dengan 9 atribut. Isi DAPODIK berupa

data Sekolah Menengah Pertama yang berstatus Negeri ataupun Swasta dari

seluruh provinsi di Pulau Kalimantan. Pada Tabel 3.1. berikut merupakan 10

sampel record data yang diambil pada DAPODIK tahun 2018 dalam bentuk

excel :

Tabel 3.1 . Sampel data DAPODIK 2018

Nama Sekolah

Provinsi

Um ur Gur u < 30

Um ur Gur u 31 - 35

Um ur

Gur u 36 - 40

Um ur Gur u 41 - 45

Um ur Gur u 46 - 50

Um ur Gur u 51 - 55

Um ur Gur u > 55

SMP NEGERI 6 PALANGKAR

AYA

Prov.

Kalimant an

Tengah

3

2

7

5

8

27

10

SMP NEGERI 1 TENGGARON

G

Prov.

Kalimant an Timur

1

1

3

3

8

26

8

SM NEGERI 2 SAMARINDA

Prov.

Kalimant an Timur

0

1

6

3

16

20

19

SMP NEGERI 1 BANJARBARU

Prov.

Kalimant

5

13

4

3

7

19

7


21

an Selatan

SMP NEGERI 3

SUNGAI RAYA

Prov.

Kalimant an Barat

7

2

2

2

8

18

6

SMP IT AL MUMTAZ

Prov.

Kalimant an Barat

23

10

1

1

0

0

0

SMP IT AL

FITYAN

Prov.

Kalimant an Barat

20

4

0

0

1

1

0

SMP NEGERI 1

SEKADAU HILIR

Prov.

Kalimant an Barat

19

6

4

4

8

10

6

SMP NEGERI 6

KETAPANG

Prov.

Kalimant an Barat

16

6

9

4

13

2

1

SMP

HARAPAN MASA DEPAN

CERAH 01

Prov.

Kalimant an Barat

16

8

1

0

0

1

0

Penjelasan dari atribut Nama Sekolah, Provinsi, beserta Umur Guru akan dijelaskan

pada Tabel 3.2 .

Tabel 3.2 . Keterangan Atribut

Nama Atribut Keterangan Nama Sekolah Berisi nama-nama Sekolah Menengah

Pertama,baik yang dikelola oleh Negara maupun Swasta

Provinsi Berisi nama-nama provinsi letak sekolah berada

Umur Guru Kurang Rentang Umur Guru Kurang dari 30


22

dari 30 Tahun tahun Umur Guru 31-35

Tahun Rentang Guru 31-35 tahun

Umur Guru 36-40 Tahun

Rentang Umur Guru 36-40 tahun







Umur Guru Lebih dari 55 Tahun

Rentang Umur Guru Lebih dari 55 tahun

3.2.1 Pemrosesan Awal

3.2.1.1 Pembersihan Data(Data Cleaning)

Data cleaning merupakan proses awal dalam data mining yang dilakukan

untuk menghilangkan noise. Dalam data yang diujikan pada penelitian ini terdapat

beberapa noise berupa data sekolah yang berbeda jenjang. Peneliti menghilangkan

noise tersebut karena tidak sesuai dengan fokus penelitian. Tabel 3.3 berikut

berisikan keterangan mengenai noise yang ada di dalam data.

Tabel 3.3 . Keterangan Noise

Nama Sekolah Keterangan Noise SD – SMP Negeri Satu Atap 1 Pangkalan Banteng

Beberapa institusi yang memiliki sistem satu atap (gabungan lintas

jenjang) menyebabkan tidak jelasnya informasi mengenai

jumlah rentang usia guru yang mengajar di masing-masing

SD – SMP Negeri Satu Atap 1 Laung Tuhup SD SMP Negeri Satu Atap 3 Arut Utara SMP NEGERI 3 MUARA KOMAM(SD-SMP Satap 02 Muara Kom SD SMP NEGERI SATU ATAP 1


23

MARIKIT jenjang sekolah tersebut SD SMP NEGERI SATU ATAP 2 ARUT UTARA

Dalam melakukan pembersihan data, peneliti menelusuri cell di dalam data excel,

kemudian menghapus noise secara langsung tanpa menggunakan tools khusus.

3.2.1.2 Integrasi Data(Data Integration)

Peneliti tidak melakukan tahap ini dikarenakan data tersebut berasal dari

sumber referensi yang sama, yaitu data excel DAPODIK tahun 2018 bertipe xls.

3.2.1.3 Seleksi Data(Data Selection)

Sebelum melakukan penggalian informasi dalam KDD, diperlukan tahap

penyeleksian data terhadap sekumpulan data operasional. Seleksi data merupakan

tahap menganalisis data yang relevan dari database. Atribut yang tidak digunakan

pada data DAPODIK tahun 2018 akan dijelaskan dalam tabel 3.4

Tabel 3.4 . Atribut yang tidak digunakan pada data DAPODIK tahun 2018

DATA ATRIBUT TIDAK DIGUNAKAN

Data DAPODIK tahun 2018 Kepala Sekolah Akreditasi Status

Akses Internet NPSN Jenjang

Kurikulum

Atribut yang terdapat dalam tabel 4.1 tidak dibutuhkan untuk proses

pengelompokan di penelitian ini. Proses pengelompokan hanya membutuhkan

atribut nama sekolah, provinsi, dan rentang usia guru.


24

3.2.1.4 Transformasi Data(Data Transformation)

Dalam penelitian ini tidak dilakukan normalisasi, keseluruhan data

memiliki interval yang sama, yaitu 0-4.

3.3 Peralatan Penelitian

Alat yang digunakan dalam penelitian ini adalah:

1) Laptop dengan Spesifikasi :

- Processor Intel Core i5 1.8 GHz

- RAM 8 GB 1600 MHz DDR3

2) Spesifikasi Software :

- MacOS Mojave 10.14.6

- Netbeans IDE 8.0.2

- Apache POI jar

3.4 Desain Alat Uji

Perencanaan sistem dilaksanakan untuk mendukung tahap awal

pembangunan sistem menggunakan bahasa pemrograman Java. Perencanaan

sistem menggambarkan tampilan atau interface dari sistem, proses algoritma K-

Means++ Clustering, hingga hasil akhir dari clustering. Pada Gambar 3.2

diperlihatkan prototype sistem yang akan digunakan dalam penelitian ini.


25

Gambar 3.2 . Prototype Sistem

Dalam Tabel 3.5 . akan dijelaskan mengenai keterangan dari nama fungsi beserta

kegunaan masing-masing fungsi yang terdapat di dalam sistem.

Tabel 3.5 . Keterangan Fungsi

Nama Fungsi Kegunaan

Cari File Memasukkan file data DAPODIK

Buka Membuka dan menampilkan data yang telah dipilih ke dalam Tabel Data

Hapus Menghapus keseluruhan data yang ada di dalam Tabel Data

Hitung Cluster Melakukan proses pengelompokan dengan algoritma K-Means++ Clustering


26

Hitung Nilai SSE Melakukan penentuan jumlah cluster terbaik dari kinerja algoritma K- Means++ Clustering terhadap data yang digunakan menggunakan metode Elbow

Jumlah Cluster Menentukan jumlah cluster yang akan diujikan

Lihat Grafik Melihat grafik Elbow yang dihasilkan dari nilai SSE

3.5 Model Fungsi Sistem

3.5.1 Diagram Usecase

Pada sistem yang di dalam Gambar 3.3 ini terdapat satu pengguna yang

dapat memasukkan file data DAPODIK, menghapus data dalam tabel,

menampilkan hasil clustering dari algoritma K-Means++ Clustering, dan

menampilkan nilai cluster terbaik dari hasil clustering dengan algoritma K-

Means++ Clustering.


27

Gambar 3.3 . Diagram Usecase

3.5.2 Diagram Class

Pada Gambar 3.4 merupakan tampilan diagram class dari sistem yang telah

dibuat. Terdapat tiga class yaitu HalamanMasuk,HalamanUtama,dan

KMeansPlusPlus


28

Gambar 3.4 . Diagram Class

3.5.3 Desain Algoritma

Adapun desain algoritma metode-metode utama yang terdapat di dalam

class dapat dilihat pada Lampiran 1.


BAB IV

IMPLEMENTASI SISTEM DAN ANALISIS HASIL

4.1 Implementasi Sistem

Pada gambar 4.1 berikut merupakan tampilan dari sistem untuk halaman

masuk ketika ingin menuju ke halaman utama. Kemudian, halaman utama yang

ditampilkan pada gambar 4.2 mempunyai beberapa fitur, diantaranya adalah menu

Cari File,menu Tambah,kolom Jumlah Cluster, menu Hitung Cluster,dan menu

Hitung Nilai SSE.

Gambar 4.1 . Tampilan halaman masuk

31


32

Gambar 4.2 . Tampilan halaman utama

4.1.1 Menu Cari File

Menu Cari File yang ditampilkan pada Gambar 4.3 ini merupakan menu

pertama untuk memulai melakukan clustering. Pada menu ini terdapat satu tombol

Cari File yang berfungsi untuk memilih file data DAPODIK bertipe xls yang akan

diolah oleh sistem.

Gambar 4.3 . Menu Cari File


33

4.1.2 Menu Tambah

Menu Tambah yang ditampilkan pada Gambar 4.4 ini berfungsi untuk

menampilkan data yang sudah melalui pemilihan kategori jenis SMP dan provinsi

pada sebuah tabel data. Tabel data ditunjukkan pada Gambar 4.5

Gambar 4.4 . Menu Tambah

Gambar 4.5 . Tabel Data

4.1.3 Menu Hitung Cluster

Menu yang ditunjukkan pada Gambar 4.6 mempunyai fungsi sebagai

penghitungan algoritma K-Means++ Clustering. Pada Gambar 4.7 akan

ditampilkan hasil pengelompokan dari penghitungan algoritma K-Means++

Clustering dalam bentuk Pane yang dilakukan oleh fungsi Menu Hitung Cluster.


34

Gambar 4.6 . Menu Hitung Cluster

Gambar 4.7 . Tempat Output Hasil K-Means++ Clustering

4.1.4 Menu Hitung Nilai SSE

Menu yang ditunjuk oleh Gambar 4.8 memiliki fungsi sebagai penghitungan

nilai SSE dari kinerja algoritma K-Means++ Clustering dengan metode Elbow

terhadap data yang digunakan. Adapun hasil dari perhitungan tersebut ditampilkan

dalam bentuk pada Gambar 4.9

Gambar 4.8 . Menu Hitung Nilai SSE


35

Gambar 4.9 . Tabel Output Nilai SSE

4.1.5 Jumlah Cluster

Menu yang ditunjukkan pada Gambar 4.10 memiliki fungsi untuk

menentukan jumlah cluster yang akan diujikan. User menginputkan jumlah cluster

pada text field yang tersedia.

Gambar 4.10 . Menu Jumlah Cluster4.1.6 Menu Lihat Grafik

Menu yang ditunjukkan pada Gambar 4.11 mempunyai fungsi untuk

menampilkan grafik Elbow dari penghitungan nilai SSE sebelumnya. Gambar 4.12

merupakan tampilan grafiknya.

Gambar 4.11 . Menu Lihat Grafik


36

Gambar 4.12 . Tampilan Grafik Elbow

4.2 Analisis Hasil Implementasi Algoritma K-Means++ Clustering

Pada tahap ini dilakukan pengujian program terhadap pengelompokan data

DAPODIK tahun 2018 dengan menggunakan algoritma K-Means++ Clustering.

Data yang akan diuji merupakan 15 sampel data rentang umur guru pada seluruh

Sekolah Menengah Pertama di Pulau Kalimantan dari jumlah 1204 record data

yang tersedia.

4.2.1 Uji Validasi

Uji validasi dilakukan dengan membandingkan perhitungan manual

menggunakan excel dan hasil akhir dari sistem. Dalam uji validasi yang dilakukan


37

oleh peneliti menggunakan k (jumlah cluster) = 2 dengan sebanyak 15 data. Atribut

yang diuji meliputi seluruh rentang usia guru.

4.2.1.2 Perhitungan Manual

Pada tabel 5.1 berikut akan ditunjukkan dataset yang digunakan.

Tabel 5.1 Dataset Uji Validasi

Nama sekolah

Provinsi

Umu r Gur u < 30 Tah un

Umu r Gur u - 31- 35 Tah un





Umu r Gur u - Lebi h dari 55 Tah un

SMPIT AL MUMTAZ

Prov. Kaliman tan Barat

23

10

1

1

0

0

0

SMPIT AL- FITYAN


20

4

0

0

1

1

0 SMP NEGERI 1 SEKADAU HILIR


19

6

4

4

8

10

6 SMP HARAPAN MASA DEPAN CERAH 01


16

8

1

0

0

1

0

SMP NEGERI 6

Prov. Kaliman

16

6

9

4

13

2

1


38

KETAPANG tan Barat

SMP DARUL HIJRAH PUTERI

Prov. Kaliman tan Selatan

15

20

11

3

5

3

1 SMP ISLAM AL HASYIMIYY AH

Prov. Kaliman tan Tengah

15

3

3

3

5

0

0 SMP PLUS CITRA MADINATU L ILMI


15

2

1

1

1

0

0 SMP NEGERI 14 BANJARMA SIN


14

4

5

2

7

13

5 SMP NEGERI 1 PULAU SEMBILAN


14

2

5

0

2

0

0

SMP ISLAM NURUL IHSAN

Prov. Kaliman tan Tengah

14

2

5

0

4

0

0 SMP NEGERI 2 NUNUKAN

Prov. Kaliman tan Utara

13

10

4

9

8

4

0

SMP NEGERI 2 SENDAWAR

Prov. Kaliman tan Timur

13

5

1

4

7

14

2

SMP HASBUNAL LAH


13

4

3

0

1

0

2


39

SMP IT QARDHAN HASANA


13

3

1

1

0

0

0

Proses clustering dengan mengimplementasikan algoritma K-Means++ Clustering,

dilakukan dengan tahapan-tahapan sebagai berikut :

1. Dalam awal proses clustering, dilakukan pemilihan satu centroid awal.

Pada algoritma K-Means++ pemilihan dilakukan secara random

Centroid 1 : SMP IT AL MUMTAZ

2. Penentuan centroid kedua dan seterusnya. Dalam proses penentuan ini

diawali dengan melakukan penghitungan jarak tiap data ke centroid yang

telah terpilih, lalu mencari jarak centroid terdekat dari setiap data dan hitung

kuadrat dari jarak terdekat tersebut. Langkah selanjutnya dengan

menggunakan formula randomized seeding technique, hitung probabilitas

dan probabilitas secara kumulatif pada setiap data. Hasil penghitungan

ditampilkan pada tabel 5.2 berikut :

Tabel 5.2 Hasil Penghitungan Randomized Seeding Technique

Nama Sekolah

D1

Min

Min2

D(x)2/∑D(x)2

Kumulatif

SMPIT AL MUMTAZ

0

0

0

0

0

SMPIT AL- FITYAN

7

7

49

0,00028628

0,0002863

SMP NEGERI 1 SEKADAU HILIR

15,8113883

15,8113883

250

0,00745217

0,0077385 SMP HARAPAN MASA DEPAN

7,41619849

7,4161985

55

0,00036069

0,0080991


40

CERAH 01

SMP NEGERI 6 KETAPANG

17,6635217

17,6635217

311,9999988

0,01160679

0,0197059


17,4068952

17,4068952

303,0000005

0,01094682

0,0306528

SMP ISLAM AL HASYIMIYYAH

12,083046

12,0830460

146,0000006

0,00254161

0,0331944

SMP PLUS CITRA MADINATUL ILMI

11,3578167

11,3578167

129,0000002

0,00198419

0,0351785

SMP NEGERI 14 BANJARMASIN

19,4164878

19,4164878

376,9999985

0,01694672

0,0521253

SMP NEGERI 1 PULAU SEMBILAN

12,8840987

12,8840987

165,9999993

0,00328563

0,0554109


13,3416641

13,3416641

178,0000010

0,00377783

0,0591887

SMP NEGERI 2 NUNUKAN

15,9059737

15,9059737

252,9999993

0,0076321

0,0668208


19,5703858

19,5703858

383,0000004

0,01749043

0,0843113

SMP HASBUNALLAH

12,083046

12,0830460

146,0000006

0,00254161

0,0868529


12,2065556

12,2065556

148,9999996

0,00264713

0,0895000

Dalam menentukan centroid yang terpilih, diperlukan nilai random. Nilai

random yang ditentukan sebesar 0,00 setelah itu membandingkan antara

kumulatif probabilitas setiap data dengan nilai random tersebut. Data yang

mempunyai nilai random yang lebih kecil dari kumulatif probabilitas, akan

terpilih menjadi centroid. Pada gambar 4.13 akan ditampilkan gambaran

mengenai nilai random.


41

Gambar 4.13 . Nilai random pada excel

Centroid 2 : SMP NEGERI 1 SEKADAU HILIR

3. Ketika telah berhasil mendapatkan seluruh centroid awal untuk proses

clustering, langkah selanjutnya ialah penghitungan jarak setiap data ke

seluruh centroid dengan mengimplementasikan formula Euclidean

Distance. Kemudian melakukan perbandingan antara penghitungan jarak ke

suatu centroid, dengan jarak ke centroid lainnya, tentukan jarak terdekat

dengan centroid dan menetapkan sebuah data yang akan tergabung ke dalam

cluster. Data yang dimaksud ialah apabila mempunyai jarak terdekat dengan

suatu centroid, maka posisi data berada dalam satu cluster dengan centroid

tersebut. Pada tabel 5.3 akan ditampilkan hasil dari iterasi pertama.

Tabel 5.3 . Iterasi pertama

Nama

Sekolah

C1

C2

Jarak Terpendek

Cluster

SMPIT AL MUMTAZ

0

15,81

0

1


42

SMPIT AL- FITYAN

7

14,25

7

1

SMP NEGERI 1 SEKADAU

HILIR

15,81

0

0

2

SMP HARAPAN MASA DEPAN

CERAH 01

7,42

14,80

7,42

1

SMP NEGERI 6

KETAPANG

17,66

12,17

12,17

2

SMP DARUL

HIJRAH PUTERI

17,41

18,57

17,41

1


12,08

13,11

12,08

1

SMP PLUS CITRA

MADINATUL ILMI

11,36

15,33

11,36

1


19,42

6,71

6,71

2

SMP NEGERI 1 PULAU

SEMBILAN

12,88

15,17

12,88

1

SMP ISLAM

NURUL IHSAN

13,34

14,49

13,34

1

SMP NEGERI 2

NUNUKAN

15,91

12,21

12,21

2


43

SMP NEGERI 2

SENDAWAR

19,57

8,89

8,89

2

SMP HASBUNALLAH

12,08

14,90

12,08

1


12,21

16,22

12,21

1

4. Ketika anggota dari tiap cluster telah diketahui, tahap selanjutnya yang

dilakukan ialah penghitungan centroid baru berdasarkan anggota cluster

x Centroid 1

Umur Guru Kurang dari 30 Tahun

(23+20+16+15+15+15+14+14+13+13) / 10 = 15,8

Umur Guru 31 – 35 Tahun

(10+4+8+20+3+2+2+2+4+3) / 10 = 5,8


(1+0+1+11+3+1+5+5+3+1) / 10 = 3,1


(1+0+0+3+3+1+0+0+0+1) / 10 = 0,9


(0+1+0+5+5+1+2+4+1+0) / 10 = 1,9


(0+1+1+3+0+0+0+0) / 10 = 0,5


(0+0+0+1+0+0+0+0+2+0) / 10 = 0,3

x Centroid 2

Umur Guru Kurang dari 30 Tahun

(19+16+14+13+13) / 5 = 15



44

(6+6+4+10+5) / 5 = 6,2


(4+9+5+4+1) / 5 = 4,6


(4+4+2+9+4) / 5 = 4,6


(8+13+7+8+7) / 5 = 8,6


(10+2+13+4+14) / 5 = 8,6


(6+1+5+0+2) / 5 = 2,8

5. Langkah selanjutnya setelah menentukan centroid baru ialah melakukan

penghitungan ulang jarak setiap data ke seluruh centroid baru, dan pastikan

setiap data telah masuk ke cluster yang sama. Apabila posisi data dalam

cluster berubah, diperlukan iterasi selanjutnya hingga posisinya tetap. Pada

tabel 5.4 berikut ditampilkan hasil dari iterasi kedua

Tabel 5.4 Iterasi Kedua

Nama

Sekolah

C1

C2

Jarak Terpendek

Cluster

SMPIT AL MUMTAZ

8,82

16,13

8,82

1

SMPIT AL- FITYAN

5,70

13,98

5,70

1


HILIR

13,44

5,41

5,41

2


45


CERAH 01

3,75

13,34

3,75

1

SMP NEGERI 6

KETAPANG

13,06

9,32

9,32

2

SMP DARUL

HIJRAH PUTERI

16,90

16,78

16,78

2


4,78

10,49

4,78

1

SMP PLUS CITRA

MADINATUL ILMI

4,54

13,53

4,54

1


14,69

6,29

6,29

2

SMP NEGERI 1 PULAU

SEMBILAN

4,74

12,86

4,74

1

SMP ISLAM

NURUL IHSAN

5,18

11,95

5,18

1

SMP NEGERI 2

NUNUKAN

11,89

8,22

8,22

2

SMP NEGERI 2

SENDAWAR

15,29

7,15

7,15

2

SMP HASBUNALLAH

3,98

12,84

3,98

1

SMP IT

4,90 14,00 4,90 1


46

QARDHAN HASANA

6. Pada iterasi kedua telah terjadi pergeseran posisi data, sehingga

menyebabkan data berpindah cluster. Maka diperlukan untuk melakukan

iterasi selanjutnya, dan didapatkan hasil iterasi pada tabel 5.5 berikut :

Tabel 5.5 Iterasi Ketiga

Nama

Sekolah

C1

C2

Jarak Terpendek

Cluster

SMPIT AL MUMTAZ

9,38

15,11

9,38

1

SMPIT AL- FITYAN

4,83

13,99

4,83

1


HILIR

14,06

6,54

6,54

2


CERAH 01

4,39

12,51

4,39

1

SMP NEGERI 6

KETAPANG

13,96

8,82

8,82

2

SMP DARUL

HIJRAH PUTERI

18,77

13,98

13,98

2


4,51

10,64

4,51

1


47

SMP PLUS CITRA

MADINATUL ILMI

2,78

13,75

2,78

1


15,13

7,93

7,93

2

SMP NEGERI 1 PULAU

SEMBILAN

4,12

12,79

4,12

1

SMP ISLAM

NURUL IHSAN

4,77

11,98

4,77

1

SMP NEGERI 2

NUNUKAN

13,05

7,11

7,11

2

SMP NEGERI 2

SENDAWAR

15,63

8,92

8,92

2

SMP HASBUNALLAH

3,60

12,58

3,60

1

SMP IT

QARDHAN HASANA

3,74

14,01

3,74

1

7. Setelah mendapatkan hasil dari iterasi ketiga, dapat dilihat tidak ada

pergeseran posisi data yang menyebabkan berpindahnya ke cluster lain.

Oleh karenanya, maka iterasi dihentikan. Sehingga hasil akhir dari proses

clustering ini terpampang di iterasi ketiga pada tabel 5.5


48

4.2.1.2 Perhitungan Perangkat Lunak

Pada gambar 4.14 berikut akan ditampilkan hasil dari proses clustering

yang berjalan pada perangkat lunak.

Gambar 4.14 . Hasil Clustering Pada Perangkat Lunak

Pada output yang dihasilkan oleh perangkat lunak, ditampilkan baris array (dari

atas ke bawah) untuk cluster pertama, kedua, dan seterusnya. Apabila ingin

menambahkan jumlah cluster, maka baris array akan bertambah secara otomatis.

Dalam suatu struktur array menggambarkan data usia guru dari sebuah SMP.

Kumpulan angka pada struktur array merupakan jumlah orang dari masing-masing

rentang usia guru yang terdapat dalam suatu SMP.

4.2.1.3 Perhitungan MATLAB

Pada perhitungan menggunakan software MATLAB, didapatkan hasil

dalam tabel 5.6 berikut :


49

Tabel 5.6 Perhitungan Matlab

Nama Sekolah

C1

C2

Min.

Distance

Cluster


6,73

8,91

6,73

1 SMP HARAPAN MASA DEPAN CERAH 01

5,88

11,47

5,88

1

SMP IT AL MUMTAZ

13,45

15,10

13,45

1

SMP IT AL FITYAN

8,22

12,34

8,22

1


5,56

12,21

5,56

1 SMP NEGERI 1 PULAU SEMBILAN

8,39

11,90

8,39

1 SMP PLUS CITRA MADINATUL ILMI

4,20

10,98

4,20

1

SMP HASBUNALLAH

5,33

12,09

5,33

1


14,26

8,28

8,28

2

SMP NEGERI 2 NUNUKAN

12,03

9,47

9,47

2


50


5,71

12,40

5,71

1


15,70

4,23

4,23

2

SMP NEGERI 6 KETAPANG

14,34

9,77

9,77

2


16,07

15,89

15,89

2 SMP NEGERI 1 SEKADAU HILIR

13,66

5,67

5,67

2

4.2.2 Evaluasi Hasil Perhitungan Manual, Perangkat Lunak, dan MATLAB

Berdasarkan hasil pengujian, didapatkan kesimpulan bahwasanya proses

clustering pada penghitungan perangkat lunak dan manual memiliki hasil akhir

yang sama. Tabel 5.7 berikut merupakan hasil akhir dari kedua percobaan

penghitungan yang dilakukan oleh peneliti.


51

Tabel 5.7 . Hasil Akhir Perhitungan Manual, Perangkat Lunak, dan

MATLAB

Perhitungan Manual Perhitungan Perangkat

Lunak

Perhitungan

MATLAB

C1 C2 C1 C2 C1 C2

SMP IT SMP SMP SMP SMP SMP

AL NEGERI 1 NEGERI 1 DARUL ISLAM AL NEGERI

MUMTAZ SEKADA PULAU HIJRAH HASYIMI 14 U HILIR SEMBILA PUTERI YYAH BANJAR N MASIN

SMP IT SMP SMP SMP SMP SMP

AL NEGERI 6 ISLAM AL NEGERI 1 HARAPA NEGERI 2

FITYAN KETAPA HASYIMI SEKADA N MASA NUNUKA NG YYAH U HILIR DEPAN N CERAH 01

SMP SMP SMP SMP SMP IT SMP

HARAPA DARUL HASBUN NEGERI 2 AL NEGERI 2

N MASA HIJRAH ALLAH NUNUKA MUMAZ SENDAW

DEPAN PUTERI N AR

CERAH 01

SMP SMP SMP IT SMP SMP IT SMP

ISLAM AL NEGERI AL NEGERI 6 AL NEGERI 6

HASYIMI 14 MUMTAZ KETAPA FITYAN KETAPA

YYAH BANJAR NG NG MASIN

SMP PLUS SMP SMP SMP SMP SMP

CITRA NEGERI 2 HARAPA NEGERI 2 ISLAM DARUL

MADINAT NUNUKA N MASA SENDAW NURUL HIJRAH

UL ILMI N DEPAN AR IHSAN PUTERI


52

CERAH 01

SMP

NEGERI 1

PULAU

SEMBILA

N

SMP

NEGERI 2

SENDAW

AR

SMP PLUS

CITRA

MADINAT

UL ILMI

SMP

NEGERI

14

BANJAR

MASIN

SMP

NEGERI 1

PULAU

SEMBILA

N

SMP

NEGERI 1

SEKADA

U HILIR

SMP

ISLAM

NURUL

IHSAN

SMP IT

QARDHA

N

HASANA

SMP PLUS

CITRA

MADINAT

UL ILMI

SMP

HASBUN

ALLAH

SMP IT

AL

FITYAN

SMP

HASBUN

ALLAH

SMP IT

QARDHA

N

HASANA

SMP

ISLAM

NURUL

IHSAN

SMP IT

QARDHA

N

HASANA

4.3 Analisis Penentuan Jumlah Cluster terbaik

Dalam sistem ini mengimplementasikan metode Elbow sebanyak k = 15

untuk mencari jumlah cluster terbaik. Pada tabel 5.8 ditampilkan nilai SSE (Sum of

Square Error) pada data DAPODIK tahun 2018

Tabel 5.8 . Nilai SSE (Sum of Square Error) pada data DAPODIK tahun

2018

K Sum of Square Error

1 2115,484807

2 1837,452101

3 1547,786126


53

4 1528,083668

5 1517,600624

6 1352,632353

7 1339,305281

8 1293,408517

9 1283,615996

10 1278,604203

11 1274,176775

12 1271,171150

13 1268,638885

14 1264,930056

15 1263,207481

Pada gambar 4.15 menampilkan gambar grafik Elbow untuk data DAPODIK tahun

2018. Sumbu X merepresentasikan jumlah cluster, sedangkan sumbu Y

merepresentasikan nilai Sum of Square Error. Pada gambar 4.15 terjadi penurunan

nilai SSE secara signifikan saat k = 1 menuju k = 3, hingga k = 6.

Grafik Elbow 2500,000000

2000,000000

1500,000000

1000,000000

500,000000

0,000000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15


54

Gambar 4.15 . Grafik Elbow data DAPODIK tahun 2018

Metode Elbow menyatakan bahwa jumlah cluster terbaik memiliki ciri-ciri

berupa grafik membentuk siku dan tidak ada penurunan maupun kenaikan nilai

Sum of Square Error yang signifikan. Berdasarkan persyaratan tersebut, didapati

bahwa jumlah cluster terbaik terletak pada k = 3, karena pada jumlah cluster ini

grafik membentuk siku, dan setelahnya tidak ada penurunan nilai Sum of Square

Error secara signifikan. Oleh karenanya, k = 3 direkomendasikan sebagai jumlah

cluster yang terbaik.


BAB V

PENUTUP

5.1 Simpulan

Penelitian tugas akhir dengan judul “Pengelompokan Sekolah Menengah

Pertama Berdasarkan Distribusi Usia Guru dengan Algoritma K-Means++

Clustering” menghasilkan beberapa kesimpulan sebagai berikut :

1. Sistem Pengelompokan Sekolah Menengah Pertama Berdasarkan Distribusi Usia

Guru berhasil dibangun dengan mengimplementasikan algoritma K-Means++

Clustering.

2. Pengujian metode Elbow yang dilakukan dengan jumlah cluster sebanyak 1

hingga 15 menghasilkan nilai k = 3 sebagai jumlah cluster yang terbaik/optimal di

dalam proses clustering, dikarenakan grafik menunjukkan bahwa k = 3 mendekati

bentuk sudut siku.

5.2 Saran

Pengembangan sistem sangat dibutuhkan untuk penelitian mendatang, supaya

sistem dapat melakukan :

1. Menerima input dari berbagai macam tipe file.

2. Menyimpan hasil clustering

3. Menampilkan hasil clustering dengan informasi yang detail

4. Menguji kualitas suatu cluster dengan metode Silhouette Coefficien

56


57

DAFTAR PUSTAKA

Arthur, D.; Vassilvitskii, S. (2007). "k-means++: the advantages of careful seeding" (PDF). Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. pp. 1027–1035.

Bangoria, B., Mankad, N., dan Pambhar, V., 2013, A Survey on Efficient Enhanced

K-Means Clustering Algorithm, International Journal for Scientific Research & Development, vol. 9, hal 1698-700.

Chandra, M., Fenty, E., dan Fitri, M., 2017, Pengelompokan Kualitas Kerja

Pegawai Menggunakan Algoritma K-Means++ dan COP-Kmeans Untuk Merencanakan Program Pemeliharaan Kesehatan Pegawai di PT. PLN P2B JB Depok, Jurnal Pseudocode, vol. 4, hal 16-17.

Davies, and Paul Beynon.2004. Database Systems Third Edition. New York:

Palgrave Macmillan.

Dubes dan Jain, A, (1988), Algorithm for Clustering Data, New Jersey: Prentice Hall.

Efraim Turban, dkk. 2005. “Decision Support Systems and Intelligent Systems” .

Yogyakarta:ANDI.

Fayyad, U. M, 1996, Advances in Knowledge Discovery and Data Mining. Camberidge, MA: The MIT Press

Han, J. dan M.Kamber. 2006. “Data Mining Concepts and Techniques Second

Edition” . San Francisco: Morgan Kaufmann.

Inmon, William H. 2005. “Building The Data Warehouse (4th ed.)” . Indianapolis :Wiley Publishing, Inc..

Izenman AJ. 2008. “Modern Multivariate Statistical Techniques: Regression,

Classification, and Manifold Learning” . New York (US): Springer.

John. J. Longkutoy. 1989. “Pengenalan Komputer” : Cetakan Keenam. Jakarta: PT. Mutiara Sumber Widya.

Kanungo, T.; Mount, D.; Netanyahu, N.; Piatko, C.; Silverman, R.; Wu, A. (2004),

"A Local Search Approximation Algorithm for k-Means Clustering" (PDF), Computational Geometry: Theory and Applications, 28 (2–3): 89–112,


58

doi:10.1016/j.comgeo.2004.03.003, archived from the original (PDF) on 2006-02-09.

Kodinariya, T. M., & Makwana, P. R. (2013). Review on determining number of

cluster in K-Means Clustering. . International Journal of Advance Research in Computer Science and Management Studies,I(6),90-95.

L. Kaufman and P.J. Rousseuw, “Finding Groups in Data” , New York: John

Wiley & Sons, 1990.

Madhulatha, T.S., 2012, “An Overview On Clustering Methods” , IOSR Journal of Engineering, II(4), pp.719-25.

Manvreet dan Usvir (2013). “Comparison Between K-Mean and Hierarchical

Algorithm Using Query Redirection” . India: Department of CSE, Sri Guru Granth Sahib World University, Fatehgarh Sahib, Punjab.

Rui Xu dan Donald C. Wunsch II, 2009, “Clustering” , A John Wiley & Sons, Inc.,

Publication.

Santoso, Budi. 2007. “Data Mining : Teknik Pemanfaatan data untuk keperluan bisnis” . Yogyakarta:Graha Ilmu.

Sugiyono (2015). “Metode Penelitian Kombinasi (Mix Methods)” . Bandung:

Alfabeta

Vercellis, Bernadth. (2009). “Sistem Informasi” . Yogyakarta: Lokomedia


59

LAMPIRAN 1

DESAIN ALGORITMA

Nama Method chooseInitialCenters(points:Collection<T>)

: List<CentroidCluster<T>>

Fungsi Method Mencari centroid awal, kedua, dan

seterusnya

Input Data bertipe array

Output Data bertipe list

Algoritma :

1. Mengubah tipe data menjadi List untuk indeks yang akan diakses

2. Menentukan jumlah data yang ada di dalam List

3. Mendeklarasikan List centroid awal yang akan dihasilkan

4. Memilih salah satu centroid secara acak dari antara data

5. Lakukan penghitungan jarak terdekat antardata dengan menggunakan

Euclidean Distance

6. Gunakan formula randomized seeding technique untuk menentukan

probabilitas data yang akan menjadi centroid kedua dengan bantuan nilai acak

7. Jika ditemukan data yang memiliki kumulatif probabilitas yang lebih besar

daripada nilai acak, maka akan terpilih sebagai centroid kedua.

8. Lakukan langkah 5 – 7 jika ingin mencari centroid seterusnya

Nama Method Cluster(points:Collection<T>:List

Fungsi Method Menampilkan list cluster yang telah

dibentuk

Input Data bertipe list

Output Cluster 1,2 dan seterusnya

Algoritma:

1. Melakukan pengecekan apakah jumlah cluster lebih besar dari jumlah data,

jika tidak maka list cluster tidak dapat dibentuk


60

Nama Method hitungSSE

Fungsi Method Menampilkan nilai Sum of Square

Error

Input double [][] points, double[][] centroids

Output Nilai Sum of Square Error

Algoritma:

1. Mendeklarasikan variabel “sse” dengan tipe data double

2. Mendeklarasikan variabel “assignedClust” dengan tipe data int

3. Looping sebanyak cluster yang telah ditentukan

4. Variabel “assignedClust” untuk menampung cluster sebanyak looping

sebelumnya

5. Variabel “sse” untuk menjumlahkan hasil perhitungan selisih jarak data

dengan centroid dari sejumlah cluster pada langkah 4

2. Jika jumlah cluster lebih besar dari jumlah data, maka buat array berisi list

cluster yang telah terbentuk.

3. Lakukan iterasi untuk mengetahui banyaknya list cluster yang akan ditampung

terhadap array

4. Jika tidak ada lagi perubahan terhadap list cluster, maka iterasi dihentukan


means++ clustering (studi kasus - usd repository

Documents