prediksi anomali pada trafik jaringan menggunakan metode k...
TRANSCRIPT
Prediksi Anomali pada Trafik Jaringan Menggunakan
Metode K-Means Clustering
Artikel Ilmiah
Diajukan kepada
Fakultas Teknologi Informasi
untuk Memperoleh Gelar Sarjana Komputer
Peneliti :
Stefanus Digita Ardhiansyah ( 672011067 )
Dr. Irwan Sembiring, S.T., M.Kom.
Program Studi Teknik Informatika
Fakultas Teknologi Informasi
Universitas Kristen Satya Wacana
Salatiga
2016
i
ii
iii
iv
1
PREDIKSI ANOMALI PADA TRAFIK JARINGAN
MENGGUNAKAN METODE K-MEANS CLUSTERING
1)
Stefanus Digita Ardhiansyah, 2)
Dr. Irwan Sembiring, ST. M.Kom Fakultas Teknologi Informasi
Universitas Kristen Satya Wacana
Jl. Diponegoro 52-60, Salatiga 50711, Indonesia
Email: 1)
Abstract
Anomalies will potentially hamper network performance in a specific network traffic.
Because of its cause unusual activity in network traffic. The need for anomaly detection to
minimize the possibility that anomalies arise. K-Means method is needed to predict the
value of anomalies that will appear on a network traffic. K-Means having working
principle by iterating based on the initial cluster is entered, the iteration is repeated until
the cluster same.Prediction results were found with K-Means the emergence of anomalies
will help suppress the activity that inhibits the activity of traffic on a network computer.
Key words : prediction, anomaly, K-Means.
Abstrak
Anomali akan berpotensi menghambat kinerja jaringan pada sebuah trafik jaringan
tertentu. Karena sifatnya menimbulkan aktivitas yang tidak wajar dalam trafik jaringan.
Perlu adanya deteksi anomali untuk memperkecil kemungkinan anomali yang muncul.
Metode K-Means diperlukan untuk memprediksi mengenai nilai anomali yang akan
muncul pada sebuah trafik jaringan. K-Means memiliki prinsip kerja dengan melakukan
iterasi berdasarkan cluster awal yang dimasukkan, iterasi berulang sampai dengan
ditemukan hasil cluster yang sama. Prediksi dengan K-Means terhadap kemunculan
anomali akan membantu menekan aktivitas yang menghambat terhadap aktivitas trafik di
dalam sebuah jaringan komputer.
Kata Kunci : prediksi, anomali, K-Means.
1) Mahasiswa Fakultas Teknologi Informasi Jurusan Teknik Infotmatika, Universitas Kristen
Satya Wacana Salatiga 2) Staff Pengajar Fakultas Teknologi Informasi, Universitas Kristen Satya Wacana Salatiga
2
1. Pendahuluan
Perkembangan teknologi saat ini sangat berkembang pesat dan internet
adalah salah satu media informasi yang sangat dibutuhkan pada saat ini. Setiap
orang akan selalu membutuhkan dan menggunakan internet untuk melakukan
berbagai kepentingan dalam setiap aspek kehidupan, sehingga kian hari trafik
jaringan akan selalu meningkat. Intensitas trafik jaringan dapat berubah
meningkat lebih tinggi dari keadaan normal, biasanya terjadi karna adanya
anomali pada jaringan tersebut. Anomali didefinisikan sebagai aktivitas yang
tidak semestinya pada sebuah trafik jaringan, yang selanjutnya akan
membahayakan integritas sebuah jaringan.
Tujuan dari prediksi kemunculan anomali pada penelitian ini adalah
menemukan nilai anomali pada sebuah jaringan dari sejumlah nilai anomali yang
muncul sebelumnya. Salah satu algoritma clustering adalah K-means. Beberapa
penelitian sebelumya juga sudah menerapkan k-means sebagai algoritma untuk
menentukan sistem deteksi. Prinsip k-means adalah mengelompokkan data
berdasarkan similaritas data dengan data lainnya untuk membentuk sebuah
cluster.
Metode K-means adalah suatu metode penganalisaan data atau metode
data mining yang melakukan pengelompokan data dengan sistem partisi. Metode
K-Means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok,
dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama
lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada didalam
kelompok yang lain. Metode K-Means berusaha meminimalkan variasi antar data
yang ada didalam suatu cluster dan memaksimalkan variasi dengan data yang ada
di cluster lainnya.
K-Means digunakan dalam penelitian ini karena menghimpun sejumlah
data testing yang ada untuk kemudian dihasilkan data cluster dari setiap iterasi.
Dalam proses, pertama kita harus menentukan centroid dan jumlah cluster yang
akan digunakan untuk menentukan data. Untuk selanjutnya data cluster setiap
iterasi digunakan sebagai bantuan pada proses iterasi selanjutnya. Data cluster
setiap iterasi selanjutnya digunakan untuk menghitung prediksi kemunculan pada
sebuah trafik jaringan .
2. Tinjauan Pustaka
Pada penelitian yang berjudul “Implementasi Algoritma K-Means
Clustering Untuk Menentukan Strategi Marketing President University”, oleh
Johan Oscar Ong, hasil yang didapatkan berdasarkan hasil yang diperoleh, dapat
disimpulkan bahwa strategi promosi pertama yang dapat dilakukan pihak
marketing President University berdasarkan hasil clustering adalah melakukan
strategi promosi pada kota-kota di Indonesia berdasarkan jurusan yang paling
banyak diminati[1].
Pada penelitian selanjutnya yang berjudul “Penerapan K-Means Clustering
Pada Data Penerimaan Mahasiswa Baru (Studi Kasus : Universitas Potensi
Utama)” oleh Fina Nasari, hasil yang didapatkan adalah pengujian yang dilakukan
3
dalam penelitian ini, iterasi clustering data mahasiswa terjadi sebanyak 2 kali
iterasi. Berdasarkan dari hasil Cluster kesimpulan yang dapat diambil adalah
bahwa jika asal sekolah adalah SMA atau Sekolah Menengah Pertama maka rata-
rata jurusan yang diambil adalah Sistem Informasi dan jika asal Sekolahnya
adalah SMK rata-rata jurusan yang diambil adalah Teknik Informatika[2].
Pada penelitian selanjutnya yang berjudul “Penerapan Metode K-Means
Untuk Clustering Produk Online Shop Dalam Penentuan Stok Barang” oleh Elly
Muningsih, hasil yang diperoleh penelitian ini penentuan stok barang diharapkan
bisa memberikan kontribusi lebih baik lagi karena aplikasi yang dihasilkan bisa
menampilkan kategori produk dalam jangka waktu tertentu sesuai yang
diinginkan[3].
Pada penelitian selanjutnya yang berjudul “Penerapan Clustering
Bootstrap dengan Metode K-Means” oleh Hendro Prasetyo, diperoleh kesimpulan
secara umum performance metode K-Means dan metode K-Means yang
dibootstrap berdasarkan hasil tabulasi silang dengan pengelompokan status gizi
berdasarkan WHO 2005 menunjukkan sangat baik dalam mengukur ketepatan
klasifikasi status gizi balita[4].
Perbedaan dengan penelitian yang dilakukan oleh Muhammad Shiddiq Azis
adalah pada penelitian yang dilakukan Siti M. Shamsuddin data diambil dari data
mentah keseluruhan, sedangkan Pada penelitian ini, hanya terdiri dari satu kolom
variabel yaitu data anomali, untuk selanjutnya dijadikan data multivariate atau
banyak kolom, dianataranya 10 target (kolom) , 20 target (kolom) dan 50 target
(kolom) akan mampu memberikan hasil prediksi yang berbeda tetapi saling
mendekati.
Data mining disebut sebagai proses ektraksi pengetahuan dari data yang
besar. Sesuai fungsinya, data mining adalah proses pengambilan pengetahuan dari
volume data yang besar yang disimpan dalam basis data, data warehouse, atau
informasi yang disimpan dalam repository [3].
Pada dasarnya clustering merupakan suatu metode untuk mencari dan
mengelompokkan data yang memiliki kemiripan karakteriktik (similarity) antara
satu data dengan data yang lain. Clustering merupakan salah satu metode data
mining yang bersifat tanpa arahan (unsupervised), maksudnya metode ini
diterapkan tanpa adanya latihan (training) dan tanpa ada guru (teacher) serta tidak
memerlukan target output. Dalam data mining ada dua jenis metode clustering
yang digunakan dalam pengelompokan data, yaitu hierarchical clustering dan
non-hierarchical clustering [3].
K-means clustering merupakan salah satu metode data clustering non-
hirarki yang mengelompokan data dalam bentuk satu atau lebih cluster/kelompok.
Data-data yang memiliki karakteristik yang sama dikelompokan dalam satu
cluster/kelompok dan data yang memiliki karakteristik yang berbeda
dikelompokan dengan cluster/kelompok yang lain sehingga data yang berada
dalam satu cluster/kelompok memiliki tingkat variasi yang kecil [7].
Data mining untuk rekayasa perangkat lunak dapat dibagi menjadi analisis
statis dan analisis dinamis,perbedaan keduanya terletak pada kemampuan sistem
dalam mengumpulkan jejak sebelumnya setelah tahapan analisis [7]. Data mining
telah dikembangkan dalam domain ini dengan integrasi dan perluasan metode
4
yang dikembangkan dalam proses pembelajaran, pengenalan pola, dan statistik.
Sebagai contoh, statistik analisis dalam hal pengujian hipotesis dapat dilakukan
pada eksekusi program untuk mengetahui lokasi kesalahan pada program yang
berjalan [8].
3. Metode Penelitian
Pada bagian pertama akan menjelaskan tentang desain data mining atau
alur kerja dari proses kerja sistem deteksi. Berikut merupakan urutan data mining
dalam penelitian yang sedang diambil seperti yang digambarkan pada Gambar 1.
Gambar 1. Desain Data Mining
Tahap selanjutnya adalah teknik pengumpulan data. Teknik pengumpulan
data dilakukan dengan mempersiapkan data anomali. Data yang digunakan adalah
data dari trafik jaringan server internet Oktober 2015. Data yang telah
dikumpulkan dari administrasi web server, selanjutnya dilakukan rekap ke
microsoft excel sehingga diperoleh data yang valid. Data yang sudah direkap di
microsoft excel siap untuk diolah, diambil 100 data sample untuk penelitian ini.
Metode yang digunakan untuk mengolah data adalah K-Means. Cara kerja K-
means yaitu dengan diawali penentuan cluster awal sebelum proses iterasi.
Selanjutnya iterasi akan dilakukan beberapa kali hingga dihasilkan hasil iterasi
yang sama, dan dihasilkan cluster pada setiap prosesnya.
4. Analisa dan Pembahasan
Penelitian ini dilakukan dengan melakukan percobaan data set dengan
memasukkan angka cluster awal secara acak. Percobaan data set dilakukan
sebanyak 3 sample, yaitu 50 sample, 20 sample dan 10 sample. Berikut adalah
hasil uji coba dari anomali detection berdasarkan data set yang ada.
1. Himpunan Data
(Pemahaman dan
Pengolahan Data)
2. Metode Data Mining
(Pilih Metode
Sesuai Karakter Data)
3. Mencari hasil
prediksi
Mengambil sejumlah data
dari sebuah trafic jaringan
Gunakan metode prediksi yaitu K-
Means
-Menentukan cluster awal
-Melakukan iterasi ke-n untuk mencari
cluster baru ke n+1
-mengulang iterasi hingga ditemukan
hasil cluster yang sama
Dengan menambahkan
hasil cluster terakhir dan
membaginya dengan
jumlah record
5
Tabel 1. Masukkan Cluster Awal Secara Acak
Cluster 1 60
Cluster 2 40
Setelah memasukkan cluster awal, kemudian dilakukan pengujian dengan 3
data sample. Setelah itu dilakukan penghitungan dengan rumus yang digunakan
untuk mencari nilai iterasi dari 3 sample data set dalam percobaan penelitian ini.
Rumus pencarian nilai iterasi sebagai berikut ini.
- C1 = (x1-c1)2 + (y1-c1)
2
- C2 = (x1-c2)2 +(y1-c2)
2
Dimana :
C1 = Custer 1
C2 = Cluster 2
X1 = Nilai anomali 1
Y2 = Nilai anomali 2
Percobaan pertama yaitu melakukan pengolahan data set dengan 50 sample.
Diawali dengan pengembilan nilai anomali dari alamat web dengan cara seperti
berikut.
Tabel 2. Pengambilan Nilai nomali dari Alamat Web
Alamat Nilai
Anomali
Keterangan
1276759407.909 400 192.168.1.23 TCP_MISS/204 239 GET
http://cr-
tools.clients.google.com/service/check2?appid=%7B430FD4D0-B729-
4F61-AA34-
91526481799D%7D&appversion=1.2.183.29&applang=&machine=0&
version=1.2.183.29&osversion=5.1&servicepack=Service%20Pack%20
2 - DIRECT/72.14.203.100 -
400
Nilai
anomali
diambil dari
digit ke-19
sebanyak 4
digit, dengan
perintah
=mid(alamat,
19,4)
1276759430.906 632 192.168.1.23 TCP_MISS/200 276 GET
http://master1.teamviewer.com/din.aspx?s=00000000&id=776319488&
client=DynGate&rnd=107517240&p=10000001 -
DIRECT/87.230.73.23 application/octet-stream
632
1276759431.892 666 192.168.1.23 TCP_MISS/200 265 POST
http://master1.teamviewer.com/dout.aspx?s=14118049&p=10000001&
client=DynGate - DIRECT/87.230.73.23 application/octet-stream
666
1276759432.212 320 192.168.1.23 TCP_MISS/200 355 GET
http://master1.teamviewer.com/din.aspx?s=14118049&id=776319488&
client=DynGate&p=10000002 - DIRECT/87.230.73.23
application/octet-stream
320
1276759407.909 400 192.168.1.23 TCP_MISS/204 239 GET
http://cr-
tools.clients.google.com/service/check2?appid=%7B430FD4D0-B729-
4F61-AA34-
91526481799D%7D&appversion=1.2.183.29&applang=&machine=0&
version=1.2.183.29&osversion=5.1&servicepack=Service%20Pack%20
2 - DIRECT/72.14.203.100 -
400
6
Setelah pengambilan nilai anomali dari alamat web, selanjutnya dimasukan
ke dalam tabel excel untuk dilakukan perhitungan yang kemudian dikonversikan
dalam bentuk grafik seperti Gambar 2.
Gambar 2. Melakukan Iterasi Dengan Memakai Cluster Pada Point 1
Setelah melakukan penghitungan dari 50 data sample set dengan
memasukkan nilai cluster awal, maka didapatkan hasil iterasi seperti Tabel 3.
Tabel 3 Cluster Kedua dari Iterasi-1
x1 y1
c1 148 3030
c2 11085 3874
Setelah mendapatkan hasil penghitungan iterasi, maka didapat hasil iterasi
yang baru. Kemudian dilakukan perhitungan kembali dengan 50 data sample yang
sama dengan iterasi yang baru dengan menggunakan rumus
Gambar 3. Melakukan Iterasi Dengan Memakai Cluster Kedua
Gambar 3 merupakan tampilan penghitungan dari 50 data sample set yang
sama dengan memasukkan nilai iterasi kedua, maka didapatkan hasil iterasi
seperti Tabel 4.
7
Tabel 4. Cluster Kedua dari Iterasi-2
x1 y1
c1 0 0
c2 11233 6904
Setelah mendapatkan hasil penghitungan iterasi kedua, maka di dapat hasil
iterasi yang baru. Kemudian dilakukan perhitungan kembali dengan 50 data
sample yang sama dengan iterasi yang baru dengan menggunakan rumus
pencarian iterasi.
Gambar 4. Melakukan iterasi dengan memakai cluster ketiga
Gambar 4 merupakan tampilan penghitungan dari 50 data sample set yang
sama dengan memasukkan nilai cluster ketiga, maka didapatkan hasil iterasi
seperti Tabel 5.
Tabel 5. Cluster kedua dari iterasi-3
x1 y1
c1 0 0
c2 11233 6904
Dari iterasi 1 sampai dengan 3 diperoleh cluster seperti Gambar 5.
8
Gambar 5 Grafik Perbandingan 50 Sample
Gambar 5 menampilkan grafik perbandingan hasil akhir dari ketiga iterasi
dengan 50 data sample. Karena pada iterasi ke-2 dan ke-3 bernilai tetap maka
proses berhenti .Besarnya anomali yang dihasilkan :
=(c1(x1)+c2(x1)+c1(y1)+c2(y1)) / (∑x1+∑y1) =(0+11233+0+6904)/(50+50)
=181,37
Hasil dari nilai total x1 dan y1 dari 50 data adalah = 181,37. Maka
persentase prediksi kemunculan anomali adalah (181,37 / 181,37) x 100
dihasilkan nilai 100%.
Selanjutnya melakukan pengujian kedua dengan 20 sample data set. Nilai
anomali diambil dari alamat web yang kemudian di masukan kedalam tabel excel
untuk dilakukan perhitungan yang kemudian dikonversikan dalam bentuk grafik
seperti Gambar 6.
Gambar 6 Melakukan Iterasi Dengan Memakai Cluster Pada Point 1
9
Gambar 6 merupakan tampilan penghitungan dari 20 data sample set dengan
memasukkan nilai cluster awal, maka didapatkan hasil iterasi seperti Tabel 6.
Tabel 6. Cluster Kedua dari Iterasi-1
x1 y1
c1 0 0
c2 3856 99
Setelah mendapatkan hasil penghitungan iterasi, maka di dapat hasil iterasi
yang baru. Kemudian dilakukan perhitungan kembali dengan 20 data sample yang
sama dengan iterasi yang baru dengan menggunakan rumus pencarian iterasi.
Gambar 7 Melakukan Iterasi Dengan Memakai Cluster Kedua
Gambar 7 merupakan tampilan penghitungan dari 20 data sample set yang
sama dengan memasukkan nilai iterasi kedua, maka didapatkan hasil iterasi
seperti Tabel 7.
Tabel 7. Cluster Kedua dari Iterasi-2
x1 y1
c1 0 0
c2 3856 99
Dari iterasi 1 sampai dengan 2 diperoleh cluster seperti Gambar 8.
10
Gambar 8 Grafik Perbandingan Iterasi 20 Sample
Gambar 8 menampilkan tentang grafik perbandingan hasil akhir dari iterasi
pertama dan kedua. Karena pada iterasi ke-1dan ke-2 bernilai tetap maka proses
berhenti. Besarnya anomali yang dihasilkan :
=(c1(x1)+c2(x1)+c1(y1)+c2(y1)) / (∑x1+∑y1) =(0+3856+0+99) / (20 +20)
=98.87
Hasil dari nilai total x1 dan y1 dari 50 data adalah = 181,37. Berarti
persentase prediksi kemunculan anomali adalah (98,87 / 181,37) x 100 dihasilkan
nilai 54.51%.
Terakhir adalah melakukan pengujian ketiga dengan 10 sample data set.
Nilai anomali diambil dari alamat web yang kemudian di masukan kedalam tabel
excel untuk dilakukan perhitungan yang kemudian dikonversikan dalam bentuk
grafik seperti Gambar 9.
Gambar 9 Melakukan Iterasi Dengan Memakai Cluster Pada Point 1
Gambar 9 merupakan tampilan penghitungan dari 10 data sample set dengan
memasukkan nilai cluster awal, maka didapatkan hasil iterasi seperti Tabel 8.
11
Tabel 8. Cluster Kedua dari Iterasi-1
x1 y1
c1 0 0
c2 3787 59
Setelah mendapatkan hasil penghitungan iterasi, maka di dapat hasil iterasi
yang baru. Kemudian dilakukan perhitungan kembali dengan 10 data sample yang
sama dengan iterasi yang baru dengan menggunakan rumus pencarian iterasi.
Gambar 10 Melakukan Iterasi Dengan Memakai Cluster Kedua
Gambar 10 merupakan tampilan penghitungan dari 10 data sample set yang
sama dengan memasukkan nilai iterasi kedua, maka didapatkan hasil iterasi
seperti Tabel 9.
Tabel 9. Cluster Kedua dari Iterasi-2
x1 y1
c1 0 0
c2 3787 59
Dari iterasi 1 sampai dengan 2 diperoleh cluster seperti gambar berikut:
12
Gambar 11 Perbandingan Iterasi 20 Sample
Gambar 11 merupakan tampilan grafik hasil akhir dari iterasi pertama dan
kedua. Karena pada iterasi pertama dan kedua bernilai tetap maka proses berhenti.
Besarnya anomali yang dihasilkan :
=(c1(x1)+c2(x1)+c1(y1)+c2(y1)) / (∑x1+∑y1) =(0+3287+0+59) / (10+10)
=167.3
Hasil dari nilai total x1 dan y1 dari 50 data adalah = 181,37 Berarti
persentase prediksi kemunculan anomali adalah (167,3 / 181,37) x 100 dihasilkan
nilai 92%.
Pada akhir pengujian perlu dilakukan perbandingan untuk mengetahui
perbandingan prediksi kemunculan anomali yang dihasilkan setelah melakukan
beberapa percobaan, yang hasilnya dapat dilihat pada Tabel 10.
Tabel 10. Hasil perbandingan 3 Sample Percobaan
Jumlah
Sample C1(x1) C2(x1) C1(x2)
C2(x2)
Hasil
Anomali
Prediksi
Kemunculan
50 0 3787 0 59 181,37 100%
20 0 3856 0 99 98,87 54.51%
10 0 3787 0 59 167,3 92%
Digambarkan dengan grafik sebagai berikut :
13
Gambar 12 Grafik perbandingan antara 50 sample, 20 sample dan 10 sample
Gambar 12 menampilkan grafik hasil perbandingan 3 sample percobaan
yang telah dilakukan, yakni 50 sample data set, 20 sample data set dan 10 sample
data set.
5. Kesimpulan
Berdasarkan penelitian yang telah dilakukan, simpulan yang dapat diambil
adalah bahwa iterasi dari metode K-Means akan berulang terus dan berhenti
hingga ditemukan hasil cluster yang sama. Dari percobaan tiga sample yaitu 50
sample, 20 sample dan 10 sample. Jadi dapat ditarik kesimpulan bahwa pada
percobaan diatas dihasilkan tingkat prediksi kemunculan anomali terbesar berada
pada 50 sample yaitu 100% dengan angka 181,37. Jadi semakin besar sample
yang digunakan untuk percobaan, maka tingkat prediksi anomali yang dihasilkan
semakin besar. Dari prediksi anomali pada data trafik jaringan menggunakan
metode k-means akan dapat memudahkan dalam melakukan prediksi anomali
dalam jaringan atau anomali lainnya dalam studi kasus yang berbeda.
DAFTAR PUSTAKA
[1] Ong, Johan Oscar. 2013. Implementasi Algoritma K-Means Clustering
Untuk Menentukan Strategi Marketing President University. Cikarang:
President University.
[2] Nasari,Fina. 2015.Penerapan K-Means Clustering Pada Data Penerimaan
Mahasiswa Baru (Studi Kasus : Universitas Potensi Utama). Medan:
UniversitasPotensiUtama.
[3] Muningsih, Elly. 2015.Penerapan Metode K-Means Untuk Clustering
Produk Online Shop Dalam Penentuan Stok Barang. Yogyakarta: AMIK
BSI.
14
[4] Rivani,Edmira. 2015.Aplikasi K-Means Cluster Untuk Pengelompokkan
Provinsi Berdasarkan Produksi Padi, Jagung, Kedelai, Dan Kacang Hijau
Tahun 2009.Bandung: UniversitasPadjajaran.
[5] Prasetyo, Hendro. 2015.Penerapan Clustering Bootstrap dengan Metode
K-Means.Surabaya: ITS Surabaya.
[6] Ramesh Singh Yadava. 2012. Performance Analysis of High Performance
k-Mean Data Mining Algorithm for Multicore Heterogeneous Compute
Cluster
[7] Verma SV.2013. Perceptible Study of Some K-Means Clustering
Algorithm Used for Image and Data Analysis
[8] Mamta Mittal. 2014. Validation of K-means and Threshold Based
Clustering Method Robust Seed Selection Algorithm for K-means Type
[9] K. Karteeka Pavan. 2011, Algorithms Robust Seed Selection Algorithm
for K-means Typealgorithm
[10] Shraddha Shukla and Naganna S. 2014. A Review ON K-means DATA
Clustering APPROACH
[11] S.Hari Ganesh and C.Chandrasekar. 2011. A Parallel Computing Data
Mining and Enhanced K-means Algorithm for Detecting Protein Sequence
[12] David Pettinger and Giuseppe Di Fatta. 2010. Space Partitioning for
Scalable K-Means
[13] Kittisak Kerdprasop and Nittaya Kerdprasop. 2010. A lightweight Method
to Parallel K-Means Clustering
[14] E. A. Khadem, E. F. Nezhad, M. Sharifi. 2013. Data Mining: Methods &
Utilities
[15] H.T Dashti, T Simas, R.A Ribeiro, A Assadi, A Moitinho. 2010. MK-
means Modified K-means Clustering Algorithm