prediksi anomali pada trafik jaringan menggunakan metode k...

Prediksi Anomali pada Trafik Jaringan Menggunakan

Metode K-Means Clustering

Artikel Ilmiah

Diajukan kepada

Fakultas Teknologi Informasi

untuk Memperoleh Gelar Sarjana Komputer

Peneliti :

Stefanus Digita Ardhiansyah ( 672011067 )

Dr. Irwan Sembiring, S.T., M.Kom.

Program Studi Teknik Informatika

Fakultas Teknologi Informasi

Universitas Kristen Satya Wacana

Salatiga

2016

1

PREDIKSI ANOMALI PADA TRAFIK JARINGAN

MENGGUNAKAN METODE K-MEANS CLUSTERING

1)

Stefanus Digita Ardhiansyah, 2)

Dr. Irwan Sembiring, ST. M.Kom Fakultas Teknologi Informasi

Universitas Kristen Satya Wacana

Jl. Diponegoro 52-60, Salatiga 50711, Indonesia

Email: 1)

[email protected], 2)

[email protected]

Abstract

Anomalies will potentially hamper network performance in a specific network traffic.

Because of its cause unusual activity in network traffic. The need for anomaly detection to

minimize the possibility that anomalies arise. K-Means method is needed to predict the

value of anomalies that will appear on a network traffic. K-Means having working

principle by iterating based on the initial cluster is entered, the iteration is repeated until

the cluster same.Prediction results were found with K-Means the emergence of anomalies

will help suppress the activity that inhibits the activity of traffic on a network computer.

Key words : prediction, anomaly, K-Means.

Abstrak

Anomali akan berpotensi menghambat kinerja jaringan pada sebuah trafik jaringan

tertentu. Karena sifatnya menimbulkan aktivitas yang tidak wajar dalam trafik jaringan.

Perlu adanya deteksi anomali untuk memperkecil kemungkinan anomali yang muncul.

Metode K-Means diperlukan untuk memprediksi mengenai nilai anomali yang akan

muncul pada sebuah trafik jaringan. K-Means memiliki prinsip kerja dengan melakukan

iterasi berdasarkan cluster awal yang dimasukkan, iterasi berulang sampai dengan

ditemukan hasil cluster yang sama. Prediksi dengan K-Means terhadap kemunculan

anomali akan membantu menekan aktivitas yang menghambat terhadap aktivitas trafik di

dalam sebuah jaringan komputer.

Kata Kunci : prediksi, anomali, K-Means.

1) Mahasiswa Fakultas Teknologi Informasi Jurusan Teknik Infotmatika, Universitas Kristen

Satya Wacana Salatiga 2) Staff Pengajar Fakultas Teknologi Informasi, Universitas Kristen Satya Wacana Salatiga

mailto:[email protected]

2

1. Pendahuluan

Perkembangan teknologi saat ini sangat berkembang pesat dan internet

adalah salah satu media informasi yang sangat dibutuhkan pada saat ini. Setiap

orang akan selalu membutuhkan dan menggunakan internet untuk melakukan

berbagai kepentingan dalam setiap aspek kehidupan, sehingga kian hari trafik

jaringan akan selalu meningkat. Intensitas trafik jaringan dapat berubah

meningkat lebih tinggi dari keadaan normal, biasanya terjadi karna adanya

anomali pada jaringan tersebut. Anomali didefinisikan sebagai aktivitas yang

tidak semestinya pada sebuah trafik jaringan, yang selanjutnya akan

membahayakan integritas sebuah jaringan.

Tujuan dari prediksi kemunculan anomali pada penelitian ini adalah

menemukan nilai anomali pada sebuah jaringan dari sejumlah nilai anomali yang

muncul sebelumnya. Salah satu algoritma clustering adalah K-means. Beberapa

penelitian sebelumya juga sudah menerapkan k-means sebagai algoritma untuk

menentukan sistem deteksi. Prinsip k-means adalah mengelompokkan data

berdasarkan similaritas data dengan data lainnya untuk membentuk sebuah

cluster.

Metode K-means adalah suatu metode penganalisaan data atau metode

data mining yang melakukan pengelompokan data dengan sistem partisi. Metode

K-Means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok,

dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama

lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada didalam

kelompok yang lain. Metode K-Means berusaha meminimalkan variasi antar data

yang ada didalam suatu cluster dan memaksimalkan variasi dengan data yang ada

di cluster lainnya.

K-Means digunakan dalam penelitian ini karena menghimpun sejumlah

data testing yang ada untuk kemudian dihasilkan data cluster dari setiap iterasi.

Dalam proses, pertama kita harus menentukan centroid dan jumlah cluster yang

akan digunakan untuk menentukan data. Untuk selanjutnya data cluster setiap

iterasi digunakan sebagai bantuan pada proses iterasi selanjutnya. Data cluster

setiap iterasi selanjutnya digunakan untuk menghitung prediksi kemunculan pada

sebuah trafik jaringan .

2. Tinjauan Pustaka

Pada penelitian yang berjudul “Implementasi Algoritma K-Means

Clustering Untuk Menentukan Strategi Marketing President University”, oleh

Johan Oscar Ong, hasil yang didapatkan berdasarkan hasil yang diperoleh, dapat

disimpulkan bahwa strategi promosi pertama yang dapat dilakukan pihak

marketing President University berdasarkan hasil clustering adalah melakukan

strategi promosi pada kota-kota di Indonesia berdasarkan jurusan yang paling

banyak diminati[1].

Pada penelitian selanjutnya yang berjudul “Penerapan K-Means Clustering

Pada Data Penerimaan Mahasiswa Baru (Studi Kasus : Universitas Potensi

Utama)” oleh Fina Nasari, hasil yang didapatkan adalah pengujian yang dilakukan

3

dalam penelitian ini, iterasi clustering data mahasiswa terjadi sebanyak 2 kali

iterasi. Berdasarkan dari hasil Cluster kesimpulan yang dapat diambil adalah

bahwa jika asal sekolah adalah SMA atau Sekolah Menengah Pertama maka rata-

rata jurusan yang diambil adalah Sistem Informasi dan jika asal Sekolahnya

adalah SMK rata-rata jurusan yang diambil adalah Teknik Informatika[2].

Pada penelitian selanjutnya yang berjudul “Penerapan Metode K-Means

Untuk Clustering Produk Online Shop Dalam Penentuan Stok Barang” oleh Elly

Muningsih, hasil yang diperoleh penelitian ini penentuan stok barang diharapkan

bisa memberikan kontribusi lebih baik lagi karena aplikasi yang dihasilkan bisa

menampilkan kategori produk dalam jangka waktu tertentu sesuai yang

diinginkan[3].

Pada penelitian selanjutnya yang berjudul “Penerapan Clustering

Bootstrap dengan Metode K-Means” oleh Hendro Prasetyo, diperoleh kesimpulan

secara umum performance metode K-Means dan metode K-Means yang

dibootstrap berdasarkan hasil tabulasi silang dengan pengelompokan status gizi

berdasarkan WHO 2005 menunjukkan sangat baik dalam mengukur ketepatan

klasifikasi status gizi balita[4].

Perbedaan dengan penelitian yang dilakukan oleh Muhammad Shiddiq Azis

adalah pada penelitian yang dilakukan Siti M. Shamsuddin data diambil dari data

mentah keseluruhan, sedangkan Pada penelitian ini, hanya terdiri dari satu kolom

variabel yaitu data anomali, untuk selanjutnya dijadikan data multivariate atau

banyak kolom, dianataranya 10 target (kolom) , 20 target (kolom) dan 50 target

(kolom) akan mampu memberikan hasil prediksi yang berbeda tetapi saling

mendekati.

Data mining disebut sebagai proses ektraksi pengetahuan dari data yang

besar. Sesuai fungsinya, data mining adalah proses pengambilan pengetahuan dari

volume data yang besar yang disimpan dalam basis data, data warehouse, atau

informasi yang disimpan dalam repository [3].

Pada dasarnya clustering merupakan suatu metode untuk mencari dan

mengelompokkan data yang memiliki kemiripan karakteriktik (similarity) antara

satu data dengan data yang lain. Clustering merupakan salah satu metode data

mining yang bersifat tanpa arahan (unsupervised), maksudnya metode ini

diterapkan tanpa adanya latihan (training) dan tanpa ada guru (teacher) serta tidak

memerlukan target output. Dalam data mining ada dua jenis metode clustering

yang digunakan dalam pengelompokan data, yaitu hierarchical clustering dan

non-hierarchical clustering [3].

K-means clustering merupakan salah satu metode data clustering non-

hirarki yang mengelompokan data dalam bentuk satu atau lebih cluster/kelompok.

Data-data yang memiliki karakteristik yang sama dikelompokan dalam satu

cluster/kelompok dan data yang memiliki karakteristik yang berbeda

dikelompokan dengan cluster/kelompok yang lain sehingga data yang berada

dalam satu cluster/kelompok memiliki tingkat variasi yang kecil [7].

Data mining untuk rekayasa perangkat lunak dapat dibagi menjadi analisis

statis dan analisis dinamis,perbedaan keduanya terletak pada kemampuan sistem

dalam mengumpulkan jejak sebelumnya setelah tahapan analisis [7]. Data mining

telah dikembangkan dalam domain ini dengan integrasi dan perluasan metode

4

yang dikembangkan dalam proses pembelajaran, pengenalan pola, dan statistik.

Sebagai contoh, statistik analisis dalam hal pengujian hipotesis dapat dilakukan

pada eksekusi program untuk mengetahui lokasi kesalahan pada program yang

berjalan [8].

3. Metode Penelitian

Pada bagian pertama akan menjelaskan tentang desain data mining atau

alur kerja dari proses kerja sistem deteksi. Berikut merupakan urutan data mining

dalam penelitian yang sedang diambil seperti yang digambarkan pada Gambar 1.

Gambar 1. Desain Data Mining

Tahap selanjutnya adalah teknik pengumpulan data. Teknik pengumpulan

data dilakukan dengan mempersiapkan data anomali. Data yang digunakan adalah

data dari trafik jaringan server internet Oktober 2015. Data yang telah

dikumpulkan dari administrasi web server, selanjutnya dilakukan rekap ke

microsoft excel sehingga diperoleh data yang valid. Data yang sudah direkap di

microsoft excel siap untuk diolah, diambil 100 data sample untuk penelitian ini.

Metode yang digunakan untuk mengolah data adalah K-Means. Cara kerja K-

means yaitu dengan diawali penentuan cluster awal sebelum proses iterasi.

Selanjutnya iterasi akan dilakukan beberapa kali hingga dihasilkan hasil iterasi

yang sama, dan dihasilkan cluster pada setiap prosesnya.

4. Analisa dan Pembahasan

Penelitian ini dilakukan dengan melakukan percobaan data set dengan

memasukkan angka cluster awal secara acak. Percobaan data set dilakukan

sebanyak 3 sample, yaitu 50 sample, 20 sample dan 10 sample. Berikut adalah

hasil uji coba dari anomali detection berdasarkan data set yang ada.

1. Himpunan Data

(Pemahaman dan

Pengolahan Data)

2. Metode Data Mining

(Pilih Metode

Sesuai Karakter Data)

3. Mencari hasil

prediksi

Mengambil sejumlah data

dari sebuah trafic jaringan

Gunakan metode prediksi yaitu K-

Means

-Menentukan cluster awal

-Melakukan iterasi ke-n untuk mencari

cluster baru ke n+1

-mengulang iterasi hingga ditemukan

hasil cluster yang sama

Dengan menambahkan

hasil cluster terakhir dan

membaginya dengan

jumlah record

5

Tabel 1. Masukkan Cluster Awal Secara Acak

Cluster 1 60

Cluster 2 40

Setelah memasukkan cluster awal, kemudian dilakukan pengujian dengan 3

data sample. Setelah itu dilakukan penghitungan dengan rumus yang digunakan

untuk mencari nilai iterasi dari 3 sample data set dalam percobaan penelitian ini.

Rumus pencarian nilai iterasi sebagai berikut ini.

- C1 = (x1-c1)2 + (y1-c1)

2

- C2 = (x1-c2)2 +(y1-c2)

2

Dimana :

C1 = Custer 1

C2 = Cluster 2

X1 = Nilai anomali 1

Y2 = Nilai anomali 2

Percobaan pertama yaitu melakukan pengolahan data set dengan 50 sample.

Diawali dengan pengembilan nilai anomali dari alamat web dengan cara seperti

berikut.

Tabel 2. Pengambilan Nilai nomali dari Alamat Web

Alamat Nilai

Anomali

Keterangan

1276759407.909 400 192.168.1.23 TCP_MISS/204 239 GET

http://cr-

tools.clients.google.com/service/check2?appid=%7B430FD4D0-B729-

4F61-AA34-

91526481799D%7D&appversion=1.2.183.29&applang=&machine=0&

version=1.2.183.29&osversion=5.1&servicepack=Service%20Pack%20

2 - DIRECT/72.14.203.100 -

400

Nilai

anomali

diambil dari

digit ke-19

sebanyak 4

digit, dengan

perintah

=mid(alamat,

19,4)

1276759430.906 632 192.168.1.23 TCP_MISS/200 276 GET

http://master1.teamviewer.com/din.aspx?s=00000000&id=776319488&

client=DynGate&rnd=107517240&p=10000001 -

DIRECT/87.230.73.23 application/octet-stream

632

1276759431.892 666 192.168.1.23 TCP_MISS/200 265 POST

http://master1.teamviewer.com/dout.aspx?s=14118049&p=10000001&

client=DynGate - DIRECT/87.230.73.23 application/octet-stream

666

1276759432.212 320 192.168.1.23 TCP_MISS/200 355 GET

http://master1.teamviewer.com/din.aspx?s=14118049&id=776319488&

client=DynGate&p=10000002 - DIRECT/87.230.73.23

application/octet-stream

320

1276759407.909 400 192.168.1.23 TCP_MISS/204 239 GET

http://cr-

tools.clients.google.com/service/check2?appid=%7B430FD4D0-B729-

4F61-AA34-

91526481799D%7D&appversion=1.2.183.29&applang=&machine=0&

version=1.2.183.29&osversion=5.1&servicepack=Service%20Pack%20

2 - DIRECT/72.14.203.100 -

400

6

Setelah pengambilan nilai anomali dari alamat web, selanjutnya dimasukan

ke dalam tabel excel untuk dilakukan perhitungan yang kemudian dikonversikan

dalam bentuk grafik seperti Gambar 2.

Gambar 2. Melakukan Iterasi Dengan Memakai Cluster Pada Point 1

Setelah melakukan penghitungan dari 50 data sample set dengan

memasukkan nilai cluster awal, maka didapatkan hasil iterasi seperti Tabel 3.

Tabel 3 Cluster Kedua dari Iterasi-1

x1 y1

c1 148 3030

c2 11085 3874

Setelah mendapatkan hasil penghitungan iterasi, maka didapat hasil iterasi

yang baru. Kemudian dilakukan perhitungan kembali dengan 50 data sample yang

sama dengan iterasi yang baru dengan menggunakan rumus

Gambar 3. Melakukan Iterasi Dengan Memakai Cluster Kedua

Gambar 3 merupakan tampilan penghitungan dari 50 data sample set yang

sama dengan memasukkan nilai iterasi kedua, maka didapatkan hasil iterasi

seperti Tabel 4.

7

Tabel 4. Cluster Kedua dari Iterasi-2

x1 y1

c1 0 0

c2 11233 6904

Setelah mendapatkan hasil penghitungan iterasi kedua, maka di dapat hasil

iterasi yang baru. Kemudian dilakukan perhitungan kembali dengan 50 data

sample yang sama dengan iterasi yang baru dengan menggunakan rumus

pencarian iterasi.

Gambar 4. Melakukan iterasi dengan memakai cluster ketiga


sama dengan memasukkan nilai cluster ketiga, maka didapatkan hasil iterasi

seperti Tabel 5.

Tabel 5. Cluster kedua dari iterasi-3

x1 y1

c1 0 0

c2 11233 6904

Dari iterasi 1 sampai dengan 3 diperoleh cluster seperti Gambar 5.

8

Gambar 5 Grafik Perbandingan 50 Sample

Gambar 5 menampilkan grafik perbandingan hasil akhir dari ketiga iterasi

dengan 50 data sample. Karena pada iterasi ke-2 dan ke-3 bernilai tetap maka

proses berhenti .Besarnya anomali yang dihasilkan :

=(c1(x1)+c2(x1)+c1(y1)+c2(y1)) / (∑x1+∑y1) =(0+11233+0+6904)/(50+50)

=181,37

Hasil dari nilai total x1 dan y1 dari 50 data adalah = 181,37. Maka

persentase prediksi kemunculan anomali adalah (181,37 / 181,37) x 100

dihasilkan nilai 100%.

Selanjutnya melakukan pengujian kedua dengan 20 sample data set. Nilai

anomali diambil dari alamat web yang kemudian di masukan kedalam tabel excel

untuk dilakukan perhitungan yang kemudian dikonversikan dalam bentuk grafik

seperti Gambar 6.

Gambar 6 Melakukan Iterasi Dengan Memakai Cluster Pada Point 1

9

Gambar 6 merupakan tampilan penghitungan dari 20 data sample set dengan



x1 y1

c1 0 0

c2 3856 99

Setelah mendapatkan hasil penghitungan iterasi, maka di dapat hasil iterasi


sama dengan iterasi yang baru dengan menggunakan rumus pencarian iterasi.

Gambar 7 Melakukan Iterasi Dengan Memakai Cluster Kedua



seperti Tabel 7.


x1 y1

c1 0 0

c2 3856 99

Dari iterasi 1 sampai dengan 2 diperoleh cluster seperti Gambar 8.

10

Gambar 8 Grafik Perbandingan Iterasi 20 Sample

Gambar 8 menampilkan tentang grafik perbandingan hasil akhir dari iterasi

pertama dan kedua. Karena pada iterasi ke-1dan ke-2 bernilai tetap maka proses

berhenti. Besarnya anomali yang dihasilkan :

=(c1(x1)+c2(x1)+c1(y1)+c2(y1)) / (∑x1+∑y1) =(0+3856+0+99) / (20 +20)

=98.87

Hasil dari nilai total x1 dan y1 dari 50 data adalah = 181,37. Berarti

persentase prediksi kemunculan anomali adalah (98,87 / 181,37) x 100 dihasilkan

nilai 54.51%.

Terakhir adalah melakukan pengujian ketiga dengan 10 sample data set.

Nilai anomali diambil dari alamat web yang kemudian di masukan kedalam tabel

excel untuk dilakukan perhitungan yang kemudian dikonversikan dalam bentuk

grafik seperti Gambar 9.

Gambar 9 Melakukan Iterasi Dengan Memakai Cluster Pada Point 1

Gambar 9 merupakan tampilan penghitungan dari 10 data sample set dengan


11


x1 y1

c1 0 0

c2 3787 59

Setelah mendapatkan hasil penghitungan iterasi, maka di dapat hasil iterasi


sama dengan iterasi yang baru dengan menggunakan rumus pencarian iterasi.

Gambar 10 Melakukan Iterasi Dengan Memakai Cluster Kedua



seperti Tabel 9.


x1 y1

c1 0 0

c2 3787 59

Dari iterasi 1 sampai dengan 2 diperoleh cluster seperti gambar berikut:

12

Gambar 11 Perbandingan Iterasi 20 Sample

Gambar 11 merupakan tampilan grafik hasil akhir dari iterasi pertama dan

kedua. Karena pada iterasi pertama dan kedua bernilai tetap maka proses berhenti.

Besarnya anomali yang dihasilkan :

=(c1(x1)+c2(x1)+c1(y1)+c2(y1)) / (∑x1+∑y1) =(0+3287+0+59) / (10+10)

=167.3

Hasil dari nilai total x1 dan y1 dari 50 data adalah = 181,37 Berarti

persentase prediksi kemunculan anomali adalah (167,3 / 181,37) x 100 dihasilkan

nilai 92%.

Pada akhir pengujian perlu dilakukan perbandingan untuk mengetahui

perbandingan prediksi kemunculan anomali yang dihasilkan setelah melakukan

beberapa percobaan, yang hasilnya dapat dilihat pada Tabel 10.

Tabel 10. Hasil perbandingan 3 Sample Percobaan

Jumlah

Sample C1(x1) C2(x1) C1(x2)

C2(x2)

Hasil

Anomali

Prediksi

Kemunculan

50 0 3787 0 59 181,37 100%

20 0 3856 0 99 98,87 54.51%

10 0 3787 0 59 167,3 92%

Digambarkan dengan grafik sebagai berikut :

13

Gambar 12 Grafik perbandingan antara 50 sample, 20 sample dan 10 sample

Gambar 12 menampilkan grafik hasil perbandingan 3 sample percobaan

yang telah dilakukan, yakni 50 sample data set, 20 sample data set dan 10 sample

data set.

5. Kesimpulan

Berdasarkan penelitian yang telah dilakukan, simpulan yang dapat diambil

adalah bahwa iterasi dari metode K-Means akan berulang terus dan berhenti

hingga ditemukan hasil cluster yang sama. Dari percobaan tiga sample yaitu 50

sample, 20 sample dan 10 sample. Jadi dapat ditarik kesimpulan bahwa pada

percobaan diatas dihasilkan tingkat prediksi kemunculan anomali terbesar berada

pada 50 sample yaitu 100% dengan angka 181,37. Jadi semakin besar sample

yang digunakan untuk percobaan, maka tingkat prediksi anomali yang dihasilkan

semakin besar. Dari prediksi anomali pada data trafik jaringan menggunakan

metode k-means akan dapat memudahkan dalam melakukan prediksi anomali

dalam jaringan atau anomali lainnya dalam studi kasus yang berbeda.

DAFTAR PUSTAKA

[1] Ong, Johan Oscar. 2013. Implementasi Algoritma K-Means Clustering

Untuk Menentukan Strategi Marketing President University. Cikarang:

President University.

[2] Nasari,Fina. 2015.Penerapan K-Means Clustering Pada Data Penerimaan

Mahasiswa Baru (Studi Kasus : Universitas Potensi Utama). Medan:

UniversitasPotensiUtama.

[3] Muningsih, Elly. 2015.Penerapan Metode K-Means Untuk Clustering

Produk Online Shop Dalam Penentuan Stok Barang. Yogyakarta: AMIK

BSI.

14

[4] Rivani,Edmira. 2015.Aplikasi K-Means Cluster Untuk Pengelompokkan

Provinsi Berdasarkan Produksi Padi, Jagung, Kedelai, Dan Kacang Hijau

Tahun 2009.Bandung: UniversitasPadjajaran.

[5] Prasetyo, Hendro. 2015.Penerapan Clustering Bootstrap dengan Metode

K-Means.Surabaya: ITS Surabaya.

[6] Ramesh Singh Yadava. 2012. Performance Analysis of High Performance

k-Mean Data Mining Algorithm for Multicore Heterogeneous Compute

Cluster

[7] Verma SV.2013. Perceptible Study of Some K-Means Clustering

Algorithm Used for Image and Data Analysis

[8] Mamta Mittal. 2014. Validation of K-means and Threshold Based

Clustering Method Robust Seed Selection Algorithm for K-means Type

[9] K. Karteeka Pavan. 2011, Algorithms Robust Seed Selection Algorithm

for K-means Typealgorithm

[10] Shraddha Shukla and Naganna S. 2014. A Review ON K-means DATA

Clustering APPROACH

[11] S.Hari Ganesh and C.Chandrasekar. 2011. A Parallel Computing Data

Mining and Enhanced K-means Algorithm for Detecting Protein Sequence

[12] David Pettinger and Giuseppe Di Fatta. 2010. Space Partitioning for

Scalable K-Means

[13] Kittisak Kerdprasop and Nittaya Kerdprasop. 2010. A lightweight Method

to Parallel K-Means Clustering

[14] E. A. Khadem, E. F. Nezhad, M. Sharifi. 2013. Data Mining: Methods &

Utilities

[15] H.T Dashti, T Simas, R.A Ribeiro, A Assadi, A Moitinho. 2010. MK-

means Modified K-means Clustering Algorithm

prediksi anomali pada trafik jaringan menggunakan metode k...

Documents