anomaly detection pada intrusion detection system … · anomaly detection pada intrusion ......

Anomaly Detection pada Intrusion Detection System (IDS) Menggunakan Metode Bayesian

Network

Oktavia Ari Marlita

1, Adiwijaya

2, Angelina Prima Kurniati

1

1Fakultas Informatika dan

2Fakultas sains

Institut Teknologi Telkom, Bandung 40257

[email protected], [email protected], [email protected]

Abstrak

Intrusion Detection System (IDS) merupakan sistem yang dapat mendeteksi adanya intrusi atau gangguan

pada suatu jaringan atau sistem informasi. Salah satu jenis IDS adalah anomaly detection dimana suatu data trafik

jaringan akan dikatakan intrusi apabila mempunyai karakteristik yang berbeda dari kebanyakan data lainnya.

Anomaly detection dapat mendeteksi serangan dalam host atau network yang menyimpang dari aktivitas normal

berdasarkan probabilitas statistika. Statistical anomaly detection tidak memiliki model intelligent learning yang

mungkin menyebabkan false alarm memiliki tingkat deteksi tinggi.Metode yang digunakan sistem adalah Bayesian

Network TAN Classifier.CI Test merupakan salah satu algoritma yang handal untuk membangun Model TAN

Classifier untuk klasifikasi. Dengan representasi grafis gabungan dari probabilitas fungsi distribusi lebih dari satu

set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic Graph (DAG) di mana setiap node

berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantungan antar variabel-

variabel yang terhubung. Data trafik jaringan melalui proses training untuk membentuk model TAN Classifier,

kemudian dilakukan proses testing. Pengujian dilakukan dengan beberapa skenario untuk mengetahui akurasi sistem

dilihat dari nilai detection rate (DR) dan false positive rate (FPR), pengaruh proporsi data training dan data testing,

serta pengaruh proporsi data normal dan data intrusi pada masing-masing dataset. Bayesian Network dapat

mendeteksi intrusi, dengan DR sebesar 100% dan FPR 0%.

Kata kunci: intrusi, Intrusion Detection System,anomaly detection, Bayesian Network, TAN Classifier

1. Abstract

Intrusion Detection System (IDS) is a system that can detect any intrusion or interference on a network or

information systems. One type of IDS is anomaly detection in which a data network traffic if the intrusion would be

said to have characteristics different from most other data. Anomaly detection can detect the attack on host or

network who deviate from normal activities based on statistical probability. Statistical anomaly detection does not

have a model of intelligent learning that may lead to false alarms have a high detection rate. The method used is a

system of TAN Bayesian Network Classifier. CI Test is one of a reliable algorithm to build classification models for

the TAN Classifier. With a graphical representation of the joint probability distribution function over a set of

variables. The network structure is represented as a Directed acyclic Graph (DAG) where each node corresponds to

a random variable and each edge shows the dependency relationships among the variables are connected. Data

network traffic through the training process to form a model of TAN Classifier, then do the testing. Tests carried out

with several scenarios to determine the accuracy of the detection system is seen rate (DR) and false positive rate

(FPR), the influence of the proportion of training data and testing the data, as well as the influence of the

proportion of normal data and data intrusion on each dataset. Bayesian Network can detect the intrusion, the DR of

100% and 0% FPR.

Kata kunci: intrusi, Intrusion Detection System, anomaly detection, Bayesian Network, TAN Classifier

1. Pendahuluan

Data dan informasi sensitif dalam skala

besar diproses dalam jaringan komputer. Sehingga

diperlukan suatu sistem keamanan dalam jaringan

komputer yang tahan dan toleran terhadap intrusi

jaringan. Intrusi jaringan merupakan upaya untuk

mendapatkan akses ilegal keresource jaringan atau

mem-by-pass sistem keamanan yang ada.

Upaya itu dapat dilakukan dengan mengakses sistem

melalui Internet, maupun melalui celah keamanan

jaringan lainnya. Oleh karena itu, Intrusion Detection

System (IDS) diperlukan untuk mengatasi

permasalahan tersebut. Intrusion detection adalah

suatu proses monitoring kejadian yang terjadi pada

sistem komputer atau jaringan serta menganalisisnya

mailto:[email protected]



untuk mengetahui aktivitas tersebut termasuk normal

atau intrusi.

Anomaly detection dapat mendeteksi

serangan dalam host atau network yang menyimpang

dari aktivitas normal berdasarkan probabilitas

statistika. Statistical anomaly detection tidak

memiliki model intelligent learning yang mungkin

menyebabkan false alarm memiliki tingkat deteksi

tinggi. Anomaly detection menggunakan pendekatan

unsupervised learning (tidak ada intelligent

learning), yang mampu mendeteksi intrusi tanpa

harus mempelajari data sebelumnya[9]. Misuse

detection/signature analysis membutuhkan akses ke

database besar dari signatureintrusion yang

diketahui. Detektor melakukan analisis terhadap

aktivitas sistem, mencari event atau set event yang

cocok dengan pola perilaku yang dikenali sebagai

serangan.

Bayesian Network (BN) adalah representasi

grafis dari gabungan dari probabilitas fungsi

distribusi lebih dari satu set variabel. Struktur

jaringan direpresentasikan sebagai Directed Acyclic

Graph (DAG) di mana setiap node berkorespondensi

dengan variabel acak dan setiap edge menunjukkan

hubungan ketergantunga antar variabel-variabel yang

terhubung [5]. Setiap variabel memiliki satu finite set

mutually exclusive states.

Dalam jurnal ini metode Bayesian Network

yang digunakan yaitu Tree Augmented Naive Bayes

(TAN)classifier. Adaptive network IDS dengan

medote BN mengambil data offline dari dataset KDD

Cup tahun 1999 untuk mengukur kelayakan dan

efektivitas sistem. Tipe datanya ada kontinu dan

nominal dengan mengambil 9 dari 41 features

termasuk unbalanced data[12]. Karena setiap

variabel (node) dalam BN dikaitkan dengan

Conditional Probability Tabel (CPT), yang

menyebutkan probabilitas bersyarat untuk variabel

yang memberikan semua kombinasi induknya.

Akurasideteksi intrusi dapat dilihat dari seberapa

dekat kah data klasifikasi dengan data asli. Dengan

BN sebagai model yang ideal untuk menggabungkan

priorknowledge sebelumnya dengan data baru dan

menyimpulkan menjadi posterior knowledge. Oleh

karena itu, Bayesian Network dengan TAN classifier

diharapkan dapat meningkatkan tingkat akurasi IDS.

2. Landasan Teori

2.1 Intrusion Detection System (IDS)

Intrusion detection adalah suatu proses

monitoring kejadian yang terjadi pada sistem

komputer atau jaringan serta menganalisisnya untuk

mengetahui aktivitas tersebut termasuk normal atau

intrusi.Model proses dari IDS ada 3 fungsi dasar,

yaitu: pertama, pengambilan data dari berbagai level

dari sistem seperti network, host,dan application.

Kedua, analisis data yang diperoleh untuk mengenali

intrusi. Terakhir, respon terhadap serangan.Secara

umum prinsip proses kerja dari sistem deteksi intrusi

dapat digambarkan sebagai berikut[2]:

Gambar 2-1 : Proses kerja sistem deteksi intrusi

Keterangan:

1. Input (Even Information)

Sumber data yang akan digunakan untuk mendeteksi

intrusi didapat dari bermacam-macam sumber, antara

lain: host, network maupun application.

2. Activity (Analysis)

Untuk melakukan analisis mendeteksi intrusi,

pendekatan yangsecara umum dilakukan adalah

dengan pendekatan misuse dan anomalydetection.

Misuse detection adalah pendekatan untuk mengenali

intrusiberdasarkan pengetahuan atau data mengenai

ciri-ciri intrusi yang telahdidefinisikan sebelumnya

[2]. Sedangkan anomaly detection mendeteksiintrusi

dari deviasi kelakuan umum data normal lainnya.

3. Output (Response)

Output (response) adalah mengklasifikasikan apakah

sebuah data tersebut normal atau termasuk intrusi.

Respon intrusi dapat berupa respon aktif yaitu

mengeluarkan alarm dan mengamankan sistem

ataupun respon pasif berupa laporan ditemukan

adanya intrusi.

2.2 Bayesian Network

Bayesian Network (BN) adalah representasi grafis

dari gabungan dari probabilitas fungsi distribusi lebih

dari satu set variabel. Struktur jaringan

direpresentasikan sebagai Directed Acyclic Graph

(DAG) di mana setiap node berkorespondensi dengan

variabel acak dan setiap edge menunjukkan

hubungan ketergantunga antar variabel-variabel yang

terhubung [6]. Setiap variabel memiliki satu finite set

mutually exclusive states.Algoritma yang digunakan

untuk membangun model Bayesian Network yaitu

Conditional independence (CI) Test. Beberapa

karakteristik umum metoda BN sebagai berikut :

a. BN menyediakan pendekatan untuk menangkap

pengetahuan sebelumnya (prior knowledge) dari

domain tertentu menggunakan pemodelan grafis.

Network juga dapat digunakan untuk

mengenkode dependensi kausal antar variabel.

b. Membangun network dapat menghabiskan waktu

dan memerlukan usaha yang banyak.

Bagaimanapun, ketika struktur network telah

Input Activity Output

Event

information

from source

(host, network,

application)

Response

(action

taken or

detection)

Analysis

(misuse or

anomaly

detection)

ditentukan, menambahkan variabel baru dapat

dilakukan secara langsung.

c. BN sesuai untuk menangani data yang tidak

lengkap. Instansiasi dengan atribut yang hilang

dapat ditangani dengan menjumlahkan atau

mengintegrasikan seluruh nilai atribut yang

mungkin.

2.3 Struktur Bayesian Network

Pada umumnya struktur Bayesian Network

terdiri dari 2 bagian, yaitu[3]:

a. DAG (Directed Acyclic Graph)

DAG ini terdiri dari nodes dan busur-busur (arcs)

yang menghubungkan antara node yang satu dengan

node yang lainnya. Node pada Bayesian Network

merepresentasikan variabel atau atribut.Sedangkan

busur merepresentasikan relasi ketergantungan atau

hubungan kausal antara dua node.

Gambar 2-3: Hubungan kausal antara dua buah

node

Pada BN, node terdiri dari dua jenis, yaitu nodeclass

dan node atribut. Nodeclass mewakili variabel class

yang merupakan target klasifikasi pada dataset,

sedangkan node atribut mewakili variabel-variabel

selain variabel class. Apabila dua buah node

dihubungkan oleh sebuah busur, maka kausal node

akan menjadi parent node dari node yang lain.

b. CPT (Conditional Probability Table)

CPT merepresentasikan probabilitas berdasarkan

informasi prior. Secara matematis, sebuah

conditional probability dapat ditulis dengan

P(X=x|P1=p1, P2=p2, …, Pn=pn) misalnya probabilitas

simpul X pada status x berdasarkan simpul orang tua

P1 pada status p1, simpul orang tua P2 pada status p2,

…, dan simpul orang tua Pn pada status pn.Pada CPT

terdapat status dari tiap variabel yang merupakan

suatu nilai yang bisa diambil oleh node.

Gambar 2-4: Status pada parent node dan child

node.

Pada gambar 2-5 merupakan contoh penerapan dari

CPT. Misalkan nilai P(Road

Conditions=Impassable|Precipitation=Heavy). Sel

conditional probabilities tersebut memiliki makna:

“Jika Precipitation berada pada status Heavy, maka

probabilitas Road Conditions berada pada status

Impassable yaitu 0.700.”

status simpul orang tua

status simpul anak

Child Parent

Precipitation

LightRoad Conditions

None

Passable

Impassable

0.900

0.100 0.700

Heavy0.050

0.950 0.300conditional probabilities

Gambar 2-5: CPT antara node Precipitation dan

node Road Condition

2.3.1 Bayesian Network Tree Augmented

Naïve Bayes Classifier (TAN)

TAN classifier merupakan pengembangan dari Naïve

Bayes classifier dimana antar node atribut dapat

saling memiliki ketergantungan. Sama seperti pada

NB, setiap variabel merupakan directly dependent

pada variabel class tetapi diantara variabel tersebut

juga bisa dimungkinkan ber- conditionaldependent

satu sama lain [3].

Gambar 2-6: TAN Classifier

Misalkan E= (a1, a2, ..., an) merupakan record data

yang akan diklasifikasi, di mana ai adalah status

simpul atribut Ai. Pada pengklasifikasian data, TAN

classifier akan memilih status simpul class yang

memiliki probabilitas paling besar berdasarkan E

[13]:

(2.1)

di mana aiadalah status simpul atribut Ai, aipadalah

status simpulatribut Aip dan cjadalahstatussimpul

classC. Aip dan C merupakan orang tua simpul atribut

Ai, dan

(2.2)

Precipitation

Road

Conditions

simpul orang tua

simpul anak

Precipitation

Road

Conditions

status simpul orang tua

status simpul anak

Status

None

Light

Heavy

Status

Impassable

Passable

c

a3

a1

a4

a2

n

i

jipijcc caaPcPECj

1

tan ),|()(maxarg)(

}{),|(

}{),,|()),|(

ipji

pijpi

jpiiAcaP

AcaiaPcaaP

Nilai P(cj), P(ai|cj) diestimasi menggunakan Laplace

estimation

(2.3)

(2.4)

Keterangan:

t = jumlah instan pada data training

k = jumlah status pada simpul class

vi= jumlah status pada simpul atribut Ai

nj = jumlah data training dengan C = cj

nij = jumlah data training dengan C = cj dan Ai = ai

Nilai P(cj), P(ai|cj), dan P(ai|aip,cj) diestimasi

menggunakan Laplace estimation.

(2.5)

Keterangan:

vi = jumlah status pada simpul atribut Ai

nipj = jumlah record pada data training dengan

Aip=aipdan C=cj

niipj = jumlah record pada datatraining dengan Ai=ai,

Aip=aip, dan C=cj

TAN classifier membangun model klasifikasi BN

berdasarkan pada dataset. Berbeda dengan Naive

Bayes pada TAN bisa terjadi hubungan conditional

diantara atribut. Algoritma yang digunakan untuk

membangun model yaitu algoritma conditional

independence test based. Pembangunan yang

dilakukan didasarkan pada perhitungan mutual

information dan conditional mutual information,

yaitu seperti langkah di bawah ini [9]:

1. Hitung conditional mutual information

I(Ai,Aj|C),i j, di antara masing-masing

pasangan variabel atribut, kemudian hitung

thresholdConditional mutual information

dihitung dengan persamaan (2.5), sedangkan

thresholddihitung dengan persamaan (2.6).

2. Bangun graf lengkap tak berarah di mana

simpul-simpulnya merupakan variabel atribut Ai,

i=1,2,...,n. Sisi penghubung Ai ke Aj diberi bobot

dengan I(Ai,Aj|C).

3. Cari pohon merentang dengan bobot maksimum

dengan algoritma Kruskal. Yaitu dengan

memotong busur yang mempunyai nilai IC

minimum, dengan jumlah yang dipotong tidak

melebihi sisa busur yang tersedia.

4. Hitung mutual information I(Ai,C), i=1,2,…,n

antara masing-masing variabel atribut dengan

variabel class, kemudian pilih variabel atribut

yang mempunyai nilai mutual information

tertinggi untuk menjadi simpul Aroot. Mutual

information dihitung dengan persamaan (2.4).

5. Ubah pohon tak berarah menjadi pohon berarah

dengan membuat simpul Aroot sebagai orang tua

dan membuat arah panah dari semua busur

keluar dari simpul Aroot.

6. Hapus busur berarah yang memiliki bobot

conditional mutual information di bawah nilai

threshold .

7. Bangun model TAN dengan menambahkan

variabel class sebagai simpul class dan

tambahkan busur berarah dari simpul class ke

masing-masing simpul atribut Ai, i=1,2,…,n.

2.3.2 Algoritma Kruskal

Algoritma Kruskal merupakan salah satu metode

untuk mencari minimum spanning tree. Konsep dasar

yang digunakan adalah pada setiap langkah, memilih

sisi dari graf G yang berbobot minimum, tetapi sisi

tersebut tidak membentuk sirkuit T. Langkah-langkah

algoritma Kruskal adalah sebagai berikut [18]:

1. Lakukan pengurutan terhadap setiap sisi di graf

G mulai dari sisi dengan bobot terkecil.

2. Pilih sisi(u,v) yang mempunyai bobot minimum

yang tidak membentuk sirkuit di T. tambahkan

(u,v) ke dalam T.

3. Ulangi langkah 2 sampai pohon merentang

minimum terbentuk, yaitu ketika di dalam pohon

merentang T berjumlah n-1 (n adalah jumlah

simpul graf G)

2.4 CI Test

CI Test merupakan sebuah algoritma yang digunakan

dalam pembangunan model Bayesian Network pada

saat dilakukan proses learning. Pembangunan yang

dilakukan didasarkan pada perhitungan mutual

information dan conditional mutual information [7].

2.4.1 Mutual information

Mutual information merupakan fungsi untuk

mengukur berapa banyak informasi untuk suatu

variabel yang disediakan oleh suatu variabel yang

lain. Mutual information antara variabel A dan C

diformulasikan sebagai berikut [7][8][16]:

(2.6)

Fungsi tersebut untuk mengukur berapa banyak

informasi untuk A yang disediakan oleh C.

2.4.2 Conditional mutual information

Conditional mutual information merupakan fungsi

untuk mengukur berapa banyak informasi untuk

suatu variabel yang disediakan oleh suatu variabel

yang lain jika nilai suatu variabel yang lain

diketahui.Conditional mutual information antara

kt

ncP

j

j

1)(

ij

ij

jivn

ncaP

1)|(

ipji

iipj

jpiivn

ncaaP

1),|(

ca cPaP

caPcaPCAI

, )()(

),(log),();(

variabel Aidan Aj berdasarkan C diformulasikan

sebagai berikut[7][8][16]:

cajai ji

ji

jijicaPcaP

cPcaaPcaaPCAAI

,, ),(),(

)(),,(log),,()|;(

(2.7)

Fungsi tersebut untuk mengukur berapa banyak

informasi untuk Ai yang disediakan oleh Aj jika nilai

C diketahui.

Ketika I(Ai;Aj|C) lebih kecil daripada nilai

threshold, Ai dan Aj disebut conditional

independentoleh C.

Nilai thresholddiformulasikan sebagai berikut [9]:

(2.8)

Keterangan :

C : variabel class, Ai, Aj : variabel atribut

n : jumlah pasangan atribut

2.5 Evaluasi Sistem

Untuk mengetahui kinerja prediksi yang baik, sebuah

IDS harus dapat dengan benar membedakan antara

intrusi dan normal dalam lingkungan sistem

[Network Intrusion Detection based on Bayesian

Network]. Berikut merupakan Tabel standar matrik

evaluasi untuk hasil deteksi sistem[4]:

Tabel 2-1: Tabel Standar Matrik Evaluasi Hasil

Deteksi Sistem Hasil Deteksi

Intrusi Normal

Label

Asli

Intrusi

True

Positive

(TP)

False

Negative

(FN)

Normal

False

Positive

(FP)

True

Negative

(TN)

Evaluasi kinerja deteksi intrusi menggunakan

parameter utama, yaitu:

Detection Rate (DR)

Merupakan jumlah intrusi yang berhasil

dideteksi oleh sistem dibagi dengan total

jumlah intrusi yang ada pada dataset.

𝐷𝑅 =𝑇𝑃

𝑇𝑃 + 𝐹𝑁 (2.9)

False Positive Rate (FPR)

Merupakan jumlah data normal yang dianggap

sebagai intrusi oleh sistem dibagi dengan

jumlah data normal pada dataset.

𝐹𝑃𝑅 =𝐹𝑃

𝐹𝑃 + 𝑇𝑁 (2.10)

3. Perancangan Sistem

Pada bagian ini akan dijelaskan gambaran tahapan

proses dalam sistem deteksi anomali untuk mengenali

intrusi. Berikut ini diagram yang menggambarkan

sistem deteksi intrusi:

Gambar 3-1 : Alur algoritma TAN classifier dalam

sistem deteksi anomali

3.1 Dataset

Data yang digunakan sebagai masukan dalam

sistem ini adalah sampling dari data KDD Cup 99

sebanyak 10% yang merupakan subset dari DARPA

Intrusion Detection Evaluation Data Set yang dirilis

pada tahun 1998 oleh MIT Lincoln Library. Data

terdiri dari data normal dan data intrusi. Format

ekstensi data adalah .xls dengan jumlah atribut

sebanyak 41 atribut. Kemudian dilakukan proses

pemilihan atribut-atribut yang paling berpengaruh

sesuai dengan paper ada 9 atribut yaitu

protocol_type, service, num_of_wrong_fragments,

num_of_failed_logins, land ,login_success,

is_guess_login, root_shell_obtained, and type

(intrusion atau normal connection) [14]. Jumlah

record data input adalah 1000 record, namun

komposisi data baik intrusi maupun normal berbeda-

beda.

Tabel 3-1 Tabel dataset pengujian untuk skenario A

ijnn

CAAI

Ii j

ji

avg

,

)1(

)|;(

* Preprocessing data dilakukan diluar sistem dengan

bantuan Ms. excel

Data Trafik

Jaringan

(10% KDD

Cup 99)

Feature

selection by

information gain

Pemodelan TAN

Classifier dengan

CI Test

Data Hasil

Preprocessi

ng

Pengisian CPT

dengan Laplace

Estimation

Struktur

TAN

Classifier

Penghitungan

false alarm rate

& detection rate

Nilai false

alarm rate

&

detection

rate

Discretization

Hasil

klasifikasi

Model

TAN

Data

Training

Data

Testing

Pengujian

(klasifikasi)

Nama Dataset

Data Training

Jml Dataset

% train

training

Normal

Intrusi Keterangan

Dataset_A1 TRAIN_A900 1000 0.9 900 540 360 Proporsi data normal dan data intrusi untuk semua dataset adalah 6:4 sesuai komposisi asli data KDD 10% setelah preprocessing

Dataset_A2 TRAIN_A800 1000 0.8 800 480 320

Dataset_A3 TRAIN_A700 1000 0.7 700 420 280

Dataset_A4 TRAIN_A600 1000 0.6 600 360 240

Dataset_A5 TRAIN_A500 1000 0.5 500 300 200

Data testing Jml Dataset

% test

testing

Normal

Intrusi

Dataset_A1 TEST100 1000 0.1 100 60 40

Dataset_A2 TEST200 1000 0.2 200 120 80

Dataset_A3 TEST300 1000 0.3 300 180 120

Dataset_A4 TEST400 1000 0.4 400 240 160

Dataset_A5 TEST500 1000 0.5 500 300 200

Pada Tabel 3.1 dataset untuk skenario A, jumlah

data untuk tiap dataset yaitu 1000. Proporsi data

normal dan data intrusi untuk training dan testing

tetap yaitu 6:4 (sesuai komposisi sesuai komposisi

asli data KDD 10% setelah preprocessing). Namun

proporsi data training dan data testing yang diubah-

ubah.

Tabel 3-2 Tabel dataset pengujian untuk skenario B

Pada Tabel 3.2 dataset untuk skenario B, jumlah

data untuk tiap dataset yaitu 1000. Proporsi data

training dan data testing tetap yaitu 90% dan

10%.Namun proporsi data normal dan data intrusi

untuk training dan testing yang diubah-ubah.

4. Hasil Pengujian

4.1 Pengujian terhadap karakteristik data

training terhadap model TAN BN dan

performansi sistem.

Berdasarkan keseluruhan pengujian yang

dilakukan terhadap dataset pada Tabel 3.1, terlihat

bahwa model TAN Classifier Bayesian Network

yang terbentuk ada 9 node (termasuk kelas). Setiap

node memiliki nilai mutual information dari feature

yang berbeda-beda. Namun karena proporsi data

normal dan data intrusi yang tetap atau sama yaitu

60% dan 40% (sesuai dengan proporsi 10% dataset

asli KDD Cup 99) pada setiap dataset akan

menghasilkan probabilitas kelas yang sama.

Tabel 4-1 Hasil performansi sistem dari tiap

dataset Skenario B

Nama dataset

Data training

Data training

DR (%) FPR (%)

DATA_A1 TEST100 TRAIN_A900 A900

100.00 100.00

1.67 5.00


98.75 100.00

10.83 9.17


99.17 100.00

5.00 6.11


100.00 98.75

6.67 7.50


100.00 99.00

4.00 3.33

Berdasarkan Tabel 4.1, setiap dataset yang terdiri

dari 2 data training diujikan dengan data testing yang

sama menghasilkan performansi yang berbeda. Hal

ini menunjukan bahwa pada TAN classifier

memungkinkan terjadinya ketergantungan diantara

atribut yang dibangun menggunakan Algoritma CI

Test dapat menaikkan nilai performansi sistem.

Grafik 4-1 Hasil performansi sistem dari tiap

dataset Skenario B

Karena statistical based jumlah instance dari

feature akan mempengaruhi nilai threshold. Karena

perhitungannya melibatkan conditional mutual

information tiap pasangan atribut. Jadi semakin

banyak data training tentu saja jumlah instance dari

feature juga semakin banyak, akibatnya variable-

variabel penentu model TAN classifier semakin

bervariasi. Model tersebut nantinya untuk dasar

pengisian CPT dan sangat berpengaruh untuk

klasifikasi data testing serta perhitungan performansi

sistem. Berikut salah satu hasil jaringan Bayesian

Network.

Gambar 4.1: Model TAN BN Data TRAIN_A500

Class

Service0.240679

Protocol_type

0.045487

Is_guess_login

0.012231

Logged_In

0.026253

Wrong_fragment

0.061332

Land0.000000

Root_shell0.000797

Num_failed_logins0.003205

Berdasarkan Tabel 4.1, terlihat hasil

performansi dari dataset DATA_A1 yang terdiri dari

90% data training dan 10% data testing memiliki

nilai DR 100% dan FPR 1,67%. Detection rate 100%

artinya sistem mampu mendeteksi seluruh intrusi

pada data testing sebanyak 0 data dengan benar. Dan

False Positive Rate 1,67% yang artinya ada 9 data

yang salah terdeteksi dari seluruh data normal yang

berjumlah 540 data. Semakin besar nilai DR berarti

020406080

100120

A1-

a

A1-

b

A2-

a

A2-

b

A3-

a

A3-

b

A4-

a

A4-

b

A5-

a

A5-

b

DR

FPR

Nama

dataset B1 B2 B3 B4 B5 B6

Keterangan

Data Training

% normal 0.95 0.9 0.8 0.7 0.6 0.5 Proporsi data train dan data test untuk semua data set adalah 75% data train dan 25% data test

900

Jml normal 855 810 720 630 540 450

% intrusi 0.05 0.1 0.2 0.3 0.4 0.5

Jml intrusi 45 90 180 270 360 450

Data Testing

% normal 0.95 0.9 0.8 0.7 0.6 0.5

100

Jml normal 95 90 80 70 60 50

% intrusi 0.05 0.1 0.2 0.3 0.4 0.5

Jml intrusi 5 10 20 30 40 50

semakin bagus performansi sistem, karena jumlah

semua data intrusi berarti berhasil dikenali oleh

sistem. Sebaliknya jika nilai FPR tinggi, malah tidak

bagus karena data normal yang dikenali sistem

sebagai intrusi banyak.

4.2 Pengujian Analisis Pengaruh Proporsi Data

Intrusi dan Normal terhadap Performansi

Sistem (DR dan FPR)

Berikut ini merupakan hasil performansi

sistem Anomaly Detection dari pengujian keseluruhan

data testing dari dataset terhadap model Bayesian

Network TAN Classifier yang terbentuk dari masing-

masing data training.

Tabel 4-2 Hasil performansi sistem dari tiap dataset

Skenario B Nama dataset

% normal

% intrusi

DR (%)

FPR (%)

DATA_B1 95 5 40.00 0.00

DATA_B2 90 10 72.73 0.00

DATA_B3 80 20 100 0.00

DATA_B4 70 30 100 8.57

DATA_B5 60 40 100 5.00

DATA_B6 50 50 80 0.80

Berdasarkan keseluruhan pengujian yang

dilakukan terhadap dataset pada Tabel 4.4, terlihat

bahwa model TAN ClassifierBayesian Network yang

terbentuk berbeda-beda. Secara umum dapat diambil

kesimpulan ketika data training dengan jumlah yang

sama namun proporsi data normal dan data intrusi

diubah-ubah, ternyata mempengaruhi model TAN

Classifier BN.

Grafik 4-1 Hasil performansi sistem dari tiap dataset

Skenario B

Semakin kecil proporsi data intrusi pada

data training, ternyata model TAN BN yang

terbentuk juga hanya beberapa feature saja. Untuk

DATA_B1 dan DATA_B2 menghasilkan model

TAN BN dengan node kurang dari 8. Sebaliknya

semakin besar data intrusi pada data training, model

TAN BN yang dihasilkan memiliki node lengkap dari

8 feature. Namun bentuk model TAN Classifier BN

yang lengkap belum tentu menghasilkan performansi

sistem yang optimal.

Gambar 4-2 Model TAN BN Data TRAN_B7-3

Berdasarkan Tabel 4.2, DATA_B4 memiliki

hasil performansi paling optimal yaitu DR 100% dan

FPR 0%. Nilai Detection Rate 100%. Artinya sistem

mampu mendeteksi seluruh intrusi dengan

benar.Sedangkan nilai False Positive Rate 0%,

artinya tidak ada data normal pada data testing yang

terdeteksi sebagai intrusi.Semakin kecil nilai FPR

maka semakin bagus performansi sistem. Hasil

performansi tersebut mencapai optimal karena

menggunakan proporsi data training dan testing pada

pengujian skenario A yaitu 90% data train dan 10%

data test. Semakin banyak data yang di-training maka

model TAN BN yang dihasilkan semakin bagus

untuk proses klasifikasi. Berikut ini tabel

perbandingan hasil performansi dengan karakteristik

data yang sama, namun proporsi data normal dan data

intrusi berbeda.

Tabel 4-3 Tabel Perbandingan Hasil Performansi

dengan penelitian sebelumnya

Nama

dataset

Data

train

Data

test

Data

normal

Data

intrusi

DR FPR

Skenario

A

DATA_

A1

90% 10% 60% 40% 100

%

1,67

%

Skenario

B

DATA_

B3

90% 10% 80% 20% 100

%

0%

Berdasarkan Tabel 4.3, dengan proporsi data

normal 80% dan data intrusi 20% menghasilkan

performansi sitem yang lebih tinggi dari hasil

skenario A. Jadi secara umum dapat diambil

kesimpulan bahwa perfomansi sistem yang lebih

bagus yaitu skenario B pada daset DATA_B3.

DATA_B3 menghasilkan model TAN Classifier

tanpa feature land, ternyata menghasilkan

performansi yang lebih bagus. Proporsi data normal

0

20

40

60

80

100

120

B1 B2 B3 B4 B5 B6

DR

FPR

Class

Service0.205914

Protocol_type

0.0569997

Is_guess_login

0.0195168

Logged_In

0.0483736

Wrong_fragment

0.0716679

Land0.0028032

Root_shell0.0028032

Num_failed_logins

0.0056359

80% dan data intrusi 20% pada data training dan data

testing, ternyata memberikan pengaruh yang lebih

bagus daripada proporsi data asli 10% KDD Cup 99

yaitu nilai DR 100% dan nilai FPR 0%.

Secara keseluruhan dari hasil performansi

sistem, model Bayesian Network membutuhkan data

training yang lebih besar dari data testing. Idealnya

untuk sistem ini yaitu 90% data training dan 10%

data testing. Sedangkan dari segi proporsi data

normal dan data intrusi untuk Anomaly detection,

ternyata untuk data normal haruslah lebih besar dari

data intrusi.

5. Kesimpulan

Berdasarkan hasil pengujian dan analisis yang

telah dilakukan pada Tugas Akhir ini, diperoleh

beberapa kesimpulan sebagai berikut:

1. Faktor yang mempengaruhi pembentukan model

TAN Classifier yaitu jumlah record,jumlah

atribut, dan jumlahvalue tiap atribut pada data

training. Karena pada TAN Classifier

melibatkan ketergantungan antar atribut yang

dibangun menggunakan Algoritma CI Test.

2. Proporsi data training dan data testing yang

optimal untuk membangun model TAN

Classifier dengan hasil performansi yang optimal

yaitu dengan proporsi 90% data training dan

10% data testing. lebih besar dari 50%. Semakin

banyak data training semakin optimal Bayesian

Network yang terbentuk.

3. Pengambilan sample untuk proporsi data normal

dan data intrusi pada data training sangat

berpengaruh terhadap pembentukan model TAN

Classifier. Secara umum dapat diambil

kesimpulan bahwa proporsi data normal pada

Anomaly detection ini haruslah lebih besar dari

data intrusi. Dari hasil pengujian proporsi data

yang menghasilkan performansi optimal yaitu

80% data normal dan 20% data intrusi.

4. Algoritma Bayesian Network TAN Classifier

bisa diimplementasikan untuk anomaly detection

pada IDS dengan performansi yang baik, yaitu

dari detection rate 100% dan false alarm rate 0%.

Hal ini dikarenakan model klasifikasi pada TAN

dibangun menggunakan CI Test Based

Algorithms menghasilkan nilai akurasi yang rata-

rata lebih tinggi di bandingkan dengan Bayesian

Network biasa (misalnya Naïve Bayes). Hal ini

menunjukan pengaruh ketergantungan diantara

atribut pada TAN dapat menaikkan nilai akurasi

jika di bandingkan dengan Bayesian Network

lain yang hanya mempunyai ketergantungan

setiap atribut dengan kelasnya saja.

Daftar Pustaka:

[1] Afianti Mira, 2011, “Implementasi Algoritma Y-

Means sebagai Anomaly Detection (Studi

Kasus:Intrusion Detection System)”, IT Telkom

Bandung.

[2] Amanda Delamer,2002,"Intrusion Detection with

Data Mining" Donau-Universität Krems, Dublin.

[3] Baesens, B., M. Egmont Petersen., R. Castelo., J.

Vanthienen. “Learning Bayesian Network

Classifiers for Credit Scoring using Markov

Chain Monte Carlo Search”. K.U.Leuven Dept.

of Applied Economic Sciences Naamsestraat,

Leuven, Belgium.

www.cs.uu.nl/research/techreps/repo/CS-

2001/2001-58.pdf.

[4] Bringas, Pablo G. dan Igor Santos. Bayesian

Networks for Network Intrusion Detection,

[5] Cemerlic Alma, Li Yang, Joseph M. Kizza.

Network Intrusion Detection Based on Bayesian

Networks. Diakses pada 21 Maret 2011 di

http://www.utc.edu/Faculty/Li-

Yang/MyPaper/SEKE08-Cemerlic-Yang.pdf

[6] Charles River Analytics, Inc, 2004, “About

Bayesian Belief Networks”, Cambridge.

www.cra.com. Page 2.

https://www.cra.com/pdf/BNetBuilderBackgroun

d.pdf.

[7] Cheng, Jie, dkk, ”An Algorithms for Bayesian

Belief Network Construction from Data”. School

of Information and Software Engineering

University Ulster. Northern Ireland.

[8] Chia-Ping Chen, “Entropy and Mutual

Information Notes on Information Theory”,

Department of Computer Science and

Engineering, National Sun Yat-Sen University,

Kaohsiung, Taiwan ROC.

[9] Firmansyah, Ivan Suci. IP Network-Packet

Shared Media pada Mesin Cluster Intrusion

Detection System. diakses pada 24 Maret 2011

http://budi.insan.co.id/courses/el695/projects200

2-2003/ivan-report.pdf

[10] Fradhany Yustiar, 2008, “Learning Klasifikasi

Bayesian Network Menggunakan Algoritma

Conditional Independence Test”, IT Telkom

Bandung.

[11] Ghorbani A., Guan Yu, dkk. 2003. “Y-Means:

A Clustering Method for Intrusion Detection”,

Proceedings of the IEEE Canadian Conference

on Electrical and Computer Engineering.

Montreal, Canada. pp 87-99.

[12] H. Güneş Kayacık, A. Nur Zincir-Heywood,

Malcolm I. Heywood “Selecting Features for

Intrusion Detection:A Feature Relevance

Analysis on KDD 99 Intrusion Detection

Datasets”, Dalhousie University.

[13] Heckerman, David, 1995, “A Tutorial on

Learning With Bayesian Networks”, Advanced

Technology Division. Microsoft Corporation.

[14] Heckerman, David. Bayesian Networks for Data

Mining. 1997 diakses pada 21 Maret 2011 di

http://www.springerlink.com

[15] Hernández- Pereira E.,Suárez-RomeroJ. A., dkk.

2009. “Conversion methods for symbolic

features: A comparison applied to an intrusion

detection problem”, Expert System With

Applications, Vol. 36(2009) 10612-10617.

[16] Jiang, Liangxiao, Harry Zhang, Jiang Su,

“Learning Tree Augmented Naïve Bayes for

Ranking”, Department of Computer Science,

China University of Geosciences. Wuhan, China.

www.ai.mit.edu/projects/jmlr/papers/volume3/li

ng02a/top.pdf

[17] Jiawei Han, Micheline Kamber, 2001, “Data

Mining : Concepts and Techniques”, Simon

Fraser University.

[18] Kannan, Sivanadiyan Sabari. 2005.Y-Means

Clustering Vs N-CP Clustering With Canopies

for Intrusion Detection. Thesis. Oklahoma State

University.

[19] Leung, Kingsly & Christopher Leckie.

Unsupervised Anomaly Detection in Network

Intrusion Detection Using Cluster.

[20] M. Tavallaee, E. Bagheri, W. Lu, dan A.

Ghorbani. 2009. “A Detailed Analysis of the

KDD CUP 99 Data Set”. Second IEEE

Symposium on Computational Intelligence for

Security and Defense Applications (CISDA).

[21] Pang-Ning Tan, Vipin Kumar, Michael

Steinbach, 2004, “Introduction to Data Mining”,

Michigan State University, University of

Minnesota.

[22] Munir, Rinaldi. 2008. Diktat Kuliah IF2091

Struktur Diskrit. Program Studi Teknik

Informatika, Sekolah Tinggi Teknik Elektro dan

Informatika, Institut Teknologi Bandung.

[23] Tran, D., Wanli Ma, Sharma, D. 2008.

"Automated network feature weighting-based

anomaly detection," Intelligence and Security

Informatics, IEEE International Conference on ,

pp.162-166.

anomaly detection pada intrusion detection system … · anomaly detection pada intrusion ......

Documents