Anomaly Detection pada Intrusion Detection System (IDS) Menggunakan Metode Bayesian
Network
Oktavia Ari Marlita
1, Adiwijaya
2, Angelina Prima Kurniati
1
1Fakultas Informatika dan
2Fakultas sains
Institut Teknologi Telkom, Bandung 40257
[email protected], [email protected], [email protected]
Abstrak
Intrusion Detection System (IDS) merupakan sistem yang dapat mendeteksi adanya intrusi atau gangguan
pada suatu jaringan atau sistem informasi. Salah satu jenis IDS adalah anomaly detection dimana suatu data trafik
jaringan akan dikatakan intrusi apabila mempunyai karakteristik yang berbeda dari kebanyakan data lainnya.
Anomaly detection dapat mendeteksi serangan dalam host atau network yang menyimpang dari aktivitas normal
berdasarkan probabilitas statistika. Statistical anomaly detection tidak memiliki model intelligent learning yang
mungkin menyebabkan false alarm memiliki tingkat deteksi tinggi.Metode yang digunakan sistem adalah Bayesian
Network TAN Classifier.CI Test merupakan salah satu algoritma yang handal untuk membangun Model TAN
Classifier untuk klasifikasi. Dengan representasi grafis gabungan dari probabilitas fungsi distribusi lebih dari satu
set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic Graph (DAG) di mana setiap node
berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantungan antar variabel-
variabel yang terhubung. Data trafik jaringan melalui proses training untuk membentuk model TAN Classifier,
kemudian dilakukan proses testing. Pengujian dilakukan dengan beberapa skenario untuk mengetahui akurasi sistem
dilihat dari nilai detection rate (DR) dan false positive rate (FPR), pengaruh proporsi data training dan data testing,
serta pengaruh proporsi data normal dan data intrusi pada masing-masing dataset. Bayesian Network dapat
mendeteksi intrusi, dengan DR sebesar 100% dan FPR 0%.
Kata kunci: intrusi, Intrusion Detection System,anomaly detection, Bayesian Network, TAN Classifier
1. Abstract
Intrusion Detection System (IDS) is a system that can detect any intrusion or interference on a network or
information systems. One type of IDS is anomaly detection in which a data network traffic if the intrusion would be
said to have characteristics different from most other data. Anomaly detection can detect the attack on host or
network who deviate from normal activities based on statistical probability. Statistical anomaly detection does not
have a model of intelligent learning that may lead to false alarms have a high detection rate. The method used is a
system of TAN Bayesian Network Classifier. CI Test is one of a reliable algorithm to build classification models for
the TAN Classifier. With a graphical representation of the joint probability distribution function over a set of
variables. The network structure is represented as a Directed acyclic Graph (DAG) where each node corresponds to
a random variable and each edge shows the dependency relationships among the variables are connected. Data
network traffic through the training process to form a model of TAN Classifier, then do the testing. Tests carried out
with several scenarios to determine the accuracy of the detection system is seen rate (DR) and false positive rate
(FPR), the influence of the proportion of training data and testing the data, as well as the influence of the
proportion of normal data and data intrusion on each dataset. Bayesian Network can detect the intrusion, the DR of
100% and 0% FPR.
Kata kunci: intrusi, Intrusion Detection System, anomaly detection, Bayesian Network, TAN Classifier
1. Pendahuluan
Data dan informasi sensitif dalam skala
besar diproses dalam jaringan komputer. Sehingga
diperlukan suatu sistem keamanan dalam jaringan
komputer yang tahan dan toleran terhadap intrusi
jaringan. Intrusi jaringan merupakan upaya untuk
mendapatkan akses ilegal keresource jaringan atau
mem-by-pass sistem keamanan yang ada.
Upaya itu dapat dilakukan dengan mengakses sistem
melalui Internet, maupun melalui celah keamanan
jaringan lainnya. Oleh karena itu, Intrusion Detection
System (IDS) diperlukan untuk mengatasi
permasalahan tersebut. Intrusion detection adalah
suatu proses monitoring kejadian yang terjadi pada
sistem komputer atau jaringan serta menganalisisnya
untuk mengetahui aktivitas tersebut termasuk normal
atau intrusi.
Anomaly detection dapat mendeteksi
serangan dalam host atau network yang menyimpang
dari aktivitas normal berdasarkan probabilitas
statistika. Statistical anomaly detection tidak
memiliki model intelligent learning yang mungkin
menyebabkan false alarm memiliki tingkat deteksi
tinggi. Anomaly detection menggunakan pendekatan
unsupervised learning (tidak ada intelligent
learning), yang mampu mendeteksi intrusi tanpa
harus mempelajari data sebelumnya[9]. Misuse
detection/signature analysis membutuhkan akses ke
database besar dari signatureintrusion yang
diketahui. Detektor melakukan analisis terhadap
aktivitas sistem, mencari event atau set event yang
cocok dengan pola perilaku yang dikenali sebagai
serangan.
Bayesian Network (BN) adalah representasi
grafis dari gabungan dari probabilitas fungsi
distribusi lebih dari satu set variabel. Struktur
jaringan direpresentasikan sebagai Directed Acyclic
Graph (DAG) di mana setiap node berkorespondensi
dengan variabel acak dan setiap edge menunjukkan
hubungan ketergantunga antar variabel-variabel yang
terhubung [5]. Setiap variabel memiliki satu finite set
mutually exclusive states.
Dalam jurnal ini metode Bayesian Network
yang digunakan yaitu Tree Augmented Naive Bayes
(TAN)classifier. Adaptive network IDS dengan
medote BN mengambil data offline dari dataset KDD
Cup tahun 1999 untuk mengukur kelayakan dan
efektivitas sistem. Tipe datanya ada kontinu dan
nominal dengan mengambil 9 dari 41 features
termasuk unbalanced data[12]. Karena setiap
variabel (node) dalam BN dikaitkan dengan
Conditional Probability Tabel (CPT), yang
menyebutkan probabilitas bersyarat untuk variabel
yang memberikan semua kombinasi induknya.
Akurasideteksi intrusi dapat dilihat dari seberapa
dekat kah data klasifikasi dengan data asli. Dengan
BN sebagai model yang ideal untuk menggabungkan
priorknowledge sebelumnya dengan data baru dan
menyimpulkan menjadi posterior knowledge. Oleh
karena itu, Bayesian Network dengan TAN classifier
diharapkan dapat meningkatkan tingkat akurasi IDS.
2. Landasan Teori
2.1 Intrusion Detection System (IDS)
Intrusion detection adalah suatu proses
monitoring kejadian yang terjadi pada sistem
komputer atau jaringan serta menganalisisnya untuk
mengetahui aktivitas tersebut termasuk normal atau
intrusi.Model proses dari IDS ada 3 fungsi dasar,
yaitu: pertama, pengambilan data dari berbagai level
dari sistem seperti network, host,dan application.
Kedua, analisis data yang diperoleh untuk mengenali
intrusi. Terakhir, respon terhadap serangan.Secara
umum prinsip proses kerja dari sistem deteksi intrusi
dapat digambarkan sebagai berikut[2]:
Gambar 2-1 : Proses kerja sistem deteksi intrusi
Keterangan:
1. Input (Even Information)
Sumber data yang akan digunakan untuk mendeteksi
intrusi didapat dari bermacam-macam sumber, antara
lain: host, network maupun application.
2. Activity (Analysis)
Untuk melakukan analisis mendeteksi intrusi,
pendekatan yangsecara umum dilakukan adalah
dengan pendekatan misuse dan anomalydetection.
Misuse detection adalah pendekatan untuk mengenali
intrusiberdasarkan pengetahuan atau data mengenai
ciri-ciri intrusi yang telahdidefinisikan sebelumnya
[2]. Sedangkan anomaly detection mendeteksiintrusi
dari deviasi kelakuan umum data normal lainnya.
3. Output (Response)
Output (response) adalah mengklasifikasikan apakah
sebuah data tersebut normal atau termasuk intrusi.
Respon intrusi dapat berupa respon aktif yaitu
mengeluarkan alarm dan mengamankan sistem
ataupun respon pasif berupa laporan ditemukan
adanya intrusi.
2.2 Bayesian Network
Bayesian Network (BN) adalah representasi grafis
dari gabungan dari probabilitas fungsi distribusi lebih
dari satu set variabel. Struktur jaringan
direpresentasikan sebagai Directed Acyclic Graph
(DAG) di mana setiap node berkorespondensi dengan
variabel acak dan setiap edge menunjukkan
hubungan ketergantunga antar variabel-variabel yang
terhubung [6]. Setiap variabel memiliki satu finite set
mutually exclusive states.Algoritma yang digunakan
untuk membangun model Bayesian Network yaitu
Conditional independence (CI) Test. Beberapa
karakteristik umum metoda BN sebagai berikut :
a. BN menyediakan pendekatan untuk menangkap
pengetahuan sebelumnya (prior knowledge) dari
domain tertentu menggunakan pemodelan grafis.
Network juga dapat digunakan untuk
mengenkode dependensi kausal antar variabel.
b. Membangun network dapat menghabiskan waktu
dan memerlukan usaha yang banyak.
Bagaimanapun, ketika struktur network telah
Input Activity Output
Event
information
from source
(host, network,
application)
Response
(action
taken or
detection)
Analysis
(misuse or
anomaly
detection)
ditentukan, menambahkan variabel baru dapat
dilakukan secara langsung.
c. BN sesuai untuk menangani data yang tidak
lengkap. Instansiasi dengan atribut yang hilang
dapat ditangani dengan menjumlahkan atau
mengintegrasikan seluruh nilai atribut yang
mungkin.
2.3 Struktur Bayesian Network
Pada umumnya struktur Bayesian Network
terdiri dari 2 bagian, yaitu[3]:
a. DAG (Directed Acyclic Graph)
DAG ini terdiri dari nodes dan busur-busur (arcs)
yang menghubungkan antara node yang satu dengan
node yang lainnya. Node pada Bayesian Network
merepresentasikan variabel atau atribut.Sedangkan
busur merepresentasikan relasi ketergantungan atau
hubungan kausal antara dua node.
Gambar 2-3: Hubungan kausal antara dua buah
node
Pada BN, node terdiri dari dua jenis, yaitu nodeclass
dan node atribut. Nodeclass mewakili variabel class
yang merupakan target klasifikasi pada dataset,
sedangkan node atribut mewakili variabel-variabel
selain variabel class. Apabila dua buah node
dihubungkan oleh sebuah busur, maka kausal node
akan menjadi parent node dari node yang lain.
b. CPT (Conditional Probability Table)
CPT merepresentasikan probabilitas berdasarkan
informasi prior. Secara matematis, sebuah
conditional probability dapat ditulis dengan
P(X=x|P1=p1, P2=p2, …, Pn=pn) misalnya probabilitas
simpul X pada status x berdasarkan simpul orang tua
P1 pada status p1, simpul orang tua P2 pada status p2,
…, dan simpul orang tua Pn pada status pn.Pada CPT
terdapat status dari tiap variabel yang merupakan
suatu nilai yang bisa diambil oleh node.
Gambar 2-4: Status pada parent node dan child
node.
Pada gambar 2-5 merupakan contoh penerapan dari
CPT. Misalkan nilai P(Road
Conditions=Impassable|Precipitation=Heavy). Sel
conditional probabilities tersebut memiliki makna:
“Jika Precipitation berada pada status Heavy, maka
probabilitas Road Conditions berada pada status
Impassable yaitu 0.700.”
status simpul orang tua
status simpul anak
Child Parent
Precipitation
LightRoad Conditions
None
Passable
Impassable
0.900
0.100 0.700
Heavy0.050
0.950 0.300conditional probabilities
Gambar 2-5: CPT antara node Precipitation dan
node Road Condition
2.3.1 Bayesian Network Tree Augmented
Naïve Bayes Classifier (TAN)
TAN classifier merupakan pengembangan dari Naïve
Bayes classifier dimana antar node atribut dapat
saling memiliki ketergantungan. Sama seperti pada
NB, setiap variabel merupakan directly dependent
pada variabel class tetapi diantara variabel tersebut
juga bisa dimungkinkan ber- conditionaldependent
satu sama lain [3].
Gambar 2-6: TAN Classifier
Misalkan E= (a1, a2, ..., an) merupakan record data
yang akan diklasifikasi, di mana ai adalah status
simpul atribut Ai. Pada pengklasifikasian data, TAN
classifier akan memilih status simpul class yang
memiliki probabilitas paling besar berdasarkan E
[13]:
(2.1)
di mana aiadalah status simpul atribut Ai, aipadalah
status simpulatribut Aip dan cjadalahstatussimpul
classC. Aip dan C merupakan orang tua simpul atribut
Ai, dan
(2.2)
Precipitation
Road
Conditions
simpul orang tua
simpul anak
Precipitation
Road
Conditions
status simpul orang tua
status simpul anak
Status
None
Light
Heavy
Status
Impassable
Passable
c
a3
a1
a4
a2
n
i
jipijcc caaPcPECj
1
tan ),|()(maxarg)(
}{),|(
}{),,|()),|(
ipji
pijpi
jpiiAcaP
AcaiaPcaaP
Nilai P(cj), P(ai|cj) diestimasi menggunakan Laplace
estimation
(2.3)
(2.4)
Keterangan:
t = jumlah instan pada data training
k = jumlah status pada simpul class
vi= jumlah status pada simpul atribut Ai
nj = jumlah data training dengan C = cj
nij = jumlah data training dengan C = cj dan Ai = ai
Nilai P(cj), P(ai|cj), dan P(ai|aip,cj) diestimasi
menggunakan Laplace estimation.
(2.5)
Keterangan:
vi = jumlah status pada simpul atribut Ai
nipj = jumlah record pada data training dengan
Aip=aipdan C=cj
niipj = jumlah record pada datatraining dengan Ai=ai,
Aip=aip, dan C=cj
TAN classifier membangun model klasifikasi BN
berdasarkan pada dataset. Berbeda dengan Naive
Bayes pada TAN bisa terjadi hubungan conditional
diantara atribut. Algoritma yang digunakan untuk
membangun model yaitu algoritma conditional
independence test based. Pembangunan yang
dilakukan didasarkan pada perhitungan mutual
information dan conditional mutual information,
yaitu seperti langkah di bawah ini [9]:
1. Hitung conditional mutual information
I(Ai,Aj|C),i j, di antara masing-masing
pasangan variabel atribut, kemudian hitung
thresholdConditional mutual information
dihitung dengan persamaan (2.5), sedangkan
thresholddihitung dengan persamaan (2.6).
2. Bangun graf lengkap tak berarah di mana
simpul-simpulnya merupakan variabel atribut Ai,
i=1,2,...,n. Sisi penghubung Ai ke Aj diberi bobot
dengan I(Ai,Aj|C).
3. Cari pohon merentang dengan bobot maksimum
dengan algoritma Kruskal. Yaitu dengan
memotong busur yang mempunyai nilai IC
minimum, dengan jumlah yang dipotong tidak
melebihi sisa busur yang tersedia.
4. Hitung mutual information I(Ai,C), i=1,2,…,n
antara masing-masing variabel atribut dengan
variabel class, kemudian pilih variabel atribut
yang mempunyai nilai mutual information
tertinggi untuk menjadi simpul Aroot. Mutual
information dihitung dengan persamaan (2.4).
5. Ubah pohon tak berarah menjadi pohon berarah
dengan membuat simpul Aroot sebagai orang tua
dan membuat arah panah dari semua busur
keluar dari simpul Aroot.
6. Hapus busur berarah yang memiliki bobot
conditional mutual information di bawah nilai
threshold .
7. Bangun model TAN dengan menambahkan
variabel class sebagai simpul class dan
tambahkan busur berarah dari simpul class ke
masing-masing simpul atribut Ai, i=1,2,…,n.
2.3.2 Algoritma Kruskal
Algoritma Kruskal merupakan salah satu metode
untuk mencari minimum spanning tree. Konsep dasar
yang digunakan adalah pada setiap langkah, memilih
sisi dari graf G yang berbobot minimum, tetapi sisi
tersebut tidak membentuk sirkuit T. Langkah-langkah
algoritma Kruskal adalah sebagai berikut [18]:
1. Lakukan pengurutan terhadap setiap sisi di graf
G mulai dari sisi dengan bobot terkecil.
2. Pilih sisi(u,v) yang mempunyai bobot minimum
yang tidak membentuk sirkuit di T. tambahkan
(u,v) ke dalam T.
3. Ulangi langkah 2 sampai pohon merentang
minimum terbentuk, yaitu ketika di dalam pohon
merentang T berjumlah n-1 (n adalah jumlah
simpul graf G)
2.4 CI Test
CI Test merupakan sebuah algoritma yang digunakan
dalam pembangunan model Bayesian Network pada
saat dilakukan proses learning. Pembangunan yang
dilakukan didasarkan pada perhitungan mutual
information dan conditional mutual information [7].
2.4.1 Mutual information
Mutual information merupakan fungsi untuk
mengukur berapa banyak informasi untuk suatu
variabel yang disediakan oleh suatu variabel yang
lain. Mutual information antara variabel A dan C
diformulasikan sebagai berikut [7][8][16]:
(2.6)
Fungsi tersebut untuk mengukur berapa banyak
informasi untuk A yang disediakan oleh C.
2.4.2 Conditional mutual information
Conditional mutual information merupakan fungsi
untuk mengukur berapa banyak informasi untuk
suatu variabel yang disediakan oleh suatu variabel
yang lain jika nilai suatu variabel yang lain
diketahui.Conditional mutual information antara
kt
ncP
j
j
1)(
ij
ij
jivn
ncaP
1)|(
ipji
iipj
jpiivn
ncaaP
1),|(
ca cPaP
caPcaPCAI
, )()(
),(log),();(
variabel Aidan Aj berdasarkan C diformulasikan
sebagai berikut[7][8][16]:
cajai ji
ji
jijicaPcaP
cPcaaPcaaPCAAI
,, ),(),(
)(),,(log),,()|;(
(2.7)
Fungsi tersebut untuk mengukur berapa banyak
informasi untuk Ai yang disediakan oleh Aj jika nilai
C diketahui.
Ketika I(Ai;Aj|C) lebih kecil daripada nilai
threshold, Ai dan Aj disebut conditional
independentoleh C.
Nilai thresholddiformulasikan sebagai berikut [9]:
(2.8)
Keterangan :
C : variabel class, Ai, Aj : variabel atribut
n : jumlah pasangan atribut
2.5 Evaluasi Sistem
Untuk mengetahui kinerja prediksi yang baik, sebuah
IDS harus dapat dengan benar membedakan antara
intrusi dan normal dalam lingkungan sistem
[Network Intrusion Detection based on Bayesian
Network]. Berikut merupakan Tabel standar matrik
evaluasi untuk hasil deteksi sistem[4]:
Tabel 2-1: Tabel Standar Matrik Evaluasi Hasil
Deteksi Sistem Hasil Deteksi
Intrusi Normal
Label
Asli
Intrusi
True
Positive
(TP)
False
Negative
(FN)
Normal
False
Positive
(FP)
True
Negative
(TN)
Evaluasi kinerja deteksi intrusi menggunakan
parameter utama, yaitu:
Detection Rate (DR)
Merupakan jumlah intrusi yang berhasil
dideteksi oleh sistem dibagi dengan total
jumlah intrusi yang ada pada dataset.
𝐷𝑅 =𝑇𝑃
𝑇𝑃 + 𝐹𝑁 (2.9)
False Positive Rate (FPR)
Merupakan jumlah data normal yang dianggap
sebagai intrusi oleh sistem dibagi dengan
jumlah data normal pada dataset.
𝐹𝑃𝑅 =𝐹𝑃
𝐹𝑃 + 𝑇𝑁 (2.10)
3. Perancangan Sistem
Pada bagian ini akan dijelaskan gambaran tahapan
proses dalam sistem deteksi anomali untuk mengenali
intrusi. Berikut ini diagram yang menggambarkan
sistem deteksi intrusi:
Gambar 3-1 : Alur algoritma TAN classifier dalam
sistem deteksi anomali
3.1 Dataset
Data yang digunakan sebagai masukan dalam
sistem ini adalah sampling dari data KDD Cup 99
sebanyak 10% yang merupakan subset dari DARPA
Intrusion Detection Evaluation Data Set yang dirilis
pada tahun 1998 oleh MIT Lincoln Library. Data
terdiri dari data normal dan data intrusi. Format
ekstensi data adalah .xls dengan jumlah atribut
sebanyak 41 atribut. Kemudian dilakukan proses
pemilihan atribut-atribut yang paling berpengaruh
sesuai dengan paper ada 9 atribut yaitu
protocol_type, service, num_of_wrong_fragments,
num_of_failed_logins, land ,login_success,
is_guess_login, root_shell_obtained, and type
(intrusion atau normal connection) [14]. Jumlah
record data input adalah 1000 record, namun
komposisi data baik intrusi maupun normal berbeda-
beda.
Tabel 3-1 Tabel dataset pengujian untuk skenario A
ijnn
CAAI
Ii j
ji
avg
,
)1(
)|;(
* Preprocessing data dilakukan diluar sistem dengan
bantuan Ms. excel
Data Trafik
Jaringan
(10% KDD
Cup 99)
Feature
selection by
information gain
Pemodelan TAN
Classifier dengan
CI Test
Data Hasil
Preprocessi
ng
Pengisian CPT
dengan Laplace
Estimation
Struktur
TAN
Classifier
Penghitungan
false alarm rate
& detection rate
Nilai false
alarm rate
&
detection
rate
Discretization
Hasil
klasifikasi
Model
TAN
Data
Training
Data
Testing
Pengujian
(klasifikasi)
Nama Dataset
Data Training
Jml Dataset
% train
training
Normal
Intrusi Keterangan
Dataset_A1 TRAIN_A900 1000 0.9 900 540 360 Proporsi data normal dan data intrusi untuk semua dataset adalah 6:4 sesuai komposisi asli data KDD 10% setelah preprocessing
Dataset_A2 TRAIN_A800 1000 0.8 800 480 320
Dataset_A3 TRAIN_A700 1000 0.7 700 420 280
Dataset_A4 TRAIN_A600 1000 0.6 600 360 240
Dataset_A5 TRAIN_A500 1000 0.5 500 300 200
Data testing Jml Dataset
% test
testing
Normal
Intrusi
Dataset_A1 TEST100 1000 0.1 100 60 40
Dataset_A2 TEST200 1000 0.2 200 120 80
Dataset_A3 TEST300 1000 0.3 300 180 120
Dataset_A4 TEST400 1000 0.4 400 240 160
Dataset_A5 TEST500 1000 0.5 500 300 200
Pada Tabel 3.1 dataset untuk skenario A, jumlah
data untuk tiap dataset yaitu 1000. Proporsi data
normal dan data intrusi untuk training dan testing
tetap yaitu 6:4 (sesuai komposisi sesuai komposisi
asli data KDD 10% setelah preprocessing). Namun
proporsi data training dan data testing yang diubah-
ubah.
Tabel 3-2 Tabel dataset pengujian untuk skenario B
Pada Tabel 3.2 dataset untuk skenario B, jumlah
data untuk tiap dataset yaitu 1000. Proporsi data
training dan data testing tetap yaitu 90% dan
10%.Namun proporsi data normal dan data intrusi
untuk training dan testing yang diubah-ubah.
4. Hasil Pengujian
4.1 Pengujian terhadap karakteristik data
training terhadap model TAN BN dan
performansi sistem.
Berdasarkan keseluruhan pengujian yang
dilakukan terhadap dataset pada Tabel 3.1, terlihat
bahwa model TAN Classifier Bayesian Network
yang terbentuk ada 9 node (termasuk kelas). Setiap
node memiliki nilai mutual information dari feature
yang berbeda-beda. Namun karena proporsi data
normal dan data intrusi yang tetap atau sama yaitu
60% dan 40% (sesuai dengan proporsi 10% dataset
asli KDD Cup 99) pada setiap dataset akan
menghasilkan probabilitas kelas yang sama.
Tabel 4-1 Hasil performansi sistem dari tiap
dataset Skenario B
Nama dataset
Data training
Data training
DR (%) FPR (%)
DATA_A1 TEST100 TRAIN_A900 A900
100.00 100.00
1.67 5.00
DATA_A2 TEST200 TRAIN_A800 A800
98.75 100.00
10.83 9.17
DATA_A3 TEST300 TRAIN_A700 A700
99.17 100.00
5.00 6.11
DATA_A4 TEST400 TRAIN_A600 A600
100.00 98.75
6.67 7.50
DATA_A5 TEST500 TRAIN_A500 A500
100.00 99.00
4.00 3.33
Berdasarkan Tabel 4.1, setiap dataset yang terdiri
dari 2 data training diujikan dengan data testing yang
sama menghasilkan performansi yang berbeda. Hal
ini menunjukan bahwa pada TAN classifier
memungkinkan terjadinya ketergantungan diantara
atribut yang dibangun menggunakan Algoritma CI
Test dapat menaikkan nilai performansi sistem.
Grafik 4-1 Hasil performansi sistem dari tiap
dataset Skenario B
Karena statistical based jumlah instance dari
feature akan mempengaruhi nilai threshold. Karena
perhitungannya melibatkan conditional mutual
information tiap pasangan atribut. Jadi semakin
banyak data training tentu saja jumlah instance dari
feature juga semakin banyak, akibatnya variable-
variabel penentu model TAN classifier semakin
bervariasi. Model tersebut nantinya untuk dasar
pengisian CPT dan sangat berpengaruh untuk
klasifikasi data testing serta perhitungan performansi
sistem. Berikut salah satu hasil jaringan Bayesian
Network.
Gambar 4.1: Model TAN BN Data TRAIN_A500
Class
Service0.240679
Protocol_type
0.045487
Is_guess_login
0.012231
Logged_In
0.026253
Wrong_fragment
0.061332
Land0.000000
Root_shell0.000797
Num_failed_logins0.003205
Berdasarkan Tabel 4.1, terlihat hasil
performansi dari dataset DATA_A1 yang terdiri dari
90% data training dan 10% data testing memiliki
nilai DR 100% dan FPR 1,67%. Detection rate 100%
artinya sistem mampu mendeteksi seluruh intrusi
pada data testing sebanyak 0 data dengan benar. Dan
False Positive Rate 1,67% yang artinya ada 9 data
yang salah terdeteksi dari seluruh data normal yang
berjumlah 540 data. Semakin besar nilai DR berarti
020406080
100120
A1-
a
A1-
b
A2-
a
A2-
b
A3-
a
A3-
b
A4-
a
A4-
b
A5-
a
A5-
b
DR
FPR
Nama
dataset B1 B2 B3 B4 B5 B6
Keterangan
Data Training
% normal 0.95 0.9 0.8 0.7 0.6 0.5 Proporsi data train dan data test untuk semua data set adalah 75% data train dan 25% data test
900
Jml normal 855 810 720 630 540 450
% intrusi 0.05 0.1 0.2 0.3 0.4 0.5
Jml intrusi 45 90 180 270 360 450
Data Testing
% normal 0.95 0.9 0.8 0.7 0.6 0.5
100
Jml normal 95 90 80 70 60 50
% intrusi 0.05 0.1 0.2 0.3 0.4 0.5
Jml intrusi 5 10 20 30 40 50
semakin bagus performansi sistem, karena jumlah
semua data intrusi berarti berhasil dikenali oleh
sistem. Sebaliknya jika nilai FPR tinggi, malah tidak
bagus karena data normal yang dikenali sistem
sebagai intrusi banyak.
4.2 Pengujian Analisis Pengaruh Proporsi Data
Intrusi dan Normal terhadap Performansi
Sistem (DR dan FPR)
Berikut ini merupakan hasil performansi
sistem Anomaly Detection dari pengujian keseluruhan
data testing dari dataset terhadap model Bayesian
Network TAN Classifier yang terbentuk dari masing-
masing data training.
Tabel 4-2 Hasil performansi sistem dari tiap dataset
Skenario B Nama dataset
% normal
% intrusi
DR (%)
FPR (%)
DATA_B1 95 5 40.00 0.00
DATA_B2 90 10 72.73 0.00
DATA_B3 80 20 100 0.00
DATA_B4 70 30 100 8.57
DATA_B5 60 40 100 5.00
DATA_B6 50 50 80 0.80
Berdasarkan keseluruhan pengujian yang
dilakukan terhadap dataset pada Tabel 4.4, terlihat
bahwa model TAN ClassifierBayesian Network yang
terbentuk berbeda-beda. Secara umum dapat diambil
kesimpulan ketika data training dengan jumlah yang
sama namun proporsi data normal dan data intrusi
diubah-ubah, ternyata mempengaruhi model TAN
Classifier BN.
Grafik 4-1 Hasil performansi sistem dari tiap dataset
Skenario B
Semakin kecil proporsi data intrusi pada
data training, ternyata model TAN BN yang
terbentuk juga hanya beberapa feature saja. Untuk
DATA_B1 dan DATA_B2 menghasilkan model
TAN BN dengan node kurang dari 8. Sebaliknya
semakin besar data intrusi pada data training, model
TAN BN yang dihasilkan memiliki node lengkap dari
8 feature. Namun bentuk model TAN Classifier BN
yang lengkap belum tentu menghasilkan performansi
sistem yang optimal.
Gambar 4-2 Model TAN BN Data TRAN_B7-3
Berdasarkan Tabel 4.2, DATA_B4 memiliki
hasil performansi paling optimal yaitu DR 100% dan
FPR 0%. Nilai Detection Rate 100%. Artinya sistem
mampu mendeteksi seluruh intrusi dengan
benar.Sedangkan nilai False Positive Rate 0%,
artinya tidak ada data normal pada data testing yang
terdeteksi sebagai intrusi.Semakin kecil nilai FPR
maka semakin bagus performansi sistem. Hasil
performansi tersebut mencapai optimal karena
menggunakan proporsi data training dan testing pada
pengujian skenario A yaitu 90% data train dan 10%
data test. Semakin banyak data yang di-training maka
model TAN BN yang dihasilkan semakin bagus
untuk proses klasifikasi. Berikut ini tabel
perbandingan hasil performansi dengan karakteristik
data yang sama, namun proporsi data normal dan data
intrusi berbeda.
Tabel 4-3 Tabel Perbandingan Hasil Performansi
dengan penelitian sebelumnya
Nama
dataset
Data
train
Data
test
Data
normal
Data
intrusi
DR FPR
Skenario
A
DATA_
A1
90% 10% 60% 40% 100
%
1,67
%
Skenario
B
DATA_
B3
90% 10% 80% 20% 100
%
0%
Berdasarkan Tabel 4.3, dengan proporsi data
normal 80% dan data intrusi 20% menghasilkan
performansi sitem yang lebih tinggi dari hasil
skenario A. Jadi secara umum dapat diambil
kesimpulan bahwa perfomansi sistem yang lebih
bagus yaitu skenario B pada daset DATA_B3.
DATA_B3 menghasilkan model TAN Classifier
tanpa feature land, ternyata menghasilkan
performansi yang lebih bagus. Proporsi data normal
0
20
40
60
80
100
120
B1 B2 B3 B4 B5 B6
DR
FPR
Class
Service0.205914
Protocol_type
0.0569997
Is_guess_login
0.0195168
Logged_In
0.0483736
Wrong_fragment
0.0716679
Land0.0028032
Root_shell0.0028032
Num_failed_logins
0.0056359
80% dan data intrusi 20% pada data training dan data
testing, ternyata memberikan pengaruh yang lebih
bagus daripada proporsi data asli 10% KDD Cup 99
yaitu nilai DR 100% dan nilai FPR 0%.
Secara keseluruhan dari hasil performansi
sistem, model Bayesian Network membutuhkan data
training yang lebih besar dari data testing. Idealnya
untuk sistem ini yaitu 90% data training dan 10%
data testing. Sedangkan dari segi proporsi data
normal dan data intrusi untuk Anomaly detection,
ternyata untuk data normal haruslah lebih besar dari
data intrusi.
5. Kesimpulan
Berdasarkan hasil pengujian dan analisis yang
telah dilakukan pada Tugas Akhir ini, diperoleh
beberapa kesimpulan sebagai berikut:
1. Faktor yang mempengaruhi pembentukan model
TAN Classifier yaitu jumlah record,jumlah
atribut, dan jumlahvalue tiap atribut pada data
training. Karena pada TAN Classifier
melibatkan ketergantungan antar atribut yang
dibangun menggunakan Algoritma CI Test.
2. Proporsi data training dan data testing yang
optimal untuk membangun model TAN
Classifier dengan hasil performansi yang optimal
yaitu dengan proporsi 90% data training dan
10% data testing. lebih besar dari 50%. Semakin
banyak data training semakin optimal Bayesian
Network yang terbentuk.
3. Pengambilan sample untuk proporsi data normal
dan data intrusi pada data training sangat
berpengaruh terhadap pembentukan model TAN
Classifier. Secara umum dapat diambil
kesimpulan bahwa proporsi data normal pada
Anomaly detection ini haruslah lebih besar dari
data intrusi. Dari hasil pengujian proporsi data
yang menghasilkan performansi optimal yaitu
80% data normal dan 20% data intrusi.
4. Algoritma Bayesian Network TAN Classifier
bisa diimplementasikan untuk anomaly detection
pada IDS dengan performansi yang baik, yaitu
dari detection rate 100% dan false alarm rate 0%.
Hal ini dikarenakan model klasifikasi pada TAN
dibangun menggunakan CI Test Based
Algorithms menghasilkan nilai akurasi yang rata-
rata lebih tinggi di bandingkan dengan Bayesian
Network biasa (misalnya Naïve Bayes). Hal ini
menunjukan pengaruh ketergantungan diantara
atribut pada TAN dapat menaikkan nilai akurasi
jika di bandingkan dengan Bayesian Network
lain yang hanya mempunyai ketergantungan
setiap atribut dengan kelasnya saja.
Daftar Pustaka:
[1] Afianti Mira, 2011, “Implementasi Algoritma Y-
Means sebagai Anomaly Detection (Studi
Kasus:Intrusion Detection System)”, IT Telkom
Bandung.
[2] Amanda Delamer,2002,"Intrusion Detection with
Data Mining" Donau-Universität Krems, Dublin.
[3] Baesens, B., M. Egmont Petersen., R. Castelo., J.
Vanthienen. “Learning Bayesian Network
Classifiers for Credit Scoring using Markov
Chain Monte Carlo Search”. K.U.Leuven Dept.
of Applied Economic Sciences Naamsestraat,
Leuven, Belgium.
www.cs.uu.nl/research/techreps/repo/CS-
2001/2001-58.pdf.
[4] Bringas, Pablo G. dan Igor Santos. Bayesian
Networks for Network Intrusion Detection,
[5] Cemerlic Alma, Li Yang, Joseph M. Kizza.
Network Intrusion Detection Based on Bayesian
Networks. Diakses pada 21 Maret 2011 di
http://www.utc.edu/Faculty/Li-
Yang/MyPaper/SEKE08-Cemerlic-Yang.pdf
[6] Charles River Analytics, Inc, 2004, “About
Bayesian Belief Networks”, Cambridge.
www.cra.com. Page 2.
https://www.cra.com/pdf/BNetBuilderBackgroun
d.pdf.
[7] Cheng, Jie, dkk, ”An Algorithms for Bayesian
Belief Network Construction from Data”. School
of Information and Software Engineering
University Ulster. Northern Ireland.
[8] Chia-Ping Chen, “Entropy and Mutual
Information Notes on Information Theory”,
Department of Computer Science and
Engineering, National Sun Yat-Sen University,
Kaohsiung, Taiwan ROC.
[9] Firmansyah, Ivan Suci. IP Network-Packet
Shared Media pada Mesin Cluster Intrusion
Detection System. diakses pada 24 Maret 2011
http://budi.insan.co.id/courses/el695/projects200
2-2003/ivan-report.pdf
[10] Fradhany Yustiar, 2008, “Learning Klasifikasi
Bayesian Network Menggunakan Algoritma
Conditional Independence Test”, IT Telkom
Bandung.
[11] Ghorbani A., Guan Yu, dkk. 2003. “Y-Means:
A Clustering Method for Intrusion Detection”,
Proceedings of the IEEE Canadian Conference
on Electrical and Computer Engineering.
Montreal, Canada. pp 87-99.
[12] H. Güneş Kayacık, A. Nur Zincir-Heywood,
Malcolm I. Heywood “Selecting Features for
Intrusion Detection:A Feature Relevance
Analysis on KDD 99 Intrusion Detection
Datasets”, Dalhousie University.
[13] Heckerman, David, 1995, “A Tutorial on
Learning With Bayesian Networks”, Advanced
Technology Division. Microsoft Corporation.
[14] Heckerman, David. Bayesian Networks for Data
Mining. 1997 diakses pada 21 Maret 2011 di
http://www.springerlink.com
[15] Hernández- Pereira E.,Suárez-RomeroJ. A., dkk.
2009. “Conversion methods for symbolic
features: A comparison applied to an intrusion
detection problem”, Expert System With
Applications, Vol. 36(2009) 10612-10617.
[16] Jiang, Liangxiao, Harry Zhang, Jiang Su,
“Learning Tree Augmented Naïve Bayes for
Ranking”, Department of Computer Science,
China University of Geosciences. Wuhan, China.
www.ai.mit.edu/projects/jmlr/papers/volume3/li
ng02a/top.pdf
[17] Jiawei Han, Micheline Kamber, 2001, “Data
Mining : Concepts and Techniques”, Simon
Fraser University.
[18] Kannan, Sivanadiyan Sabari. 2005.Y-Means
Clustering Vs N-CP Clustering With Canopies
for Intrusion Detection. Thesis. Oklahoma State
University.
[19] Leung, Kingsly & Christopher Leckie.
Unsupervised Anomaly Detection in Network
Intrusion Detection Using Cluster.
[20] M. Tavallaee, E. Bagheri, W. Lu, dan A.
Ghorbani. 2009. “A Detailed Analysis of the
KDD CUP 99 Data Set”. Second IEEE
Symposium on Computational Intelligence for
Security and Defense Applications (CISDA).
[21] Pang-Ning Tan, Vipin Kumar, Michael
Steinbach, 2004, “Introduction to Data Mining”,
Michigan State University, University of
Minnesota.
[22] Munir, Rinaldi. 2008. Diktat Kuliah IF2091
Struktur Diskrit. Program Studi Teknik
Informatika, Sekolah Tinggi Teknik Elektro dan
Informatika, Institut Teknologi Bandung.
[23] Tran, D., Wanli Ma, Sharma, D. 2008.
"Automated network feature weighting-based
anomaly detection," Intelligence and Security
Informatics, IEEE International Conference on ,
pp.162-166.