Anomaly Detection pada Intrusion Detection System ?· Anomaly Detection pada Intrusion ... nominal dengan…

Download Anomaly Detection pada Intrusion Detection System ?· Anomaly Detection pada Intrusion ... nominal dengan…

Post on 31-Aug-2018

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

<ul><li><p>Anomaly Detection pada Intrusion Detection System (IDS) Menggunakan Metode Bayesian </p><p>Network </p><p> Oktavia Ari Marlita</p><p>1, Adiwijaya</p><p>2, Angelina Prima Kurniati</p><p>1 </p><p> 1Fakultas Informatika dan </p><p>2Fakultas sains </p><p>Institut Teknologi Telkom, Bandung 40257 </p><p> 1oktavia.ari.marlita@gmail.com, adiwijaya@ittelkom.ac.id, apk@ittelkom.ac.id </p><p> Abstrak </p><p>Intrusion Detection System (IDS) merupakan sistem yang dapat mendeteksi adanya intrusi atau gangguan </p><p>pada suatu jaringan atau sistem informasi. Salah satu jenis IDS adalah anomaly detection dimana suatu data trafik </p><p>jaringan akan dikatakan intrusi apabila mempunyai karakteristik yang berbeda dari kebanyakan data lainnya. </p><p>Anomaly detection dapat mendeteksi serangan dalam host atau network yang menyimpang dari aktivitas normal </p><p>berdasarkan probabilitas statistika. Statistical anomaly detection tidak memiliki model intelligent learning yang </p><p>mungkin menyebabkan false alarm memiliki tingkat deteksi tinggi.Metode yang digunakan sistem adalah Bayesian </p><p>Network TAN Classifier.CI Test merupakan salah satu algoritma yang handal untuk membangun Model TAN </p><p>Classifier untuk klasifikasi. Dengan representasi grafis gabungan dari probabilitas fungsi distribusi lebih dari satu </p><p>set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic Graph (DAG) di mana setiap node </p><p>berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantungan antar variabel-</p><p>variabel yang terhubung. Data trafik jaringan melalui proses training untuk membentuk model TAN Classifier, </p><p>kemudian dilakukan proses testing. Pengujian dilakukan dengan beberapa skenario untuk mengetahui akurasi sistem </p><p>dilihat dari nilai detection rate (DR) dan false positive rate (FPR), pengaruh proporsi data training dan data testing, </p><p>serta pengaruh proporsi data normal dan data intrusi pada masing-masing dataset. Bayesian Network dapat </p><p>mendeteksi intrusi, dengan DR sebesar 100% dan FPR 0%. </p><p>Kata kunci: intrusi, Intrusion Detection System,anomaly detection, Bayesian Network, TAN Classifier </p><p>1. Abstract Intrusion Detection System (IDS) is a system that can detect any intrusion or interference on a network or </p><p>information systems. One type of IDS is anomaly detection in which a data network traffic if the intrusion would be </p><p>said to have characteristics different from most other data. Anomaly detection can detect the attack on host or </p><p>network who deviate from normal activities based on statistical probability. Statistical anomaly detection does not </p><p>have a model of intelligent learning that may lead to false alarms have a high detection rate. The method used is a </p><p>system of TAN Bayesian Network Classifier. CI Test is one of a reliable algorithm to build classification models for </p><p>the TAN Classifier. With a graphical representation of the joint probability distribution function over a set of </p><p>variables. The network structure is represented as a Directed acyclic Graph (DAG) where each node corresponds to </p><p>a random variable and each edge shows the dependency relationships among the variables are connected. Data </p><p>network traffic through the training process to form a model of TAN Classifier, then do the testing. Tests carried out </p><p>with several scenarios to determine the accuracy of the detection system is seen rate (DR) and false positive rate </p><p>(FPR), the influence of the proportion of training data and testing the data, as well as the influence of the </p><p>proportion of normal data and data intrusion on each dataset. Bayesian Network can detect the intrusion, the DR of </p><p>100% and 0% FPR. </p><p>Kata kunci: intrusi, Intrusion Detection System, anomaly detection, Bayesian Network, TAN Classifier </p><p> 1. Pendahuluan Data dan informasi sensitif dalam skala </p><p>besar diproses dalam jaringan komputer. Sehingga </p><p>diperlukan suatu sistem keamanan dalam jaringan </p><p>komputer yang tahan dan toleran terhadap intrusi </p><p>jaringan. Intrusi jaringan merupakan upaya untuk </p><p>mendapatkan akses ilegal keresource jaringan atau </p><p>mem-by-pass sistem keamanan yang ada. </p><p>Upaya itu dapat dilakukan dengan mengakses sistem </p><p>melalui Internet, maupun melalui celah keamanan </p><p>jaringan lainnya. Oleh karena itu, Intrusion Detection </p><p>System (IDS) diperlukan untuk mengatasi </p><p>permasalahan tersebut. Intrusion detection adalah </p><p>suatu proses monitoring kejadian yang terjadi pada </p><p>sistem komputer atau jaringan serta menganalisisnya </p><p>mailto:oktavia.ari.marlita@gmail.commailto:adiwijaya@ittelkom.ac.idmailto:apk@ittelkom.ac.id</p></li><li><p>untuk mengetahui aktivitas tersebut termasuk normal </p><p>atau intrusi. </p><p>Anomaly detection dapat mendeteksi </p><p>serangan dalam host atau network yang menyimpang </p><p>dari aktivitas normal berdasarkan probabilitas </p><p>statistika. Statistical anomaly detection tidak </p><p>memiliki model intelligent learning yang mungkin </p><p>menyebabkan false alarm memiliki tingkat deteksi </p><p>tinggi. Anomaly detection menggunakan pendekatan </p><p>unsupervised learning (tidak ada intelligent </p><p>learning), yang mampu mendeteksi intrusi tanpa </p><p>harus mempelajari data sebelumnya[9]. Misuse </p><p>detection/signature analysis membutuhkan akses ke </p><p>database besar dari signatureintrusion yang </p><p>diketahui. Detektor melakukan analisis terhadap </p><p>aktivitas sistem, mencari event atau set event yang </p><p>cocok dengan pola perilaku yang dikenali sebagai </p><p>serangan. </p><p>Bayesian Network (BN) adalah representasi </p><p>grafis dari gabungan dari probabilitas fungsi </p><p>distribusi lebih dari satu set variabel. Struktur </p><p>jaringan direpresentasikan sebagai Directed Acyclic </p><p>Graph (DAG) di mana setiap node berkorespondensi </p><p>dengan variabel acak dan setiap edge menunjukkan </p><p>hubungan ketergantunga antar variabel-variabel yang </p><p>terhubung [5]. Setiap variabel memiliki satu finite set </p><p>mutually exclusive states. </p><p>Dalam jurnal ini metode Bayesian Network </p><p>yang digunakan yaitu Tree Augmented Naive Bayes </p><p>(TAN)classifier. Adaptive network IDS dengan </p><p>medote BN mengambil data offline dari dataset KDD </p><p>Cup tahun 1999 untuk mengukur kelayakan dan </p><p>efektivitas sistem. Tipe datanya ada kontinu dan </p><p>nominal dengan mengambil 9 dari 41 features </p><p>termasuk unbalanced data[12]. Karena setiap </p><p>variabel (node) dalam BN dikaitkan dengan </p><p>Conditional Probability Tabel (CPT), yang </p><p>menyebutkan probabilitas bersyarat untuk variabel </p><p>yang memberikan semua kombinasi induknya. </p><p>Akurasideteksi intrusi dapat dilihat dari seberapa </p><p>dekat kah data klasifikasi dengan data asli. Dengan </p><p>BN sebagai model yang ideal untuk menggabungkan </p><p>priorknowledge sebelumnya dengan data baru dan </p><p>menyimpulkan menjadi posterior knowledge. Oleh </p><p>karena itu, Bayesian Network dengan TAN classifier </p><p>diharapkan dapat meningkatkan tingkat akurasi IDS. </p><p>2. Landasan Teori 2.1 Intrusion Detection System (IDS) Intrusion detection adalah suatu proses </p><p>monitoring kejadian yang terjadi pada sistem </p><p>komputer atau jaringan serta menganalisisnya untuk </p><p>mengetahui aktivitas tersebut termasuk normal atau </p><p>intrusi.Model proses dari IDS ada 3 fungsi dasar, </p><p>yaitu: pertama, pengambilan data dari berbagai level </p><p>dari sistem seperti network, host,dan application. </p><p>Kedua, analisis data yang diperoleh untuk mengenali </p><p>intrusi. Terakhir, respon terhadap serangan.Secara </p><p>umum prinsip proses kerja dari sistem deteksi intrusi </p><p>dapat digambarkan sebagai berikut[2]: </p><p>Gambar 2-1 : Proses kerja sistem deteksi intrusi </p><p>Keterangan: </p><p>1. Input (Even Information) Sumber data yang akan digunakan untuk mendeteksi </p><p>intrusi didapat dari bermacam-macam sumber, antara </p><p>lain: host, network maupun application. </p><p>2. Activity (Analysis) Untuk melakukan analisis mendeteksi intrusi, </p><p>pendekatan yangsecara umum dilakukan adalah </p><p>dengan pendekatan misuse dan anomalydetection. </p><p>Misuse detection adalah pendekatan untuk mengenali </p><p>intrusiberdasarkan pengetahuan atau data mengenai </p><p>ciri-ciri intrusi yang telahdidefinisikan sebelumnya </p><p>[2]. Sedangkan anomaly detection mendeteksiintrusi </p><p>dari deviasi kelakuan umum data normal lainnya. </p><p>3. Output (Response) Output (response) adalah mengklasifikasikan apakah </p><p>sebuah data tersebut normal atau termasuk intrusi. </p><p>Respon intrusi dapat berupa respon aktif yaitu </p><p>mengeluarkan alarm dan mengamankan sistem </p><p>ataupun respon pasif berupa laporan ditemukan </p><p>adanya intrusi. </p><p>2.2 Bayesian Network Bayesian Network (BN) adalah representasi grafis </p><p>dari gabungan dari probabilitas fungsi distribusi lebih </p><p>dari satu set variabel. Struktur jaringan </p><p>direpresentasikan sebagai Directed Acyclic Graph </p><p>(DAG) di mana setiap node berkorespondensi dengan </p><p>variabel acak dan setiap edge menunjukkan </p><p>hubungan ketergantunga antar variabel-variabel yang </p><p>terhubung [6]. Setiap variabel memiliki satu finite set </p><p>mutually exclusive states.Algoritma yang digunakan </p><p>untuk membangun model Bayesian Network yaitu </p><p>Conditional independence (CI) Test. Beberapa </p><p>karakteristik umum metoda BN sebagai berikut : </p><p>a. BN menyediakan pendekatan untuk menangkap pengetahuan sebelumnya (prior knowledge) dari </p><p>domain tertentu menggunakan pemodelan grafis. </p><p>Network juga dapat digunakan untuk </p><p>mengenkode dependensi kausal antar variabel. </p><p>b. Membangun network dapat menghabiskan waktu dan memerlukan usaha yang banyak. </p><p>Bagaimanapun, ketika struktur network telah </p><p>Input Activity Output </p><p>Event </p><p>information </p><p>from source </p><p>(host, network, </p><p>application) </p><p>Response </p><p>(action </p><p>taken or </p><p>detection) </p><p>Analysis </p><p>(misuse or </p><p>anomaly </p><p>detection) </p></li><li><p>ditentukan, menambahkan variabel baru dapat </p><p>dilakukan secara langsung. </p><p>c. BN sesuai untuk menangani data yang tidak lengkap. Instansiasi dengan atribut yang hilang </p><p>dapat ditangani dengan menjumlahkan atau </p><p>mengintegrasikan seluruh nilai atribut yang </p><p>mungkin. </p><p>2.3 Struktur Bayesian Network Pada umumnya struktur Bayesian Network </p><p>terdiri dari 2 bagian, yaitu[3]: </p><p>a. DAG (Directed Acyclic Graph) DAG ini terdiri dari nodes dan busur-busur (arcs) </p><p>yang menghubungkan antara node yang satu dengan </p><p>node yang lainnya. Node pada Bayesian Network </p><p>merepresentasikan variabel atau atribut.Sedangkan </p><p>busur merepresentasikan relasi ketergantungan atau </p><p>hubungan kausal antara dua node. </p><p> Gambar 2-3: Hubungan kausal antara dua buah </p><p>node </p><p>Pada BN, node terdiri dari dua jenis, yaitu nodeclass </p><p>dan node atribut. Nodeclass mewakili variabel class </p><p>yang merupakan target klasifikasi pada dataset, </p><p>sedangkan node atribut mewakili variabel-variabel </p><p>selain variabel class. Apabila dua buah node </p><p>dihubungkan oleh sebuah busur, maka kausal node </p><p>akan menjadi parent node dari node yang lain. </p><p>b. CPT (Conditional Probability Table) CPT merepresentasikan probabilitas berdasarkan </p><p>informasi prior. Secara matematis, sebuah </p><p>conditional probability dapat ditulis dengan </p><p>P(X=x|P1=p1, P2=p2, , Pn=pn) misalnya probabilitas </p><p>simpul X pada status x berdasarkan simpul orang tua </p><p>P1 pada status p1, simpul orang tua P2 pada status p2, </p><p>, dan simpul orang tua Pn pada status pn.Pada CPT </p><p>terdapat status dari tiap variabel yang merupakan </p><p>suatu nilai yang bisa diambil oleh node. </p><p> Gambar 2-4: Status pada parent node dan child </p><p>node. </p><p>Pada gambar 2-5 merupakan contoh penerapan dari </p><p>CPT. Misalkan nilai P(Road </p><p>Conditions=Impassable|Precipitation=Heavy). Sel </p><p>conditional probabilities tersebut memiliki makna: </p><p>Jika Precipitation berada pada status Heavy, maka </p><p>probabilitas Road Conditions berada pada status </p><p>Impassable yaitu 0.700. </p><p>status simpul orang tua</p><p>status simpul anak</p><p>Child Parent</p><p>Precipitation</p><p>LightRoad Conditions</p><p>None</p><p>Passable</p><p>Impassable</p><p>0.900</p><p>0.100 0.700</p><p>Heavy0.050</p><p>0.950 0.300conditional probabilities</p><p>Gambar 2-5: CPT antara node Precipitation dan </p><p>node Road Condition </p><p>2.3.1 Bayesian Network Tree Augmented Nave Bayes Classifier (TAN) </p><p>TAN classifier merupakan pengembangan dari Nave </p><p>Bayes classifier dimana antar node atribut dapat </p><p>saling memiliki ketergantungan. Sama seperti pada </p><p>NB, setiap variabel merupakan directly dependent </p><p>pada variabel class tetapi diantara variabel tersebut </p><p>juga bisa dimungkinkan ber- conditionaldependent </p><p>satu sama lain [3]. </p><p> Gambar 2-6: TAN Classifier </p><p>Misalkan E= (a1, a2, ..., an) merupakan record data </p><p>yang akan diklasifikasi, di mana ai adalah status </p><p>simpul atribut Ai. Pada pengklasifikasian data, TAN </p><p>classifier akan memilih status simpul class yang </p><p>memiliki probabilitas paling besar berdasarkan E </p><p>[13]: </p><p> (2.1) </p><p>di mana aiadalah status simpul atribut Ai, aipadalah </p><p>status simpulatribut Aip dan cjadalahstatussimpul </p><p>classC. Aip dan C merupakan orang tua simpul atribut </p><p>Ai, dan </p><p> (2.2) </p><p>Precipitation</p><p>Road</p><p>Conditions</p><p>simpul orang tua</p><p>simpul anak</p><p>Precipitation</p><p>Road</p><p>Conditions</p><p>status simpul orang tua</p><p>status simpul anak</p><p>Status</p><p>None</p><p>Light</p><p>Heavy</p><p>Status</p><p>Impassable</p><p>Passable</p><p>c</p><p>a3</p><p>a1</p><p>a4</p><p>a2</p><p>n</p><p>i</p><p>jipijcc caaPcPEC j1</p><p>tan ),|()(maxarg)(</p><p>}{),|(</p><p>}{),,|()),|(</p><p>ipji</p><p>pijpi</p><p>jpiiAcaP</p><p>AcaiaPcaaP</p></li><li><p>Nilai P(cj), P(ai|cj) diestimasi menggunakan Laplace </p><p>estimation </p><p> (2.3) </p><p> (2.4) </p><p>Keterangan: </p><p>t = jumlah instan pada data training </p><p>k = jumlah status pada simpul class </p><p>vi= jumlah status pada simpul atribut Ai nj = jumlah data training dengan C = cj </p><p>nij = jumlah data training dengan C = cj dan Ai = ai </p><p>Nilai P(cj), P(ai|cj), dan P(ai|aip,cj) diestimasi </p><p>menggunakan Laplace estimation. </p><p> (2.5) </p><p>Keterangan: </p><p>vi = jumlah status pada simpul atribut Ai nipj = jumlah record pada data training dengan </p><p>Aip=aipdan C=cj </p><p>niipj = jumlah record pada datatraining dengan Ai=ai, </p><p>Aip=aip, dan C=cj </p><p>TAN classifier membangun model klasifikasi BN </p><p>berdasarkan pada dataset. Berbeda dengan Naive </p><p>Bayes pada TAN bisa terjadi hubungan conditional </p><p>diantara atribut. Algoritma yang digunakan untuk </p><p>membangun model yaitu algoritma conditional </p><p>independence test based. Pembangunan yang </p><p>dilakukan didasarkan pada perhitungan mutual </p><p>information dan conditional mutual information, </p><p>yaitu seperti langkah di bawah ini [9]: </p><p>1. Hitung conditional mutual information </p><p>I(Ai,Aj|C),i j, di antara masing-masing </p><p>pasangan variabel atribut, kemudian hitung </p><p>thresholdConditional mutual information </p><p>dihitung dengan persamaan (2.5), sedangkan </p><p>thresholddihitung dengan persamaan (2.6). </p><p>2. Bangun graf lengkap tak berarah di mana simpul-simpulnya merupakan variabel atribut Ai, </p><p>i=1,2,...,n. Sisi penghubung Ai ke Aj diberi bobot </p><p>dengan I(Ai,Aj|C). </p><p>3. Cari pohon merentang dengan bobot maksimum dengan algoritma Kruskal. Yaitu dengan </p><p>memotong busur yang mempunyai nilai IC </p><p>minimum, dengan jumlah yang dipotong tidak </p><p>melebihi sisa busur yang tersedia. </p><p>4. Hitung mutual information I(Ai,C), i=1,2,,n antara masing-masing variabel atribut dengan </p><p>variabel class, kemudian pilih variabel atribut </p><p>yang mempunyai nilai mutual information </p><p>tertinggi untuk menjadi simpul Aroot. Mutual </p><p>information dihitung dengan persamaan (2.4). </p><p>5. Ubah pohon tak berarah menjadi pohon berarah dengan membuat simpul Aroot sebagai orang tua </p><p>dan membuat arah panah dari semua busur </p><p>keluar dari simpul Aroot. </p><p>6. Hapus busur berarah yang memiliki bobot conditional mutual information di bawah nilai </p><p>threshold . </p><p>7. Bangun model TAN dengan menambahkan variabel class sebagai simpul class dan </p><p>tambahkan busur berarah dari simpul class ke </p><p>masing-masing simpul atribut Ai, i=1,2,,n. </p><p>2...</p></li></ul>