identifikasi pelanggan potensial produk asuransi dengan teknik klasifikasi
TRANSCRIPT
SKRIPSI
IDENTIFIKASI PELANGGAN POTENSIAL PRODUK ASURANSI
DENGAN TEKNIK KLASIFIKASI
IDENTIFYING POTENTIAL CUSTOMERS OF INSURANCE PRODUCT
WITH CLASSIFICATION TECHNIQUES
ADHITYA AKBAR
10/297716/PA/13065
PROGRAM STUDI STATISTIKA
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
YOGYAKARTA
2015
i
SKRIPSI
IDENTIFIKASI PELANGGAN POTENSIAL PRODUK ASURANSI
DENGAN TEKNIK KLASIFIKASI
IDENTIFYING POTENTIAL CUSTOMERS OF INSURANCE PRODUCT
WITH CLASSIFICATION TECHNIQUES
Diajukan untuk memenuhi salah satu syarat memperoleh derajat
Sarjana Sains Matematika
ADHITYA AKBAR
10/297716/PA/13065
PROGRAM STUDI STATISTIKA
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
YOGYAKARTA
2015
ii
iii
PERNYATAAN
Dengan ini saya menyatakan bahwa Skripsi ini tidak terdapat karya yang
pernah diajukan untuk memperoleh gelar kesarjanaan di suatu Perguruan Tinggi,
dan sepanjang pengetahuan saya juga tidak terdapat karya atau pendapat yang
pernah ditulis atau diterbitkan oleh orang lain, kecuali yang secara tertulis diacu
dalam naskah ini dan disebutkan dalam daftar pustaka.
Yogyakarta, April 2015
Adhitya Akbar
iv
HALAMAN PERSEMBAHAN
Adalah aku yang datang ke kota ini
Ditemani secangkir ekspektasi
Harapan yang bervariasi
Ikatan persahabatan yang terakumulasi
Tawa, canda, serta afeksi
Yakinkan ku akan opsi ini
Atmosfer yang takkan mati
Adalah aku yang kan pergi
Kunjungan singkat nan berarti
Bagiku kau tak terganti
Ajarkan ku filosofi
Ronde yang baru t’lah menanti~
(Akbar, 2015)
“Hasil akhir tidak akan pernah
mengkhianati prosesnya”
–Metta Khairinnisa, seorang teman.
Skripsi ini saya persembahkan untuk ...
Kedua orang tua yang telah membesarkan dan
membiayai selama ini.
v
KATA PENGANTAR
Assalamu’alaikum Wr.Wb.
Alhamdulillah, segala puji dan syukur ke hadirat Allah SWT, karena atas
berkah dan rahmat-Nya penulis dapat menyelesaikan skripsi yang berjudul
“Identifikasi Pelanggan Potensial Dengan Teknik Klasifikasi” ini dengan baik dan
dalam tempo yang sesingkat-singkatnya, sebagai salah satu syarat untuk
memperoleh gelar kesarjanaan di program studi Statistika UGM.
Penulis juga ingin menyampaikan rasa terima kasih kepada semua pihak yang
telah memberikan inspirasi, motivasi, maupun waktunya baik secara langsung
maupun tidak langsung, secara sadar maupun tidak sadar, tidak hanya untuk
pembuatan skripsi ini, tetapi juga selama penulis tinggal di Daerah Istimewa
Yogyakarta yang memang istimewa ini. Rasa terima kasih tersebut penulis tujukan
secara umum maupun khusus untuk :
1. Daerah Istimewa Yogyakarta dengan segala atribut di dalamnya.
2. Universitas Gadjah Mada dengan segala atribut di dalamnya.
3. FMIPA UGM dengan segala atribut di dalamnya.
4. Statistika UGM dengan segala atribut di dalamnya.
5. Drs. Pekik Nurwantoro, M.S., Ph.D., dekan FMIPA UGM.
6. Dr. Abdurakhman, S.Si., M.Si., kepala prodi Statistika UGM.
7. Drs. Zulaela, Dipl.Med.Stats., M.Si, sekretaris prodi Statistika UGM
sekaligus dosen pembimbing Kerja Praktek dan Skripsi.
8. Seluruh dosen dan staf prodi Statistika UGM.
9. Statistika 2010 UGM, teman seangkatan, seperjuangan, sepetualangan,
seperjalanan, dan sepermainan. Semoga kita semua bisa bertemu lagi
nanti dalam kondisi yang membahagiakan, aamiin.
10. Seluruh kakak angkatan dan adik angkatan Statistika UGM yang penulis
kenal maupun kenal penulis.
vi
11. Pasukan Kontrakan yang telah menemani selama kurang lebih 3 tahun:
Ibas alias Mamak, El alias Miftah alias Gendut alias Babon, Aris alias
Pato alias Supato, Trisna alias Jack alias Megalomen (nama samaran–
red), Mefhan alias Handuk alias Handoko alias Cina (sori, no rasis) plus
anggota terbaru setahun terakhir, Tabah alias Wisnu alias Viaztri (fix
gagal).
12. Teman awal kuliah, Calvin, kk Eska, dkk.
13. Kosan Byarpet, Kontrakan Lempongsari, Kontrakan Nologaten, dan
Kosan F15 Klebengan.
14. Anggota tetap Pasukan Makan F15 : mamang Pras, Dani, dan Joe.
15. Forum Mahasiswa Universitas Gadjah Mada 2010.
16. Internet dan laptop dengan segala fungsinya.
17. Supra Fit AB 5234 AI alias Supri, kendaraan penulis selama tinggal di
Jogja yang telah menempuh puluhan ribu kilometer perjalanan.
18. Seluruh manusia yang penulis kenal maupun kenal penulis, khususnya
selama penulis berada di Jogja.
Penulis telah berusaha membuat skripsi ini dengan sebaik mungkin yang
penulis dapat lakukan. Akan tetapi, tidak menutup kemungkinan adanya kesalahan
dalam penulisan ataupun kesalahan lainnya, untuk itu penulis mohon maaf. Akhir
kata, semoga skripsi ini dapat berguna bagi diri penulis sendiri maupun para
pembaca nantinya, aamiin.
Wassalamu’alaikum Wr. Wb.
Yogyakarta, April 2015
Penulis
vii
DAFTAR ISI
HALAMAN JUDUL ...........................................................................................i
HALAMAN PENGESAHAN .............................................................................ii
PERNYATAAN ..................................................................................................iii
HALAMAN PERSEMBAHAN .........................................................................iv
KATA PENGANTAR ........................................................................................v
DAFTAR ISI .......................................................................................................vii
DAFTAR TABEL ............................................................................................... x
DAFTAR GAMBAR .......................................................................................... xi
INTISARI ............................................................................................................ xii
ABSTRACT ........................................................................................................ xiii
BAB I. PENDAHULUAN
1.1. Latar Belakang Masalah ............................................................................ 1
1.2. Tujuan Penulisan ....................................................................................... 1
1.3. Pembatasan Masalah ................................................................................. 2
1.4. Metode Penulisan ...................................................................................... 2
1.5. Tinjauan Pustaka ....................................................................................... 2
1.6. Sistematika Penulisan ................................................................................ 2
BAB II . LANDASAN TEORI
2.1. Data Mining ............................................................................................... 4
2.1.1. Karakteristik data mining .............................................................. 4
2.1.2. Pengelompokkan data mining .................................................... 5
2.1.3. Tahapan data mining ..................................................................... 7
2.1.4. Metode data mining ...................................................................... 10
2.2. Klasifikasi .................................................................................................. 10
2.2.1. Model klasifikasi .......................................................................... 11
2.2.2. Tujuan klasifikasi........................................................................... 11
2.2.3. Konsep pembuatan model dalam klasifikasi ................................ 11
viii
2.3. Probabilitas ...............................................................................................13
2.4. Probabilitas Bersyarat, Distribusi Bersyarat, dan Kejadian Independen
..................................................................................................................15
2.5. Teorema Bayes .........................................................................................16
2.5.1. Probabilitas prior dan posterior ................................................... 17
2.5.2. Rumus bayes dan fungsi likelihood ............................................. 17
2.6. Receiver Operating Charateristic (ROC) .................................................18
BAB III. KLASIFIKASI DENGAN DATA MINING
3.1. Decision Tree ............................................................................................21
3.1.1. Konsep decision tree ....................................................................21
3.1.2. Tipe simpul pada tree ...................................................................22
3.1.3. Proses pembentukan decision tree ............................................... 23
3.1.4. Information gain ........................................................................... 24
3.1.5. Entropy ......................................................................................... 25
3.1.6. Penanganan data kontinu .............................................................. 26
3.1.7. Support dan confidence ................................................................ 27
3.1.8. Menyederhanakan rule ................................................................. 28
3.1.9. Kelebihan dan kekurangan ........................................................... 30
3.2. Naive Bayes ...............................................................................................30
BAB IV. KLASIFIKASI DENGAN DATA MINING PADA INSURANCE
CUSTOMER LIFETIME DATASET
4.1. Studi Kasus ................................................................................................35
4.2. Deskripsi Data ...........................................................................................36
4.3. Persiapan dan Pembagian Dataset ............................................................ 39
4.4. Pengaturan Algoritma dalam Software Oracle SQL Developer 4.0.3 ......42
4.5. Hasil Simulasi ............................................................................................43
4.5.1. Decision tree .................................................................................44
4.5.2. Naive bayes ...................................................................................45
ix
4.6. Menentukan Model Klasifikasi Terbaik ...................................................46
4.7. Model Decision Tree dalam Data ............................................................ 49
4.7.1. Penentuan cutoff dan uji independensi hasil tree ......................... 51
4.7.2. Rules ............................................................................................. 59
4.8. Simulasi dengan Menggunakan Data Nasabah Baru .................................62
BAB V. KESIMPULAN .................................................................................... 66
DAFTAR PUSTAKA
LAMPIRAN
x
DAFTAR TABEL
Tabel 2.1 Kontingensi ROC ................................................................................19
Tabel 3.1 Tabel kontingensi ...............................................................................28
Tabel 4.1 Variabel-variabel independen .............................................................36
Tabel 4.2 Variabel dependen ..............................................................................38
Tabel 4.3 Variabel independen yang dipakai .....................................................39
Tabel 4.4 Pengkodean data kategorik ................................................................41
Tabel 4.5 Matrix performance klasifikasi ...........................................................43
Tabel 4.6 Matrix performance decision tree .......................................................44
Tabel 4.7 Matrix performance naive bayes.........................................................45
Tabel 4.8 Perbandingan overall accuray kedua model klasifikasi .................... 47
Tabel 4.9 Persentase average accuracy kedua model klasifikasi ...................... 48
Tabel 4.10 Persentase predictive confidence kedua model klasifikasi .............. 49
Tabel 4.11 Area di bawah kurva ROC ............................................................... 51
Tabel 4.12 Tabulasi silang bank_funds ............................................................. 51
Tabel 4.13 Tes chi-square bank_funds .............................................................. 52
Tabel 4.14 Tabulasi silang checking_amount .................................................... 53
Tabel 4.15 Tes chi-square checking_amount .................................................... 54
Tabel 4.16 Tabulasi silang credit_balance ......................................................... 55
Tabel 4.17 Tes chi-square credit_balance ......................................................... 56
Tabel 4.18 Tabulasi silang money_monthly_overdrawn ................................... 57
Tabel 4.19 Tes chi-square money_monthly_overdrawn ................................... 58
Tabel 4.20 Simulasi data nasabah baru .............................................................. 62
xi
DAFTAR GAMBAR
Gambar 2.1 Tahapan data mining ......................................................................8
Gambar 2.2 Klasifikasi sebagai suatu tugas memetakan atribut 𝑥 ke dalam label
kelas 𝑦 ............................................................................................10
Gambar 2.3 Proses klasifikasi .............................................................................12
Gambar 2.4 Kriteria ROC ...................................................................................22
Gambar 3.1 Konsep decision tree .......................................................................23
Gambar 3.2 Konsep data pada decision tree ..................................................... 24
Gambar 3.3 Mengubah bentuk data menjadi model tree .................................. 25
Gambar 3.4 Mengubah model tree menjadi rule .............................................. 25
Gambar 3.5 Kriteria uji independensi ............................................................... 29
Gambar 3.6 Skema naive bayes ........................................................................ 33
Gambar 4.1 Kurva ROC decision tree ............................................................. 44
Gambar 4.2 Kurva ROC naive bayes ............................................................... 45
Gambar 4.3 Perbandingan overall accuray kedua model klasifikasi ............... 45
Gambar 4.4 Perbandingan average accuracy kedua model klasifikasi ............ 46
Gambar 4.5 Perbandingan predictive confidence kedua model klasifikasi ...... 46
Gambar 4.6 Kurva ROC gabungan ................................................................... 47
Gambar 4.7 Model decision tree........................................................................ 48
xii
INTISARI
IDENTIFIKASI PELANGGAN POTENSIAL PRODUK ASURANSI
DENGAN TEKNIK KLASIFIKASI
Oleh :
Adhitya Akbar
10/297716/PA/13065
Pelanggan merupakan faktor keberhasilan yang utama dalam dunia bisnis.
Pelanggan juga merupakan aset yang berharga yang harus dipertahankan dan
ditingkatkan jumlahnya demi keuntungan yang maksimal. Untuk dapat
meningkatkan jumlah pelanggan, sebuah perusahaan/badan usaha harus dapat
mengidentifikasi dengan cermat orang-orang (pasar) yang berpotensi menjadi
pelanggan barunya. Identifikasi pelanggan potensial dimaksudkan agar kinerja
perusahaan dapat efisien dalam menjaring calon pelanggan baru (akuisisi).
Klasifikasi merupakan salah satu teknik data mining yang dapat melakukan
hal tersebut. Dua buah model klasifikasi menggunakan algoritma Decision Tree dan
Naive Bayes yang dibandingkan tingkat akurasinya dalam memprediksi pelanggan
potensial. Hasil penelitian menunjukkan Decision Tree sebagai model klasifikasi
yang lebih baik dari Naive Bayes pada kasus nasabah bank yang berpotensi untuk
membeli produk asuransi.
Kata kunci: Pelanggan Potensial, Data Mining, Klasifikasi, Decision Tree, Naive
Bayes.
xiii
ABSTRACT
IDENTIFYING POTENTIAL CUSTOMERS OF INSURANCE PRODUCT
WITH CLASSIFICATION TECHNIQUES
By :
Adhitya Akbar
10/297716/PA/13065
Customer is the main success factor in the business world. Customer also as
the valuable asset which has to be retained and to be increased by it’s number to get
the maximum profit. To increase the number of it’s customers, a
company/enterprise has to identify the people (market) who have the potential to
become their new customers. Identifying the potential customers has the function
to get the candidates of the new customers efficiently (acquisition).
Classification is one of the data mining techniques which can do that thing.
Two classification models using Decision Tree and Naive Bayes algorithm have
been compared for it’s accuracy rate to predict the potential customers. This
research shows Decision Tree as the classification model that better than Naive
Bayes in case of the bank’s customers which have the potential to buy the insurance
product.
Keywords: Potential Customer, Data Mining, Classification, Decision Tree, Naive
Bayes.
1
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Setiap perusahaan/badan usaha tidak terlepas dari aspek pelanggan
(customer). Mereka adalah faktor utama keberhasilan bisnis dari sebuah
perusahaan/badan usaha. Hal inilah yang melatarbelakangi setiap perusahaan/badan
usaha untuk merencanakan dan menggunakan strategi yang jelas dalam
memperlakukan pelanggannya. Dalam dunia bisnis terkait dengan aspek pelanggan,
dapat dibedakan menjadi 2 hal, yaitu mempertahankan pelanggan yang sudah ada
(retain) dan mencari pelanggan baru (acquisition). Dalam skripsi ini difokuskan
pada mencari pelanggan baru.
Pelanggan potensial adalah orang-orang (pasar) yang berpotensi besar untuk
dijadikan sebagai target pelanggan. Identifikasi pelanggan potensial dimaksudkan
agar kerja perusahaan dapat efisien dan tepat sasaran, sehingga dapat menghemat
waktu dan biaya operasional dalam merekrut calon pelanggan baru, dalam kasus ini
pelanggan produk asuransi.
Teknik klasifikasi pada data mining adalah salah satu teknik yang dapat
melakukan hal tersebut. Klasifikasi biasa dipakai untuk memprediksi suatu outcome
yang spesifik seperti ada/tidak adanya respon, rendah/sedang/tinggi nilai pelanggan
(customer value), atau kecenderungan untuk membeli/tidak membeli. Dalam
skripsi ini akan dibangun model dengan algoritma Decision Tree dan Naive Bayes
yang dibandingkan tingkat akurasinya untuk mengetahui model mana yang lebih
baik dalam memprediksi pelanggan potensial yang mempunyai kecenderungan
untuk membeli sebuah produk asuransi. Perhitungan dalam skripsi ini
menggunakan bantuan software Oracle SQL Developer versi 4.0.3.
1.2 Tujuan Penulisan
Tujuan penulisan skripsi ini adalah untuk :
1. Mengaplikasikan teknik data mining, khususnya dalam klasifikasi, yang
mencakup Decision Tree dan Naive Bayes.
2
2. Membandingkan kedua teknik klasifikasi tersebut untuk mendapatkan
model terbaik yang berguna untuk memprediksi pelanggan potensial di
masa mendatang.
1.3 Pembatasan Masalah
Pada penulisan skripsi ini, masalah dibatasi pada penggunaan 2 teknik
klasifikasi dalam data mining, yaitu Decision Tree dan Naive Bayes untuk
mengidentifikasi pelanggan potensial yang mempunyai kecenderungan untuk
membeli sebuah produk asuransi.
1.4 Metode Penulisan
Pada penulisan skripsi ini metode penulisan yang digunakan mengacu pada
studi literatur yang didapatkan dari jurnal–jurnal, perpustakaan, situs–situs
penunjang di internet, dan sumber–sumber lain yang menyediakan materi terkait
masalah yang dibahas kemudian mengaplikasikannya pada sebuah kasus real.
1.5 Tinjauan Pustaka
Sebagai acuan utama dalam penulisan skripsi ini adalah sebuah tutorial dari
situs resmi oracle (www.oracle.com) : Using Oracle Data Miner 11g Release 2 oleh
Brian Pottle sebagai pengembang kurikulum serta Charlie Berger, Mark Kelly,
Margaret Taft, dan Kathy Talyor sebagai kontributor teknik, yang kemudian
dibahas kembali dengan menggunakan software R oleh Han (2013) dalam
Identifying Potential Customers With Classification Techniques in R Language
pada situs www.dataapple.net dan www.r-bloggers.com.
Sebelumnya juga terdapat beberapa skripsi yang telah membahas Decision
Tree ataupun Naive Bayes, tetapi sepanjang pencarian penulis belum menemukan
yang memakai kedua teknik tersebut secara bersamaan ataupun memakai software
yang penulis gunakan ataupun memakai studi kasus yang sama dalam skripsi ini.
Di antara skripsi-skripsi tersebut antara lain :
o Penggunaan Data Mining Dengan Metode Decision Tree Untuk Prediksi
Resiko Kredit oleh Sitorus (2010), FMIPA UGM.
3
o Analisis Churn Pada Pelanggan Telekomunikasi Menggunakan Algoritma
C4.5 oleh Paratu (2013), FMIPA UGM.
o Klasifikasi dan Prediksi Keputusan Credit Scoring Berdasarkan Klasifier
Naive Bayes oleh Wulandari (2013), FMIPA UGM.
o Klasifikasi dan Prediksi Resiko Kredit Perbankkan Menggunakan
Algoritma Naive Bayes Dalam Data Mining oleh Juriah (2013), FMIPA
UGM.
1.6 Sistematika Penulisan
Sistematika penulisan skripsi ini yaitu :
BAB I PENDAHULUAN
Terdiri dari latar belakang masalah, tujuan penulisan, pembatasan masalah, metode
penulisan, tinjauan pustaka dan sistematika penulisan.
BAB II LANDASAN TEORI
Landasan teori berisi tentang pengertian dan konsep data mining, serta teori-teori
pendukung teknik klasifikasi Decision Tree dan Naive Bayes.
BAB III KLASIFIKASI DENGAN DATA MINING
Berisi teori tentang kedua teknik klasifikasi yang akan dipakai, yaitu Decision Tree
dan Naive Bayes.
BAB IV STUDI KASUS
Berisi pembahasan tentang pemodelan Decision Tree dan Naive Bayes pada sebuah
kasus real, lalu menentukan model terbaik dengan tingkat akurasi tertinggi sehingga
layak menjadi klasifikator.
BAB V KESIMPULAN
Berisi kesimpulan dari studi kasus yang dibahas.
4
BAB II
LANDASAN TEORI
2.1 Data Mining
Data mining (atau dalam bahasa Indonesia dapat diartikan sebagai
“penggalian data”) adalah ekstraksi pola yang menarik dari data dalam jumlah
besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit,
tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah
dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian
tertentu, berguna, dan baru. Data mining memiliki beberapa nama alternatif,
meskipun definisi eksaknya berbeda, seperti KDD (Knowledge Discovery in
Database), analisis pola, arkeologi data, pemanenan informasi, dan kecerdasan
bisnis (business intelligence). Data mining diperlukan saat data yang tersedia terlalu
banyak (misalnya data yang diperoleh dari sistem basis data perusahaan,
e-commerce, data saham, dan data bioinformatika), tetapi tidak tahu pola apa yang
bisa didapatkan.
Definisi 2.1 Data mining didefinisikan sebagai proses penemuan pola–pola dalam
data. Proses ini harus otomatis atau semiotomatis. Pola yang ditemukan harus
bermakna dan memberikan keuntungan, biasanya keuntungan secara ekonomi.
Data yang dibutuhkan dalam jumlah besar (Witten dan Frank, 2005).
2.1.1 Karakteristik data mining
Karakteristik data mining adalah sebagai berikut (Davies, 2004) :
a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan
pola data tertentu yang tidak diketahui sebelumnya.
b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang
besar digunakan untuk membuat hasil lebih dapat dipercaya.
5
c. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam
strategi.
2.1.2 Pengelompokkan data mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang
dapat dilakukan, yaitu (Larose, 2005) :
1. Deskripsi
Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara
untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai
contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan
atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam
pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan
kemungkinan penjelasan untuk suatu pola atau kecenderungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategorik. Model dibangun menggunakan
record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi.
Selanjutnya pada peninjauan berikutnya, estimasi nilai dari variabel target dibuat
berdasarkan nilai variabel prediksi.
Sebagai contoh akan dilakukan estimasi tekanan darah sistolik dari pasien
rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level
sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi
dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi
yang dihasilkan dapat digunakan untuk kasus baru lainnya. Contoh lain yaitu
estimasi nilai Indeks Prestasi mahasiswa program pascasarjana dengan melihat nilai
Indeks Prestasi mahasiswa tersebut pada saat mengikuti program sarjana.
6
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, perbedaannya adalah
bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Contoh dari
prediksi dalam bisnis dan penelitian adalah:
- Prediksi harga beras dalam tiga bulan yang akan datang.
- Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika
batas bawah kecepatan dinaikkan.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat
pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategorik. Sebagai contoh,
penggolongan pendapat dapat dipisahkan dalam 3 kategorik, yaitu : pendapatan
tinggi, pendapatan sedang dan pendapatan rendah. Contoh lain klasifikasi dalam
bisnis dan penelitian adalah :
- Menentukan apakah suatu transaksi kartu kredit merupakan transaksi
yang curang atau bukan.
- Mendiagnosa penyakit seorang pasien untuk mendapatkan termasuk
kategori penyakit apa.
5. Pengklasteran
Pengklasteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas-kelas objek yang memiliki kemiripan.
Klaster adalah kumpulan dari record yang memiliki kemiripan satu dengan yang
lainnya dan memiliki ketidakmiripan dengan record dalam klaster yang lain.
Pengklasteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam
pengklasteran. Pengklasteran tidak mencoba untuk melakukan klasifikasi,
mengestimasi atau memprediksi nilai dari variabel target. Akan tetapi algoritma
pengklasteran mencoba untuk melakukan pembagian terhadap keseluruhan data
menjadi kelompok-kelompok yang memiliki kemiripan (homogeneity), yang mana
kemiripan record dalam satu kelompok akan bernilai maksimal sedangkan
kemiripan dengan record dalam kelompok lain akan bernilai minimal.
7
Contoh pengklasteran dalam bisnis dan penelitian adalah :
- Mendapatkan kelompok-kelompok konsumen untuk target pemasaran
dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran
yang besar.
- Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap
perilaku finansial dalam baik dan mencurigakan.
- Melakukan pengklasteran terhadap ekspresi dari gen, untuk
mendapatkan kemiripan perilaku dari gen dalam jumlah yang besar.
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut sebagai analisis
keranjang belanja (market basket analysis). Contoh asosiasi dalam bisnis dan
penelitian adalah :
- Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang
diharapkan untuk memberikan respon positif terhadap penawaran
upgrade layanan yang diberikan.
- Menemukan barang dalam supermarket yang dibeli secara bersamaan
dan barang yang tidak pernah dibeli secara bersamaan.
2.1.3 Tahapan data mining
Data mining dipahami sebagai suatu proses yang memiliki tahapan-tahapan
tertentu yang bersifat interaktif dan juga ada umpan balik dari setiap tahapan
sebelumnya (Kusnawi, 2007). Adapun tahapan tersebut dapat dilihat pada gambar
berikut.
8
Gambar 2.1 Tahapan data mining (Han, et al., 2001)
Tahap–tahap tersebut bersifat interaktif dimana pemakai terlibat langsung atau
dengan perantara pengetahuan dasar. Berikut merupakan penjelasannya.
1. Pembersihan data (cleaning)
Pembersihan data merupakan proses menghilangkan noise dan data yang
tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik
dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang
tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya
sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan
dengan hipotesis data mining yang dimiliki. Data-data yang tidak relevan itu juga
lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari
teknik data mining karena data yang ditangani akan berkurang jumlah dan
kompleksitasnya.
2. Integrasi data
Integrasi data merupakan penggabungan data dari berbagai database ke
dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining
tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database
atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan
entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan
lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada
9
integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan
pengambilan aksi nantinya. Sebagai contoh, bila integrasi data berdasarkan jenis
produk ternyata menggabungkan produk dari kategori yang berbeda maka akan
didapatkan korelasi antar produk yang sebenarnya tidak ada.
3. Seleksi data
Data yang ada pada database sering kali tidak semuanya dipakai, oleh
karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli
dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup
dengan id pelanggan saja.
4. Transformasi data
Data diubah atau digabung ke dalam format yang sesuai untuk diproses
dalam data mining. Beberapa metode data mining membutuhkan format data yang
khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti
analisis asosiasi dan clustering hanya bisa menerima input data kategorikal.
Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi
beberapa interval. Proses ini sering disebut transformasi data.
5. Proses mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.
6. Presentasi pengetahuan
Untuk mengidentifikasi pola-pola menarik ke dalam knowledge based yang
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang
khas maupun model prediksi dievaluasi untuk menilai apakah hipotesis yang ada
memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesis, ada
beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba metode data mining lain yang lebih
10
sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang
mungkin bermanfaat.
2.1.4 Metode data mining
Secara umum ada dua jenis metode pada data mining, yaitu :
a. Metode Prediktif
Proses untuk menemukan pola dari data yang menggunakan beberapa
variabel untuk memprediksi variabel lain yang tidak diketahui jenis atau nilainya.
Teknik yang termasuk dalam prediktif mining antara lain: Klasifikasi, Regresi, dan
Deviasi.
b. Metode Deskriptif
Proses untuk menemukan suatu karakteristik penting dari data dalam suatu
basis data. Teknik Data mining yang termasuk dalam deskriptif mining adalah
Clustering, Asosiasi (Association), dan Secuential Mining.
2.2 Klasifikasi
Definisi 2.2 Klasifikasi adalah sebuah proses untuk menemukan model yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui.
(Tan, et al., 2004)
Di dalam klasifikasi diberikan sejumlah record yang dinamakan training
set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinu ataupun
kategoris, salah satu atribut menunjukkan kelas untuk record.
Gambar 2.2 Klasifikasi sebagai suatu tugas memetakan atribut 𝒙 ke dalam
label kelas 𝒚
11
2.2.1 Model klasifikasi
Model klasifikasi terdiri dari (Tan, et al., 2004) :
1. Pemodelan Deskriptif
Dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk membedakan
antara objek dengan kelas yang berbeda.
2. Pemodelan Prediktif
Model klasifikasi juga dapat menggunakan prediksi label kelas yang belum
diketahui record-nya.
2.2.2 Tujuan klasifikasi
Tujuan dari klasifikasi adalah untuk :
1. Menemukan model dari data latih (training set) yang membedakan record
kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan
untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya
pada data uji (test set).
2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil
klasifikasi yang diperoleh.
2.2.3 Konsep pembuatan model dalam klasifikasi
Untuk mendapatkan model, kita harus melakukan analisis terhadap data
latih (training set). Sedangkan data uji (test set) digunakan untuk mengetahui
tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk
memprediksi nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data
dapat dibedakan dalam 2 tahap, yaitu :
1. Pembelajaran / Pembangunan Model
Tiap – tiap record pada data latih dianalisis berdasarkan nilai–nilai atributnya,
dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.
12
2. Klasifikasi
Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model
yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang
ditentukan atau dianggap cukup baik, maka model tersebut dapat digunakan untuk
mengklasifikasikan record–record data baru yang belum pernah dilatihkan atau
diujikan sebelumnya.
Gambar 2.3 Proses klasifikasi
Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat
beberapa langkah pemrosesan terhadap data, yaitu :
1. Data Cleaning
Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan
noise dan penanganan terhadap missing value pada suatu record.
13
2. Analisis Relevansi
Pada tahap ini, dilakukan penghapusan terhadap atribut–atribut yang
berlebihan ataupun kurang berkaitan dengan proses klasifikasi yang akan
dilakukan. Analisis relevansi dapat meningkatkan efisiensi klasifikasi karena waktu
yang diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran
terhadap data–data dengan atribut yang masih lengkap (masih terdapat redundansi).
3. Transformasi Data
Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih
tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai
kontinu. Pembelajaran terhadap data hasil generalisasi dapat mengurangi
kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang harus
diproses lebih kecil.
Untuk mengevaluasi performa sebuah model yang dibangun oleh algoritma
klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang
diprediksi secara benar (akurat) atau salah oleh model tersebut. Tingkat akurasi dan
tingkat kesalahan (error rate) didefinisikan sebagai berikut :
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑏𝑒𝑛𝑎𝑟
𝑗𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 (2.1)
𝐸𝑟𝑟𝑜𝑟 𝑟𝑎𝑡𝑒 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑠𝑎𝑙𝑎ℎ
𝑗𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 (2.2)
Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang
tinggi atau error rate yang rendah ketika model diterapkan pada data uji (test set).
2.3 Probabilitas
Probabilitas atau peluang adalah suatu nilai untuk mengukur tingkat
kemungkinan terjadinya suatu kejadian yang tidak pasti (uncertainty event).
14
Misalkan S ruang sampel berhingga dengan jumlah anggota N(S) yang
berkemungkinan sama dan A ⊂ S kejadian dengan N(A) anggota. Maka
probabilitas kejadian A, ditulis P(A) didefinisikan sebagai (Subanar, 2011) :
𝑃(𝐴) =𝑁(𝐴)
𝑁(𝑆) (2.5)
Peluang dari kejadian 𝐴 yang gagal adalah :
𝑃(𝐴𝑐) = 1 −𝑁(𝐴)
𝑁(𝑆)= 1 − 𝑃(𝐴) (2.6)
Jumlah dari peluang untuk mendapatkan sukses dan peluang untuk gagal adalah
selalu sama dengan 1 atau dapat ditulis :
𝑃(𝑠𝑢𝑘𝑠𝑒𝑠) + 𝑃(𝑔𝑎𝑔𝑎𝑙) = 𝑃(𝐴) + 𝑃(𝐴𝑐) = 1 (2.7)
Besarnya nilai kemungkinan bagi munculnya suatu kejadian adalah selalu
di antara nol dan satu. Pernyataan ini dapat dituliskan sebagai 0 ≤ P(A) ≤ 1, dengan
P(A) menyatakan nilai kemungkinan bagi munculnya kejadian A. Jika terdapat dua
kejadian yang bersifat mutually exclusive (saling asing), yaitu dua kejadian yang
tidak dapat terjadi pada waktu yang sama, secara matematis misalkan kejadian
pertama adalah A dan kejadian kedua adalah B, dengan probabilitasnya adalah
𝑃(𝐴 𝑑𝑎𝑛 𝐵) = 0 maka probabilitas terjadinya kejadian A atau terjadinya kejadian
B adalah jumlah dari P(A) dan P(B). Dengan kata lain, terjadinya kejadian A atau
kejadian B adalah sama dengan satu, jika hanya terdapat dua kejadian A dan B
tersebut dan tidak terdapat kemungkinan kejadian yang lain.
Dalam probabilitas kondisional terjadinya kejadian A dikondisikan dengan
terjadinya kejadian B dahulu. Probabilitas kondisional terjadinya kejadian A
dengan kondisi terjadinya kejadian B dinyatakan dengan rumus sebagai berikut :
𝑃(𝐴|𝐵) =𝑃(𝐵∩𝐴)
𝑃(𝐵) (2.8)
15
dengan :
𝑃(𝐴|𝐵) = peluang peristiwa A terjadi dengan syarat peristiwa B terjadi lebih
dahulu
𝑃(𝐵 ∩ 𝐴) = peluang peristiwa B dan peristiwa A terjadi bersamaan
𝑃(𝐵) = peluang terjadinya peristiwa B
2.4 Probabilitas Bersyarat, Distribusi Bersyarat, dan Kejadian
Independen
Pada suatu percobaan akan menghasilkan dua atau lebih kemungkinan
peristiwa yang akan terjadi. Peluang akan terjadinya peristiwa B dengan syarat
peristiwa A telah terjadi terlebih dahulu adalah :
𝑃(𝐵|𝐴) =𝑃(𝐴∩𝐵)
𝑃(𝐴) (2.9)
dengan :
𝑃(𝐵|𝐴) = peluang peristiwa B terjadi dengan syarat peristiwa A terjadi lebih
dahulu
𝑃(𝐴 ∩ 𝐵) = peluang peristiwa A dan peristiwa B terjadi bersamaan
𝑃(𝐴) = peluang terjadinya peristiwa A
Definisi 2.3 Jika X1 dan X2 adalah variabel random diskret atau kontinu dengan
fungsi densitas probabilitas bersama 𝑓(𝑥1, 𝑥2), maka fungsi densitas probabilitas
bersyarat dari 𝑋2 = 𝑥2 diberikan 𝑋1 = 𝑥1 didefinisikan
𝑓(𝑥2|𝑥1) =𝑓(𝑥1,𝑥2)
𝑓(𝑥1) (2.10)
Untuk nilai 𝑓(𝑥1) > 0.
(Bain dan Engelhardt, 2000)
16
Definisi 2.4 Dua kejadian A dan B dikatakan kejadian independen jika
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴). 𝑃(𝐵) (2.11)
Sebaliknya, A dan B disebut kejadian dependen.
(Bain dan Engelhardt, 2000)
2.5 Teorema Bayes
Teorema Bayes dikemukakan oleh seorang pendeta presbyterian Inggris
pada tahun 1763 yang bernama Thomas Bayes. Teorema Bayes digunakan untuk
menghitung probabilitas terjadinya suatu peristiwa berdasarkan pengaruh yang
didapat dari hasil observasi.
Antara Teorema Bayes dengan teori peluang terdapat hubungan yang sangat
erat, karena untuk membuktikan Teorema Bayes tidak terlepas dari penggunaan
teori peluang, dengan kata lain teori peluang adalah konsep dasar bagi Teorema
Bayes.
Teorema Bayes menerangkan hubungan antara probabilitas terjadinya
peristiwa A dengan syarat peristiwa B telah terjadi dan probabilitas terjadinya
peristiwa B dengan syarat peristiwa A telah terjadi. Teorema ini didasarkan pada
prinsip bahwa tambahan informasi dapat memperbaiki probabilitas. Teorema Bayes
ini bermanfaat untuk mengubah atau memutakhirkan (meng-update) probabilitas
yang dihitung dengan tersedianya data dan informasi tambahan.
Syarat-syarat Teorema Bayes bisa digunakan untuk menentukan
pengambilan keputusan, yaitu (Idroes, 2008) :
a. Berada pada kondisi ketidakpastian (adanya alternatif tindakan)
b. Peluang prior diketahui dan peluang posterior dapat ditentukan
c. Peluangnya mempunyai nilai antara nol dan satu.
17
2.5.1 Probabilitas prior dan posterior
Sesuai dengan probabilitas subyektif, bila seseorang mengamati kejadian B
dan mempunyai keyakinan bahwa ada kemungkinan B akan muncul, maka
probabilitas B disebut probabilitas prior. Setelah ada informasi tambahan bahwa
misalnya kejadian A telah muncul, mungkin akan terjadi perubahan terhadap
perkiraan semula mengenai kemungkinan B untuk muncul. Probabilitas untuk B
sekarang adalah probabilitas bersyarat akibat A dan disebut sebagai probabilitas
posterior. Teorema Bayes merupakan mekanisme untuk memperbarui probabilitas
dari prior menjadi probabilitas posterior.
2.5.2 Rumus bayes dan fungsi likelihood
Andaikan S menyatakan ruang sampel dari beberapa percobaan dan k
adalah kejadian Ai,…,Ak dalam S sedemikian hingga Ai,…,Ak saling asing dan
⋃ 𝐴𝑖 = 𝑆.𝑘𝑖=1 Sehingga dapat dikatakan kejadian k tersebut membentuk partisi atau
bagian dari S. jika k kejadian Ai,…,Ak membentuk sebuah partisi dari S dan jika B
adalah kejadian lain dalam S, maka kejadian akan membentuk partisi atau bagian
untuk B.
𝑃(𝐴𝑖|𝐵) =𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)
∑ 𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)𝑘𝑖=1
(2.12)
Bukti :
𝑃(𝐴𝑖|𝐵) =𝑃(𝐴𝑖 ∩ 𝐵)
𝑃(𝐵)
P(Ai|B) =P(Ai ∩ B)
P(A1 ∩ B) + P(A2 ∩ B) + ⋯ + P(Ak ∩ B)
dengan :
𝑃(𝐵) = ∑ 𝑃(𝐴𝑖)𝑃(𝐵|𝐴𝑖)𝑘𝑖=1
𝑃(𝐴𝑖 ∩ 𝐵) = 𝑃(𝐴𝑖)𝑃(𝐵|𝐴𝑖)
18
𝑃(𝐴𝑖|𝐵) =𝑃(𝐴𝑖)𝑃(𝐵|𝐴𝑖)
∑ 𝑃(𝐴𝑖 ∩ 𝐵)𝑘𝑖=1
Maka didapat :
𝑃(𝐴𝑖|𝐵) =𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)
∑ 𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)𝑘𝑖=1
Definisi 2.5 Misalkan 𝑥1, 𝑥2, … , 𝑥𝑛 sampel random independen (i.i.d.) dari
distribusi bersyarat 𝑋 diberikan 𝜃 dengan fungsi densitas probabilitas 𝑓(𝑥𝑖|𝜃).
Fungsi densitas probabilitas bersama dari 𝑋 = (𝑥1, 𝑥2, … , 𝑥𝑛) diberikan 𝜃 adalah:
𝐿(𝜃|𝑥) = 𝑓(𝑥|𝜃) = 𝑓(𝑥1|𝜃)𝑓(𝑥2|𝜃) … 𝑓(𝑥𝑛|𝜃)
= ∏ 𝑓(𝑥𝑖|𝜃)𝑛𝑖=1 (2.13)
Selanjutnya 𝑓(𝑋|𝜃) dinamakan fungsi likelihood.
2.6 Receiver Operating Characteristic (ROC)
Kurva ROC pertama kali digunakan para insinyur elektro dan teknisi radar
selama perang dunia kedua untuk mendeteksi benda-benda musuh di medan
pertempuran, selanjutnya hal ini dikenal sebagai teori deteksi sinyal. Analisis ROC
selanjutnya berkembang dan telah digunakan dalam bidang kedokteran, radiologi,
serta pada beberapa bidang lainnya selama beberapa dekade. Analisis ROC secara
lebih lanjut telah diperkenalkan pada bidang yang relatif baru seperti machine
learning dan data mining (Fawcett, 2006).
Kurva ROC paling sering digunakan untuk mengevaluasi pengklasifikasi
karena mempunyai kemampuan evaluasi secara menyeluruh dan cukup baik (Cheng
dan Chen, 2010).
Misalkan ada suatu problem pengklasifikasi dengan dua kelas. Anggap
setiap pasang data I memetakan satu set elemen {p,n} sebagai label kelas positif
dan label kelas negatif. Model pengklasifikasi memetakan pasangan data tersebut
ke kelas yang diprediksikan. Untuk membedakan kelas yang sebenarnya dengan
kelas yang diprediksi, maka kelas yang diprediksi disimbolkan dengan {Y,N}.
19
Pemetaan akan menghasilkan 4 keluaran yaitu True Positive (TP), True Negative
(TN), False Positive (FP) dan False Negative (FN). Data positif yang terindikasi
benar disebut dengan True Positive (TP), data positif yang terindikasi salah disebut
dengan False Positive (FP), data negatif yang terindikasi benar disebut dengan True
Negative (TN) dan data negatif yang terindikasi salah disebut dengan False
Negative (FN). Keempat nilai ini membentuk sebuah matriks yang disebut dengan
matrix performance dalam tabel kontingensi 2x2.
Tabel 2.1 Kontingensi ROC
Data Kelas Prediksi
Positive Negative
Kelas Sebenarnya
Positive True Positive False Negative
Negative False Positive True Negative
Adapun kriteria ROC adalah sebagai berikut :
o True Positive Rate (TPR) disebut juga Sensitivity = TP/(TP+FN)
o True Negative Rate (TNR) disebut juga Specificity = TN/(TN+FP)
o Accuracy = (TP+TN)/(TP+FP+TN+FN).
dengan :
TP = True Positive yaitu klasifikasi yang benar dari kelas yang positif
TN = True Negative yaitu klasifikasi yang benar dari kelas yang negatif
FP = False Positive yaitu kesalahan Tipe I
FN = False Negative yaitu kesalahan Tipe II
Gambar 2.4 Kriteria ROC
20
Jika nilai kriteria yang dipilih lebih tinggi, maka bagian FP akan menurun
dan specificity akan meningkat, namun TP dan sensitivity akan menurun.
Sebaliknya jika nilai kriteria yang dipilih lebih rendah, maka bagian TP akan
meningkat, namun bagian TN dan specificity akan menurun (MedCalc Software
bvba, 2010).
AUC (Area Under Curva) adalah luas daerah di bawah kurva ROC. Bila
nilainya mendekati satu, maka model yang didapat lebih akurat. Berdasarkan
gambar diatas maka dapat dilihat karakteristik dari AUC adalah sebagai berikut :
- Area maksimum adalah 1
- Jika ROC = 0,5 maka model yang dihasilkan belum terlihat optimal
- Sedangkan jika ROC > 0,5 maka model yang dihasilkan akan lebih baik
Formula AUC :
𝐴𝑈𝐶 =∑ ∑ 1
𝑓(𝑥𝑖+)𝑓(𝑥𝑗
−)𝑛−
𝑗−1𝑛+
𝑖=1
𝑛+𝑛− (2.14)
Keterangan :
𝑓(. ) = nilai suatu fungsi
𝑥+ dan 𝑥− = sampel positif dan negatif
𝑛+ dan 𝑛− = jumlah sampel positif dan negatif
(Brefeld dan Scheffer, 2005)
21
BAB III
KLASIFIKASI DENGAN DATA MINING
3.1 Decision Tree
Salah satu metode data mining yang umum digunakan adalah decision tree.
Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana
setiap simpul internal menandakan suatu tes pada atribut, setiap cabang
merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau
distribusi kelas. Alur pada decision tree ditelusuri dari simpul akar ke simpul daun
yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk
dikonversi ke aturan klasifikasi (classification rules) (Zalilia, 2007).
3.1.1 Konsep decision tree
Konsep decision tree adalah mengubah data menjadi pohon keputusan
(decision tree) dan aturan-aturan keputusan (rules) (Basuki dan Syarif, 2003).
Gambar 3.1 Konsep decision tree
Ada beberapa konsep dalam decision tree, antara lain :
1. Data dinyatakan dalam bentuk tabel dengan atribut dan record.
2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam
pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang
diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan
atribut yang menyatakan data solusi per-item data yang disebut dengan target
atribut.
3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut
cuaca mempunyai instance berupa cerah, berawan dan hujan.
22
Gambar 3.2 Konsep data pada decision tree
3.1.2 Tipe simpul pada tree
Tree mempunyai 3 tipe simpul (node) yaitu (Zalilia, 2007) :
1. Simpul akar (root node) dimana tidak ada masukan edge dan 0 atau lebih
keluaran edge (cabang).
2. Simpul internal (internal node), masing-masing 1 masukan edge dan 2 atau
lebih edge keluaran.
3. Simpul daun (leaf node) atau simpul akhir, masing-masing 1 masukan edge dan
tidak ada edge keluaran.
Pada decision tree, setiap simpul daun menandai label kelas. Simpul yang
bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes
atribut pada sebagian record yang mempunyai karakteristik yang berbeda. Simpul
akar dan simpul internal ditandai dengan bentuk oval dan simpul daun ditandai
dengan bentuk segi empat (Han et al., 2001).
23
3.1.3 Proses pembentukan decision tree
Proses pembentukan Decision Tree adalah sbb (Basuki dan Syarif, 2003) :
1. Mengubah bentuk data (tabel) menjadi model tree.
Gambar 3.3 Mengubah bentuk data menjadi model tree
2. Mengubah model tree menjadi rule.
Gambar 3.4 Mengubah model tree menjadi rule
3. Menyederhanakan rule (uji independensi dengan distribusi terpadu chi-
square)
24
3.1.4 Information gain
Pemilihan atribut pada algoritma decision tree menggunakan ukuran
berdasarkan entropy yang dikenal dengan information gain sebagai sebuah heuristis
untuk memilih atribut yang merupakan bagian terbaik dari contoh ke dalam kelas.
(Zalilia, 2007).
Ukuran information gain digunakan untuk memilih tes atribut pada setiap
simpul dalam tree. Atribut dengan information gain tertinggi (atau nilai
pengurangan entropy yang terkecil) dipilih sebagai tes atribut untuk simpul
tersebut. Atribut ini meminimalkan informasi yang dibutuhkan untuk
mengklasifikasikan contoh pada proses pembagian dan mencerminkan
ketidakmurnian (impurity). Misalkan 𝑆 adalah kumpulan dari 𝑠 contoh data.
Andaikan atribut label kelas mempunyai 𝑚 nilai berbeda yang menjelaskan 𝑚 nilai
kelas yang berbeda, 𝐶𝑖 (untuk 𝑖 = 1, . . . , 𝑚). Misalkan 𝑠𝑖 menjadi jumlah contoh 𝑆
dalam kelas 𝐶𝑖. Informasi yang dibutuhkan untuk mengklasifikasikan diberikan
contoh sebagai berikut :
𝐼(𝑆1,𝑆2,….𝑆𝑚) = − ∑ 𝑝𝑖 𝑙𝑜𝑔2 (𝑝𝑖)𝑚𝑖=1 (3.1)
dengan 𝑝𝑖 adalah kemungkinan sebuah contoh kepunyaan kelas 𝐶𝑖 dan diperkirakan
oleh 𝑠𝑖
𝑠.
Catatan bahwa fungsi log basis 2 digunakan semenjak informasi dikodekan
dalam bit-bit. Misalkan atribut A mempunyai nilai v yang berbeda, {𝑎1, 𝑎2, … . , 𝑎𝑣}
Atribut A dapat digunakan untuk membagi S ke dalam v bagian (subset),
{𝑆1,𝑆2, … , 𝑆𝑣} dimana 𝑆𝑗 berisi contoh di S yang mempunyai nilai 𝑎𝑗 dari A. Jika A
terpilih sebagai tes atribut (misal atribut untuk splitting), maka bagian ini akan
sesuai dengan pertumbuhan cabang dari simpul yang berisi S. Misal 𝑆𝑖𝑗 menjadi
contoh kelas 𝐶𝑖 pada sebuah subset S. Entropy atau informasi berdasarkan
pembagian ke dalam A sebagai berikut :
25
𝐸(𝐴) = ∑𝑆𝑖𝑗+⋯+𝑆𝑚𝑗
𝑆𝐽(𝑆𝑖𝑗, … , 𝑆𝑚𝑗)𝑣
𝑗=1 (3.2)
Bentuk 𝑆𝑖𝑗+⋯+𝑆𝑚𝑗
𝑆 adalah bobot dari subbagian (subset) 𝑗𝑡ℎ dan merupakan
jumlah contoh pada subset dibagi oleh total jumlah contoh dalam 𝑆 . Nilai entropy
terkecil adalah kemurnian (purity) terbesar pada pembagian subset. Untuk subset
𝑠𝑗,
𝐼(𝑆1𝑗,𝑆2𝑗,….𝑆𝑚𝑗) = − ∑ 𝑝𝑖𝑗 𝑙𝑜𝑔2 (𝑝𝑖𝑗)𝑚𝑖=1 (3.3)
dengan 𝑝𝑖𝑗 =𝑠𝑖𝑗
|𝑠𝑗| adalah probabilitas pada contoh 𝑠𝑗 kepunyaan kelas 𝐶𝑖.
Information gain atribut 𝐴 pada subset 𝑆 adalah :
𝐺𝑎𝑖𝑛(𝐴) = 𝐼(𝑠1, 𝑠2, … , 𝑠𝑚) − 𝐸(𝐴) (3.4)
Dengan kata lain, 𝐺𝑎𝑖𝑛(𝐴) adalah reduksi yang diharapkan dalam entropy
yang disebabkan oleh pengetahuan nilai pada atribut 𝐴. Algoritma menghitung
information gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih
sebagai tes atribut (simpul akar). Simpul 𝐴 dibuat dan dilabelkan dengan atribut,
cabang dibuat untuk setiap nilai atribut.
3.1.5 Entropy
Definisi Entropy (Basuki dan Syarif, 2003) :
1. Entropy (𝑆) adalah jumlah bit yang diperkirakan dibutuhkan untuk
dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada
ruang sample 𝑆.
2. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu
kelas. Semakin kecil nilai entropy, maka semakin baik untuk digunakan
dalam mengekstraksi suatu kelas.
3. Panjang kode untuk menyatakan informasi secara optimal adalah
−𝑙𝑜𝑔2 𝑝 bit untuk messages yang mempunyai probabilitas p.
4. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi 𝑆 ke dalam
kelas adalah :
26
−𝑝(+)𝑙𝑜𝑔2𝑝(+) − 𝑝(−)𝑙𝑜𝑔2𝑝(−)
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = −𝑝(+)𝑙𝑜𝑔2𝑝(+) − 𝑝(−)𝑙𝑜𝑔2𝑝(−) (3.5)
keterangan :
𝑆 = ruang (data) sample yang digunakan untuk training.
𝑃(+) = probabilitas yang bersolusi positif (mendukung) pada data sampel untuk
kriteria tertentu.
𝑃(−) = probabilitas yang bersolusi negatif (tidak mendukung) pada data sampel
untuk kriteria tertentu.
3.1.6 Penanganan data kontinu
Algoritma Decision Tree juga menangani masalah atribut kontinu. Salah
satu caranya adalah dengan Entropy-Based Discretization yang melibatkan
perhitungan kelas entropi.
Misalkan 𝑇 membagi 𝑆 sample menjadi j subset S1, S2, ....Sj. Misalkan ada 𝑘
kelas C1, C2, ... ,Ck, sehingga P(Ci, Sj) adalah probabilitas jumlah sampel kelas Ci
pada subset Sj. Maka Entropi Kelas dari subset Sj didefinisikan dengan :
𝐸(𝑆𝑗) = − ∑ 𝑃(𝐶𝑖, 𝑆𝑗) log2 𝑃(𝐶𝑖, 𝑆𝑗)𝑘𝑖=1 (3.6)
Entropi Informasi Kelas E(A,TA;S) didefinisikan dengan :
𝐸(𝐴, 𝑇𝐴; 𝑆) = ∑ |𝑆𝑖
𝑆| 𝐸(𝑆𝑖)
𝑗𝑖=1 (3.7)
dengan E(Sj) = Entropi kelas dari subset Sj
Sj = Subset dari S
Ci = Kelas ke-i
P(Ci,Sj) = Probabilitas jumlah sampel kelas Ci pada Subset Sj
E(A,TA;S) = Entropi informasi kelas partisi dengan cut point TA di A
A = Atribut
27
Cut point terbaik adalah yang memberikan nilai Entropi Informasi Kelas terkecil di
antara semua kandidat cut point (Sunjana, 2010).
Kategorisasi tidak diperlukan jika kita tidak memiliki landasan yang cukup
kuat untuk melakukannya. Kategorisasi kadang diperlukan untuk
menyederhanakan proses pengolahan data. Misalnya variabel usia yang
dikategorikan per 356 hari atau diagnosis yang menghasilkan informasi yang
bersifat kategori, sehat atau sakit. Semasih kita bisa menggunakan variabel dalam
bentuk aslinya, jangan dikategorikan. Kategorisasi adalah “bad idea” (Royston et
al., 2006).
3.1.7 Support dan confidence
Misal 𝐼 = {𝐼1, 𝐼2, … . 𝐼𝑚} adalah sebuah itemset (kumpulan atribut). Misal 𝐷
sebuah database transaksi dengan tiap transaksi 𝑇 adalah sebuah itemset yang tidak
kosong sedemikian rupa sehingga T ⊆ I. Setiap transaksi memiliki sebuah identifier
(pengenal), misal 𝑇𝐼𝐷. Misal 𝐴 sebuah itemset. Transaksi 𝑇 dikatakan mengandung
𝐴 jika 𝐴 ⊆ 𝑇. Aturan asosiasi (rule) adalah sebuah implikasi dari bentuk A⇒B,
dengan A ⊂ I, B ⊂ I, A ≠ ∅, B ≠ ∅, dan A ∩ B = ∅. Rule A⇒B memegang peranan
di dalam kumpulan transaksi 𝐷 dengan support 𝑠, dengan 𝑠 adalah persentase
transaksi di dalam 𝐷 yang mengandung A ∪ B (dibaca “A atau B”). Selanjutnya ini
menjadi probabilitas, P(A ∪ B). Rule A⇒B juga mempunyai confidence 𝑐 di dalam
kumpulan transaksi 𝐷, dengan 𝑐 merupakan persentase dari transaksi di dalam 𝐷
yang mengandung 𝐴 dan juga mengandung 𝐵. Selanjutnya ini menjadi probabilitas
bersyarat, P(B|A). Didefinisikan :
𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝐴 ⇒ 𝐵) = 𝑃(𝐴 ∪ 𝐵) (3.8)
𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(A ⇒ B) = P(B|A) (3.9)
𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(A ⇒ B) = P(B|A) =𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝐴∪𝐵)
𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝐴)=
𝑠𝑢𝑝𝑝𝑜𝑟𝑡_𝑐𝑜𝑢𝑛𝑡(𝐴∪𝐵)
𝑠𝑢𝑝𝑝𝑜𝑟𝑡_𝑐𝑜𝑢𝑛𝑡(𝐴) (3.10)
28
Aturan-aturan (rules) yang memenuhi threshold (ambang batas) minimum
support (disebut dengan min_sup) dan memenuhi threshold minimum confidence
(disebut dengan min_conf) dikatakan kuat. Dengan konvensi, nilai terjadinya
support dan confidence lebih umum ditulis di antara 0% dan 100%, daripada 0
sampai 1,0 (Han et al., 2012 : 267).
3.1.8 Menyederhanakan rule
Menyederhanakan rule dengan cara uji independensi dengan distribusi
terpadu chi-square adalah tahapan terakhir dari proses pembentukan decision tree.
Apabila individu-individu suatu populasi dapat diklasifikasikan dalam dua variabel
(kategori), tiap-tiap kategori dapat terdiri dari beberapa alternatif. Kemudian kita
ingin menguji 𝐻0 apakah kedua variabel itu independen. Untuk menguji 𝐻0 tersebut
diambil suatu sample, individu-individu dalam sample tersebut diklasifikasikan
dalam “two way classification”. Uji yang demikian dinamakan test of independency
(uji independensi). Tabelnya dinamakan tabel kontingensi. Apabila variabel I terdiri
dari 𝑘 kategori dan variabel II terdiri dari 𝑟 kategori, tabelnya dapat disusun seperti
tabel dibawah ini.
Tabel 3.1 Tabel kontingensi
29
dengan :
𝑛𝑖𝑗 = individu dari baris 𝑖 kolom 𝑗
𝑖 = 1, 2, . . … . . , 𝑟
𝑗 = 1, 2, 3, … . , 𝑘
Langkah-langkah dalam uji independensi :
1. Menentukan formula hipotesis dengan hipotesis alternatif :
𝐻0 : Variabel A independen terhadap variabel B atau 𝑃(𝐴 ∩ 𝐵) =
𝑃(𝐴). 𝑃(𝐵)
𝐻1 : Variabel A dependen terhadap variabel B atau 𝑃(𝐴 ∩ 𝐵) ≠ 𝑃(𝐴). 𝑃(𝐵)
2. Dipilih tingkat signifikansi tertentu () dengan derajat bebas (degree of
freedom) = (𝑟 − 1)(𝑘 − 1), dengan 𝑟 adalah jumlah row (baris) dan 𝑘 adalah
jumlah kolom.
3. Kriteria pengujian :
Gambar 3.5 Kriteria uji independensi
o H0 diterima apabila : 𝜒2 ≤ 𝜒2 α; (r-1)(k-1) atau p-value ≥ α, berarti
terdapat hubungan yang independen antar variabel (dapat dihilangkan).
o H0 ditolak apabila : 𝜒2 > 𝜒2 α; (r-1)(k-1) atau p-value < α, berarti
terdapat hubungan yang dependen antar variabel (tidak dapat
dihilangkan).
30
4. Perhitungan
𝜒2 = ∑ ∑(𝑛𝑖𝑗−𝑒𝑖𝑗)2
𝑒𝑖𝑗
𝑘𝑗=𝑖
𝑟𝑖=𝑗 (3.11)
dimana 𝑒𝑖𝑗 =(𝑛𝑖.)(𝑛.𝑗)
𝑛
𝑛𝑖𝑗 = frekuensi pengamatan (observasi) dari baris ke-i dan kolom ke-j
𝑒𝑖𝑗 = frekuensi diharapkan (expected) dari baris ke-i kolom ke-j
5. Kesimpulan
Apakah H0 diterima (variabel A tidak mempengaruhi/independen dengan
variabel B) atau H0 ditolak (variabel A mempengaruhi/dependen dengan variabel
B).
3.1.9 Kelebihan dan kekurangan
Kelebihan dari metode Decision Tree adalah :
Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global,
dapat diubah menjadi lebih simpel dan spesifik.
Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika
menggunakan metode Decision Tree, maka sampel diuji hanya berdasarkan
kriteria atau kelas tertentu.
Fleksibel untuk memilih fitur dari node internal yang berbeda, fitur yang terpilih
akan membedakan suatu kriteria dibandingkan kriteria yang lain
dalam node yang sama. Kefleksibelan metode Decision Tree ini meningkatkan
kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan
metode penghitungan satu tahap yang lebih konvensional.
Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat
banyak, seorang penguji biasanya perlu mengestimasikan baik itu distribusi
dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode
Decision Tree dapat menghindari munculnya permasalahan ini dengan
31
menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal
tanpa banyak mengurangi kualitas keputusan yang dihasilkan.
Kekurangan pada Decision Tree adalah :
o Terjadi overlapping terutama ketika kelas-kelas dan kriteria yang digunakan
jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya
waktu pengambilan keputusan dan jumlah memori yang diperlukan.
o Pengakumulasian jumlah kesalahan dari setiap tingkat dalam sebuah Decision
Tree yang besar.
o Kesulitan dalam mendesain Decision Tree yang optimal.
o Hasil kualitas keputusan yang didapatkan dari metode Decision Tree sangat
tergantung pada bagaimana tree tersebut didesain.
3.2 Naive Bayes
Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada
teknik klasifikasi. Naive Bayes merupakan pengklasifikasian dengan metode
probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes,
yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa
sebelumnya sehingga dikenal sebagai Teorema Bayes. Teorema tersebut
dikombinasikan dengan Naive dimana diasumsikan kondisi antar atribut saling
bebas. Klasifikasi Naive Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari
sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya.
Persamaan dari teorema Bayes adalah :
𝑃(𝐻|𝑋) =𝑃(𝑋|𝐻).𝑃(𝐻)
𝑃(𝑋) (3.12)
Keterangan :
X : Data dengan kelas yang belum diketahui
H : Hipotesis data X merupakan suatu kelas spesifik
P(H|X) : Probabilitas hipotesis H berdasarkan kondisi X (probabilitas posterior)
32
P(H) : Probabilitas hipotesis H (probabilitas prior)
P(X|H) : Probabilitas X berdasarkan kondisi hipotesis H
P(X) : Probabilitas X
Untuk menjelaskan teorema Naive Bayes, perlu diketahui bahwa proses
klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok
bagi sampel yang dianalisis tersebut. Karena itu, teorema bayes di atas disesuaikan
sebagai berikut :
𝑃(𝐶|𝐹1, … , 𝐹𝑛) =𝑃(𝐶)𝑃(𝐹1,…,𝐹𝑛|𝐶)
𝑃(𝐹1,…,𝐹𝑛) (3.13)
Dimana Variabel C merepresentasikan kelas, sementara variabel 𝐹1, … , 𝐹𝑛
merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan
klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel
karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas C
(sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan
peluang kemunculan karakteristik karakteristik sampel pada kelas C (disebut juga
likelihood), dibagi dengan peluang kemunculan karakteristik karakteristik sampel
secara global (disebut juga evidence). Karena itu, rumus diatas dapat pula ditulis
secara sederhana sebagai berikut :
𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =𝑃𝑟𝑖𝑜𝑟×𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑
𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒 (3.14)
Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari
posterior tersebut nantinya akan dibandingkan dengan nilai nilai posterior kelas
lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan.
Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan
(𝐶|𝐹1, … , 𝐹𝑛) menggunakan aturan perkalian sebagai berikut :
𝑃(𝐶|𝐹1, … , 𝐹𝑛) = 𝑃(𝐶)𝑃(𝐹1, … , 𝐹𝑛|𝐶)
= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2, … , 𝐹𝑛|𝐶, 𝐹1)
= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3, … , 𝐹𝑛|𝐶, 𝐹1, 𝐹2)
33
= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3|𝐶, 𝐹1,𝐹2)𝑃(𝐹4, … , 𝐹𝑛|𝐶, 𝐹1, 𝐹2, 𝐹3)
= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3|𝐶, 𝐹1,𝐹2) … 𝑃(𝐹𝑛|𝐶, 𝐹1, 𝐹2, 𝐹3, … , 𝐹𝑛−1) (3.15)
Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin
banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai
probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya,
perhitungan tersebut menjadi sulit untuk dilakukan. Di sinilah digunakan asumsi
independensi yang sangat tinggi (naif), bahwa masing-masing petunjuk
(𝐹1, 𝐹2, … , 𝐹𝑛) saling bebas (independen) satu sama lain. Dengan asumsi tersebut,
maka berlaku suatu kesamaan sebagai berikut :
𝑃(𝑃𝑖|𝐹𝑗) =𝑃(𝐹𝑖∩𝐹𝑗)
𝑃(𝐹𝑗)=
𝑃(𝐹𝑖)𝑃(𝐹𝑗)
𝑃(𝐹𝑗)= 𝑃(𝐹𝑖) (3.16)
untuk 𝑖 ≠ 𝑗, sehingga
𝑃(𝐹𝑖|𝐶, 𝐹𝑗) = 𝑃(𝐹𝑖|𝐶) (3.17)
Dari persamaan di atas dapat disimpulkan bahwa asumsi independensi naif
tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi
mungkin untuk dilakukan. Selanjutnya, penjabaran 𝑃(𝐶|𝐹1, … , 𝐹𝑛) dapat
disederhanakan menjadi :
𝑃(𝐶|𝐹1, … , 𝐹𝑛) = 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶) … 𝑃(𝐹𝑛|𝐶)
= 𝑃(𝐶) ∏ 𝑃(𝐹𝑖|𝐶)𝑛𝑖=1 (3.18)
Persamaan di atas merupakan model dari teorema Naive Bayes yang
selanjutnya akan digunakan dalam proses klasifikasi. Untuk klasifikasi dengan data
kontinu digunakan rumus Densitas Gauss :
𝑃(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑦𝑗) =1
√2𝜋𝜎𝑖𝑗𝑒
−(𝑥𝑖−𝜇𝑖𝑗)2
2𝜎𝑖𝑗2
(3.19)
34
Keterangan :
𝑃 : Peluang
𝑋𝑖 : Atribut ke-𝑖
𝑥𝑖 : Nilai atribut ke-𝑖
𝑌 : Kelas yang dicari
𝑦𝑗 : Subkelas 𝑌 yang dicari
𝜇 : Mean, menyatakan rata-rata dari seluruh atribut
𝜎 : Deviasi standar, menyatakan varian dari seluruh atribut
Adapun alur dari metode Naive Bayes adalah sebagai berikut :
1. Baca data training
2. Hitung Jumlah dan probabilitas, namun apabila data numerik maka :
a. Cari nilai mean dan standar deviasi dari masing-masing parameter yang
merupakan data numerik
b. Cari nilai probabilitas dengan cara menghitung jumlah data yang sesuai dari
kategori yang sama dibagi dengan jumlah data pada kategori tersebut.
3. Mendapatkan nilai dalam tabel mean, standar deviasi dan probabilitas.
Gambar 3.6 Skema naive bayes
35
Kelebihan Naive Bayes :
Perhitungan relatif mudah dan sederhana.
Menangani kuantitatif dan data diskrit.
Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata–ratakan ketika
mengestimasi peluang bersyarat data.
Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi
parameter (rata–rata dan variansi dari variabel) yang dibutuhkan untuk
klasifikasi.
Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan
estimasi peluang.
Cepat dan efisiensi ruang.
Kokoh terhadap atribut yang tidak relevan.
Kekurangan Naive Bayes :
o Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka
probabilitas prediksi akan bernilai nol juga.
o Mengasumsikan variabel bebas.
35
BAB IV
KLASIFIKASI DENGAN DATA MINING PADA INSURANCE
CUSTOMER LIFETIME DATASET
4.1 Studi Kasus
Dalam kasus ini, akan dilakukan pemodelan dengan menggunakan 2 teknik
klasifikasi pada data mining, yaitu Decision Tree dan Naive Bayes untuk
mengidentifikasi pelanggan potensial dalam hal membeli produk asuransi. Metode
klasifikasi ini terbagi dalam dua tahap, yaitu tahap pembelajaran/pembangunan
model dan klasifikasi.
Tahap pertama yaitu tahap pembelajaran/pembangunan model. Tahap ini
merupakan tahap pemodelan dengan data latih (training). Tiap – tiap record pada
data latih dianalisis berdasarkan nilai–nilai atributnya dengan menggunakan
algoritma klasifikasi Decision Tree dan Naive Bayes untuk mendapatkan model.
Tahap kedua adalah klasifikasi. Pada tahap ini, data uji digunakan untuk
mengetahui tingkat akurasi dari kedua model yang dihasilkan, lalu
membandingkannya. Model dengan akurasi yang lebih baik yang akan dipakai
sebagai klasifikator yang berguna untuk mengklasifikasikan record–record data
baru yang belum pernah dilatihkan atau diujikan sebelumnya (fungsi prediksi dalam
klasifikasi). Tujuan dari penelitian ini adalah untuk menemukan kriteria-kriteria
apa sajakah yang menyebabkan seorang nasabah bank (dalam kasus ini) membeli
produk asuransi, yang dapat digunakan untuk menjaring calon pembeli produk
asuransi tersebut (mencari pelanggan potensial).
Penulis menggunakan bantuan perangkat lunak (software) dalam membuat
penelitian ini. Hal ini sesuai dengan prinsip data mining yang mengharuskan serba
otomatis atau semi-otomatis. Pemodelan pada analisis ini menggunakan software
Oracle SQL Developer 4.0.3 versi windows 64 bit dan SPSS 17.
36
4.2 Deskripsi Data
Data yang digunakan dalam penelitian ini adalah Insurance Customer
Lifetime dataset, yang didapat dari contoh data pada software Oracle SQL
Developer 4.0.3 (data sekunder). Data tersebut merupakan data apakah seorang
nasabah suatu bank di Amerika Serikat (AS) membeli produk asuransi atau tidak
(sudah ditentukan).
Data tersebut terdiri dari 1015 entry dengan 30 variabel independen (atribut)
dan 1 variabel dependen (target atribut). Input data pada variabel independen (X)
bisa berupa data kategorik dan data kontinu (penanganan data kontinu berbeda pada
algoritma Decision Tree dan Naive Bayes, terdapat pada subbab 3.1.6 untuk
Decision Tree dan 3.2 untuk Naive Bayes). Sedangkan input data untuk variabel
dependen (Y) berupa data kategorik. Berikut nilai, tipe data, tipe mining, dan
keterangan apakah variabel tersebut dipakai atau tidak dalam proses mining :
Tabel 4.1 Variabel-variabel independen
Kode Nama Variabel Deskripsi Nilai Tipe
Data
Tipe
Mining
Ket.
(in/out)
X1 Age Umur dalam
tahun
Rasio Numerik In
X2 Bank Funds Saldo
tabungan
dalam USD
Rasio Numerik
In
X3 Car Ownership Kepemilikan
mobil
1: yes
0 : no
Nominal Kategorik In
X4 Checking
Amount
Rasio Numerik
In
X5 Credit Balance Jumlah
kredit
Rasio Numerik In
X6 Credit Card
Limit
Batas kredit
pada kartu
kredit
Rasio Numerik In
X7 Customer ID ID
pelanggan
Varchar Kategorik Out
X8 First Nama depan Varchar Kategorik Out
X9 Last Nama
belakang
Varchar Kategorik Out
X10 Has Children Kepunyaan
anak
1: yes
0: no
Nominal Kategorik In
37
X11 House
Ownership
Kepemilikan
rumah
1: yes
0: no
Nominal Kategorik In
X12 LTV Customer
lifetime
value
Rasio Numerik Out
X13 LTV Bin Kategori
Customer
lifetime
value
1: Low
2: Medium
3: High
4: Very High
Ordinal Kategorik In
X14 Marital Status Status nikah 1: Single
2: Married
3: Divorced
4: Others
Nominal Kategorik In
X15 Money
Monthly
Overdrawn
Rasio Numerik In
X16 Monthly
Checks Written
Rasio Numerik In
X17 Mortgage
Amount
Nilai hipotik Rasio Numerik In
X18 N Mortgages Jumlah
hipotik
0
1
2
Nominal Kategorik Out
X19 N of
Dependents
Jumlah
tanggungan
Rasio Numerik In
X20 N Trans ATM Jumlah
transfer via
ATM
Rasio Numerik In
X21 N Trans Kiosk Jumlah
transfer via
Kios
Rasio Numerik In
X22 N Trans Teller Jumlah
transfer via
Teller
Rasio Numerik In
X23 N Trans Web Jumlah
transfer via
Web
Rasio Numerik In
38
X24 Profession Profesi Manager
Cashier
IT staff
Programmer/
developer
Teacher
Doctor
Nurse
Fireman
Police
Waiter/waitress
dll.
Varchar Kategorik Out
X25 Region Wilayah 1: North
2: North East
3: East
4: South East
5: South
6: South West
7: West
8: North West
Nominal Kategorik In
X26 Salary Gaji per
tahun (USD)
Rasio Numerik In
X27 Sex Jenis
kelamin
1: Male
0: Female
Nominal Kategorik In
X28 State Negara
bagian
DC
CA
FL
MI
UT
NY
LA
WI
OR
dll.
Varchar Kategorik Out
X29 Time as
Customer
Lama waktu
sebagai
nasabah
(tahun)
Rasio Kategorik In
X30 T Amount
Autom
Payment
Pembayaran
otomatis per
bulan (USD)
Rasio Numerik In
39
Tabel 4.2 Variabel dependen
Kode Nama
Variabel
Deskripsi Nilai Tipe Data Tipe
Mining
Ket.
(in/out)
Y Buy
Insurance
Membeli
asuransi/tidak
1:Yes
0: No
Nominal Kategorik In
4.3 Persiapan dan Pembagian Dataset
Sebelum dilakukan proses mining, data harus dipersiapkan terlebih dahulu
agar siap untuk diolah (dikenal dengan istilah preprocessing) dengan tujuan
meminimalkan kesalahan dan mengoptimalkan hasil mining. Tahap persiapan
sesuai dengan tahapan pada data mining, yaitu :
Pada tahap cleaning, tidak diberikan perlakuan apapun, karena isian data
sudah lengkap (no missing value), sehingga tidak ada entry data yang perlu dibuang.
Pada tahap integrasi, juga tidak diberikan perlakuan apapun, karena data hanya
bersumber dari 1 dataset.
Pada tahap seleksi, terjadi pemilihan atribut yang akan di-mining. Atribut
dengan tipe data yang tidak dapat di-mining ataupun dinilai tidak relevan dapat
dibuang (tidak dipakai). Atribut-atribut tersebut yaitu :
o Customer ID (X7)
o First (X8)
o Last (X9)
Ketiga atribut tersebut bertipe data varchar dan dinilai tidak relevan. Selain
itu ada beberapa atribut yang tidak dipakai dengan alasan penyederhanaan, yaitu :
o LTV (X12) karena sudah ada pengelompokannya pada atribut LTV
bin (X13).
o N Mortgages (X18) karena sudah ada Mortgage Amount (X17).
o Professions (X24) karena data asli masih berbentuk varchar (belum
dikodekan) dan terlalu banyak variasi pekerjaan sehingga sulit untuk
dikategorikan.
40
o State (X28) karena data asli berbentuk varchar (belum dikodekan)
dan terlalu banyak variasi negara bagian (terdapat 50 negara bagian
di AS) sehingga sulit untuk dikategorikan, selain itu sudah ada
pengelompokan wilayah yang lebih umum, yaitu Region (X25).
Sehingga terdapat 23 atribut lainnya yang akan dipakai pada tahap selanjutnya sbb.
(kode variabel telah menyesuaikan) :
Tabel 4.3 Variabel independen yang dipakai
Kode Nama Variabel
X1 Age
X2 Bank Funds
X3 Car Ownership
X4 Checking Amount
X5 Credit Balance
X6 Credit Card Limit
X7 Has Children
X8 House Ownership
X9 LTV Bin
X10 Marital Status
X11 Money Monthly Overdrawn
X12 Monthly Checks Written
X13 Mortgage Amount
X14 N of Dependents
X15 N Trans ATM
X16 N Trans Kiosk
X17 N Trans Teller
X18 N Trans Web
X19 Region
X20 Salary
X21 Sex
X22 Time as Customer
X23 T Amount Autom Payment
Pada tahap transformasi, dilakukan pengkodean nilai pada data kategorik,
yang tadinya berupa data mentah sehingga memungkinkan untuk di-mining, yaitu :
41
Tabel 4.4 Pengkodean data kategorik
Kode Variabel Nilai
Y Buy Insurance 1 : yes
0 : no
X3 Car Ownership 1 : yes
0 : no
X7 Has Children 1 : yes
0 : no
X8 House Ownership 1 : yes
0 : no
X9 LTV Bin 1: Low
2: Medium
3: High
4: Very High
X10 Marital Status 1: Single
2: Married
3: Divorced
4: Others
X19 Region 1: North
2: North East
3: East
4: South East
5: South
6: South West
7: West
8: North West
X21 Sex 1: Male
0: Female
Sedangkan pada data kontinu, pengkategorian dilakukan oleh sistem entropi
pada tahap mining (tidak dilakukan secara manual). Dataset dalam kasus ini dibagi
2 secara random, yaitu 70% atau sebanyak 702 data yang terbaca oleh software
untuk pelatihan (pembangunan model) dan 30% atau sebanyak 313 data lainnya
untuk menguji tingkat akurasi dari model yang dihasilkan (jumlah sampel 1015).
42
4.4 Pengaturan Algoritma dalam Software Oracle SQL Developer 4.0.3
Dalam setiap software, pasti terdapat pengaturan-pengaturan tambahan
selain algoritma asli. Pengaturan-pengaturan berikut yang bisa dipakai dalam
software Oracle SQL Developer versi 4.0.3 pada algoritma Decision Tree dan
Naive Bayes :
Decision Tree
- Homogeneity Metric : Entropi
Homogeneity Metric atau ukuran homogenitas yang dipakai adalah sistem
entropi, sesuai dengan landasan teori yang dipakai.
- Maximum Depth : 7 (default)
Maximum Depth adalah jumlah maksimal percabangan secara hierarki (dari
atas ke bawah atau dari samping kiri ke kanan). Tujuan jumlah percabangan dibatasi
agar tree yang dihasilkan tidak terlalu besar (rumit). Dalam kasus ini jumlah
maksimal percabangan secara hierarki adalah 7.
- Minimum Records in a Node : 10 (default)
- Minimum Percent of Records in a Node : 0,05 (default)
Dua ketentuan di atas merupakan satu kesatuan yang bersifat saling
menggugurkan (bila satu ketentuan telah tercapai, maka ketentuan yang lainnya
akan gugur). Minimum records in a node adalah jumlah sampel minimal dalam
suatu simpul, sedangkan minimum percent of records in a node adalah persentase
minimal sampel dalam suatu simpul. Dalam kasus ini suatu simpul dapat terbentuk
bila terdapat minimal 10 sampel atau minimal 0,05% dari keseluruhan sampel.
- Minimum Records for a Split : 20 (default)
- Minimum Percent of Records for a Split : 0,1 (default)
Dua ketentuan di atas juga merupakan satu kesatuan yang bersifat saling
menggugurkan (bila satu ketentuan telah tercapai, maka ketentuan yang lainnya
akan gugur). Minimum records for a split adalah jumlah sampel minimal sebagai
43
syarat untuk split (membagi data), sedangkan minimum percent of records for a
split adalah persentase minimal sampel untuk membagi data. Dalam kasus ini suatu
split dapat terjadi bila terdapat minimal 20 sampel atau minimal 0,1% dari
keseluruhan sampel.
Naive Bayes
- Singletone Threshold : 0 (default)
- Pairwise Threshold : 0 (default)
Maksudnya, jumlah kejadian minimal yang dapat terjadi adalah 0, tidak
menerima kejadian dengan nilai negatif, baik untuk kejadian tunggal (singletone),
maupun kejadian berpasangan/bersyarat (pairwise).
4.5 Hasil Simulasi
Suatu model klasifikasi dikatakan baik apabila hasil prediksi dari model
tersebut memiliki persentase ketepatan (akurasi) yang tinggi dimana nilai tersebut
dapat dihitung sebagai berikut :
Tabel 4.5 Matrix performance klasifikasi
Buy Insurance Prediksi
Yes No
Data
asli
Yes 𝑎
𝑏 Jumlah actual Buy
No 𝑐 𝑑 Jumlah actual Not Buy
Jumlah
predicted
Buy
Jumlah
predicted
Not Buy
Jumlah (N)
Akurasi total (overall accuracy) dirumuskan sebagai berikut :
x100%a d
N
Dimana 𝑎 merupakan pembeli asuransi yang dengan model juga diprediksi
sebagai pembeli, sedangkan d merupakan bukan pembeli asuransi yang dengan
44
model juga diprediksi sebagai bukan pembeli. Berikut ini merupakan model hasil
simulasi dari kedua teknik klasifikasi yang akan dibandingkan hasilnya :
4.5.1 Decision tree
Tabel 4.6 Matrix performance decision tree
Buy Insurance Yes Predicted No Predicted Total Actual
Yes Actual 54 17 71
No Actual 44 198 242
Total Predicted 98 215 313
Ket. tabel :
Jumlah sampel yang diprediksi membeli dan benar adalah 54 (a).
Jumlah sampel yang diprediksi membeli dan salah adalah 44 (c).
Jumlah sampel yang diprediksi tidak membeli dan benar adalah 198 (d).
Jumlah sampel yang diprediksi tidak membeli dan salah adalah 17 (b).
Jumlah sampel yang sebenarnya membeli adalah 71.
Jumlah sampel yang sebenarnya tidak membeli adalah 242.
Jumlah sampel yang diprediksi membeli adalah 98.
Jumlah sampel yang diprediksi tidak membeli adalah 215.
Total sampel untuk data training adalah 313 (N).
Perhitungan :
True Positive Rate (sensitivity) : 54
71 𝑥 100% = 76,0563 %
True Negative Rate (specificity) : 198
242 𝑥 100% = 81,8182 %
Average Accuracy : (76,0563+81,8182)
2= 78,9373 %
Overall Accuracy : (54+198)
313𝑥 100 % = 80,5112 %
45
Gambar 4.1 Kurva ROC decision tree
Area di bawah kurva ROC = 0,8670
4.5.2 Naive bayes
Tabel 4.7 Matrix performance naive bayes
Buy Insurance Yes Predicted No Predicted Total Actual
Yes Actual 65 6 71
No Actual 90 152 242
Total Predicted 155 158 313
Ket. tabel :
Jumlah sampel yang diprediksi membeli dan benar adalah 65 (a).
Jumlah sampel yang diprediksi membeli dan salah adalah 90 (c).
Jumlah sampel yang diprediksi tidak membeli dan benar adalah 152 (d).
Jumlah sampel yang diprediksi tidak membeli dan salah adalah 6 (b).
Jumlah sampel yang sebenarnya membeli adalah 71.
Jumlah sampel yang sebenarnya tidak membeli adalah 242.
Jumlah sampel yang diprediksi membeli adalah 155.
Jumlah sampel yang diprediksi tidak membeli adalah 158.
Total sampel untuk data training adalah 313 (N).
46
Perhitungan :
True Positive Rate (sensitivity) : 65
71 𝑥 100% = 91,5493 %
True Negative Rate (specificity) : 152
242 𝑥 100% = 62,8099 %
Average Accuracy : (91,5493+62,8099)
2= 77,1796 %
Overall Accuracy : (65+152)
313𝑥 100 % = 69,3291 %
Gambar 4.2 Kurva ROC naive bayes
Area di bawah kurva ROC = 0,8256
4.6 Menentukan Model Klasifikasi Terbaik
Model klasifikasi terbaik ditentukan oleh akurasi total (overall accuracy)
nya. Makin tinggi overall accuracy, maka ketepatan prediksinya pun semakin baik.
Berikut merupakan diagram batang overall accuracy dari kedua model klasifikasi :
Gambar 4.3 Perbandingan overall accuracy kedua model klasifikasi
Terlihat di atas grafik Decision Tree (DT, berwarna hijau) memiliki overall
accuracy yang lebih tinggi dari Naive Bayes (NB, berwarna kuning), dengan DT
menyentuh angka 80%. Untuk lebih jelasnya, dapat dilihat pada tabel berikut :
47
Tabel 4.8 Perbandingan overall accuracy kedua model klasifikasi
Ranking Teknik Klasifikasi Overall Accuracy
(%)
1 Decision Tree (DT) 80,5112
2 Naive Bayes (NB) 69,3291
Sehingga jelas bahwa Decision Tree memiliki tingkat prediksi yang lebih
baik dari Naive Bayes. Selain overall accuracy, dapat dilihat pula average
accuracy-nya pada diagram batang dan tabel berikut :
Gambar 4.4 Perbandingan average accuracy kedua model klasifikasi
Diagram batang di atas menunjukkan average accuracy (akurasi rata-rata),
yaitu persentase prediksi benar positif (true positive rate) ditambah dengan
persentase prediksi benar negatif (true negative rate) dibagi dua. Terlihat grafik
Decision Tree (DT, berwarna hijau) lebih tinggi sedikit dari Naive Bayes (NB,
berwarna kuning). Untuk lebih jelasnya dapat dilihat pada tabel berikut :
Tabel 4.9 Persentase average accuracy kedua model klasifikasi
Ranking Teknik Klasifikasi Average Accuracy
(%)
1 Decision Tree (DT) 78,9373
2 Naive Bayes (NB) 77,1796
48
Selain itu, terdapat satu lagi alat ukur pendukung, yaitu predictive
confidence atau tingkat keyakinan prediksi sebagai berikut :
Gambar 4.5 Perbandingan predictive confidence kedua model klasifikasi
Terlihat grafik Decision Tree (DT, berwarna hijau) meraih nilai predictive
confidence sedikit lebih tinggi dari Naive Bayes (NB, berwarna kuning). Untuk
lebih jelasnya dapat dilihat pada tabel berikut:
Tabel 4.10 Persentase predictive confidence kedua model klasifikasi
Ranking Teknik Klasifikasi Predictive
Confidence (%)
1 Decision Tree (DT) 57,8745
2 Naive Bayes (NB) 54,3592
Dari ketiga pengukuran tersebut, Decision Tree (DT) selalu mendapat nilai
yang lebih tinggi, sehingga model inilah yang lebih layak sebagai klasifikator yang
berguna untuk memprediksi data yang belum pernah dilatih/diujikan sebelumnya.
Gambar 4.6 Kurva ROC gabungan
Pada kurva ROC di atas, terlihat kurva Decision Tree (DT, berwarna hijau)
lebih tinggi dari kurva Naive Bayes (NB, berwarna kuning), sehingga area di bawah
49
≤
kurva (AUC) DT lebih besar dari NB. Untuk lebih jelasnya dapat dilihat pada tabel
berikut :
Tabel 4.11 Area di bawah kurva ROC
Ranking Teknik Klasifikasi AUC
1 Decision Tree (DT) 0,8670
2 Naive Bayes (NB) 0,8256
4.7 Model Decision Tree dalam Data
Gambar 4.7 Model decision tree
≤225,5 >225,5
≤155 >155
≤1511,5 >1511,5
≤53,675 >53,675
50
Terlihat pada model tree di atas, atribut yang terpakai dalam pembentukan
tree hanya 4 dari 23 atribut input, yaitu Bank_Funds, Checking_Amount,
Credit_Balance, dan Money_Monthly_Overdrawn. Hal ini disebabkan pemilihan
atribut dalam algoritma Decision Tree menggunakan sistem entropi (seperti yang
telah dijelaskan pada subbab 3.1.4 dan 3.1.5).
Bank_Funds terpilih sebagai atribut pertama yang dijadikan split (pembagi),
hal itu berarti Bank_Funds memiliki nilai Informatian Gain terbesar atau
pengurangan entropi yang terkecil dari 23 atribut yang dipakai (nilai dari
Information Gain ataupun entropi tiap atribut memang tidak ditampilkan oleh
software). Akibat dari terpakainya atribut Bank_Funds, sampel dibagi ke dalam 2
subset, yaitu Bank_Funds > 225,5 dan Bank_Funds ≤ 225,5. Tujuan dari split ini
adalah untuk memastikan suatu subset masuk ke dalam kelas tertentu (mencari pure
subset, subset yang hanya terdiri dari satu kelas saja, misal kelas Yes saja atau kelas
No saja). Jika pure subset tidak ditemukan, setidaknya “bisa menjamin” bahwa
masuknya suatu subset ke dalam kelas tertentu memang benar, dengan didukung
oleh tingkat konfidensi yang tinggi. Pada kasus Bank_Funds, keputusan No jika
Bank_Funds ≤ 225,5 (pada node 4) didukung dengan tingkat konfidensi 99,64%).
Artinya, dengan tingkat konfidensi tersebut, maka subset itu dianggap sebagai pure
subset (tingkat konfidensi 100%).
Sedangkan subset lainnya dengan tingkat konfidensi yang masih rendah
(dalam memutuskan kelas tertentu), dibagi lagi menurut atribut lainnya dengan cara
yang sama, yaitu dengan melihat nilai Information Gain tertinggi atau nilai
pengurangan entropi terendah yang terbentuk berdasarkan atribut-atribut yang ada
(setelah atribut pertama/node awal terbentuk). Tingkat konfidensi menunjukkan
probabilitas jumlah sampel yang mendukung kelas tersebut. Dengan catatan, suatu
split hanya akan terjadi jika keadaan setelah split lebih baik dari keadaan sebelum
split, dalam hal ini ditentukan dari nilai Information Gain dari atribut yang akan
dijadikan split. Jika nilai Information Gain setelah split lebih besar dari nilai
Information Gain sebelum split, maka split tersebut akan terjadi. Tetapi jika nilai
Information Gain setelah split lebih kecil dibanding sebelum split, maka split tidak
akan terjadi. Hal inilah yang membatasi jumlah atribut yang terpakai dalam model
51
tree. Dengan kata lain, tidak semua atribut yang di-input dalam proses mining akan
terpakai pada model tree. Hanya atribut yang memberikan nilai information gain
yang lebih besar dari sebelum di-split yang akan dipakai pada model tree, pada
kasus ini: Bank_Funds, Checking_Amount, Credit_Balance, dan
Money_Monthly_Overdrawn. Karena itulah atribut-atribut yang lain tidak terpakai
pada model tree.
4.7.1 Penentuan cutoff dan uji independensi hasil tree
Bank Funds
Pada atribut Bank_Funds, ditentukan cutoff pada angka 225,5 oleh sistem
entropi, yang membagi Bank_Funds ke dalam 2 kategori, misal K11 dan K21 dengan
0≤K11≤225,5 dan K21>225,5. Ini berarti dengan membagi Bank_Funds ke dalam
K11 dan K21 telah menghasilkan nilai entropi yang terkecil bagi atribut Bank_Funds
(nilai dari entropi-entropi yang mungkin terbentuk memang tidak ditampilkan oleh
software).
Untuk menguji independensi variabel Y (Buy_Insurance) terhadap atribut
hasil cutoff tersebut dilakukan uji independensi chi-square dengan jumlah sampel
random 702 dari 1015 total sampel (jumlah 702 mengikuti jumlah sampel yang
dipakai pada data training) sbb. :
Tabel 4.12 Tabulasi silang bank_funds
Buy_Insurance
Total No Yes
Bank_Funds1 1 286 1 287
2 241 174 415
Total 527 175 702
Bank_Funds1 adalah atribut Bank_Funds yang telah dikategorikan, dengan
1 dan 2 adalah kategorinya. Kategori 1 (anggap K11) bernilai 0 ≤ K11 ≤ 225,5 dan
kategori 2 (anggap K21) bernilai K21 > 225,5.
52
Karena data yang dipakai adalah data random dengan software yang
berbeda, tentu jumlah pembeli asuransi dan yang tidak pada setiap kategorinya akan
berbeda dengan hasil pada tree sebelumnya ataupun jika dilakukan pengambilan
data random lagi (yang penting jumlah sampel random yang diambil sama, yakni
702 sampel) sebagai pembuktian yang ekuivalen.
Tabel 4.13 Tes chi-square bank_funds
Value df
Asymp. Sig. (2-
sided)
Exact Sig. (2-
sided)
Exact Sig. (1-
sided)
Pearson Chi-Square 156.737a 1 .000
Continuity Correctionb 154.523 1 .000
Likelihood Ratio 210.655 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear Association 156.514 1 .000
N of Valid Cases 702
a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 71,55.
b. Computed only for a 2x2 table
Uji Hipotesis
o H0 : Variabel 1 independen terhadap variabel II
H1 : Variabel I dependen terhadap variabel II
o Tingkat signifikansi (α) = 0,05 dengan derajat bebas 1
o Daerah kritik : p-value < 0,05 atau 𝜒2 > 𝜒2 (0,05;1)
o Pengujian :
p-value = 0,000
𝜒2 = 156,737
o Kesimpulan :
Karena p-value < α (0,000 < 0,05) dan 𝜒2 > 𝜒2 (0,05;1) (156,737 >
3,841) maka H0 ditolak, sehingga variabel I dependen terhadap
variabel II, yang berarti Buy_Insurance dependen terhadap
Bank_Funds (tidak dapat dihilangkan).
53
Checking Amount
Pada atribut Checking_Amount, ditentukan cutoff pada angka 155 oleh
sistem entropi, yang membagi Checking_Amount ke dalam 2 kategori, misal K12
dan K22 dengan 0 ≤ K12 ≤ 155 dan K22 > 155. Ini berarti dengan membagi
Checking_Amount ke dalam K12 dan K22 telah menghasilkan nilai entropi yang
terkecil bagi atribut Checking_Amount (nilai dari entropi-entropi yang mungkin
terbentuk memang tidak ditampilkan oleh software).
Untuk menguji independensi variabel Y (Buy_Insurance) terhadap atribut
hasil cutoff tersebut dilakukan uji independensi chi-square dengan jumlah sampel
random 702 dari 1015 total sampel (jumlah 702 mengikuti jumlah sampel yang
dipakai pada data training) sbb. :
Tabel 4.14 Tabulasi silang checking_amount
Buy_Insurance
Total No Yes
Check_Amount1 1 362 148 510
2 165 27 192
Total 527 175 702
Check_Amount1 adalah atribut Checking_Amount yang telah
dikategorikan, dengan 1 dan 2 adalah kategorinya. Kategori 1 (anggap K12) bernilai
0 ≤ K12 ≤ 155 dan kategori 2 (anggap K22) bernilai K22 > 155.
Karena data yang dipakai adalah data random dengan software yang
berbeda, tentu jumlah pembeli asuransi dan yang tidak pada setiap kategorinya akan
berbeda dengan hasil pada tree sebelumnya ataupun jika dilakukan pengambilan
data random lagi (yang penting jumlah sampel random yang diambil sama, yakni
702 sampel) sebagai pembuktian yang ekuivalen.
54
Tabel 4.15 Tes chi-square checking_amount
Value df
Asymp. Sig. (2-
sided)
Exact Sig. (2-
sided)
Exact Sig. (1-
sided)
Pearson Chi-Square 16.675a 1 .000
Continuity Correctionb 15.885 1 .000
Likelihood Ratio 18.103 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear Association 16.651 1 .000
N of Valid Cases 702
a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 47,86.
b. Computed only for a 2x2 table
Uji Hipotesis
o H0 : Variabel 1 independen terhadap variabel II
H1 : Variabel I dependen terhadap variabel II
o Tingkat signifikansi (α) = 0,05 dengan derajat bebas 1
o Daerah kritik : p-value < 0,05 atau 𝜒2 > 𝜒2 (0,05;1)
o Pengujian :
p-value = 0,000
𝜒2 = 16,675
o Kesimpulan :
Karena p-value < α (0,000 < 0,05) dan 𝜒2 > 𝜒2 (0,05;1) (16,675 >
3,841) maka H0 ditolak, sehingga variabel I dependen terhadap
variabel II, yang berarti Buy_Insurance dependen terhadap
Checking_Amount (tidak dapat dihilangkan).
Credit Balance
Pada atribut Credit_Balance, ditentukan cutoff pada angka 1511,5 oleh
sistem entropi, yang membagi Credit_Balance ke dalam 2 kategori, misal K13 dan
K23 dengan 0 ≤ K13 ≤ 1511,5 dan K23 > 1511,5. Ini berarti dengan membagi
Credit_Balance ke dalam K13 dan K23 telah menghasilkan nilai entropi yang terkecil
55
bagi atribut Credit_Balance (nilai dari entropi-entropi yang mungkin terbentuk
memang tidak ditampilkan oleh software).
Untuk menguji independensi variabel Y (Buy_Insurance) terhadap atribut
hasil cutoff tersebut dilakukan uji independensi chi-square dengan jumlah sampel
random 702 dari 1015 total sampel (jumlah 702 mengikuti jumlah sampel yang
dipakai pada data training) sbb. :
Tabel 4.16 Tabulasi silang credit_balance
Buy_Insurance
Total No Yes
Credit_Balance1 1 468 166 634
2 59 9 68
Total 527 175 702
Credit_Balance1 adalah atribut Credit_Balance yang telah dikategorikan,
dengan 1 dan 2 adalah kategorinya. Kategori 1 (anggap K13) bernilai 0 ≤ K13 ≤
1511,5 dan kategori 2 (anggap K23) bernilai K23 > 1511,5.
Karena data yang dipakai adalah data random dengan software yang
berbeda, tentu jumlah pembeli asuransi dan yang tidak pada setiap kategorinya akan
berbeda dengan hasil pada tree sebelumnya ataupun jika dilakukan pengambilan
data random lagi (yang penting jumlah sampel random yang diambil sama, yakni
702 sampel) sebagai pembuktian yang ekuivalen.
56
Tabel 4.17 Tes chi-square credit_balance
Value df
Asymp. Sig. (2-
sided)
Exact Sig. (2-
sided)
Exact Sig. (1-
sided)
Pearson Chi-Square 5.501a 1 .019
Continuity Correctionb 4.831 1 .028
Likelihood Ratio 6.213 1 .013
Fisher's Exact Test .018 .011
Linear-by-Linear Association 5.494 1 .019
N of Valid Cases 702
a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 16,95.
b. Computed only for a 2x2 table
Uji Hipotesis
o H0 : Variabel 1 independen terhadap variabel II
H1 : Variabel I dependen terhadap variabel II
o Tingkat signifikansi (α) = 0,05 dengan derajat bebas 1
o Daerah kritik : p-value < 0,05 atau 𝜒2 > 𝜒2 (0,05;1)
o Pengujian :
p-value = 0,019
𝜒2 = 5,501
o Kesimpulan :
Karena p-value < α (0,019 < 0,05) dan 𝜒2 > 𝜒2 (0,05;1) (5,501 >
3,841) maka H0 ditolak, sehingga variabel I dependen terhadap
variabel II, yang berarti Buy_Insurance dependen terhadap
Credit_Balance (tidak dapat dihilangkan).
Money Monthly Overdrawn
Pada atribut Money_Monthly_Overdrawn, ditentukan cutoff pada angka
53,675 oleh sistem entropi, yang membagi Money_Monthly_Overdrawn ke dalam
2 kategori, misal K14 dan K24 dengan 0 ≤ K14 ≤ 53,675 dan K24 > 53,675. Ini berarti
dengan membagi Money_Monthly_Overdrawn ke dalam K14 dan K24 telah
57
menghasilkan nilai entropi yang terkecil bagi atribut Money_Monthly_Overdrawn
(nilai dari entropi-entropi yang mungkin terbentuk memang tidak ditampilkan oleh
software).
Untuk menguji independensi variabel Y (Buy_Insurance) terhadap atribut
hasil cutoff tersebut dilakukan uji independensi chi-square dengan jumlah sampel
random 702 dari 1015 total sampel (jumlah 702 mengikuti jumlah sampel yang
dipakai pada data training) sbb. :
Tabel 4.18 Tabulasi silang money_monthly_overdrawn
Buy_Insurance
Total No Yes
MM_Overdrawn 1 424 74 498
2 103 101 204
Total 527 175 702
MM_Overdrawn adalah atribut Money_Monthly_Overdrawn yang telah
dikategorikan, dengan 1 dan 2 adalah kategorinya. Kategori 1 (anggap K14) bernilai
0 ≤ K14 ≤ 53,675 dan kategori 2 (anggap K24) bernilai K24 > 53,675.
Karena data yang dipakai adalah data random dengan software yang
berbeda, tentu jumlah pembeli asuransi dan yang tidak pada setiap kategorinya akan
berbeda dengan hasil pada tree sebelumnya ataupun jika dilakukan pengambilan
data random lagi (yang penting jumlah sampel random yang diambil sama, yakni
702 sampel) sebagai pembuktian yang ekuivalen.
58
Tabel 4.19 Tes chi-square money_monthly overdrawn
Value df
Asymp. Sig. (2-
sided)
Exact Sig. (2-
sided)
Exact Sig. (1-
sided)
Pearson Chi-Square 92.846a 1 .000
Continuity Correctionb 91.004 1 .000
Likelihood Ratio 87.052 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear Association 92.714 1 .000
N of Valid Cases 702
a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 50,85.
b. Computed only for a 2x2 table
Uji Hipotesis
o H0 : Variabel 1 independen terhadap variabel II
H1 : Variabel I dependen terhadap variabel II
o Tingkat signifikansi (α) = 0,05 dengan derajat bebas 1
o Daerah kritik : p-value < 0,05 atau 𝜒2 > 𝜒2 (0,05;1)
o Pengujian :
p-value = 0,000
𝜒2 = 92,846
o Kesimpulan :
Karena p-value < α (0,000 < 0,05) dan 𝜒2 > 𝜒2 (0,05;1) (92,846 >
3,841) maka H0 ditolak, sehingga variabel I dependen terhadap
variabel II, yang berarti Buy_Insurance dependen terhadap
Money_Monthly_Overdrawn (tidak dapat dihilangkan).
59
4.7.2 Rules
Rules “Yes”
Node: 2
If BANK_FUNDS > 225,5
And CHECKING_AMOUNT <= 155
Then Yes
Support =261
702𝑥100% = 37,18%
Confidence =168
261𝑥100% = 64,37%
Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5 dan
CHECKING_AMOUNT ≤ $ 155 berpeluang 64,37% untuk membeli produk
asuransi.
Node: 3
Support =244
702𝑥100% = 34,76%
Confidence =167
244𝑥100% = 68,44%
Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5 dan
CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE ≤ $ 1511.5
berpeluang 68,44% untuk membeli produk asuransi.
Node: 5 (rule akhir)
If BANK_FUNDS > 225,5
And CHECKING_AMOUNT <= 155
And CREDIT_BALANCE <= 1511,5
And MONEY_MONTHLY_OVERDRAWN <= 53,675
Then Yes
Support =141
702𝑥100% = 20,09%
Confidence =75
141𝑥100% = 53,19%
If BANK_FUNDS > 225,5
And CHECKING_AMOUNT <= 155
And CREDIT_BALANCE <= 1511,5
Then Yes
60
Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5 dan
CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE ≤ $ 1511.5 dan
MONEY_MONTHLY_OVERDRWAN ≤ $ 53.675 berpeluang 53,19% untuk
membeli produk asuransi.
Node: 6 (rule akhir)
Support =103
702𝑥100% = 14,67%
Confidence =92
103𝑥100% = 89,32%
Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5 dan
CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE ≤ $ 1511.5 dan
MONEY_MONTHLY_OVERDRWAN > $ 53.675 berpeluang 89,32% untuk
membeli produk asuransi. Ini merupakan kriteria dengan peluang terbaik.
Rules “No”
Node: 0
No
Support =702
702𝑥100% = 100%
Confidence =500
702𝑥100% = 71,23%
Ini merupakan node awal pembentukan tree tanpa melihat pengaruh dari
atribut manapun. Jika seorang nasabah bank secara random pada studi kasus ini
ditawari produk asuransi, maka peluang ia tidak membeli sebesar 71,23%, yang
berarti peluang membelinya 28,77%. Peluang didapat dari perbandingan jumlah
sampel dari yang membeli dan yang tidak.
If BANK_FUNDS > 225,5
And CHECKING_AMOUNT <= 155
And CREDIT_BALANCE <= 1511,5
And MONEY_MONTHLY_OVERDRAWN > 53,675
Then Yes
61
Node: 4
If BANK_FUNDS <= 225,5
Then No
Support =281
702𝑥100% = 40,03%
Confidence =280
281𝑥100% = 99,64%
Dengan kata lain, nasabah yang memiliki BANK_FUNDS ≤ $ 225.5
berpeluang 99,64% untuk tidak membeli produk asuransi. Ini merupakan peluang
terbesar seorang nasabah untuk tidak membeli produk asuransi atau peluang
terkecil untuk membeli produk asuransi.
Node: 1
If BANK_FUNDS > 225,5
Then No
Support =421
702𝑥100% = 59,97%
Confidence =220
421𝑥100% = 52,26%
Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5
berpeluang 52,26% untuk tidak membeli produk asuransi. Berarti nasabah yang
memiliki BANK_FUNDS > $ 225.5 pun belum tentu tertarik untuk membeli
produk asuransi jika tidak ditunjang dengan kriteria-kriteria lainnya.
Node: 8 (rule akhir)
If BANK_FUNDS > 225,5
And CHECKING_AMOUNT > 155
Then No
Support =160
702𝑥100% = 22,79%
Confidence =127
160𝑥100% = 79,38%
62
Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5 dan
CHECKING_AMOUNT > $ 155 berpeluang 79,38% untuk tidak membeli produk
asuransi.
Node: 7 (rule akhir)
If BANK_FUNDS > 225,5
And CHECKING_AMOUNT <= 155
And CREDIT_BALANCE > 1511,5
Then No
Support =17
702𝑥100% = 2,42%
Confidence =16
17𝑥100% = 94,12%
Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5 dan
CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE > $ 1511.5
berpeluang 94,12% untuk tidak membeli produk asuransi.
4.8 Simulasi dengan Menggunakan Data Nasabah Baru
Simulasi dengan menggunakan data nasabah baru yang belum pernah
diujikan sebelumnya. Atribut telah disortir menjadi 23 atribut seperti pada tahap
seleksi data dan kode atribut juga telah menyesuaikan. Misal ada 2 buah data
nasabah sbb. :
63
Tabel 4.20 Simulasi data nasabah baru
Kode Nama Variabel Deskripsi Nasabah 1 Nasabah 2
X1 Age Umur dalam
tahun
40 25
X2 Bank Funds Saldo
tabungan
10.000 5.000
X3 Car Ownership Kepemilikan
mobil
1 0
X4 Checking
Amount
100 175
X5 Credit Balance Jumlah
kredit
350 100
X6 Credit Card
Limit
Batas kredit
pada kartu
kredit
5.000 1.000
X7 Has Children Kepunyaan
anak
1 0
X8 House
Ownership
Kepemilikan
rumah
1 0
X9 LTV Bin Kategori
Customer
lifetime
value
4 1
X10 Marital Status Status nikah 2 1
X11 Money
Monthly
Overdrawn
56,75 50,63
X12 Monthly
Checks Written
3 0
X13 Mortgage
Amount
Nilai hipotik 15.000 5.000
X14 N of
Dependents
Jumlah
tanggungan
2 0
X15 N Trans ATM Jumlah
transfer via
ATM
0 0
X16 N Trans Kiosk Jumlah
transfer via
Kios
0 0
X17 N Trans Teller Jumlah
transfer via
Teller
0 0
64
X18 N Trans Web Jumlah
transfer via
Web
5 2
X19 Region Wilayah 2 7
X20 Salary Gaji per
tahun (USD)
85.000 50.000
X21 Sex Jenis
kelamin
1 0
X22 Time as
Customer
Lama waktu
sebagai
nasabah
(tahun)
15 5
X23 T Amount
Autom
Payment
Pembayaran
otomatis per
bulan (USD)
500 300
Bila kedua data tersebut dicocokkan dengan rules pada Decision Tree yang
telah terbentuk sebelumnya, maka akan didapat hasil sbb. :
o Karena Nasabah 1 mempunyai :
Bank Funds = 10.000 > 225,5
Checking Amount = 100 ≤ 155
Credit Balance = 350 ≤ 1511,5
Money Monthly Overdrawn = 56,75 > 53,675
Kriteria tersebut cocok dengan rule pada node 6 yaitu :
Node: 6 (confidence: 89,32%)
Maka Nasabah 1 tersebut berpeluang sebesar 89,32% untuk membeli asuransi tanpa
harus melihat atribut lainnya.
If BANK_FUNDS > 225,5
And CHECKING_AMOUNT <= 155
And CREDIT_BALANCE <= 1511,5
And MONEY_MONTHLY_OVERDRAWN > 53,675
Then Yes
65
o Karena Nasabah 2 mempunyai :
Bank Funds = 5.000 > 225,5
Checking Amount = 175 > 155
Karena kriteria tersebut cocok dengan rule pada node 8 yaitu :
Node: 8 (confidence: 79,38%)
If BANK_FUNDS > 225,5
And CHECKING_AMOUNT > 155
Then No
Maka Nasabah 2 tersebut berpeluang sebesar 79,38% untuk tidak membeli
asuransi, tanpa harus melihat atribut lainnya.
66
BAB V
KESIMPULAN
1. Berdasarkan studi kasus data pembelian produk asuransi pada dunia nyata,
didapat Decision Tree sebagai model klasifikasi yang lebih baik dari Naive
Bayes, dengan tingkat akurasi total (overall accuracy) sebesar 80,51 %
sedangkan Naive Bayes hanya sebesar 69,32 %.
2. Berdasarkan model Decision Tree, peluang tertinggi seseorang membeli
produk asuransi jika memiliki BANK_FUNDS > $ 225.5 dan
CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE ≤ $ 1511.5
dan MONEY_MONTHLY_OVERDRAWN > $ 53.675 yakni berpeluang
89,32 %.
3. Sebaliknya, peluang terendah seseorang membeli produk asuransi jika
memiliki BANK_FUNDS ≤ $ 225.5 yakni berpeluang 99,64 % untuk tidak
membeli, dengan kata lain hanya berpeluang 0,36 % untuk membeli.
DAFTAR PUSTAKA
Anggelis, V. & Chritodoulakis, D., 2005, Customer Clustering using RFM
Analysis, Computer Engineering and Informatics Department, University of Patras,
Greece.
Bain, L.J. & Engelhardt, M., 2000, Introduction to Probability and Mathematical
Statistics, third edition, Duxbury, Singapore.
Basuki, A. & Syarif, I., 2003, Decision Tree, Politeknik Electronika Negeri
Surabaya ITS, Surabaya.
Brefeld, U. & Scheffer, T., 2005, AUC maximizing support vector learning. In
Proceedings of the 22nd International Conference on Machine Learning-Workshop
on ROC Analysis in Machine Learning, Bonn, Germany.
Cheng, C.H. & Chen, Y.S., 2009, Classifying the segmentation of customer value
via RFM model and RS theory, Expert Systems with Applications : An International
Journal, 36, 4176–4184.
Davies, B., 2004, Database Systems 3rd Edition. Palgrave, Basingstoke, UK.
Fawcett, T., 2006, An introduction to ROC analysis, Elsevier, Pattern Recognition
Letters, 27, 861–874.
Han, J., 2013, Identifying Potential Customers With Classification Techniques in R
Language, http://www.dataapple.net/?p=102, diakses 12 Desember 2014.
Han, J., Kamber, M., Pei, J., 2001, Data Mining Concepts and Techniques, Morgan
Kaufmann, California.
Idroes, F.N., 2008, Manajemen Resiko Perbankan, Rajawali Pers, Jakarta.
Juriah, 2013, Klasifikasi dan Prediksi Resiko Kredit Perbankkan Menggunakan
Algoritma Naive Bayes Dalam Data Mining, skripsi, FMIPA UGM, Yogyakarta.
Kusnawi, 2007, Pengantar Solusi Data Mining, e-journal Seminar Nasional
Teknologi 2007, STMIK Amikom, Yogyakarta.
Larose, D.T., 2005, Discovering Knowledge in Data : An Introduction to Data
Mining, Wiley, New York.
Paratu, L.G., 2013, Analisis Churn Pada Pelanggan Telekomunikasi Menggunakan
Algoritma C4.5, skripsi, FMIPA UGM, Yogyakarta.
Pottle, B., Berger, C., Kelly, M., Taft, M., & Talyor, K., 2011, Using Oracle Data
Miner 11g Release 2,
http://www.oracle.com/webfolder/technetwork/tutorials/obe/db/11g/r2/prod/bidw/
datamining/ODM11gR2.htm, diakses 16 Desember 2014.
Royston, P., Altman, D.G., & Sauerbrei, W., 2006, Dichotomizing continuous
predictors in multiple regression: A bad idea. Statistics in Medicine, 25, 127–141.
Sitorus, 2010, Penggunaan Data Mining Dengan Metode Decision Tree Untuk
Prediksi Resiko Kredit, skripsi, FMIPA UGM, Yogyakarta.
Subanar, 2011, Diktat Pengantar Teori Ukuran dan Probabilitas, FMIPA UGM,
Yogyakarta.
Sunjana, 2010, Aplikasi Mining Data Mahasiswa Dengan Metode Klasifikasi
Decision Tree, Seminar Nasional Aplikasi Teknologi Informasi 2010 (SNATI 2010),
ISSN: 1907-5022.
Tan, B.C., Ho, B.C., & Shea, 2004, Two new moss species, Trichosteleum
fleischeri and Splachnobryum temasekensis, Journal of Hattori Botanical
Laboratory, 96, 223-230.
Widiasari, L.S., Sanjaya, N.A., Mahendra, I.B.M., 2008, Perancangan Prototype
Sistem Customer Profiling Berdasarkan Tingkat Customer Value Menggunakan
Implementasi Metode Hierarchical K-means Clustering, Jurnal Tugas Akhir,
Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Udayana, Bali.
Witten, I.H. & Frank, E., 2005, Data Mining : Practical Machine Learning Tools
and Techniques, second edition, Morgan Kaufmann, California.
Wulandari, 2013, Klasifikasi dan Prediksi Keputusan Credit Scoring Berdasarkan
Klasifier Naive Bayes, skripsi, FMIPA UGM, Yogyakarta.
Yuliharyani, S., 2011, Algoritma Decision Tree C4.5 Untuk Klasifikasi Keluarga
Peserta Jamkesmas Berdasarkan Kemiskinan, skripsi, program studi Ilmu
Komputer, Universitas Brawijaya, Malang.
Zafilia, L., 2007, Penerapan Data Mining Untuk IDS, skripsi, program studi Teknik
Elektro, ITB, Bandung.
LAMPIRAN : PERBANDINGAN DATA HASIL KLASIFIKASI DARI DECISION
TREE (DT) DAN NAIVE BAYES (NB) DENGAN DATA ASLI (BUY_INSURANCE)
PADA DATA UJI
No. CUSTOMER_ID BUY_INSURANCE DT DT_PROB NB NB_PROB
1 CU6117 No No 0,9863 Yes 0,9661
2 CU15015 No No 0,9975 No 1
3 CU9590 No No 0,8254 No 0,577
4 CU2507 No No 0,9863 No 0,9959
5 CU13551 No Yes 0,5367 No 0,9925
6 CU7788 No No 0,9975 No 1
7 CU12361 No No 0,9 Yes 0,9044
8 CU10508 No No 0,9975 No 1
9 CU14309 No No 0,9975 No 1
10 CU5679 No No 0,9863 No 0,9944
11 CU15979 No No 0,9975 No 1
12 CU12527 No No 0,9975 No 0,8736
13 CU1140 No No 0,9975 No 1
14 CU6871 No No 0,9975 No 0,9955
15 CU3070 No No 0,8214 Yes 0,7694
16 CU2941 No No 0,9975 No 1
17 CU11032 No No 0,8254 Yes 0,5472
18 CU3996 No No 0,9 No 0,8909
19 CU3065 No No 0,8254 Yes 0,9606
20 CU15033 No Yes 0,5367 No 0,7363
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
295 CU12794 Yes Yes 0,5367 Yes 0,9479
296 CU5596 Yes Yes 0,9009 Yes 0,9864
297 CU12573 Yes Yes 0,5367 Yes 0,7578
298 CU2885 Yes Yes 0,9009 Yes 0,9992
299 CU8600 Yes Yes 0,9009 Yes 0,9977
300 CU3850 Yes Yes 0,5367 Yes 0,9808
301 CU5599 Yes Yes 0,8889 Yes 0,9987
302 CU7962 Yes Yes 0,8889 Yes 0,9948
303 CU3942 Yes Yes 0,8889 Yes 0,9987
304 CU4299 Yes Yes 0,8889 Yes 0,9942
305 CU4155 Yes Yes 0,9009 Yes 0,9904
306 CU1005 Yes Yes 0,9009 Yes 0,9637
307 CU5403 Yes No 0,8254 Yes 0,9258
308 CU15326 Yes Yes 0,9009 Yes 0,9972
309 CU10154 Yes No 0,8254 Yes 0,9258
310 CU14434 Yes Yes 0,5367 No 0,7464
311 CU6560 Yes Yes 0,5367 Yes 0,9835
312 CU12842 Yes Yes 0,5367 Yes 0,9797
313 CU6165 Yes Yes 0,5367 Yes 0,6767
Lampiran : Tabel Uji Chi-Square