identifikasi pelanggan potensial produk asuransi dengan teknik klasifikasi

SKRIPSI

IDENTIFIKASI PELANGGAN POTENSIAL PRODUK ASURANSI

DENGAN TEKNIK KLASIFIKASI

IDENTIFYING POTENTIAL CUSTOMERS OF INSURANCE PRODUCT

WITH CLASSIFICATION TECHNIQUES

ADHITYA AKBAR

10/297716/PA/13065

PROGRAM STUDI STATISTIKA

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

YOGYAKARTA

2015

i

SKRIPSI





Diajukan untuk memenuhi salah satu syarat memperoleh derajat

Sarjana Sains Matematika

ADHITYA AKBAR

10/297716/PA/13065

PROGRAM STUDI STATISTIKA

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

YOGYAKARTA

2015

iii

PERNYATAAN

Dengan ini saya menyatakan bahwa Skripsi ini tidak terdapat karya yang

pernah diajukan untuk memperoleh gelar kesarjanaan di suatu Perguruan Tinggi,

dan sepanjang pengetahuan saya juga tidak terdapat karya atau pendapat yang

pernah ditulis atau diterbitkan oleh orang lain, kecuali yang secara tertulis diacu

dalam naskah ini dan disebutkan dalam daftar pustaka.

Yogyakarta, April 2015

Adhitya Akbar

iv

HALAMAN PERSEMBAHAN

Adalah aku yang datang ke kota ini

Ditemani secangkir ekspektasi

Harapan yang bervariasi

Ikatan persahabatan yang terakumulasi

Tawa, canda, serta afeksi

Yakinkan ku akan opsi ini

Atmosfer yang takkan mati

Adalah aku yang kan pergi

Kunjungan singkat nan berarti

Bagiku kau tak terganti

Ajarkan ku filosofi

Ronde yang baru t’lah menanti~

(Akbar, 2015)

“Hasil akhir tidak akan pernah

mengkhianati prosesnya”

–Metta Khairinnisa, seorang teman.

Skripsi ini saya persembahkan untuk ...

Kedua orang tua yang telah membesarkan dan

membiayai selama ini.

v

KATA PENGANTAR

Assalamu’alaikum Wr.Wb.

Alhamdulillah, segala puji dan syukur ke hadirat Allah SWT, karena atas

berkah dan rahmat-Nya penulis dapat menyelesaikan skripsi yang berjudul

“Identifikasi Pelanggan Potensial Dengan Teknik Klasifikasi” ini dengan baik dan

dalam tempo yang sesingkat-singkatnya, sebagai salah satu syarat untuk

memperoleh gelar kesarjanaan di program studi Statistika UGM.

Penulis juga ingin menyampaikan rasa terima kasih kepada semua pihak yang

telah memberikan inspirasi, motivasi, maupun waktunya baik secara langsung

maupun tidak langsung, secara sadar maupun tidak sadar, tidak hanya untuk

pembuatan skripsi ini, tetapi juga selama penulis tinggal di Daerah Istimewa

Yogyakarta yang memang istimewa ini. Rasa terima kasih tersebut penulis tujukan

secara umum maupun khusus untuk :

1. Daerah Istimewa Yogyakarta dengan segala atribut di dalamnya.

2. Universitas Gadjah Mada dengan segala atribut di dalamnya.

3. FMIPA UGM dengan segala atribut di dalamnya.

4. Statistika UGM dengan segala atribut di dalamnya.

5. Drs. Pekik Nurwantoro, M.S., Ph.D., dekan FMIPA UGM.

6. Dr. Abdurakhman, S.Si., M.Si., kepala prodi Statistika UGM.

7. Drs. Zulaela, Dipl.Med.Stats., M.Si, sekretaris prodi Statistika UGM

sekaligus dosen pembimbing Kerja Praktek dan Skripsi.

8. Seluruh dosen dan staf prodi Statistika UGM.

9. Statistika 2010 UGM, teman seangkatan, seperjuangan, sepetualangan,

seperjalanan, dan sepermainan. Semoga kita semua bisa bertemu lagi

nanti dalam kondisi yang membahagiakan, aamiin.

10. Seluruh kakak angkatan dan adik angkatan Statistika UGM yang penulis

kenal maupun kenal penulis.

vi

11. Pasukan Kontrakan yang telah menemani selama kurang lebih 3 tahun:

Ibas alias Mamak, El alias Miftah alias Gendut alias Babon, Aris alias

Pato alias Supato, Trisna alias Jack alias Megalomen (nama samaran–

red), Mefhan alias Handuk alias Handoko alias Cina (sori, no rasis) plus

anggota terbaru setahun terakhir, Tabah alias Wisnu alias Viaztri (fix

gagal).

12. Teman awal kuliah, Calvin, kk Eska, dkk.

13. Kosan Byarpet, Kontrakan Lempongsari, Kontrakan Nologaten, dan

Kosan F15 Klebengan.

14. Anggota tetap Pasukan Makan F15 : mamang Pras, Dani, dan Joe.

15. Forum Mahasiswa Universitas Gadjah Mada 2010.

16. Internet dan laptop dengan segala fungsinya.

17. Supra Fit AB 5234 AI alias Supri, kendaraan penulis selama tinggal di

Jogja yang telah menempuh puluhan ribu kilometer perjalanan.

18. Seluruh manusia yang penulis kenal maupun kenal penulis, khususnya

selama penulis berada di Jogja.

Penulis telah berusaha membuat skripsi ini dengan sebaik mungkin yang

penulis dapat lakukan. Akan tetapi, tidak menutup kemungkinan adanya kesalahan

dalam penulisan ataupun kesalahan lainnya, untuk itu penulis mohon maaf. Akhir

kata, semoga skripsi ini dapat berguna bagi diri penulis sendiri maupun para

pembaca nantinya, aamiin.

Wassalamu’alaikum Wr. Wb.

Yogyakarta, April 2015

Penulis

vii

DAFTAR ISI

HALAMAN JUDUL ...........................................................................................i

HALAMAN PENGESAHAN .............................................................................ii

PERNYATAAN ..................................................................................................iii

HALAMAN PERSEMBAHAN .........................................................................iv

KATA PENGANTAR ........................................................................................v

DAFTAR ISI .......................................................................................................vii

DAFTAR TABEL ............................................................................................... x

DAFTAR GAMBAR .......................................................................................... xi

INTISARI ............................................................................................................ xii

ABSTRACT ........................................................................................................ xiii

BAB I. PENDAHULUAN

1.1. Latar Belakang Masalah ............................................................................ 1

1.2. Tujuan Penulisan ....................................................................................... 1

1.3. Pembatasan Masalah ................................................................................. 2

1.4. Metode Penulisan ...................................................................................... 2

1.5. Tinjauan Pustaka ....................................................................................... 2

1.6. Sistematika Penulisan ................................................................................ 2

BAB II . LANDASAN TEORI

2.1. Data Mining ............................................................................................... 4

2.1.1. Karakteristik data mining .............................................................. 4

2.1.2. Pengelompokkan data mining .................................................... 5

2.1.3. Tahapan data mining ..................................................................... 7

2.1.4. Metode data mining ...................................................................... 10

2.2. Klasifikasi .................................................................................................. 10

2.2.1. Model klasifikasi .......................................................................... 11

2.2.2. Tujuan klasifikasi........................................................................... 11

2.2.3. Konsep pembuatan model dalam klasifikasi ................................ 11

viii

2.3. Probabilitas ...............................................................................................13

2.4. Probabilitas Bersyarat, Distribusi Bersyarat, dan Kejadian Independen

..................................................................................................................15

2.5. Teorema Bayes .........................................................................................16

2.5.1. Probabilitas prior dan posterior ................................................... 17

2.5.2. Rumus bayes dan fungsi likelihood ............................................. 17

2.6. Receiver Operating Charateristic (ROC) .................................................18

BAB III. KLASIFIKASI DENGAN DATA MINING

3.1. Decision Tree ............................................................................................21

3.1.1. Konsep decision tree ....................................................................21

3.1.2. Tipe simpul pada tree ...................................................................22

3.1.3. Proses pembentukan decision tree ............................................... 23

3.1.4. Information gain ........................................................................... 24

3.1.5. Entropy ......................................................................................... 25

3.1.6. Penanganan data kontinu .............................................................. 26

3.1.7. Support dan confidence ................................................................ 27

3.1.8. Menyederhanakan rule ................................................................. 28

3.1.9. Kelebihan dan kekurangan ........................................................... 30

3.2. Naive Bayes ...............................................................................................30

BAB IV. KLASIFIKASI DENGAN DATA MINING PADA INSURANCE

CUSTOMER LIFETIME DATASET

4.1. Studi Kasus ................................................................................................35

4.2. Deskripsi Data ...........................................................................................36

4.3. Persiapan dan Pembagian Dataset ............................................................ 39

4.4. Pengaturan Algoritma dalam Software Oracle SQL Developer 4.0.3 ......42

4.5. Hasil Simulasi ............................................................................................43

4.5.1. Decision tree .................................................................................44

4.5.2. Naive bayes ...................................................................................45

ix

4.6. Menentukan Model Klasifikasi Terbaik ...................................................46

4.7. Model Decision Tree dalam Data ............................................................ 49

4.7.1. Penentuan cutoff dan uji independensi hasil tree ......................... 51

4.7.2. Rules ............................................................................................. 59

4.8. Simulasi dengan Menggunakan Data Nasabah Baru .................................62

BAB V. KESIMPULAN .................................................................................... 66

DAFTAR PUSTAKA

LAMPIRAN

x

DAFTAR TABEL

Tabel 2.1 Kontingensi ROC ................................................................................19

Tabel 3.1 Tabel kontingensi ...............................................................................28

Tabel 4.1 Variabel-variabel independen .............................................................36

Tabel 4.2 Variabel dependen ..............................................................................38

Tabel 4.3 Variabel independen yang dipakai .....................................................39

Tabel 4.4 Pengkodean data kategorik ................................................................41

Tabel 4.5 Matrix performance klasifikasi ...........................................................43

Tabel 4.6 Matrix performance decision tree .......................................................44

Tabel 4.7 Matrix performance naive bayes.........................................................45

Tabel 4.8 Perbandingan overall accuray kedua model klasifikasi .................... 47

Tabel 4.9 Persentase average accuracy kedua model klasifikasi ...................... 48

Tabel 4.10 Persentase predictive confidence kedua model klasifikasi .............. 49

Tabel 4.11 Area di bawah kurva ROC ............................................................... 51

Tabel 4.12 Tabulasi silang bank_funds ............................................................. 51

Tabel 4.13 Tes chi-square bank_funds .............................................................. 52

Tabel 4.14 Tabulasi silang checking_amount .................................................... 53

Tabel 4.15 Tes chi-square checking_amount .................................................... 54

Tabel 4.16 Tabulasi silang credit_balance ......................................................... 55

Tabel 4.17 Tes chi-square credit_balance ......................................................... 56

Tabel 4.18 Tabulasi silang money_monthly_overdrawn ................................... 57

Tabel 4.19 Tes chi-square money_monthly_overdrawn ................................... 58

Tabel 4.20 Simulasi data nasabah baru .............................................................. 62

xi

DAFTAR GAMBAR

Gambar 2.1 Tahapan data mining ......................................................................8

Gambar 2.2 Klasifikasi sebagai suatu tugas memetakan atribut 𝑥 ke dalam label

kelas 𝑦 ............................................................................................10

Gambar 2.3 Proses klasifikasi .............................................................................12

Gambar 2.4 Kriteria ROC ...................................................................................22

Gambar 3.1 Konsep decision tree .......................................................................23

Gambar 3.2 Konsep data pada decision tree ..................................................... 24

Gambar 3.3 Mengubah bentuk data menjadi model tree .................................. 25

Gambar 3.4 Mengubah model tree menjadi rule .............................................. 25

Gambar 3.5 Kriteria uji independensi ............................................................... 29

Gambar 3.6 Skema naive bayes ........................................................................ 33

Gambar 4.1 Kurva ROC decision tree ............................................................. 44

Gambar 4.2 Kurva ROC naive bayes ............................................................... 45

Gambar 4.3 Perbandingan overall accuray kedua model klasifikasi ............... 45

Gambar 4.4 Perbandingan average accuracy kedua model klasifikasi ............ 46

Gambar 4.5 Perbandingan predictive confidence kedua model klasifikasi ...... 46

Gambar 4.6 Kurva ROC gabungan ................................................................... 47

Gambar 4.7 Model decision tree........................................................................ 48

xii

INTISARI



Oleh :

Adhitya Akbar

10/297716/PA/13065

Pelanggan merupakan faktor keberhasilan yang utama dalam dunia bisnis.

Pelanggan juga merupakan aset yang berharga yang harus dipertahankan dan

ditingkatkan jumlahnya demi keuntungan yang maksimal. Untuk dapat

meningkatkan jumlah pelanggan, sebuah perusahaan/badan usaha harus dapat

mengidentifikasi dengan cermat orang-orang (pasar) yang berpotensi menjadi

pelanggan barunya. Identifikasi pelanggan potensial dimaksudkan agar kinerja

perusahaan dapat efisien dalam menjaring calon pelanggan baru (akuisisi).

Klasifikasi merupakan salah satu teknik data mining yang dapat melakukan

hal tersebut. Dua buah model klasifikasi menggunakan algoritma Decision Tree dan

Naive Bayes yang dibandingkan tingkat akurasinya dalam memprediksi pelanggan

potensial. Hasil penelitian menunjukkan Decision Tree sebagai model klasifikasi

yang lebih baik dari Naive Bayes pada kasus nasabah bank yang berpotensi untuk

membeli produk asuransi.

Kata kunci: Pelanggan Potensial, Data Mining, Klasifikasi, Decision Tree, Naive

Bayes.

xiii

ABSTRACT



By :

Adhitya Akbar

10/297716/PA/13065

Customer is the main success factor in the business world. Customer also as

the valuable asset which has to be retained and to be increased by it’s number to get

the maximum profit. To increase the number of it’s customers, a

company/enterprise has to identify the people (market) who have the potential to

become their new customers. Identifying the potential customers has the function

to get the candidates of the new customers efficiently (acquisition).

Classification is one of the data mining techniques which can do that thing.

Two classification models using Decision Tree and Naive Bayes algorithm have

been compared for it’s accuracy rate to predict the potential customers. This

research shows Decision Tree as the classification model that better than Naive

Bayes in case of the bank’s customers which have the potential to buy the insurance

product.

Keywords: Potential Customer, Data Mining, Classification, Decision Tree, Naive

Bayes.

1

BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Setiap perusahaan/badan usaha tidak terlepas dari aspek pelanggan

(customer). Mereka adalah faktor utama keberhasilan bisnis dari sebuah

perusahaan/badan usaha. Hal inilah yang melatarbelakangi setiap perusahaan/badan

usaha untuk merencanakan dan menggunakan strategi yang jelas dalam

memperlakukan pelanggannya. Dalam dunia bisnis terkait dengan aspek pelanggan,

dapat dibedakan menjadi 2 hal, yaitu mempertahankan pelanggan yang sudah ada

(retain) dan mencari pelanggan baru (acquisition). Dalam skripsi ini difokuskan

pada mencari pelanggan baru.

Pelanggan potensial adalah orang-orang (pasar) yang berpotensi besar untuk

dijadikan sebagai target pelanggan. Identifikasi pelanggan potensial dimaksudkan

agar kerja perusahaan dapat efisien dan tepat sasaran, sehingga dapat menghemat

waktu dan biaya operasional dalam merekrut calon pelanggan baru, dalam kasus ini

pelanggan produk asuransi.

Teknik klasifikasi pada data mining adalah salah satu teknik yang dapat

melakukan hal tersebut. Klasifikasi biasa dipakai untuk memprediksi suatu outcome

yang spesifik seperti ada/tidak adanya respon, rendah/sedang/tinggi nilai pelanggan

(customer value), atau kecenderungan untuk membeli/tidak membeli. Dalam

skripsi ini akan dibangun model dengan algoritma Decision Tree dan Naive Bayes

yang dibandingkan tingkat akurasinya untuk mengetahui model mana yang lebih

baik dalam memprediksi pelanggan potensial yang mempunyai kecenderungan

untuk membeli sebuah produk asuransi. Perhitungan dalam skripsi ini

menggunakan bantuan software Oracle SQL Developer versi 4.0.3.

1.2 Tujuan Penulisan

Tujuan penulisan skripsi ini adalah untuk :

1. Mengaplikasikan teknik data mining, khususnya dalam klasifikasi, yang

mencakup Decision Tree dan Naive Bayes.

2

2. Membandingkan kedua teknik klasifikasi tersebut untuk mendapatkan

model terbaik yang berguna untuk memprediksi pelanggan potensial di

masa mendatang.

1.3 Pembatasan Masalah

Pada penulisan skripsi ini, masalah dibatasi pada penggunaan 2 teknik

klasifikasi dalam data mining, yaitu Decision Tree dan Naive Bayes untuk

mengidentifikasi pelanggan potensial yang mempunyai kecenderungan untuk

membeli sebuah produk asuransi.

1.4 Metode Penulisan

Pada penulisan skripsi ini metode penulisan yang digunakan mengacu pada

studi literatur yang didapatkan dari jurnal–jurnal, perpustakaan, situs–situs

penunjang di internet, dan sumber–sumber lain yang menyediakan materi terkait

masalah yang dibahas kemudian mengaplikasikannya pada sebuah kasus real.

1.5 Tinjauan Pustaka

Sebagai acuan utama dalam penulisan skripsi ini adalah sebuah tutorial dari

situs resmi oracle (www.oracle.com) : Using Oracle Data Miner 11g Release 2 oleh

Brian Pottle sebagai pengembang kurikulum serta Charlie Berger, Mark Kelly,

Margaret Taft, dan Kathy Talyor sebagai kontributor teknik, yang kemudian

dibahas kembali dengan menggunakan software R oleh Han (2013) dalam

Identifying Potential Customers With Classification Techniques in R Language

pada situs www.dataapple.net dan www.r-bloggers.com.

Sebelumnya juga terdapat beberapa skripsi yang telah membahas Decision

Tree ataupun Naive Bayes, tetapi sepanjang pencarian penulis belum menemukan

yang memakai kedua teknik tersebut secara bersamaan ataupun memakai software

yang penulis gunakan ataupun memakai studi kasus yang sama dalam skripsi ini.

Di antara skripsi-skripsi tersebut antara lain :

o Penggunaan Data Mining Dengan Metode Decision Tree Untuk Prediksi

Resiko Kredit oleh Sitorus (2010), FMIPA UGM.

http://www.oracle.com/

http://www.dataapple.net/

http://www.r-bloggers.com/

3

o Analisis Churn Pada Pelanggan Telekomunikasi Menggunakan Algoritma

C4.5 oleh Paratu (2013), FMIPA UGM.

o Klasifikasi dan Prediksi Keputusan Credit Scoring Berdasarkan Klasifier

Naive Bayes oleh Wulandari (2013), FMIPA UGM.

o Klasifikasi dan Prediksi Resiko Kredit Perbankkan Menggunakan

Algoritma Naive Bayes Dalam Data Mining oleh Juriah (2013), FMIPA

UGM.

1.6 Sistematika Penulisan

Sistematika penulisan skripsi ini yaitu :

BAB I PENDAHULUAN

Terdiri dari latar belakang masalah, tujuan penulisan, pembatasan masalah, metode

penulisan, tinjauan pustaka dan sistematika penulisan.

BAB II LANDASAN TEORI

Landasan teori berisi tentang pengertian dan konsep data mining, serta teori-teori

pendukung teknik klasifikasi Decision Tree dan Naive Bayes.

BAB III KLASIFIKASI DENGAN DATA MINING

Berisi teori tentang kedua teknik klasifikasi yang akan dipakai, yaitu Decision Tree

dan Naive Bayes.

BAB IV STUDI KASUS

Berisi pembahasan tentang pemodelan Decision Tree dan Naive Bayes pada sebuah

kasus real, lalu menentukan model terbaik dengan tingkat akurasi tertinggi sehingga

layak menjadi klasifikator.

BAB V KESIMPULAN

Berisi kesimpulan dari studi kasus yang dibahas.

4

BAB II

LANDASAN TEORI

2.1 Data Mining

Data mining (atau dalam bahasa Indonesia dapat diartikan sebagai

“penggalian data”) adalah ekstraksi pola yang menarik dari data dalam jumlah

besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit,

tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah

dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian

tertentu, berguna, dan baru. Data mining memiliki beberapa nama alternatif,

meskipun definisi eksaknya berbeda, seperti KDD (Knowledge Discovery in

Database), analisis pola, arkeologi data, pemanenan informasi, dan kecerdasan

bisnis (business intelligence). Data mining diperlukan saat data yang tersedia terlalu

banyak (misalnya data yang diperoleh dari sistem basis data perusahaan,

e-commerce, data saham, dan data bioinformatika), tetapi tidak tahu pola apa yang

bisa didapatkan.

Definisi 2.1 Data mining didefinisikan sebagai proses penemuan pola–pola dalam

data. Proses ini harus otomatis atau semiotomatis. Pola yang ditemukan harus

bermakna dan memberikan keuntungan, biasanya keuntungan secara ekonomi.

Data yang dibutuhkan dalam jumlah besar (Witten dan Frank, 2005).

2.1.1 Karakteristik data mining

Karakteristik data mining adalah sebagai berikut (Davies, 2004) :

a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan

pola data tertentu yang tidak diketahui sebelumnya.

b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang

besar digunakan untuk membuat hasil lebih dapat dipercaya.

http://id.wikipedia.org/wiki/Pola

http://id.wikipedia.org/wiki/Data

http://id.wikipedia.org/w/index.php?title=Sistem_basis_data&action=edit&redlink=1

http://id.wikipedia.org/wiki/E-commerce

http://id.wikipedia.org/wiki/Saham

http://id.wikipedia.org/wiki/Bioinformatika

5

c. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam

strategi.

2.1.2 Pengelompokkan data mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang

dapat dilakukan, yaitu (Larose, 2005) :

1. Deskripsi

Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara

untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai

contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan

atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam

pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan

kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi

lebih ke arah numerik dari pada ke arah kategorik. Model dibangun menggunakan

record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi.

Selanjutnya pada peninjauan berikutnya, estimasi nilai dari variabel target dibuat

berdasarkan nilai variabel prediksi.

Sebagai contoh akan dilakukan estimasi tekanan darah sistolik dari pasien

rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level

sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi

dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi

yang dihasilkan dapat digunakan untuk kasus baru lainnya. Contoh lain yaitu

estimasi nilai Indeks Prestasi mahasiswa program pascasarjana dengan melihat nilai

Indeks Prestasi mahasiswa tersebut pada saat mengikuti program sarjana.

6

3. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, perbedaannya adalah

bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Contoh dari

prediksi dalam bisnis dan penelitian adalah:

- Prediksi harga beras dalam tiga bulan yang akan datang.

- Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika

batas bawah kecepatan dinaikkan.

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat

pula digunakan (untuk keadaan yang tepat) untuk prediksi.

4. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategorik. Sebagai contoh,

penggolongan pendapat dapat dipisahkan dalam 3 kategorik, yaitu : pendapatan

tinggi, pendapatan sedang dan pendapatan rendah. Contoh lain klasifikasi dalam

bisnis dan penelitian adalah :

- Menentukan apakah suatu transaksi kartu kredit merupakan transaksi

yang curang atau bukan.

- Mendiagnosa penyakit seorang pasien untuk mendapatkan termasuk

kategori penyakit apa.

5. Pengklasteran

Pengklasteran merupakan pengelompokan record, pengamatan, atau

memperhatikan dan membentuk kelas-kelas objek yang memiliki kemiripan.

Klaster adalah kumpulan dari record yang memiliki kemiripan satu dengan yang

lainnya dan memiliki ketidakmiripan dengan record dalam klaster yang lain.

Pengklasteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam

pengklasteran. Pengklasteran tidak mencoba untuk melakukan klasifikasi,

mengestimasi atau memprediksi nilai dari variabel target. Akan tetapi algoritma

pengklasteran mencoba untuk melakukan pembagian terhadap keseluruhan data

menjadi kelompok-kelompok yang memiliki kemiripan (homogeneity), yang mana

kemiripan record dalam satu kelompok akan bernilai maksimal sedangkan

kemiripan dengan record dalam kelompok lain akan bernilai minimal.

7

Contoh pengklasteran dalam bisnis dan penelitian adalah :

- Mendapatkan kelompok-kelompok konsumen untuk target pemasaran

dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran

yang besar.

- Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap

perilaku finansial dalam baik dan mencurigakan.

- Melakukan pengklasteran terhadap ekspresi dari gen, untuk

mendapatkan kemiripan perilaku dari gen dalam jumlah yang besar.

6. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul

dalam satu waktu. Dalam dunia bisnis lebih umum disebut sebagai analisis

keranjang belanja (market basket analysis). Contoh asosiasi dalam bisnis dan

penelitian adalah :

- Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang

diharapkan untuk memberikan respon positif terhadap penawaran

upgrade layanan yang diberikan.

- Menemukan barang dalam supermarket yang dibeli secara bersamaan

dan barang yang tidak pernah dibeli secara bersamaan.

2.1.3 Tahapan data mining

Data mining dipahami sebagai suatu proses yang memiliki tahapan-tahapan

tertentu yang bersifat interaktif dan juga ada umpan balik dari setiap tahapan

sebelumnya (Kusnawi, 2007). Adapun tahapan tersebut dapat dilihat pada gambar

berikut.

8

Gambar 2.1 Tahapan data mining (Han, et al., 2001)

Tahap–tahap tersebut bersifat interaktif dimana pemakai terlibat langsung atau

dengan perantara pengetahuan dasar. Berikut merupakan penjelasannya.

1. Pembersihan data (cleaning)

Pembersihan data merupakan proses menghilangkan noise dan data yang

tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik

dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang

tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya

sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan

dengan hipotesis data mining yang dimiliki. Data-data yang tidak relevan itu juga

lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari

teknik data mining karena data yang ditangani akan berkurang jumlah dan

kompleksitasnya.

2. Integrasi data

Integrasi data merupakan penggabungan data dari berbagai database ke

dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining

tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database

atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan

entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan

lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada

9

integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan

pengambilan aksi nantinya. Sebagai contoh, bila integrasi data berdasarkan jenis

produk ternyata menggabungkan produk dari kategori yang berbeda maka akan

didapatkan korelasi antar produk yang sebenarnya tidak ada.

3. Seleksi data

Data yang ada pada database sering kali tidak semuanya dipakai, oleh

karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.

Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli

dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup

dengan id pelanggan saja.

4. Transformasi data

Data diubah atau digabung ke dalam format yang sesuai untuk diproses

dalam data mining. Beberapa metode data mining membutuhkan format data yang

khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti

analisis asosiasi dan clustering hanya bisa menerima input data kategorikal.

Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi

beberapa interval. Proses ini sering disebut transformasi data.

5. Proses mining

Merupakan suatu proses utama saat metode diterapkan untuk menemukan

pengetahuan berharga dan tersembunyi dari data.

6. Presentasi pengetahuan

Untuk mengidentifikasi pola-pola menarik ke dalam knowledge based yang

ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang

khas maupun model prediksi dievaluasi untuk menilai apakah hipotesis yang ada

memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesis, ada

beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk

memperbaiki proses data mining, mencoba metode data mining lain yang lebih

10

sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang

mungkin bermanfaat.

2.1.4 Metode data mining

Secara umum ada dua jenis metode pada data mining, yaitu :

a. Metode Prediktif

Proses untuk menemukan pola dari data yang menggunakan beberapa

variabel untuk memprediksi variabel lain yang tidak diketahui jenis atau nilainya.

Teknik yang termasuk dalam prediktif mining antara lain: Klasifikasi, Regresi, dan

Deviasi.

b. Metode Deskriptif

Proses untuk menemukan suatu karakteristik penting dari data dalam suatu

basis data. Teknik Data mining yang termasuk dalam deskriptif mining adalah

Clustering, Asosiasi (Association), dan Secuential Mining.

2.2 Klasifikasi

Definisi 2.2 Klasifikasi adalah sebuah proses untuk menemukan model yang

menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat

memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui.

(Tan, et al., 2004)

Di dalam klasifikasi diberikan sejumlah record yang dinamakan training

set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinu ataupun

kategoris, salah satu atribut menunjukkan kelas untuk record.

Gambar 2.2 Klasifikasi sebagai suatu tugas memetakan atribut 𝒙 ke dalam

label kelas 𝒚

11

2.2.1 Model klasifikasi

Model klasifikasi terdiri dari (Tan, et al., 2004) :

1. Pemodelan Deskriptif

Dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk membedakan

antara objek dengan kelas yang berbeda.

2. Pemodelan Prediktif

Model klasifikasi juga dapat menggunakan prediksi label kelas yang belum

diketahui record-nya.

2.2.2 Tujuan klasifikasi

Tujuan dari klasifikasi adalah untuk :

1. Menemukan model dari data latih (training set) yang membedakan record

kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan

untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya

pada data uji (test set).

2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil

klasifikasi yang diperoleh.

2.2.3 Konsep pembuatan model dalam klasifikasi

Untuk mendapatkan model, kita harus melakukan analisis terhadap data

latih (training set). Sedangkan data uji (test set) digunakan untuk mengetahui

tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk

memprediksi nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data

dapat dibedakan dalam 2 tahap, yaitu :

1. Pembelajaran / Pembangunan Model

Tiap – tiap record pada data latih dianalisis berdasarkan nilai–nilai atributnya,

dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.

12

2. Klasifikasi

Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model

yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang

ditentukan atau dianggap cukup baik, maka model tersebut dapat digunakan untuk

mengklasifikasikan record–record data baru yang belum pernah dilatihkan atau

diujikan sebelumnya.

Gambar 2.3 Proses klasifikasi

Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat

beberapa langkah pemrosesan terhadap data, yaitu :

1. Data Cleaning

Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan

noise dan penanganan terhadap missing value pada suatu record.

13

2. Analisis Relevansi

Pada tahap ini, dilakukan penghapusan terhadap atribut–atribut yang

berlebihan ataupun kurang berkaitan dengan proses klasifikasi yang akan

dilakukan. Analisis relevansi dapat meningkatkan efisiensi klasifikasi karena waktu

yang diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran

terhadap data–data dengan atribut yang masih lengkap (masih terdapat redundansi).

3. Transformasi Data

Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih

tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai

kontinu. Pembelajaran terhadap data hasil generalisasi dapat mengurangi

kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang harus

diproses lebih kecil.

Untuk mengevaluasi performa sebuah model yang dibangun oleh algoritma

klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang

diprediksi secara benar (akurat) atau salah oleh model tersebut. Tingkat akurasi dan

tingkat kesalahan (error rate) didefinisikan sebagai berikut :

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑏𝑒𝑛𝑎𝑟

𝑗𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 (2.1)

𝐸𝑟𝑟𝑜𝑟 𝑟𝑎𝑡𝑒 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑠𝑎𝑙𝑎ℎ

𝑗𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 (2.2)

Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang

tinggi atau error rate yang rendah ketika model diterapkan pada data uji (test set).

2.3 Probabilitas

Probabilitas atau peluang adalah suatu nilai untuk mengukur tingkat

kemungkinan terjadinya suatu kejadian yang tidak pasti (uncertainty event).

14

Misalkan S ruang sampel berhingga dengan jumlah anggota N(S) yang

berkemungkinan sama dan A ⊂ S kejadian dengan N(A) anggota. Maka

probabilitas kejadian A, ditulis P(A) didefinisikan sebagai (Subanar, 2011) :

𝑃(𝐴) =𝑁(𝐴)

𝑁(𝑆) (2.5)

Peluang dari kejadian 𝐴 yang gagal adalah :

𝑃(𝐴𝑐) = 1 −𝑁(𝐴)

𝑁(𝑆)= 1 − 𝑃(𝐴) (2.6)

Jumlah dari peluang untuk mendapatkan sukses dan peluang untuk gagal adalah

selalu sama dengan 1 atau dapat ditulis :

𝑃(𝑠𝑢𝑘𝑠𝑒𝑠) + 𝑃(𝑔𝑎𝑔𝑎𝑙) = 𝑃(𝐴) + 𝑃(𝐴𝑐) = 1 (2.7)

Besarnya nilai kemungkinan bagi munculnya suatu kejadian adalah selalu

di antara nol dan satu. Pernyataan ini dapat dituliskan sebagai 0 ≤ P(A) ≤ 1, dengan

P(A) menyatakan nilai kemungkinan bagi munculnya kejadian A. Jika terdapat dua

kejadian yang bersifat mutually exclusive (saling asing), yaitu dua kejadian yang

tidak dapat terjadi pada waktu yang sama, secara matematis misalkan kejadian

pertama adalah A dan kejadian kedua adalah B, dengan probabilitasnya adalah

𝑃(𝐴 𝑑𝑎𝑛 𝐵) = 0 maka probabilitas terjadinya kejadian A atau terjadinya kejadian

B adalah jumlah dari P(A) dan P(B). Dengan kata lain, terjadinya kejadian A atau

kejadian B adalah sama dengan satu, jika hanya terdapat dua kejadian A dan B

tersebut dan tidak terdapat kemungkinan kejadian yang lain.

Dalam probabilitas kondisional terjadinya kejadian A dikondisikan dengan

terjadinya kejadian B dahulu. Probabilitas kondisional terjadinya kejadian A

dengan kondisi terjadinya kejadian B dinyatakan dengan rumus sebagai berikut :

𝑃(𝐴|𝐵) =𝑃(𝐵∩𝐴)

𝑃(𝐵) (2.8)

15

dengan :

𝑃(𝐴|𝐵) = peluang peristiwa A terjadi dengan syarat peristiwa B terjadi lebih

dahulu

𝑃(𝐵 ∩ 𝐴) = peluang peristiwa B dan peristiwa A terjadi bersamaan

𝑃(𝐵) = peluang terjadinya peristiwa B

2.4 Probabilitas Bersyarat, Distribusi Bersyarat, dan Kejadian

Independen

Pada suatu percobaan akan menghasilkan dua atau lebih kemungkinan

peristiwa yang akan terjadi. Peluang akan terjadinya peristiwa B dengan syarat

peristiwa A telah terjadi terlebih dahulu adalah :

𝑃(𝐵|𝐴) =𝑃(𝐴∩𝐵)

𝑃(𝐴) (2.9)

dengan :

𝑃(𝐵|𝐴) = peluang peristiwa B terjadi dengan syarat peristiwa A terjadi lebih

dahulu

𝑃(𝐴 ∩ 𝐵) = peluang peristiwa A dan peristiwa B terjadi bersamaan

𝑃(𝐴) = peluang terjadinya peristiwa A

Definisi 2.3 Jika X1 dan X2 adalah variabel random diskret atau kontinu dengan

fungsi densitas probabilitas bersama 𝑓(𝑥1, 𝑥2), maka fungsi densitas probabilitas

bersyarat dari 𝑋2 = 𝑥2 diberikan 𝑋1 = 𝑥1 didefinisikan

𝑓(𝑥2|𝑥1) =𝑓(𝑥1,𝑥2)

𝑓(𝑥1) (2.10)

Untuk nilai 𝑓(𝑥1) > 0.

(Bain dan Engelhardt, 2000)

16

Definisi 2.4 Dua kejadian A dan B dikatakan kejadian independen jika

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴). 𝑃(𝐵) (2.11)

Sebaliknya, A dan B disebut kejadian dependen.

(Bain dan Engelhardt, 2000)

2.5 Teorema Bayes

Teorema Bayes dikemukakan oleh seorang pendeta presbyterian Inggris

pada tahun 1763 yang bernama Thomas Bayes. Teorema Bayes digunakan untuk

menghitung probabilitas terjadinya suatu peristiwa berdasarkan pengaruh yang

didapat dari hasil observasi.

Antara Teorema Bayes dengan teori peluang terdapat hubungan yang sangat

erat, karena untuk membuktikan Teorema Bayes tidak terlepas dari penggunaan

teori peluang, dengan kata lain teori peluang adalah konsep dasar bagi Teorema

Bayes.

Teorema Bayes menerangkan hubungan antara probabilitas terjadinya

peristiwa A dengan syarat peristiwa B telah terjadi dan probabilitas terjadinya

peristiwa B dengan syarat peristiwa A telah terjadi. Teorema ini didasarkan pada

prinsip bahwa tambahan informasi dapat memperbaiki probabilitas. Teorema Bayes

ini bermanfaat untuk mengubah atau memutakhirkan (meng-update) probabilitas

yang dihitung dengan tersedianya data dan informasi tambahan.

Syarat-syarat Teorema Bayes bisa digunakan untuk menentukan

pengambilan keputusan, yaitu (Idroes, 2008) :

a. Berada pada kondisi ketidakpastian (adanya alternatif tindakan)

b. Peluang prior diketahui dan peluang posterior dapat ditentukan

c. Peluangnya mempunyai nilai antara nol dan satu.

17

2.5.1 Probabilitas prior dan posterior

Sesuai dengan probabilitas subyektif, bila seseorang mengamati kejadian B

dan mempunyai keyakinan bahwa ada kemungkinan B akan muncul, maka

probabilitas B disebut probabilitas prior. Setelah ada informasi tambahan bahwa

misalnya kejadian A telah muncul, mungkin akan terjadi perubahan terhadap

perkiraan semula mengenai kemungkinan B untuk muncul. Probabilitas untuk B

sekarang adalah probabilitas bersyarat akibat A dan disebut sebagai probabilitas

posterior. Teorema Bayes merupakan mekanisme untuk memperbarui probabilitas

dari prior menjadi probabilitas posterior.

2.5.2 Rumus bayes dan fungsi likelihood

Andaikan S menyatakan ruang sampel dari beberapa percobaan dan k

adalah kejadian Ai,…,Ak dalam S sedemikian hingga Ai,…,Ak saling asing dan

⋃ 𝐴𝑖 = 𝑆.𝑘𝑖=1 Sehingga dapat dikatakan kejadian k tersebut membentuk partisi atau

bagian dari S. jika k kejadian Ai,…,Ak membentuk sebuah partisi dari S dan jika B

adalah kejadian lain dalam S, maka kejadian akan membentuk partisi atau bagian

untuk B.

𝑃(𝐴𝑖|𝐵) =𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)

∑ 𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)𝑘𝑖=1

(2.12)

Bukti :

𝑃(𝐴𝑖|𝐵) =𝑃(𝐴𝑖 ∩ 𝐵)

𝑃(𝐵)

P(Ai|B) =P(Ai ∩ B)

P(A1 ∩ B) + P(A2 ∩ B) + ⋯ + P(Ak ∩ B)

dengan :

𝑃(𝐵) = ∑ 𝑃(𝐴𝑖)𝑃(𝐵|𝐴𝑖)𝑘𝑖=1

𝑃(𝐴𝑖 ∩ 𝐵) = 𝑃(𝐴𝑖)𝑃(𝐵|𝐴𝑖)

18

𝑃(𝐴𝑖|𝐵) =𝑃(𝐴𝑖)𝑃(𝐵|𝐴𝑖)

∑ 𝑃(𝐴𝑖 ∩ 𝐵)𝑘𝑖=1

Maka didapat :

𝑃(𝐴𝑖|𝐵) =𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)

∑ 𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)𝑘𝑖=1

Definisi 2.5 Misalkan 𝑥1, 𝑥2, … , 𝑥𝑛 sampel random independen (i.i.d.) dari

distribusi bersyarat 𝑋 diberikan 𝜃 dengan fungsi densitas probabilitas 𝑓(𝑥𝑖|𝜃).

Fungsi densitas probabilitas bersama dari 𝑋 = (𝑥1, 𝑥2, … , 𝑥𝑛) diberikan 𝜃 adalah:

𝐿(𝜃|𝑥) = 𝑓(𝑥|𝜃) = 𝑓(𝑥1|𝜃)𝑓(𝑥2|𝜃) … 𝑓(𝑥𝑛|𝜃)

= ∏ 𝑓(𝑥𝑖|𝜃)𝑛𝑖=1 (2.13)

Selanjutnya 𝑓(𝑋|𝜃) dinamakan fungsi likelihood.

2.6 Receiver Operating Characteristic (ROC)

Kurva ROC pertama kali digunakan para insinyur elektro dan teknisi radar

selama perang dunia kedua untuk mendeteksi benda-benda musuh di medan

pertempuran, selanjutnya hal ini dikenal sebagai teori deteksi sinyal. Analisis ROC

selanjutnya berkembang dan telah digunakan dalam bidang kedokteran, radiologi,

serta pada beberapa bidang lainnya selama beberapa dekade. Analisis ROC secara

lebih lanjut telah diperkenalkan pada bidang yang relatif baru seperti machine

learning dan data mining (Fawcett, 2006).

Kurva ROC paling sering digunakan untuk mengevaluasi pengklasifikasi

karena mempunyai kemampuan evaluasi secara menyeluruh dan cukup baik (Cheng

dan Chen, 2010).

Misalkan ada suatu problem pengklasifikasi dengan dua kelas. Anggap

setiap pasang data I memetakan satu set elemen {p,n} sebagai label kelas positif

dan label kelas negatif. Model pengklasifikasi memetakan pasangan data tersebut

ke kelas yang diprediksikan. Untuk membedakan kelas yang sebenarnya dengan

kelas yang diprediksi, maka kelas yang diprediksi disimbolkan dengan {Y,N}.

19

Pemetaan akan menghasilkan 4 keluaran yaitu True Positive (TP), True Negative

(TN), False Positive (FP) dan False Negative (FN). Data positif yang terindikasi

benar disebut dengan True Positive (TP), data positif yang terindikasi salah disebut

dengan False Positive (FP), data negatif yang terindikasi benar disebut dengan True

Negative (TN) dan data negatif yang terindikasi salah disebut dengan False

Negative (FN). Keempat nilai ini membentuk sebuah matriks yang disebut dengan

matrix performance dalam tabel kontingensi 2x2.

Tabel 2.1 Kontingensi ROC

Data Kelas Prediksi

Positive Negative

Kelas Sebenarnya

Positive True Positive False Negative

Negative False Positive True Negative

Adapun kriteria ROC adalah sebagai berikut :

o True Positive Rate (TPR) disebut juga Sensitivity = TP/(TP+FN)

o True Negative Rate (TNR) disebut juga Specificity = TN/(TN+FP)

o Accuracy = (TP+TN)/(TP+FP+TN+FN).

dengan :

TP = True Positive yaitu klasifikasi yang benar dari kelas yang positif

TN = True Negative yaitu klasifikasi yang benar dari kelas yang negatif

FP = False Positive yaitu kesalahan Tipe I

FN = False Negative yaitu kesalahan Tipe II

Gambar 2.4 Kriteria ROC

20

Jika nilai kriteria yang dipilih lebih tinggi, maka bagian FP akan menurun

dan specificity akan meningkat, namun TP dan sensitivity akan menurun.

Sebaliknya jika nilai kriteria yang dipilih lebih rendah, maka bagian TP akan

meningkat, namun bagian TN dan specificity akan menurun (MedCalc Software

bvba, 2010).

AUC (Area Under Curva) adalah luas daerah di bawah kurva ROC. Bila

nilainya mendekati satu, maka model yang didapat lebih akurat. Berdasarkan

gambar diatas maka dapat dilihat karakteristik dari AUC adalah sebagai berikut :

- Area maksimum adalah 1

- Jika ROC = 0,5 maka model yang dihasilkan belum terlihat optimal

- Sedangkan jika ROC > 0,5 maka model yang dihasilkan akan lebih baik

Formula AUC :

𝐴𝑈𝐶 =∑ ∑ 1

𝑓(𝑥𝑖+)𝑓(𝑥𝑗

−)𝑛−

𝑗−1𝑛+

𝑖=1

𝑛+𝑛− (2.14)

Keterangan :

𝑓(. ) = nilai suatu fungsi

𝑥+ dan 𝑥− = sampel positif dan negatif

𝑛+ dan 𝑛− = jumlah sampel positif dan negatif

(Brefeld dan Scheffer, 2005)

21

BAB III

KLASIFIKASI DENGAN DATA MINING

3.1 Decision Tree

Salah satu metode data mining yang umum digunakan adalah decision tree.

Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana

setiap simpul internal menandakan suatu tes pada atribut, setiap cabang

merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau

distribusi kelas. Alur pada decision tree ditelusuri dari simpul akar ke simpul daun

yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk

dikonversi ke aturan klasifikasi (classification rules) (Zalilia, 2007).

3.1.1 Konsep decision tree

Konsep decision tree adalah mengubah data menjadi pohon keputusan

(decision tree) dan aturan-aturan keputusan (rules) (Basuki dan Syarif, 2003).

Gambar 3.1 Konsep decision tree

Ada beberapa konsep dalam decision tree, antara lain :

1. Data dinyatakan dalam bentuk tabel dengan atribut dan record.

2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam

pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang

diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan

atribut yang menyatakan data solusi per-item data yang disebut dengan target

atribut.

3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut

cuaca mempunyai instance berupa cerah, berawan dan hujan.

22

Gambar 3.2 Konsep data pada decision tree

3.1.2 Tipe simpul pada tree

Tree mempunyai 3 tipe simpul (node) yaitu (Zalilia, 2007) :

1. Simpul akar (root node) dimana tidak ada masukan edge dan 0 atau lebih

keluaran edge (cabang).

2. Simpul internal (internal node), masing-masing 1 masukan edge dan 2 atau

lebih edge keluaran.

3. Simpul daun (leaf node) atau simpul akhir, masing-masing 1 masukan edge dan

tidak ada edge keluaran.

Pada decision tree, setiap simpul daun menandai label kelas. Simpul yang

bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes

atribut pada sebagian record yang mempunyai karakteristik yang berbeda. Simpul

akar dan simpul internal ditandai dengan bentuk oval dan simpul daun ditandai

dengan bentuk segi empat (Han et al., 2001).

23

3.1.3 Proses pembentukan decision tree

Proses pembentukan Decision Tree adalah sbb (Basuki dan Syarif, 2003) :

1. Mengubah bentuk data (tabel) menjadi model tree.

Gambar 3.3 Mengubah bentuk data menjadi model tree

2. Mengubah model tree menjadi rule.

Gambar 3.4 Mengubah model tree menjadi rule

3. Menyederhanakan rule (uji independensi dengan distribusi terpadu chi-

square)

24

3.1.4 Information gain

Pemilihan atribut pada algoritma decision tree menggunakan ukuran

berdasarkan entropy yang dikenal dengan information gain sebagai sebuah heuristis

untuk memilih atribut yang merupakan bagian terbaik dari contoh ke dalam kelas.

(Zalilia, 2007).

Ukuran information gain digunakan untuk memilih tes atribut pada setiap

simpul dalam tree. Atribut dengan information gain tertinggi (atau nilai

pengurangan entropy yang terkecil) dipilih sebagai tes atribut untuk simpul

tersebut. Atribut ini meminimalkan informasi yang dibutuhkan untuk

mengklasifikasikan contoh pada proses pembagian dan mencerminkan

ketidakmurnian (impurity). Misalkan 𝑆 adalah kumpulan dari 𝑠 contoh data.

Andaikan atribut label kelas mempunyai 𝑚 nilai berbeda yang menjelaskan 𝑚 nilai

kelas yang berbeda, 𝐶𝑖 (untuk 𝑖 = 1, . . . , 𝑚). Misalkan 𝑠𝑖 menjadi jumlah contoh 𝑆

dalam kelas 𝐶𝑖. Informasi yang dibutuhkan untuk mengklasifikasikan diberikan

contoh sebagai berikut :

𝐼(𝑆1,𝑆2,….𝑆𝑚) = − ∑ 𝑝𝑖 𝑙𝑜𝑔2 (𝑝𝑖)𝑚𝑖=1 (3.1)

dengan 𝑝𝑖 adalah kemungkinan sebuah contoh kepunyaan kelas 𝐶𝑖 dan diperkirakan

oleh 𝑠𝑖

𝑠.

Catatan bahwa fungsi log basis 2 digunakan semenjak informasi dikodekan

dalam bit-bit. Misalkan atribut A mempunyai nilai v yang berbeda, {𝑎1, 𝑎2, … . , 𝑎𝑣}

Atribut A dapat digunakan untuk membagi S ke dalam v bagian (subset),

{𝑆1,𝑆2, … , 𝑆𝑣} dimana 𝑆𝑗 berisi contoh di S yang mempunyai nilai 𝑎𝑗 dari A. Jika A

terpilih sebagai tes atribut (misal atribut untuk splitting), maka bagian ini akan

sesuai dengan pertumbuhan cabang dari simpul yang berisi S. Misal 𝑆𝑖𝑗 menjadi

contoh kelas 𝐶𝑖 pada sebuah subset S. Entropy atau informasi berdasarkan

pembagian ke dalam A sebagai berikut :

25

𝐸(𝐴) = ∑𝑆𝑖𝑗+⋯+𝑆𝑚𝑗

𝑆𝐽(𝑆𝑖𝑗, … , 𝑆𝑚𝑗)𝑣

𝑗=1 (3.2)

Bentuk 𝑆𝑖𝑗+⋯+𝑆𝑚𝑗

𝑆 adalah bobot dari subbagian (subset) 𝑗𝑡ℎ dan merupakan

jumlah contoh pada subset dibagi oleh total jumlah contoh dalam 𝑆 . Nilai entropy

terkecil adalah kemurnian (purity) terbesar pada pembagian subset. Untuk subset

𝑠𝑗,

𝐼(𝑆1𝑗,𝑆2𝑗,….𝑆𝑚𝑗) = − ∑ 𝑝𝑖𝑗 𝑙𝑜𝑔2 (𝑝𝑖𝑗)𝑚𝑖=1 (3.3)

dengan 𝑝𝑖𝑗 =𝑠𝑖𝑗

|𝑠𝑗| adalah probabilitas pada contoh 𝑠𝑗 kepunyaan kelas 𝐶𝑖.

Information gain atribut 𝐴 pada subset 𝑆 adalah :

𝐺𝑎𝑖𝑛(𝐴) = 𝐼(𝑠1, 𝑠2, … , 𝑠𝑚) − 𝐸(𝐴) (3.4)

Dengan kata lain, 𝐺𝑎𝑖𝑛(𝐴) adalah reduksi yang diharapkan dalam entropy

yang disebabkan oleh pengetahuan nilai pada atribut 𝐴. Algoritma menghitung

information gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih

sebagai tes atribut (simpul akar). Simpul 𝐴 dibuat dan dilabelkan dengan atribut,

cabang dibuat untuk setiap nilai atribut.

3.1.5 Entropy

Definisi Entropy (Basuki dan Syarif, 2003) :

1. Entropy (𝑆) adalah jumlah bit yang diperkirakan dibutuhkan untuk

dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada

ruang sample 𝑆.

2. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu

kelas. Semakin kecil nilai entropy, maka semakin baik untuk digunakan

dalam mengekstraksi suatu kelas.

3. Panjang kode untuk menyatakan informasi secara optimal adalah

−𝑙𝑜𝑔2 𝑝 bit untuk messages yang mempunyai probabilitas p.

4. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi 𝑆 ke dalam

kelas adalah :

26

−𝑝(+)𝑙𝑜𝑔2𝑝(+) − 𝑝(−)𝑙𝑜𝑔2𝑝(−)

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = −𝑝(+)𝑙𝑜𝑔2𝑝(+) − 𝑝(−)𝑙𝑜𝑔2𝑝(−) (3.5)

keterangan :

𝑆 = ruang (data) sample yang digunakan untuk training.

𝑃(+) = probabilitas yang bersolusi positif (mendukung) pada data sampel untuk

kriteria tertentu.

𝑃(−) = probabilitas yang bersolusi negatif (tidak mendukung) pada data sampel

untuk kriteria tertentu.

3.1.6 Penanganan data kontinu

Algoritma Decision Tree juga menangani masalah atribut kontinu. Salah

satu caranya adalah dengan Entropy-Based Discretization yang melibatkan

perhitungan kelas entropi.

Misalkan 𝑇 membagi 𝑆 sample menjadi j subset S1, S2, ....Sj. Misalkan ada 𝑘

kelas C1, C2, ... ,Ck, sehingga P(Ci, Sj) adalah probabilitas jumlah sampel kelas Ci

pada subset Sj. Maka Entropi Kelas dari subset Sj didefinisikan dengan :

𝐸(𝑆𝑗) = − ∑ 𝑃(𝐶𝑖, 𝑆𝑗) log2 𝑃(𝐶𝑖, 𝑆𝑗)𝑘𝑖=1 (3.6)

Entropi Informasi Kelas E(A,TA;S) didefinisikan dengan :

𝐸(𝐴, 𝑇𝐴; 𝑆) = ∑ |𝑆𝑖

𝑆| 𝐸(𝑆𝑖)

𝑗𝑖=1 (3.7)

dengan E(Sj) = Entropi kelas dari subset Sj

Sj = Subset dari S

Ci = Kelas ke-i

P(Ci,Sj) = Probabilitas jumlah sampel kelas Ci pada Subset Sj

E(A,TA;S) = Entropi informasi kelas partisi dengan cut point TA di A

A = Atribut

27

Cut point terbaik adalah yang memberikan nilai Entropi Informasi Kelas terkecil di

antara semua kandidat cut point (Sunjana, 2010).

Kategorisasi tidak diperlukan jika kita tidak memiliki landasan yang cukup

kuat untuk melakukannya. Kategorisasi kadang diperlukan untuk

menyederhanakan proses pengolahan data. Misalnya variabel usia yang

dikategorikan per 356 hari atau diagnosis yang menghasilkan informasi yang

bersifat kategori, sehat atau sakit. Semasih kita bisa menggunakan variabel dalam

bentuk aslinya, jangan dikategorikan. Kategorisasi adalah “bad idea” (Royston et

al., 2006).

3.1.7 Support dan confidence

Misal 𝐼 = {𝐼1, 𝐼2, … . 𝐼𝑚} adalah sebuah itemset (kumpulan atribut). Misal 𝐷

sebuah database transaksi dengan tiap transaksi 𝑇 adalah sebuah itemset yang tidak

kosong sedemikian rupa sehingga T ⊆ I. Setiap transaksi memiliki sebuah identifier

(pengenal), misal 𝑇𝐼𝐷. Misal 𝐴 sebuah itemset. Transaksi 𝑇 dikatakan mengandung

𝐴 jika 𝐴 ⊆ 𝑇. Aturan asosiasi (rule) adalah sebuah implikasi dari bentuk A⇒B,

dengan A ⊂ I, B ⊂ I, A ≠ ∅, B ≠ ∅, dan A ∩ B = ∅. Rule A⇒B memegang peranan

di dalam kumpulan transaksi 𝐷 dengan support 𝑠, dengan 𝑠 adalah persentase

transaksi di dalam 𝐷 yang mengandung A ∪ B (dibaca “A atau B”). Selanjutnya ini

menjadi probabilitas, P(A ∪ B). Rule A⇒B juga mempunyai confidence 𝑐 di dalam

kumpulan transaksi 𝐷, dengan 𝑐 merupakan persentase dari transaksi di dalam 𝐷

yang mengandung 𝐴 dan juga mengandung 𝐵. Selanjutnya ini menjadi probabilitas

bersyarat, P(B|A). Didefinisikan :

𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝐴 ⇒ 𝐵) = 𝑃(𝐴 ∪ 𝐵) (3.8)

𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(A ⇒ B) = P(B|A) (3.9)

𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(A ⇒ B) = P(B|A) =𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝐴∪𝐵)

𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝐴)=

𝑠𝑢𝑝𝑝𝑜𝑟𝑡_𝑐𝑜𝑢𝑛𝑡(𝐴∪𝐵)

𝑠𝑢𝑝𝑝𝑜𝑟𝑡_𝑐𝑜𝑢𝑛𝑡(𝐴) (3.10)

28

Aturan-aturan (rules) yang memenuhi threshold (ambang batas) minimum

support (disebut dengan min_sup) dan memenuhi threshold minimum confidence

(disebut dengan min_conf) dikatakan kuat. Dengan konvensi, nilai terjadinya

support dan confidence lebih umum ditulis di antara 0% dan 100%, daripada 0

sampai 1,0 (Han et al., 2012 : 267).

3.1.8 Menyederhanakan rule

Menyederhanakan rule dengan cara uji independensi dengan distribusi

terpadu chi-square adalah tahapan terakhir dari proses pembentukan decision tree.

Apabila individu-individu suatu populasi dapat diklasifikasikan dalam dua variabel

(kategori), tiap-tiap kategori dapat terdiri dari beberapa alternatif. Kemudian kita

ingin menguji 𝐻0 apakah kedua variabel itu independen. Untuk menguji 𝐻0 tersebut

diambil suatu sample, individu-individu dalam sample tersebut diklasifikasikan

dalam “two way classification”. Uji yang demikian dinamakan test of independency

(uji independensi). Tabelnya dinamakan tabel kontingensi. Apabila variabel I terdiri

dari 𝑘 kategori dan variabel II terdiri dari 𝑟 kategori, tabelnya dapat disusun seperti

tabel dibawah ini.

Tabel 3.1 Tabel kontingensi

29

dengan :

𝑛𝑖𝑗 = individu dari baris 𝑖 kolom 𝑗

𝑖 = 1, 2, . . … . . , 𝑟

𝑗 = 1, 2, 3, … . , 𝑘

Langkah-langkah dalam uji independensi :

1. Menentukan formula hipotesis dengan hipotesis alternatif :

𝐻0 : Variabel A independen terhadap variabel B atau 𝑃(𝐴 ∩ 𝐵) =

𝑃(𝐴). 𝑃(𝐵)

𝐻1 : Variabel A dependen terhadap variabel B atau 𝑃(𝐴 ∩ 𝐵) ≠ 𝑃(𝐴). 𝑃(𝐵)

2. Dipilih tingkat signifikansi tertentu () dengan derajat bebas (degree of

freedom) = (𝑟 − 1)(𝑘 − 1), dengan 𝑟 adalah jumlah row (baris) dan 𝑘 adalah

jumlah kolom.

3. Kriteria pengujian :

Gambar 3.5 Kriteria uji independensi

o H0 diterima apabila : 𝜒2 ≤ 𝜒2 α; (r-1)(k-1) atau p-value ≥ α, berarti

terdapat hubungan yang independen antar variabel (dapat dihilangkan).

o H0 ditolak apabila : 𝜒2 > 𝜒2 α; (r-1)(k-1) atau p-value < α, berarti

terdapat hubungan yang dependen antar variabel (tidak dapat

dihilangkan).

30

4. Perhitungan

𝜒2 = ∑ ∑(𝑛𝑖𝑗−𝑒𝑖𝑗)2

𝑒𝑖𝑗

𝑘𝑗=𝑖

𝑟𝑖=𝑗 (3.11)

dimana 𝑒𝑖𝑗 =(𝑛𝑖.)(𝑛.𝑗)

𝑛

𝑛𝑖𝑗 = frekuensi pengamatan (observasi) dari baris ke-i dan kolom ke-j

𝑒𝑖𝑗 = frekuensi diharapkan (expected) dari baris ke-i kolom ke-j

5. Kesimpulan

Apakah H0 diterima (variabel A tidak mempengaruhi/independen dengan

variabel B) atau H0 ditolak (variabel A mempengaruhi/dependen dengan variabel

B).

3.1.9 Kelebihan dan kekurangan

Kelebihan dari metode Decision Tree adalah :

Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global,

dapat diubah menjadi lebih simpel dan spesifik.

Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika

menggunakan metode Decision Tree, maka sampel diuji hanya berdasarkan

kriteria atau kelas tertentu.

Fleksibel untuk memilih fitur dari node internal yang berbeda, fitur yang terpilih

akan membedakan suatu kriteria dibandingkan kriteria yang lain

dalam node yang sama. Kefleksibelan metode Decision Tree ini meningkatkan

kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan

metode penghitungan satu tahap yang lebih konvensional.

Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat

banyak, seorang penguji biasanya perlu mengestimasikan baik itu distribusi

dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode

Decision Tree dapat menghindari munculnya permasalahan ini dengan

31

menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal

tanpa banyak mengurangi kualitas keputusan yang dihasilkan.

Kekurangan pada Decision Tree adalah :

o Terjadi overlapping terutama ketika kelas-kelas dan kriteria yang digunakan

jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya

waktu pengambilan keputusan dan jumlah memori yang diperlukan.

o Pengakumulasian jumlah kesalahan dari setiap tingkat dalam sebuah Decision

Tree yang besar.

o Kesulitan dalam mendesain Decision Tree yang optimal.

o Hasil kualitas keputusan yang didapatkan dari metode Decision Tree sangat

tergantung pada bagaimana tree tersebut didesain.

3.2 Naive Bayes

Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada

teknik klasifikasi. Naive Bayes merupakan pengklasifikasian dengan metode

probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes,

yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa

sebelumnya sehingga dikenal sebagai Teorema Bayes. Teorema tersebut

dikombinasikan dengan Naive dimana diasumsikan kondisi antar atribut saling

bebas. Klasifikasi Naive Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari

sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya.

Persamaan dari teorema Bayes adalah :

𝑃(𝐻|𝑋) =𝑃(𝑋|𝐻).𝑃(𝐻)

𝑃(𝑋) (3.12)

Keterangan :

X : Data dengan kelas yang belum diketahui

H : Hipotesis data X merupakan suatu kelas spesifik

P(H|X) : Probabilitas hipotesis H berdasarkan kondisi X (probabilitas posterior)

32

P(H) : Probabilitas hipotesis H (probabilitas prior)

P(X|H) : Probabilitas X berdasarkan kondisi hipotesis H

P(X) : Probabilitas X

Untuk menjelaskan teorema Naive Bayes, perlu diketahui bahwa proses

klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok

bagi sampel yang dianalisis tersebut. Karena itu, teorema bayes di atas disesuaikan

sebagai berikut :

𝑃(𝐶|𝐹1, … , 𝐹𝑛) =𝑃(𝐶)𝑃(𝐹1,…,𝐹𝑛|𝐶)

𝑃(𝐹1,…,𝐹𝑛) (3.13)

Dimana Variabel C merepresentasikan kelas, sementara variabel 𝐹1, … , 𝐹𝑛

merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan

klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel

karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas C

(sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan

peluang kemunculan karakteristik karakteristik sampel pada kelas C (disebut juga

likelihood), dibagi dengan peluang kemunculan karakteristik karakteristik sampel

secara global (disebut juga evidence). Karena itu, rumus diatas dapat pula ditulis

secara sederhana sebagai berikut :

𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =𝑃𝑟𝑖𝑜𝑟×𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑

𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒 (3.14)

Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari

posterior tersebut nantinya akan dibandingkan dengan nilai nilai posterior kelas

lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan.

Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan

(𝐶|𝐹1, … , 𝐹𝑛) menggunakan aturan perkalian sebagai berikut :

𝑃(𝐶|𝐹1, … , 𝐹𝑛) = 𝑃(𝐶)𝑃(𝐹1, … , 𝐹𝑛|𝐶)

= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2, … , 𝐹𝑛|𝐶, 𝐹1)

= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3, … , 𝐹𝑛|𝐶, 𝐹1, 𝐹2)

33

= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3|𝐶, 𝐹1,𝐹2)𝑃(𝐹4, … , 𝐹𝑛|𝐶, 𝐹1, 𝐹2, 𝐹3)

= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3|𝐶, 𝐹1,𝐹2) … 𝑃(𝐹𝑛|𝐶, 𝐹1, 𝐹2, 𝐹3, … , 𝐹𝑛−1) (3.15)

Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin

banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai

probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya,

perhitungan tersebut menjadi sulit untuk dilakukan. Di sinilah digunakan asumsi

independensi yang sangat tinggi (naif), bahwa masing-masing petunjuk

(𝐹1, 𝐹2, … , 𝐹𝑛) saling bebas (independen) satu sama lain. Dengan asumsi tersebut,

maka berlaku suatu kesamaan sebagai berikut :

𝑃(𝑃𝑖|𝐹𝑗) =𝑃(𝐹𝑖∩𝐹𝑗)

𝑃(𝐹𝑗)=

𝑃(𝐹𝑖)𝑃(𝐹𝑗)

𝑃(𝐹𝑗)= 𝑃(𝐹𝑖) (3.16)

untuk 𝑖 ≠ 𝑗, sehingga

𝑃(𝐹𝑖|𝐶, 𝐹𝑗) = 𝑃(𝐹𝑖|𝐶) (3.17)

Dari persamaan di atas dapat disimpulkan bahwa asumsi independensi naif

tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi

mungkin untuk dilakukan. Selanjutnya, penjabaran 𝑃(𝐶|𝐹1, … , 𝐹𝑛) dapat

disederhanakan menjadi :

𝑃(𝐶|𝐹1, … , 𝐹𝑛) = 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶) … 𝑃(𝐹𝑛|𝐶)

= 𝑃(𝐶) ∏ 𝑃(𝐹𝑖|𝐶)𝑛𝑖=1 (3.18)

Persamaan di atas merupakan model dari teorema Naive Bayes yang

selanjutnya akan digunakan dalam proses klasifikasi. Untuk klasifikasi dengan data

kontinu digunakan rumus Densitas Gauss :

𝑃(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑦𝑗) =1

√2𝜋𝜎𝑖𝑗𝑒

−(𝑥𝑖−𝜇𝑖𝑗)2

2𝜎𝑖𝑗2

(3.19)

34

Keterangan :

𝑃 : Peluang

𝑋𝑖 : Atribut ke-𝑖

𝑥𝑖 : Nilai atribut ke-𝑖

𝑌 : Kelas yang dicari

𝑦𝑗 : Subkelas 𝑌 yang dicari

𝜇 : Mean, menyatakan rata-rata dari seluruh atribut

𝜎 : Deviasi standar, menyatakan varian dari seluruh atribut

Adapun alur dari metode Naive Bayes adalah sebagai berikut :

1. Baca data training

2. Hitung Jumlah dan probabilitas, namun apabila data numerik maka :

a. Cari nilai mean dan standar deviasi dari masing-masing parameter yang

merupakan data numerik

b. Cari nilai probabilitas dengan cara menghitung jumlah data yang sesuai dari

kategori yang sama dibagi dengan jumlah data pada kategori tersebut.

3. Mendapatkan nilai dalam tabel mean, standar deviasi dan probabilitas.

Gambar 3.6 Skema naive bayes

35

Kelebihan Naive Bayes :

Perhitungan relatif mudah dan sederhana.

Menangani kuantitatif dan data diskrit.

Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata–ratakan ketika

mengestimasi peluang bersyarat data.

Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi

parameter (rata–rata dan variansi dari variabel) yang dibutuhkan untuk

klasifikasi.

Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan

estimasi peluang.

Cepat dan efisiensi ruang.

Kokoh terhadap atribut yang tidak relevan.

Kekurangan Naive Bayes :

o Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka

probabilitas prediksi akan bernilai nol juga.

o Mengasumsikan variabel bebas.

35

BAB IV

KLASIFIKASI DENGAN DATA MINING PADA INSURANCE

CUSTOMER LIFETIME DATASET

4.1 Studi Kasus

Dalam kasus ini, akan dilakukan pemodelan dengan menggunakan 2 teknik

klasifikasi pada data mining, yaitu Decision Tree dan Naive Bayes untuk

mengidentifikasi pelanggan potensial dalam hal membeli produk asuransi. Metode

klasifikasi ini terbagi dalam dua tahap, yaitu tahap pembelajaran/pembangunan

model dan klasifikasi.

Tahap pertama yaitu tahap pembelajaran/pembangunan model. Tahap ini

merupakan tahap pemodelan dengan data latih (training). Tiap – tiap record pada

data latih dianalisis berdasarkan nilai–nilai atributnya dengan menggunakan

algoritma klasifikasi Decision Tree dan Naive Bayes untuk mendapatkan model.

Tahap kedua adalah klasifikasi. Pada tahap ini, data uji digunakan untuk

mengetahui tingkat akurasi dari kedua model yang dihasilkan, lalu

membandingkannya. Model dengan akurasi yang lebih baik yang akan dipakai

sebagai klasifikator yang berguna untuk mengklasifikasikan record–record data

baru yang belum pernah dilatihkan atau diujikan sebelumnya (fungsi prediksi dalam

klasifikasi). Tujuan dari penelitian ini adalah untuk menemukan kriteria-kriteria

apa sajakah yang menyebabkan seorang nasabah bank (dalam kasus ini) membeli

produk asuransi, yang dapat digunakan untuk menjaring calon pembeli produk

asuransi tersebut (mencari pelanggan potensial).

Penulis menggunakan bantuan perangkat lunak (software) dalam membuat

penelitian ini. Hal ini sesuai dengan prinsip data mining yang mengharuskan serba

otomatis atau semi-otomatis. Pemodelan pada analisis ini menggunakan software

Oracle SQL Developer 4.0.3 versi windows 64 bit dan SPSS 17.

36

4.2 Deskripsi Data

Data yang digunakan dalam penelitian ini adalah Insurance Customer

Lifetime dataset, yang didapat dari contoh data pada software Oracle SQL

Developer 4.0.3 (data sekunder). Data tersebut merupakan data apakah seorang

nasabah suatu bank di Amerika Serikat (AS) membeli produk asuransi atau tidak

(sudah ditentukan).

Data tersebut terdiri dari 1015 entry dengan 30 variabel independen (atribut)

dan 1 variabel dependen (target atribut). Input data pada variabel independen (X)

bisa berupa data kategorik dan data kontinu (penanganan data kontinu berbeda pada

algoritma Decision Tree dan Naive Bayes, terdapat pada subbab 3.1.6 untuk

Decision Tree dan 3.2 untuk Naive Bayes). Sedangkan input data untuk variabel

dependen (Y) berupa data kategorik. Berikut nilai, tipe data, tipe mining, dan

keterangan apakah variabel tersebut dipakai atau tidak dalam proses mining :

Tabel 4.1 Variabel-variabel independen

Kode Nama Variabel Deskripsi Nilai Tipe

Data

Tipe

Mining

Ket.

(in/out)

X1 Age Umur dalam

tahun

Rasio Numerik In

X2 Bank Funds Saldo

tabungan

dalam USD

Rasio Numerik

In

X3 Car Ownership Kepemilikan

mobil

1: yes

0 : no

Nominal Kategorik In

X4 Checking

Amount

Rasio Numerik

In

X5 Credit Balance Jumlah

kredit

Rasio Numerik In

X6 Credit Card

Limit

Batas kredit

pada kartu

kredit

Rasio Numerik In

X7 Customer ID ID

pelanggan

Varchar Kategorik Out

X8 First Nama depan Varchar Kategorik Out

X9 Last Nama

belakang


X10 Has Children Kepunyaan

anak

1: yes

0: no


37

X11 House

Ownership

Kepemilikan

rumah

1: yes

0: no


X12 LTV Customer

lifetime

value

Rasio Numerik Out

X13 LTV Bin Kategori

Customer

lifetime

value

1: Low

2: Medium

3: High

4: Very High

Ordinal Kategorik In

X14 Marital Status Status nikah 1: Single

2: Married

3: Divorced

4: Others


X15 Money

Monthly

Overdrawn

Rasio Numerik In

X16 Monthly

Checks Written

Rasio Numerik In

X17 Mortgage

Amount

Nilai hipotik Rasio Numerik In

X18 N Mortgages Jumlah

hipotik

0

1

2

Nominal Kategorik Out

X19 N of

Dependents

Jumlah

tanggungan

Rasio Numerik In

X20 N Trans ATM Jumlah

transfer via

ATM

Rasio Numerik In

X21 N Trans Kiosk Jumlah

transfer via

Kios

Rasio Numerik In

X22 N Trans Teller Jumlah

transfer via

Teller

Rasio Numerik In

X23 N Trans Web Jumlah

transfer via

Web

Rasio Numerik In

38

X24 Profession Profesi Manager

Cashier

IT staff

Programmer/

developer

Teacher

Doctor

Nurse

Fireman

Police

Waiter/waitress

dll.


X25 Region Wilayah 1: North

2: North East

3: East

4: South East

5: South

6: South West

7: West

8: North West


X26 Salary Gaji per

tahun (USD)

Rasio Numerik In

X27 Sex Jenis

kelamin

1: Male

0: Female


X28 State Negara

bagian

DC

CA

FL

MI

UT

NY

LA

WI

OR

dll.


X29 Time as

Customer

Lama waktu

sebagai

nasabah

(tahun)

Rasio Kategorik In

X30 T Amount

Autom

Payment

Pembayaran

otomatis per

bulan (USD)

Rasio Numerik In

39

Tabel 4.2 Variabel dependen

Kode Nama

Variabel

Deskripsi Nilai Tipe Data Tipe

Mining

Ket.

(in/out)

Y Buy

Insurance

Membeli

asuransi/tidak

1:Yes

0: No


4.3 Persiapan dan Pembagian Dataset

Sebelum dilakukan proses mining, data harus dipersiapkan terlebih dahulu

agar siap untuk diolah (dikenal dengan istilah preprocessing) dengan tujuan

meminimalkan kesalahan dan mengoptimalkan hasil mining. Tahap persiapan

sesuai dengan tahapan pada data mining, yaitu :

Pada tahap cleaning, tidak diberikan perlakuan apapun, karena isian data

sudah lengkap (no missing value), sehingga tidak ada entry data yang perlu dibuang.

Pada tahap integrasi, juga tidak diberikan perlakuan apapun, karena data hanya

bersumber dari 1 dataset.

Pada tahap seleksi, terjadi pemilihan atribut yang akan di-mining. Atribut

dengan tipe data yang tidak dapat di-mining ataupun dinilai tidak relevan dapat

dibuang (tidak dipakai). Atribut-atribut tersebut yaitu :

o Customer ID (X7)

o First (X8)

o Last (X9)

Ketiga atribut tersebut bertipe data varchar dan dinilai tidak relevan. Selain

itu ada beberapa atribut yang tidak dipakai dengan alasan penyederhanaan, yaitu :

o LTV (X12) karena sudah ada pengelompokannya pada atribut LTV

bin (X13).

o N Mortgages (X18) karena sudah ada Mortgage Amount (X17).

o Professions (X24) karena data asli masih berbentuk varchar (belum

dikodekan) dan terlalu banyak variasi pekerjaan sehingga sulit untuk

dikategorikan.

40

o State (X28) karena data asli berbentuk varchar (belum dikodekan)

dan terlalu banyak variasi negara bagian (terdapat 50 negara bagian

di AS) sehingga sulit untuk dikategorikan, selain itu sudah ada

pengelompokan wilayah yang lebih umum, yaitu Region (X25).

Sehingga terdapat 23 atribut lainnya yang akan dipakai pada tahap selanjutnya sbb.

(kode variabel telah menyesuaikan) :

Tabel 4.3 Variabel independen yang dipakai

Kode Nama Variabel

X1 Age

X2 Bank Funds

X3 Car Ownership

X4 Checking Amount

X5 Credit Balance

X6 Credit Card Limit

X7 Has Children

X8 House Ownership

X9 LTV Bin

X10 Marital Status

X11 Money Monthly Overdrawn

X12 Monthly Checks Written

X13 Mortgage Amount

X14 N of Dependents

X15 N Trans ATM

X16 N Trans Kiosk

X17 N Trans Teller

X18 N Trans Web

X19 Region

X20 Salary

X21 Sex

X22 Time as Customer

X23 T Amount Autom Payment

Pada tahap transformasi, dilakukan pengkodean nilai pada data kategorik,

yang tadinya berupa data mentah sehingga memungkinkan untuk di-mining, yaitu :

41

Tabel 4.4 Pengkodean data kategorik

Kode Variabel Nilai

Y Buy Insurance 1 : yes

0 : no

X3 Car Ownership 1 : yes

0 : no

X7 Has Children 1 : yes

0 : no

X8 House Ownership 1 : yes

0 : no

X9 LTV Bin 1: Low

2: Medium

3: High

4: Very High

X10 Marital Status 1: Single

2: Married

3: Divorced

4: Others

X19 Region 1: North

2: North East

3: East

4: South East

5: South

6: South West

7: West

8: North West

X21 Sex 1: Male

0: Female

Sedangkan pada data kontinu, pengkategorian dilakukan oleh sistem entropi

pada tahap mining (tidak dilakukan secara manual). Dataset dalam kasus ini dibagi

2 secara random, yaitu 70% atau sebanyak 702 data yang terbaca oleh software

untuk pelatihan (pembangunan model) dan 30% atau sebanyak 313 data lainnya

untuk menguji tingkat akurasi dari model yang dihasilkan (jumlah sampel 1015).

42

4.4 Pengaturan Algoritma dalam Software Oracle SQL Developer 4.0.3

Dalam setiap software, pasti terdapat pengaturan-pengaturan tambahan

selain algoritma asli. Pengaturan-pengaturan berikut yang bisa dipakai dalam

software Oracle SQL Developer versi 4.0.3 pada algoritma Decision Tree dan

Naive Bayes :

Decision Tree

- Homogeneity Metric : Entropi

Homogeneity Metric atau ukuran homogenitas yang dipakai adalah sistem

entropi, sesuai dengan landasan teori yang dipakai.

- Maximum Depth : 7 (default)

Maximum Depth adalah jumlah maksimal percabangan secara hierarki (dari

atas ke bawah atau dari samping kiri ke kanan). Tujuan jumlah percabangan dibatasi

agar tree yang dihasilkan tidak terlalu besar (rumit). Dalam kasus ini jumlah

maksimal percabangan secara hierarki adalah 7.

- Minimum Records in a Node : 10 (default)

- Minimum Percent of Records in a Node : 0,05 (default)

Dua ketentuan di atas merupakan satu kesatuan yang bersifat saling

menggugurkan (bila satu ketentuan telah tercapai, maka ketentuan yang lainnya

akan gugur). Minimum records in a node adalah jumlah sampel minimal dalam

suatu simpul, sedangkan minimum percent of records in a node adalah persentase

minimal sampel dalam suatu simpul. Dalam kasus ini suatu simpul dapat terbentuk

bila terdapat minimal 10 sampel atau minimal 0,05% dari keseluruhan sampel.

- Minimum Records for a Split : 20 (default)

- Minimum Percent of Records for a Split : 0,1 (default)

Dua ketentuan di atas juga merupakan satu kesatuan yang bersifat saling

menggugurkan (bila satu ketentuan telah tercapai, maka ketentuan yang lainnya

akan gugur). Minimum records for a split adalah jumlah sampel minimal sebagai

43

syarat untuk split (membagi data), sedangkan minimum percent of records for a

split adalah persentase minimal sampel untuk membagi data. Dalam kasus ini suatu

split dapat terjadi bila terdapat minimal 20 sampel atau minimal 0,1% dari

keseluruhan sampel.

Naive Bayes

- Singletone Threshold : 0 (default)

- Pairwise Threshold : 0 (default)

Maksudnya, jumlah kejadian minimal yang dapat terjadi adalah 0, tidak

menerima kejadian dengan nilai negatif, baik untuk kejadian tunggal (singletone),

maupun kejadian berpasangan/bersyarat (pairwise).

4.5 Hasil Simulasi

Suatu model klasifikasi dikatakan baik apabila hasil prediksi dari model

tersebut memiliki persentase ketepatan (akurasi) yang tinggi dimana nilai tersebut

dapat dihitung sebagai berikut :

Tabel 4.5 Matrix performance klasifikasi

Buy Insurance Prediksi

Yes No

Data

asli

Yes 𝑎

𝑏 Jumlah actual Buy

No 𝑐 𝑑 Jumlah actual Not Buy

Jumlah

predicted

Buy

Jumlah

predicted

Not Buy

Jumlah (N)

Akurasi total (overall accuracy) dirumuskan sebagai berikut :

x100%a d

N

Dimana 𝑎 merupakan pembeli asuransi yang dengan model juga diprediksi

sebagai pembeli, sedangkan d merupakan bukan pembeli asuransi yang dengan

44

model juga diprediksi sebagai bukan pembeli. Berikut ini merupakan model hasil

simulasi dari kedua teknik klasifikasi yang akan dibandingkan hasilnya :

4.5.1 Decision tree

Tabel 4.6 Matrix performance decision tree

Buy Insurance Yes Predicted No Predicted Total Actual

Yes Actual 54 17 71

No Actual 44 198 242

Total Predicted 98 215 313

Ket. tabel :

Jumlah sampel yang diprediksi membeli dan benar adalah 54 (a).

Jumlah sampel yang diprediksi membeli dan salah adalah 44 (c).

Jumlah sampel yang diprediksi tidak membeli dan benar adalah 198 (d).

Jumlah sampel yang diprediksi tidak membeli dan salah adalah 17 (b).

Jumlah sampel yang sebenarnya membeli adalah 71.

Jumlah sampel yang sebenarnya tidak membeli adalah 242.

Jumlah sampel yang diprediksi membeli adalah 98.

Jumlah sampel yang diprediksi tidak membeli adalah 215.

Total sampel untuk data training adalah 313 (N).

Perhitungan :

True Positive Rate (sensitivity) : 54

71 𝑥 100% = 76,0563 %

True Negative Rate (specificity) : 198

242 𝑥 100% = 81,8182 %

Average Accuracy : (76,0563+81,8182)

2= 78,9373 %

Overall Accuracy : (54+198)

313𝑥 100 % = 80,5112 %

45

Gambar 4.1 Kurva ROC decision tree

Area di bawah kurva ROC = 0,8670

4.5.2 Naive bayes

Tabel 4.7 Matrix performance naive bayes

Buy Insurance Yes Predicted No Predicted Total Actual

Yes Actual 65 6 71

No Actual 90 152 242

Total Predicted 155 158 313

Ket. tabel :

Jumlah sampel yang diprediksi membeli dan benar adalah 65 (a).

Jumlah sampel yang diprediksi membeli dan salah adalah 90 (c).

Jumlah sampel yang diprediksi tidak membeli dan benar adalah 152 (d).

Jumlah sampel yang diprediksi tidak membeli dan salah adalah 6 (b).

Jumlah sampel yang sebenarnya membeli adalah 71.

Jumlah sampel yang sebenarnya tidak membeli adalah 242.

Jumlah sampel yang diprediksi membeli adalah 155.

Jumlah sampel yang diprediksi tidak membeli adalah 158.

Total sampel untuk data training adalah 313 (N).

46

Perhitungan :

True Positive Rate (sensitivity) : 65

71 𝑥 100% = 91,5493 %

True Negative Rate (specificity) : 152

242 𝑥 100% = 62,8099 %

Average Accuracy : (91,5493+62,8099)

2= 77,1796 %

Overall Accuracy : (65+152)

313𝑥 100 % = 69,3291 %

Gambar 4.2 Kurva ROC naive bayes

Area di bawah kurva ROC = 0,8256

4.6 Menentukan Model Klasifikasi Terbaik

Model klasifikasi terbaik ditentukan oleh akurasi total (overall accuracy)

nya. Makin tinggi overall accuracy, maka ketepatan prediksinya pun semakin baik.

Berikut merupakan diagram batang overall accuracy dari kedua model klasifikasi :

Gambar 4.3 Perbandingan overall accuracy kedua model klasifikasi

Terlihat di atas grafik Decision Tree (DT, berwarna hijau) memiliki overall

accuracy yang lebih tinggi dari Naive Bayes (NB, berwarna kuning), dengan DT

menyentuh angka 80%. Untuk lebih jelasnya, dapat dilihat pada tabel berikut :

47

Tabel 4.8 Perbandingan overall accuracy kedua model klasifikasi

Ranking Teknik Klasifikasi Overall Accuracy

(%)

1 Decision Tree (DT) 80,5112

2 Naive Bayes (NB) 69,3291

Sehingga jelas bahwa Decision Tree memiliki tingkat prediksi yang lebih

baik dari Naive Bayes. Selain overall accuracy, dapat dilihat pula average

accuracy-nya pada diagram batang dan tabel berikut :

Gambar 4.4 Perbandingan average accuracy kedua model klasifikasi

Diagram batang di atas menunjukkan average accuracy (akurasi rata-rata),

yaitu persentase prediksi benar positif (true positive rate) ditambah dengan

persentase prediksi benar negatif (true negative rate) dibagi dua. Terlihat grafik

Decision Tree (DT, berwarna hijau) lebih tinggi sedikit dari Naive Bayes (NB,

berwarna kuning). Untuk lebih jelasnya dapat dilihat pada tabel berikut :

Tabel 4.9 Persentase average accuracy kedua model klasifikasi

Ranking Teknik Klasifikasi Average Accuracy

(%)



48

Selain itu, terdapat satu lagi alat ukur pendukung, yaitu predictive

confidence atau tingkat keyakinan prediksi sebagai berikut :

Gambar 4.5 Perbandingan predictive confidence kedua model klasifikasi

Terlihat grafik Decision Tree (DT, berwarna hijau) meraih nilai predictive

confidence sedikit lebih tinggi dari Naive Bayes (NB, berwarna kuning). Untuk

lebih jelasnya dapat dilihat pada tabel berikut:

Tabel 4.10 Persentase predictive confidence kedua model klasifikasi

Ranking Teknik Klasifikasi Predictive

Confidence (%)



Dari ketiga pengukuran tersebut, Decision Tree (DT) selalu mendapat nilai

yang lebih tinggi, sehingga model inilah yang lebih layak sebagai klasifikator yang

berguna untuk memprediksi data yang belum pernah dilatih/diujikan sebelumnya.

Gambar 4.6 Kurva ROC gabungan

Pada kurva ROC di atas, terlihat kurva Decision Tree (DT, berwarna hijau)

lebih tinggi dari kurva Naive Bayes (NB, berwarna kuning), sehingga area di bawah

49

≤

kurva (AUC) DT lebih besar dari NB. Untuk lebih jelasnya dapat dilihat pada tabel

berikut :

Tabel 4.11 Area di bawah kurva ROC

Ranking Teknik Klasifikasi AUC



4.7 Model Decision Tree dalam Data

Gambar 4.7 Model decision tree

≤225,5 >225,5

≤155 >155

≤1511,5 >1511,5

≤53,675 >53,675

50

Terlihat pada model tree di atas, atribut yang terpakai dalam pembentukan

tree hanya 4 dari 23 atribut input, yaitu Bank_Funds, Checking_Amount,

Credit_Balance, dan Money_Monthly_Overdrawn. Hal ini disebabkan pemilihan

atribut dalam algoritma Decision Tree menggunakan sistem entropi (seperti yang

telah dijelaskan pada subbab 3.1.4 dan 3.1.5).

Bank_Funds terpilih sebagai atribut pertama yang dijadikan split (pembagi),

hal itu berarti Bank_Funds memiliki nilai Informatian Gain terbesar atau

pengurangan entropi yang terkecil dari 23 atribut yang dipakai (nilai dari

Information Gain ataupun entropi tiap atribut memang tidak ditampilkan oleh

software). Akibat dari terpakainya atribut Bank_Funds, sampel dibagi ke dalam 2

subset, yaitu Bank_Funds > 225,5 dan Bank_Funds ≤ 225,5. Tujuan dari split ini

adalah untuk memastikan suatu subset masuk ke dalam kelas tertentu (mencari pure

subset, subset yang hanya terdiri dari satu kelas saja, misal kelas Yes saja atau kelas

No saja). Jika pure subset tidak ditemukan, setidaknya “bisa menjamin” bahwa

masuknya suatu subset ke dalam kelas tertentu memang benar, dengan didukung

oleh tingkat konfidensi yang tinggi. Pada kasus Bank_Funds, keputusan No jika

Bank_Funds ≤ 225,5 (pada node 4) didukung dengan tingkat konfidensi 99,64%).

Artinya, dengan tingkat konfidensi tersebut, maka subset itu dianggap sebagai pure

subset (tingkat konfidensi 100%).

Sedangkan subset lainnya dengan tingkat konfidensi yang masih rendah

(dalam memutuskan kelas tertentu), dibagi lagi menurut atribut lainnya dengan cara

yang sama, yaitu dengan melihat nilai Information Gain tertinggi atau nilai

pengurangan entropi terendah yang terbentuk berdasarkan atribut-atribut yang ada

(setelah atribut pertama/node awal terbentuk). Tingkat konfidensi menunjukkan

probabilitas jumlah sampel yang mendukung kelas tersebut. Dengan catatan, suatu

split hanya akan terjadi jika keadaan setelah split lebih baik dari keadaan sebelum

split, dalam hal ini ditentukan dari nilai Information Gain dari atribut yang akan

dijadikan split. Jika nilai Information Gain setelah split lebih besar dari nilai

Information Gain sebelum split, maka split tersebut akan terjadi. Tetapi jika nilai

Information Gain setelah split lebih kecil dibanding sebelum split, maka split tidak

akan terjadi. Hal inilah yang membatasi jumlah atribut yang terpakai dalam model

51

tree. Dengan kata lain, tidak semua atribut yang di-input dalam proses mining akan

terpakai pada model tree. Hanya atribut yang memberikan nilai information gain

yang lebih besar dari sebelum di-split yang akan dipakai pada model tree, pada

kasus ini: Bank_Funds, Checking_Amount, Credit_Balance, dan

Money_Monthly_Overdrawn. Karena itulah atribut-atribut yang lain tidak terpakai

pada model tree.

4.7.1 Penentuan cutoff dan uji independensi hasil tree

Bank Funds

Pada atribut Bank_Funds, ditentukan cutoff pada angka 225,5 oleh sistem

entropi, yang membagi Bank_Funds ke dalam 2 kategori, misal K11 dan K21 dengan

0≤K11≤225,5 dan K21>225,5. Ini berarti dengan membagi Bank_Funds ke dalam

K11 dan K21 telah menghasilkan nilai entropi yang terkecil bagi atribut Bank_Funds

(nilai dari entropi-entropi yang mungkin terbentuk memang tidak ditampilkan oleh

software).

Untuk menguji independensi variabel Y (Buy_Insurance) terhadap atribut

hasil cutoff tersebut dilakukan uji independensi chi-square dengan jumlah sampel

random 702 dari 1015 total sampel (jumlah 702 mengikuti jumlah sampel yang

dipakai pada data training) sbb. :

Tabel 4.12 Tabulasi silang bank_funds

Buy_Insurance

Total No Yes

Bank_Funds1 1 286 1 287

2 241 174 415

Total 527 175 702

Bank_Funds1 adalah atribut Bank_Funds yang telah dikategorikan, dengan

1 dan 2 adalah kategorinya. Kategori 1 (anggap K11) bernilai 0 ≤ K11 ≤ 225,5 dan

kategori 2 (anggap K21) bernilai K21 > 225,5.

52

Karena data yang dipakai adalah data random dengan software yang

berbeda, tentu jumlah pembeli asuransi dan yang tidak pada setiap kategorinya akan

berbeda dengan hasil pada tree sebelumnya ataupun jika dilakukan pengambilan

data random lagi (yang penting jumlah sampel random yang diambil sama, yakni

702 sampel) sebagai pembuktian yang ekuivalen.

Tabel 4.13 Tes chi-square bank_funds

Value df

Asymp. Sig. (2-

sided)

Exact Sig. (2-

sided)

Exact Sig. (1-

sided)

Pearson Chi-Square 156.737a 1 .000

Continuity Correctionb 154.523 1 .000

Likelihood Ratio 210.655 1 .000

Fisher's Exact Test .000 .000

Linear-by-Linear Association 156.514 1 .000

N of Valid Cases 702

a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 71,55.

b. Computed only for a 2x2 table

Uji Hipotesis

o H0 : Variabel 1 independen terhadap variabel II

H1 : Variabel I dependen terhadap variabel II

o Tingkat signifikansi (α) = 0,05 dengan derajat bebas 1

o Daerah kritik : p-value < 0,05 atau 𝜒2 > 𝜒2 (0,05;1)

o Pengujian :

p-value = 0,000

𝜒2 = 156,737

o Kesimpulan :

Karena p-value < α (0,000 < 0,05) dan 𝜒2 > 𝜒2 (0,05;1) (156,737 >

3,841) maka H0 ditolak, sehingga variabel I dependen terhadap

variabel II, yang berarti Buy_Insurance dependen terhadap

Bank_Funds (tidak dapat dihilangkan).

53

Checking Amount

Pada atribut Checking_Amount, ditentukan cutoff pada angka 155 oleh

sistem entropi, yang membagi Checking_Amount ke dalam 2 kategori, misal K12

dan K22 dengan 0 ≤ K12 ≤ 155 dan K22 > 155. Ini berarti dengan membagi

Checking_Amount ke dalam K12 dan K22 telah menghasilkan nilai entropi yang

terkecil bagi atribut Checking_Amount (nilai dari entropi-entropi yang mungkin

terbentuk memang tidak ditampilkan oleh software).





Tabel 4.14 Tabulasi silang checking_amount

Buy_Insurance

Total No Yes

Check_Amount1 1 362 148 510

2 165 27 192

Total 527 175 702

Check_Amount1 adalah atribut Checking_Amount yang telah

dikategorikan, dengan 1 dan 2 adalah kategorinya. Kategori 1 (anggap K12) bernilai

0 ≤ K12 ≤ 155 dan kategori 2 (anggap K22) bernilai K22 > 155.






54

Tabel 4.15 Tes chi-square checking_amount

Value df

Asymp. Sig. (2-

sided)

Exact Sig. (2-

sided)

Exact Sig. (1-

sided)









Uji Hipotesis





o Pengujian :

p-value = 0,000

𝜒2 = 16,675

o Kesimpulan :




Checking_Amount (tidak dapat dihilangkan).

Credit Balance

Pada atribut Credit_Balance, ditentukan cutoff pada angka 1511,5 oleh

sistem entropi, yang membagi Credit_Balance ke dalam 2 kategori, misal K13 dan

K23 dengan 0 ≤ K13 ≤ 1511,5 dan K23 > 1511,5. Ini berarti dengan membagi

Credit_Balance ke dalam K13 dan K23 telah menghasilkan nilai entropi yang terkecil

55

bagi atribut Credit_Balance (nilai dari entropi-entropi yang mungkin terbentuk

memang tidak ditampilkan oleh software).





Tabel 4.16 Tabulasi silang credit_balance

Buy_Insurance

Total No Yes

Credit_Balance1 1 468 166 634

2 59 9 68

Total 527 175 702

Credit_Balance1 adalah atribut Credit_Balance yang telah dikategorikan,

dengan 1 dan 2 adalah kategorinya. Kategori 1 (anggap K13) bernilai 0 ≤ K13 ≤

1511,5 dan kategori 2 (anggap K23) bernilai K23 > 1511,5.






56

Tabel 4.17 Tes chi-square credit_balance

Value df

Asymp. Sig. (2-

sided)

Exact Sig. (2-

sided)

Exact Sig. (1-

sided)









Uji Hipotesis





o Pengujian :

p-value = 0,019

𝜒2 = 5,501

o Kesimpulan :




Credit_Balance (tidak dapat dihilangkan).

Money Monthly Overdrawn

Pada atribut Money_Monthly_Overdrawn, ditentukan cutoff pada angka

53,675 oleh sistem entropi, yang membagi Money_Monthly_Overdrawn ke dalam

2 kategori, misal K14 dan K24 dengan 0 ≤ K14 ≤ 53,675 dan K24 > 53,675. Ini berarti

dengan membagi Money_Monthly_Overdrawn ke dalam K14 dan K24 telah

57

menghasilkan nilai entropi yang terkecil bagi atribut Money_Monthly_Overdrawn

(nilai dari entropi-entropi yang mungkin terbentuk memang tidak ditampilkan oleh

software).





Tabel 4.18 Tabulasi silang money_monthly_overdrawn

Buy_Insurance

Total No Yes

MM_Overdrawn 1 424 74 498

2 103 101 204

Total 527 175 702

MM_Overdrawn adalah atribut Money_Monthly_Overdrawn yang telah

dikategorikan, dengan 1 dan 2 adalah kategorinya. Kategori 1 (anggap K14) bernilai

0 ≤ K14 ≤ 53,675 dan kategori 2 (anggap K24) bernilai K24 > 53,675.






58

Tabel 4.19 Tes chi-square money_monthly overdrawn

Value df

Asymp. Sig. (2-

sided)

Exact Sig. (2-

sided)

Exact Sig. (1-

sided)









Uji Hipotesis





o Pengujian :

p-value = 0,000

𝜒2 = 92,846

o Kesimpulan :




Money_Monthly_Overdrawn (tidak dapat dihilangkan).

59

4.7.2 Rules

Rules “Yes”

Node: 2

If BANK_FUNDS > 225,5

And CHECKING_AMOUNT <= 155

Then Yes

Support =261

702𝑥100% = 37,18%

Confidence =168

261𝑥100% = 64,37%

Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5 dan

CHECKING_AMOUNT ≤ $ 155 berpeluang 64,37% untuk membeli produk

asuransi.

Node: 3

Support =244

702𝑥100% = 34,76%

Confidence =167

244𝑥100% = 68,44%


CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE ≤ $ 1511.5

berpeluang 68,44% untuk membeli produk asuransi.

Node: 5 (rule akhir)



And CREDIT_BALANCE <= 1511,5

And MONEY_MONTHLY_OVERDRAWN <= 53,675

Then Yes

Support =141

702𝑥100% = 20,09%

Confidence =75

141𝑥100% = 53,19%




Then Yes

60


CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE ≤ $ 1511.5 dan

MONEY_MONTHLY_OVERDRWAN ≤ $ 53.675 berpeluang 53,19% untuk

membeli produk asuransi.


Support =103

702𝑥100% = 14,67%

Confidence =92

103𝑥100% = 89,32%


CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE ≤ $ 1511.5 dan

MONEY_MONTHLY_OVERDRWAN > $ 53.675 berpeluang 89,32% untuk

membeli produk asuransi. Ini merupakan kriteria dengan peluang terbaik.

Rules “No”

Node: 0

No

Support =702

702𝑥100% = 100%

Confidence =500

702𝑥100% = 71,23%

Ini merupakan node awal pembentukan tree tanpa melihat pengaruh dari

atribut manapun. Jika seorang nasabah bank secara random pada studi kasus ini

ditawari produk asuransi, maka peluang ia tidak membeli sebesar 71,23%, yang

berarti peluang membelinya 28,77%. Peluang didapat dari perbandingan jumlah

sampel dari yang membeli dan yang tidak.




And MONEY_MONTHLY_OVERDRAWN > 53,675

Then Yes

61

Node: 4

If BANK_FUNDS <= 225,5

Then No

Support =281

702𝑥100% = 40,03%

Confidence =280

281𝑥100% = 99,64%

Dengan kata lain, nasabah yang memiliki BANK_FUNDS ≤ $ 225.5

berpeluang 99,64% untuk tidak membeli produk asuransi. Ini merupakan peluang

terbesar seorang nasabah untuk tidak membeli produk asuransi atau peluang

terkecil untuk membeli produk asuransi.

Node: 1


Then No

Support =421

702𝑥100% = 59,97%

Confidence =220

421𝑥100% = 52,26%

Dengan kata lain, nasabah yang memiliki BANK_FUNDS > $ 225.5

berpeluang 52,26% untuk tidak membeli produk asuransi. Berarti nasabah yang

memiliki BANK_FUNDS > $ 225.5 pun belum tentu tertarik untuk membeli

produk asuransi jika tidak ditunjang dengan kriteria-kriteria lainnya.



And CHECKING_AMOUNT > 155

Then No

Support =160

702𝑥100% = 22,79%

Confidence =127

160𝑥100% = 79,38%

62


CHECKING_AMOUNT > $ 155 berpeluang 79,38% untuk tidak membeli produk

asuransi.




And CREDIT_BALANCE > 1511,5

Then No

Support =17

702𝑥100% = 2,42%

Confidence =16

17𝑥100% = 94,12%


CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE > $ 1511.5

berpeluang 94,12% untuk tidak membeli produk asuransi.

4.8 Simulasi dengan Menggunakan Data Nasabah Baru

Simulasi dengan menggunakan data nasabah baru yang belum pernah

diujikan sebelumnya. Atribut telah disortir menjadi 23 atribut seperti pada tahap

seleksi data dan kode atribut juga telah menyesuaikan. Misal ada 2 buah data

nasabah sbb. :

63

Tabel 4.20 Simulasi data nasabah baru

Kode Nama Variabel Deskripsi Nasabah 1 Nasabah 2

X1 Age Umur dalam

tahun

40 25

X2 Bank Funds Saldo

tabungan

10.000 5.000

X3 Car Ownership Kepemilikan

mobil

1 0

X4 Checking

Amount

100 175

X5 Credit Balance Jumlah

kredit

350 100

X6 Credit Card

Limit

Batas kredit

pada kartu

kredit

5.000 1.000

X7 Has Children Kepunyaan

anak

1 0

X8 House

Ownership

Kepemilikan

rumah

1 0

X9 LTV Bin Kategori

Customer

lifetime

value

4 1

X10 Marital Status Status nikah 2 1

X11 Money

Monthly

Overdrawn

56,75 50,63

X12 Monthly

Checks Written

3 0

X13 Mortgage

Amount

Nilai hipotik 15.000 5.000

X14 N of

Dependents

Jumlah

tanggungan

2 0

X15 N Trans ATM Jumlah

transfer via

ATM

0 0

X16 N Trans Kiosk Jumlah

transfer via

Kios

0 0

X17 N Trans Teller Jumlah

transfer via

Teller

0 0

64

X18 N Trans Web Jumlah

transfer via

Web

5 2

X19 Region Wilayah 2 7

X20 Salary Gaji per

tahun (USD)

85.000 50.000

X21 Sex Jenis

kelamin

1 0

X22 Time as

Customer

Lama waktu

sebagai

nasabah

(tahun)

15 5

X23 T Amount

Autom

Payment

Pembayaran

otomatis per

bulan (USD)

500 300

Bila kedua data tersebut dicocokkan dengan rules pada Decision Tree yang

telah terbentuk sebelumnya, maka akan didapat hasil sbb. :

o Karena Nasabah 1 mempunyai :

Bank Funds = 10.000 > 225,5

Checking Amount = 100 ≤ 155

Credit Balance = 350 ≤ 1511,5

Money Monthly Overdrawn = 56,75 > 53,675

Kriteria tersebut cocok dengan rule pada node 6 yaitu :

Node: 6 (confidence: 89,32%)

Maka Nasabah 1 tersebut berpeluang sebesar 89,32% untuk membeli asuransi tanpa

harus melihat atribut lainnya.




And MONEY_MONTHLY_OVERDRAWN > 53,675

Then Yes

65

o Karena Nasabah 2 mempunyai :

Bank Funds = 5.000 > 225,5

Checking Amount = 175 > 155

Karena kriteria tersebut cocok dengan rule pada node 8 yaitu :

Node: 8 (confidence: 79,38%)


And CHECKING_AMOUNT > 155

Then No

Maka Nasabah 2 tersebut berpeluang sebesar 79,38% untuk tidak membeli

asuransi, tanpa harus melihat atribut lainnya.

66

BAB V

KESIMPULAN

1. Berdasarkan studi kasus data pembelian produk asuransi pada dunia nyata,

didapat Decision Tree sebagai model klasifikasi yang lebih baik dari Naive

Bayes, dengan tingkat akurasi total (overall accuracy) sebesar 80,51 %

sedangkan Naive Bayes hanya sebesar 69,32 %.

2. Berdasarkan model Decision Tree, peluang tertinggi seseorang membeli

produk asuransi jika memiliki BANK_FUNDS > $ 225.5 dan

CHECKING_AMOUNT ≤ $ 155 dan CREDIT_BALANCE ≤ $ 1511.5

dan MONEY_MONTHLY_OVERDRAWN > $ 53.675 yakni berpeluang

89,32 %.

3. Sebaliknya, peluang terendah seseorang membeli produk asuransi jika

memiliki BANK_FUNDS ≤ $ 225.5 yakni berpeluang 99,64 % untuk tidak

membeli, dengan kata lain hanya berpeluang 0,36 % untuk membeli.

DAFTAR PUSTAKA

Anggelis, V. & Chritodoulakis, D., 2005, Customer Clustering using RFM

Analysis, Computer Engineering and Informatics Department, University of Patras,

Greece.

Bain, L.J. & Engelhardt, M., 2000, Introduction to Probability and Mathematical

Statistics, third edition, Duxbury, Singapore.

Basuki, A. & Syarif, I., 2003, Decision Tree, Politeknik Electronika Negeri

Surabaya ITS, Surabaya.

Brefeld, U. & Scheffer, T., 2005, AUC maximizing support vector learning. In

Proceedings of the 22nd International Conference on Machine Learning-Workshop

on ROC Analysis in Machine Learning, Bonn, Germany.

Cheng, C.H. & Chen, Y.S., 2009, Classifying the segmentation of customer value

via RFM model and RS theory, Expert Systems with Applications : An International

Journal, 36, 4176–4184.

Davies, B., 2004, Database Systems 3rd Edition. Palgrave, Basingstoke, UK.

Fawcett, T., 2006, An introduction to ROC analysis, Elsevier, Pattern Recognition

Letters, 27, 861–874.

Han, J., 2013, Identifying Potential Customers With Classification Techniques in R

Language, http://www.dataapple.net/?p=102, diakses 12 Desember 2014.

Han, J., Kamber, M., Pei, J., 2001, Data Mining Concepts and Techniques, Morgan

Kaufmann, California.

Idroes, F.N., 2008, Manajemen Resiko Perbankan, Rajawali Pers, Jakarta.

Juriah, 2013, Klasifikasi dan Prediksi Resiko Kredit Perbankkan Menggunakan

Algoritma Naive Bayes Dalam Data Mining, skripsi, FMIPA UGM, Yogyakarta.

Kusnawi, 2007, Pengantar Solusi Data Mining, e-journal Seminar Nasional

Teknologi 2007, STMIK Amikom, Yogyakarta.

Larose, D.T., 2005, Discovering Knowledge in Data : An Introduction to Data

Mining, Wiley, New York.

Paratu, L.G., 2013, Analisis Churn Pada Pelanggan Telekomunikasi Menggunakan

Algoritma C4.5, skripsi, FMIPA UGM, Yogyakarta.

http://www.dataapple.net/?p=102

Pottle, B., Berger, C., Kelly, M., Taft, M., & Talyor, K., 2011, Using Oracle Data

Miner 11g Release 2,

http://www.oracle.com/webfolder/technetwork/tutorials/obe/db/11g/r2/prod/bidw/

datamining/ODM11gR2.htm, diakses 16 Desember 2014.

Royston, P., Altman, D.G., & Sauerbrei, W., 2006, Dichotomizing continuous

predictors in multiple regression: A bad idea. Statistics in Medicine, 25, 127–141.

Sitorus, 2010, Penggunaan Data Mining Dengan Metode Decision Tree Untuk

Prediksi Resiko Kredit, skripsi, FMIPA UGM, Yogyakarta.

Subanar, 2011, Diktat Pengantar Teori Ukuran dan Probabilitas, FMIPA UGM,

Yogyakarta.

Sunjana, 2010, Aplikasi Mining Data Mahasiswa Dengan Metode Klasifikasi

Decision Tree, Seminar Nasional Aplikasi Teknologi Informasi 2010 (SNATI 2010),

ISSN: 1907-5022.

Tan, B.C., Ho, B.C., & Shea, 2004, Two new moss species, Trichosteleum

fleischeri and Splachnobryum temasekensis, Journal of Hattori Botanical

Laboratory, 96, 223-230.

Widiasari, L.S., Sanjaya, N.A., Mahendra, I.B.M., 2008, Perancangan Prototype

Sistem Customer Profiling Berdasarkan Tingkat Customer Value Menggunakan

Implementasi Metode Hierarchical K-means Clustering, Jurnal Tugas Akhir,

Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Udayana, Bali.

Witten, I.H. & Frank, E., 2005, Data Mining : Practical Machine Learning Tools

and Techniques, second edition, Morgan Kaufmann, California.

Wulandari, 2013, Klasifikasi dan Prediksi Keputusan Credit Scoring Berdasarkan

Klasifier Naive Bayes, skripsi, FMIPA UGM, Yogyakarta.

Yuliharyani, S., 2011, Algoritma Decision Tree C4.5 Untuk Klasifikasi Keluarga

Peserta Jamkesmas Berdasarkan Kemiskinan, skripsi, program studi Ilmu

Komputer, Universitas Brawijaya, Malang.

Zafilia, L., 2007, Penerapan Data Mining Untuk IDS, skripsi, program studi Teknik

Elektro, ITB, Bandung.

http://www.oracle.com/webfolder/technetwork/tutorials/obe/db/11g/r2/prod/bidw/datamining/ODM11gR2.htm

http://www.oracle.com/webfolder/technetwork/tutorials/obe/db/11g/r2/prod/bidw/datamining/ODM11gR2.htm

LAMPIRAN : PERBANDINGAN DATA HASIL KLASIFIKASI DARI DECISION

TREE (DT) DAN NAIVE BAYES (NB) DENGAN DATA ASLI (BUY_INSURANCE)

PADA DATA UJI

No. CUSTOMER_ID BUY_INSURANCE DT DT_PROB NB NB_PROB

1 CU6117 No No 0,9863 Yes 0,9661

2 CU15015 No No 0,9975 No 1

3 CU9590 No No 0,8254 No 0,577

4 CU2507 No No 0,9863 No 0,9959

5 CU13551 No Yes 0,5367 No 0,9925

6 CU7788 No No 0,9975 No 1

7 CU12361 No No 0,9 Yes 0,9044

8 CU10508 No No 0,9975 No 1

9 CU14309 No No 0,9975 No 1

10 CU5679 No No 0,9863 No 0,9944

11 CU15979 No No 0,9975 No 1

12 CU12527 No No 0,9975 No 0,8736

13 CU1140 No No 0,9975 No 1

14 CU6871 No No 0,9975 No 0,9955

15 CU3070 No No 0,8214 Yes 0,7694

16 CU2941 No No 0,9975 No 1

17 CU11032 No No 0,8254 Yes 0,5472

18 CU3996 No No 0,9 No 0,8909

19 CU3065 No No 0,8254 Yes 0,9606

20 CU15033 No Yes 0,5367 No 0,7363

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

295 CU12794 Yes Yes 0,5367 Yes 0,9479

296 CU5596 Yes Yes 0,9009 Yes 0,9864

297 CU12573 Yes Yes 0,5367 Yes 0,7578

298 CU2885 Yes Yes 0,9009 Yes 0,9992

299 CU8600 Yes Yes 0,9009 Yes 0,9977

300 CU3850 Yes Yes 0,5367 Yes 0,9808

301 CU5599 Yes Yes 0,8889 Yes 0,9987

302 CU7962 Yes Yes 0,8889 Yes 0,9948

303 CU3942 Yes Yes 0,8889 Yes 0,9987

304 CU4299 Yes Yes 0,8889 Yes 0,9942

305 CU4155 Yes Yes 0,9009 Yes 0,9904

306 CU1005 Yes Yes 0,9009 Yes 0,9637

307 CU5403 Yes No 0,8254 Yes 0,9258

308 CU15326 Yes Yes 0,9009 Yes 0,9972

309 CU10154 Yes No 0,8254 Yes 0,9258

310 CU14434 Yes Yes 0,5367 No 0,7464

311 CU6560 Yes Yes 0,5367 Yes 0,9835

312 CU12842 Yes Yes 0,5367 Yes 0,9797

313 CU6165 Yes Yes 0,5367 Yes 0,6767

Lampiran : Tabel Uji Chi-Square

identifikasi pelanggan potensial produk asuransi dengan teknik klasifikasi

Data & Analytics