pengelompokan credit scoring bagi nasabah bank xyz
TRANSCRIPT
i
PENGELOMPOKAN CREDIT SCORING BAGI NASABAH
BANK XYZ DENGAN MENGGUNAKAN METODE
AGGLOMERATIVE HIERARCHICAL CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun oleh :
Maria Christin Simanjuntak
155314124
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
CLUSTERING OF CREDIT SCORING FOR XYZ BANK
CUSTOMERS USING AGGLOMERATIVE HIERARCHICAL
CLUSTERING METHOD
A Thesis
Presented as Partial Fulfillment of The Requirements
To Obtain Sarjana Komputer Degree
In Informatics Engineering Study Program
Written by:
Maria Christin Simanjuntak
155314124
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
HALAMAN PERSEMBAHAN
“Tuhan tak pernah janji jalan selalu rata tetapi Dia berjanji berikan kekuatan”
“Serahkanlah segala kekuatiranmu kepadaNya, sebab Ia yang memelihara kamu”
1 Petrus 5:7
Karya ini saya persembahkan kepada:
Tuhan Yesus Kristus
Keluarga tercinta dan orang terkasih, Dosen pembimbing
serta keluarga ASD dan teman teman
Terima Kasih sudah memberikan semangat!
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRAK
Credit score atau penilaian kredit di dalam perbankan adalah sistem yang
digunakan oleh bank atau lembaga pembiayaan lainnya untuk menentukan apakah
nasabah layak atau tidak layak mendapatkan pinjaman. Dari penilaian kredit ini
bank akan mengetahui tentang sejarah pinjaman nasabah, apakah nasabah tersebut
layak atau tidak layak untuk mendapatkan pinjaman selanjutnya dan apakah
nasabah tersebut termasuk good creditor atau bad creditor. Namun, dengan data
yang sangat banyak akan lebih rumit menentukan apakah pinjaman nasabah
disetujui atau tidak terutama bila dikerjakan secara manual dan juga memakan
waktu yang lama apabila dikerjakan secara manual, selain itu data kredit yang
tidak seimbang juga dianggap sebagai masalah serius.
Oleh karena itu diperlukan pengelompokan bagi nasabah untuk menilai
layak atau tidak layak dalam pengajuan kredit. Pengelompokan ini menggunakan
metode agglomerative hierarchical clustering dengan tiga perhitungan yaitu
single linkage, average linkage, dan complete linkage, dimana sebelum memulai
pengelompokkan data nasabah bank XYZ akan melakukan tahap pre-processing
terlebih dahulu, dimulai dari seleksi features sampai dengan normalisasi. Setelah
tahap pre-processing selesai dilakukan, selanjutnya ke tahap pengklusteran
dengan terlebih dahulu menghitung jarak dengan Euclidean distance dan untuk
selanjutnya data akan di klusterkan dengan 3 perhitungan agglomerative
hierarchical clustering yang sudah disebutkan sebelumnya. Luaran dari
pengklusteran tersebut adalah dendrogram yang merupakan diagram berbentuk
pohon yang menunjukkan derajat persamaan di antara anggota-anggota suatu
kelompok. Dengan menggunakan confusion matrix akan dihasilkan bahwa
pengklusteran metode AHC dengan perhitungan complete linkage mendapatkan
akurasi yang lebih baik daripada single linkage dan average linkage.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
ABSTRACT
Credit score or credit rating in a bank is a system used by banks or other
financial institutions to determine whether a customer is feasible or not worthy of
a loan. From this credit assessment, the bank will find out about the customer's
loan history, whether the customer is feasible or not eligible to get the next loan
and whether the customer is a good creditor or bad creditor. However, with very
much data it will be more complicated to determine whether the loan is approved
or not, especially if done manually and also takes a long time if done manually,
besides unbalanced credit data is also considered a serious problem.
Therefore a grouping for customers is needed to assess whether it is
appropriate or not feasible in applying for credit. This grouping uses the
agglomerative hierarchical clustering method with three calculations, namely
single linkage, average linkage, and complete linkage, where before starting the
grouping of customer data, XYZ bank will do the pre-processing stage first,
starting from feature selection to normalization. After the pre-processing stage is
complete, then go to the clustering stage by first calculating the distance with the
Euclidean distance and for the next data will be clustered with the 3
agglomerative hierarchical clustering calculations mentioned earlier. The output
of the clustering is dendrogram which is a tree-shaped diagram that shows the
degree of equality between members of a group. By using confusion matrix, it
will be produced that clustering the AHC method with the calculation of complete
linkage gets better accuracy than the single linkage and average linkage.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
Daftar isi
JUDUL ................................................................................................................................i
HALAMAN PERSETUJUAN PEMBIMBING ................ Error! Bookmark not defined.
HALAMAN PENGESAHAN ...........................................................................................iv
HALAMAN PERSEMBAHAN ......................................................................................... v
PERNYATAAN KEASLIAN KARYA ............................................................................vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI .......................................... vii
ABSTRAK ..................................................................................................................... viii
ABSTRACT......................................................................................................................ix
KATA PENGANTAR ....................................................................................................... x
Daftar isi ...........................................................................................................................xi
Daftar Gambar ............................................................................................................... xiii
Daftar Tabel .................................................................................................................... xiv
BAB I PENDAHULUAN .............................................................................................. 1
1.1 Latar Belakang ................................................................................................... 1
1.2 Rumusan Masalah .............................................................................................. 3
1.3 Tujuan Penelitian................................................................................................ 3
1.4 Manfaat Penelitian.............................................................................................. 3
1.5 Batasan Masalah ................................................................................................. 4
1.6 Sistematika Penulisan ......................................................................................... 4
BAB II LANDASAN TEORI ......................................................................................... 6
2.1 Knowledge Discovery in Database ..................................................................... 6
2.2 Pengertian Clustering ....................................................................................... 11
2.3 Pengertian Hierarchical Clustering ................................................................... 12
2.4 Agglomerative Hierarchical Clustering ............................................................ 13
2.5 Uji Akurasi ....................................................................................................... 16
2.6 Bank ................................................................................................................. 19
2.6.1 Credit Scoring ................................................................................................ 19
BAB III METODE PENELITIAN ................................................................................. 22
3.1 Gambaran Umum ................................................................................................ 22
3.2 Data ........................................................................................................................ 23
3.3 Pre-processing .................................................................................................. 25
3.4 Hitung Jarak ........................................................................................................... 29
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
3.5 Agglomerative Hierarchical Clustering ................................................................. 30
3.6 Perhitungan Akurasi ......................................................................................... 34
3.7 Desain User Interface ....................................................................................... 40
3.8 Kebutuhan Perangkat Lunak dan Perangkat Keras ........................................... 41
BAB IV IMPLEMENTASI DAN ANALISA ................................................................ 42
4.1 Implementasi .......................................................................................................... 42
4.1.1 Pengolahan Data ............................................................................................. 42
4.1.2 Clustering ....................................................................................................... 42
4.2 User Interface ................................................................................................. 46
4.2.1 Input data........................................................................................................ 47
4.2.2 Pre-processing ................................................................................................ 48
4.2.3 Silhouette Index .............................................................................................. 48
4.2.4 Proses AHC dan Akurasi ................................................................................ 48
4.2.5 Analisa Hasil .................................................................................................. 49
BAB V PENUTUP ........................................................................................................ 55
5.1 Kesimpulan ...................................................................................................... 55
5.2 Saran ................................................................................................................ 55
DAFTAR PUSTAKA ..................................................................................................... 56
LAMPIRAN..................................................................................................................... 57
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
Daftar Gambar
Gambar 2. 1 Knowledge Discovery in Database (Fayyad, 1996) ........................... 7
Gambar 2. 2 Pengelompokan cluster dendogram dan kedekatan data
(Tan,Steinbach,dkk 2004) ..................................................................................... 13
Gambar 2. 3 Single Linkage.................................................................................. 15
Gambar 2. 4 contoh Complete-linkage ................................................................. 15
Gambar 2. 5 Contoh Average-linkage .................................................................. 16
Gambar 3. 1 Blok diagram proses program .......................................................... 22
Gambar 3. 2 Dendrogram Single Linkage ............................................................ 31
Gambar 3. 3 Dendrogram Complete Linkage ....................................................... 31
Gambar 3. 4 Dendrogram Average Linkage ......................................................... 32
Gambar 3. 5 Data sampel yang digunakan untuk perhitungan silhouette index ... 34
Gambar 3. 6 Data cluster 0 sebelum proses hitung jarak ...................................... 34
Gambar 3. 7 Data cluster 1 sebelum proses hitung jarak ...................................... 35
Gambar 3. 8 User Interface ................................................................................... 40
Gambar 4. 1 Implementasi- Dendrogram Single Linkage .................................... 44
Gambar 4. 2 Implementasi- Dendrogram Average Linkage ................................. 45
Gambar 4. 3 Implementasi- Dendrogram Complete Linkage ............................... 46
Gambar 4. 4 Tampilan keseluruhan sistem ........................................................... 47
Gambar 4. 5 Implementasi – input data ................................................................ 48
Gambar 4. 6 Implementasi – Pre-processing ........................................................ 48
Gambar 4. 7 Tampilan silhouette index ................................................................ 48
Gambar 4. 8Implementasi - Hasil proses AHC dan Confusion Matrix ............... 49
Gambar 4. 9 Hasil rata-rata Silhouette index pada data ........................................ 52
Gambar 4. 10 Hasil cluster menggunakan k-means clustering ............................. 53
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
Daftar Tabel
Tabel 2. 1 Tabel confusion matrix ........................................................................ 18
Tabel 3. 1 Penjelasan atribut ................................................................................. 23
Tabel 3. 2 Hasil perankingan atribut ..................................................................... 25
Tabel 3. 3 Normalisasi beberapa data menggunakan metode Min-Max .............. 27
Tabel 3. 4 Similarity Matriks ................................................................................ 30
Tabel 3. 5 Contoh Cluster Single Linkage ............................................................ 32
Tabel 3. 6 Contoh Cluster Complete Linkage ....................................................... 33
Tabel 3. 7 Contoh Cluster Average Linkage ......................................................... 33
Tabel 3. 8 Hasil hitung jarak cluster 0 dengan Euclidean distance ....................... 35
Tabel 3. 9 Hasil hitung jarak cluster 1 dengan Euclidean distance ...................... 35
Tabel 3. 10 Hasil nilai ai untuk cluster 0 .............................................................. 37
Tabel 3. 11 Hasil nilai ai untuk cluster 1 .............................................................. 37
Tabel 3. 12 Hasil hitung jarak dari cluster 0 ke cluster 1 ...................................... 38
Tabel 3. 13 Hasil hitung jarak dari cluster 1 ke cluster 0 ...................................... 38
Tabel 3. 14 Hasil nilai 𝑏𝑖 pada cluster 0.............................................................. 38
Tabel 3. 15 Hasil nilai 𝑏𝑖 pada cluster 1............................................................... 39
Tabel 3. 16 Hasil nilai 𝑆𝐼 pada cluster 0 .............................................................. 39
Tabel 3. 17 Hasil nilai 𝑆𝐼 pada cluster 1 .............................................................. 40
Tabel 4. 1 Hasil akurasi tiga pendekataan ............................................................. 50
Tabel 4. 2 Confusion matrix single linkage .......................................................... 50
Tabel 4. 3 confusion matrix average linkage ........................................................ 50
Tabel 4. 4 confusion matrix complete linkage ..................................................... 51
Tabel 4. 5 tabel confusion matrix k-means clustering .......................................... 54
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Seperti yang telah diatur dalam UU RI nomor 10 tahun 1998 tentang perbankan
(pasal 1 ayat 2), Bank adalah badan usaha yang menghimpun dana dari
masyarakat dalam bentuk simpanan dan menyalurkannya kepada masyarakat
dalam bentuk kredit dan atau bentuk-bentuk lainnya dalam rangka meningkatkan
taraf hidup rakyat banyak. Peranan bank sebagai lembaga keuangan tidak terlepas
dari kredit. Kata credit berasal dari bahasa latin yaitu credere yang berarti
kepercayaan (Ardela 2017). Pemilik uang atau barang (kreditor) memberi
kepercayaan kepada pihak peminjam (debitor) untuk menggunakan uang atau
barangnya selama waktu tertentu. Peminjaman ini disertai pula dengan
kepercayaan bahwa sang debitor dapat mengembalikan uang atau barang yang
dipinjamkan. Dengan demikian, kredit adalah pemberian pemakaian suatu uang
atau barang kepada orang lain dalam jangka waktu tertentu dengan jaminan atau
tanpa jaminan, dengan pemberian jasa bunga atau tanpa bunga.
Menurut UU. No.10 Tahun 1998 tentang perbankan, disebutkan bahwa
kredit adalah suatu penyediaan uang atau tagihan yang dapat disamakan dengan
itu, berdasarkan persetujuan atau kesepakatan pinjam-meminjam antara bank dan
pihak lain yang mewajibkan pihak peminjam untuk melunasi utangnya setelah
jangka waktu tertentu dengan pemberian bunga. Dari uraian ini dapat kita
simpulkan bahwa kredit diberikan kepada seseorang atau lembaga dengan
pertimbangan kepercayaan,resiko,waktu dan prestasi. Kepercayaan berarti kredit
yang diberikan akan dikembalikan dalam jangka waktu yang telah disepakati
beserta imbalan (prestasi) dari pemberi kredit tersebut. Resiko antara lain
mengacu pada kenyataan bahwa nilai uang sekarang akan berbeda dengan nilai
uang ketika dikembalikan. Resiko lainnya muncul jika keputusan salah dibuat
ketika mengkonfirmasi permintaan peminjam. Maka dari itu, risiko kredit
merupakan salah satu tantangan yang mungkin dihadapi oleh lembaga keuangan,
dan dibutuhkannya credit scoring untuk mengatasi resiko tersebut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
Credit score atau penilaian kredit adalah sistem yang digunakan oleh bank
atau lembaga pembiayaan lainnya untuk menentukan apakah nasabah layak atau
tidak layak mendapatkan pinjaman (Ramdani,2017). Dari penilaian kredit ini bank
akan mengetahui tentang sejarah pinjaman nasabah, seperti mengenai bagaimana
siklus pembayaran tagihan, apakah nasabah membayar tagihan tepat waktu atau
tidak, berapa banyak kredit yang masih atau pernah dimiliki. Selain membantu
bank menentukan apakah pinjaman nasabah disetujui atau tidak, credit score juga
menentukan berapa besarnya pinjaman yang akan nasabah peroleh, berapa jangka
waktu yang nasabah dapatkan serta berapa besarnya bunga pinjaman yang
dikenai.Namun, dengan data yang sangat banyak akan lebih rumit menentukan
apakah pinjaman nasabah disetujui atau tidak terutama bila dikerjakan secara
manual dan juga memakan waktu yang lama apabila dikerjakan secara manual,
selain itu data kredit yang tidak seimbang juga dianggap sebagai masalah serius.
Oleh karena itu, untuk mempermudahkan dalam penentuan pinjaman nasabah
dengan data yang banyak dan untuk mengurangi waktu pengerjaan maka
diperlukan suatu sistem yang dapat menangani masalah tersebut. Sistem yang
akan dibuat diharapkan dapat membantu mengatasi masalah credit scoring dalam
menentukan good creditor dan bad creditor. Sistem ini berupa sistem informasi
pengelompokan credit scoring bagi nasabah pada bank xyz dengan menggunakan
metode Agglomerative Hierarchical Clustering.
Sistem ini nantinya berfungsi untuk mengelompok kan data-data nasabah
yang sangat banyak menjadi beberapa kelompok. Sistem ini juga nantinya
berguna untuk memperkecil resiko kegagalan yang terkait dengan keputusan
kredit. Selain itu, sistem ini juga diharapkan dapat menentukan good creditor
maupun bad creditor dengan akurasi yang lebih baik. Penelitian ini menggunakan
jenis clustering dalam data mining, dimana clustering itu sendiri merupakan
sebuah proses untuk mengelompokan data ke dalam beberapa cluster atau
kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang
maksimum dan data antar cluster memiliki kemiripan yang minimum (Tan,2016).
Cluster dapat disebut juga sebagai koleksi objek data yang memiliki kesamaan
satu sama lain dalam kelompok yang sama dan berbeda dengan objek dikelompok
lain. Clustering merupakan suatu kumpulan dari keseluruhan cluster (H.G
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
Wilson,2009). Beberapa tipe Clustering adalah, Partitional vs Hierarchical,
Exclusive vs non-exclusive, Fuzzy vs non-fuzzy dan Partial vs Complete. Untuk
penelitian ini sendiri menggunakan tipe clustering hierarchical.
Penelitian ini menggunakan metode agglomerative hierarchical clustering
karena dari beberapa jurnal yang menjadi referensi, pengelompokan dan akurasi
yang menggunakan metode ini mendapatkan hasil yang cukup baik.
1.2 Rumusan Masalah
Berdasarkan dari permasalahan yang telah dijabarkan sebelumnya maka
ditemukan masalah yang diangkat kedalam penelitian tugas akhir ini :
1. Bagaimana mengimplementasikan pendekatan agglomerative hierarchical
clustering untuk pengelompokkan good creditor atau bad creditor pada data
set suatu bank secara otomatis.
2. Apakah pendekatan hierarchical clustering mampu mengelompokkan good
creditor atau bad creditor dengan baik.
1.3 Tujuan Penelitian
Berikut tujuan penelitian yang di harapkan :
1. Tersedianya sistem pengelompokan credit scoring bagi nasabah bank xyz
dengan menggunakan algoritma hierarchical clustering.
2. Mengetahui besar akurasi dari sistem yang dibangun dalam pengelompokan
credit scoring bank xyz.
1.4 Manfaat Penelitian
Dengan adanya tujuan dari penelitian diatas, maka diharapkan dapat
bermanfaat bagi semua pihak. Manfaat penelitian ini yaitu :
1. Membantu bank dalam mengetahui sistem pengelompokan credit scoring
bagi nasabah bank dengan menggunakan algoritma hierarchical clustering
2. Menambah pengetahuan dan pengalaman tentang pengelompokkan credit
scoring dari data nasabah bank dengan menggunakan algoritma
agglomerative hierarchical clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
3. Hasil dari penelitian ini dapat dijadikan bahan rujukan bagi semua ilmu
yang berhubungan dengan penelitian dan dapat menjadi referensi bagi
mahasiswa yang melakukan kajian terhadap algoritma ini.
1.5 Batasan Masalah
Dalam tugas akhir ini terdapat beberapa batasan yang dijadikan dasar dalam
pengerjaannya :
1. Algoritma yang digunakan dalam penelitian sistem pengelompokkan credit
scoring bagi nasabah bank xyz adalah algoritma hierarchical clustering.
2. Data yang digunakan dalam penelitian ini adalah dataset credit scoring dari
bank xyz.
1.6 Sistematika Penulisan
Untuk memberikan gambaran dan kerangka yang jelas pada tiap bab dalam
penelitian ini. Maka diperlukan sistematika penulisan. Berikut ini gambaran
sistematika penulisan dalam masing-masing bab:
BAB I PENDAHULUAN
Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,
manfaat penelitian, batasan masalah dan sistematika penulisan
BAB II LANDASAN TEORI
Bab ini menjelaskan tentang landasan teori yang berhubungan dengan
penelitian yang akan dilakukan untuk memecahkan masalah yang diteliti.
BAB III METODE PENELITIAN
Bab ini berisi tentang metode pengumpulan data, teknik analisa data,
rancangan user interface, dan kebutuhan software serta hardware.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB IV IMPLEMENTASI SISTEM DAN ANALISA HASIL
BAB V Bab ini berisi tentang implementasi program serta analisa sistem
pengelompokan, capaian belajar dengan algoritma agglomerative hierarchical
clustering
BAB V KESIMPULAN DAN SARAN
Bab ini berisi tentang kesimpulan dari keseluruhan proses pembuatan tugas
akhir dan saran pengembangan lebih lanjut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II
LANDASAN TEORI
Bab ini berisi tentang penjelasan teori-teori yang berhubungan dengan
penulisan tugas akhir ini. Agar sebuah penelitian dapat berhasil dibutuhkan
referensi sebagai landasan teori, selain itu landasan teori dapat mempertanggung
jawabkan hasil akhir dari penelitian ini.
2.1 Knowledge Discovery in Database
Knowledge Discovery and Data Mining(KDD) adalah proses yang dibantu
oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data
dan mengekstrak informasi dan pengetahuan yang berguna. Data mining
tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk
membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data mining
tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama
untuk diselesaikan. Data mining tools menjelajah database untuk mencari pola
tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para
pakar karena berada di luar ekspektasi mereka. Tahapan yang dilakukan pada
proses data mining diawali dari seleksi data dari data sumber ke data target, tahap
preprocessing untuk memperbaiki kualitas data, transformasi, data mining serta
tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan
baru yang diharapkan memberikan kontribusi yang lebih baik. Secara detail
dijelaskan sebagai berikut (Fayyad, 1996):
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
Gambar 2. 1 Knowledge Discovery in Database (Fayyad, 1996)
1. Data Selection
Seleksi dari sekumpulan data operasional perlu dilakukan sebelum ke tahap
penggalian informasi pada KDD dimulai. Hasil dari seleksi data ini digunakan
sebagai proses data mining, disimpan dalam suatu berkas dan terpisah dari basis
data operasional. Selain itu, tujuan dari seleksi data adalah menciptakan himpunan
data target, pemilihan himpunan data, atau memfokuskan pada subset variabel
atau sampel data, dimana penemuan (discovery) akan dilakukan. Pada
penelitian ini proses data selection dilakukan menggunakan information gain.
Rumus menghitung information gain (Han et al.,2012) :
𝐼𝑛𝑓𝑜 (𝐷) = −∑1=1𝑚 pi log2(pi)…… (2.1)
Keterangan :
D : Jumlah seluruh sampel data
M : jumlah nilai pada atribut target (jumlah kelas klasifikasi).
I : Maksimal nilai pada atribut target.
Pi : probabiltas munculnya kelas ke i
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
Info A (D) = ∑𝑗=1𝑣
|𝐷𝑗|
𝐷 X Info (Di) (2.2)
Keterangan:
A : Atribut
v : Suatu nilai yang mungkin untuk atribut A.
J : Maksimal nilai yang mungkin untuk atribut A.
D : Jumlah seluruh sampel data.
|Dj|: Jumlah sampel untuk nilai j.
Di : jumlah sampel untuk kelas i.
Kemudian nilai information gain yang digunakan untuk mengukur efektifitas
suatu atribut dalam pengklasifikasin data dapat dihitung dengan rumus di bawah
ini :
Gain (A) = |Info(D) – InfoA(D)| (2.3)
Keterangan :
A : Atribut.
Info (D) : Entropi untuk kelas D.
InfoA(D) : Entropi untuk kelas D pada atribut A.
2. Pre-processing / Cleaning
Sebelum proses data mining dilakukan, maka terlebih dahulu melakukan proses
cleaning pada data. Proses cleaning mencakup antara lain membuang duplikasi
data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data,
seperti kesalahan cetak (tipografi). Dilakukan pula proses enrichment, yaitu
proses memperkaya data yang sudah ada dengan data atau informasi lain yang
relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
3. Transformation
Tahap ini merupakan proses mentransformasi data ke dalam bentuk yang
dibutuhkan agar selanjutnya beralih ke tahap data mining. Jadi, pada tahap
transformasi ini dilakukan beberapa perubahan pada atribut-atribut yang
bentuknya masih belum sesuai untuk melakukan penggalian.
4. Data mining
Data Mining adalah kegiatan untuk menemukan informasi atau
pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar.
Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya
klasifikasi, regresi, clustering, dll. Pemilihan algoritma data mining untuk
pencarian (searching). Proses Data mining yaitu proses mencari pola atau
informasi menarik dalam data terpilih dengan menggunakan teknik atau
metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses KDD secara keseluruhan. Di dalam data mining terdapat 2
pendekatan untuk melakukan teknik-teknik data mining. Dua pendekatan
tersebut akan dijelaskan sebagai berikut (Chandra, 2017):
A. Supervised Learning
Merupakan sebuah pendekatan dimana sudah terdapat data yang dilatih,
dan terdapat variabel yang ditargetkan sehingga tujuan dari pendekatan ini
adalah mengelompokkan suatu data ke data yang sudah ada. Algoritma
Supervised learning :
Decision tree
Decision tree atau pohon keputusan adalah pohon yang digunakan
sebagai prosedur penalaran untuk mendapatkan jawaban dari masalah yang
dimasukkan (Prasetyo, 2012).
Nearest – Neighbor Classifier
Nearest Neighbor melakukan klasifikasi berdasarkan kemiripan suatu data
dengan data yang lain (Tan et al,2005).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
Naïve Bayes Classifier
Metode Naive Bayes bekerja secara fitur independen yang artinya sebuah
fitur dalam sebuah data tidak berkaitan dengan ada atau tidaknya fitur yang
lain dalam data yang sama (Prasetyo, 2012).
Artifical Neural Network
Artifical Neural Network (ANN) merupakan suatu konsep rekayasa
pengetahuan dalam bidang kecerdasan buatan yang didesain dengan
mengadopsi sistem saraf manusia, di mana pemrosesan utama sistem saraf
manusia ada di otak (Shepherd dan Koch, 1990)
Support Vector Machine
Metode ini berakar dari teori pembelajaran stastistik dan menggunakan
teknik kernel yang harus memetakan data asli dari dimensi asalnya menjadi
dimensi lain yang relative tinggi (Prastyo, 2012)
Fuzzy K-Nearest Neighbor
Fuzzy K-NN merupakan salah satu metode klasifikasi dengan
menggabungkan teknik Fuzzy dan K-NN. Metode ini tidak seperti metode lain
yang mana pada metode ini akan secara tegas memprediksi kelas yang diikuti
oleh data uji berdasarkan perbandingan K terdekat. Dasar dari algoritma FK-
NN adalah untuk menetapkan nilai keanggotaan sebagai fungsi jarak vektor
dari KNN dan keanggotaan tetangga mereka di kelas kelas yang
memungkinkan
B. Unsupervised Learning
Merupakan sebuah pendekatan yang tidak memiliki data latih, sehingga
dari data yang ada dapat dikelompokkan menjadi 2 bagian atau 3 bagian dan
seterusnya. Algoritma Unsupervised Learning :
K-Means
Algortima K-Means merupakan algoritma pengelompokan iteratif yang
melakukan partisi set data ke dalam sejumlah K cluster yang sudah ditetapkan
di awal. Algortima K-Means sederhana untuk diimplementasikan dan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
dijalankan, relatif cepat, mudah beradaptasi, umum penggunaannya dalam
praktek (Wulan dan Kumar, 2009).
Hierarchical Clustering
Merupakan metode pengelompokkan berbasis hierarki dengan pendekatan
bottom up, yaitu proses pengelompokkan dimulai dari masing-masing data
sebagai satu buah cluster, kemudian secara rekursif mencari cluster terdekat
sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar
(Prasetyo, 2013)
DBSCAN
Menurut Eko P. (2012), Density-Based Spatial Clustering of Applications
with Noise (DBSCAN) merupakan algoritma pengelompokan yang didasarkan
pada kepadatan (density) data. Konsep kepadatan yang dimaksud dalam
DBSCAN adalah jumlah data yang berada dalam radius Eps (ԑ) dari setiap
data.
Fuzzy C-Means
Fuzzy C-Means adalah suatu teknik peng-cluster-an yang mana keberadaannya
tiap-tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan
(Bezdek, Jim,1981).
Dalam penelitian ini metode yang digunakan termasuk dalam kelompok
unsupervised learning.
C. Interpretation / Evaluation
Tahap ini merupakan bagian dari proses KDD yang mencakup
pemeriksaan apakah pola atau informasi yang ditemukan bertentangan
dengan fakta atau hipotesa yang ada sebelumnya. Jika pola atau informasi yang
dihasilkan masih bertentangan dengan fakta, maka perlu dilakukan pengkajian
ulang pada data dan proses yang dilakukan.
2.2 Pengertian Clustering
Clustering atau klasterisasi adalah metode pengelompokan data.
Clustering dapat dimengerti juga sebagai metode yang berfungsi untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
mengelompokkan obyek yang sama menjadi satu kelompok (cluster), sedangkan
obyek yang berbeda di cluster yang berbeda pula. Cluster bertujuan untuk
menemukan kemiripan (similarity) antara data ( Situmorang, 2015). Kemiripan
yang dimaksud berkaitan dengan karakteristik yang ditemukan di dalam data
tersebut, contohnya berdasarkan nilai atribut dari obyek dan dapat juga berupa
perhitungan jarak. Dengan demikian akan terbentuk kelompok-kelompok data di
mana masing-masing kelompok mengandung data yang memiliki kedekatan
karakteristik. Clustering (pengelompokan) disebut juga sebagai unsupervised
learning atau pembelajaran tidak terbimbing karena mengelompokkan data
berdasarkan kemiripan/ketidakmiripan antar-data tanpa ada label kelas yang
diketahui sebelumnya. Cluster analysis merupakan proses pemisahan satu set
objek data ke dalam himpunan bagian. Setiap himpunan bagian merupakan
cluster, sehingga tiap objek yang berada di dalam cluster mirip satu dengan yang
lainnya dan juga mempunyai perbedaan dengan objek dari cluster yang lain.
Pemisahan tidak dilakukan secara manual namun menggunakan algoritma
clustering.Terdapat dua jenis pendekatan dengan menggunakan clustering, yaitu
partition clustering dan hierarchical clustering. Di dalam tugas akhir ini
pendekatan yang digunakan adalah hierarchical clustering.
2.3 Pengertian Hierarchical Clustering
` Hierarchical clustering membuat pengelompokan data berdasarkan
tingkatannya. Dengan cara ini dapat dihasilkan suatu kumpulan partisi yang
berurutan dengan visualisasi dendogram yaitu sebuah pohon yang berfungsi
sebagai diagram yang mencatat urutan dari penggabungan atau pemisah seperti
pada gambar berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
Gambar 2. 2 Pengelompokan cluster dendogram dan kedekatan data
(Tan,Steinbach,dkk 2004)
Gambar pengelompokan cluster dendrogram dan kedekatan data diatas
menunjukkan bahwa obyek dengan tingkat similarity atau kemiripan yang tinggi
seperti p2,p3, dan p4 akan menjadi satu kelompok, begitu juga dengan data-data
lain yang memiliki tingkat kemiripan yang tinggi atau sama akan menjadi satu
kelompok. Secara singkat dapat dikatakan bahwa metode hierarchical clustering
bekerja untuk mengelompokkan obyek data ke dalam struktur cluster berdasarkan
kemiripannya. Sehingga, dengan menggunakan hierarchical clustering data yang
memiliki kemiripan berada di hierarki yang sama, begitu juga pada data yang
berbeda akan berada di hierarki yang berbeda pula (Situmorang, 2015). Ada dua
tipe utama hierarchical clustering, yaitu divisive (top-bottom) dan agglomerative
(bottom-up) namun pada penelitian ini menggunakan pendekatan agglomerative
hierarchical clustering. Pemilihan ini berdasarkan pada; pertama,algoritma
hierarchical clustering tampak lebih sederhana. Kedua, pengelompokkan data
dapat dilihat menggunakan dendogram. Ketiga, karena pendekatan ini
menggunakan desain bottom-up maka pengelompokan data dimulai dari yang
kecil kearah pengelompokan terbesar, desain ini sangat membantu untuk proses
pengenalan similaritas dengan pengelompokkan data.
2.4 Agglomerative Hierarchical Clustering
Agglomerative Hierarchical Clustering merupakan metode
pengelompokan berbasis hierarki dengan pendekatan bottom up, yaitu
proses pengelompokan dimulai dari masing-masing data sebagai satu
cluster, kemudian secara rekusif mencari cluster terdekat sebagai pasangan
untuk bergabung sebagai satu cluster yang lebih besar (Prasetyo,2014).
Proses tersebut diulang terus sehingga tampak bergerak ke atas
membentuk hierarki. Kunci operasi metode Agglomerative Hierarchical
Clustering adalah penggunaan ukuran kedekatan diantara dua cluster
(Hartini,2012). Ada tiga teknik yang dapat digunakan untuk menghitung
kedekatan diantara dua cluster dalam metode Agglomerative Hierarchical
Clustering yaitu Single linkage, Complete Linkage, dan Averange Linkage.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
Seperti juga halnya dengan partition-based clustering, bisa juga memilih
jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.
Pengelompokan berbasis hierarki sering ditampilkan dalam bentuk
grafis menggunakan diagram yang mirip pohon (tree) yang disebut dengan
dendrogram. Dendrogram merupakan diagram yang menampilkan
hubungan cluster dengan sub cluster nya dalam urutan yang mana cluster
yang digabung (agglomerative view ) atau dipecah (divisive view)
(Prasetyo,2014). Salah satu cara untuk mempermudah pengembangan
dendogram untuk hierarchical clustering ini adalah dengan membuat
similarity matrix yang memuat tingkat kemiripan antar data yang
dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam
cara seperti dengan Euclidean distance. Berawal dari similarity matrix ini,
akan diketahui jenis mana yang akan digunakan untuk mengelompokkan
data yang dianalisa dengan menggunakan linkage. Berikut adalah langkah
dalam pengelompokkan dengan agglomerative clustering (Prasetyo,2013):
1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan
2. Ulangi langkah 3 sampai 4, hingga hanya satu cluster yang tersisa
3. Gabungkan 2 cluster terdekat berdasarkan parameter kedekatan yang
ditentukan
4. Perbarui matriks kedekatan untuk merefleksikan kedekatan di antara
cluster baru dan cluster yang tersisa
untuk perhitungan jarak Single-linkage, Complete-linkage dan Average-
linkage seperti pada rumus berikut:
a. Single-linkage menentukan kedekatan diantara dua data
terdekat(terkecil) antara dua data cluster yang berbeda, dapat didefenisikan
sebagai berikut :
duv = min{duv} (2.4)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Keterangan:
- {duv} adalah jarak antara data U dan V dari masing-masing cluster U dan
V. Pada contoh gambar single linkage dibawah memberikan hasil bila
cluster-cluster digabungkan menurut jarak antara anggota-anggota yang
paling dekat di antara dua cluster.
Gambar 2. 3 Single Linkage
b. Complete-linkage menentukan kedekatan diantara dua data dari jarak
terjauh(terbesar) antara dua data cluster yang berbeda, dapat didefenisikan
sebagai berikut :
duv = max{duv} (2.5)
Keterangan:
- {duv} adalah jarak antara data U dan V dari masing-masing cluster U dan
V. Pada contoh gambar complete linkage dibawah memberikan hasil bila
kelompok-kelompok digabungkan menurut jarak antara anggota-anggota
yang paling jauh di antara dua cluster.
Gambar 2. 4 contoh Complete-linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
c. Average-linkage menentukan kedekatan diantara dua data dari jarak
rata-rata antara dua data cluster yang berbeda. Dapat didefenisikan sebagai
berikut :
duv = 1
|U|∗|V|ƩU𝜖DƩV𝜖D
d UV (2.6)
Keterangan
- |U| dan |V| adalah jumlah data yang ada dalam cluster U dan V. Pada
contoh gambar average linkage dibawah memberikan hasil bila kelompok-
kelompok digabungkan menurut jarak rata-rata antara pasangan-pasangan
anggota msing-masing pada himpunan di antara dua cluster.
Gambar 2. 5 Contoh Average-linkage
2.5 Uji Akurasi
Hasil clustering yang telah di didapat dengan menggunakan metode
agglomerative hierarchical clustering perlu diuji keakuratannya atau akurasinya
agar dapat diketahui validasi dari data tersebut. Validasi dalam clustering terdapat
2 jenis yaitu validasi internal dan validasi eksternal. Validasi internal sendiri
berupa : Davies-Boldin Index, silhouette Index, Dun Index, dan validasi Fuzzy
Clustering, untuk penulisan ini penulis menggunakan silhouette Index untuk
validasi internal karena lebih mudah untuk dipahami dan sesuai dengan data
penelitian. Sedangkan untuk jenis validasi eksternal berupa validasi Berorientasi
Klasifikasi, validasi Berorientasi Kemiripan, dan confusion matrix, penulis
memilih confusion matrix untuk validasi eksternal karena lebih mudah untuk
dipahami juga (Prasetyo E, 2012).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
1. Validasi Internal
Validasi internal atau yang dikenal dengan unsupervised validation
merupakan penguji data cluster tanpa membutuhkan informasi eksternal atau
dari luar. Contoh dari validasi ini adalah silhouette index. Silhouette index(SI)
dapat digunakan untuk memvalidasi baik sebuah data, cluster tunggal (satu
cluster dari sejumlah cluster), atau bahkan keseluruhan cluster. Untuk
menghitung nilai dari SI dari data ke-i, terdapat dua komponen yaitu ai dan bi,
ai adalah jarak dari data ke-i terhadap semua data dalam cluster yang sama.
Sedangkan bi adalah hasil rata-rata jarak data ke-i terhadap semua data dari
cluster lain. Nilai SI yang didapat dalam rentang [-1,+1]. Nilai SI yang
mendekati 1 menandakan bahwa data tersebut semakin tepat berada di dalam
cluster tersebut( karena lebih dekat ke cluster yang lain). SI bernilai 0 (atau
mendekati 0) berarti data tersebut diposisinya berada di perbatasan di antara
dua cluster (Prasetyo E, 2012). Berikut merupakan rumus yang digunakan
untuk menghitung ai :
𝑎𝑖𝑗
=1
𝑚𝑗−1∑ 𝑑(𝑥𝑖
𝑗,
𝑚𝑗𝑟=1
𝑟≠𝑖
𝑥𝑟𝑗) (2.7)
𝑑(𝑥𝑖𝑗 , 𝑥𝑟
𝑗) merupakan jarak data ke-i dengan data ke-r dalam satu cluster,
sedangkan mj adalah jumlah data dalam satu cluster.
Berikut rumus bi:
(2.8)
Untuk menghitung SI data ke-i menggunakan persamaan :
𝑆𝐼𝑖𝑗 =
𝑏𝑖𝑗 − 𝑎𝑖
𝑗
max{𝑏𝑖𝑗 , 𝑎𝑖
𝑗}
(2.9)
𝑏𝑖𝑗 = 𝑚𝑖𝑛{
1
𝑚𝑛∑ 𝑑(𝑥𝑖
𝑗 ,𝑚𝑗𝑟=1
𝑟≠𝑖
𝑥𝑟𝑛)}
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
2. Validasi Eksternal
Berbeda dengan validasi internal yang menguji data cluster tanpa
membutuhkan informasi eksternal atau dari luar maka untuk validasi eksternal
sendiri membutuhkan informasi dari luar yang dimiliki setiap data yang
dikelompokkan. Menggunakan label kelas dalam validasi cluster adalah
berguna sebagai perbandingan teknik clustering dengan kebenaran dasar
(ground truth) atau evaluasi sejauh mana proses panduan klasifikasi dapat
secara otomatis dihasilkan oleh analisis cluster (Tan te al, 2006). Validasi
eksternal dilakukan dengan mengukur tingkat kedekatan antara label cluster
dengan label kelas. Validasi eksternal dapat dilakukan dengan menggunakan
confusion matrix sebagai berikut :
Tabel 2. 1 Tabel confusion matrix
Positif Negatif
Positif TP (True Positif) FN (False Negatif)
Negatif FP (False Positif) TN (True Negatif)
Confusion matrix menggunakan tabel 2.1 diatas menjelaskan jika dataset
hanya terdiri dari dua kelas. Satu kelas bernilai positif (true), sedangkan kelas
yang lain bernilai negatif (false). True positif adalah jumlah record positif yang
diklasifikasikan sebagai positif, false positif adalah jumlah record negatif yang
diklasifikasikan sebagai positif, false negatif adalah jumlah record positif yang
diklasifikasikan sebagai negatif, dan true negatif adalah jumlah record negatif
yang diklasifikasikan sebagai negatif (Bramer,2007).
Untuk menghitung akurasi maka digunakan persamaan (Prasetyo,2012):
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100 % (2.10)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
Keterangan :
TP = Jumlah positif yang diklasifikasi sebagai positif
TN = Jumlah negatif yang diklasifikasi sebagai negatif
FP = Jumlah negatif yang diklasifikasikan sebagai positif
FN = Jumlah positif yang diklasifikasikan sebagai negatif
2.6 Bank
Menurut UU RI nomor 10 Tahun 1998 tanggal 10 November 1998 tentang
perbankan (pasal 1 ayat 2), bank adalah sebuah badan usaha yang menghimpun
dana dari masyarakat dalam bentuk simpanan dan menyalurkannya kepada
masyarakat dalam bentuk kredit dan atau bentuk-bentuk lain dengan tujuan untuk
meningkatkan taraf hidup orang banyak. Dijelaskan lebih lanjut dalam pasal 1
ayat 3 bahwa bank umum adalah bank yang melaksanakan kegiatan-kegiatan
konvensional maupun secara syariah dalam kegiatannya memberikan jasa
keuangan dalam lalu lintas pembayaran. Salah satu produk jasa keuangan yang
dimiliki bank yang dapat digunakan oleh masyarakt umum adalah kredit. Kredit
adalah hak untuk menerima pembayaran atau kewajiban melakukan pembayaran
pada waktu diminta atau pada waktu yang akan datang, karena penyerahan
barang-barang pada waktu sekarang ( Brymont P.Kent ). Sebelum bank menerima
pengajuan kredit dari nasabah bank akan melihat credit scoring atau penilaian
kredit nasabah tersebut. Penilaian kredit atau credit scoring ini sangat berguna
bagi bank untuk menentukan pengajuan kredit nasabah dapat diterima atau tidak,
selain itu credit scoring juga dapat melihat sejarah pinjaman nasabah, apakah
nasabah tersebut termasuk bad atau good creditor.
2.6.1 Credit Scoring
Credit scoring atau penilaian kredit adalah sistem yang digunakan oleh bank
atau lembaga pembiayaan lainnya untuk menentukan apakah nasabah layak atau
tidak mendapatkan pinjaman (Ramdani,2017). Dari penilaian kredit ini bank akan
mengetahui tentang sejarah pinjaman nasabah, seperti mengenai bagaimana siklus
pembayaran tagihan, apakah nasabah membayar tagihan tepat waktu atau tidak,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
berapa banyak kredit yang masih atau pernah dimiliki.
Semua data itu membantu bank dalam menganalisa permohonan kredit
calon nasabahnya selain faktor-faktor kualitatif lainnya. Selain itu, dengan credit
score kreditur dapat membandingkan informasi debitur dengan kinerja pinjaman
nasabah lain dengan profil yang sama. Selain membantu bank menentukan apakah
pinjaman disetujui atau tidak, credit score juga menentukan berapa besarnya
pinjaman yang akan diperoleh, berapa jangka waktu yang didapatkan serta berapa
besarnya bunga pinjaman yang dikenai. Jika ternyata hasil credit scoring kecil,
maka kemungkinan masih dapat memperoleh pinjaman tetapi dengan bunga yang
lebih tinggi, atau diharuskan memberikan jaminan/ agunan.
Untuk memudahkan pengajuan, credit score harus terlihat baik di mata
bank, tidak memiliki credit score atau sejarah kredit lebih baik namun ini pun
bukan berarti pengajuan pinjaman menjadi lebih mudah. Setiap bank punya
perhitungan dan metode analisis yang berbeda-beda ketika melihat kualitas
debitur. Ada beberapa hal yang bisa dilakukan untuk menjaga dan meningkatkan
reputasi credit score. Berikut adalah beberapa tips untuk membantu
meningkatkannya (Widya reni, 2016):
a. Gunakan kartu kredit secara teratur
Penggunaan kartu kredit memberi pengaruh besar terhadap tingkat credit
score . Kartu kredit idealnya ialah pengganti uang tunai sebagai alat
pembayaran. Jadi, kalau tidak pernah menggunakan kartu kredit, maka tentu
tidak ada data yang terekam. Nasabah bisa mulai menggunakan kartu kredit
sebagai alat pembayaran, terutama barang dengan harga terbilang mahal,
seperti pembayaran pesawat dan hotel, atau membeli alat elektronik. Setelah itu
barulah gunakan kartu kredit pembayaran yang lebih kecil seperti makan di
restoran dan perlahan reputasi kreditmu akan terbentuk.
b. Jangan menunggak tagihan
Ketika menggunakan kartu kredit jangan biasakan diri untuk menunggak
tagihan. Tingkat kolektabilitas kredit nasabah merupakan salah satu cara bank
menilai kualitas kredit seseorang. Tingkat ini terbagi menjadi lima, yakni
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
lancar, dalam perhatian khusus, kurang lancar, diragukan dan macet.
Bagi pengguna kartu kredit upayakan untuk membayar tagihan 10% terlebih
dahulu dari total tagihan bulanan. Namun jika mampu membayar penuh itu
akan lebih baik untuk menghindari bunga yang tinggi setiap bulannya. Begitu
pula dengan angsuran pinjaman, selalu upayakan untuk membayar tepat waktu.
c. Ambil jeda kredit ditolak
Berikan jeda beberapa bulan ketika proses pengajuan pinjaman atau kartu
kredit ditolak. Saat masa jeda ini, bisa dilihat kembali apa yang salah.
Misalnya, mengajukan kredit lebih dari 30% dari pendapatan, atau masih
punya cicilan lain. Saat menunggu masa jeda ini, fokuslah untuk melunasi
utang-utang yang ada. Kemudian bisa juga mengajukan permohonan kartu
kredit berlimit rendah terlebih dahulu. Langkah ini akan membantu
meningkatkan skor dan memberikan indikasi positif kepada bank bahwa
debitur dapat dipercaya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
BAB III
METODE PENELITIAN
Pada bab 3 ini berisikan metodologi yang digunakan pada penulisan, di bab
ini akan dijelaskan metode pengumpulan data, analisa data, rancangan user
interface, dan spesifikasi software dan hardware yang digunakan dalam
implementasi program.
3.1 Gambaran Umum
Berikut pembuatan sistem pengelompokan credit scoring dengan metode
agglomerative hierarchical clustering (AHC) untuk menguji apakah metode ini
bagus untuk data nasabah bank XYZ dalam bentuk diagram blok.
Gambar 3. 1 Blok diagram proses program
Blok diagram pada gambar 3.1 diatas menjelaskan kerja sistem pada
penelitian ini dengan pertama kali menginputkan data yang diperoleh dari arsip
nasabah bank dan akan di proses ke tahap pre-processing mulai dari data selection
hingga transformasi. Seleksi atribut pada penelitian ini berguna untuk melihat
atribut yang relevan untuk digunakan dalam penelitian dengan melakukan
perankingan. Transformasi data pada tahap pre-processing berguna untuk
memberi penskalaan pada data. Setelah melalui tahap pre-processing, data akan
dibawa ke tahap hitung jarak, dimana untuk menghitung jarak metode yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
digunakan adalah Euclidean distance dan akan menghasilkan matrix similarity.
Selanjutnya data akan masuk ke proses cluster dengan menggunakan metode
agglomerative hierarchical clustering dengan 3 pendekatan yaitu single(minimal),
complete(maksimal), average. Ketiga pendekatan tersebut nantinya akan
menghasilkan output berupa dendrogram dan akurasi, dimana pendekatan yang
dapat dikatakan baik adalah pendekatan yang memiliki diagram dendrogram
yang cukup seimbang dan akurasi yang tertinggi dari tiap-tiap pendekatan.
3.2 Data
Data yang digunakan dalam penelitian ini diperoleh dari data salah satu
bank swasta yang berada di Indonesia dan berbentuk file .xls. Data ini
dikumpulkan dari beberapa riwayat transaksi nasabah pada bank tersebut. Data
yang digunakan dalam penelitian ini sebanyak 3000 data dengan memiliki 23
atribut dan 1 label kelas. Data ini dikumpulkan dari beberapa riwayat transaksi
nasabah pada bank tersebut. Adapun bentuk nilai dalam data penelitian ini adalah
berbentuk numerik. Berikut penjelasan dari 23 atribut dan 1 label kelas yang
terdapat dalam data.
Tabel 3. 1 Penjelasan atribut
No Atribut Keterangan
1 X Id nasabah
2 Jumlah_kartu jumlah kartu aktif yang dimiliki
pelanggan
3 Outstanding total saldo pemakaian kartu kredit
4 Limit_kredit Jumlah maksimum limit kartu
kredit yang dapat digunakan
5 Tagihan Jumlah tagihan pada bulan
terakhir
6 Total_pemakaian_tunai Total pemakaian transaksi tunai
pada bulan terakhir (cash
advance)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
7 Total_pemakaian_retail Total pemakaian transaksi retail
pada bulan terakhir
8 Sisa_tagihan_tidak_terbayar Jumlah tagihan yang tidak
terbayar pada bulan terakhir
9 Kode_cabang Tanda yang diberikan untuk
cabang-cabang bank
10 Rasio_pembayaran Rasio perbandingan jumlah yang
dibayar dengan tagihan pada
bulan terakhir
11 Persentasi_overlimit Persentasi overlimit
12 Rasio_pembayaran_3bulan Rata-rata rasio pembayaran 3
bulan terakhir
13 Rasio_pembayaran_6bulan Rata-rata rasio pembayaran 6
bulan terakhir
14 Skor_delikuensi
15 jumlah_tahun_sejak_pembukaan_kredit Jumlah tahun sejak pembukaan
kartu kredit pertama kali
16 total_pemakaian Total pemakaian kartu kredit
(tunai dan retail) pada bulan
terakhir
17 sisa_tagihan_per_jumlah_kartu Jumlah tagihan yang tidak
terbayar pada bulan terakhir
dibagi jumlah kartu aktif
18 sisa_tagihan_per_limit Jumlah tagihan yang tidak
terbayar pada bulan terakhir
dibagi total limit
19 total_pemakaian_per_limit Total pemakaian kartu kredit
(tunai dan retail) pada bulan
terakhir dibagi total limit
20 pemakaian_3bln_per_limit Rata-rata pemakaian selama 3
bulan terakhir dibagi total limit
21 pemakaian_6bln_per_limit Rata-rata pemakaian selama 6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
bulan terakhir dibagi total limit
22 utilisasi_3bulan Utilisasi kartu kredit selama 3
bulan terakhir
23 utilisasi_6bulan Utilisasi kartu kredit selama 6
bulan terakhir
24 Flag kredit macet Flag yang menandakan apakah
bad creditor atau good creditor.
bad creditor = 1
good creditor = 0
3.3 Pre-processing
Tahap selanjutnya setelah data di peroleh maka akan diolah pada tahap
pre-processing. Tahap pre-processing yang dilakukan sesuai dengan aturan KDD
yang sudah dijelaskan pada bab sebelumnya, dimana aturan KDD yang dilakukan
untuk data dalam penelitian ini adalah data selection dan transformasi. Berikut
proses aturan KDD yang dilakukan pada data :
Data Selection
Pada tahap ini data yang digunakan dalam penelitian memiliki 23
atribut akan di proses untuk memilih atribut yang relevan dan menghapus
atribut yang tidak relevan terhadap data di dalam penelitian, dimana
penulis menggunakan tools yang ada pada aplikasi Weka versi 3.8.3
dengan menerapkan metode Information Gain untuk melakukan
perankingan terhadap atribut yang ada pada data. Hasil dari penerapan
metode Information Gain pada Weka menghasilkan 17 atribut yang
relevan pada data dan memiliki ranking, yaitu :
Tabel 3. 2 Hasil perankingan atribut
No Ranking Atribut
1 1 Rasio_pembayaran
2 2 Total pemakaian retail
3 3 Total_pemakian_per_limit
4 4 Total_pemakaian
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
5 5 Rasio_pembayaran_3bulan
6 6 Utilisasi_3bulan
7 7 Tagihan
8 8 Outstanding
9 9 Sisa_tagihan_per_limit
10 10 Sisa tagihan tidak terbayar
11 11 Sisa_tagihan_per_jumlah_kartu
12 12 Utilisasi_6bulan
13 13 Rasio_pembayaran_6bulan
14 14 Pemakaian_3bln_per_limit
15 15 Persentasi_overlimit
16 16 Pemakaian_6bln_per_limit
17 17 Jumlah_tahun_sejak_pembukaan_kredit
Data Transformation
Tahap transformasi yang dilakukan pada data di dalam penelitian ini adalah untuk
melakukan perubahan pada atribut-atribut dimana atribut yang memiliki rentang
data yang besar akan menjadi atribut yang memiliki rentang data cukup kecil.
Untuk melakukan perubahan tersebut maka penulis menggunakan normalisasi
Min-Max yang bertujuan untuk penskalaan nilai pada atribut sehingga tiap nilai
pada atribut memiliki range yang lebih kecil seperti -1.0 sampai 1.0, atau 0.0
sampai 1.0. berikut algoritma yang digunakan untuk melakukan normalisasi Min-
Max (Han et al.,2012):
Vi=𝑋−𝑀𝑖𝑛(𝑋)
𝑀𝑎𝑥(𝑋)−𝑀𝑖𝑛(𝑋) (new_maxA – new_minA) + new-minA (3.1)
Keterangan :
X = Data yang akan di normalisasi.
Min(X) = Jumlah minimum data.
Max(X) = Jumlah maksimum data.
new_minA = range minimum data.
new_maxA = range maximum data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Berikut contoh cara perhitungan normalisasi beberapa atribut dari data
nasabah menggunakan algoritma Min-Max :
Normalisasi data atribut jumlah kartu
Vi = 2−2
4−2(1 − 0) + 0 = 0.0000453074513300073
Normalisasi data atribut outstanding
Vi = 268691−36158
22533915−36158(1 − 0) + 0 = 0.00401203610832497
Normalisasi data atribut limit
Vi = 10000000−28000000
28000000−5000000 (1 -0 ) + 0 = 0.0000054046310907977
Normalisasi data atribut tagihan
Vi = 254564−28000000
2334602−22419126 (1 – 0 ) +0 = 0
Setelah data pada 17 atribut di normalisasi menggunakan algoritma Min-Max
maka akan menghasilkan penskalaan data yang lebih kecil seperti pada tabel 3.3 :
Tabel 3. 3 Normalisasi beberapa data menggunakan metode Min-Max
X
rasio_pembayar
an
total_pemakaian_re
tail
total_pemakaian_per_l
imit
total_pemakai
an
1 0.1561 0.0732 0.1371 0.0732
2 0.1486 0.0732 0.1371 0.0732
3 0.1486 0.0732 0.1371 0.0732
4 0.1559 0.0732 0.1371 0.0732
5 0.1498 0.0752 0.1605 0.0752
6 0.1486 0.0732 0.1371 0.0732
7 0.1486 0.0732 0.1372 0.0732
8 0.1501 0.0755 0.1752 0.0755
9 0.1491 0.0732 0.1371 0.0732
10 0.1559 0.0760 0.1945 0.0760
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
rasio_pembayaran_3bu
lan
utilisasi_3bul
an tagihan
outstandin
g
sisa_tagihan_per_li
mit
0.4339 0.0016 0.0000 0.0000 0.0007
0.4333 0.0005 0.0006 0.0003 0.0000
0.4335 0.0573 0.0199 0.0097 0.0940
0.4341 0.0307 0.0108 0.0085 0.0000
0.4336 0.1431 0.0210 0.0108 0.2136
0.4333 0.0049 0.0000 0.0000 0.0000
0.4338 0.0027 0.0004 0.0002 0.0000
0.4335 0.1299 0.0146 0.0074 0.2135
0.4336 0.0010 0.0001 0.0001 0.0003
0.4341 0.0160 0.0007 0.0009 0.0000
sisa_tagihan_tid
ak_terbayar
sisa_tagihan_per_j
umlah_kartu
utilisasi_
6bulan
rasio_pembaya
ran_6bulan
pemakaian_3bl
n_per_limit
0.0001 0.0001 0.0026 0.1877 0.0258
0.0000 0.0000 0.0000 0.1860 0.0210
0.0176 0.0264 0.0269 0.1872 0.0708
0.0000 0.0000 0.0317 0.1877 0.0376
0.0186 0.0186 0.1676 0.1865 0.1233
0.0000 0.0000 0.0045 0.1860 0.0210
0.0000 0.0000 0.0019 0.1877 0.0278
0.0133 0.0133 0.1057 0.1863 0.0772
0.0002 0.0002 0.0028 0.1860 0.0210
0.0000 0.0000 0.0090 0.1877 0.0783
persentasi_overlim
it
pemakaian_6bln_per_li
mit
jumlah_tahun_sejak_pembukaan_kre
dit
0.0000 0.0022 0.4356
0.0000 0.0000 0.0000
0.0000 0.0063 0.0719
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
0.0000 0.0059 0.2970
0.1231 0.0295 0.1757
0.0000 0.0000 0.1164
0.0000 0.0000 0.0371
0.1034 0.0139 0.0644
0.0000 0.0010 0.3668
0.0000 0.0051 0.0594
3.4 Hitung Jarak
Setelah proses pre-processing selesai, langkah selanjutnya adalah
pengukuran jarak dengan menggunakan Euclidean distance. Euclidean distance
adalah metode yang digunakan untuk mengukur jarak antara dua titik yang
berbeda. Dengan menggunakan perhitungan Euclidean distance obyek tiap data
akan dihitung similaritasnya. Berikut adalah persamaan Euclidean distance untuk
mengukur dua titik berbeda (Negoro,2015) :
d (A,B) = √|𝐴1 – 𝐵2|2
+ |𝐴2 – 𝐵2|2
+ ⋯ … + |𝐴i – Bi|2 (3.2)
Keterangan :
- Ai – Bi : data
Perhitungan jarak akan dilakukan untuk tiap pendekatan yang ada di metode
agglomerative hierarchical clustering sesuai dengan algoritma masing-masing
pendekatan. Teknik pengukuran jarak dengan metode Euclidean menjadi salah
satu metode yang paling umum digunakan. Berikut ini adalah contoh data sampel
yang digunakan untuk perhitungan jarak :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
Tabel 3. 4 Similarity Matriks
1 2 3 4 5 6 7 8 9 10
1 0 0.43
58 0.385
12 0.14
58 0.432
87 0.319
37 0.398
6 0.475
21 0.069
36 0.384
55
2 0.435
75 0 0.148
13 0.30
11 0.391
38 0.116
61 0.037
89 0.306
17 0.366
84 0.102
57
3 0.385
12 0.14
81 0 0.25 0.267
05 0.134
47 0.130
44 0.195
7 0.321
72 0.126
09
4 0.145
76 0.30
11 0.250
03 0 0.340
45 0.185
92 0.263
77 0.359
5 0.084
36 0.249
65
5 0.432
87 0.39
14 0.267
05 0.34
05 0 0.350
88 0.372
71 0.139
61 0.396
94 0.347
31
6 0.319
37 0.11
66 0.134
47 0.18
59 0.350
88 0 0.079
69 0.300
46 0.250
44 0.100
36
7 0.398
6 0.03
79 0.130
44 0.26
38 0.372
71 0.079
69 0 0.297
75 0.329
78 0.081
57
8 0.475
21 0.30
62 0.195
7 0.35
95 0.139
61 0.300
46 0.297
75 0 0.424
53 0.282
28
9 0.069
36 0.36
68 0.321
72 0.08
44 0.396
94 0.250
44 0.329
78 0.424
53 0 0.318
48
10
0.38455
0.1026
0.12609
0.2496
0.34731
0.10036
0.08157
0.28228
0.31848 0
3.5 Agglomerative Hierarchical Clustering
Setelah melakukan proses hitung jarak maka untuk tahap selanjutnya akan
dilakukan pengolahan data dengan agglomerative hierarchical clustering
menggunakan 3 pendekatan dari agglomerative hierarchical clustering tersebut,
yaitu single linkage, average linkage, dan complete linkage. Hasil dari
pengolahan data menggunakan matlab dengan metode agglomerative hierarchical
clustering ini akan menghasilkan dendrogram single linkage,complete linkage dan
average linkage. Berikut merupakan contoh dendrogram dari matriks jarak data
sampel yang dihasilkan oleh matlab dengan menggunakan metode 3 pendekatan
AHC:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
Gambar 3. 2 Dendrogram Single Linkage
Gambar 3.2 diatas adalah dendrogram dengan menggunakan perhitungan
single linkage. Dimana pengukuran jarak menggunakan single linkage adalah
mengukur jarak minimal antara setiap elemen matriks.
Gambar 3. 3 Dendrogram Complete Linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
Gambar 3.3 diatas adalah dendrogram dengan menggunakan perhitungan
complete linkage. Dimana pengukuran jarak menggunakan complete linkage
adalah mengukur jarak maksimal antara setiap elemen matriks.
Gambar 3. 4 Dendrogram Average Linkage
Gambar 3.4 diatas adalah dendrogram dengan menggunakan perhitungan
average linkage. Dimana pengukuran jarak menggunakan average linkage adalah
mengukur jarak rata-rata antara setiap elemen matriks.
Dengan gambar dendrogram dari single linkage,complete linkage, dan
average linkage ini maka dapat ditentukan cluster yang diinginkan dari
perpotongan atau cut-off pada ketinggian tertentu.
Tabel 3. 5 Contoh Cluster Single Linkage
Cluster 1 Cluster 2
2 5
7 8
6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
10
3
1
9
4
Tabel 3. 6 Contoh Cluster Complete Linkage
Cluster 1 Cluster 2
2 1
7 9
6 4
10
3
5
8
Tabel 3. 7 Contoh Cluster Average Linkage
Cluster 1 Cluster 2
2 1
7 9
6 4
10
3
5
8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
3.6 Perhitungan Akurasi
Perhitungan akurasi yang digunakan dalam penelitian ini yaitu dengan
menggunakan validasi internal dan validasi external, dimana untuk validasi
internal menggunakan silhouette index dan validasi external menggunakan
confusion matrix. Berikut sedikit penjelasan untuk kedua perhitungan akurasi :
Silhouette Index
Menggunakan silhouette index untuk menghitung seberapa tepat suatu data berada
di clusternya. Luaran dari silhouette index berupa angka, dimana bila angka
semakin mendekati satu maka semakin balik pula data tersebut berada di
clusternya Berikut contoh perhitungan dengan menggunakan silhouette index :
Gambar 3. 5 Data sampel yang digunakan untuk perhitungan silhouette index
Tahap pertama :
Sebelum lanjut ke tahap perhitungan silhouette index, terlebih dahulu tiap cluster
dihitung jarak kedekatan nya menggunakan Euclidean distance, berikut jarak
kedua cluster sebelum dan sesudah melakukan perhitungan jarak :
Data pada cluster 0 sebelum dilakukan proses hitung jarak
Gambar 3. 6 Data cluster 0 sebelum proses hitung jarak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
Data pada cluster 0 sesudah dilakukan proses hitung jarak menggunakan
Euclidean distance:
Tabel 3. 8 Hasil hitung jarak cluster 0 dengan Euclidean distance
1 2 4 5 7 8 10
cluster 0
1 0 327861.
2324 790205
6.249 117655
18.21 225899
.559 81387
04.2 969979
.846
2 327861.
2324 0 758331
4.61 114380
45.3 102712
.352 78116
44.3 778941
.464
4 790205
6.249 758331
4.61 0 432800
3.219 768501
9.25 17203
74.2 721741
7.28
5 117655
18.21 114380
45.3 432800
3.219 0 115404
64.1 36365
03.5 110814
93.7
7 225899.
5594 102712.
352 768501
9.25 115404
64.12 0 79138
96 832742
.929
8 813870
4.155 781164
4.298 172037
4.202 363650
3.458 791389
5.95 0 744752
8.39
10
969979.846
778941.4637
7217417.279
11081493.67
832742.929
7447528.4 0
Data pada cluster 1 sebelum dilakukan proses hitung jarak:
Gambar 3. 7 Data cluster 1 sebelum proses hitung jarak
Data pada cluster 1 setelah melakukan proses hitung jarak :
Tabel 3. 9 Hasil hitung jarak cluster 1 dengan Euclidean distance
3 6 9
cluster 1
3 0 10857082.59 10789111.36
6 10857082.59 0 68214.15855
9 10789111.36 68214.15855 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Tahap kedua :
Menghitung nilai 𝑎𝑖 untuk kedua cluster. Berikut persamaan untuk mencari 𝑎𝑖
:
𝑎𝑖𝑗
=1
𝑚𝑗−1∑ 𝑑(𝑥𝑖
𝑗,
𝑚𝑗𝑟=1
𝑟≠𝑖
𝑥𝑟𝑗)
Mencari nilai ai untuk tiap kolom pada cluster 0
𝑎11 =
1
𝑚𝑗−1∑ 𝑑(𝑥1
1, 𝑥2
1) + 𝑑(𝑥11, 𝑥3
1) + 𝑑(𝑥11, 𝑥4
1) + 𝑑(𝑥11, 𝑥5
1) + 𝑑(𝑥11, 𝑥6
1) +
𝑑(𝑥11, 𝑥7
1) = 4888336.541
𝑎21 =
1
𝑚𝑗−1∑ 𝑑(𝑥2
1, 𝑥1
1) + 𝑑(𝑥21, 𝑥3
1) + 𝑑(𝑥21, 𝑥4
1) + 𝑑(𝑥21, 𝑥5
1) + 𝑑(𝑥21, 𝑥6
1) +
𝑑(𝑥21, 𝑥7
1) = 4673753.21
𝑎31 =
1
𝑚𝑗−1∑ 𝑑(𝑥3
1, 𝑥1
1) + 𝑑(𝑥31, 𝑥2
1) + 𝑑(𝑥31, 𝑥4
1) + 𝑑(𝑥31, 𝑥5
1) + 𝑑(𝑥31, 𝑥6
1) +
𝑑(𝑥31, 𝑥7
1) = 6072697.468
𝑎41 =
1
𝑚𝑗−1∑ 𝑑(𝑥4
1, 𝑥1
1) + 𝑑(𝑥41, 𝑥2
1) + 𝑑(𝑥41, 𝑥3
1) + 𝑑(𝑥41, 𝑥5
1) + 𝑑(𝑥41, 𝑥6
1) +
𝑑(𝑥41, 𝑥7
1) = 8965004.662
𝑎51 =
1
𝑚𝑗−1∑ 𝑑(𝑥5
1, 𝑥1
1) + 𝑑(𝑥71, 𝑥2
1) + 𝑑(𝑥71, 𝑥3
1) + 𝑑(𝑥71, 𝑥4
1) + 𝑑(𝑥71, 𝑥6
1) +
𝑑(𝑥71, 𝑥7
1) = 4716789.03
𝑎61 =
1
𝑚𝑗−1∑ 𝑑(𝑥6
1, 𝑥1
1) + 𝑑(𝑥81, 𝑥2
1) + 𝑑(𝑥81, 𝑥3
1) + 𝑑(𝑥81, 𝑥4
1) + 𝑑(𝑥81, 𝑥5
1) +
𝑑(𝑥81, 𝑥7
1) = 6111441.7
𝑎71 =
1
𝑚𝑗−1∑ 𝑑(𝑥7
1, 𝑥1
1) + 𝑑(𝑥101 , 𝑥2
1) + 𝑑(𝑥101 , 𝑥3
1) + 𝑑(𝑥101 , 𝑥4
1) + 𝑑(𝑥101 , 𝑥5
1) +
𝑑(𝑥101 , 𝑥6
1) = 4721350.6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
Hasil dari ai untuk cluster 0
Tabel 3. 10 Hasil nilai ai untuk cluster 0
1 2 4 5 7 8 10
cluster 0
1 0 327861.
2324 790205
6.249 117655
18.21 225899
.559 81387
04.2 969979
.846
2 327861.
2324 0 758331
4.61 114380
45.3 102712
.352 78116
44.3 778941
.464
4 790205
6.249 758331
4.61 0 432800
3.219 768501
9.25 17203
74.2 721741
7.28
5 117655
18.21 114380
45.3 432800
3.219 0 115404
64.1 36365
03.5 110814
93.7
7 225899.
5594 102712.
352 768501
9.25 115404
64.12 0 79138
96 832742
.929
8 813870
4.155 781164
4.298 172037
4.202 363650
3.458 791389
5.95 0 744752
8.39
10
969979.846
778941.4637
7217417.279
11081493.67
832742.929
7447528.4 0
ai 488833
6.541 467375
3.21 607269
7.468 896500
4.662 471678
9.03 61114
41.7 472135
0.6
Mencari nilai ai untuk tiap kolom pada cluster 1
𝑎11 =
1
𝑚𝑗−1∑ 𝑑(𝑥1
1, 𝑥2
1) + 𝑑(𝑥11, 𝑥3
1) = 10823096.98
𝑎21 =
1
𝑚𝑗−1∑ 𝑑(𝑥2
1, 𝑥1
1) + 𝑑(𝑥21, 𝑥3
1) = 5462648.374
𝑎41 =
1
𝑚𝑗−1∑ 𝑑(𝑥3
1, 𝑥1
1) + 𝑑(𝑥31, 𝑥2
1) = 5428662.759
Hasil dari ai dari cluster 1
Tabel 3. 11 Hasil nilai ai untuk cluster 1
3 6 9
cluster 1
3 0 10857082.59 10789111.36
6 10857082.59 0 68214.15855
9 10789111.36 68214.15855 0
ai 10823096.98 5462648.374 5428662.759
Tahap ketiga :
Menghitung jarak pada cluster yang berbeda dengan menggunakan Euclidean
distance dan menghitung rata-rata jarak.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Berikut hasil hitung jarak dari cluster 0 ke cluster 1 :
Tabel 3. 12 Hasil hitung jarak dari cluster 0 ke cluster 1
cluster 1
3 108624
04.49 105345
54.52 361467
3.45 104637
5.56 106368
26.67 280114
2.84 102135
44.14
6 5700.04 322560.
98 789641
5.35 117601
55.56 220704.
56 813335
9.68 965833.
03
9 73387.7
8 254563.
59 783145
0.45 116924
00.58 152512.
89 806567
1.64 921724.
67
rata-rata
3647164.10
3703893.03
6447513.08
8166310.57
3670014.71
6333391.39
4033700.61
Berikut hasil hitung jarak dari cluster 1 ke cluster 0 :
Tabel 3. 13 Hasil hitung jarak dari cluster 1 ke cluster 0
Cluster 0
1 10862404.49 5700.036127 73387.78039
2 10534554.52 322560.9758 254563.5894
4 3614673.448 7896415.346 7831450.451
5 1046375.557 11760155.56 11692400.58 7 10636826.67 220704.5578 152512.8919
8 2801142.841 8133359.68 8065671.636
10 10213544.14 965833.0328 921724.665
rata-rata 9941904.335 5860945.838 5798342.318
Tahap keempat :
Menghitung nilai 𝑏𝑖 untuk kedua cluster. Berikut persamaan untuk mencari 𝑏𝑖
:
𝑏𝑖𝑗 = 𝑚𝑖𝑛{
1
𝑚𝑛∑ 𝑑(𝑥𝑖
𝑗 ,𝑚𝑗𝑟=1
𝑟≠𝑖
𝑥𝑟𝑛)}
Menghitung nilai 𝑏𝑖 untuk cluster 0
𝑏𝑖𝑗 = min (𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1)
Hasil dari bi untuk cluster 0 :
Tabel 3. 14 Hasil nilai 𝑏𝑖 pada cluster 0
bi 3647164
.103 3703893
.029 644751
3.08 8166310
.566 3670014
.707 6333391
.386 4033700
.613
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
Menghitung nilai 𝑏𝑖 untuk cluster 1
𝑏𝑖𝑗 = min (𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 0)
Hasil dari bi untuk cluster 1 :
Tabel 3. 15 Hasil nilai 𝑏𝑖 pada cluster 1
bi 9941904.335 5860945.838 5798342.318
Tahap kelima :
Menghitung nilai silhouette index untuk cluster 0 dan cluster 1 dengan persamaan
berikut :
𝑆𝐼𝑖𝑗 =
𝑏𝑖𝑗 − 𝑎𝑖
𝑗
max{𝑏𝑖𝑗, 𝑎𝑖
𝑗}
Hitung nilai SI untuk cluster 0 :
𝑆𝐼11 =
𝑏11−𝑎1
1
max{𝑏11,𝑎1
1}=
3647164.103−4888336.541
max{3647164.103,4888336.541} = -0.253905
𝑆𝐼21 =
𝑏21−𝑎2
1
max{𝑏21,𝑎2
1}=
3703893.029−4673753.21
max{3703893.029,4673753.21} = -0.207512
𝑆𝐼31 =
𝑏31−𝑎3
1
max{𝑏31,𝑎3
1}=
6447513.08−6072697.468
max{6447513.08,6072697.468} = 0.058133
𝑆𝐼41 =
𝑏41−𝑎4
1
max{𝑏41,𝑎4
1}=
8166310.566−8965004.662
max{8166310.566,8965004.662} = -0.089090
𝑆𝐼51 =
𝑏51−𝑎5
1
max{𝑏51,𝑎5
1}=
3670014.707− 4716789.03
max{3670014.707,4716789.03} = -0.221925
𝑆𝐼61 =
𝑏61−𝑎6
1
max{𝑏61,𝑎6
1}=
6333391.386− 6111441.7
max{6333391.386,6111441.7} = 0.035044
𝑆𝐼71 =
𝑏71−𝑎7
1
max{𝑏71,𝑎7
1}=
4033700.613− 4721350.6
max{4033700.613− 4721350.6} = -0.145647
Hasil nilai SI yang berada di cluster 0
Tabel 3. 16 Hasil nilai 𝑆𝐼 pada cluster 0
SI -0.253905 -0.207512 0.058133 -0.089090 -0.221925 0.035044 -0.145647
Hitung nilai SI untuk cluster 1 :
𝑆𝐼11 =
𝑏11−𝑎1
1
max{𝑏11,𝑎1
1}=
9941904.335−10823096.98
max{9941904.335,10823096.98} = -0.081418
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
𝑆𝐼21 =
𝑏21−𝑎2
1
max{𝑏21,𝑎2
1}=
5860945.838−5462648.374
max{5860945.838,5462648.374} = 0.067958
𝑆𝐼31 =
𝑏31−𝑎3
1
max{𝑏31,𝑎3
1}=
5798342.318−5428662.759
max{5798342.318,5428662.759} = 0.063756
Hasil nilai SI yang berada di cluster 1
Tabel 3. 17 Hasil nilai 𝑆𝐼 pada cluster 1
SI -0.081418 0.067958 0.063756
Confusion Matrix
Confusion matrix digunakan untuk menghitung akurasi di setiap pembentukan
cluster. Penulis menggunakan confusion matrix sebagai validasi external
karena data yang digunakan dalam penelitian memiliki informasi dari luar
(memiliki label kelas). Untuk confusion matrix luarannya berupa persentase,
dimana bila persentase nya semakin tinggi maka semakin baik pula linkage
tersebut mengklusterkan data.
3.7 Desain User Interface
Gambar 3. 8 User Interface
Pada penulisan tugas akhir ini memiliki satu tampilan clustering credit
scoring dengan metode agglomerative hierarchical clustering. Pada gambar 3.5
diatas terdapat button search fungsi dari button search adalah untuk mencari dan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
memasukkan data yang akan diolah. Selanjutnya di dalam tampilan terdapat
button pre-processing yang berfungsi untuk melakukan proses pre-processing
terhadap data dimana pre-processing dalam tampilan ini adalah normalisasi data.
Di dalam tampilan juga terdapat textfield jumlah ciri yang berfungsi untuk
menginputkan jumlah ciri atau atribut yang ingin di proses dan terdapat textfield
yang akan menampilkan silhouette index dari keseluruhan data. Setelah itu
terdapat button cluster yang akan berfungsi untuk menjalankan cluster dalam
data. Ketika cluster dijalankan maka hasil dari cluster single linkage,average
linkage, dan complete linkage akan muncul pada tabel masing masing dan hasil
dendrogramnya juga akan muncul disamping tabel masing masing. Textfield yag
berada di tiap panel cluster berfungsi untuk menunjukkan seberapa besar akurasi
cluster data menggunakan tiga pendekatan yang ada dalam metode agglomerative
hiearachical clustering.
3.8 Kebutuhan Perangkat Lunak dan Perangkat Keras
Perangkat lunak dan perangkat keras yang digunakan pada implementasi
sistem dalam penelitian ini adalah :
Perangkat Lunak
- Sistem Operasi windows 10 64-bit
- Matlab R2018a
Perangkat Keras
- Processor Intel® Core™ i3-6006U CPU @ 2.00GHz
2.00GHz
- RAM 4.00 GB
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
BAB IV
IMPLEMENTASI DAN ANALISA
Bab ini berisi implementasi dan pembahasan hasil dari pengelompokan
credit scoring dari nasabah bank XYZ dengan menggunakan agglomerative
hierarchical clustering.
4.1 Implementasi
Landasan teori dan metodologi yang telah disampaikan akan berkurang
manfaatnya bila tidak disertakan dengan implementasi. Pada bab ini implementasi
dipaparkan dalam dua bagian, yaitu berkaitan dengan proses pengolahan data dan
user interface atas sistem yang telah dibuat untuk pengolahan data tersebut.
4.1.1 Pengolahan Data
Data yang digunakan untuk diolah dalam clustering pada penelitian ini
berjumlah 3000 data dengan 17 atribut, yaitu rasio pembayaran, total pemakaian
retail, total pemakaian per limit, total pemakaian, rasio pembayaran 3 bulan,
utilisasi 3 bulan, tagihan, outstanding, sisa tagihan per limit, sisa tagihan tidak
terbayar, sisa tagihan per jumlah kartu, utilisasi 6 bulan, rasio pembayaran 6
bulan, pemakaian 3 bulan per limit, persentasi overlimit, pemakaian 6 bulan per
limit, jumlah kartu sejak pembukaan kredit. Data dapat diolah setelah melakukan
proses perhitungan jarak dengan Euclidean distance. Data yang digunakan data
bank yang berekstensi .xls(excel).
4.1.2 Clustering
Setelah data di proses pada tahap pre-processing dan tahap penghitungan
jarak menggunakan Euclidean distance maka selanjutnya data akan diproses ke
dalam tahap clustering dengan metode AHC menggunakan 3 pendekatan. Pada
tahap ini penulis melakukan analisis kelompok yang merupakan pekerjaan
mengelompokkan data (objek) yang ditemukan dalam data yang dapat
menggambarkan objek dan hubungan diantaranya (Prasetyo E, 2012). Hal seperti
ini dilakukan supaya data yang memiliki hubungan dalam sebuah kelompok
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
merupakan obyek yang mirip atau memiliki hubungan dengan obyek yang lain
nya atau dapat juga dikatakan memiliki similaritas yang tinggi. Dapat diartikan
juga bahwa obyek dalam satu kelompok tersebut berbeda atau tidak memiliki
hubungan dengan kelompok yang lain. Dalam penelitian ini pengelompokan
dilakukan menggunakan metode agglomerative hierarchical clustering (AHC)
dan untuk mengetahui sejauh mana pengelompokan yang dilakukan baik atau
tidaknya maka dilakukan uji akurasi sistem dengan internal dan external
evaluation. Internal evaluation digunakan untuk memvalidasi baik atau tidak nya
sebuah data atau data tersebut tepat atau tidak berada dalam clusternya.
Sedangkan untuk external evaluation berguna untuk melihat seberapa baik akurasi
sistem bila digunakan untuk data nasabah bank xyz. Setelah melalui tahap
preprocessing, data akan di proses dengan menggunakan metode AHC
(agglomerative hierarchical clustering). Data nasabah sebanyak 3000 data dan 17
atribut akan menjadi beberapa kelompok setelah melalui proses AHC, setelah itu
pembentukan kelompok akan diuji dengan confusion matriks.
Proses pengelompokan menggunakan AHC pada penulisan ini terbagi
menjadi 3 pendekatan, yaitu single linkage, average linkage, dan complete linkage
dimana untuk setiap perhitungan 3 pendekatan ini menggunakan perhitungan
jarak euclidean. Setiap hasil perhitungan akan di tampilkan ke dalam tabel,
dendrogram, dan hasil dari confusion matriks. Berikut merupakan hasil dari
proses AHC menggunakan 3 metode tersebut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
1. Single Linkage
Gambar 4. 1 Implementasi- Dendrogram Single Linkage
Gambar 4.1 adalah diagram dendrogram yang merupakan pembentukan
kelompok dengan metode single linkage. Penghitungan Akurasi digunakan
dengan yang di dapat dari metode single linkage ini adalah sebesar 66,7 %.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
2. Average Linkage
Gambar 4. 2 Implementasi- Dendrogram Average Linkage
Gambar 4.2 adalah diagram dendrogram yang merupakan pembentukan
kelompok dengan metode Average linkage . Akurasi yang di dapat dari metode
average linkage ini adalah sebesar 66,6667 .
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
3. Complete Linkage
Gambar 4. 3 Implementasi- Dendrogram Complete Linkage
Gambar 4.3 adalah diagram dendrogram yang merupakan pembentukan
kelompok dengan metode Complete linkage. Akurasi yang di dapat dari metode
complete linkage ini adalah sebesar 67,2333% .
4.2 User Interface
Dalam pembuatan sistem implementasi agglomerative hierarchical
clustering dalam mengelompokkan credit scoring pada suatu bank, penulis
menggunakan Matlab versi R2018a. Sistem user interface telah dipaparkan pada
bab sebelumnya sebelum diimplementasikan untuk melakukan proses
pengelompokkan dengan metode AHC serta menghitung akurasi dengan
confusion matrix. Sistem dibuat untuk menampilkan hasil pengelompokkan
dengan menampilkan tiga metode dalam satu graphical user interface (GUI).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Gambar 4. 4 Tampilan keseluruhan sistem
Dalam proses pengelompokkan data terdapat empat langkah utama, yaitu
input data, preprocessing, silhouette index dan AHC.
4.2.1 Input data
Ketika sistem dijalankan, langkah pertama yang dilakukan adalah meng-
input-kan data. Tombol search digunakan untuk mencari sekaligus memasukkan
atau menginputkan data yang bertipe .xls maupun .xlsx. Setelah mencari dan
menginputkan data, sistem akan menampilkan data yang telah diinputkan tersebut.
Gambar 4.5 adalah contoh proses input.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
Gambar 4. 5 Implementasi – input data
4.2.2 Pre-processing
Setelah data diinputkan maka selanjutnya adalah user melakukan pre-
processing dengan terlebih dahulu menginputkan jumlah atribut yang ingin di
processing. Data yang di processing ini nantinya akan digunakan untuk data
pengelompokkan dengan metode AHC. Gambar 4.6 adalah proses pre-
processing.
Gambar 4. 6 Implementasi – Pre-processing
4.2.3 Silhouette Index
Tampilan untuk silhouette index pada gambar 4.7 akan muncul saat user
menekan tombol pre-preprocessing, ini dikarenakan silhouette index memvalidasi
data sebelum melakukan proses AHC, selain itu juga banyak nya atribut pada data
yang diinputkan memengaruhi nilai silhouette index.
Gambar 4. 7 Tampilan silhouette index
4.2.4 Proses AHC dan Akurasi
Di dalam tampilan GUI terdapat tombol cluster, dimana saat mengklik
tombol tersebut makan akan muncul hasil dari tiga pendekatan yang terdapat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
dalam metode agglomerative hierarchical clustering, yaitu single linkage,
complete linkage, dan average linkage. Pada tiap pendekatan memiliki hasil dari
dendrogram masing masing, selain itu tiap pendekatan juga memiliki nilai akurasi,
label cluster dan tabel iterasi pengelompokkan. User interface dari implementasi
hasil proses AHC dapat dilihat pada gambar 4.8.
Gambar 4. 8Implementasi - Hasil proses AHC dan Confusion Matrix
4.2.5 Analisa Hasil
Implementasi sistem yang telah dipaparkan pada gambar 4.8 membantu
analisa terhadap clustering credit scoring bagi nasabah bank XYZ sesuai dengan
judul penulisan. Analisa ini dilakukan dengan 3000 data nasabah dengan 17
atribut dan diharapkan akan dapat diketahui dengan baik pengelompokan credit
scoring berdasarkan beberapa komposisi nilai. Atribut sebanyak 17 pada 3000
data diolah dengan menggunakan metode agglomerative hierarchical clustering
dengan tiga pendekatan yaitu, single linkage, average linkage, dan complete
linkage dimana proses pengelompokkan dimulai dari mengelompokkan 1 atribut
sampai dengan 17 atribut. Setelah melakukan pengelompokkan 1 atribut sampai
17 atribut dengan menggunakan tiga pendekatan tersebut maka hasil
pengelompokkan menunjukkan bahwa pengelompokkan menggunakan 9 atribut
dengan pendekatan complete linkage memiliki akurasi yang lebih baik,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
perhitungan akurasi dilakukan dengan menggunakan confusion matrix. Setelah
hasil dari confusion matrix diketahui pada 3 pendekatan tersebut maka akan
terlihat bahwa complete linkage memiliki akurasi yang lebih baik dibandingkan
single dan average linkage. Dapat dilihat pada tabel dibawah ini :
Tabel 4. 1 Hasil akurasi tiga pendekataan
Metode
Akurasi
dendrogram
Jumlah obyek per
cluster
0 1
Single Linkage 66, 7 % Tidak seimbang 2999 1
Average Linkage 66,6667 % Tidak seimbang 2997 3
Complete
Linkage
67,23333 % Tidak seimbang 2967 33
Akurasi pendekatan single linkage sebesar 66,7% di dapat dari confusion matrix,
berikut hasil confusion matrix menggunakan pendekatan single linkage dengan 9
atribut :
Tabel 4. 2 Confusion matrix single linkage
Luaran 0 1
0 2000 999
1 0 1
akurasi = 2000 + 1
2000 + 999 + 0 + 1 𝑥 100 % = 66,7%
Akurasi pendekatan average linkage sebesar 66,7667% di dapat dari confusion
matrix, berikut hasil confusion matrix menggunakan pendekatan average linkage
dengan 9 atribut :
Tabel 4. 3 confusion matrix average linkage
Luaran 0 1
0 2000 1000
1 0 0
akurasi = 2000 + 0
2000 + 1000 + 0 + 0 𝑥 100 % = 66,6667%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
Akurasi pendekatan complete linkage sebesar 67,23333% di dapat dari confusion
matrix, berikut hasil confusion matrix menggunakan pendekatan complete linkage
dengan 9 atribut :
Tabel 4. 4 confusion matrix complete linkage
Luaran 0 1
0 1992 975
1 8 25
akurasi = 1992 + 25
1992 + 975 + 8 + 25 𝑥 100 % = 67,23333%
Hal ini dapat terjadi karena penyebaran data yang tidak seimbang, banyak
data di dalam cluster 1 memiliki tingkat kemiripan yang sangat tinggi dengan
cluster 0 sehingga data pada cluster 1 terbaca di cluster 0 hal ini juga berpengaruh
pada akurasi tiap metode. Pada data nasabah terdapat 2000 data yang memiliki
kelas 0 dan 1000 data untuk kelas 1 yang dipakai untuk penelitian ini, tetapi saat
melakukan proses confusion matrix ditemukan bahwa data yang berada di kelas 1
memiliki kemiripan lebih besar dengan kelas 0 dibandingkan dengan kelas 1 itu
sendiri. Untuk pendekatan single linkage terdapat 999 data pada kelas 1 yang
memiliki tingkat kemiripan yang tinggi pada kelas 0, untuk pendekatan complete
linkage terdapat 975 data pada kelas 1 yang memiliki tingkat kemiripan yang
tinggi pada kelas 0. Sedangkan untuk average linkage terdapat 1000 data pada
kelas 1 yang memiliki tingkat kemiripan yang tinggi pada kelas 0. Ini dapat
dibuktikan dengan menggunakan silhouette index dimana silhouette index akan
digunakan untuk memvalidasi baik sebuah data, cluster tunggal (satu cluster dari
sejumlah cluster), atau bahkan keseluruhan cluster. Dalam penelitian ini penulis
menggunakan silhouette index untuk melihat seberapa tepat data tersebut berada
di label nya(menggunakan data asli yang belum melakukan pre-processing).
Berikut perhitungan rata-rata silhouette index yang dilakukan terhadap 3000
menggunakan data nasabah bank :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
Mencari rata-rata silhouette index :
Cluster 0
SI Cluster 0 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 0
𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎
= 204.7909
2000
= 0.102395
Cluster 1
SI Cluster 0 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1
𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎
= −86.0715
1000
= -0.086071
𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 0+𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1
2 = 0.072695
Gambar 4. 9 Hasil rata-rata Silhouette index pada data
Penulis juga menggunakan k-means clustering sebagai pembanding hasil
akurasi yang di dapat menggunakan metode agglomerative hierarchical clustering
dengan hasil akurasi yang di dapat menggunakan k-means clustering
menggunakan data yang sama. Pada k-means clustering ini juga akan terlihat
apakah penyebaran data tersebut baik atau tidak. Berikut hasil dari k-means
clustering :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
Gambar 4. 10 Hasil cluster menggunakan k-means clustering
Pada gambar 4.9 menunjukkan bahwa kemiripan data cluster 0 dengan
cluster 1 sangat kuat sehingga seperti menjadi satu cluster. Hal ini dapat terlihat
juga pada kedua centroid yang sangat dekat bahkan seperti 1 centroid, ini salah
satu alasan mengapa akurasi yang dihasilkan kurang baik karena data pada cluster
0 dan data yang berada pada cluster 1 memiliki tingkat kemiripan yang sangat
tinggi. Untuk melihat tingkat akurasi yang di dapat oleh k-means clustering
penulis menggunakan confusion matrix, berikut hasil confusion matrix
menggunakan k-means clustering :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
Tabel 4. 5 tabel confusion matrix k-means clustering
Luaran 0 1
0 1161 360
1 839 640
akurasi = 1161 + 640
1161 + 640 + 839 + 640 𝑥 100 % = 60,0333%
Akurasi akan menjadi lebih baik pada k-means clustering ini jika data pada cluster
0 dan data pada cluster 1 memiliki tingkat kemiripan yang cukup jauh sehingga
dapat dilihat data mana saja yang berada di cluster 0 dan cluster 1. Dapat
dibandingkan bahwa confusion matrix dengan menggunakan k-means clustering
hasilnya lebih baik dikarenakan data pada cluster 1 tingkat kemiripannya lebih
tinggi dan lebih baik pada cluster 1 itu sendiri daripada hasil confusion matrix
dengan metode AHC.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
BAB V
PENUTUP
Bab terakhir pada penulisan ini menjelaskan mengenai kesimpulan pada
penelitian terkait dengan pengelompokan credit scoring bagi nasabah bank XYZ
dengan menggunakan metode agglomerative hierarchical clustering. Pada bab ini
dijelaskan saran yang diberikan pada sistem yang dibuat.
5.1 Kesimpulan
Pengelompokan credit scoring bagi nasabah bank XYZ dengan menggunakan
metode agglomerative hierarchical clustering berdasarkan data nasabah.
Berdasarkan hasil percobaan diatas, kesimpulan yang dapat diambil sbb:
1. Dalam penelitian ini, agglomerative hierarchical clustering kurang
baik digunakan untuk mengelompokan credit scoring pada data
nasabah bank XYZ. Dalam penelitian ini, sistem menghasilkan
clustering yang kurang seimbang.
2. Penyebaran data nasabah bank sangat kurang baik dalam melakukan
pengklusteran, ini dapat dilihat dari hasil rata-rata silhouette index
yang sangat jauh dari angka 1(baik).
3. Dari tiga metode agglomerative hierarchical clustering yang digunakan,
yang mampu menghasilkan dendrogram cukup baik adalah complete
linkage.
4. Pengujian akurasi dengan menggunakan confusion matrix
menghasilkan persentasi paling tinggi sebesar 67,2333 % dan terendah
66,6667 %
5.2 Saran
Saran yang diperlukan untuk pengembangan sistem lebih lanjut sebagai berikut :
1. Uji akurasi dapat dicoba dengan pengujian SSE atau sum square error
2. Perhitungan jarak kedekatan dapat dicoba dengan metode lain seperti
manhattan.
3. Data yang digunakan dalam pengelompokkan lebih baik jika
menggunakan penyebaran yang seimbang.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
DAFTAR PUSTAKA
edy Takdir Syaiffudin. (2007). Manajemen Perbankan (Pendekatan Praktis).
Kendari: Unhalu Press.
Prasetyo (2014). DATA MINING. Mengolah data menjadi informasi menggunakan
Matlab.
Jiawei, H. (2012). Data Mining Concepts and Tecniques. Waltham: Elsevier Inc.
Larose, D. T. (2005). Discovering Knowledge In Data. United States Of America:
John Wiley & Sons, Inc.
Tan, P.N., Steinbach, M., Kumar, V. (2006) Introduction to Data Mining.
Situmorang. (2015). Pengenalan pola keberhasilan seminaris dengan
menggunakan agglomerative hierarchical clustering. Yogyakarta:
Universitas Sanata Dharma.
Pratomo,bondan yudha (2017) Pengelompokan peran pemain dota 2 dalam
pertandingan profesional dengan metode agglomerative hierarchical
clustering. Yogyakarta: Universitas Sanata Dharma.
Kurniawan.A.A (2017). Implementasi Algoritma Agglomerative Hierarchical
Clustering untuk mengelompokkan capaian belajar siswa SD. Yogyakarta:
Universitas Sanata Dharma.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
A. Lampiran Percobaan Menggunakan Aplikasi Weka (info gain)
B. Lampiran Program
1. Source code transformasi
2. [data,txt,raw]= xlsread('AllFeatures.xlsx'); 3. % 4. minlama = min(data(:,3:19)); 5. maxlama = max(data(:,3:19)); 6. 7. minbaru = 0; 8. maxbaru = 1; 9. 10. %[b,k] = size(data(:,3:24));
11. tampung = data(:,3:19);
12. [b,k] = size(tampung);
13. for i=1:b
14. for j=1:k
15. nilaibaru(i,j) = (((tampung(i,j)-
minlama(j))/(maxlama(j)-minlama(j)))*(maxbaru-
minbaru))+minbaru;
16. end
17. end
18. xlswrite('Norm_AllFeatures.xls',nilaibaru);
19. xlswrite('LabelAllFeatures.xls',txt);
20.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
2. source code klustering
3. data=xlsread('Norm_AllFeatures.xls'); 4. coba = data(:,1:17); 5. label = data(:,18); 6. 7. [x,y] = size(coba); 8. hasil1 = zeros(x,x); 9. namakolom = cell(x,1); 10.
11. % proses Perhitungan jarak euclidean
12. for i=1:x
13. namakolom(i,1) = cellstr(num2str(i));
14. for j=1:x
15. if i~=j
16. temp = 0;
17. for k=1:y
18. temp = temp + (coba(i,k) - coba(j,k))^2;
19. end
20. temp = sqrt(temp);
21. hasil1(i,j) = temp;
22. end
23. end
24. end
25.
26. %Proses Clustering AHC
27. hasilakhir=hasil1;
28. jumlahkelompok = length(unique(label));
29. jumkel = length(hasilakhir);
30. ix = 1;
31.
32. while jumkel ~= jumlahkelompok
33. [hasilakhir,perubahan,namakolom] =
ahc(hasilakhir,namakolom,2);
34. jumkel = length(hasilakhir);
35. iterasi{ix}= perubahan;
36. tmpperubahan = strsplit(perubahan{1},'...');
37. Z{ix,1} = tmpperubahan(2);
38. Z{ix,2} = tmpperubahan(3);
39. Z{ix,3} = tmpperubahan(1);
40. ix = ix+1;
41. end
42.
43. [hasilakhir,perubahan] = ahc(hasilakhir,namakolom,2);
44. jumkel = length(hasilakhir);
45. iterasi{ix}= perubahan;
46. tmpperubahan = strsplit(perubahan{1},'...');
47. Z{ix,1} = tmpperubahan(2);
48. Z{ix,2} = tmpperubahan(3);
49. Z{ix,3} = tmpperubahan(1);
50. ix = ix+1;
51.
52. iterasi = iterasi';
53.
54. %Perhitungan Akurasi (testing)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
55. for i=1:size(namakolom,1)
56. hasil = strsplit(namakolom{i},',');
57. sum1 = 0;
58. sum0 = 0;
59. for j=1:size(hasil,2)
60. ix = str2num(hasil{j});
61. if label(ix) == 0
62. sum0 = sum0 + 1;
63. else
64. sum1 = sum1 + 1;
65. end
66. end
67. avg0 = sum0/size(hasil,2);
68. avg1 = sum1/size(hasil,2);
69.
70. if avg0 > avg1
71. namakolom{i,2} = 0;
72. else
73. namakolom{i,2} = 1;
74. end
75. end
76.
77. for i=1:size(namakolom,1)
78. hasil = strsplit(namakolom{i},',');
79. for j=1:size(hasil,2)
80. ix = str2num(hasil{j});
81. outputsistem(ix,1) = namakolom{i,2};
82. end
83. end
84.
85. cf = confusionmat(outputsistem,label);
86.
87. akurasi = (sum(diag(cf))/sum(sum(cf)))*100;
88. display(['Akurasi = ' num2str(akurasi) '%']);
89.
90. max = size(coba,1)+1;
91. ll = zeros(size(Z));
92. for i=1:size(Z,1)
93. for j=1:size(Z,1)
94. if strcmp([char(Z{i,1}) ','
char(Z{i,2})],char(Z{j,1})) == 1
95. ll(j,1) = max;
96. end
97. if strcmp([char(Z{i,1}) ','
char(Z{i,2})],char(Z{j,2})) == 1
98. ll(j,2) = max;
99. end
100. end
101. max = max+1;
102. end
103.
104. for i=1:size(Z,1)
105. ubah = 0;
106. if ll(i,1) == 0
107. ll(i,1) = str2num(char(Z{i,1}));
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
108. end
109. if ll(i,2) == 0
110. ll(i,2) = str2num(char(Z{i,2}));
111. end
112. if ll(i,1) > ll(i,2)
113. satu = ll(i,1);
114. dua = ll(i,2);
115. ll(i,1) = dua;
116. ll(i,2) = satu;
117. end
118. ll(i,3) = str2num(char(Z{i,3}));
119. end
120. %
121. cutoff = median([ll(end-2,3) ll(end-1,3)]);
122. figure,dendrogram(ll,'ColorThreshold',cutoff)
123. SI = silhouette(coba,label);
124. kelas = unique(label);
125.
126. for i=1:length(kelas)
127. rata(i) = mean(SI(label==kelas(i)));
128. end
129. SI_Semua = mean(rata);
130.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI