pengelompokan credit scoring bagi nasabah bank xyz

75
i PENGELOMPOKAN CREDIT SCORING BAGI NASABAH BANK XYZ DENGAN MENGGUNAKAN METODE AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI Diajukan Untuk Memenuhi Salah satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Disusun oleh : Maria Christin Simanjuntak 155314124 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2019 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Upload: khangminh22

Post on 22-Nov-2023

1 views

Category:

Documents


0 download

TRANSCRIPT

i

PENGELOMPOKAN CREDIT SCORING BAGI NASABAH

BANK XYZ DENGAN MENGGUNAKAN METODE

AGGLOMERATIVE HIERARCHICAL CLUSTERING

SKRIPSI

Diajukan Untuk Memenuhi Salah satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Disusun oleh :

Maria Christin Simanjuntak

155314124

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2019

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

CLUSTERING OF CREDIT SCORING FOR XYZ BANK

CUSTOMERS USING AGGLOMERATIVE HIERARCHICAL

CLUSTERING METHOD

A Thesis

Presented as Partial Fulfillment of The Requirements

To Obtain Sarjana Komputer Degree

In Informatics Engineering Study Program

Written by:

Maria Christin Simanjuntak

155314124

INFORMATICS ENGINEERING STUDY PROGRAM

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2019

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

iii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

iv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

v

HALAMAN PERSEMBAHAN

“Tuhan tak pernah janji jalan selalu rata tetapi Dia berjanji berikan kekuatan”

“Serahkanlah segala kekuatiranmu kepadaNya, sebab Ia yang memelihara kamu”

1 Petrus 5:7

Karya ini saya persembahkan kepada:

Tuhan Yesus Kristus

Keluarga tercinta dan orang terkasih, Dosen pembimbing

serta keluarga ASD dan teman teman

Terima Kasih sudah memberikan semangat!

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

vi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

vii

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

viii

ABSTRAK

Credit score atau penilaian kredit di dalam perbankan adalah sistem yang

digunakan oleh bank atau lembaga pembiayaan lainnya untuk menentukan apakah

nasabah layak atau tidak layak mendapatkan pinjaman. Dari penilaian kredit ini

bank akan mengetahui tentang sejarah pinjaman nasabah, apakah nasabah tersebut

layak atau tidak layak untuk mendapatkan pinjaman selanjutnya dan apakah

nasabah tersebut termasuk good creditor atau bad creditor. Namun, dengan data

yang sangat banyak akan lebih rumit menentukan apakah pinjaman nasabah

disetujui atau tidak terutama bila dikerjakan secara manual dan juga memakan

waktu yang lama apabila dikerjakan secara manual, selain itu data kredit yang

tidak seimbang juga dianggap sebagai masalah serius.

Oleh karena itu diperlukan pengelompokan bagi nasabah untuk menilai

layak atau tidak layak dalam pengajuan kredit. Pengelompokan ini menggunakan

metode agglomerative hierarchical clustering dengan tiga perhitungan yaitu

single linkage, average linkage, dan complete linkage, dimana sebelum memulai

pengelompokkan data nasabah bank XYZ akan melakukan tahap pre-processing

terlebih dahulu, dimulai dari seleksi features sampai dengan normalisasi. Setelah

tahap pre-processing selesai dilakukan, selanjutnya ke tahap pengklusteran

dengan terlebih dahulu menghitung jarak dengan Euclidean distance dan untuk

selanjutnya data akan di klusterkan dengan 3 perhitungan agglomerative

hierarchical clustering yang sudah disebutkan sebelumnya. Luaran dari

pengklusteran tersebut adalah dendrogram yang merupakan diagram berbentuk

pohon yang menunjukkan derajat persamaan di antara anggota-anggota suatu

kelompok. Dengan menggunakan confusion matrix akan dihasilkan bahwa

pengklusteran metode AHC dengan perhitungan complete linkage mendapatkan

akurasi yang lebih baik daripada single linkage dan average linkage.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ix

ABSTRACT

Credit score or credit rating in a bank is a system used by banks or other

financial institutions to determine whether a customer is feasible or not worthy of

a loan. From this credit assessment, the bank will find out about the customer's

loan history, whether the customer is feasible or not eligible to get the next loan

and whether the customer is a good creditor or bad creditor. However, with very

much data it will be more complicated to determine whether the loan is approved

or not, especially if done manually and also takes a long time if done manually,

besides unbalanced credit data is also considered a serious problem.

Therefore a grouping for customers is needed to assess whether it is

appropriate or not feasible in applying for credit. This grouping uses the

agglomerative hierarchical clustering method with three calculations, namely

single linkage, average linkage, and complete linkage, where before starting the

grouping of customer data, XYZ bank will do the pre-processing stage first,

starting from feature selection to normalization. After the pre-processing stage is

complete, then go to the clustering stage by first calculating the distance with the

Euclidean distance and for the next data will be clustered with the 3

agglomerative hierarchical clustering calculations mentioned earlier. The output

of the clustering is dendrogram which is a tree-shaped diagram that shows the

degree of equality between members of a group. By using confusion matrix, it

will be produced that clustering the AHC method with the calculation of complete

linkage gets better accuracy than the single linkage and average linkage.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

x

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

xi

Daftar isi

JUDUL ................................................................................................................................i

HALAMAN PERSETUJUAN PEMBIMBING ................ Error! Bookmark not defined.

HALAMAN PENGESAHAN ...........................................................................................iv

HALAMAN PERSEMBAHAN ......................................................................................... v

PERNYATAAN KEASLIAN KARYA ............................................................................vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI .......................................... vii

ABSTRAK ..................................................................................................................... viii

ABSTRACT......................................................................................................................ix

KATA PENGANTAR ....................................................................................................... x

Daftar isi ...........................................................................................................................xi

Daftar Gambar ............................................................................................................... xiii

Daftar Tabel .................................................................................................................... xiv

BAB I PENDAHULUAN .............................................................................................. 1

1.1 Latar Belakang ................................................................................................... 1

1.2 Rumusan Masalah .............................................................................................. 3

1.3 Tujuan Penelitian................................................................................................ 3

1.4 Manfaat Penelitian.............................................................................................. 3

1.5 Batasan Masalah ................................................................................................. 4

1.6 Sistematika Penulisan ......................................................................................... 4

BAB II LANDASAN TEORI ......................................................................................... 6

2.1 Knowledge Discovery in Database ..................................................................... 6

2.2 Pengertian Clustering ....................................................................................... 11

2.3 Pengertian Hierarchical Clustering ................................................................... 12

2.4 Agglomerative Hierarchical Clustering ............................................................ 13

2.5 Uji Akurasi ....................................................................................................... 16

2.6 Bank ................................................................................................................. 19

2.6.1 Credit Scoring ................................................................................................ 19

BAB III METODE PENELITIAN ................................................................................. 22

3.1 Gambaran Umum ................................................................................................ 22

3.2 Data ........................................................................................................................ 23

3.3 Pre-processing .................................................................................................. 25

3.4 Hitung Jarak ........................................................................................................... 29

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

xii

3.5 Agglomerative Hierarchical Clustering ................................................................. 30

3.6 Perhitungan Akurasi ......................................................................................... 34

3.7 Desain User Interface ....................................................................................... 40

3.8 Kebutuhan Perangkat Lunak dan Perangkat Keras ........................................... 41

BAB IV IMPLEMENTASI DAN ANALISA ................................................................ 42

4.1 Implementasi .......................................................................................................... 42

4.1.1 Pengolahan Data ............................................................................................. 42

4.1.2 Clustering ....................................................................................................... 42

4.2 User Interface ................................................................................................. 46

4.2.1 Input data........................................................................................................ 47

4.2.2 Pre-processing ................................................................................................ 48

4.2.3 Silhouette Index .............................................................................................. 48

4.2.4 Proses AHC dan Akurasi ................................................................................ 48

4.2.5 Analisa Hasil .................................................................................................. 49

BAB V PENUTUP ........................................................................................................ 55

5.1 Kesimpulan ...................................................................................................... 55

5.2 Saran ................................................................................................................ 55

DAFTAR PUSTAKA ..................................................................................................... 56

LAMPIRAN..................................................................................................................... 57

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

xiii

Daftar Gambar

Gambar 2. 1 Knowledge Discovery in Database (Fayyad, 1996) ........................... 7

Gambar 2. 2 Pengelompokan cluster dendogram dan kedekatan data

(Tan,Steinbach,dkk 2004) ..................................................................................... 13

Gambar 2. 3 Single Linkage.................................................................................. 15

Gambar 2. 4 contoh Complete-linkage ................................................................. 15

Gambar 2. 5 Contoh Average-linkage .................................................................. 16

Gambar 3. 1 Blok diagram proses program .......................................................... 22

Gambar 3. 2 Dendrogram Single Linkage ............................................................ 31

Gambar 3. 3 Dendrogram Complete Linkage ....................................................... 31

Gambar 3. 4 Dendrogram Average Linkage ......................................................... 32

Gambar 3. 5 Data sampel yang digunakan untuk perhitungan silhouette index ... 34

Gambar 3. 6 Data cluster 0 sebelum proses hitung jarak ...................................... 34

Gambar 3. 7 Data cluster 1 sebelum proses hitung jarak ...................................... 35

Gambar 3. 8 User Interface ................................................................................... 40

Gambar 4. 1 Implementasi- Dendrogram Single Linkage .................................... 44

Gambar 4. 2 Implementasi- Dendrogram Average Linkage ................................. 45

Gambar 4. 3 Implementasi- Dendrogram Complete Linkage ............................... 46

Gambar 4. 4 Tampilan keseluruhan sistem ........................................................... 47

Gambar 4. 5 Implementasi – input data ................................................................ 48

Gambar 4. 6 Implementasi – Pre-processing ........................................................ 48

Gambar 4. 7 Tampilan silhouette index ................................................................ 48

Gambar 4. 8Implementasi - Hasil proses AHC dan Confusion Matrix ............... 49

Gambar 4. 9 Hasil rata-rata Silhouette index pada data ........................................ 52

Gambar 4. 10 Hasil cluster menggunakan k-means clustering ............................. 53

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

xiv

Daftar Tabel

Tabel 2. 1 Tabel confusion matrix ........................................................................ 18

Tabel 3. 1 Penjelasan atribut ................................................................................. 23

Tabel 3. 2 Hasil perankingan atribut ..................................................................... 25

Tabel 3. 3 Normalisasi beberapa data menggunakan metode Min-Max .............. 27

Tabel 3. 4 Similarity Matriks ................................................................................ 30

Tabel 3. 5 Contoh Cluster Single Linkage ............................................................ 32

Tabel 3. 6 Contoh Cluster Complete Linkage ....................................................... 33

Tabel 3. 7 Contoh Cluster Average Linkage ......................................................... 33

Tabel 3. 8 Hasil hitung jarak cluster 0 dengan Euclidean distance ....................... 35

Tabel 3. 9 Hasil hitung jarak cluster 1 dengan Euclidean distance ...................... 35

Tabel 3. 10 Hasil nilai ai untuk cluster 0 .............................................................. 37

Tabel 3. 11 Hasil nilai ai untuk cluster 1 .............................................................. 37

Tabel 3. 12 Hasil hitung jarak dari cluster 0 ke cluster 1 ...................................... 38

Tabel 3. 13 Hasil hitung jarak dari cluster 1 ke cluster 0 ...................................... 38

Tabel 3. 14 Hasil nilai 𝑏𝑖 pada cluster 0.............................................................. 38

Tabel 3. 15 Hasil nilai 𝑏𝑖 pada cluster 1............................................................... 39

Tabel 3. 16 Hasil nilai 𝑆𝐼 pada cluster 0 .............................................................. 39

Tabel 3. 17 Hasil nilai 𝑆𝐼 pada cluster 1 .............................................................. 40

Tabel 4. 1 Hasil akurasi tiga pendekataan ............................................................. 50

Tabel 4. 2 Confusion matrix single linkage .......................................................... 50

Tabel 4. 3 confusion matrix average linkage ........................................................ 50

Tabel 4. 4 confusion matrix complete linkage ..................................................... 51

Tabel 4. 5 tabel confusion matrix k-means clustering .......................................... 54

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Seperti yang telah diatur dalam UU RI nomor 10 tahun 1998 tentang perbankan

(pasal 1 ayat 2), Bank adalah badan usaha yang menghimpun dana dari

masyarakat dalam bentuk simpanan dan menyalurkannya kepada masyarakat

dalam bentuk kredit dan atau bentuk-bentuk lainnya dalam rangka meningkatkan

taraf hidup rakyat banyak. Peranan bank sebagai lembaga keuangan tidak terlepas

dari kredit. Kata credit berasal dari bahasa latin yaitu credere yang berarti

kepercayaan (Ardela 2017). Pemilik uang atau barang (kreditor) memberi

kepercayaan kepada pihak peminjam (debitor) untuk menggunakan uang atau

barangnya selama waktu tertentu. Peminjaman ini disertai pula dengan

kepercayaan bahwa sang debitor dapat mengembalikan uang atau barang yang

dipinjamkan. Dengan demikian, kredit adalah pemberian pemakaian suatu uang

atau barang kepada orang lain dalam jangka waktu tertentu dengan jaminan atau

tanpa jaminan, dengan pemberian jasa bunga atau tanpa bunga.

Menurut UU. No.10 Tahun 1998 tentang perbankan, disebutkan bahwa

kredit adalah suatu penyediaan uang atau tagihan yang dapat disamakan dengan

itu, berdasarkan persetujuan atau kesepakatan pinjam-meminjam antara bank dan

pihak lain yang mewajibkan pihak peminjam untuk melunasi utangnya setelah

jangka waktu tertentu dengan pemberian bunga. Dari uraian ini dapat kita

simpulkan bahwa kredit diberikan kepada seseorang atau lembaga dengan

pertimbangan kepercayaan,resiko,waktu dan prestasi. Kepercayaan berarti kredit

yang diberikan akan dikembalikan dalam jangka waktu yang telah disepakati

beserta imbalan (prestasi) dari pemberi kredit tersebut. Resiko antara lain

mengacu pada kenyataan bahwa nilai uang sekarang akan berbeda dengan nilai

uang ketika dikembalikan. Resiko lainnya muncul jika keputusan salah dibuat

ketika mengkonfirmasi permintaan peminjam. Maka dari itu, risiko kredit

merupakan salah satu tantangan yang mungkin dihadapi oleh lembaga keuangan,

dan dibutuhkannya credit scoring untuk mengatasi resiko tersebut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2

Credit score atau penilaian kredit adalah sistem yang digunakan oleh bank

atau lembaga pembiayaan lainnya untuk menentukan apakah nasabah layak atau

tidak layak mendapatkan pinjaman (Ramdani,2017). Dari penilaian kredit ini bank

akan mengetahui tentang sejarah pinjaman nasabah, seperti mengenai bagaimana

siklus pembayaran tagihan, apakah nasabah membayar tagihan tepat waktu atau

tidak, berapa banyak kredit yang masih atau pernah dimiliki. Selain membantu

bank menentukan apakah pinjaman nasabah disetujui atau tidak, credit score juga

menentukan berapa besarnya pinjaman yang akan nasabah peroleh, berapa jangka

waktu yang nasabah dapatkan serta berapa besarnya bunga pinjaman yang

dikenai.Namun, dengan data yang sangat banyak akan lebih rumit menentukan

apakah pinjaman nasabah disetujui atau tidak terutama bila dikerjakan secara

manual dan juga memakan waktu yang lama apabila dikerjakan secara manual,

selain itu data kredit yang tidak seimbang juga dianggap sebagai masalah serius.

Oleh karena itu, untuk mempermudahkan dalam penentuan pinjaman nasabah

dengan data yang banyak dan untuk mengurangi waktu pengerjaan maka

diperlukan suatu sistem yang dapat menangani masalah tersebut. Sistem yang

akan dibuat diharapkan dapat membantu mengatasi masalah credit scoring dalam

menentukan good creditor dan bad creditor. Sistem ini berupa sistem informasi

pengelompokan credit scoring bagi nasabah pada bank xyz dengan menggunakan

metode Agglomerative Hierarchical Clustering.

Sistem ini nantinya berfungsi untuk mengelompok kan data-data nasabah

yang sangat banyak menjadi beberapa kelompok. Sistem ini juga nantinya

berguna untuk memperkecil resiko kegagalan yang terkait dengan keputusan

kredit. Selain itu, sistem ini juga diharapkan dapat menentukan good creditor

maupun bad creditor dengan akurasi yang lebih baik. Penelitian ini menggunakan

jenis clustering dalam data mining, dimana clustering itu sendiri merupakan

sebuah proses untuk mengelompokan data ke dalam beberapa cluster atau

kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang

maksimum dan data antar cluster memiliki kemiripan yang minimum (Tan,2016).

Cluster dapat disebut juga sebagai koleksi objek data yang memiliki kesamaan

satu sama lain dalam kelompok yang sama dan berbeda dengan objek dikelompok

lain. Clustering merupakan suatu kumpulan dari keseluruhan cluster (H.G

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

3

Wilson,2009). Beberapa tipe Clustering adalah, Partitional vs Hierarchical,

Exclusive vs non-exclusive, Fuzzy vs non-fuzzy dan Partial vs Complete. Untuk

penelitian ini sendiri menggunakan tipe clustering hierarchical.

Penelitian ini menggunakan metode agglomerative hierarchical clustering

karena dari beberapa jurnal yang menjadi referensi, pengelompokan dan akurasi

yang menggunakan metode ini mendapatkan hasil yang cukup baik.

1.2 Rumusan Masalah

Berdasarkan dari permasalahan yang telah dijabarkan sebelumnya maka

ditemukan masalah yang diangkat kedalam penelitian tugas akhir ini :

1. Bagaimana mengimplementasikan pendekatan agglomerative hierarchical

clustering untuk pengelompokkan good creditor atau bad creditor pada data

set suatu bank secara otomatis.

2. Apakah pendekatan hierarchical clustering mampu mengelompokkan good

creditor atau bad creditor dengan baik.

1.3 Tujuan Penelitian

Berikut tujuan penelitian yang di harapkan :

1. Tersedianya sistem pengelompokan credit scoring bagi nasabah bank xyz

dengan menggunakan algoritma hierarchical clustering.

2. Mengetahui besar akurasi dari sistem yang dibangun dalam pengelompokan

credit scoring bank xyz.

1.4 Manfaat Penelitian

Dengan adanya tujuan dari penelitian diatas, maka diharapkan dapat

bermanfaat bagi semua pihak. Manfaat penelitian ini yaitu :

1. Membantu bank dalam mengetahui sistem pengelompokan credit scoring

bagi nasabah bank dengan menggunakan algoritma hierarchical clustering

2. Menambah pengetahuan dan pengalaman tentang pengelompokkan credit

scoring dari data nasabah bank dengan menggunakan algoritma

agglomerative hierarchical clustering.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

4

3. Hasil dari penelitian ini dapat dijadikan bahan rujukan bagi semua ilmu

yang berhubungan dengan penelitian dan dapat menjadi referensi bagi

mahasiswa yang melakukan kajian terhadap algoritma ini.

1.5 Batasan Masalah

Dalam tugas akhir ini terdapat beberapa batasan yang dijadikan dasar dalam

pengerjaannya :

1. Algoritma yang digunakan dalam penelitian sistem pengelompokkan credit

scoring bagi nasabah bank xyz adalah algoritma hierarchical clustering.

2. Data yang digunakan dalam penelitian ini adalah dataset credit scoring dari

bank xyz.

1.6 Sistematika Penulisan

Untuk memberikan gambaran dan kerangka yang jelas pada tiap bab dalam

penelitian ini. Maka diperlukan sistematika penulisan. Berikut ini gambaran

sistematika penulisan dalam masing-masing bab:

BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,

manfaat penelitian, batasan masalah dan sistematika penulisan

BAB II LANDASAN TEORI

Bab ini menjelaskan tentang landasan teori yang berhubungan dengan

penelitian yang akan dilakukan untuk memecahkan masalah yang diteliti.

BAB III METODE PENELITIAN

Bab ini berisi tentang metode pengumpulan data, teknik analisa data,

rancangan user interface, dan kebutuhan software serta hardware.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

5

BAB IV IMPLEMENTASI SISTEM DAN ANALISA HASIL

BAB V Bab ini berisi tentang implementasi program serta analisa sistem

pengelompokan, capaian belajar dengan algoritma agglomerative hierarchical

clustering

BAB V KESIMPULAN DAN SARAN

Bab ini berisi tentang kesimpulan dari keseluruhan proses pembuatan tugas

akhir dan saran pengembangan lebih lanjut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

6

BAB II

LANDASAN TEORI

Bab ini berisi tentang penjelasan teori-teori yang berhubungan dengan

penulisan tugas akhir ini. Agar sebuah penelitian dapat berhasil dibutuhkan

referensi sebagai landasan teori, selain itu landasan teori dapat mempertanggung

jawabkan hasil akhir dari penelitian ini.

2.1 Knowledge Discovery in Database

Knowledge Discovery and Data Mining(KDD) adalah proses yang dibantu

oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data

dan mengekstrak informasi dan pengetahuan yang berguna. Data mining

tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk

membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data mining

tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama

untuk diselesaikan. Data mining tools menjelajah database untuk mencari pola

tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para

pakar karena berada di luar ekspektasi mereka. Tahapan yang dilakukan pada

proses data mining diawali dari seleksi data dari data sumber ke data target, tahap

preprocessing untuk memperbaiki kualitas data, transformasi, data mining serta

tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan

baru yang diharapkan memberikan kontribusi yang lebih baik. Secara detail

dijelaskan sebagai berikut (Fayyad, 1996):

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

7

Gambar 2. 1 Knowledge Discovery in Database (Fayyad, 1996)

1. Data Selection

Seleksi dari sekumpulan data operasional perlu dilakukan sebelum ke tahap

penggalian informasi pada KDD dimulai. Hasil dari seleksi data ini digunakan

sebagai proses data mining, disimpan dalam suatu berkas dan terpisah dari basis

data operasional. Selain itu, tujuan dari seleksi data adalah menciptakan himpunan

data target, pemilihan himpunan data, atau memfokuskan pada subset variabel

atau sampel data, dimana penemuan (discovery) akan dilakukan. Pada

penelitian ini proses data selection dilakukan menggunakan information gain.

Rumus menghitung information gain (Han et al.,2012) :

𝐼𝑛𝑓𝑜 (𝐷) = −∑1=1𝑚 pi log2(pi)…… (2.1)

Keterangan :

D : Jumlah seluruh sampel data

M : jumlah nilai pada atribut target (jumlah kelas klasifikasi).

I : Maksimal nilai pada atribut target.

Pi : probabiltas munculnya kelas ke i

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

8

Info A (D) = ∑𝑗=1𝑣

|𝐷𝑗|

𝐷 X Info (Di) (2.2)

Keterangan:

A : Atribut

v : Suatu nilai yang mungkin untuk atribut A.

J : Maksimal nilai yang mungkin untuk atribut A.

D : Jumlah seluruh sampel data.

|Dj|: Jumlah sampel untuk nilai j.

Di : jumlah sampel untuk kelas i.

Kemudian nilai information gain yang digunakan untuk mengukur efektifitas

suatu atribut dalam pengklasifikasin data dapat dihitung dengan rumus di bawah

ini :

Gain (A) = |Info(D) – InfoA(D)| (2.3)

Keterangan :

A : Atribut.

Info (D) : Entropi untuk kelas D.

InfoA(D) : Entropi untuk kelas D pada atribut A.

2. Pre-processing / Cleaning

Sebelum proses data mining dilakukan, maka terlebih dahulu melakukan proses

cleaning pada data. Proses cleaning mencakup antara lain membuang duplikasi

data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data,

seperti kesalahan cetak (tipografi). Dilakukan pula proses enrichment, yaitu

proses memperkaya data yang sudah ada dengan data atau informasi lain yang

relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

9

3. Transformation

Tahap ini merupakan proses mentransformasi data ke dalam bentuk yang

dibutuhkan agar selanjutnya beralih ke tahap data mining. Jadi, pada tahap

transformasi ini dilakukan beberapa perubahan pada atribut-atribut yang

bentuknya masih belum sesuai untuk melakukan penggalian.

4. Data mining

Data Mining adalah kegiatan untuk menemukan informasi atau

pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar.

Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya

klasifikasi, regresi, clustering, dll. Pemilihan algoritma data mining untuk

pencarian (searching). Proses Data mining yaitu proses mencari pola atau

informasi menarik dalam data terpilih dengan menggunakan teknik atau

metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat

bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada

tujuan dan proses KDD secara keseluruhan. Di dalam data mining terdapat 2

pendekatan untuk melakukan teknik-teknik data mining. Dua pendekatan

tersebut akan dijelaskan sebagai berikut (Chandra, 2017):

A. Supervised Learning

Merupakan sebuah pendekatan dimana sudah terdapat data yang dilatih,

dan terdapat variabel yang ditargetkan sehingga tujuan dari pendekatan ini

adalah mengelompokkan suatu data ke data yang sudah ada. Algoritma

Supervised learning :

Decision tree

Decision tree atau pohon keputusan adalah pohon yang digunakan

sebagai prosedur penalaran untuk mendapatkan jawaban dari masalah yang

dimasukkan (Prasetyo, 2012).

Nearest – Neighbor Classifier

Nearest Neighbor melakukan klasifikasi berdasarkan kemiripan suatu data

dengan data yang lain (Tan et al,2005).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

10

Naïve Bayes Classifier

Metode Naive Bayes bekerja secara fitur independen yang artinya sebuah

fitur dalam sebuah data tidak berkaitan dengan ada atau tidaknya fitur yang

lain dalam data yang sama (Prasetyo, 2012).

Artifical Neural Network

Artifical Neural Network (ANN) merupakan suatu konsep rekayasa

pengetahuan dalam bidang kecerdasan buatan yang didesain dengan

mengadopsi sistem saraf manusia, di mana pemrosesan utama sistem saraf

manusia ada di otak (Shepherd dan Koch, 1990)

Support Vector Machine

Metode ini berakar dari teori pembelajaran stastistik dan menggunakan

teknik kernel yang harus memetakan data asli dari dimensi asalnya menjadi

dimensi lain yang relative tinggi (Prastyo, 2012)

Fuzzy K-Nearest Neighbor

Fuzzy K-NN merupakan salah satu metode klasifikasi dengan

menggabungkan teknik Fuzzy dan K-NN. Metode ini tidak seperti metode lain

yang mana pada metode ini akan secara tegas memprediksi kelas yang diikuti

oleh data uji berdasarkan perbandingan K terdekat. Dasar dari algoritma FK-

NN adalah untuk menetapkan nilai keanggotaan sebagai fungsi jarak vektor

dari KNN dan keanggotaan tetangga mereka di kelas kelas yang

memungkinkan

B. Unsupervised Learning

Merupakan sebuah pendekatan yang tidak memiliki data latih, sehingga

dari data yang ada dapat dikelompokkan menjadi 2 bagian atau 3 bagian dan

seterusnya. Algoritma Unsupervised Learning :

K-Means

Algortima K-Means merupakan algoritma pengelompokan iteratif yang

melakukan partisi set data ke dalam sejumlah K cluster yang sudah ditetapkan

di awal. Algortima K-Means sederhana untuk diimplementasikan dan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

11

dijalankan, relatif cepat, mudah beradaptasi, umum penggunaannya dalam

praktek (Wulan dan Kumar, 2009).

Hierarchical Clustering

Merupakan metode pengelompokkan berbasis hierarki dengan pendekatan

bottom up, yaitu proses pengelompokkan dimulai dari masing-masing data

sebagai satu buah cluster, kemudian secara rekursif mencari cluster terdekat

sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar

(Prasetyo, 2013)

DBSCAN

Menurut Eko P. (2012), Density-Based Spatial Clustering of Applications

with Noise (DBSCAN) merupakan algoritma pengelompokan yang didasarkan

pada kepadatan (density) data. Konsep kepadatan yang dimaksud dalam

DBSCAN adalah jumlah data yang berada dalam radius Eps (ԑ) dari setiap

data.

Fuzzy C-Means

Fuzzy C-Means adalah suatu teknik peng-cluster-an yang mana keberadaannya

tiap-tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan

(Bezdek, Jim,1981).

Dalam penelitian ini metode yang digunakan termasuk dalam kelompok

unsupervised learning.

C. Interpretation / Evaluation

Tahap ini merupakan bagian dari proses KDD yang mencakup

pemeriksaan apakah pola atau informasi yang ditemukan bertentangan

dengan fakta atau hipotesa yang ada sebelumnya. Jika pola atau informasi yang

dihasilkan masih bertentangan dengan fakta, maka perlu dilakukan pengkajian

ulang pada data dan proses yang dilakukan.

2.2 Pengertian Clustering

Clustering atau klasterisasi adalah metode pengelompokan data.

Clustering dapat dimengerti juga sebagai metode yang berfungsi untuk

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

12

mengelompokkan obyek yang sama menjadi satu kelompok (cluster), sedangkan

obyek yang berbeda di cluster yang berbeda pula. Cluster bertujuan untuk

menemukan kemiripan (similarity) antara data ( Situmorang, 2015). Kemiripan

yang dimaksud berkaitan dengan karakteristik yang ditemukan di dalam data

tersebut, contohnya berdasarkan nilai atribut dari obyek dan dapat juga berupa

perhitungan jarak. Dengan demikian akan terbentuk kelompok-kelompok data di

mana masing-masing kelompok mengandung data yang memiliki kedekatan

karakteristik. Clustering (pengelompokan) disebut juga sebagai unsupervised

learning atau pembelajaran tidak terbimbing karena mengelompokkan data

berdasarkan kemiripan/ketidakmiripan antar-data tanpa ada label kelas yang

diketahui sebelumnya. Cluster analysis merupakan proses pemisahan satu set

objek data ke dalam himpunan bagian. Setiap himpunan bagian merupakan

cluster, sehingga tiap objek yang berada di dalam cluster mirip satu dengan yang

lainnya dan juga mempunyai perbedaan dengan objek dari cluster yang lain.

Pemisahan tidak dilakukan secara manual namun menggunakan algoritma

clustering.Terdapat dua jenis pendekatan dengan menggunakan clustering, yaitu

partition clustering dan hierarchical clustering. Di dalam tugas akhir ini

pendekatan yang digunakan adalah hierarchical clustering.

2.3 Pengertian Hierarchical Clustering

` Hierarchical clustering membuat pengelompokan data berdasarkan

tingkatannya. Dengan cara ini dapat dihasilkan suatu kumpulan partisi yang

berurutan dengan visualisasi dendogram yaitu sebuah pohon yang berfungsi

sebagai diagram yang mencatat urutan dari penggabungan atau pemisah seperti

pada gambar berikut :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

13

Gambar 2. 2 Pengelompokan cluster dendogram dan kedekatan data

(Tan,Steinbach,dkk 2004)

Gambar pengelompokan cluster dendrogram dan kedekatan data diatas

menunjukkan bahwa obyek dengan tingkat similarity atau kemiripan yang tinggi

seperti p2,p3, dan p4 akan menjadi satu kelompok, begitu juga dengan data-data

lain yang memiliki tingkat kemiripan yang tinggi atau sama akan menjadi satu

kelompok. Secara singkat dapat dikatakan bahwa metode hierarchical clustering

bekerja untuk mengelompokkan obyek data ke dalam struktur cluster berdasarkan

kemiripannya. Sehingga, dengan menggunakan hierarchical clustering data yang

memiliki kemiripan berada di hierarki yang sama, begitu juga pada data yang

berbeda akan berada di hierarki yang berbeda pula (Situmorang, 2015). Ada dua

tipe utama hierarchical clustering, yaitu divisive (top-bottom) dan agglomerative

(bottom-up) namun pada penelitian ini menggunakan pendekatan agglomerative

hierarchical clustering. Pemilihan ini berdasarkan pada; pertama,algoritma

hierarchical clustering tampak lebih sederhana. Kedua, pengelompokkan data

dapat dilihat menggunakan dendogram. Ketiga, karena pendekatan ini

menggunakan desain bottom-up maka pengelompokan data dimulai dari yang

kecil kearah pengelompokan terbesar, desain ini sangat membantu untuk proses

pengenalan similaritas dengan pengelompokkan data.

2.4 Agglomerative Hierarchical Clustering

Agglomerative Hierarchical Clustering merupakan metode

pengelompokan berbasis hierarki dengan pendekatan bottom up, yaitu

proses pengelompokan dimulai dari masing-masing data sebagai satu

cluster, kemudian secara rekusif mencari cluster terdekat sebagai pasangan

untuk bergabung sebagai satu cluster yang lebih besar (Prasetyo,2014).

Proses tersebut diulang terus sehingga tampak bergerak ke atas

membentuk hierarki. Kunci operasi metode Agglomerative Hierarchical

Clustering adalah penggunaan ukuran kedekatan diantara dua cluster

(Hartini,2012). Ada tiga teknik yang dapat digunakan untuk menghitung

kedekatan diantara dua cluster dalam metode Agglomerative Hierarchical

Clustering yaitu Single linkage, Complete Linkage, dan Averange Linkage.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

14

Seperti juga halnya dengan partition-based clustering, bisa juga memilih

jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.

Pengelompokan berbasis hierarki sering ditampilkan dalam bentuk

grafis menggunakan diagram yang mirip pohon (tree) yang disebut dengan

dendrogram. Dendrogram merupakan diagram yang menampilkan

hubungan cluster dengan sub cluster nya dalam urutan yang mana cluster

yang digabung (agglomerative view ) atau dipecah (divisive view)

(Prasetyo,2014). Salah satu cara untuk mempermudah pengembangan

dendogram untuk hierarchical clustering ini adalah dengan membuat

similarity matrix yang memuat tingkat kemiripan antar data yang

dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam

cara seperti dengan Euclidean distance. Berawal dari similarity matrix ini,

akan diketahui jenis mana yang akan digunakan untuk mengelompokkan

data yang dianalisa dengan menggunakan linkage. Berikut adalah langkah

dalam pengelompokkan dengan agglomerative clustering (Prasetyo,2013):

1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan

2. Ulangi langkah 3 sampai 4, hingga hanya satu cluster yang tersisa

3. Gabungkan 2 cluster terdekat berdasarkan parameter kedekatan yang

ditentukan

4. Perbarui matriks kedekatan untuk merefleksikan kedekatan di antara

cluster baru dan cluster yang tersisa

untuk perhitungan jarak Single-linkage, Complete-linkage dan Average-

linkage seperti pada rumus berikut:

a. Single-linkage menentukan kedekatan diantara dua data

terdekat(terkecil) antara dua data cluster yang berbeda, dapat didefenisikan

sebagai berikut :

duv = min{duv} (2.4)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

15

Keterangan:

- {duv} adalah jarak antara data U dan V dari masing-masing cluster U dan

V. Pada contoh gambar single linkage dibawah memberikan hasil bila

cluster-cluster digabungkan menurut jarak antara anggota-anggota yang

paling dekat di antara dua cluster.

Gambar 2. 3 Single Linkage

b. Complete-linkage menentukan kedekatan diantara dua data dari jarak

terjauh(terbesar) antara dua data cluster yang berbeda, dapat didefenisikan

sebagai berikut :

duv = max{duv} (2.5)

Keterangan:

- {duv} adalah jarak antara data U dan V dari masing-masing cluster U dan

V. Pada contoh gambar complete linkage dibawah memberikan hasil bila

kelompok-kelompok digabungkan menurut jarak antara anggota-anggota

yang paling jauh di antara dua cluster.

Gambar 2. 4 contoh Complete-linkage

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

16

c. Average-linkage menentukan kedekatan diantara dua data dari jarak

rata-rata antara dua data cluster yang berbeda. Dapat didefenisikan sebagai

berikut :

duv = 1

|U|∗|V|ƩU𝜖DƩV𝜖D

d UV (2.6)

Keterangan

- |U| dan |V| adalah jumlah data yang ada dalam cluster U dan V. Pada

contoh gambar average linkage dibawah memberikan hasil bila kelompok-

kelompok digabungkan menurut jarak rata-rata antara pasangan-pasangan

anggota msing-masing pada himpunan di antara dua cluster.

Gambar 2. 5 Contoh Average-linkage

2.5 Uji Akurasi

Hasil clustering yang telah di didapat dengan menggunakan metode

agglomerative hierarchical clustering perlu diuji keakuratannya atau akurasinya

agar dapat diketahui validasi dari data tersebut. Validasi dalam clustering terdapat

2 jenis yaitu validasi internal dan validasi eksternal. Validasi internal sendiri

berupa : Davies-Boldin Index, silhouette Index, Dun Index, dan validasi Fuzzy

Clustering, untuk penulisan ini penulis menggunakan silhouette Index untuk

validasi internal karena lebih mudah untuk dipahami dan sesuai dengan data

penelitian. Sedangkan untuk jenis validasi eksternal berupa validasi Berorientasi

Klasifikasi, validasi Berorientasi Kemiripan, dan confusion matrix, penulis

memilih confusion matrix untuk validasi eksternal karena lebih mudah untuk

dipahami juga (Prasetyo E, 2012).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

17

1. Validasi Internal

Validasi internal atau yang dikenal dengan unsupervised validation

merupakan penguji data cluster tanpa membutuhkan informasi eksternal atau

dari luar. Contoh dari validasi ini adalah silhouette index. Silhouette index(SI)

dapat digunakan untuk memvalidasi baik sebuah data, cluster tunggal (satu

cluster dari sejumlah cluster), atau bahkan keseluruhan cluster. Untuk

menghitung nilai dari SI dari data ke-i, terdapat dua komponen yaitu ai dan bi,

ai adalah jarak dari data ke-i terhadap semua data dalam cluster yang sama.

Sedangkan bi adalah hasil rata-rata jarak data ke-i terhadap semua data dari

cluster lain. Nilai SI yang didapat dalam rentang [-1,+1]. Nilai SI yang

mendekati 1 menandakan bahwa data tersebut semakin tepat berada di dalam

cluster tersebut( karena lebih dekat ke cluster yang lain). SI bernilai 0 (atau

mendekati 0) berarti data tersebut diposisinya berada di perbatasan di antara

dua cluster (Prasetyo E, 2012). Berikut merupakan rumus yang digunakan

untuk menghitung ai :

𝑎𝑖𝑗

=1

𝑚𝑗−1∑ 𝑑(𝑥𝑖

𝑗,

𝑚𝑗𝑟=1

𝑟≠𝑖

𝑥𝑟𝑗) (2.7)

𝑑(𝑥𝑖𝑗 , 𝑥𝑟

𝑗) merupakan jarak data ke-i dengan data ke-r dalam satu cluster,

sedangkan mj adalah jumlah data dalam satu cluster.

Berikut rumus bi:

(2.8)

Untuk menghitung SI data ke-i menggunakan persamaan :

𝑆𝐼𝑖𝑗 =

𝑏𝑖𝑗 − 𝑎𝑖

𝑗

max{𝑏𝑖𝑗 , 𝑎𝑖

𝑗}

(2.9)

𝑏𝑖𝑗 = 𝑚𝑖𝑛{

1

𝑚𝑛∑ 𝑑(𝑥𝑖

𝑗 ,𝑚𝑗𝑟=1

𝑟≠𝑖

𝑥𝑟𝑛)}

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

18

2. Validasi Eksternal

Berbeda dengan validasi internal yang menguji data cluster tanpa

membutuhkan informasi eksternal atau dari luar maka untuk validasi eksternal

sendiri membutuhkan informasi dari luar yang dimiliki setiap data yang

dikelompokkan. Menggunakan label kelas dalam validasi cluster adalah

berguna sebagai perbandingan teknik clustering dengan kebenaran dasar

(ground truth) atau evaluasi sejauh mana proses panduan klasifikasi dapat

secara otomatis dihasilkan oleh analisis cluster (Tan te al, 2006). Validasi

eksternal dilakukan dengan mengukur tingkat kedekatan antara label cluster

dengan label kelas. Validasi eksternal dapat dilakukan dengan menggunakan

confusion matrix sebagai berikut :

Tabel 2. 1 Tabel confusion matrix

Positif Negatif

Positif TP (True Positif) FN (False Negatif)

Negatif FP (False Positif) TN (True Negatif)

Confusion matrix menggunakan tabel 2.1 diatas menjelaskan jika dataset

hanya terdiri dari dua kelas. Satu kelas bernilai positif (true), sedangkan kelas

yang lain bernilai negatif (false). True positif adalah jumlah record positif yang

diklasifikasikan sebagai positif, false positif adalah jumlah record negatif yang

diklasifikasikan sebagai positif, false negatif adalah jumlah record positif yang

diklasifikasikan sebagai negatif, dan true negatif adalah jumlah record negatif

yang diklasifikasikan sebagai negatif (Bramer,2007).

Untuk menghitung akurasi maka digunakan persamaan (Prasetyo,2012):

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100 % (2.10)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

19

Keterangan :

TP = Jumlah positif yang diklasifikasi sebagai positif

TN = Jumlah negatif yang diklasifikasi sebagai negatif

FP = Jumlah negatif yang diklasifikasikan sebagai positif

FN = Jumlah positif yang diklasifikasikan sebagai negatif

2.6 Bank

Menurut UU RI nomor 10 Tahun 1998 tanggal 10 November 1998 tentang

perbankan (pasal 1 ayat 2), bank adalah sebuah badan usaha yang menghimpun

dana dari masyarakat dalam bentuk simpanan dan menyalurkannya kepada

masyarakat dalam bentuk kredit dan atau bentuk-bentuk lain dengan tujuan untuk

meningkatkan taraf hidup orang banyak. Dijelaskan lebih lanjut dalam pasal 1

ayat 3 bahwa bank umum adalah bank yang melaksanakan kegiatan-kegiatan

konvensional maupun secara syariah dalam kegiatannya memberikan jasa

keuangan dalam lalu lintas pembayaran. Salah satu produk jasa keuangan yang

dimiliki bank yang dapat digunakan oleh masyarakt umum adalah kredit. Kredit

adalah hak untuk menerima pembayaran atau kewajiban melakukan pembayaran

pada waktu diminta atau pada waktu yang akan datang, karena penyerahan

barang-barang pada waktu sekarang ( Brymont P.Kent ). Sebelum bank menerima

pengajuan kredit dari nasabah bank akan melihat credit scoring atau penilaian

kredit nasabah tersebut. Penilaian kredit atau credit scoring ini sangat berguna

bagi bank untuk menentukan pengajuan kredit nasabah dapat diterima atau tidak,

selain itu credit scoring juga dapat melihat sejarah pinjaman nasabah, apakah

nasabah tersebut termasuk bad atau good creditor.

2.6.1 Credit Scoring

Credit scoring atau penilaian kredit adalah sistem yang digunakan oleh bank

atau lembaga pembiayaan lainnya untuk menentukan apakah nasabah layak atau

tidak mendapatkan pinjaman (Ramdani,2017). Dari penilaian kredit ini bank akan

mengetahui tentang sejarah pinjaman nasabah, seperti mengenai bagaimana siklus

pembayaran tagihan, apakah nasabah membayar tagihan tepat waktu atau tidak,

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

20

berapa banyak kredit yang masih atau pernah dimiliki.

Semua data itu membantu bank dalam menganalisa permohonan kredit

calon nasabahnya selain faktor-faktor kualitatif lainnya. Selain itu, dengan credit

score kreditur dapat membandingkan informasi debitur dengan kinerja pinjaman

nasabah lain dengan profil yang sama. Selain membantu bank menentukan apakah

pinjaman disetujui atau tidak, credit score juga menentukan berapa besarnya

pinjaman yang akan diperoleh, berapa jangka waktu yang didapatkan serta berapa

besarnya bunga pinjaman yang dikenai. Jika ternyata hasil credit scoring kecil,

maka kemungkinan masih dapat memperoleh pinjaman tetapi dengan bunga yang

lebih tinggi, atau diharuskan memberikan jaminan/ agunan.

Untuk memudahkan pengajuan, credit score harus terlihat baik di mata

bank, tidak memiliki credit score atau sejarah kredit lebih baik namun ini pun

bukan berarti pengajuan pinjaman menjadi lebih mudah. Setiap bank punya

perhitungan dan metode analisis yang berbeda-beda ketika melihat kualitas

debitur. Ada beberapa hal yang bisa dilakukan untuk menjaga dan meningkatkan

reputasi credit score. Berikut adalah beberapa tips untuk membantu

meningkatkannya (Widya reni, 2016):

a. Gunakan kartu kredit secara teratur

Penggunaan kartu kredit memberi pengaruh besar terhadap tingkat credit

score . Kartu kredit idealnya ialah pengganti uang tunai sebagai alat

pembayaran. Jadi, kalau tidak pernah menggunakan kartu kredit, maka tentu

tidak ada data yang terekam. Nasabah bisa mulai menggunakan kartu kredit

sebagai alat pembayaran, terutama barang dengan harga terbilang mahal,

seperti pembayaran pesawat dan hotel, atau membeli alat elektronik. Setelah itu

barulah gunakan kartu kredit pembayaran yang lebih kecil seperti makan di

restoran dan perlahan reputasi kreditmu akan terbentuk.

b. Jangan menunggak tagihan

Ketika menggunakan kartu kredit jangan biasakan diri untuk menunggak

tagihan. Tingkat kolektabilitas kredit nasabah merupakan salah satu cara bank

menilai kualitas kredit seseorang. Tingkat ini terbagi menjadi lima, yakni

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

21

lancar, dalam perhatian khusus, kurang lancar, diragukan dan macet.

Bagi pengguna kartu kredit upayakan untuk membayar tagihan 10% terlebih

dahulu dari total tagihan bulanan. Namun jika mampu membayar penuh itu

akan lebih baik untuk menghindari bunga yang tinggi setiap bulannya. Begitu

pula dengan angsuran pinjaman, selalu upayakan untuk membayar tepat waktu.

c. Ambil jeda kredit ditolak

Berikan jeda beberapa bulan ketika proses pengajuan pinjaman atau kartu

kredit ditolak. Saat masa jeda ini, bisa dilihat kembali apa yang salah.

Misalnya, mengajukan kredit lebih dari 30% dari pendapatan, atau masih

punya cicilan lain. Saat menunggu masa jeda ini, fokuslah untuk melunasi

utang-utang yang ada. Kemudian bisa juga mengajukan permohonan kartu

kredit berlimit rendah terlebih dahulu. Langkah ini akan membantu

meningkatkan skor dan memberikan indikasi positif kepada bank bahwa

debitur dapat dipercaya.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

22

BAB III

METODE PENELITIAN

Pada bab 3 ini berisikan metodologi yang digunakan pada penulisan, di bab

ini akan dijelaskan metode pengumpulan data, analisa data, rancangan user

interface, dan spesifikasi software dan hardware yang digunakan dalam

implementasi program.

3.1 Gambaran Umum

Berikut pembuatan sistem pengelompokan credit scoring dengan metode

agglomerative hierarchical clustering (AHC) untuk menguji apakah metode ini

bagus untuk data nasabah bank XYZ dalam bentuk diagram blok.

Gambar 3. 1 Blok diagram proses program

Blok diagram pada gambar 3.1 diatas menjelaskan kerja sistem pada

penelitian ini dengan pertama kali menginputkan data yang diperoleh dari arsip

nasabah bank dan akan di proses ke tahap pre-processing mulai dari data selection

hingga transformasi. Seleksi atribut pada penelitian ini berguna untuk melihat

atribut yang relevan untuk digunakan dalam penelitian dengan melakukan

perankingan. Transformasi data pada tahap pre-processing berguna untuk

memberi penskalaan pada data. Setelah melalui tahap pre-processing, data akan

dibawa ke tahap hitung jarak, dimana untuk menghitung jarak metode yang

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

23

digunakan adalah Euclidean distance dan akan menghasilkan matrix similarity.

Selanjutnya data akan masuk ke proses cluster dengan menggunakan metode

agglomerative hierarchical clustering dengan 3 pendekatan yaitu single(minimal),

complete(maksimal), average. Ketiga pendekatan tersebut nantinya akan

menghasilkan output berupa dendrogram dan akurasi, dimana pendekatan yang

dapat dikatakan baik adalah pendekatan yang memiliki diagram dendrogram

yang cukup seimbang dan akurasi yang tertinggi dari tiap-tiap pendekatan.

3.2 Data

Data yang digunakan dalam penelitian ini diperoleh dari data salah satu

bank swasta yang berada di Indonesia dan berbentuk file .xls. Data ini

dikumpulkan dari beberapa riwayat transaksi nasabah pada bank tersebut. Data

yang digunakan dalam penelitian ini sebanyak 3000 data dengan memiliki 23

atribut dan 1 label kelas. Data ini dikumpulkan dari beberapa riwayat transaksi

nasabah pada bank tersebut. Adapun bentuk nilai dalam data penelitian ini adalah

berbentuk numerik. Berikut penjelasan dari 23 atribut dan 1 label kelas yang

terdapat dalam data.

Tabel 3. 1 Penjelasan atribut

No Atribut Keterangan

1 X Id nasabah

2 Jumlah_kartu jumlah kartu aktif yang dimiliki

pelanggan

3 Outstanding total saldo pemakaian kartu kredit

4 Limit_kredit Jumlah maksimum limit kartu

kredit yang dapat digunakan

5 Tagihan Jumlah tagihan pada bulan

terakhir

6 Total_pemakaian_tunai Total pemakaian transaksi tunai

pada bulan terakhir (cash

advance)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

24

7 Total_pemakaian_retail Total pemakaian transaksi retail

pada bulan terakhir

8 Sisa_tagihan_tidak_terbayar Jumlah tagihan yang tidak

terbayar pada bulan terakhir

9 Kode_cabang Tanda yang diberikan untuk

cabang-cabang bank

10 Rasio_pembayaran Rasio perbandingan jumlah yang

dibayar dengan tagihan pada

bulan terakhir

11 Persentasi_overlimit Persentasi overlimit

12 Rasio_pembayaran_3bulan Rata-rata rasio pembayaran 3

bulan terakhir

13 Rasio_pembayaran_6bulan Rata-rata rasio pembayaran 6

bulan terakhir

14 Skor_delikuensi

15 jumlah_tahun_sejak_pembukaan_kredit Jumlah tahun sejak pembukaan

kartu kredit pertama kali

16 total_pemakaian Total pemakaian kartu kredit

(tunai dan retail) pada bulan

terakhir

17 sisa_tagihan_per_jumlah_kartu Jumlah tagihan yang tidak

terbayar pada bulan terakhir

dibagi jumlah kartu aktif

18 sisa_tagihan_per_limit Jumlah tagihan yang tidak

terbayar pada bulan terakhir

dibagi total limit

19 total_pemakaian_per_limit Total pemakaian kartu kredit

(tunai dan retail) pada bulan

terakhir dibagi total limit

20 pemakaian_3bln_per_limit Rata-rata pemakaian selama 3

bulan terakhir dibagi total limit

21 pemakaian_6bln_per_limit Rata-rata pemakaian selama 6

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

25

bulan terakhir dibagi total limit

22 utilisasi_3bulan Utilisasi kartu kredit selama 3

bulan terakhir

23 utilisasi_6bulan Utilisasi kartu kredit selama 6

bulan terakhir

24 Flag kredit macet Flag yang menandakan apakah

bad creditor atau good creditor.

bad creditor = 1

good creditor = 0

3.3 Pre-processing

Tahap selanjutnya setelah data di peroleh maka akan diolah pada tahap

pre-processing. Tahap pre-processing yang dilakukan sesuai dengan aturan KDD

yang sudah dijelaskan pada bab sebelumnya, dimana aturan KDD yang dilakukan

untuk data dalam penelitian ini adalah data selection dan transformasi. Berikut

proses aturan KDD yang dilakukan pada data :

Data Selection

Pada tahap ini data yang digunakan dalam penelitian memiliki 23

atribut akan di proses untuk memilih atribut yang relevan dan menghapus

atribut yang tidak relevan terhadap data di dalam penelitian, dimana

penulis menggunakan tools yang ada pada aplikasi Weka versi 3.8.3

dengan menerapkan metode Information Gain untuk melakukan

perankingan terhadap atribut yang ada pada data. Hasil dari penerapan

metode Information Gain pada Weka menghasilkan 17 atribut yang

relevan pada data dan memiliki ranking, yaitu :

Tabel 3. 2 Hasil perankingan atribut

No Ranking Atribut

1 1 Rasio_pembayaran

2 2 Total pemakaian retail

3 3 Total_pemakian_per_limit

4 4 Total_pemakaian

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

26

5 5 Rasio_pembayaran_3bulan

6 6 Utilisasi_3bulan

7 7 Tagihan

8 8 Outstanding

9 9 Sisa_tagihan_per_limit

10 10 Sisa tagihan tidak terbayar

11 11 Sisa_tagihan_per_jumlah_kartu

12 12 Utilisasi_6bulan

13 13 Rasio_pembayaran_6bulan

14 14 Pemakaian_3bln_per_limit

15 15 Persentasi_overlimit

16 16 Pemakaian_6bln_per_limit

17 17 Jumlah_tahun_sejak_pembukaan_kredit

Data Transformation

Tahap transformasi yang dilakukan pada data di dalam penelitian ini adalah untuk

melakukan perubahan pada atribut-atribut dimana atribut yang memiliki rentang

data yang besar akan menjadi atribut yang memiliki rentang data cukup kecil.

Untuk melakukan perubahan tersebut maka penulis menggunakan normalisasi

Min-Max yang bertujuan untuk penskalaan nilai pada atribut sehingga tiap nilai

pada atribut memiliki range yang lebih kecil seperti -1.0 sampai 1.0, atau 0.0

sampai 1.0. berikut algoritma yang digunakan untuk melakukan normalisasi Min-

Max (Han et al.,2012):

Vi=𝑋−𝑀𝑖𝑛(𝑋)

𝑀𝑎𝑥(𝑋)−𝑀𝑖𝑛(𝑋) (new_maxA – new_minA) + new-minA (3.1)

Keterangan :

X = Data yang akan di normalisasi.

Min(X) = Jumlah minimum data.

Max(X) = Jumlah maksimum data.

new_minA = range minimum data.

new_maxA = range maximum data.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

27

Berikut contoh cara perhitungan normalisasi beberapa atribut dari data

nasabah menggunakan algoritma Min-Max :

Normalisasi data atribut jumlah kartu

Vi = 2−2

4−2(1 − 0) + 0 = 0.0000453074513300073

Normalisasi data atribut outstanding

Vi = 268691−36158

22533915−36158(1 − 0) + 0 = 0.00401203610832497

Normalisasi data atribut limit

Vi = 10000000−28000000

28000000−5000000 (1 -0 ) + 0 = 0.0000054046310907977

Normalisasi data atribut tagihan

Vi = 254564−28000000

2334602−22419126 (1 – 0 ) +0 = 0

Setelah data pada 17 atribut di normalisasi menggunakan algoritma Min-Max

maka akan menghasilkan penskalaan data yang lebih kecil seperti pada tabel 3.3 :

Tabel 3. 3 Normalisasi beberapa data menggunakan metode Min-Max

X

rasio_pembayar

an

total_pemakaian_re

tail

total_pemakaian_per_l

imit

total_pemakai

an

1 0.1561 0.0732 0.1371 0.0732

2 0.1486 0.0732 0.1371 0.0732

3 0.1486 0.0732 0.1371 0.0732

4 0.1559 0.0732 0.1371 0.0732

5 0.1498 0.0752 0.1605 0.0752

6 0.1486 0.0732 0.1371 0.0732

7 0.1486 0.0732 0.1372 0.0732

8 0.1501 0.0755 0.1752 0.0755

9 0.1491 0.0732 0.1371 0.0732

10 0.1559 0.0760 0.1945 0.0760

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

28

rasio_pembayaran_3bu

lan

utilisasi_3bul

an tagihan

outstandin

g

sisa_tagihan_per_li

mit

0.4339 0.0016 0.0000 0.0000 0.0007

0.4333 0.0005 0.0006 0.0003 0.0000

0.4335 0.0573 0.0199 0.0097 0.0940

0.4341 0.0307 0.0108 0.0085 0.0000

0.4336 0.1431 0.0210 0.0108 0.2136

0.4333 0.0049 0.0000 0.0000 0.0000

0.4338 0.0027 0.0004 0.0002 0.0000

0.4335 0.1299 0.0146 0.0074 0.2135

0.4336 0.0010 0.0001 0.0001 0.0003

0.4341 0.0160 0.0007 0.0009 0.0000

sisa_tagihan_tid

ak_terbayar

sisa_tagihan_per_j

umlah_kartu

utilisasi_

6bulan

rasio_pembaya

ran_6bulan

pemakaian_3bl

n_per_limit

0.0001 0.0001 0.0026 0.1877 0.0258

0.0000 0.0000 0.0000 0.1860 0.0210

0.0176 0.0264 0.0269 0.1872 0.0708

0.0000 0.0000 0.0317 0.1877 0.0376

0.0186 0.0186 0.1676 0.1865 0.1233

0.0000 0.0000 0.0045 0.1860 0.0210

0.0000 0.0000 0.0019 0.1877 0.0278

0.0133 0.0133 0.1057 0.1863 0.0772

0.0002 0.0002 0.0028 0.1860 0.0210

0.0000 0.0000 0.0090 0.1877 0.0783

persentasi_overlim

it

pemakaian_6bln_per_li

mit

jumlah_tahun_sejak_pembukaan_kre

dit

0.0000 0.0022 0.4356

0.0000 0.0000 0.0000

0.0000 0.0063 0.0719

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

29

0.0000 0.0059 0.2970

0.1231 0.0295 0.1757

0.0000 0.0000 0.1164

0.0000 0.0000 0.0371

0.1034 0.0139 0.0644

0.0000 0.0010 0.3668

0.0000 0.0051 0.0594

3.4 Hitung Jarak

Setelah proses pre-processing selesai, langkah selanjutnya adalah

pengukuran jarak dengan menggunakan Euclidean distance. Euclidean distance

adalah metode yang digunakan untuk mengukur jarak antara dua titik yang

berbeda. Dengan menggunakan perhitungan Euclidean distance obyek tiap data

akan dihitung similaritasnya. Berikut adalah persamaan Euclidean distance untuk

mengukur dua titik berbeda (Negoro,2015) :

d (A,B) = √|𝐴1 – 𝐵2|2

+ |𝐴2 – 𝐵2|2

+ ⋯ … + |𝐴i – Bi|2 (3.2)

Keterangan :

- Ai – Bi : data

Perhitungan jarak akan dilakukan untuk tiap pendekatan yang ada di metode

agglomerative hierarchical clustering sesuai dengan algoritma masing-masing

pendekatan. Teknik pengukuran jarak dengan metode Euclidean menjadi salah

satu metode yang paling umum digunakan. Berikut ini adalah contoh data sampel

yang digunakan untuk perhitungan jarak :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

30

Tabel 3. 4 Similarity Matriks

1 2 3 4 5 6 7 8 9 10

1 0 0.43

58 0.385

12 0.14

58 0.432

87 0.319

37 0.398

6 0.475

21 0.069

36 0.384

55

2 0.435

75 0 0.148

13 0.30

11 0.391

38 0.116

61 0.037

89 0.306

17 0.366

84 0.102

57

3 0.385

12 0.14

81 0 0.25 0.267

05 0.134

47 0.130

44 0.195

7 0.321

72 0.126

09

4 0.145

76 0.30

11 0.250

03 0 0.340

45 0.185

92 0.263

77 0.359

5 0.084

36 0.249

65

5 0.432

87 0.39

14 0.267

05 0.34

05 0 0.350

88 0.372

71 0.139

61 0.396

94 0.347

31

6 0.319

37 0.11

66 0.134

47 0.18

59 0.350

88 0 0.079

69 0.300

46 0.250

44 0.100

36

7 0.398

6 0.03

79 0.130

44 0.26

38 0.372

71 0.079

69 0 0.297

75 0.329

78 0.081

57

8 0.475

21 0.30

62 0.195

7 0.35

95 0.139

61 0.300

46 0.297

75 0 0.424

53 0.282

28

9 0.069

36 0.36

68 0.321

72 0.08

44 0.396

94 0.250

44 0.329

78 0.424

53 0 0.318

48

10

0.38455

0.1026

0.12609

0.2496

0.34731

0.10036

0.08157

0.28228

0.31848 0

3.5 Agglomerative Hierarchical Clustering

Setelah melakukan proses hitung jarak maka untuk tahap selanjutnya akan

dilakukan pengolahan data dengan agglomerative hierarchical clustering

menggunakan 3 pendekatan dari agglomerative hierarchical clustering tersebut,

yaitu single linkage, average linkage, dan complete linkage. Hasil dari

pengolahan data menggunakan matlab dengan metode agglomerative hierarchical

clustering ini akan menghasilkan dendrogram single linkage,complete linkage dan

average linkage. Berikut merupakan contoh dendrogram dari matriks jarak data

sampel yang dihasilkan oleh matlab dengan menggunakan metode 3 pendekatan

AHC:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

31

Gambar 3. 2 Dendrogram Single Linkage

Gambar 3.2 diatas adalah dendrogram dengan menggunakan perhitungan

single linkage. Dimana pengukuran jarak menggunakan single linkage adalah

mengukur jarak minimal antara setiap elemen matriks.

Gambar 3. 3 Dendrogram Complete Linkage

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

32

Gambar 3.3 diatas adalah dendrogram dengan menggunakan perhitungan

complete linkage. Dimana pengukuran jarak menggunakan complete linkage

adalah mengukur jarak maksimal antara setiap elemen matriks.

Gambar 3. 4 Dendrogram Average Linkage

Gambar 3.4 diatas adalah dendrogram dengan menggunakan perhitungan

average linkage. Dimana pengukuran jarak menggunakan average linkage adalah

mengukur jarak rata-rata antara setiap elemen matriks.

Dengan gambar dendrogram dari single linkage,complete linkage, dan

average linkage ini maka dapat ditentukan cluster yang diinginkan dari

perpotongan atau cut-off pada ketinggian tertentu.

Tabel 3. 5 Contoh Cluster Single Linkage

Cluster 1 Cluster 2

2 5

7 8

6

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

33

10

3

1

9

4

Tabel 3. 6 Contoh Cluster Complete Linkage

Cluster 1 Cluster 2

2 1

7 9

6 4

10

3

5

8

Tabel 3. 7 Contoh Cluster Average Linkage

Cluster 1 Cluster 2

2 1

7 9

6 4

10

3

5

8

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

34

3.6 Perhitungan Akurasi

Perhitungan akurasi yang digunakan dalam penelitian ini yaitu dengan

menggunakan validasi internal dan validasi external, dimana untuk validasi

internal menggunakan silhouette index dan validasi external menggunakan

confusion matrix. Berikut sedikit penjelasan untuk kedua perhitungan akurasi :

Silhouette Index

Menggunakan silhouette index untuk menghitung seberapa tepat suatu data berada

di clusternya. Luaran dari silhouette index berupa angka, dimana bila angka

semakin mendekati satu maka semakin balik pula data tersebut berada di

clusternya Berikut contoh perhitungan dengan menggunakan silhouette index :

Gambar 3. 5 Data sampel yang digunakan untuk perhitungan silhouette index

Tahap pertama :

Sebelum lanjut ke tahap perhitungan silhouette index, terlebih dahulu tiap cluster

dihitung jarak kedekatan nya menggunakan Euclidean distance, berikut jarak

kedua cluster sebelum dan sesudah melakukan perhitungan jarak :

Data pada cluster 0 sebelum dilakukan proses hitung jarak

Gambar 3. 6 Data cluster 0 sebelum proses hitung jarak

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

35

Data pada cluster 0 sesudah dilakukan proses hitung jarak menggunakan

Euclidean distance:

Tabel 3. 8 Hasil hitung jarak cluster 0 dengan Euclidean distance

1 2 4 5 7 8 10

cluster 0

1 0 327861.

2324 790205

6.249 117655

18.21 225899

.559 81387

04.2 969979

.846

2 327861.

2324 0 758331

4.61 114380

45.3 102712

.352 78116

44.3 778941

.464

4 790205

6.249 758331

4.61 0 432800

3.219 768501

9.25 17203

74.2 721741

7.28

5 117655

18.21 114380

45.3 432800

3.219 0 115404

64.1 36365

03.5 110814

93.7

7 225899.

5594 102712.

352 768501

9.25 115404

64.12 0 79138

96 832742

.929

8 813870

4.155 781164

4.298 172037

4.202 363650

3.458 791389

5.95 0 744752

8.39

10

969979.846

778941.4637

7217417.279

11081493.67

832742.929

7447528.4 0

Data pada cluster 1 sebelum dilakukan proses hitung jarak:

Gambar 3. 7 Data cluster 1 sebelum proses hitung jarak

Data pada cluster 1 setelah melakukan proses hitung jarak :

Tabel 3. 9 Hasil hitung jarak cluster 1 dengan Euclidean distance

3 6 9

cluster 1

3 0 10857082.59 10789111.36

6 10857082.59 0 68214.15855

9 10789111.36 68214.15855 0

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

36

Tahap kedua :

Menghitung nilai 𝑎𝑖 untuk kedua cluster. Berikut persamaan untuk mencari 𝑎𝑖

:

𝑎𝑖𝑗

=1

𝑚𝑗−1∑ 𝑑(𝑥𝑖

𝑗,

𝑚𝑗𝑟=1

𝑟≠𝑖

𝑥𝑟𝑗)

Mencari nilai ai untuk tiap kolom pada cluster 0

𝑎11 =

1

𝑚𝑗−1∑ 𝑑(𝑥1

1, 𝑥2

1) + 𝑑(𝑥11, 𝑥3

1) + 𝑑(𝑥11, 𝑥4

1) + 𝑑(𝑥11, 𝑥5

1) + 𝑑(𝑥11, 𝑥6

1) +

𝑑(𝑥11, 𝑥7

1) = 4888336.541

𝑎21 =

1

𝑚𝑗−1∑ 𝑑(𝑥2

1, 𝑥1

1) + 𝑑(𝑥21, 𝑥3

1) + 𝑑(𝑥21, 𝑥4

1) + 𝑑(𝑥21, 𝑥5

1) + 𝑑(𝑥21, 𝑥6

1) +

𝑑(𝑥21, 𝑥7

1) = 4673753.21

𝑎31 =

1

𝑚𝑗−1∑ 𝑑(𝑥3

1, 𝑥1

1) + 𝑑(𝑥31, 𝑥2

1) + 𝑑(𝑥31, 𝑥4

1) + 𝑑(𝑥31, 𝑥5

1) + 𝑑(𝑥31, 𝑥6

1) +

𝑑(𝑥31, 𝑥7

1) = 6072697.468

𝑎41 =

1

𝑚𝑗−1∑ 𝑑(𝑥4

1, 𝑥1

1) + 𝑑(𝑥41, 𝑥2

1) + 𝑑(𝑥41, 𝑥3

1) + 𝑑(𝑥41, 𝑥5

1) + 𝑑(𝑥41, 𝑥6

1) +

𝑑(𝑥41, 𝑥7

1) = 8965004.662

𝑎51 =

1

𝑚𝑗−1∑ 𝑑(𝑥5

1, 𝑥1

1) + 𝑑(𝑥71, 𝑥2

1) + 𝑑(𝑥71, 𝑥3

1) + 𝑑(𝑥71, 𝑥4

1) + 𝑑(𝑥71, 𝑥6

1) +

𝑑(𝑥71, 𝑥7

1) = 4716789.03

𝑎61 =

1

𝑚𝑗−1∑ 𝑑(𝑥6

1, 𝑥1

1) + 𝑑(𝑥81, 𝑥2

1) + 𝑑(𝑥81, 𝑥3

1) + 𝑑(𝑥81, 𝑥4

1) + 𝑑(𝑥81, 𝑥5

1) +

𝑑(𝑥81, 𝑥7

1) = 6111441.7

𝑎71 =

1

𝑚𝑗−1∑ 𝑑(𝑥7

1, 𝑥1

1) + 𝑑(𝑥101 , 𝑥2

1) + 𝑑(𝑥101 , 𝑥3

1) + 𝑑(𝑥101 , 𝑥4

1) + 𝑑(𝑥101 , 𝑥5

1) +

𝑑(𝑥101 , 𝑥6

1) = 4721350.6

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

37

Hasil dari ai untuk cluster 0

Tabel 3. 10 Hasil nilai ai untuk cluster 0

1 2 4 5 7 8 10

cluster 0

1 0 327861.

2324 790205

6.249 117655

18.21 225899

.559 81387

04.2 969979

.846

2 327861.

2324 0 758331

4.61 114380

45.3 102712

.352 78116

44.3 778941

.464

4 790205

6.249 758331

4.61 0 432800

3.219 768501

9.25 17203

74.2 721741

7.28

5 117655

18.21 114380

45.3 432800

3.219 0 115404

64.1 36365

03.5 110814

93.7

7 225899.

5594 102712.

352 768501

9.25 115404

64.12 0 79138

96 832742

.929

8 813870

4.155 781164

4.298 172037

4.202 363650

3.458 791389

5.95 0 744752

8.39

10

969979.846

778941.4637

7217417.279

11081493.67

832742.929

7447528.4 0

ai 488833

6.541 467375

3.21 607269

7.468 896500

4.662 471678

9.03 61114

41.7 472135

0.6

Mencari nilai ai untuk tiap kolom pada cluster 1

𝑎11 =

1

𝑚𝑗−1∑ 𝑑(𝑥1

1, 𝑥2

1) + 𝑑(𝑥11, 𝑥3

1) = 10823096.98

𝑎21 =

1

𝑚𝑗−1∑ 𝑑(𝑥2

1, 𝑥1

1) + 𝑑(𝑥21, 𝑥3

1) = 5462648.374

𝑎41 =

1

𝑚𝑗−1∑ 𝑑(𝑥3

1, 𝑥1

1) + 𝑑(𝑥31, 𝑥2

1) = 5428662.759

Hasil dari ai dari cluster 1

Tabel 3. 11 Hasil nilai ai untuk cluster 1

3 6 9

cluster 1

3 0 10857082.59 10789111.36

6 10857082.59 0 68214.15855

9 10789111.36 68214.15855 0

ai 10823096.98 5462648.374 5428662.759

Tahap ketiga :

Menghitung jarak pada cluster yang berbeda dengan menggunakan Euclidean

distance dan menghitung rata-rata jarak.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

38

Berikut hasil hitung jarak dari cluster 0 ke cluster 1 :

Tabel 3. 12 Hasil hitung jarak dari cluster 0 ke cluster 1

cluster 1

3 108624

04.49 105345

54.52 361467

3.45 104637

5.56 106368

26.67 280114

2.84 102135

44.14

6 5700.04 322560.

98 789641

5.35 117601

55.56 220704.

56 813335

9.68 965833.

03

9 73387.7

8 254563.

59 783145

0.45 116924

00.58 152512.

89 806567

1.64 921724.

67

rata-rata

3647164.10

3703893.03

6447513.08

8166310.57

3670014.71

6333391.39

4033700.61

Berikut hasil hitung jarak dari cluster 1 ke cluster 0 :

Tabel 3. 13 Hasil hitung jarak dari cluster 1 ke cluster 0

Cluster 0

1 10862404.49 5700.036127 73387.78039

2 10534554.52 322560.9758 254563.5894

4 3614673.448 7896415.346 7831450.451

5 1046375.557 11760155.56 11692400.58 7 10636826.67 220704.5578 152512.8919

8 2801142.841 8133359.68 8065671.636

10 10213544.14 965833.0328 921724.665

rata-rata 9941904.335 5860945.838 5798342.318

Tahap keempat :

Menghitung nilai 𝑏𝑖 untuk kedua cluster. Berikut persamaan untuk mencari 𝑏𝑖

:

𝑏𝑖𝑗 = 𝑚𝑖𝑛{

1

𝑚𝑛∑ 𝑑(𝑥𝑖

𝑗 ,𝑚𝑗𝑟=1

𝑟≠𝑖

𝑥𝑟𝑛)}

Menghitung nilai 𝑏𝑖 untuk cluster 0

𝑏𝑖𝑗 = min (𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1)

Hasil dari bi untuk cluster 0 :

Tabel 3. 14 Hasil nilai 𝑏𝑖 pada cluster 0

bi 3647164

.103 3703893

.029 644751

3.08 8166310

.566 3670014

.707 6333391

.386 4033700

.613

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

39

Menghitung nilai 𝑏𝑖 untuk cluster 1

𝑏𝑖𝑗 = min (𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 0)

Hasil dari bi untuk cluster 1 :

Tabel 3. 15 Hasil nilai 𝑏𝑖 pada cluster 1

bi 9941904.335 5860945.838 5798342.318

Tahap kelima :

Menghitung nilai silhouette index untuk cluster 0 dan cluster 1 dengan persamaan

berikut :

𝑆𝐼𝑖𝑗 =

𝑏𝑖𝑗 − 𝑎𝑖

𝑗

max{𝑏𝑖𝑗, 𝑎𝑖

𝑗}

Hitung nilai SI untuk cluster 0 :

𝑆𝐼11 =

𝑏11−𝑎1

1

max{𝑏11,𝑎1

1}=

3647164.103−4888336.541

max{3647164.103,4888336.541} = -0.253905

𝑆𝐼21 =

𝑏21−𝑎2

1

max{𝑏21,𝑎2

1}=

3703893.029−4673753.21

max{3703893.029,4673753.21} = -0.207512

𝑆𝐼31 =

𝑏31−𝑎3

1

max{𝑏31,𝑎3

1}=

6447513.08−6072697.468

max{6447513.08,6072697.468} = 0.058133

𝑆𝐼41 =

𝑏41−𝑎4

1

max{𝑏41,𝑎4

1}=

8166310.566−8965004.662

max{8166310.566,8965004.662} = -0.089090

𝑆𝐼51 =

𝑏51−𝑎5

1

max{𝑏51,𝑎5

1}=

3670014.707− 4716789.03

max{3670014.707,4716789.03} = -0.221925

𝑆𝐼61 =

𝑏61−𝑎6

1

max{𝑏61,𝑎6

1}=

6333391.386− 6111441.7

max{6333391.386,6111441.7} = 0.035044

𝑆𝐼71 =

𝑏71−𝑎7

1

max{𝑏71,𝑎7

1}=

4033700.613− 4721350.6

max{4033700.613− 4721350.6} = -0.145647

Hasil nilai SI yang berada di cluster 0

Tabel 3. 16 Hasil nilai 𝑆𝐼 pada cluster 0

SI -0.253905 -0.207512 0.058133 -0.089090 -0.221925 0.035044 -0.145647

Hitung nilai SI untuk cluster 1 :

𝑆𝐼11 =

𝑏11−𝑎1

1

max{𝑏11,𝑎1

1}=

9941904.335−10823096.98

max{9941904.335,10823096.98} = -0.081418

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

40

𝑆𝐼21 =

𝑏21−𝑎2

1

max{𝑏21,𝑎2

1}=

5860945.838−5462648.374

max{5860945.838,5462648.374} = 0.067958

𝑆𝐼31 =

𝑏31−𝑎3

1

max{𝑏31,𝑎3

1}=

5798342.318−5428662.759

max{5798342.318,5428662.759} = 0.063756

Hasil nilai SI yang berada di cluster 1

Tabel 3. 17 Hasil nilai 𝑆𝐼 pada cluster 1

SI -0.081418 0.067958 0.063756

Confusion Matrix

Confusion matrix digunakan untuk menghitung akurasi di setiap pembentukan

cluster. Penulis menggunakan confusion matrix sebagai validasi external

karena data yang digunakan dalam penelitian memiliki informasi dari luar

(memiliki label kelas). Untuk confusion matrix luarannya berupa persentase,

dimana bila persentase nya semakin tinggi maka semakin baik pula linkage

tersebut mengklusterkan data.

3.7 Desain User Interface

Gambar 3. 8 User Interface

Pada penulisan tugas akhir ini memiliki satu tampilan clustering credit

scoring dengan metode agglomerative hierarchical clustering. Pada gambar 3.5

diatas terdapat button search fungsi dari button search adalah untuk mencari dan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

41

memasukkan data yang akan diolah. Selanjutnya di dalam tampilan terdapat

button pre-processing yang berfungsi untuk melakukan proses pre-processing

terhadap data dimana pre-processing dalam tampilan ini adalah normalisasi data.

Di dalam tampilan juga terdapat textfield jumlah ciri yang berfungsi untuk

menginputkan jumlah ciri atau atribut yang ingin di proses dan terdapat textfield

yang akan menampilkan silhouette index dari keseluruhan data. Setelah itu

terdapat button cluster yang akan berfungsi untuk menjalankan cluster dalam

data. Ketika cluster dijalankan maka hasil dari cluster single linkage,average

linkage, dan complete linkage akan muncul pada tabel masing masing dan hasil

dendrogramnya juga akan muncul disamping tabel masing masing. Textfield yag

berada di tiap panel cluster berfungsi untuk menunjukkan seberapa besar akurasi

cluster data menggunakan tiga pendekatan yang ada dalam metode agglomerative

hiearachical clustering.

3.8 Kebutuhan Perangkat Lunak dan Perangkat Keras

Perangkat lunak dan perangkat keras yang digunakan pada implementasi

sistem dalam penelitian ini adalah :

Perangkat Lunak

- Sistem Operasi windows 10 64-bit

- Matlab R2018a

Perangkat Keras

- Processor Intel® Core™ i3-6006U CPU @ 2.00GHz

2.00GHz

- RAM 4.00 GB

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

42

BAB IV

IMPLEMENTASI DAN ANALISA

Bab ini berisi implementasi dan pembahasan hasil dari pengelompokan

credit scoring dari nasabah bank XYZ dengan menggunakan agglomerative

hierarchical clustering.

4.1 Implementasi

Landasan teori dan metodologi yang telah disampaikan akan berkurang

manfaatnya bila tidak disertakan dengan implementasi. Pada bab ini implementasi

dipaparkan dalam dua bagian, yaitu berkaitan dengan proses pengolahan data dan

user interface atas sistem yang telah dibuat untuk pengolahan data tersebut.

4.1.1 Pengolahan Data

Data yang digunakan untuk diolah dalam clustering pada penelitian ini

berjumlah 3000 data dengan 17 atribut, yaitu rasio pembayaran, total pemakaian

retail, total pemakaian per limit, total pemakaian, rasio pembayaran 3 bulan,

utilisasi 3 bulan, tagihan, outstanding, sisa tagihan per limit, sisa tagihan tidak

terbayar, sisa tagihan per jumlah kartu, utilisasi 6 bulan, rasio pembayaran 6

bulan, pemakaian 3 bulan per limit, persentasi overlimit, pemakaian 6 bulan per

limit, jumlah kartu sejak pembukaan kredit. Data dapat diolah setelah melakukan

proses perhitungan jarak dengan Euclidean distance. Data yang digunakan data

bank yang berekstensi .xls(excel).

4.1.2 Clustering

Setelah data di proses pada tahap pre-processing dan tahap penghitungan

jarak menggunakan Euclidean distance maka selanjutnya data akan diproses ke

dalam tahap clustering dengan metode AHC menggunakan 3 pendekatan. Pada

tahap ini penulis melakukan analisis kelompok yang merupakan pekerjaan

mengelompokkan data (objek) yang ditemukan dalam data yang dapat

menggambarkan objek dan hubungan diantaranya (Prasetyo E, 2012). Hal seperti

ini dilakukan supaya data yang memiliki hubungan dalam sebuah kelompok

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

43

merupakan obyek yang mirip atau memiliki hubungan dengan obyek yang lain

nya atau dapat juga dikatakan memiliki similaritas yang tinggi. Dapat diartikan

juga bahwa obyek dalam satu kelompok tersebut berbeda atau tidak memiliki

hubungan dengan kelompok yang lain. Dalam penelitian ini pengelompokan

dilakukan menggunakan metode agglomerative hierarchical clustering (AHC)

dan untuk mengetahui sejauh mana pengelompokan yang dilakukan baik atau

tidaknya maka dilakukan uji akurasi sistem dengan internal dan external

evaluation. Internal evaluation digunakan untuk memvalidasi baik atau tidak nya

sebuah data atau data tersebut tepat atau tidak berada dalam clusternya.

Sedangkan untuk external evaluation berguna untuk melihat seberapa baik akurasi

sistem bila digunakan untuk data nasabah bank xyz. Setelah melalui tahap

preprocessing, data akan di proses dengan menggunakan metode AHC

(agglomerative hierarchical clustering). Data nasabah sebanyak 3000 data dan 17

atribut akan menjadi beberapa kelompok setelah melalui proses AHC, setelah itu

pembentukan kelompok akan diuji dengan confusion matriks.

Proses pengelompokan menggunakan AHC pada penulisan ini terbagi

menjadi 3 pendekatan, yaitu single linkage, average linkage, dan complete linkage

dimana untuk setiap perhitungan 3 pendekatan ini menggunakan perhitungan

jarak euclidean. Setiap hasil perhitungan akan di tampilkan ke dalam tabel,

dendrogram, dan hasil dari confusion matriks. Berikut merupakan hasil dari

proses AHC menggunakan 3 metode tersebut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

44

1. Single Linkage

Gambar 4. 1 Implementasi- Dendrogram Single Linkage

Gambar 4.1 adalah diagram dendrogram yang merupakan pembentukan

kelompok dengan metode single linkage. Penghitungan Akurasi digunakan

dengan yang di dapat dari metode single linkage ini adalah sebesar 66,7 %.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

45

2. Average Linkage

Gambar 4. 2 Implementasi- Dendrogram Average Linkage

Gambar 4.2 adalah diagram dendrogram yang merupakan pembentukan

kelompok dengan metode Average linkage . Akurasi yang di dapat dari metode

average linkage ini adalah sebesar 66,6667 .

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

46

3. Complete Linkage

Gambar 4. 3 Implementasi- Dendrogram Complete Linkage

Gambar 4.3 adalah diagram dendrogram yang merupakan pembentukan

kelompok dengan metode Complete linkage. Akurasi yang di dapat dari metode

complete linkage ini adalah sebesar 67,2333% .

4.2 User Interface

Dalam pembuatan sistem implementasi agglomerative hierarchical

clustering dalam mengelompokkan credit scoring pada suatu bank, penulis

menggunakan Matlab versi R2018a. Sistem user interface telah dipaparkan pada

bab sebelumnya sebelum diimplementasikan untuk melakukan proses

pengelompokkan dengan metode AHC serta menghitung akurasi dengan

confusion matrix. Sistem dibuat untuk menampilkan hasil pengelompokkan

dengan menampilkan tiga metode dalam satu graphical user interface (GUI).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

47

Gambar 4. 4 Tampilan keseluruhan sistem

Dalam proses pengelompokkan data terdapat empat langkah utama, yaitu

input data, preprocessing, silhouette index dan AHC.

4.2.1 Input data

Ketika sistem dijalankan, langkah pertama yang dilakukan adalah meng-

input-kan data. Tombol search digunakan untuk mencari sekaligus memasukkan

atau menginputkan data yang bertipe .xls maupun .xlsx. Setelah mencari dan

menginputkan data, sistem akan menampilkan data yang telah diinputkan tersebut.

Gambar 4.5 adalah contoh proses input.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

48

Gambar 4. 5 Implementasi – input data

4.2.2 Pre-processing

Setelah data diinputkan maka selanjutnya adalah user melakukan pre-

processing dengan terlebih dahulu menginputkan jumlah atribut yang ingin di

processing. Data yang di processing ini nantinya akan digunakan untuk data

pengelompokkan dengan metode AHC. Gambar 4.6 adalah proses pre-

processing.

Gambar 4. 6 Implementasi – Pre-processing

4.2.3 Silhouette Index

Tampilan untuk silhouette index pada gambar 4.7 akan muncul saat user

menekan tombol pre-preprocessing, ini dikarenakan silhouette index memvalidasi

data sebelum melakukan proses AHC, selain itu juga banyak nya atribut pada data

yang diinputkan memengaruhi nilai silhouette index.

Gambar 4. 7 Tampilan silhouette index

4.2.4 Proses AHC dan Akurasi

Di dalam tampilan GUI terdapat tombol cluster, dimana saat mengklik

tombol tersebut makan akan muncul hasil dari tiga pendekatan yang terdapat

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

49

dalam metode agglomerative hierarchical clustering, yaitu single linkage,

complete linkage, dan average linkage. Pada tiap pendekatan memiliki hasil dari

dendrogram masing masing, selain itu tiap pendekatan juga memiliki nilai akurasi,

label cluster dan tabel iterasi pengelompokkan. User interface dari implementasi

hasil proses AHC dapat dilihat pada gambar 4.8.

Gambar 4. 8Implementasi - Hasil proses AHC dan Confusion Matrix

4.2.5 Analisa Hasil

Implementasi sistem yang telah dipaparkan pada gambar 4.8 membantu

analisa terhadap clustering credit scoring bagi nasabah bank XYZ sesuai dengan

judul penulisan. Analisa ini dilakukan dengan 3000 data nasabah dengan 17

atribut dan diharapkan akan dapat diketahui dengan baik pengelompokan credit

scoring berdasarkan beberapa komposisi nilai. Atribut sebanyak 17 pada 3000

data diolah dengan menggunakan metode agglomerative hierarchical clustering

dengan tiga pendekatan yaitu, single linkage, average linkage, dan complete

linkage dimana proses pengelompokkan dimulai dari mengelompokkan 1 atribut

sampai dengan 17 atribut. Setelah melakukan pengelompokkan 1 atribut sampai

17 atribut dengan menggunakan tiga pendekatan tersebut maka hasil

pengelompokkan menunjukkan bahwa pengelompokkan menggunakan 9 atribut

dengan pendekatan complete linkage memiliki akurasi yang lebih baik,

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

50

perhitungan akurasi dilakukan dengan menggunakan confusion matrix. Setelah

hasil dari confusion matrix diketahui pada 3 pendekatan tersebut maka akan

terlihat bahwa complete linkage memiliki akurasi yang lebih baik dibandingkan

single dan average linkage. Dapat dilihat pada tabel dibawah ini :

Tabel 4. 1 Hasil akurasi tiga pendekataan

Metode

Akurasi

dendrogram

Jumlah obyek per

cluster

0 1

Single Linkage 66, 7 % Tidak seimbang 2999 1

Average Linkage 66,6667 % Tidak seimbang 2997 3

Complete

Linkage

67,23333 % Tidak seimbang 2967 33

Akurasi pendekatan single linkage sebesar 66,7% di dapat dari confusion matrix,

berikut hasil confusion matrix menggunakan pendekatan single linkage dengan 9

atribut :

Tabel 4. 2 Confusion matrix single linkage

Luaran 0 1

0 2000 999

1 0 1

akurasi = 2000 + 1

2000 + 999 + 0 + 1 𝑥 100 % = 66,7%

Akurasi pendekatan average linkage sebesar 66,7667% di dapat dari confusion

matrix, berikut hasil confusion matrix menggunakan pendekatan average linkage

dengan 9 atribut :

Tabel 4. 3 confusion matrix average linkage

Luaran 0 1

0 2000 1000

1 0 0

akurasi = 2000 + 0

2000 + 1000 + 0 + 0 𝑥 100 % = 66,6667%

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

51

Akurasi pendekatan complete linkage sebesar 67,23333% di dapat dari confusion

matrix, berikut hasil confusion matrix menggunakan pendekatan complete linkage

dengan 9 atribut :

Tabel 4. 4 confusion matrix complete linkage

Luaran 0 1

0 1992 975

1 8 25

akurasi = 1992 + 25

1992 + 975 + 8 + 25 𝑥 100 % = 67,23333%

Hal ini dapat terjadi karena penyebaran data yang tidak seimbang, banyak

data di dalam cluster 1 memiliki tingkat kemiripan yang sangat tinggi dengan

cluster 0 sehingga data pada cluster 1 terbaca di cluster 0 hal ini juga berpengaruh

pada akurasi tiap metode. Pada data nasabah terdapat 2000 data yang memiliki

kelas 0 dan 1000 data untuk kelas 1 yang dipakai untuk penelitian ini, tetapi saat

melakukan proses confusion matrix ditemukan bahwa data yang berada di kelas 1

memiliki kemiripan lebih besar dengan kelas 0 dibandingkan dengan kelas 1 itu

sendiri. Untuk pendekatan single linkage terdapat 999 data pada kelas 1 yang

memiliki tingkat kemiripan yang tinggi pada kelas 0, untuk pendekatan complete

linkage terdapat 975 data pada kelas 1 yang memiliki tingkat kemiripan yang

tinggi pada kelas 0. Sedangkan untuk average linkage terdapat 1000 data pada

kelas 1 yang memiliki tingkat kemiripan yang tinggi pada kelas 0. Ini dapat

dibuktikan dengan menggunakan silhouette index dimana silhouette index akan

digunakan untuk memvalidasi baik sebuah data, cluster tunggal (satu cluster dari

sejumlah cluster), atau bahkan keseluruhan cluster. Dalam penelitian ini penulis

menggunakan silhouette index untuk melihat seberapa tepat data tersebut berada

di label nya(menggunakan data asli yang belum melakukan pre-processing).

Berikut perhitungan rata-rata silhouette index yang dilakukan terhadap 3000

menggunakan data nasabah bank :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

52

Mencari rata-rata silhouette index :

Cluster 0

SI Cluster 0 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 0

𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎

= 204.7909

2000

= 0.102395

Cluster 1

SI Cluster 0 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1

𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎

= −86.0715

1000

= -0.086071

𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 0+𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1

2 = 0.072695

Gambar 4. 9 Hasil rata-rata Silhouette index pada data

Penulis juga menggunakan k-means clustering sebagai pembanding hasil

akurasi yang di dapat menggunakan metode agglomerative hierarchical clustering

dengan hasil akurasi yang di dapat menggunakan k-means clustering

menggunakan data yang sama. Pada k-means clustering ini juga akan terlihat

apakah penyebaran data tersebut baik atau tidak. Berikut hasil dari k-means

clustering :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

53

Gambar 4. 10 Hasil cluster menggunakan k-means clustering

Pada gambar 4.9 menunjukkan bahwa kemiripan data cluster 0 dengan

cluster 1 sangat kuat sehingga seperti menjadi satu cluster. Hal ini dapat terlihat

juga pada kedua centroid yang sangat dekat bahkan seperti 1 centroid, ini salah

satu alasan mengapa akurasi yang dihasilkan kurang baik karena data pada cluster

0 dan data yang berada pada cluster 1 memiliki tingkat kemiripan yang sangat

tinggi. Untuk melihat tingkat akurasi yang di dapat oleh k-means clustering

penulis menggunakan confusion matrix, berikut hasil confusion matrix

menggunakan k-means clustering :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

54

Tabel 4. 5 tabel confusion matrix k-means clustering

Luaran 0 1

0 1161 360

1 839 640

akurasi = 1161 + 640

1161 + 640 + 839 + 640 𝑥 100 % = 60,0333%

Akurasi akan menjadi lebih baik pada k-means clustering ini jika data pada cluster

0 dan data pada cluster 1 memiliki tingkat kemiripan yang cukup jauh sehingga

dapat dilihat data mana saja yang berada di cluster 0 dan cluster 1. Dapat

dibandingkan bahwa confusion matrix dengan menggunakan k-means clustering

hasilnya lebih baik dikarenakan data pada cluster 1 tingkat kemiripannya lebih

tinggi dan lebih baik pada cluster 1 itu sendiri daripada hasil confusion matrix

dengan metode AHC.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

55

BAB V

PENUTUP

Bab terakhir pada penulisan ini menjelaskan mengenai kesimpulan pada

penelitian terkait dengan pengelompokan credit scoring bagi nasabah bank XYZ

dengan menggunakan metode agglomerative hierarchical clustering. Pada bab ini

dijelaskan saran yang diberikan pada sistem yang dibuat.

5.1 Kesimpulan

Pengelompokan credit scoring bagi nasabah bank XYZ dengan menggunakan

metode agglomerative hierarchical clustering berdasarkan data nasabah.

Berdasarkan hasil percobaan diatas, kesimpulan yang dapat diambil sbb:

1. Dalam penelitian ini, agglomerative hierarchical clustering kurang

baik digunakan untuk mengelompokan credit scoring pada data

nasabah bank XYZ. Dalam penelitian ini, sistem menghasilkan

clustering yang kurang seimbang.

2. Penyebaran data nasabah bank sangat kurang baik dalam melakukan

pengklusteran, ini dapat dilihat dari hasil rata-rata silhouette index

yang sangat jauh dari angka 1(baik).

3. Dari tiga metode agglomerative hierarchical clustering yang digunakan,

yang mampu menghasilkan dendrogram cukup baik adalah complete

linkage.

4. Pengujian akurasi dengan menggunakan confusion matrix

menghasilkan persentasi paling tinggi sebesar 67,2333 % dan terendah

66,6667 %

5.2 Saran

Saran yang diperlukan untuk pengembangan sistem lebih lanjut sebagai berikut :

1. Uji akurasi dapat dicoba dengan pengujian SSE atau sum square error

2. Perhitungan jarak kedekatan dapat dicoba dengan metode lain seperti

manhattan.

3. Data yang digunakan dalam pengelompokkan lebih baik jika

menggunakan penyebaran yang seimbang.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

56

DAFTAR PUSTAKA

edy Takdir Syaiffudin. (2007). Manajemen Perbankan (Pendekatan Praktis).

Kendari: Unhalu Press.

Prasetyo (2014). DATA MINING. Mengolah data menjadi informasi menggunakan

Matlab.

Jiawei, H. (2012). Data Mining Concepts and Tecniques. Waltham: Elsevier Inc.

Larose, D. T. (2005). Discovering Knowledge In Data. United States Of America:

John Wiley & Sons, Inc.

Tan, P.N., Steinbach, M., Kumar, V. (2006) Introduction to Data Mining.

Situmorang. (2015). Pengenalan pola keberhasilan seminaris dengan

menggunakan agglomerative hierarchical clustering. Yogyakarta:

Universitas Sanata Dharma.

Pratomo,bondan yudha (2017) Pengelompokan peran pemain dota 2 dalam

pertandingan profesional dengan metode agglomerative hierarchical

clustering. Yogyakarta: Universitas Sanata Dharma.

Kurniawan.A.A (2017). Implementasi Algoritma Agglomerative Hierarchical

Clustering untuk mengelompokkan capaian belajar siswa SD. Yogyakarta:

Universitas Sanata Dharma.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

57

LAMPIRAN

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

58

A. Lampiran Percobaan Menggunakan Aplikasi Weka (info gain)

B. Lampiran Program

1. Source code transformasi

2. [data,txt,raw]= xlsread('AllFeatures.xlsx'); 3. % 4. minlama = min(data(:,3:19)); 5. maxlama = max(data(:,3:19)); 6. 7. minbaru = 0; 8. maxbaru = 1; 9. 10. %[b,k] = size(data(:,3:24));

11. tampung = data(:,3:19);

12. [b,k] = size(tampung);

13. for i=1:b

14. for j=1:k

15. nilaibaru(i,j) = (((tampung(i,j)-

minlama(j))/(maxlama(j)-minlama(j)))*(maxbaru-

minbaru))+minbaru;

16. end

17. end

18. xlswrite('Norm_AllFeatures.xls',nilaibaru);

19. xlswrite('LabelAllFeatures.xls',txt);

20.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

59

2. source code klustering

3. data=xlsread('Norm_AllFeatures.xls'); 4. coba = data(:,1:17); 5. label = data(:,18); 6. 7. [x,y] = size(coba); 8. hasil1 = zeros(x,x); 9. namakolom = cell(x,1); 10.

11. % proses Perhitungan jarak euclidean

12. for i=1:x

13. namakolom(i,1) = cellstr(num2str(i));

14. for j=1:x

15. if i~=j

16. temp = 0;

17. for k=1:y

18. temp = temp + (coba(i,k) - coba(j,k))^2;

19. end

20. temp = sqrt(temp);

21. hasil1(i,j) = temp;

22. end

23. end

24. end

25.

26. %Proses Clustering AHC

27. hasilakhir=hasil1;

28. jumlahkelompok = length(unique(label));

29. jumkel = length(hasilakhir);

30. ix = 1;

31.

32. while jumkel ~= jumlahkelompok

33. [hasilakhir,perubahan,namakolom] =

ahc(hasilakhir,namakolom,2);

34. jumkel = length(hasilakhir);

35. iterasi{ix}= perubahan;

36. tmpperubahan = strsplit(perubahan{1},'...');

37. Z{ix,1} = tmpperubahan(2);

38. Z{ix,2} = tmpperubahan(3);

39. Z{ix,3} = tmpperubahan(1);

40. ix = ix+1;

41. end

42.

43. [hasilakhir,perubahan] = ahc(hasilakhir,namakolom,2);

44. jumkel = length(hasilakhir);

45. iterasi{ix}= perubahan;

46. tmpperubahan = strsplit(perubahan{1},'...');

47. Z{ix,1} = tmpperubahan(2);

48. Z{ix,2} = tmpperubahan(3);

49. Z{ix,3} = tmpperubahan(1);

50. ix = ix+1;

51.

52. iterasi = iterasi';

53.

54. %Perhitungan Akurasi (testing)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

60

55. for i=1:size(namakolom,1)

56. hasil = strsplit(namakolom{i},',');

57. sum1 = 0;

58. sum0 = 0;

59. for j=1:size(hasil,2)

60. ix = str2num(hasil{j});

61. if label(ix) == 0

62. sum0 = sum0 + 1;

63. else

64. sum1 = sum1 + 1;

65. end

66. end

67. avg0 = sum0/size(hasil,2);

68. avg1 = sum1/size(hasil,2);

69.

70. if avg0 > avg1

71. namakolom{i,2} = 0;

72. else

73. namakolom{i,2} = 1;

74. end

75. end

76.

77. for i=1:size(namakolom,1)

78. hasil = strsplit(namakolom{i},',');

79. for j=1:size(hasil,2)

80. ix = str2num(hasil{j});

81. outputsistem(ix,1) = namakolom{i,2};

82. end

83. end

84.

85. cf = confusionmat(outputsistem,label);

86.

87. akurasi = (sum(diag(cf))/sum(sum(cf)))*100;

88. display(['Akurasi = ' num2str(akurasi) '%']);

89.

90. max = size(coba,1)+1;

91. ll = zeros(size(Z));

92. for i=1:size(Z,1)

93. for j=1:size(Z,1)

94. if strcmp([char(Z{i,1}) ','

char(Z{i,2})],char(Z{j,1})) == 1

95. ll(j,1) = max;

96. end

97. if strcmp([char(Z{i,1}) ','

char(Z{i,2})],char(Z{j,2})) == 1

98. ll(j,2) = max;

99. end

100. end

101. max = max+1;

102. end

103.

104. for i=1:size(Z,1)

105. ubah = 0;

106. if ll(i,1) == 0

107. ll(i,1) = str2num(char(Z{i,1}));

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

61

108. end

109. if ll(i,2) == 0

110. ll(i,2) = str2num(char(Z{i,2}));

111. end

112. if ll(i,1) > ll(i,2)

113. satu = ll(i,1);

114. dua = ll(i,2);

115. ll(i,1) = dua;

116. ll(i,2) = satu;

117. end

118. ll(i,3) = str2num(char(Z{i,3}));

119. end

120. %

121. cutoff = median([ll(end-2,3) ll(end-1,3)]);

122. figure,dendrogram(ll,'ColorThreshold',cutoff)

123. SI = silhouette(coba,label);

124. kelas = unique(label);

125.

126. for i=1:length(kelas)

127. rata(i) = mean(SI(label==kelas(i)));

128. end

129. SI_Semua = mean(rata);

130.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI