i wayan budi sentana dosen pembimbing prof. dr.ir. joko ... · diterapkannya metode gabungan...
TRANSCRIPT
T E S I S
I Wayan Budi Sentana
Nrp. 5108 201 025
DOSEN PEMBIMBING
Prof. Dr.Ir. Joko Lianto Buliali, M.Sc.
Pendahuluan Analisis Cluster sudah dimanfaatkan dengan sangat
luas untuk segmentasi pasar (Huang dkk, 2007; Liu dkk, 2008)
Permasalahan utama
Berapa Cluster / segment yang tepat ?
Variabel mana yang valid?
Beberapa penelitian melibatkan algoritma genetikuntuk mengatasi permasalahan tersebut(Kim dkk,2008 ; Liu dkk, 2008; Kuo dkk, 2006)
K-means GA (Liu dkk, 2008)
K-means GA (Liu dkk, 2008)
K-prototype (Huang, 1998)
2PGA(Martikaenan, 2006)
K-prototype&2PGA
Perumusan Masalah Bagaimana membuat sebuah sistem yang dapat
memanfaatkan 2PGA dan k-prototype untukmenghasilkan valid variable dan menentukan jumlahcluster optimal pada dataset dengan tipe campurannumerik dan kategorikal, sehingga teknik clusteringdiharapkan dapat menghasilkan segmentasi pasaryang lebih baik?
Tujuan Penelitian Mengimplementasikan metode gabungan k-prototype
dengan 2PGA untuk segementasi pasar
Membandingkan K-means GA (Liu dkk, 2008) dengank-prototype 2PGA
Jumlah cluster optimal
Pemilihan valid variabel
Membandingkan k-prototype SPGA dengan k-prototype 2PGA
Kecepatan konvergensi
Manfaat Penelitian Manfaat :
terciptanya segmentasi pasar yang lebih akurat, sehingga para pelaku bisnis dapat membuat strategipemasaran yang lebih fokus kepada segment tertentudengan melihat karakteristik yang ada pada setiapsegment
Kontribusi Penelitian Kontribusi :
Diterapkannya metode gabungan k-prototype 2PGA untuk mendapatkan variabel valid dan menemukanjumlah cluster optimal, serta menghasilkan tingkatkonvergensi yang lebih cepat pada data dengan tipecampuran numerik dan kategorikal, sehingga hasilclustering dapat menjadi lebih baik.
2-Population Genetic Algorithm (2PGA) (Martikainen, 2006)
Initial Population
Rang. Fitness
1 450
2 425
3 400
4 380
5 350
6 320
7 290
8 285
9 285
10 270
11 240
12 220
13 150
14 90
Elite Population
Rang. Fitness
1 450
2 425
3 400
4 380
Plain Population
Rang. Fitness
1 350
2 320
3 290
4 285
5 285
6 270
7 240
8 220
9 150
10 90
Reproduksi 2PGA
Elite Population
Rang. Fitness
1 450
2 425
3 400
4 380
Plain Population
Rang. Fitness
1 350
2 320
3 290
4 285
5 285
6 270
7 240
8 220
9 150
10 90
Generasi n
Parent untuk n + 1
Ke plain population
Parent untuk n + 1
Elite Population
Rang. Fitness
1 550
2 415
3 450
4 425
Plain Population
Rang. Fitness
1 400
2 380
3 250
4 430
5 220
6 350
7 350
8 320
9 290
10 285
Generasi n + 1
Offspring baru
Parent dari elite population sebelumnya
Dari elite population sebelumnya
Offspring baru
Chromosomsebelumnya dariplain population
Migrasi 2PGA
Elite Population
Rang. Fitness
1 1000
2 950
3 900
4 900
Plain Population
Rang. Fitness
1 1150
2 950
3 800
4 650
5 650
6 270
7 240
8 220
9 150
10 90
If elite.1 cm x plain 1
If elite.1 cm x plain 1
Algoritma k-prototype1. Tentukan pusat cluster secara acak
2. Ukur setiap object ke semua cluster, tempatkansetiap object ke cluster terdekat
3. Hitung ulang pusat cluster
4. Ulangi langkah 2 dan 3 sampai tidak ada perubahanpusat cluster
Pusat cluster k-prototype Prototype Centroid + medoids
Prototype Numerik
Prototype Categorical
Numerikmeans
Categorical modus
Jarak dalam k-prototype
dimana (p,q) = 0 untuk p = q
(p,q) = 1 untuk pq.
l = bobot untuk atribut kategorikal pada cluster ke l.
cr m
j
c
lj
c
ijl
m
j
r
lj
r
ijli qxqxQXd11
2 ),()(),(
Kprototype-2PGA Inisialisasi populasi awal secara acak
Clustering menggunakan K-Prototype
Evaluasi nilai fitness menggunakan CF Criterion
Mixed Type
Dataset
Mulai
Mengurutkan Nilai Fitness
Populasi Elite Populasi Plain
Clustering Elite dengan
K-Prototype
Clustering Plain dengan
K-Prototype
Evaluasi Fittness Elite
dengan CF Criterion
Evaluasi Fitness Plain
dengan CF Criterion
Seleksi Elite Seleksi Plain
Pindah silang dan mutasi
Elite
Pindah silang dan mutasi
Plain
Memenuhi stoping
criteria?
tidak
tidak
Individu Baru Elite Individu Baru Plain
Migrasi
Hasil
segmentasiya
Selesai
Pre-processing
Data Pre-Processing Menghilangkan Class label
Normalisasi data bertipe numerik
Mengganti representasi data bertipe kategorical ke dalamnumerik
Menyimpan hasil Pre-processing untuk dipergunakan aplikasisegmentasi
Inisialisasi Populasi Membuat kromosom awal yang dilakukan secara
acak sejumlah populasi yang dimasukkan oleh user
Bentuk Kromosom1 0 1 1 1 0 0 1 0 1 0 …. 1 5
Panjangnya sama dengan jumlahvariabel dataset, 1 menandakanbahwa variabel yang terwakili akandisertakan dalam clustering ,sedangkan 0 adalah sebaliknya
Mewakilijumlah cluster
Pre-Evaluasi
Clustering menggunakank-prototype Inisialiasasi
prototype
Ukur jarak object kesemua prototype,
tempatkan object padacluster terdekat
Hitung ulangprototype
mulai
Terjadiperubahanprototype?
Selesai
ya
tidak
Evaluasi Nilai Fitness Cost Function Criterion (Huang, 1998)
n
i
m
j
n
i
m
j
c
lj
c
ijill
rr
lj
r
ijill
r c
qxyqxyE1 1 1 1
),()(
k
l
c
l
r
l EEE1
)(
Mengurutkan Nilai Fitness
Iterasi Reproduksi 2PGA
Eksekusi Program Studi Kasus
German Credit Dataset yang didonasikan oleh Prof. Hofman dari Hamburg University, Jerman.
terdiri dari 1000 record
20 variabel,
13 variabel bertipe categorical
7 variabel bertipe numerik.
2 kali percobaan utama :
Percobaan 1 100 populasi ; 1000 generasi
Percobaan 2 500 populasi ; 200 generasi
HasilEksekusi
Percb. 1 konvergen pada generasi ke-695
Percb. 2 konvergen pada generasi ke-77
Fitness tertinggi 0.001101967
Bentuk Kromosom terbaik :
0
0.0002
0.0004
0.0006
0.0008
0.001
0.0012
1
57 113
169
225
281
337
393
44
9
505
561
617
673
729
785
84
1
89
7
953
Perc. 1
Perc.2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 k0 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 1 8
Pengujian Akurasi Hasil Cluster
Ketepatan Pemilihan Variabel
Kecepatan Konvergensi
Akurasi Hasil ClusterNama Model Kromosom Keterangan
Model X 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4Semua variabel disertakan : k = 4
Model Y 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 8Semua variabel disertakan : k = 8
Model Liu 1 1 1 1 1 0 1 1 1 1 0 1 1 0 1 0 1 1 0 1 4Variabel bernilai 1 disertakan: k = 4
Model yang diusulkan 0 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 1 8
Variabel bernilai 1 disertakan: k = 8
Membandingkan model-model tersebut dalam
Total Cost
Index Categorical Variance Criterion
Categorical Variance Criterion(Hsu & Chen, 2007)
Variance
CUCV
1
k i j
ijikijik VAPCVAP
D
CCU 22 )()|(
||
||
k i j
k
avgi
k
ij
k
VVC
2
,
2 )(||
1
Hasil Pengujian akurasi
Nama Total Cost CV CriterionModel X 2.69E+03 2.08E-01Model Y 2.45E+03 2.26E-01Model Liu 2.07E+03 2.19E-01Model yang diusulkan 9.51E+02 2.45E-01
Uji Ketepatan Pemilihan variabel Perhitungan multinomial logit( Liu dkk, 2008)
No Nama Variabel DF 2 PValue
1 Status of existing checking account 3 35.8151 <.0001***
2 Duration in month 1 49.0403 <.0001***
3 Credit History 4 36.7832 <.0001***
4 Purpose 1 8.2535 0.0041***
5 Credit ammount 1 85.6894 <.0001***
6 Saving account / bonds 4 1.1025 0.8939
7 Present employment since 4 4.2079 0.2399
8 Installment rate in percentage of disposable income 3 38.376 <.0001***
9 Personal status and sex 3 10.7201 0.0299**
10 Other debtors / guarantors 2 15.828 0.0004***
11 Present residence since 3 8.3771 0.0388**
12 Property 3 6.6498 0.0839*
13 Age in year 1 0.9853 0.3209
14 Other installment plans 2 0.1461 0.9296
15 Housing 2 38.4126 <.0001***
16 Numer of existing credit at this bank 3 1.7591 0.6239
17 Job 3 13.4009 0.0038***
18 Number of people being liable to provide maintenance for 1 5.0959 0.024**
19 Telephone 1 0.0399 0.8416
20 Foreign worker 1 34.2417 <.0001***
Hasil Uji pemilihan variabelMultinomial Logit (Liu
dkk,2008)
Hasil dari (Liu dkk, 2008) Hasil dari Metode yang
diusulkan
Saving account / bonds Number of existing credit at
this bank
Status of existing checking
account
Other installment plans Present residence since Credit history
Number of existing credit at
this bank
Saving account /bonds Purpose
Telephone Telephone Present employment since
Present employment since Other installment plans Property
Age in year Job
Uji Kecepatan Konvergensi
Membandingkan k-prototype SPGA dengan k-prototype 2PGA
Kondisi Prob. Mutasi Prob. Crossover Kondisi 1 0.3 0.3Kondisi 2 0.5 0.5Kondisi 3 0.8 0.8
ModelProb.
Mutasi EliteProb. Crossover
EliteProb. Mutasi
PlainProb. Crossover
PlainKondisi1 0.3 0.3 0.5 0.5Kondisi 2 0.5 0.5 0.8 0.8Kondisi3 0.5 0.3 0.5 0.3Kondisi4 0.5 0.8 0.5 0.8
K-prototype SPGA
K-prototype 2PGA
K-prototype SPGA,Pembanding untuk ujikecepatankonvergensi
Parameter Initialization
Random Population Initialization
Clustering using k-prototype
Evaluasi fitness menggunakan CFC
Satisfying stopping
criteria?
Finish
German
Credit
Dataset
Selection
Crossover
Mutation
New Parameter Population
Start
No
Segmentati
on Resultyes
Hasil Uji Konvergensi
Run1 Run2 Run3 Run4 Run5 Rerata GnrsKondisi 1 112 93 84 123 101 102.6Kondisi 2 109 127 159 139 121 131Kondisi 3 79 177 157 136 133 136.4
Run1 Run2 Run3 Run4 Run5 Rerata GnrsKondisi 1 81 94 107 101 87 94Kondisi 2 96 135 89 92 137 109.8Kondisi 3 117 103 93 87 107 101.4Kondisi 3 127 167 137 118 135 136.8
K-prototype SPGA
K-prototype 2PGA
Hasil ujikecepatankonvergensidenganberbagaikondisipada model k-prototype SPGA dank-prototype 2PGA
Analisis Hasil Akurasi CV Criterion adalah index yang mengukur kesamaan nilai object
yang ada di dalam satu cluster, jika nilai CV criterion semakin bagus, hal tersebut berarti bahwa kesamaan ciri-ciri yang dimiliki
object di dalam satu cluster adalah semakin besar. cost function menghitung jarak setiap object ke cluster terdekat, semakin kecil nilai cost berarti jarak antara kumpuluan object di
dalam suatu cluster akan semakin dekat. Hal ini berarti juga tingkat kesamaan ciri-ciri dari object juga
akan semakin sama. Jika dikaitkan dengan segmentasi pasar, maka metode yang
diusulkan dalam penelitian ini telah membentuk kelompok atausegment yang semakin kompak, dimana kesamaan ciri-ciricustomer yang ada di dalam segment tersebut semakin besar.
Analisis Hasil Pemilihan variabel metode yang diusulkan dalam penelitian ini tidak
memberikan hasil pemilihan variabel yang lebih baik
clustering criterion tidak pernah memperhitungkandata target yang terdapat pada variabel response,seperti halnya yang dilakukan oleh metodemultinomial logit
Clustering criterion yang dijadikan sebagai alatanalisis fungsi fitness hanya memperhitungkankedekatan antar object berdasarkan fungsi jaraktertentu,
Analisis Kecepatan Konvergensi Dari sisi kecepatan konvergensi, metode K-prototype 2PGA
memiliki tingkat konvergensi yang lebih baik jikadibandingkan dengan K-prototype SPGA.
Rerata generasi yang diperlukan untuk mencapaikonvergen pada metode K-prototype 2PGA terlihat palingkecil pada kondisi probabilitas mutasi dan pindah silangpopulasi Elite sebesar 30% dan kondisi probabilitas mutasidan pindah silang populasi Plain sebesar 50%, generasike 94.
Probabilitas mutasi dan pindah silang yang terlalu tinggimenyebabkan munculnya kromosom yang monoton padagenerasi-generasi berikutnya.
Kesimpulan Metode k-prototype 2PGA memberikan hasil akurasi cluster
atau segmen yang lebih baik dari penelitian yang adasebelumnya, hal ini terlihat dari total cost yang lebih rendah dannilain index clustering criterion yang lebih tinggi.
Ketelitian hasil pemilihan variabel dari model k-prototype 2PGAtidak lebih baik dari penelitian yang dilakukan oleh (Liu dkk,2008). Hal ini disebabkan karena clustering criterion yangdigunakan dalam penelitian ini tidak pernah memperhitungkanketerkaitan antara variabel dengan variabel response.
Pada kondisi probabilitas mutasi dan pindah silang tertentu,metode k-prototype 2PGA menunjukkan tingkat konvergensiyang lebih tinggi jika dibandingkan dengan metode k-prototypeSPGA.