i wayan budi sentana dosen pembimbing prof. dr.ir. joko ... · diterapkannya metode gabungan...

T E S I S

I Wayan Budi Sentana

Nrp. 5108 201 025

DOSEN PEMBIMBING

Prof. Dr.Ir. Joko Lianto Buliali, M.Sc.

Pendahuluan Analisis Cluster sudah dimanfaatkan dengan sangat

luas untuk segmentasi pasar (Huang dkk, 2007; Liu dkk, 2008)

Permasalahan utama

Berapa Cluster / segment yang tepat ?

Variabel mana yang valid?

Beberapa penelitian melibatkan algoritma genetikuntuk mengatasi permasalahan tersebut(Kim dkk,2008 ; Liu dkk, 2008; Kuo dkk, 2006)

K-means GA (Liu dkk, 2008)

K-means GA (Liu dkk, 2008)

K-prototype (Huang, 1998)

2PGA(Martikaenan, 2006)

K-prototype&2PGA

Perumusan Masalah Bagaimana membuat sebuah sistem yang dapat

memanfaatkan 2PGA dan k-prototype untukmenghasilkan valid variable dan menentukan jumlahcluster optimal pada dataset dengan tipe campurannumerik dan kategorikal, sehingga teknik clusteringdiharapkan dapat menghasilkan segmentasi pasaryang lebih baik?

Tujuan Penelitian Mengimplementasikan metode gabungan k-prototype

dengan 2PGA untuk segementasi pasar

Membandingkan K-means GA (Liu dkk, 2008) dengank-prototype 2PGA

Jumlah cluster optimal

Pemilihan valid variabel

Membandingkan k-prototype SPGA dengan k-prototype 2PGA

Kecepatan konvergensi

Manfaat Penelitian Manfaat :

terciptanya segmentasi pasar yang lebih akurat, sehingga para pelaku bisnis dapat membuat strategipemasaran yang lebih fokus kepada segment tertentudengan melihat karakteristik yang ada pada setiapsegment

Kontribusi Penelitian Kontribusi :

Diterapkannya metode gabungan k-prototype 2PGA untuk mendapatkan variabel valid dan menemukanjumlah cluster optimal, serta menghasilkan tingkatkonvergensi yang lebih cepat pada data dengan tipecampuran numerik dan kategorikal, sehingga hasilclustering dapat menjadi lebih baik.

2-Population Genetic Algorithm (2PGA) (Martikainen, 2006)

Initial Population

Rang. Fitness

1 450

2 425

3 400

4 380

5 350

6 320

7 290

8 285

9 285

10 270

11 240

12 220

13 150

14 90

Elite Population

Rang. Fitness

1 450

2 425

3 400

4 380

Plain Population

Rang. Fitness

1 350

2 320

3 290

4 285

5 285

6 270

7 240

8 220

9 150

10 90

Reproduksi 2PGA

Elite Population

Rang. Fitness

1 450

2 425

3 400

4 380

Plain Population

Rang. Fitness

1 350

2 320

3 290

4 285

5 285

6 270

7 240

8 220

9 150

10 90

Generasi n

Parent untuk n + 1

Ke plain population

Parent untuk n + 1

Elite Population

Rang. Fitness

1 550

2 415

3 450

4 425

Plain Population

Rang. Fitness

1 400

2 380

3 250

4 430

5 220

6 350

7 350

8 320

9 290

10 285

Generasi n + 1

Offspring baru

Parent dari elite population sebelumnya

Dari elite population sebelumnya

Offspring baru

Chromosomsebelumnya dariplain population

Migrasi 2PGA

Elite Population

Rang. Fitness

1 1000

2 950

3 900

4 900

Plain Population

Rang. Fitness

1 1150

2 950

3 800

4 650

5 650

6 270

7 240

8 220

9 150

10 90

If elite.1 cm x plain 1

If elite.1 cm x plain 1

Algoritma k-prototype1. Tentukan pusat cluster secara acak

2. Ukur setiap object ke semua cluster, tempatkansetiap object ke cluster terdekat

3. Hitung ulang pusat cluster

4. Ulangi langkah 2 dan 3 sampai tidak ada perubahanpusat cluster

Pusat cluster k-prototype Prototype Centroid + medoids

Prototype Numerik

Prototype Categorical

Numerikmeans

Categorical modus

Jarak dalam k-prototype

dimana (p,q) = 0 untuk p = q

(p,q) = 1 untuk pq.

l = bobot untuk atribut kategorikal pada cluster ke l.

cr m

j

c

lj

c

ijl

m

j

r

lj

r

ijli qxqxQXd11

2 ),()(),(

Kprototype-2PGA Inisialisasi populasi awal secara acak

Clustering menggunakan K-Prototype

Evaluasi nilai fitness menggunakan CF Criterion

Mixed Type

Dataset

Mulai

Mengurutkan Nilai Fitness

Populasi Elite Populasi Plain

Clustering Elite dengan

K-Prototype

Clustering Plain dengan

K-Prototype

Evaluasi Fittness Elite

dengan CF Criterion

Evaluasi Fitness Plain

dengan CF Criterion

Seleksi Elite Seleksi Plain

Pindah silang dan mutasi

Elite

Pindah silang dan mutasi

Plain

Memenuhi stoping

criteria?

tidak

tidak

Individu Baru Elite Individu Baru Plain

Migrasi

Hasil

segmentasiya

Selesai

Pre-processing

Data Pre-Processing Menghilangkan Class label

Normalisasi data bertipe numerik

Mengganti representasi data bertipe kategorical ke dalamnumerik

Menyimpan hasil Pre-processing untuk dipergunakan aplikasisegmentasi

Inisialisasi Populasi Membuat kromosom awal yang dilakukan secara

acak sejumlah populasi yang dimasukkan oleh user

Bentuk Kromosom1 0 1 1 1 0 0 1 0 1 0 …. 1 5

Panjangnya sama dengan jumlahvariabel dataset, 1 menandakanbahwa variabel yang terwakili akandisertakan dalam clustering ,sedangkan 0 adalah sebaliknya

Mewakilijumlah cluster

Pre-Evaluasi

Clustering menggunakank-prototype Inisialiasasi

prototype

Ukur jarak object kesemua prototype,

tempatkan object padacluster terdekat

Hitung ulangprototype

mulai

Terjadiperubahanprototype?

Selesai

ya

tidak

Evaluasi Nilai Fitness Cost Function Criterion (Huang, 1998)

n

i

m

j

n

i

m

j

c

lj

c

ijill

rr

lj

r

ijill

r c

qxyqxyE1 1 1 1

),()(

k

l

c

l

r

l EEE1

)(

Mengurutkan Nilai Fitness

Iterasi Reproduksi 2PGA

Eksekusi Program Studi Kasus

German Credit Dataset yang didonasikan oleh Prof. Hofman dari Hamburg University, Jerman.

terdiri dari 1000 record

20 variabel,

13 variabel bertipe categorical

7 variabel bertipe numerik.

2 kali percobaan utama :

Percobaan 1 100 populasi ; 1000 generasi

Percobaan 2 500 populasi ; 200 generasi

HasilEksekusi

Percb. 1 konvergen pada generasi ke-695

Percb. 2 konvergen pada generasi ke-77

Fitness tertinggi 0.001101967

Bentuk Kromosom terbaik :

0

0.0002

0.0004

0.0006

0.0008

0.001

0.0012

1

57 113

169

225

281

337

393

44

9

505

561

617

673

729

785

84

1

89

7

953

Perc. 1

Perc.2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 k0 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 1 8

Pengujian Akurasi Hasil Cluster

Ketepatan Pemilihan Variabel

Kecepatan Konvergensi

Akurasi Hasil ClusterNama Model Kromosom Keterangan

Model X 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4Semua variabel disertakan : k = 4

Model Y 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 8Semua variabel disertakan : k = 8

Model Liu 1 1 1 1 1 0 1 1 1 1 0 1 1 0 1 0 1 1 0 1 4Variabel bernilai 1 disertakan: k = 4

Model yang diusulkan 0 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 1 8

Variabel bernilai 1 disertakan: k = 8

Membandingkan model-model tersebut dalam

Total Cost

Index Categorical Variance Criterion

Categorical Variance Criterion(Hsu & Chen, 2007)

Variance

CUCV

1

k i j

ijikijik VAPCVAP

D

CCU 22 )()|(

||

||

k i j

k

avgi

k

ij

k

VVC

2

,

2 )(||

1

Hasil Pengujian akurasi

Nama Total Cost CV CriterionModel X 2.69E+03 2.08E-01Model Y 2.45E+03 2.26E-01Model Liu 2.07E+03 2.19E-01Model yang diusulkan 9.51E+02 2.45E-01

Uji Ketepatan Pemilihan variabel Perhitungan multinomial logit( Liu dkk, 2008)

No Nama Variabel DF 2 PValue

1 Status of existing checking account 3 35.8151 <.0001***

2 Duration in month 1 49.0403 <.0001***

3 Credit History 4 36.7832 <.0001***

4 Purpose 1 8.2535 0.0041***

5 Credit ammount 1 85.6894 <.0001***

6 Saving account / bonds 4 1.1025 0.8939

7 Present employment since 4 4.2079 0.2399

8 Installment rate in percentage of disposable income 3 38.376 <.0001***

9 Personal status and sex 3 10.7201 0.0299**

10 Other debtors / guarantors 2 15.828 0.0004***

11 Present residence since 3 8.3771 0.0388**

12 Property 3 6.6498 0.0839*

13 Age in year 1 0.9853 0.3209

14 Other installment plans 2 0.1461 0.9296

15 Housing 2 38.4126 <.0001***

16 Numer of existing credit at this bank 3 1.7591 0.6239

17 Job 3 13.4009 0.0038***

18 Number of people being liable to provide maintenance for 1 5.0959 0.024**

19 Telephone 1 0.0399 0.8416

20 Foreign worker 1 34.2417 <.0001***

Hasil Uji pemilihan variabelMultinomial Logit (Liu

dkk,2008)

Hasil dari (Liu dkk, 2008) Hasil dari Metode yang

diusulkan

Saving account / bonds Number of existing credit at

this bank

Status of existing checking

account

Other installment plans Present residence since Credit history

Number of existing credit at

this bank

Saving account /bonds Purpose

Telephone Telephone Present employment since

Present employment since Other installment plans Property

Age in year Job

Uji Kecepatan Konvergensi

Membandingkan k-prototype SPGA dengan k-prototype 2PGA

Kondisi Prob. Mutasi Prob. Crossover Kondisi 1 0.3 0.3Kondisi 2 0.5 0.5Kondisi 3 0.8 0.8

ModelProb.

Mutasi EliteProb. Crossover

EliteProb. Mutasi

PlainProb. Crossover

PlainKondisi1 0.3 0.3 0.5 0.5Kondisi 2 0.5 0.5 0.8 0.8Kondisi3 0.5 0.3 0.5 0.3Kondisi4 0.5 0.8 0.5 0.8

K-prototype SPGA

K-prototype 2PGA

K-prototype SPGA,Pembanding untuk ujikecepatankonvergensi

Parameter Initialization

Random Population Initialization

Clustering using k-prototype

Evaluasi fitness menggunakan CFC

Satisfying stopping

criteria?

Finish

German

Credit

Dataset

Selection

Crossover

Mutation

New Parameter Population

Start

No

Segmentati

on Resultyes

Hasil Uji Konvergensi

Run1 Run2 Run3 Run4 Run5 Rerata GnrsKondisi 1 112 93 84 123 101 102.6Kondisi 2 109 127 159 139 121 131Kondisi 3 79 177 157 136 133 136.4

Run1 Run2 Run3 Run4 Run5 Rerata GnrsKondisi 1 81 94 107 101 87 94Kondisi 2 96 135 89 92 137 109.8Kondisi 3 117 103 93 87 107 101.4Kondisi 3 127 167 137 118 135 136.8

K-prototype SPGA

K-prototype 2PGA

Hasil ujikecepatankonvergensidenganberbagaikondisipada model k-prototype SPGA dank-prototype 2PGA

Analisis Hasil Akurasi CV Criterion adalah index yang mengukur kesamaan nilai object

yang ada di dalam satu cluster, jika nilai CV criterion semakin bagus, hal tersebut berarti bahwa kesamaan ciri-ciri yang dimiliki

object di dalam satu cluster adalah semakin besar. cost function menghitung jarak setiap object ke cluster terdekat, semakin kecil nilai cost berarti jarak antara kumpuluan object di

dalam suatu cluster akan semakin dekat. Hal ini berarti juga tingkat kesamaan ciri-ciri dari object juga

akan semakin sama. Jika dikaitkan dengan segmentasi pasar, maka metode yang

diusulkan dalam penelitian ini telah membentuk kelompok atausegment yang semakin kompak, dimana kesamaan ciri-ciricustomer yang ada di dalam segment tersebut semakin besar.

Analisis Hasil Pemilihan variabel metode yang diusulkan dalam penelitian ini tidak

memberikan hasil pemilihan variabel yang lebih baik

clustering criterion tidak pernah memperhitungkandata target yang terdapat pada variabel response,seperti halnya yang dilakukan oleh metodemultinomial logit

Clustering criterion yang dijadikan sebagai alatanalisis fungsi fitness hanya memperhitungkankedekatan antar object berdasarkan fungsi jaraktertentu,

Analisis Kecepatan Konvergensi Dari sisi kecepatan konvergensi, metode K-prototype 2PGA

memiliki tingkat konvergensi yang lebih baik jikadibandingkan dengan K-prototype SPGA.

Rerata generasi yang diperlukan untuk mencapaikonvergen pada metode K-prototype 2PGA terlihat palingkecil pada kondisi probabilitas mutasi dan pindah silangpopulasi Elite sebesar 30% dan kondisi probabilitas mutasidan pindah silang populasi Plain sebesar 50%, generasike 94.

Probabilitas mutasi dan pindah silang yang terlalu tinggimenyebabkan munculnya kromosom yang monoton padagenerasi-generasi berikutnya.

Kesimpulan Metode k-prototype 2PGA memberikan hasil akurasi cluster

atau segmen yang lebih baik dari penelitian yang adasebelumnya, hal ini terlihat dari total cost yang lebih rendah dannilain index clustering criterion yang lebih tinggi.

Ketelitian hasil pemilihan variabel dari model k-prototype 2PGAtidak lebih baik dari penelitian yang dilakukan oleh (Liu dkk,2008). Hal ini disebabkan karena clustering criterion yangdigunakan dalam penelitian ini tidak pernah memperhitungkanketerkaitan antara variabel dengan variabel response.

Pada kondisi probabilitas mutasi dan pindah silang tertentu,metode k-prototype 2PGA menunjukkan tingkat konvergensiyang lebih tinggi jika dibandingkan dengan metode k-prototypeSPGA.

i wayan budi sentana dosen pembimbing prof. dr.ir. joko ... · diterapkannya metode gabungan...

Documents