logistic regression (generalized linear model)

35
PEMODELAN DATA CAR MENGGUNAKAN LOGISTIC REGRESSION LAPORAN TUGAS AKHIR SEMESTER MATA KULIAH GENERALIZED LINEAR MODEL MA 3283 Oleh: Indah Nurina Fitri Hapsari 10110094 PROGRAM STUDI MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI BANDUNG 2014

Upload: indah-fitri-hapsari

Post on 20-Jun-2015

847 views

Category:

Data & Analytics


5 download

DESCRIPTION

Laporan akhir mata kuliah GLM (generalized Linear Model)- Regresi Logistik pada data car

TRANSCRIPT

Page 1: Logistic regression (generalized linear model)

PEMODELAN DATA CAR MENGGUNAKAN LOGISTIC

REGRESSION

LAPORAN TUGAS AKHIR SEMESTER

MATA KULIAH GENERALIZED LINEAR MODEL

MA 3283

Oleh:

Indah Nurina Fitri Hapsari

10110094

PROGRAM STUDI MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT TEKNOLOGI BANDUNG

2014

Page 2: Logistic regression (generalized linear model)

DAFTAR ISI

BAB I PENDAHULUAN……………………………………….……………………..................................................... 1

1.1 Latar Belakang………………….........……………………………………………………………….……..... 1

1.2 Tujuan………………………….……..….…………………………..……………………….….........……….... 1

1.3 Sumber Data……………………...…….………………………………………………………………........... 1

1.4 Sistematika Penulisan...... ...…….………………….……………………………………….…………….. 1

BAB II LANDASAN TEORI…….………………………………...………………………………………………......…..………... 2

2.1 Jenis Variabel.………………………………………………………………………………………..….……..... 2

2.1.1 Variabel Kategorikal.................................................................................. 2

2.1.2 Variabel Kontinu....................................................................................... 2

2.2 Generalized Linier Model (GLM)......………………………..………………………….….…………... 2

2.2.1 Variabel..................................................................................................... 3

2.2.2 Eksplorasi Data.......................................................................................... 3

2.2.3 Distribusi Keluarga Eksponensial.............................................................. 4

2.2.3.1 Distribusi Bernoulli sebagai Anggota Distribusi

Keluarga Eksponensial............................................................. 5

2.2.3.2 Penaksiran Parameter Distribusi Keluarga Eksponensial........ 5

2.2.4 Base level Variabel Kategorikal................................................................ 6

2.2.5 Link dan Canonical Link............................................................................. 6

2.2.6 Pemodelan Menggunakan Logistic Regression......................................... 7

2.2.6.1 Membangun Model Menggunakan Stepwise Regression....... 7

2.2.6.2 Membangun Model dengan Mempertimbangkan Faktor

Eksposure............................................................................... 8

2.2.7 Tabel Klasifikasi dan ROC(Receiver Operating Characteristic).................. 8

Page 3: Logistic regression (generalized linear model)

2.2.8 Pemilihan Model....................................................................................... 9

BAB III ANALISIS DAN HASIL PENELITIAN…………….……………………………....…………………………….…….... 10

3.1 Pemilihan Variabel Respon dan Prediktor Potensial………....................................... 10

3.2 Eksplorasi Data........................................................……………………...............…......... 11

3.3 Pemilihan Base level................................................................................................ 15

3.4 Pemodelan Menggunakan Logistic Regression........................................................ 16

3.4.1 Estimasi Parameter Distribusi Bernoulli.................................................... 17

3.4.2 Membangun Model Menggunakan Stepwise Regression......................... 17

3.4.3 Membangun Model dengan Mempertimbangkan Faktor Exposure......... 25

3.5 Pemilihan Model...................................................................................................... 26

BAB V KESIMPULAN DAN SARAN…......................................................................………………............. 28

4.1 Kesimpulan................................................................................................ ............28

4.2 Saran........................................................................................................................ 28

LAMPIRAN

Page 4: Logistic regression (generalized linear model)

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Dari data yang penulis peroleh, penulis tertarik dengan fakta bahwa dengan mengetahui

karakteristik calon pemegang polis saja, kita dapat mengetahui apakah calon pemegang polis

tersebut nantinya akan mengajukan claim atau tidak. Data karakteristik yang diperlukan juga

tergolong mudah untuk didapatkan.

1.2 Tujuan

Menentukan model regresi terbaik untuk mengestimasi probabilitas seseorang

dengan karakteristik tertentu untuk mengajukan claim.

1.3 Sumber Data

Data yang digunakan adalah data dari buku Generalized linear model for Insurance

Data, Piet de Jong and Gllian Z. Heller. Data yang diolah merupakan data asuransi

kendaraan bermotor dengan jangka waktu satu tahun yang direkap pada tahun 2004

hingga 2005. Data asuransi terdiri dari 67856 polis, 4624 (6,8%) diantaranya memiliki

setidaknya 1 claim.

1.4 Sistematika Penulisan

Laporan ini terdiri dari empat bab. Bab pertama adalah bab pendahuluan yang

terdiri dari latar belakang, tujuan penelitian, sumber data, dan sistematika penulisan.

Bab kedua adalah bab landasan teori yang berisi teori-teori dasar yang dibutuhkan

dalam proses pemodelan. Bab ketiga adalah bab analisis dan hasil penelitian yang

berisi analisis dari proses pemodelan serta pemilihan model terbaik. Bab keempat

berisi kesimpulan dan saran.

Page 5: Logistic regression (generalized linear model)

2

BAB II

LANDASAN TEORI

2.1 Jenis Variabel

2.1.1 Variabel Kategorikal

Variabel kategorikal merupakan variabel hitung yang tidak memenuhi

sifat operasi aritmatik. Variabel kategorikal sering disebut sebagai variabel

kualitatif.

1. Nominal

Variabel nominal ialah variabel kategorikal yang nilainya tidak

merepresentasikan urutan. Contoh dari variabel nominal ialah variabel

yang memiliki 2 nilai, yaitu 0 dan 1, dimana 0 merepresentasikan laki-laki

dan 1 merepresentasikan perempuan.

2. Ordinal

Variabel ordinal ialan variabel kategorikal yang nilainya

merepresentasikan urutan. Urutan pada variabel ordinal terjadi secara

alamiah. Contoh dari variabel ordinal ialah tingkat luka yang dialami

dalam kecelakaan (1: ringan, 2: sedang, dan 3: Berat).

2.1.2 Variabel Kontinu

Variabel Kontinu merupakan variabel yang memiliki nilai-nilai yang

terdapat dalam suatu selang/interval bilangan real. Contoh variabel kontinu

adalah harga kendaran.

2.2 Generalized Linear Model (GLM)

Generalized linear model(GLM) merupakan sebuah metode untuk

menguantifikasi hubungan antara variabel respon (bebas) dengan variabel prediktor

(terikat). Dengan menggunakan GLM, kita dapat menjelaskan bagaimana perubahan

nilai dari variabel respon apabila terdapat perubahan dari variabel-variabel

prediktornya. Dua hal yang harus diperhatikan dalam penggunaan GLM ialah:

1. Distribusi dari variabel respon merupakan anggota dari distribusi keluarga

eksponensial.

2. Transformasi terhadap nilai mean dari variabel respon memiliki hubungan

linear dengan variabel-variabel prediktornya.

𝑔 𝜇 = 𝑥′𝛽

Page 6: Logistic regression (generalized linear model)

3

2.2.1 Variabel

Dalam melakukan regresi, terdapat 2 tipe variabel yang harus kita

ketahui, yaitu:

1. Variabel Respon/Bebas

Variabel respon ialah variabel yang kita pilih sebagai variabel yang

akan diamati pergerakannya sebagai akibat dari pergerakan variabel-

variabel lain.

2. Variabel Prediktor/Terikat

Variabel prediktor ialah variabel-variabel yang perubahannya dapat

memengaruhi nilai dari variabel respon. Variabel-variabel yang termasuk

variabel prediktor umumnya diasumsikan menurut logika dari fakta yang

terjadi (disebut juga variabel potensial), kemudian keberpengaruhan

variabel-variabel tersebut terhadap variabel respon akan di cek pada

proses seleksi variabel untuk mendapatkan model terbaik.

2.2.2 Eksplorasi Data

Eksplorasi data merupakan sebuah metode untuk melihat hubungan

antar variabel. Dengan menggunakan eksplorasi data, kita dapat melihat:

1. Hubungan antara variabel respon dengan variabel-variabel prediktor yang

kita anggap potensial (perubahannya kemungkinan memiliki pengaruh

terhadap nilai variabel respon).

2. Hubungan antara variabel-variabel prediktor yang kita anggap potensial.

Eksplorasi data yang ditampilkan dapat berupa tabulasi maupun

gambar grafik. Bentuk tampilan dari eksplorasi data bergantung pada jenis

variabel (kontinu/kategorikal).

1. Kontinu dengan kontinu

Hubungan antara 2 variabel kontinu dapat dilihat melalui gambar

scatterplot kedua variabel. Sumbu Y umumnya memuat nilai-nilai dari

variabel yang dipengaruhi, sedangkan sumbu X memuat nilai-nilai dari

variabel yang memengaruhi. Scatterplot dapat juga memuat variabel

ketiga yang berjenis kategorikal dengan cara memberikan warna-warna

pada tiap tiap titik yang ada pada hasil scatterplot antara X dan Y.

Scatterplot smoother seringkali digunakan untuk melihat hubungan

antara variabel X dengan Y dimana hubungan tersebut mungkin tidak

linier.

Page 7: Logistic regression (generalized linear model)

4

2. Kategorikal dengan kategorikal

Untuk mengetahui hubungan antara variabel kategorikal dengan

kategorikal, kedua variabel tersebut dimuat di dalam sebuah tabel

frekuensi. Tabel frekuensi tersebut dapat diolah untuk mendapatkan

peluang bersyarat serta mengetahui kebergantungan kedua variabel.

Kebergantungan kedua variabel dapat diuji menggunakan uji Chi-squared

dengan membandingkan nilai frekuensi serta expected frekuensi yang

diperoleh dibawah asumsi independen.

3. Kontinu dengan kategorikal

Untuk melihat hubungan antara variabel kontinu dengan variabel

kategorikal, dapat digunakan boxplot. Selain itu, ketika variabel

kategorikal bersifat binary, maka gambar scatterplot antara variabel

kategorikal tersebut dengan suatu variabel kontinu dapat dilengkapi

dengan scatterplot smoother untuk membantu memperlihatkan

hubungan antar keduanya.

2.2.3 Distribusi Keluarga Eksponensial

Distribusi yang termasuk ke dalam distribusi keluarga exponensial

ialah distribusi yang memiliki fungsi peluang yang dapat dituliskan ke dalam

bentuk

𝑓 𝑦 = 𝑐 𝑦,𝜙 exp 𝑦𝜃 − 𝑎(𝜃)

𝜙

dimana 𝜃 disebut parameter kanonik, dan 𝜙 disebut parameter dispersi. Pemilihan 𝜃 dan fungsi 𝑎(𝜃) menentukan bentuk distribusi. Nilai mean dan variansi dari anggota distribusi eksponensial dapat dituliskan sebagai: 𝐸 𝑌 = 𝑎 (𝜃) 𝑉𝑎𝑟 𝑌 = 𝜙𝑎 (𝜃)

dimana 𝑎 (𝜃) ialah turunan pertama dari 𝑎(𝜃) terhadap 𝜃, dan 𝑎 (𝜃) adalah

turunan kedua dari 𝑎(𝜃) terhadap 𝜃. Untuk variabel respon berdistribusi

keluarga eksponen,

𝑎 𝜃 =𝛿𝑎 (𝜃)

𝛿𝜃=

𝛿𝜇

𝛿𝜃= 𝑉 𝜇 ,

sehingga 𝑉𝑎𝑟 𝑦 = 𝜙𝑉(𝜇), dimana 𝑉(𝜇) disebut fungsi variansi yang

memperlihatkan hubungan mean dengan variansi. Pada generalized linear

model, nilai 𝜇 behubungan erat dengan variabel prediktor, sehingga nilai 𝜇

bervariasi sesuai dengan nilai variabel prediktor. Karena nilai 𝜇 bervariasi,

maka variansi juga bervariasi melalui fungsi 𝑉(𝜇).

Page 8: Logistic regression (generalized linear model)

5

2.2.3.1 Distribusi Bernoulli Sebagai Anggota Distribusi Keluarga

Eksponesial

Misalkan Y berdistribusi B(1,π). Fungsi peluang dari Y ialah:

𝑃 𝑌 = 𝑦 = 𝜋𝑦(1 − 𝜋)1−𝑦 𝑦 = 0,1

𝜋𝑦 1 − 𝜋 1−𝑦 = 𝜋

(1 − 𝜋) 𝑦

(1 − 𝜋)

= 𝑒𝑦 log

𝜋(1−𝜋)

+log (1−𝜋)

sehingga,

𝑐 𝑦,𝜙 = 1 𝜙 = 1 𝜃 = log𝜋

1 − 𝜋

log1

1 − 𝜋 = log

1 − 𝜋 + 𝜋

1 − 𝜋

= log 1 +𝜋

1 − 𝜋

= log 1 +𝜋

1 − 𝜋

= log 1 + 𝑒𝜃

= 𝑎 𝜃

𝐸 𝑌 = 𝑎 𝜃 = 𝜋 𝑉 𝜇 =𝑉𝑎𝑟(𝑌)

𝜙= 𝜋(1 − 𝜋)

2.2.3.2 Penaksiran parameter distribusi keluarga eksponensial

Misalkan 𝑌 merupakan variabel berdistribusi anggota keluarga

eksponensial. Penaksiran parameter 𝜃 dan 𝜙 dari distribusi keluarga

eksponensial didasarkan pada data. Penaksiran parameter dapat

dilakukan melalui metode momen maupun metode maximum

likelihood estimation.

1. Metode momen

Ide dari metode momen ialah menaksir 𝜃 dan 𝜙

sedemikian sehingga nilai dari rata-rata dan variansi populasi

sama dengan nilai rata-rata dan variansi sampel. 𝑎 𝜃 = 𝑦

dan 𝜙𝑎 𝜃 = 𝜎 2, dimana 𝑦 dan 𝜎 2 adalah rata-rata dan

variansi sampel.

Page 9: Logistic regression (generalized linear model)

6

2. Metode maximum likelihood estimation(MLE)

Misalkan 𝑓(𝑦𝑖 ;𝜃,𝜙) merupakan fungsi peluang dari

sebuah distribusi keluarga eksponensial, maka

ℓ 𝜙,𝜃 = ln 𝑐 𝑦𝑖 ,𝜙 +𝑦𝑖𝜃 − 𝑎 𝜃

𝜙

𝑛

𝑖=1

=𝑛 𝑦 𝜃 − 𝑎(𝜃)

𝜙+ ln 𝑐 𝑦𝑖 ,𝜙

𝑛

𝑖=1

Untuk mencari MLE dari 𝜃, maka dicari nilai 𝜃 yang dapat

memaksimumkan fungsi log likelihood.

𝛿ℓ 𝜙,𝜃

𝛿𝜃=

𝑛 𝑦 − 𝑎 (𝜃)

𝜙= 0

Sehingga diperoleh 𝑎 𝜃 = 𝑦 . Maka MLE dari 𝜃 didapatkan

dengan cara mencari nilai 𝜃, sedemikian sehingga 𝑎 𝜃 ≡ 𝜇

sama dengan 𝑦 . Dapat dilihat bahwa dengan MLE, 𝜇 = 𝑦 .

Dapat disimpulkan bahwa taksiran 𝜇 menggunakan metode

MLE sama dengan taksiran pada metode momen.

2.2.4 Base level Variabel Kategorikal

Jika variabel prediktor yang digunakan merupakan variabel kategorikal,

maka perlu dipilih suatu base level sebelum melakukan regresi. Base level

merupakan dasar pengukuran yang digunakan untuk membandingkan level

(kategori) lain yang termuat pada variabel kategorikal yang sama. Base level

yang dipilih merupakan level(kategori) yang memiliki jumlah frekuensi

terbanyak sehingga algoritma yang digunakan untuk menaksir parameter 𝛽

konvergen.

2.2.5 Link dan Canonical Link

Telah dijelaskan sebelumnya, bahwa transformasi terhadap nilai mean dari

variabel respon memiliki hubungan linear dengan variabel-variabel

prediktornya.

𝑔 𝜇 = 𝑥′𝛽

Fungsi transformasi 𝑔 disebut dengan fungsi link. Fungsi ini menentukan

bagaimana nilai mean berhubungan dengan variabel-variabel prediktor.

Fungsi 𝑔 bersifat monoton dan differentiable. Apabila 𝑔 𝜇 = 𝜃, maka 𝑔

disebut canonical link. Pada kasus ini 𝜃 = 𝑥′𝛽. Pemilihan fungsi link

bergantung kepada distribusi variabel respon. Berikut disajikan tabel yang

memuat fungsi-fungsi link yang umum digunakan.

Page 10: Logistic regression (generalized linear model)

7

2.2.6 Pemodelan Menggunakan Logistic Regression

Logistic Regression merupakan pemodelan regresi dimana variabel respon

memiliki 2 kemungkinan kejadian (binary outcome). Fungsi link yang

digunakan ialah fungsi logit 𝜇

1−𝜇, sehingga:

𝑔 𝜇 =𝜇

1 − 𝜇= 𝑥′𝛽

𝜇 =𝑒𝑥 ′ 𝛽

1 + 𝑥′𝛽

2.2.6.1 Membangun Model Menggunakan Stepwise regression

Dua proses paling penting yang dilakukan pada Stepwise

regression ialah pemilihan variabel prediktor yang dimasukkan ke

dalam model dan pemilihan variabel prediktor untuk dikeluarkan

dari model. Untuk melakukan kedua proses tersebut, dibutuhkan uji

signifikansi variabel prediktor. Untuk menguji signifikansi suatu

variabel prediktor (kategorikal maupun kontinu), maka dilakukan uji

hipotesis:

𝐻0:𝐶𝛽 = 0

𝐻1:𝐶𝛽 ≠ 0

Matriks 𝐶 merupakan matriks berukuran 𝑞 × 𝑝, dimana p

merupakan jumlah parameter pada model apabila variabel yang

ingin diuji telah dimasukkan ke dalam model dan q adalah jumlah

parameter yang akan diuji. Matriks 𝛽 ialah matriks berukuran px1.

Wald test merupakan salah satu uji yang dapat digunakan untuk

menguji hipotesis diatas. Dibawah asumsi 𝐻0 ,

𝛽 ~𝑁(𝛽,𝜙(𝑋′𝑊𝑋)−1

Page 11: Logistic regression (generalized linear model)

8

dengan W ialah matriks diagonal dengan diagonal-diagonalnya berisi

nilai [ 𝑔 𝜇𝑖 2𝑉 𝜇𝑖 ]−1.

Sehingga,

𝐶𝛽 − 𝑟~𝑁(0,𝜙𝐶 𝑋′𝑊𝑋 −1𝐶′

Statistik wald yang digunakan untuk menguji 𝐶𝛽 = 0 ialah:

(𝐶𝛽 − 𝑟)′ 𝜙𝐶(𝑋′𝑊𝑋)−1𝐶′ 𝐶𝛽 − 𝑟 ~𝜒𝑞2

𝑞 merupakan jumlah parameter yang akan diuji signifikansinya.

𝐻0:𝐶𝛽 = 0 akan ditolak apabilai nilai 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.

2.2.6.2 Membangun Model dengan Mempertimbangkan Faktor Exposure

Exposure(t) merupakan proporsi yang menunjukkan perbandingan

jangka waktu polis yang terekspos terhadap jangka waktu polis yang

seharusnya. Misalkan claim adalah variabel yang menunjukkan

apakah seseorang mengajukan claim atau tidak. Misalkan seseorang

memiliki peluang untuk mengajukan claim sebesar 𝜋. Apabila nilai

eksposure kurang dari 1, peluang orang tersebut untuk mengajukan

claim akan menjadi lebih kecil. Dengan mempertimbangkan nilai

exposure, maka claim yang semula berdistribusi 𝐵(1,𝜋) akan

berdistribusi 𝐵(1, 𝑡𝜋), dengan 0 < 𝑡 ≤ 1.

Kita definisikan 𝜋∗ = 𝑡𝜋, karena 𝜇 = 𝜋 maka model regres logistik

menjadi:

𝑙𝑛𝜋∗/𝑡

1 − 𝜋∗/𝑡= 𝑥′𝛽 𝜋∗ = 𝑡

𝑒𝑥 ′ 𝛽

1 + 𝑥′𝛽

2.2.7 Tabel Klasifikasi dan ROC (Receiver Operating Characteristic)

Tabel klasifikasi ialah salah satu metode untuk melihat performa suatu

model dari regresi logistik. Nilai taksiran probabilitas 𝜋 𝑖 untuk setiap kasus i

diklasifikasikan dalam “event” dan “non-event” berdasarkan nilai threshold

yang kita pilih. Hasil dari tabel klasifikasi yang berukuran 2x2 mampu

membandingkan antara kejadian yang memang terjadi dengan hasil prediksi.

Kemampuan suatu model untuk memprediksi dapat diklasifikasikan ke dalam

2 ukuran:

1. Sensitivity, yaitu nilai yang merupakan frekuensi relatif dari

memprediksi suatu kejadian yang terjadi ketika kejadian tersebut

memang terjadi.

Page 12: Logistic regression (generalized linear model)

9

2. Specifycity, yaitu nilai yang merupakan frekuensi relatif dari

memprediksi suatu kejadian yang tidak terjadi ketika kejadian

tersebut memang tidak terjadi.

Jika nilai threshold yang dipilih ialah 0, maka nilai sensitivity=0 dan nilai

specificity=1. Kedua ukuran tersebut dapat digambarkan dalam suatu grafik

(ROC curve), dimana sumbu x merupakan (1-specificity) dan sumbu y

merupakan ukuran sensitivity. Karena merupakan frekuensi relatif, nilai

maksimum dari Sensitivity dan Specifycity ialah 1. Grafik ROC selalu bermula

dari titik (0,0) dan berakhir pada titik (1,1). Semakin cepat grafik menuju 1

maka semakin baik kemampuan model dalam memprediksi. Kemampuan

suatu model dalam memprediksi juga dapat kita lihat melalui luas dibawah

kurva ROC(Area Under Curve). Semakin luas kurva, semakin baik kemampuan

model dalam memprediksi.

2.2.8 Pemilihan Model

Pemilihan model untuk regresi logistik dapat dilakukan dengan melihat

nilai AIC yang didefinisikan sebagai:

𝐴𝐼𝐶 = −2ℓ + 2𝑝

Suatu taksiran yang baik tentunya akan memiliki nilai log likelihood yang

besar, sehingga nilai −2ℓ kecil. Model yang baik ialah model yang tidak

mengandung terlalu banyak parameter. Sehingga dapat disimpulkan bahwa

semakin baik model, nilai AIC akan semakin kecil. Jika nilai pengurangan AIC

tidak begitu besar, kemungkinan terdapat parameter yang tidak signifikan,

sehingga dibutuhkan uji untuk tiap-tiap parameter yang ada.

Selain melihat dari nilai AIC, kita juga melihat dari nilai AUC(Area Under

Curve) dari grafik ROC. Semakin besar area, semakin baik kemampuan model

dalam memprediksi.

Page 13: Logistic regression (generalized linear model)

10

BAB III

ANALISIS DAN HASIL PENELITIAN

3.1 Pemilihan Variabel Respon dan Prediktor Potensial

Sesuai dengan tujuan yang telah penulis paparkan, yaitu untuk menentukan

model regresi terbaik yang dapat mengestimasi probabilitas seseorang dengan

karakteristik tertentu untuk mengajukan claim, maka variabel respon yang dipilih

ialah variabel clm yang menyatakan apakah seseorang mengajukan claim atau tidak

(Data asuransi yang diperoleh bukan merupakan data asuransi yang bersifat group

pada masing-masing polisnya). Variabel clm termasuk ke dalam variabel kategorikal.

Variabel claim memiliki binary outcome dengan

0: tidak mengajukan claim

1: mengajukan claim

Variabel prediktor yang penulis anggap memiliki pengaruh terhadap variabel

respon yang telah dipilih ialah:

1. Veh_value : Vehicle value (harga kendaraan)

Merupakan variabel kontinu yang menyatakan harga

kendaraan dalam satuan 10,000 dolar.

2. Veh_body : Vehicle body (tipe badan kendaraan)

Merupakan variabel kategorikal dengan 13 kategori, yaitu

BUS

CONVT = convertible

COUPE

HBACK = hatchback

HDTOP = hardtop

MCARA = motorized caravan

MIBUS = minibus

PANVN = panel van

RDSTR = roadster

SEDAN

STNWG = station wagon

TRUCK

UTE - utility

Page 14: Logistic regression (generalized linear model)

11

3. Area : Area tempat tinggal pengemudi

Merupakan variabel kategorikal yang terdiri dari 6 kategori

area yaitu A, B, C, D, E, dan F.

4. Agecat : Kategori usia pengemudi

Merupakan variabel kategorikal yang terdiri dari 6 kategori

usia yaitu 1, 2, 3, 4, 5, dan 6

3.2 Eksplorasi Data

1. Veh_value (vehicle value/harga kendaraan)

Dapat dilihat bahwa nilai mean lebih besar dibanding nilai median. Nilai mean

bersifat tidak robust sehingga mudah mengalami pergeseran apabila terdapat

nilai yang besar. Dapat disimpulkan bahwa terdapat beberapa kendaraan dalam

data suransi yang memiliki harga tinggi. Hal ini juga dapat dilihat dari histogram

harga kendaraan yang memiliki ekor di bagian kanan.

Boxplot dari occurence of claim dengan vehicle value (harga kendaraan)

memperlihatkan bahwa pemegang polis yang tidak mengajukan claim memiliki

harga kendaraan yang variansinya lebih besar. Pemegang polis dengan harga

kendaraannya tergolong mahal terletak pada boxplot claim kategori 0, yang

mengindikasikan bahwa mobil yang mahal kemungkinan lebih jarang rusak.

Page 15: Logistic regression (generalized linear model)

12

Dari gambar scatterplot yang dilengkapi dengan hasil scatterplot smoother

diatas, dapat dilihat bahwa harga kendaraan tidak berhubungan secara linear

dengan variabel clm. Hubungan keduanya kemungkinan bersifat kuadratik atau

kibik. Namun, setelah dilakukan regresi polinomial derajat 2 dan derajat 3 dengan

variabel respon clm dan variabel prediktor veh_value, keduanya kurang cocok.

Regresi polinomial derajat 2 menunjukkan bahwa regresi tidak cocok untuk data

nilai kendaraan yang besar, sehingga perlu dilakukan banding. Banding ialah

mengategorikan variabel kontinu. Kita definisikan variabel baru yaitu valuecat,

dimana valuecat merupakan hasil banding dari variabel veh_value. Selang yang

dipilih dapat dilihat pada tabel berikut.

Hasil dari banding pada grafik scatterplot diatas menunjukkan bahwa variabel

valuecat lebih cocok dibanding dengan hasil regresi polinomial yang telah

dipaparkan sebelumnya, sehingga variabel valuecat akan digunakan sebagai

variabel prediktor menggantikan variabel veh_value.

Clm valuecat(valuecategory)

1 2 3 4 5 6

0 0,756529 0,155476 0,017287 0,001474 0,000619 0,000472

1 0,053584 0,013101 0,001356 5,89E-05 2,95E-05 1,47E-05

Page 16: Logistic regression (generalized linear model)

13

Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis yang

memiliki kendaraan dengan harga kurang dari $25,000 untuk tidak mengajukan

claim paling besar.

Dapat dilihat pada diagram batang di atas bahwa sebagian besar pemegang

polis memiliki harga kendaraan dibawah $25,000.

2. Veh_body (Tipe badan kendaraan)

Diagram batang diatas menunjukkan bahwa sebagian besar pemegang polis

memiliki kendaraan sedan.

Page 17: Logistic regression (generalized linear model)

14

3. Agecat (Age category/kategori usia)

d

Diagram batang di atas menunjukkan bahwa pemegang polis sebagian besar

berada pada kategori usia ke 4.

Clm Age category

1 2 3 4 5 6

0 0,077311 0,176005 0,215957 0,222309 0,149169 0,091105

1 0,00731 0,013735 0,016402 0,01627 0,009049 0,005379

Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis dengan

kategori usia 4 yang tidak mengajukan claim cukup besar.

Page 18: Logistic regression (generalized linear model)

15

4. Area (Area tempat tinggal pengemudi)

Diagram batang diatas menunjukkan bahwa pemegang polis paling banyak

berdomisili di area C.

Clm Area

A B C D E F

0 0,224402 0,182386 0,281891 0,113137 0,081437 0,048603

1 0,01599 0,014221 0,020809 0,00731 0,005689 0,004126

Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis dengan

kategori area C yang tidak mengajukan claim cukup besar.

3.3 Pemilihan Base level

Keempat variabel prediktor yang akan digunakan merupakan variabel kategorikal,

sehingga perlu dilakukan pemilihan base level serta pembuatan variabel dummy.

Pemilihan base level didasarkan pada level yang memiliki jumlah frekuensi terbesar,

sehingga algoritma untuk mencari 𝛽 konvergen.

Agecat 1 2 3 4 5 6

5742 12875 15767 16189 10736 6547

Area A B C D E F

16312 13341 20540 8173 5912 3578

veh_body

BUS CONVT COPUE HBACK HDTOP MCARA MIBUS

48 81 780 18915 1579 127 717

PANVN RDSTR SEDAN STNWG TRUCK UTE 752 27 22233 16261 1750 4586 Valuecat 1 2 3 4 5 6

Page 19: Logistic regression (generalized linear model)

16

54971 11439 1265 104 44 33

Dari tabel frekuensi diatas, maka dipilih agecat kategori 4 sebagai base level dari

variabel agecat, area C sebagai base level dari variabel area, Tipe badan mobil sedan

sebagai base level dari variabel veh_body, dan valuecat kategori 1 sebagai base level

dari variabel valuecat.

Misalkan sebuah variabel kategorikal memiliki r level, maka dibutuhkan variabel

dummy sebanyak r-1 variabel. Variabel dummy dibentuk dari level-level yang bukan

merupakan base level. Contohnya, untuk variabel agecat, terdapat r = 6 level. Base

level yang telah dipilih ialah variabel agecat kategori 4, sehingga variabel dummy

yang terbentuk ialah:

𝑎𝑔𝑒𝑐𝑎𝑡1 1,𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 1

0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎

𝑎𝑔𝑒𝑐𝑎𝑡2 1,𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 2

0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎

𝑎𝑔𝑒𝑐𝑎𝑡3 1,𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 3

0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎

𝑎𝑔𝑒𝑐𝑎𝑡5 1,𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 5

0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎

𝑎𝑔𝑒𝑐𝑎𝑡6 1,𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 6

0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎

Apabila pemegang polis memiliki usia pada kategori 4, maka nilai dari masing-

masing variabel dummy diatas ialah 0. Untuk variabel kategorikal lainnya,

pembuatan variabel dummy dilakukan dengan cara yang serupa, sehingga jumlah

variabel dummy untuk seluruh variabel prediktor yang ada ialah 27 variabel.

3.4 Pemodelan Menggunakan Logistic Regression

Variabel respon yang telah dipilih, yaitu clm memiliki binary outcome sehingga

sangat cocok dengan sifat dari distribusi bernoulli, yaitu hanya memiliki 2

kemungkinan kejadian yang saling lepas. Dapat disimpulkan bahwa variabel clm

berdistribusi 𝐵(1,𝜋), dengan nilai 𝜋 dipilih sebagai probabilitas seseorang untuk

mengajukan claim.

Variabel respon yang dipilih berdistribusi bernoulli, sehingga dipilih link logit

𝑙𝑛𝜇

1−𝜇 sebagai link kanonik. Untuk distribusi bernoulli, nilai 𝜇 = 𝜋, sehingga dengan

variabel-variabel dummy yang telah didefinisikan, model regresi dengan prediktor

potensial menjadi:

𝑙𝑛𝜋

1−𝜋= 𝛽0 + 𝛽1𝑎𝑔𝑒𝑐𝑎𝑡1 + 𝛽2𝑎𝑔𝑒𝑐𝑎𝑡2 + 𝛽3𝑎𝑔𝑒𝑐𝑎𝑡3 + 𝛽4𝑎𝑔𝑒𝑐𝑎𝑡5…+ 𝛽27𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6

Page 20: Logistic regression (generalized linear model)

17

Link logit diatas menjamin bahwa nilai 𝜋 akan berada pada interval [0,1]. Hal ini dapat

dilihat pada penjelasan berikut:

Misal

𝑙𝑛𝜋

1 − 𝜋= 𝑥′𝛽

maka

𝜋 =𝑒𝑥 ′ 𝛽

1 + 𝑒𝑥′ 𝛽

sehingga nilai 𝜋 akan berada pada interval [0,1] untuk semua 𝑥 dan 𝛽.

3.4.1 Estimasi Parameter Distribusi Bernoulli

Sesuai dengan metode estimasi parameter yang telah

dijelaskan pada bab landasan teori, maka:

𝜇 = 𝜋 = 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑑𝑎𝑟𝑖 𝑐𝑙𝑚

= 𝑗𝑢𝑚𝑙𝑎𝑕 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑔𝑎𝑗𝑢𝑘𝑎𝑛 𝑐𝑙𝑎𝑖𝑚

𝑗𝑢𝑚𝑙𝑎𝑕 𝑡𝑜𝑡𝑎𝑙 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠

=4624

67856= 0.068

Berbeda dengan 𝜋 yang didapatkan dari hasil regresi, nilai estimasi disini tidak

mempertimbangkan hubungan dengan prediktor.

3.4.2 Membangun Model Menggunakan Stepwise regression

Regresi dengan menggunakan metode stepwise regression diperoleh

menggunakan software SAS. Regresi dengan metode ini algoritma software

SAS dapat dilihat di bagian lampiran. Untuk mempersingkat penjelasan,

penulis hanya akan memuat hasil regresi pada step 0, 1, dan kesimpulan dari

proses regresi.

Page 21: Logistic regression (generalized linear model)

18

Maksud dari Probability modeled is clm=’1’ ialah bahwa kita memilih

parameter 𝜋 sebagai peluang bahwa clm bernilai 1 (peluang pemegang polis

mengajukan claim).

Page 22: Logistic regression (generalized linear model)

19

Tabel diatas menunjukkan informasi base level yang telah kita pilih. base

level yang kita pilih memuat nilai 0 pada setiap cell-nya.

STEP 0-intercept entered

Tabel diatas mengindikasikan bahwa algoritma estimasi parameter 𝛽

konvergen, sehingga nilai 𝛽 dapat diperoleh.

Tabel diatas menunjukkan proses pemilihan variabel untuk dimasukkan ke

dalam model. Program SAS menggunakan uji score chi-square atau sering

disebut Lagrange Multiplier untuk menguji apakah suatu variabel signifikansi

untuk dimasukkan ke dalam model. Sebagai contoh, untuk mengetahui

apakah variabel agecat signifikan untuk dimasukkan ke dalam model yang

telah didapat (hanya memuat parameter intercept yaitu 𝛽0 ), maka dilakukan

uji hipotesis:

𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0

Dengan

𝐶 =

0 1 00 0 10 0 0

0 0 00 0 01 0 0

0 0 00 0 0

0 1 00 0 1

𝛽 =

𝛽0

𝛽1

𝛽2

𝛽3

𝛽4

𝛽5

Page 23: Logistic regression (generalized linear model)

20

Ingat bahwa variabel agecat merupakan variabel kategorikal. Variabel agecat

terdiri dari 6 level, sehingga menguji apakah variabel agecat signifikan sama

saja dengan menguji apakah 𝛽1,𝛽2,𝛽3,𝛽4, dan 𝛽5 signifikan.

Matriks C merupakan matriks berukuran qxp dimana p merupakan jumlah

parameter pada model regresi apabila variabel yang ingin diuji telah

dimasukkan ke dalam model, dan q adalah jumplah parameter yang akan

diuji. Matriks 𝛽 berukuran px1.

𝐻0 ditolak apabila nilai 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼. Nilai 𝛼 yang penulis pilih ialah 0.05.

𝐻0 ditolak mengindikasikan bahwa variabel tersebut signifikan untuk

dimasukkan ke dalam model. Karena nilai p-value dari masing-masing variabel

kurang dari 𝛼, kita pilih nilai p-value yang paling kecil. Dapat dilihat bahwa

nilai p-value untuk variabel agecat dan veh_body hampir sama. Oleh karena

itu, kita pilih variabel yang memiliki score chi-square yang terbesar, sehingga

variabel agecat dimasukkan ke dalam model.

STEP 1-Agecat entered

Nilai AIC yang semakin kecil menunjukkan bahwa model semakin baik. Dapat

dilihat bahwa nilai AIC model yang memuat variabel agecat sebagai

prediktor/kovariat lebih kecil dariapada apabila model hanya memuat 𝛽0

(intercept), sehingga model yang memuat agecat sebagai prediktor lebih baik.

Ketiga tes diatas dilakukan untuk menguji:

𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0

Dengan

Page 24: Logistic regression (generalized linear model)

21

𝐶 =

0 1 00 0 10 0 0

0 0 00 0 01 0 0

0 0 00 0 0

0 1 00 0 1

𝛽 =

𝛽0

𝛽1

𝛽2

𝛽3

𝛽4

𝛽5

Dengan kata lain, uji Global Null hipotesis menguji apakah model yang hanya

memuat intercept (𝛽0) lebih baik atau tidak.

Tes diatas digunakan untuk menguji signifikansi masing-masing variabel yang

telah termuat di dalam model terbaru.

Nilai estimasi parameter untuk 𝛽0,𝛽1,𝛽2,𝛽3,𝛽4, dan 𝛽5 termuat pada

kolom estimate pada tabel diatas. Hasil regresi pada step 1 yang diperoleh

ialah:

𝑙𝑛𝜋

1 − 𝜋= −2.6148 + 0.2565 𝑎𝑔𝑒𝑐𝑎𝑡1 +

0.0642 𝑎𝑔𝑒𝑐𝑎𝑡2 + 0.0371 𝑎𝑔𝑒𝑐𝑎𝑡3 − 0.1876 𝑎𝑔𝑒𝑐𝑎𝑡5 − 0.2146 𝑎𝑔𝑒𝑐𝑎𝑡6

Wald Chi-square digunakan untuk menguji signifikansi masing-masing

parameter didalam model. Terdapat nilai p-value yang cukup besar, namun

parameter yang memiliki p-value yang cukup besar ialah parameter yang

merupakan parameter dari variabel-variabel dummy. Tes terhadap variabel-

variabel dummy yang termuat dalam satu variabel kategorikal harus

dilakukan secara bersamaan, bukan secara individual.

Page 25: Logistic regression (generalized linear model)

22

Odd ratio estimate didefinikan sebagai:

𝜋

(1 − 𝜋)

Nilai ini menunjukkan proporsi dari peluang kejadian dibanding peluang tidak

terjadinya sebuah kejadian (event). Misal untuk baris agecat 1vs4, ketika

seseorang termasuk pada kategori usia pertama, maka:

𝑙𝑛𝜋

1 − 𝜋= −2.6148 + 0.2565 ∗ 1 +

0.0642 ∗ 0 + 0.0371 ∗ 0 − 0.1876 ∗ 0 − 0.2146 ∗ 0

𝑙𝑛𝜋

1 − 𝜋= −2.6148 + 0.2565

𝜋

1 − 𝜋= 𝑒−2.6148𝑒0.2565 = 1.292 𝑒−2.6148

Apabila seseorang berada pada kategori usia 4(base level), maka:

𝑙𝑛𝜋

1 − 𝜋= −2.6148

𝜋

1 − 𝜋= 𝑒−2.6148

Dapat disimpulkan bahwa untuk model yang diperoleh pada step 1, apabila

seseorang termasuk kategori usia pertama, maka nilai dari odd ratio nya

merupakan 1.292 kali lipat dari odd ratio apabila seseorang termasuk

kategori usia 4(base level).

Page 26: Logistic regression (generalized linear model)

23

Tes diatas digunakan untuk mengetes signifikansi masing-masing variabel

apabila model terbaru sudah didapatkan. Apabila suatu variabel yang

sebelumnya signifikan, dan setelah variabel lain masuk menjadi tidak

signifikan, maka variabel yang tidak signifikan akan dikeluarkan dari model.

Tabel diatas menunjukkan uji signifikansi masing-masing variabel apabila

variabel tersebut dianggap telah masuk ke dalam model terbaru. Uji ini

dilakukan untuk memilih variabel mana yang signifikan untuk dimasukkan ke

dalam model. Nilai p-value terkecil dimiliki oleh variabel veh_body, sehingga

veh_body merupakan variabel yang cukup signifikan untuk dimasukkan ke

dalam model yang telah diperoleh sebelumnya.

Proses akan berlangsung hingga tidak ada variabel yang signifikan untuk

dimasukkan ke dalam model. Berikut rangkuman dari proses stepwise

regression.

Kolom Pr>ChiSq menunjukkan nilai p-value saat variabel dimasukkan ke

dalam model.

Page 27: Logistic regression (generalized linear model)

24

Tes diatas digunakan untuk menguji masing-masing variabel pada model

regresi terakhir yang telah didapat, yaitu model yang memuat keempat

variabel. Misalkan akan diuji signifikansi variabel valuecat.

Ingat bahwa variabel valuecat merupakan variabel kategorikal. Variabel

valuecat terdiri dari 5 level, sehingga menguji apakah variabel agecat

signifikan sama saja dengan menguji apakah 𝛽23 ,𝛽24 ,𝛽25 ,𝛽26 , dan 𝛽27

signifikan (Perhatikan urutan parameter).

Dilakukan uji hipotesis:

𝐻0:𝐶𝛽 = 0 𝐻1:𝐶𝛽 ≠ 0

dengan C merupakan matriks berukuran 5x28, yaitu

𝐶 =

0 0 0: : :: : :

… 1 0… 0 1… 0 0

0 0 00 0 01 0 0

: : :0 0 0

… 0 0… 0 0

0 1 00 0 1

dan 𝛽 matriks berukuran 28x1.

Model yang diperoleh dari hasil stepwise regression ialah:

𝑙𝑛𝜋

1 − 𝜋= −2.6199 + 0.2614𝑎𝑔𝑒𝑐𝑎𝑡1 + ⋯− 0.7779 𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6

Page 28: Logistic regression (generalized linear model)

25

Terlihat bahwa nilai AUC(Area Under Curve) naik untuk setiap step dalam

regresi, hal ini mengindikasikan bahwa kemampuan model pada setiap step

untuk memprediksi terus membaik. Artinya nilai specificity dan sensitivity

terus meningkat. Berikut tabel klasifikasi dengan nilai threshold 0.08.

Nilai sensitivity dan specificity diperoleh dari:

𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 =𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡

𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡 + 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡

𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡

𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡 + 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡

3.4.3 Membangun Model dengan Mempertimbangkan Faktor Exposure

Didefiniskan fungsi link dan fungsi inverse link

𝑙𝑛𝜋∗/𝑡

1 − 𝜋∗/𝑡 𝑡

𝑒𝑥 ′ 𝛽

1 + 𝑥′𝛽

dengan t menotasikan nilai eksposure. Berikut hasil regresi yang diperoleh dari program SAS. Penjelasan dari proses regresi yang serupa tidak dibahas kembali.

Page 29: Logistic regression (generalized linear model)

26

LR statistik for type 3 analysis merupakan alat untuk menguji signifikansi

masing-masing variabel pada model regresi yang telah didapatkan. Model

regresi yang didapatkan ialah:

𝑙𝑛𝜋

1 − 𝜋= −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2

+⋯− 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6

3.5 Pemilihan Model

Pemilihan model didasarkan pada nilai AIC terkecil serta nilai AUC terbesar. Nilai

AIC untuk hasil stepwise regression tanpa mempertimbangkan nilai exposure ialah

33680, 356. Sedangkan dengan mempertimbangkan nilai exposure, model yang

didapatkan memiliki nilai AIC 32549,5279. Artinya model dengan

mempertimbangkan faktor exposure dapat dibilang lebih baik.

Page 30: Logistic regression (generalized linear model)

27

Dapat dilihat dari kurva ROC diatas, kurva ROC dari model yang memuat faktor

exposure lebih condong ke bagian kiri atas dari grafik. Hal ini mengindikasikan bahwa

model lebih baik.

Dapat dilihat pada tabel klasifikasi bahwa nilai specificity dari model yang memuat

faktor exposure lebih kecil. Namun perbedaan ini tidak begitu signifikan dibanding

dengan perbedaan nilai dari sensitivity, dimana nilai sensitivity untuk model yang

memuat faktor exposure lebih tinggi.

Sensitivity didefinisikan sebagai frekuensi relatif dari memprediksi sebuah

kejadian (claim) ketika kejadian tersebut terjadi. Sedangkan specificity didefinisikan

sebagai frekuensi relatif dari memprediksi tidak terjadinya sebuah kejadian ketika

kejadian (claim)tersebut memang tidak terjadi. Pihak asuransi tentunya lebih

menginginkan nilai sensitivity yang tinggi dibanding nilai dari specificity. Oleh karena

itu model yang dipilih ialah model yang memuat faktor exposure, yaitu:

𝑙𝑛𝜋

1 − 𝜋= −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2

+⋯− 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6

Tanpa Exposure Dengan Exposure

Page 31: Logistic regression (generalized linear model)

28

BAB IV

KESIMPULAN DAN SARAN

4.1 Kesimpulan

Regresi terbaik yang diperoleh ialah regresi yang mempertimbangkan faktor

eksposure dengan prediktor valuecat (kategoriharga kendaraan), agecat(kategori

usia), area(area tempat tinggal pengemudi), dan veh_body (Tipe badan mobil).

Model regresi yang diperoleh ialah

𝑙𝑛𝜋

1−𝜋= −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2 +⋯− 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6

4.2 Saran

Penulis belum memasukkan semua variabel potensial yang terdapat pada data,

sehingga regresi yang lebih baik mungkin akan didapatkan apabila variabel prediktor

lain dimasukkan pada proses seleksi variabel dengan mempertimbangkan faktor

exposure.

Page 32: Logistic regression (generalized linear model)

29

Page 33: Logistic regression (generalized linear model)

LAMPIRAN

*/import dataa;

PROC IMPORT DATAFILE="D:\JES\car.csv"

OUT =car REPLACE;

getnames=yes;

RUN;

*_______________________________statistika deskriptif;

*/histogram dari value_cat;

PROC UNIVARIATE data=car2;

histogram veh_value;

run;

*/boxplot veh_value dengan claim;

title "Box Plots";

proc sgplot data=car;

vbox veh_value / category=clm;

label clm="occurence of claim 0=No 1=Yes";

label veh_value="Vehicle value in $10,000s";

run;

*/scatterplot veh_value dengan claim

title "scatterplot";

proc sgplot data=car;

scatter x=veh_value y=clm;

label clm="occurence of claim 0=No 1=Yes";

label veh_value="Vehicle value in $10,000s";

run;

ods graphics on;

proc loess data=car;

model clm = veh_value;

run;

ods graphics off;

*/Banding variable untuk variabel veh_value;

DATA car2;

SET car;

areas=area;

drop numclaims claimcst0 veh_age gender _OBSTAT_ area;

valuecat = .;

IF (veh_value<=2.5) THEN valuecat = 1;

IF (2.5<veh_value<=5) THEN valuecat = 2;

IF (5<veh_value<=7.5) THEN valuecat = 3;

IF (7.5<veh_value<=10) THEN valuecat = 4;

IF (10<veh_value<=12.5) THEN valuecat = 5;

IF (veh_value>12.5) THEN valuecat = 6;

RUN;

*/valuecat;

PROC GCHART DATA=car2;

VBAR valuecat/NAME="Value Category" TYPE=FREQ

MAXIS=AXIS1 MIDPOINTS= 1 to 6 by 1;

label valuecat="valuecat(value category)";

run;

*/valuecat;

PROC GCHART DATA=car;

VBAR agecat/NAME="Age Category" TYPE=FREQ

MAXIS=AXIS1 MIDPOINTS= 1 to 6 by 1;

Page 34: Logistic regression (generalized linear model)

label agecat="age category";

run;

PROC GCHART DATA=car;

VBAR area/NAME="Area" TYPE=FREQ

MAXIS=AXIS1;

label area="Area";

run;

PROC GCHART DATA=car;

VBAR veh_body/NAME="veh_body" TYPE=FREQ

MAXIS=AXIS1;

label veh_body="veh_body(vehicle body)";

run;

*/________________________________________without exposure;

%include "D:\JES\roc.sas";

ods graphics on;

proc logistic data=work.car2 plots(only)=roc(id=obs);

class agecat(ref="4") areas(ref="C") veh_body(ref="SEDAN")

valuecat(ref="1") / param=ref;

model clm (event="1")= agecat areas veh_body valuecat /

selection=stepwise scale=none

clparm=wald

clodds=pl

rsquare

details

lackfit

ctable pprob=0.08 outroc=work.outcar2 ;

output out=pred p=phat lower=lcl upper=ucl

predprob=(individual crossvalidate);

run;

ods graphics off;

%roc(data=pred, var=phat,response=clm)

*/___________________________________________with exposure;

%include "D:\JES\roc.sas";

proc genmod data=work.car2 descending;

class agecat(ref="4") areas(ref="C") veh_body(ref="SEDAN")

valuecat(ref="1") / param=ref;

model clm = agecat areas veh_body valuecat /

dist=bin type3 ;

*/link;

fwdlink

link=log((_MEAN_/exposure)/(1-(_MEAN_/exposure)));

invlink

ilink=exposure*exp(_XBETA_)/(1+exp(_XBETA_));

output out=work.car2 p=fit;

run;

%roc(data=work.car2, var=fit2,response=clm)

ods graphics on;

proc logistic data=work.car2 plots(only)=roc(id=obs);

model clm(event="1")=fit/ scale=none

clparm=wald

clodds=pl

rsquare

Page 35: Logistic regression (generalized linear model)

ctable pprob=0.08 outroc=work.outcar2 ;

run;

ods graphics off;