k7 k8 mpl logit multinomial

33
MODEL PROBABILITAS LINIER

Upload: super-yoni

Post on 08-Aug-2015

80 views

Category:

Data & Analytics


7 download

TRANSCRIPT

MODEL PROBABILITAS

LINIER

VARIABEL KATEGORIK

Variabel Kategorik sebagai variabel bebas

Contoh:

Jenjang Pendidikan: SD, SLTP, SLTA, D3, S1, S2, S3

Laki-perempuan; Kota-Desa; Ya-Tidak; Domestik-Asing

Variabel Kategorik sebagai variabel terikat

Contoh:

Pilihan Investasi: Saham, Valas, Obligasi, Deposito, Emas

Pilihan Moda Transportasi ke tempat kerja:

Kereta, Bus, Motor, Mobil Pribadi, Jalan kaki

REGRESI DG VARIABEL

TERIKAT KATEGORIK/ DUMMY

PEMBAHASAN:

Fokus

Kasus yang muncul

Model

Masalah

Bagaimana kalau diestimasi dengan

OLS

Kasus

1. Apa yang mempengaruhi pilihan investasi pada stock market?

Variabel terikat: Pilihan Investasi (kategorik): stock market atau lainnya

Variabel bebas:

Pendapatan (rupiah)

Return (persentasi)

Kondisi Ekonomi (kategorik): kontraksi, stagnan, ekspansi

2. Apa yang mempengaruhi pilihan transportasi kerja?

Variabel terikat: Pilihan moda transportasi (kategorik):

Kereta, bus, motor, mobil pribadi

Variabel bebas:

Jarak ke tempat kerja, Pendapatan (rupiah), Harga BBM, Kondisi Jalan, Kenyamanan

3. Apakah punya rumah atau tidak

Variabel terikat: Kepemilikan rumah

Variabel bebas: Pendapatan Keluarga, Banyaknya Anggota Keluarga, Jenis rumah, Usia Kepala Keluarga.

Pemodelan Matematis dan masalahnya

Yi = 1 + 2 Xi + ui

X = pendapatan keluarga

Y = 1 ; bila suatu keluarga mempunyai rumah

0 ; bila suatu keluarga tidak mempunyai rumah

Secara matematis, dengan mengasumsikan bahwa E(ui) = 0,

E(Yi Xi) = 1 + 2Xi

Secara statistik, ekspektasi kondisional dari Yi jika diberikan Xi

E (Yi Xi) = (Yi = 1) P( Yi = 1Xi ) + (Yi = 0) P(Yi = 0Xi) = P(Yi = 1 Xi)

Bila

pi : probabilita bahwa keluarga i memiliki rumah, yaitu bila Yi = 1;

(1 – pi ): probabilita bahwa keluarga i tidak memiliki rumah, yaitu bila Yi = 0,

E(Yi X) = (Yi = 0) P(Yi = 0 Xi) + (Yi = 1) P(Yi = 1 Xi) = P(Yi = 1 Xi) = pi

Akibatnya:

E(Yi Xi) = 1 + 2 Xi = pi

Karena 0 pi 1, akibatnya: 0 1 + 2 Xi 1

Contoh

Akan dilihat hubungan antara pernah-tidaknya melakukan

perjalanan ke luar negeri, dan penghasilan per bulan.

Model: Yi = 1 + 2 Xi + ui

Yi = 1; Pernah melakukan perjalanan ke luar negeri

= 0; Tidak pernah melakukan perjalanan ke luar

negeri

Xi = Pendapatan

Apakah estimator hasil OLS dapat menjamin bahwa

besaran 1 + 2 Xi terletak antara 0 dan 1?

D

A

T

A

KeluargaPernah ke Luar

Negeri

Pendapatan

(Juta Rp.)Keluarga

Pernah ke Luar

Negeri

Pendapatan

(Juta Rp.)

01 0 2,8 21 1 4,3

02 1 3,4 22 1 5,6

03 1 5,3 23 0 1,4

04 0 2,1 24 0 0,9

05 0 1,9 25 1 7,3

06 1 3,6 26 0 1,3

07 1 3,7 27 1 6,3

08 0 1,7 28 1 3,7

09 0 1,2 29 0 1,9

10 0 1,5 30 0 2,0

11 1 1,9 31 1 4,2

12 1 2,0 32 0 3,2

13 0 2,1 33 1 4,0

14 1 2,9 34 1 3,0

15 0 1,1 35 0 1,0

16 1 1,8 36 0 0,9

17 1 7,0 37 1 2,4

18 0 2,2 38 1 2,3

19 0 2,0 39 0 1,7

20 1 6,0 40 1 5,0

ANALISISTaksiran model yang ditaksir dengan OLS sebagai berikut:

Yi = -0,0637 + 0,1986 Xi

R2 = 0,4665

Interpretasi Model

Intercept = -0,0637;

Bila pendapatan Rp. 0, maka probabilitas bahwa orang tersebut pernah melakukan perjalanan ke luar negeri adalah negatif.

Bila pendapatan lebih kecil dari Rp 321.000, probabilitas orang tersebut pernah melakukan perjalanan ke luar negeri masih nol.

Bila pendapatan lebih besar Rp. 321.000 probabilitas orang tersebut pernah melakukan perjalanan ke luar negeri positif.

Tetapi, bila pendapatan lebih besar dari Rp. 5,4 juta, probabilitas pernah melakukan perjalanan ke luar negeri lebih dari satu.

Slope = 0,1986, artinya bila pendapatan naik 1 unit (Rp.1 juta) probabilitas seseorang untuk melakukan perjalanan keluar negeri naik 20%.

Persyaratan 0 E(Yi Xi) 1 sulit untuk

dipenuhi, bagaimana mengatasinya?

Ada dua cara untuk mengatasi hal tersebut :

Kita estimate modelnya dengan OLS.

Bila E(Yi Xi) terletak antara 0 dan 1 berarti tidak ada masalah

Bila E(Yi Xi) > 1, kita anggap E(Yi Xi) = 1

Bila E(Yi Xi) < 0, kita anggap E(Yi Xi) = 0

E(Yi Xi) akhirnya akan terletak antara 0 dan 1.

Metode ini tidak populer karena kurang realistis.

Kita estimate model Yi = 1 + 2 Xi + ui dengan suatu metode yang akan menjamin bahwa E(Yi Xi) terletak antara 0 dan 1.

Ada dua macam teknik yang dapat digunakan, yaitu :

(i). Logit, dan (ii). Probit

Dalam kuliah ini yang akan dibicarakan hanya Model Logit.

Logit (fungsi distribusi logistik)

Didefinisikan:

)X(iiii21e1

1)X1Y(Ep

atau

iZie1

1p

; dimana : Zi = 1 + 2 Xi

Pengamatan :

• pi terletak antara 0 dan 1, karena Zi terletak antara - dan .

Bila Z , maka pi 1

Bila Z - , maka pi 0

• pi mempunyai hubungan non linier dengan Zi, artinya pi tidak konstan

seperti asumsi pada MPL (Model Probabilitas Linier).

• Secara keseluruhan, Model Logit adalah Model Non-Linier, baik dalam

parameter maupun dalam variabel. Oleh karena itu,

metode OLS tidak dapat digunakan untuk mengestimasi model logit.

Definisi Logit:izi

e1

1p

izie1

1p1

i

i

z

z

e1

e

=

Sekarang, perhatikan rasio antara pi dan 1 – pi :

i21i

i

i

i

ixz

z

z

z

z

i

i eee

1

e1

e

e1

1

p1

p

Perbandingan itu disebut Odd Ratio atau sering juga disebut resiko.

Untuk contoh perjalanan ke luar negeri, maka odd ratio merupakanperbandingan antara probabilitas seseorang pernah pergi ke luarnegeri dengan probabilitas seseorang tidak pernah pergi ke luarnegeri .

Misalkan saja bahwa probabilitas seseorang pernah ke luar negeriadalah 80%. Dengan demikian, probabilitas bahwa seseorang tidakpernah pergi ke luar negeri adalah 20%. Sehingga odd ratio adalah 4banding 1.

Makin besar odd ini, makin besar kecenderungan seseorang pernahpergi ke luar negeri. Ekstrimnya, bila p kecil sekali, maka 1 – p dekatdengan 1. Akibatnya odd ratio mendekati nol. Sebaliknya, bila p dekatdengan 1, maka 1 – p mendekati nol. Sehingga odd ratio sangatbesar.

Dengan perkataan lain, odd adalah suatu indikator kecenderunganseseorang pernah pergi ke luar negeri Ringkasnya, bila oddmendekati nol berarti kecenderungan seseorang pernah pergi ke luarnegeri sangat kecil sekali.

Bila odd ini kita log-kan, akan kita dapatkan log odd sebagai berikut:

i21i

i

i xzp1

p

Li = ln

Sehingga model yang akan kita perhatikan atau kita analisis menjadi :

i21

i

i xp1

p

L disebut log odd.Li = ln

Pengamatan :

• L linier dalam X

• L juga linier dalam 1 dan 2

• L disebut model Logit

• Karena p terletak antara 0 dan 1, L terletak antara - dan

• Meskipun L linier dalam X, tetapi p tidak linier dalam X

• 2 menyatakan perubahan dalam L bila x berubah 1 unit

• 1 menyatakan log odd pada saat pendapatan sama dengan nol.

Bila kita mengetahui tingkat pendapatan keluarga, katakanlah xi, kita

dapat menghitung probabilitas bahwa seseorang pernah ke luar negeri

dengan cara menghitung :

)x(ii21e1

1p

Masalahnya sekarang bagaimana menaksir 1 dan 2 ?

Penaksiran dengan Teknik Maksimum Likelihood (ML)

Bagi yang berminat mengetahuinya, silahkan baca buku

halaman 258 - 260

Pengujian Signifikansi Model

& ParameterUji seluruh model (Uji G)

Ho : 1 = 2 = ….. = P = 0

H1 : sekurang-kurangnya terdapat satu 0

Statistik uji yang digunakan :

A) (Model likelihood

B) (Model likelihood

P

2 ,

G = -2 ln

Model B: model yang hanya terdiri dari konstanta saja

Model A: model yang terdiri dari seluruh variabel

G berdistribusi Khi Kuadrat dengan derajat bebas p atau G ~ p2.

; : tingkat signifikansi.Ho ditolak jika G >

Bila Ho ditolak, artinya model A signifikan pada tingkat signifikansi .

Uji Wald : uji signifikansi tiap-tiap

parameter

j

j

2

j

j

)ˆ ( SE

ˆ

Ho : = 0 untuk suatu j tertentu ; j = 0, 1, … , p.

0

; j = 0, 1, 2, …., P

H1 :

Statistik uji yang digunakan adalah

Wj =

2

1

1

2

,

Statistik ini berdistribusi Khi Kuadrat dengan derajat bebas 1 atau

secara simbolis ditulis

Ho ditolak jika Wj >

Bila Ho ditolak, artinya parameter tersebut signifikan secara statistik

pada tingkat signifikansi .

Wj ~

; dengan tingkat signifikansi yang dipilih.

Interpretasi model / parameter

Interpretasi koefisien-koefisien dalam model regresi logistik

dilakukan dalam bentuk odds ratio (perbandingan resiko) atau

dalam adjusted probability (probabilitas terjadi).

Odd didefinisikan sebagai:p1

p

Dimana p menyatakan probabilitas sukses (terjadinya peristiwa y = 1)

dan 1-p menyatakan probabilitas gagal (terjadinya peristiwa y = 0).

(resiko)

Odds Ratio (perbandingan resiko), adalah perbandingan nilai Odds (resiko)

pada dua individu ; misalkan individu A dan individu B.

Odds Ratio dituliskan sebagai.

;

)X(p1)X(p

)X(p1)X(p

B

B

A

A

XA : karakteristik individu A

XB : karakteristik individu B

Adjusted probabilitas merupakan probabilitas terjadinya suatu peristiwa y = 1 dengan karakteristik yang telah diketahui.

P (y = 1x) =(z) exp 1

(z) .exp

; z = 0 + 1 x1 + …. + P xp.

Dituliskan ;

Interpretasi Parameter

Variabel bebas: kategorik

Membandingkan nilai odd dari salah satu nilai pada variabel tersebut

dengan nilai odd dari nilai lainnya (Referensi).

Misalkan kedua kategori tersebut adalah 1 dan 0 dengan 0 yang digunakan

sebagai kategori referensi, maka interprestasi koefisien pada variabel ini adalah

rasio dari nilai odds untuk kategori 1 terhadap nilai odds untuk kategori 0;

dituliskan sebagai:

)0x(p1

0) x(p

)1p(x - 1

1) p(x

j

j

j

j= exp. ( j ).

Artinya

resiko terjadinya peristiwa y=1 pada kategori xj = 1 sebesar

exp. ( j ) kali resiko terjadinya peristiwa y=1 pada kategori xj = 0.

Variabel Bebas: Kontinyu (tidak kategorik).

Setiap kenaikan C unit satuan pada variabel bebas akan mengakibatkan

resiko terjadinya y = 1 sebesar exp ( C.j ) kali lebih besar.

Ilustrasi

Siapa Pilih ParPol ANU?

Analisis hubungan antara karakteristik pemilih dengan pilihan parpol

Dugaan: pendidikan dan lapangan pekerjaan berpengaruh pada pilihan.

Pendidikan dapat mencerminkan tingkat pengetahuan dan kecocokannya

dengan program partai. Pekerjaan sebagai proksi tingkat strata ekonomi

pemilih

Variabel terikat:

Apakah memilih partai ANU pada PEMILU lalu?

Ya = 1

Tidak = 0

Variabel bebas:

Pendidikan tertinggi yang ditamatkan:

Tidak/belum bersekolah, Tidak tamat SD & Tamat SD = 1

SLTP dan SLTA = 2

Diploma I/II/III/Akademi, S-1, dan S-2/S-3 = 3

Definisi operasional:

Pendidik1 = 1; Tdk/blm bersekolah, Tidak tamat SD, dan Tamat SD

= 0; Lainnya

Pendidik2 = 1; SLTP dan SLTA

= 0; Lainnya

Pembanding: kelompok yang lulus pendidikan tinggi

Lapangan Pekerjaan Utama:

Pertanian = 1

Industri = 2

Perdagangan = 3

Definisi operasional:

Pekerja1 = 1; Pertanian

= 0; Lainnya

Pekerja2 = 1; Industri

= 0; Lainnya

Pembanding: lapangan usaha Perdagangan.

Tawaran Model:

Ln (p/1-p) = + 1 Pendidik1 + 2 Pendidik2 + 1 Pekerja1 + 2 Pekerja2 +

Model terestimasi:

Ln (p/1-p) = 2,383 – 2,280 Pendidik1 – 1,831 Pendidik2 – 1,130 Pekerja1

– 0,299 Pekerja2

Uji G: Nilai –2 log likelihood = 189,331.

Semua variabel signifikan secara bersama-sama.

Uji Wald: semua koefisien signifikan secara statistik pada = 5%,

kecuali koefisien pada variabel pekerja(2).

Perlukah variabel tersebut dikeluarkan dari model?.

Interpretasi

Bila pendidikan = 0, dan lapangan usaha = 0, atau disaat pendidikan

seseorang tinggi, dan bekerja di sektor perdagangan,

maka probabilitas mereka mendukung Partai ANU adalah sebesar:

Ln (p/1-p) = 2,383

(p/1-p) = e2,383

p = e2,383/ (1 + e2,383) = 91,55%.

Slop untuk variabel Pendidik1 adalah –2,280.

Artinya, peluang penduduk berpendidikan rendah untuk mendukung

Partai Anu lebih rendah. Terbukti dari nilai Exp (B= -2,280) = 0,102,

berarti bahwa peluang penduduk berpendidikan rendah hanya 0,102 kali

peluang penduduk berpendidikan tinggi.

Slop Pendidikan2 adalah –1,831. Artinya, peluang penduduk berpendidikan

rendah untuk mendukung Partai Anu lebih rendah.

Terbukti dari nilai Exp (B= -1,831) = 0,16, yang dapat diartikan bahwa

peluang penduduk berpendidikan menengah hanya 0,16 kali peluang

penduduk berpendidikan tinggi.

Secara analog, peluang penduduk yang bekerja di sektor pertanian atau industri

untuk mendukung partai lebih rendah dibanding penduduk yang bekerja

di sektor perdagangan.

Peluang penduduk yang bekerja di sektor pertanian mendukung partai

hanya 0,323 kali penduduk yang bekerja di sektor perdagangan.

Penduduk yang bekerja di sektor industri hanya 0,742 kali penduduk yang

bekerja di sektor perdagangan.

MODEL MULTINOMIAL LOGITKasus: Pilihan Investasi

(i). Deposito

(ii). Saham

(iii). Obligasi

(iv). SBI

Kasus: pilihan alat transportasi

(i) kereta api,

(ii) bus, atau kendaraan umum bukan KA

(iii) mobil pribadi.

(iv) motor

Model logistik dengan 4 kategori mempunyai tiga fungsi logit:

Fungsi logit untuk Y = 1 relatif terhadap fungsi logit untuk Y = 0

Fungsi logit untuk Y = 2 relatif terhadap fungsi logit untuk Y = 0

Fungsi logit untuk Y = 3 relatif terhadap fungsi logit untuk Y = 0

Kategori Y = 0 kita sebut sebagi kategori rujukan (reference group).

lnPr( )

Pr( )

Y x

Y x

1

0

0

3

p

pln

lnPr( )

Pr( )

Y x

Y x

2

0ln

p

p

2

0

)x0YPr(

)x3YPr(ln ln

p

p

1

0

z1 (x) = =

= 10 + 11 x1 + 12 x2 + … + 1p xp

=

= 20 + 21 x1 + 22 x2 + … + 2p xp

=

= 30 + 31 x1 + 32 x2 + … + 3p xp

z2 (x) =

z3 (x) =

lnPr( )

Pr( )

Y x

Y x

1

0ln

p

p1

e

e

z

z1

ze1

1

Ingat: model logit dikotomi, fungsi logitnya:

=

= 0 + 1 x1 + 2 x2 + … + p xp

p1 = Pr ( Y = 0x ) =

p0 + p1 = 1

z (x) =

p0 = Pr ( Y = 1x ) =

1

1 1 2 3 e e ez z z

e

e e e

z

z z z

1

1 2 31

e

e e e

z

z z z

2

1 2 31

e

e e e

z

z z z

3

1 2 31

Untuk Multinomial Logit dengan 4 kategori:

p1 = Pr ( Y = 1x ) =

p2 = Pr ( Y = 2x ) =

p3 = Pr ( Y = 3x ) =

p0 + p1 + p2 + p3 = 0

p0 = Pr ( Y = 0x ) =

Model ditaksir dengan Metode Maximum Likelihood

Ilustrasi Kasus: Pilihan Investasi

Pilihan yang ada:

1. Saham

2. Emas

3. Deposito / Tabungan

Faktor-faktor yang diduga mempengaruhinya:

pendidikan

lapangan pekerjaan

Definisi operasional:

Variabel terikat: (Referensi: Deposito/Tabungan)

1 = Saham

0 = Lainnya

1 = Emas

0 = Lainnya

Variabel bebas:

Pendidikan: DIDIK (Referensi: pendidikan tinggi)

1 = rendah

0 = Lainnya

1 = menengah

0 = Lainnya

Lapangan Pekerjaan: PEKERJA (Referensi: jasa)

1 = industri

0 = Lainnya

1 = Perdagangan

0 = Lainnya

Model:

Ln(p1/p0) = 10 + 11 DIDIK1+12 DIDIK2+ 13 PEKERJA1

+ 14 PEKERJA2

Ln(p2/p0) = 20 + 21 DIDIK1+22 DIDIK2 + 23 PEKERJA1

+ 24 PEKERJA2

Model multinomial yang didapat:

(1) Ln (p1/ p0) = 0,812 – 2,029 DIDIK1 – 1,537 PENDIDIK2

+ 413 PEKERJA1 + 0,481 PEKERJA2

(2) Ln (p2/ p0) = -1,516 + 0,241DIDIK1+ 0,396 DIDIK2

+ 1,487 PEKERJA1 + 0,537PEKERJA2

Bila pada dua persamaan diatas dimasukkan nilai 0, yang berarti

kelompok berpendidikan tinggi dan bekerja di sektor jasa-jasa,

maka akan diperoleh persamaan sebagai berikut:

Ln (p1/ p0) = 0,812

(p1/ p0) = Exp(0,812)

(p1/ p0) = 2,2524

p1 = 2,2524 p0

Berarti, peluang kelompok berpendidikan tinggi, dan bekerja

di sektor jasa-jasa untuk berinvestasi dalam bentuk saham 2,2524 kali

peluang untuk berinvestasi dengan menyimpan uang di Bank.

Dengan memasukan nilai 0 pada persamaan (2) maka persamaan menjadi:

Ln (p2/ p0) = -1,516

(p2/ p0) = Exp(-1,516)

(p2/ p0) = 0,2196

p2 = 0,2196 p0

Berbeda dengan persamaan pertama, intersep pada model ini mempunyai

tanda negatif. Berarti, peluang kelompok berpendidikan tinggi, dan bekerja

di sektor jasa-jasa untuk berinvestasi dengan membeli emas lebih rendah

dibanding peluang untuk berinvestasi dengan menyimpan uang di Bank,

yaitu sebesar 0,2196 kali.

Persamaan (1) menunjukan bahwa baik variabel Didik1 maupun Didik2

mempunyai koefisien negatif. Artinya, bahwa mereka yang berpendidikan

rendah dan menengah lebih kecil peluangnya untuk menanamkan uangnya

dalam bentuk saham dibanding mereka yang berpendidikan tinggi.

Hal ini dapat dimengerti mengingat menginvestasikan uang dalam bentuk

saham hanya populer pada sekelompok masyarakat, dan kelompok

umumnya mempunyai pendidikan tinggi.

Sedang untuk variabel pekerjaan, kedua koefisiennya bertanda positif, yang berarti mereka yang bekerja di sektor industri, dan perdagangan lebih berpeluang menanamkan uangnya dalam bentuk saham dibanding mereka yang bekerja di sektor jasa. Akan tetapi, perlu diingat bahwa perbedaan antar kategori dalam variabel lapangan pekerjaan ini tidak signifikan secara statistik. Berarti, peluang pekerja di sektor industri atau perdagangan relatif sangat kecil perbedaannya dengan mereka yang bekerja di sektor jasa.

Sedang persamaan (2) menunjukan bahwa peluang mereka yang mempunyai pendidikan rendah, dan menengah untuk menanamkan uangnya dalam bentuk emas, ternyata lebih tinggi dibanding mereka yang berpendidikan tinggi. Akan tetapi, uji Wald menunjukkan bahwa kedua variabel tersebut tidak signifikan secara statistik.

Untuk variabel Pekerja, ternyata mereka yang bekerja di sektor industri mempunyai peluang lebih besar untuk menanamkan uangnya dalam bentuk emas dibanding mereka yang bekerja di sektor jasa. Sedangkan mereka yang bekerja di sektor perdagangan juga menunjukan hal yang sama dengan yang bekerja di sektor industri, namun tidak signifikan secara statistik.

Dengan demikian dapat disimpulkan bahwa mereka yang berpendidikan

rendah atau menengah mempunyai peluang lebih tinggi untuk

menginvestasikan uangnya dalam bentuk tabungan dan atau emas.

Sedang mereka yang berpendidikan tinggi mempunyai peluang besar

untuk menginvestasikan dananya dalam bentuk saham, dan atau tabungan.

Sedang menurut pekerjaan, mereka yang bekerja di sektor industri dan

perdagangan mempunyai peluang besar untuk menginvestasikan dananya

dalam bentuk saham, dan atau emas. Dengan demikian, dapat dikatakan

bahwa mereka yang bekerja di sektor jasa lebih banyak yang

menginvestasikan dananya dengan menabung.