Download - Mengatasi multikolonieritas
MASALAH MULTIKOLINIERITA
S
Safa’at Yulianto
Latar belakang
Di dalam analisis linier ganda yang mempunyai banyak variable bebas, sering timbul masalah karena terjadinya hubungan antara dua atau lebih variable bebasnya. Variabel bebas yang saling berkorelasi disebut kolinieritas ganda (multikolinieritas).
Korelasi yang sangat tinggi akan mengakibatkan penduga yang berbias, tidak stabil dan mungkin jauh dari nilai sasaran.
Regresi komponen utama
REGRESI LINEAR GANDA
MKT
MULTICOLINEAR
Memenuhi Asumsi
RAKU
• Analisis Regresi Linear Berganda
LANDASAN TEORI
Xy
pp XXXY .......22110
Hipotesis
0:0 jH
0:0 jH
artinya koefisien ke-j tidak signifikan atau variable bebas ke-j tidak berpengaruh nyata terhadap Y.
artinya koefisien ke-j signifikan atau variable bebas ke-j berpengaruh nyata terhadap Y.
2/);1()ˆ( pnjhit tt0H, Tolak
MULTICOLINEARITASKondisi dimana terdapat korelasi antara variabel-variabel bebas.
AKIBAT1. Koefisien regresi dugaan tidak nyata walaupun nilai R2-nya tinggi.2. Nilai dugaan koefisien regresi sangat sensitive terhadap perubahan data.3. Dengan MKT, simpangan baku koefisien regresi dugaan sangat besar.
METODE PENDETEKSIAN 1. Metode Informal dapat dilakukan dengan melihat matriks korelasi.
2. Metode Formal, dengan melihat faktor inflasi ragam ( FIR )
• VIF ( Faktor Inflasi Ragam )
• Korelasi antar peubah bebas
2iR
21
1
ii R
VIF
Adalah koefisien determinasi dari regresi variabel bebas ke-i
Indikasi Multikolinearitas
10iVIF
Analisi Komponen UtamaSecara umum tujuan dari analisis komponen utama adalah mereduksi dimensi data yang besar dan saling berkorelasi menjadi dimensi data yang kecil dan tidak saling berkorelasi ( jolliffe 2002 ), hal ini dilakukan untuk kebutuhan interpretasi.Analisis Regresi Komponen UtamaMetode regresi komponen utama merupakan teknik analisis komponen utama yang dikombinasikan dengan teknik regresi MKT. Prinsipnya yaitu dengan memilih beberapa komponen utama pertama yang akan digunakan sebagai peubah bebas dalam regresi MKT. Dalam hal ini, jika semua komponen utama digunakan sebagai peubah bebas, maka akan dihasilkan model yang setara dengan yang diperoleh melalui MKT (Jollife, 1986)
Pembakuan data dengan rumus
Menentukan Regresi Komponen Utama
2/1
)(
j
jijij
s
xxz
Contoh kasus
• Data
• Langkah AnalisisMendeteksi Multicolinearitas
Terlihat korelasi antar variabel seluruhnya mendekati 1(besar), juga p-value < 0,05, dapat disimpulkan bahwa hal ini menunjukkan adanya korelasi antar masing-masing variabel bebas.
• MKT
Analisis Regresi KU
• Pembakuan Data X• Menentukan akar ciri, vektor ciri dan skor
komponen utama untuk seluruh data.
• Skor Komponen Utama
• Regresi SK Utama.
• Persamaan Regresi dari KU terpilih (W1)
• Uji Regresi Secara Parsial
Dari t hitung yang diperoleh, tampak bahwa keempat peubah bebas nyata secara statistik. Dapat disimpulkan bahwa ukuran industrialisasi memiliki peranan yang relative sama besarnya terhadap pendapatan per kapita (y).
• Persamaan Regresi
Metode Kuadrat terkecil. Metode ini menghasilkan penduga terbaik (tak berbias dan bervarians minimum) jika saja tidak ada korelasi antar variable bebas.
Ridge Regression
Salah satu cara untuk mendapatkan koefi sien regresi pada persamaan regresi linier berganda adalah dengan :
model regresi linear berganda
prosedur centering and
rescaling diagonal utama matriks korelasi variable bebas ditambahkan ridge parameter θ dimana
nilainya antara 0 dan 1.
variable bebas diinverskan
Ridge regression
Prosedur Centering
Pada persamaan regresi yang memiliki model
Persamaan di atas dapat dibentuk
menurut rumus, untuk memperoleh adalah :
maka berlaku sehingga
misalkan
maka dapat kita peroleh persamaan
Prosedur ini mengakibatkan hilangnya intersep yang membuat perhitungan untuk
mencari model regresi menjadi lebih sederhana.
Prosedur Rescaling
Bila dari persamaan akhir pada prosedur centering di atas kita bentuk persamaan :
Matriks Korelasi
Persamaan yang diperoleh melalui prosedur centering and rescaling di atas bila dituliskan dalam bentuk matriks adalah :
untuk hal ini juga berlaku untuk
sedangkan untuk
dimana
sehingga matriks korelasi untuk persamaan regresi adalah :
matriks Z’Z yang diperoleh disebut matriks korelasi.
Dugaan parameter koefisien regresi dengan metode kuadrat terkecil adalahb = (X’X)-1 X’Y
dengan membentuk X’X menjadi matriks korelasi, maka kesalahan yang disebabkan pengaruh pembulatan menjadi lebih kecil (Draper & Smith, 1992). Terutama jika variable bebasnya lebih dari dua dan data yang ada besar.
Metode Ridge Regression 1
Jika X’X yang merupakan matriks korelasi adalah matriks
identitas maka nilai dugaan variable respon akan sama dengan nilai sebenarnya
Jika X’X menjauhi matriks identitas maka dapat dikatakan
X’X hampir singular, ini disebut dengan ill conditioned (Draper
& Smith)
pendugaan parameter koefisien regresi masih mungkin dilakukan dengan metode
kuadrat terkecil dengan konsekuensi simpangan bakunya cenderung semakin
besar sejalan dengan meningkatnya multikolinieritas.
Metode Ridge Regression 2
prosedur mentransformasikan matriks X’X menjadi korelasi Z’Z sehingga dugaan koefisien regresinya menjadi :
Z = matriks n x k yang merupakan hasil transformasi variable bebas melalui metode centering and rescaling.
sehingga nilai dugaan untuk variable respon menjadi
Proses di atas disebut dengan ridge
regression
Contoh Kasus
Data berikut adalah data jam kerja pegawai Rumah Sakit Sardjito Yogyakarta yang diduga bergantung pada rata-rata peningkatan jumlah pasien (X1), tempat tidur harian yang dipakai per bulan (X2), dan populasi pasien yang memenuhi syarat pada area rumah sakit, dalam ribuan (X3).
Tujuan kita disini adalah untuk memperoleh persamaan yang akan digunakan untuk menduga dan memprediksi tenaga kerja yang diperlukan untuk rumah sakit.
Y X1 X2 X3566.52 15.57 472.92 18696.82 44.02 1339.75 9.5
1033.15 20.42 620.25 12.81603.62 18.74 568.33 36.71611.37 49.2 1497.6 35.71613.27 44.92 1365.83 241854.17 55.48 1687 43.32160.55 59.28 1639.92 46.72305.58 94.39 2872.33 78.73503.93 128.02 3655.08 180.53571.89 96 2912 60.93741.4 131.42 3921 103.7
4026.52 127.21 3865.67 126.810343.81 252.9 7684.1 157.711732.17 409.2 12446.33 169.415414.94 463.7 14098.4 331.418854.45 510.22 15524 371.6
Data jam kerja pegawai Rumah Sakit Sardjito Yogyakarta
uji keberartian model secara simultan atau bersama-sama untuk semua
(variable bebas secara simultan tidak berpengaruh terhadap variable respon Y)
(variable bebas secara simultan berpengaruh terhadap variable respon Y)
Analysis of VarianceSource DF SS MS F PRegression 3 484074767 161358256 197.19 0.000Residual Error 13 10637774 818290Total 16 494712540
s = 904.594 R-Sq = 97.8% R-Sq(adj) = 97.4%
Dengan menggunakan statistik uji Anova atau uji F, maka berdasarkan penduga parameter untuk regresi linier ganda pada data di atas diperoleh
Penyelesaian 1
Penyelesaian 2
•Pendugaan Model Regresi Linier Berganda
Regression Analysis: Y versus X1, X2, X3 The regression equation isY = - 12 - 164 X1 + 6.23 X2 + 13.0 X3Dari output di atas, diperoleh model regresi ;
Uji parameter masing-masing :
, untuk i=1,2,3 (variable bebas secara individu tidak berpengaruh signifikan terhadap nilai dugaan Y)
,
, untuk i=1,2,3 (variable bebas secara individu berpengaruh secara signifikan terhadap nilai dugaan)
Predictor Coef SE Coef T PConstant -12.4 326.9 -0.04 0.970X1 -163.9 119.0 -1.38 0.192X2 6.230 3.834 1.62 0.128X3 13.023 6.845 1.90 0.079
Penyelesaian 3
nilai korelasi antar variable bebas (X)
Correlations: X1, X2, X3 X1 X2X2 0.99 0.000X3 0.936 0.933 0.000
Adanya multikolinieritas juga bisa dilihat melalui perhitungan determinan matriks Z’Z. Dari perhitungan, diperoleh :
matriks Z’Z ini merupakan matriks korelasi antar peubah predictor. Terlihat bahwa korelasi antar variable bebas sangat tinggi ini juga bisa dilihat dari determinan matriks Z’Z=0.00242524 yang mendekati 0. Hal ini berarti matriks Z’Z hampir singular dan menunjukkan adanya multikolinieritas tidak sempurna dengan ill conditioned sehingga untuk mengatasi multikolinieritas ini kita menggunakan ridge regression
Penyelesaian 4
Y* Z1 Z2 Z3-0.192437913 -0.199864554 -0.198100775 -0.198419192-0.186754575 -0.157016818 -0.155253314 -0.217515751-0.172084758 -0.192560107 -0.190818244 -0.210101793-0.14720238 -0.195090307 -0.193384653 -0.156406763
-0.146864346 -0.149215368 -0.147450779 -0.158653417-0.146781473 -0.153964178 -0.184939268 -0.184939268-0.136274058 -0.139757238 -0.138088725 -0.141578847-0.122910581 -0.134034167 -0.140415892 -0.133940223-0.11658476 -0.081155994 -0.079497788 -0.062047296
-0.064315933 -0.030506808 -0.040806407 0.166662078-0.061351699 -0.078731219 -0.077536898 -0.102037737-0.053958126 -0.025386165 -0.027661964 -0.005880947-0.041521953 -0.031726726 -0.03039693 0.0460167590.234021366 0.157571407 0.158348305 0.1154383670.294577921 0.39297039 0.393745632 0.1417242190.455210513 0.47505129 0.475407556 0.5056821610.605232754 0.545113738 0.545875054 0.595997651
•Pendugaan Model Ridge RegressionLangkah awal analisis ridge regression adalah mentranformasikan matriks X’X menjadi korelasi Z’Z yaitu pada data berikut :
θ Cθ0 3.99972
0.01 4.0380740.02 3.9395680.03 3.8934530.04 3.8875910.05 3.9126610.06 3.9623840.07 4.032610.08 4.1203630.09 4.2236150.1 4.340929
Penyelesaian 5
Dalam memilih nilai tetapan θ untuk dapat menduga ridge regresion digunakan statistik Cp Mallows (Cθ). Nilai Cθ dengan berbagai nilai
kemungkinan tetapan θ disajikan dalam tabel berikut :
nilai θ yang terpilih adalah pada saat Cθ minimum yaitu θ = 0.04 sehingga persamaan regresinya menjadi
uji keberartian model secara simultan atau bersama-sama untuk semua
Penyelesaian 6
(variable bebas secara simultan tidak berpengaruh terhadap variable respon Y)
(variable bebas secara simultan berpengaruh terhadap variable respon Y)
Dengan menggunakan statistik uji Anova atau uji F, maka berdasarkan penduga parameter untuk regresi linier ganda pada data di atas diperoleh
Analysis of VarianceSource DF SS MS F PRegression 3 0.9604 0.320133 105,0943 0.000Residual Error 13 0.0396 0.003046Total 16 1
Penyelesaian 7
Pengujian keberartian model ridge regression yang dilakukan secara parsial atau individu dapat dilakukan melalui pengujian hipotesis sebagai berikut :
untuk i=1,2,3 (variable bebas secara individu tidak berpengaruh secara signifikan terhadap nilai dugaan Y)untuk i=1,2,3 (variable bebas secara individu berpengaruh secara signifikan terhadap nilai dugaan)
dengan statistik uji t-student, maka kita peroleh nilai thitung dari masing-masing variable X secara individu adalah sebagai berikut :
Penduga thitung
b1* 20.1657
b2* 20.1489
b3* 19.6797
Kesimpulan
Berdasarkan penjelasan dan contoh kasus di atas maka dapat kita simpulkan hal-hal sebagai berikut :
• Multikolinieritas tidak sempurna terjadi jika terdapat kondisi ill conditioned, yaitu kondisi dimana terjadi korelasi antar variable bebas yang cukup tinggi, sehingga menyebabkan determinan (X’X) mendekati tidak sempurna atau mendekati nol.
• Nilai R2 besar yang tidak diikuti oleh hasil uji hipotesis yang signifikan dari semua koefisien penduga bi serta eigen valuenya yang kecil. Hal ini menunjukkan multikolinieritas dalam data.
• Metode regresi komponen utama dan ridge regression dapat digunakan untuk mengatasi multikolinieritas tidak sempurna atau ill conditioned yang terjadi antara variable bebas.