tugas analisis regresi(anareg)

21
Multikolinearitas Multikolinearitas adalah keadaan jika antara X dan X yang lain memiliki hubungan (diharapkan X dan Y berhubungan erat/korelasi dan X dan X tidak berhubungan/multikolinearitas). Pengaruh Adanya Multikolinearitas : 1. Interpretasi koefisien regresi sebagai ukuran perubahan nilai variabel dependen ketika variabel independen yang berhubungan naik 1 unit sementara variabel independen lainnya konstan; tidak sepenuhnya dapat diaplikasikan ketika terjadi multikolinearitas. 2. Secara Individu koefisien regresi mungkin tidak signifikan secara statistik walaupun ada hubungan antara variabel dependen dengan seluruh variabel independen. 3. Penambahan atau pengurangan variabel independen akan merubah koefisien regresi. 4. Extra sum of Square dari variabel independen berubah-ubah tergantung dari variabel bebas yang ada dalam model. 5. Perkiraan standar deviasi dari koefisien regresi menjadi besar ketika variabel independen dari koefisien regresi saling berkorelasi. Cara mendiagnosa : a. Informal Diagnostic

Upload: mahambari

Post on 13-Jun-2015

1.177 views

Category:

Documents


4 download

DESCRIPTION

multikolinearitas

TRANSCRIPT

Page 1: tugas analisis regresi(anareg)

Multikolinearitas

Multikolinearitas adalah keadaan jika antara X dan X yang lain memiliki hubungan (diharapkan

X dan Y berhubungan erat/korelasi dan X dan X tidak berhubungan/multikolinearitas).

Pengaruh Adanya Multikolinearitas :

1. Interpretasi koefisien regresi sebagai ukuran perubahan nilai variabel dependen ketika

variabel independen yang berhubungan naik 1 unit sementara variabel independen

lainnya konstan; tidak sepenuhnya dapat diaplikasikan ketika terjadi multikolinearitas.

2. Secara Individu koefisien regresi mungkin tidak signifikan secara statistik walaupun ada

hubungan antara variabel dependen dengan seluruh variabel independen.

3. Penambahan atau pengurangan variabel independen akan merubah koefisien regresi.

4. Extra sum of Square dari variabel independen berubah-ubah tergantung dari variabel

bebas yang ada dalam model.

5. Perkiraan standar deviasi dari koefisien regresi menjadi besar ketika variabel

independen dari koefisien regresi saling berkorelasi.

Cara mendiagnosa :

a. Informal Diagnostic

Adanya serious multikolinearitas :

1. Terjadi perubahan besar dalam koefisien regresi perkiraan ketika sebuah variabel

ditambah atau dikurangi.

2. Hasil yang tidak signifikan dalam test individu koefisien regresi untuk variabel

independen yang penting.

3. Tanda aljabar yang berlawanan untuk koefisien regresi perkiraan dengan teori atau

pengalaman sebelumnya.

4. Koefisien korelasi sederhana yang besar antara pasangan variabel independen.

5. Confidence Interval yang lebar untuk koefisien regresi dari variabel independen yang

penting.

Page 2: tugas analisis regresi(anareg)

b. Formal Diagnostic

Dengan melihat nilai Variance Inflation Factor(VIF). VIF mengukur seberapa besar varians

dari penduga parameter meningkat besarnya dibandingkan dengan jika variable bebasnya tidak

berkolerasi. Rumus untuk menentukan nilai VIF yaitu :

dimana adalah koefisien determinasi berganda ketika Xk diregresikan dengan p-2 variabel X

lainnya dalam model. Nilai terbesar digunakan untuk mengindikasikan adanya

pelanggaran yang serius terhadap asumsi nonmultikolinieritas. Jika nilai terbesar > 10,

maka data mengalami multikolinieritas.

Cara Mengatasi (Remedial) Multikolinearitas :

1. Drop atau buang satu atau beberapa variabel independen dari model.

2. Karena kehadiran serious multikolinearitas mempengaruhi inferensia dibatasi hanya

untuk data yang tidak mengikuti pola multikolineritas.

3. Dalam model regresi polinom, bentuklah variabel independen dari selisih terhadap rata-

ratanya.

4. Kadang kala bisa dengan menambah sampel atau case untuk menghilangkan pola

multikolinearitas.

Selain beberapa cara tadi, terdapat cara lain untuk mengatasi multikolinearitas yaitu :

Dengan metode Principal Component(komponen utama) dalam pembentukan variabel

independen.

Dengan metode Ridge Regression

Page 3: tugas analisis regresi(anareg)

RIDGE REGRESSION

Ridge regression merupakan suatu metode untuk mengatasi permasalahan

multikolinearitas dengan memodifikasi metode least square dengan tidak mempermasalahkan

estimator bias dari koefisien regresi. Ridge regression ini dapat digunakan saat biasnya kecil

dengan presisi yang lebih baik daripada estimator yang unbiased, karena estimator dengan bias

kecil tersebut mempunyai peluang yang lebih besar untuk mendekati nilai parameternya.

Pada metode Ridge Regression modifikasi yang dilakukan hampir sama dengan

transformasi korelasi pada Ordinary Least Square(OLS).

Transformasi korelasi

pada OLS

Ridge Regression

Persamaan Normal

Model Regresi yang di

transformasi

Ridge Estimator

Persamaan normal pada OLS dapat dirumuskan dalam

Page 4: tugas analisis regresi(anareg)

Jika semua variable ditransformasikan dengan transformasi korelasi, model regresinya

akan ditransformasi menjadi

; dengan

Dan persamaan normalnya menjadi:

Dengan adalah matriks korelasi dari variable bebas dan adalah vector dari

koefisien korelasi sederhana antara variable tak bebas dan tiap variable bebas.

Page 5: tugas analisis regresi(anareg)

Dengan i = 1, 2, …, p-1 dan k = 1, 2, …, p-1

Penduga ridge regression yang terstandarisasi dibentukmdengan memasukkan suatu nilai

bias konstan pada persamaan OLS. Formulanya adalah

Dengan bR adalah vector dari koefisien ridge regression yang terstandarkan,

Dan I adalah matriks identitas berukuran (p-1) x (p-1), dengan p = banyaknya parameter.

Persamaan normal untuk ridge estimator juga dapat dituliskan sebagai :

Dengan demikian, solusi dari persamaan normal dengan koefisien ridge regression yang

terstandarisasi adalah

Page 6: tugas analisis regresi(anareg)

Model regresi yang sudah ditransformasi kemudian dikembalikan menjadi bentuk awal,

yaitu

Yang diestimasi menjadi

Dengan k = 1, 2, …, p-1

Nilai VIF untuk koefisien ridge regression adalah elemen diagonal dari matriks

Batasan dalam ridge regression adalah penentuan nilai bias konstan (c) yang didasarkan

pada subjektifitas atau pendapat peneliti. Nilai c dapat juga ditentukan dengan menggunakan

sebuah grafik yang disebut ridge trace. Grafik ini menggambarkan penduga koefisien ridge

regression sebagai fungsi dari c. Nilai c dipilih pada saat penduga koefisien ridge regression

menjadi stabil dengan c yang minimum. Hal ini disebabkan semakin betambah nilai c, maka bias

akan semakin besar.

Pada ridge regression terdapat konstanta c yang nilainya ≥ 0. Jika c=0 ridge regression

akan sama dengan OLS yang distandarkan. Saat c>0 koefisien ridge regression akan bias namun

lebih stabil dibandingkan dengan OLS

PROSEDUR :

1. Tentukan Ridge Trace yaitu plot yang simultan dari nilai estimasi koefisien regresi

yang distandarkan( ) dengan berbagai kemungkinan nilai c. Biasanya nilai c yang

Page 7: tugas analisis regresi(anareg)

digunakan antara 0-1. Perubahan nilai yang disebabkan oleh perubahan c sangat

fluktuatif, bahkan dapat terjadi perubahan tanda.

2. Tentkan nilai VIFk untuk masing-masing nilai c.

3. Untuk menentukan model yang tepat, kita lihat nilai VIF yang mendekati 1, karena

estimasi koefisien regresinya akan lebih stabil.

4. Lihat nilai yang sesuai dengan nilai c berdasarkan VIF yang mendekati nilai 1

pada prosedur (3).

5. Susun model ridge regresi dengan nilai yang sesuai.

6. Transformasikan kembali model pada prosedur (5) dengan rumus :

Contoh Soal:

Table 1. contains data for a study of the relation of amount of body fat (Y) to several possible explanatory, independent variables, based on a sample of 20 healthy females 25-34 years old. The possible independent variables are triceps skinfold thickness (X1), thigh circumference (X2), and midarm circumference (X3).

Table 1. Data of the X variable foe body fat example

Subject(i)

Triceps Skinfold Thickness(X1)

Thigh Circumference(X2)

Midarm Circumference(X3)

Body Fat(Y1)

12345678910

19.524.730.729.819.125.631.427.922.125.5

43.149.851.954.342.253.958.552.149.953.5

29.128.237.031.130.923.727.630.623.224.8

11.922.818.720.112.921.727.125.421.319.3

Page 8: tugas analisis regresi(anareg)

11121314151617181920

31.130.418.719.714.629.527.730.222.725.2

56.656.746.544.242.754.455.358.648.251.0

30.028.323.028.621.330.125.724.627.127.5

25.427.211.717.812.823.922.625.414.821.1

OUTPUT SPSS

REGRESSION  /MISSING LISTWISE  /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL  /CRITERIA=PIN(.05) POUT(.10)  /NOORIGIN  /DEPENDENT body_fat

  /METHOD=ENTER tricep_skinfold Thigh_circum midarm_circum.

Regression

[DataSet1] G:\aNarEg.sav

Variables Entered/Removedb

Model

Variables

Entered

Variables

Removed Method

1 midarm_circum,

Thigh_circum,

tricep_skinfolda

. Enter

a. All requested variables entered.

b. Dependent Variable: body_fat

Page 9: tugas analisis regresi(anareg)

Model Summary

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

1 .895a .801 .764 2.47998

a. Predictors: (Constant), midarm_circum, Thigh_circum,

tricep_skinfold

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 396.985 3 132.328 21.516 .000a

Residual 98.405 16 6.150

Total 495.389 19

a. Predictors: (Constant), midarm_circum, Thigh_circum, tricep_skinfold

b. Dependent Variable: body_fat

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 117.085 99.782 1.173 .258

tricep_skinfold 4.334 3.016 4.264 1.437 .170 .001 708.843

Thigh_circum -2.857 2.582 -2.929 -1.106 .285 .002 564.343

midarm_circum -2.186 1.595 -1.561 -1.370 .190 .010 104.606

a. Dependent Variable: body_fat

Page 10: tugas analisis regresi(anareg)

Coefficient Correlationsa

Model midarm_circum Thigh_circum tricep_skinfold

1 Correlations midarm_circum 1.000 .994 -.995

Thigh_circum .994 1.000 -.999

tricep_skinfold -.995 -.999 1.000

Covariances midarm_circum 2.546 4.095 -4.788

Thigh_circum 4.095 6.667 -7.779

tricep_skinfold -4.788 -7.779 9.093

a. Dependent Variable: body_fat

Collinearity Diagnosticsa

Model

Dimensi

on Eigenvalue Condition Index

Variance Proportions

(Constant) tricep_skinfold Thigh_circum midarm_circum

1 1 3.968 1.000 .00 .00 .00 .00

2 .021 13.905 .00 .00 .00 .00

3 .012 18.566 .00 .00 .00 .01

4 8.648E-6 677.372 1.00 1.00 1.00 .99

a. Dependent Variable: body_fat

Ridge Regression Report

Page/Date/Time 1 1/28/2009 11:03:07 AMDatabaseDependent Body_fat

Descriptive Statistics SectionStandard

Variable Count Mean Deviation Minimum MaximumSkinfold 20 25.305 5.023259 14.6 31.4Thigh 20 51.17 5.234612 42.2 58.6Midarm 20 27.62 3.647147 21.3 37Body_fat 20 20.195 5.106185 11.7 27.2

Correlation Matrix Section

Skinfold Thigh Midarm Body_fat

Page 11: tugas analisis regresi(anareg)

Skinfold 1.000000 0.923843 0.457777 0.843265Thigh 0.923843 1.000000 0.084667 0.878090Midarm 0.457777 0.084667 1.000000 0.142444Body_fat 0.843265 0.878090 0.142444 1.000000

Least Squares Multicollinearity SectionIndependent Variance R-SquaredVariable Inflation Vs Other X's ToleranceSkinfold 708.8429 0.9986 0.0014Thigh 564.3434 0.9982 0.0018Midarm 104.6060 0.9904 0.0096Since some VIF's are greater than 10, multicollinearity is a problem.

Eigenvalues of Correlations

Incremental Cumulative ConditionNo. Eigenvalue Percent Percent Number1 2.066473 68.88 68.88 1.002 0.932801 31.09 99.98 2.223 0.000727 0.02 100.00 2843.95Some Condition Numbers greater than 1000. Multicollinearity is a SEVERE problem.

Eigenvector of Correlations

No. Eigenvalue Skinfold Thigh Midarm1 2.066473 0.694696 0.629428 0.3481642 0.932801 -0.050106 -0.440509 0.8963493 0.000727 0.717557 -0.640135 -0.274482

Dependent Body_fat

Ridge Trace Section

Page 12: tugas analisis regresi(anareg)

-4.00

-1.50

1.00

3.50

6.00

10-4 10-3 10-2 10-1 100

Ridge Trace

K

Sta

ndard

ized B

eta

sVariables

SkinfoldThighMidarm

Page 13: tugas analisis regresi(anareg)

Ridge Regression Report

Dependent Body_fat

10-1

100

101

102

103

10-4 10-3 10-2 10-1 100

Variance Inflation Factor Plot

K

VIF

Variables

SkinfoldThighMidarm

Page 14: tugas analisis regresi(anareg)

Ridge Regression Report

Dependent Body_fat

Standardized Ridge Regression Coefficients Section

k Skinfold Thigh Midarm0.000000 4.2637 -2.9287 -1.56140.001000 2.0348 -0.9408 -0.70870.002000 1.4407 -0.4113 -0.48130.003000 1.1653 -0.1661 -0.37580.004000 1.0063 -0.0248 -0.31490.005000 0.9028 0.0670 -0.27510.006000 0.8300 0.1314 -0.24720.007000 0.7760 0.1791 -0.22640.008000 0.7343 0.2158 -0.21030.009000 0.7012 0.2448 -0.19750.010000 0.6742 0.2684 -0.18700.020000 0.5463 0.3774 -0.13690.020000 0.5463 0.3774 -0.13690.030000 0.5004 0.4134 -0.11810.040000 0.4760 0.4302 -0.10760.050000 0.4605 0.4392 -0.10050.060000 0.4494 0.4443 -0.09520.070000 0.4409 0.4471 -0.09090.080000 0.4341 0.4486 -0.08730.090000 0.4283 0.4491 -0.08410.100000 0.4234 0.4490 -0.08120.200000 0.3914 0.4347 -0.06130.300000 0.3703 0.4154 -0.04790.400000 0.3529 0.3966 -0.03760.500000 0.3377 0.3791 -0.02950.600000 0.3240 0.3629 -0.02290.700000 0.3116 0.3481 -0.01740.800000 0.3001 0.3344 -0.01290.900000 0.2896 0.3218 -0.00911.000000 0.2798 0.3101 -0.0059

Page 15: tugas analisis regresi(anareg)

Ridge Regression Report

Dependent Body_fat

Variance Inflation Factor Section

k Skinfold Thigh Midarm0.000000 708.8429 564.3434 104.60600.001000 125.7309 100.2740 19.28100.002000 50.5592 40.4483 8.27970.003000 27.1750 21.8376 4.85620.004000 16.9816 13.7247 3.36280.005000 11.6434 9.4759 2.57990.006000 8.5033 6.9764 2.11850.007000 6.5013 5.3827 1.82380.008000 5.1472 4.3046 1.62380.009000 4.1887 3.5413 1.48170.010000 3.4855 2.9813 1.37700.020000 1.1026 1.0805 1.01050.020000 1.1026 1.0805 1.01050.030000 0.6257 0.6969 0.92350.040000 0.4528 0.5553 0.88140.050000 0.3705 0.4859 0.85310.060000 0.3244 0.4454 0.83060.070000 0.2956 0.4189 0.81110.080000 0.2761 0.3998 0.79340.090000 0.2621 0.3852 0.77690.100000 0.2515 0.3735 0.76140.200000 0.2053 0.3078 0.63420.300000 0.1838 0.2686 0.53850.400000 0.1676 0.2383 0.46340.500000 0.1540 0.2137 0.40330.600000 0.1423 0.1930 0.35440.700000 0.1319 0.1755 0.31400.800000 0.1227 0.1604 0.28020.900000 0.1145 0.1473 0.25161.000000 0.1071 0.1358 0.2273

Page 16: tugas analisis regresi(anareg)

Ridge Regression Report

Dependent Body_fat

K Analysis Section

k R2 Sigma B'B Ave VIF Max VIF0.000000 0.8014 2.4800 29.1945 459.2641 708.84290.001000 0.7888 2.5570 5.5277 81.7620 125.73090.002000 0.7852 2.5791 2.4763 33.0957 50.55920.003000 0.7832 2.5907 1.5267 17.9563 27.17500.004000 0.7819 2.5984 1.1124 11.3564 16.98160.005000 0.7809 2.6043 0.8953 7.8997 11.64340.006000 0.7801 2.6092 0.7673 5.8661 8.50330.007000 0.7794 2.6135 0.6855 4.5693 6.50130.008000 0.7787 2.6174 0.6300 3.6918 5.14720.009000 0.7781 2.6210 0.5906 3.0706 4.18870.010000 0.7776 2.6244 0.5615 2.6146 3.48550.020000 0.7726 2.6534 0.4596 1.0645 1.10260.020000 0.7726 2.6534 0.4596 1.0645 1.10260.030000 0.7681 2.6793 0.4352 0.7487 0.92350.040000 0.7639 2.7040 0.4233 0.6298 0.88140.050000 0.7597 2.7278 0.4151 0.5698 0.85310.060000 0.7556 2.7511 0.4084 0.5335 0.83060.070000 0.7515 2.7738 0.4026 0.5085 0.81110.080000 0.7475 2.7961 0.3973 0.4898 0.79340.090000 0.7436 2.8178 0.3922 0.4748 0.77690.100000 0.7397 2.8392 0.3874 0.4621 0.76140.200000 0.7031 3.0321 0.3460 0.3824 0.63420.300000 0.6702 3.1954 0.3120 0.3303 0.53850.400000 0.6405 3.3363 0.2833 0.2898 0.46340.500000 0.6134 3.4596 0.2586 0.2570 0.40330.600000 0.5887 3.5687 0.2372 0.2299 0.35440.700000 0.5659 3.6661 0.2185 0.2071 0.31400.800000 0.5449 3.7538 0.2021 0.1878 0.28020.900000 0.5254 3.8333 0.1875 0.1711 0.25161.000000 0.5073 3.9056 0.1744 0.1567 0.2273

Page 17: tugas analisis regresi(anareg)

-4.0

-2.0

0.0

2.0

4.0

-2.0 -1.0 0.0 1.0 2.0

Normal Probability Plot of Residuals of Body_fat

Expected Normals

Resid

uals

of

Body_fa

t

Ridge Regression Report

Dependent Body_fat

Ridge vs. Least Squares Comparison Section for k = 0.020000Regular Regular Stand'zed Stand'zed RidgeL.S.

Independent Ridge L.S. Ridge L.S. StandardStandard

Variable Coeff's Coeff's Coeff's Coeff's ErrorError

Intercept -7.403425 117.0847Skinfold 0.555353 4.334092 0.5463 4.2637 0.1272458

3.015511Thigh 0.3681445 -2.856848 0.3774 -2.9287 0.1208832

2.582015Midarm -0.1916269 -2.18606 -0.1369 -1.5614 0.1677828

1.595499

R-Squared 0.7726 0.8014Sigma 2.6534 2.4800

Ridge Regression Coefficient Section for k = 0.020000Stand'zed

Independent Regression Standard RegressionVariable Coefficient Error Coefficient VIFIntercept -7.403425Skinfold 0.555353 0.1272458 0.5463 1.1026Thigh 0.3681445 0.1208832 0.3774 1.0805Midarm -0.1916269 0.1677828 -0.1369 1.0105

Analysis of Variance Section for k = 0.020000Sum of Mean Prob

Source DF Squares Square F-Ratio LevelIntercept 1 8156.761 8156.761Model 3 382.739 127.5797 18.1204 0.000021Error 16 112.6505 7.040655Total(Adjusted) 19 495.3895 26.07313

Mean of Dependent 20.195Root Mean Square Error 2.653423R-Squared 0.7726Coefficient of Variation 0.1313901

Residual Plots Section

0.0

1.5

3.0

4.5

6.0

-4.0 -2.0 0.0 2.0 4.0

Histogram of Residuals of Body_fat

Residuals of Body_fat

Count

Page 18: tugas analisis regresi(anareg)

DAFTAR PUSTAKA

http://www.stat.purdue.edu/~jennings/stat512/notes/topic5a.pdf

Neter, John. Dkk. Applied Linear Regression Models. Second edition. 1989.