regresi stepwise, backward, forward

Upload: rioo

Post on 14-Jul-2015

2.899 views

Category:

Documents


140 download

TRANSCRIPT

REGRESI STEPWISE, BACKWARD, FORWARD Nama Kelompok : Miftalia Alriza Yulia Wulan Sari Windy Lestari 1308100003 1308100025 1308100047

Regresi Stepwise merupakan salah satu metode untuk mengatasi adanya kasus multikolinieritas, yaitu suatu kondisi dimana terjadi korelasi yang kuat diantara variabel-variabel bebas (X). Untuk mendeteksi adanya kasus multikolinieritas dapat dilihat dari besarnya nilai VIF yang lebih dari 10. Metode Stepwise merupakan gabungan dari metode backward elimination dan forward selection, untuk itu akan dibahas metode backward elimination, forward selection, dan stepwise regression. Metode Backward Elimination Metode backward bekerja dengan mengeluarkan satu per satu variabel prediktor yang tidak signifikan dan dilakukan terus menerus sampai tidak ada variabel prediktor yang tidak signifikan, langkah-langkah metode backward adalah sebagai berikut :1. Membuat model dengan meregresikan variabel respon Y dengan semua variabel

prediktor.2. Mengeluarkan satu persatu dengan melakukan pengujian terhadap parameternya de-

ngan menggunakan partial F test. Nilai Fparsial terkecil dibandingkan dengan Ftabel :

Jika Fparsial < Ftabel, maka X yang bersangkutan dikeluarkan dari model dan dilanjutkan dengan pembuatan model baru tanpa variabel tersebut. Jika Fparsial > Ftabel, maka proses dihentikan artinya tidak ada variabel yang perlu dikeluarkan dan persamaan terakhir tersebut yang digunakan/dipilih.

Contoh Kasus : Apendix B (Drapper and Smith)No . 1 7 26 6 60 78,5 8 2 1 29 15 52 74,3 9 3 11 56 8 20 104,3 10 4 11 31 8 47 87,6 11 5 7 52 6 33 95,9 12 6 11 55 9 22 109,2 13 7 3 71 17 6 102,7 1. Meregresikan variabel Y dengan X1, X2, X3, X4 1 2 21 1 11 10 31 54 47 40 66 68 22 18 4 23 9 8 44 22 26 34 12 12 72,5 93,1 115,9 83,8 113,3 109,4

X1

X2

X3

X4

Y

No.

X1

X2

X3

X4

Y

Regression Analysis: y versus x1; x2; x3; x4The regression equation is y = 62,4 + 1,55 x1 + 0,510 x2 + 0,102 x3 - 0,144 x4 Predictor Constant x1 x2 x3 x4 S = 2,44601 Coef 62,41 1,5511 0,5102 0,1019 -0,1441 SE Coef 70,07 0,7448 0,7238 0,7547 0,7091 T 0,89 2,08 0,70 0,14 -0,20 P 0,399 0,071 0,501 0,896 0,844 38,496 254,423 46,868 282,513 VIF

R-Sq = 98,2%

R-Sq(adj) = 97,4%

Analysis of Variance Source Regression Residual Error Total DF 4 8 12 SS 2667,90 47,86 2715,76 MS 666,97 5,98 F 111,48 P 0,000

2. Memilih variabel prediktor yang akan dikeluarkan

Prediktor X3 memiliki nilai Fparsial sebesar (0,14)2 yaitu 0,0196 yang terendah. Pout ditentukan sebesar 0,1, maka F(1,v, out) = F(1, 8, 0.1) = 3,46. Karena nilai Fparsial sebesar 0,0196 yang berarti kurang dari F(1, 8, 0.1), maka prediktor X3 harus dikeluarkan dari model.3. Meregresikan Y tanpa X3 (Y dengan X1, X2, X4) Regression Analysis: y versus x1; x2; x4The regression equation is y = 71,6 + 1,45 x1 + 0,416 x2 - 0,237 x4 Predictor Constant x1 x2 x4 S = 2,30874 Coef 71,65 1,4519 0,4161 -0,2365 SE Coef 14,14 0,1170 0,1856 0,1733 T 5,07 12,41 2,24 -1,37 P 0,001 0,000 0,052 0,205

R-Sq = 98,2%

R-Sq(adj) = 97,6%

Analysis of Variance

Source Regression Residual Error Total

DF 3 9 12

SS 2667,79 47,97 2715,76

MS 889,26 5,33

F 166,83

P 0,000

4.

Memilih prediktor untuk dikeluarkan Prediktor X4 memiliki nilai Fparsial sebesar (-1,37)2 yaitu 1,8769 yang terendah. Nilai F(1,v, out) = F(1, 9, 0.1) = 3,36. Karena nilai Fparsial sebesar 1,8769 yang berarti kurang dari F(1, 9, 0.1), maka prediktor X4 harus dikeluarkan dari model.

5. Meregresikan Y tanpa X3, X4 (Y dengan X1, X2) Regression Analysis: y versus x1; x2The regression equation is y = 52,6 + 1,47 x1 + 0,662 x2 Predictor Constant x1 x2 Coef 52,577 1,4683 0,66225 SE Coef 2,286 0,1213 0,04585 T 23,00 12,10 14,44 P 0,000 0,000 0,000

S = 2,40634 Source Regression Residual Error Total

R-Sq = 97,9% DF 2 10 12 SS 2657,9 57,9 2715,8

R-Sq(adj) = 97,4% MS 1328,9 5,8 F 229,50 P 0,000

Analysis of Variance

6. Model Y sebagai fungsi X1 dan X2 menghasilkan nilai Fparsial terendah sebesar

(12,10)2 yaitu 146,41. Nilai F(1,v, out) = F(1, 10, 0.1) = 3,29. Karena nilai Fparsial sebesar 146,41 lebih dari F(1, tahap ini selesai. Dengan demikian model terbaik dari metode backward adalah dengan menggunakan 2 prediktor yaitu X1 dan X2 yang sudah tidak terdapat kasus multikolinieritas dengan model pada langkah 5, yaitu :Regression Analysis: y versus x1; x2The regression equation is y = 52,6 + 1,47 x1 + 0,662 x2 Predictor Constant Coef 52,577 SE Coef 2,286 T 23,00 P 0,000 VIF10, 0.1)

, maka prediktor X4 tidak dikeluarkan dari model dan

x1 x2 S = 2,40634

1,4683 0,66225

0,1213 0,04585

12,10 14,44

0,000 0,000

1,055 1,055

R-Sq = 97,9%

R-Sq(adj) = 97,4%

Analysis of Variance Source Regression Residual Error Total DF 2 10 12 SS 2657,9 57,9 2715,8 MS 1328,9 5,8 F 229,50 P 0,000

Langkah-langkah metode backward dengan menggunakan program Minitab yaitu :1. Memasukkan data pada Worksheet.

2. Klik Stat Regression pilih Stepwise.

3. Pada variabel Response masukkan Y, dan Predictors masukkan semua prediktor

X1 sampai X4.

4. Klik tombol Methods pilih Backward Elimination. Pada kotak dialog paling

atas terdapat dua cara, yaitu dengan menggunakan nilai alpha dan nilia F, pilih Use alpha values. Pada kotak dialog Alpha to remove diisi 0,1 Klik OK.

5. Klik OK, akan menghasilkan output sebagai berkut : Stepwise Regression: y versus x1; x2; x3; x4Backward elimination. Alpha-to-Remove: 0,1

Response is y on 4 predictors, with N = 13 Step Constant 1 62,41 2 71,65 3 52,58

x1 T-Value P-Value x2 T-Value P-Value x3 T-Value P-Value x4 T-Value P-Value S R-Sq R-Sq(adj) Mallows Cp

1,55 2,08 0,071 0,510 0,70 0,501 0,10 0,14 0,896 -0,14 -0,20 0,844 2,45 98,24 97,36 5,0

1,45 12,41 0,000 0,416 2,24 0,052

1,47 12,10 0,000 0,662 14,44 0,000

-0,24 -1,37 0,205 2,31 98,23 97,64 3,0 2,41 97,87 97,44 2,7

Regresi stepwise dengan metode backward menggunakan Minitab menunjukkan beberapa step yaitu pada step pertama variabel yang digunakan adalah semua variabel X (X1, X2, X3, dan X4), dengan melihat P-value yang lebih dari 0,1 dan terbesar yaitu X3, maka pada step selanjutnya variabel X3 tidak diikutkan dalam model. Pada step kedua masih terdapat P-value yang > 0,1, yaitu X4 maka pada step selanjutnya variabel X4 dikeluarkan dari model. Pada step ketiga yang tersisa yaitu variabel X1 dan X2 yang memiliki P-value kurang dari 0,1 sehingga proses berhenti dan variabel yang dipilih atau digunakan dalam model yaitu X1 dan X2. Langkah-langkah metode backward dengan menggunakan program SPSS yaitu : 1. Memasukkan data pada SPSS data editor.

2. Klik Analyze Regression pilih Linear.

3. Pada kotak dialog Dependent masukkan Y, Independent masukkan semua varia-

bel prediktor X1 sampai X4. Klik pada Method akan muncul beberapa pilihan, pilih Backward.

4. Klik OK, akan muncul output sebagai berikut :Variables Entered/Removed(b) Model 1 2 Backward (criterion: Probability of F-toremove >= ,100). Backward (criterion: Probability of F-toremove >= ,100). Variables Entered X4, X3, X1, X2(a) Variables Removed . Method Enter

.

X3

3

.

X4

a All requested variables entered. b Dependent Variable: Y

Model 1 menunjukkan variabel yang dimasukkan yaitu semua variabel prediktor X1, X2, X3, dan X4. Model 2 menunjukkan variabel yang dikeluarkan dari model yaitu X3 dengan menggunakan nilai F-to remove sebesar 0,1, dan pada model 3 variabel yang dikeluarkan dari model yaitu X4.Coefficients(a)

Unstandardized Coefficients Model 1 (Constant) X1 X2 X3 2 X4 (Constant) X1 X2 3 X4 (Constant) X1 X2 a Dependent Variable: Y B 62,405 1,551 ,510 ,102 -,144 71,648 1,452 ,416 -,237 52,577 1,468 ,662 Std. Error 70,071 ,745 ,724 ,755 ,709 14,142 ,117 ,186 ,173 2,286 ,121 ,046

Standardized Coefficients Beta

t ,891

Sig. ,399 ,071 ,501 ,896 ,844 ,001 ,000 ,052 ,205 ,000 ,000 ,000

,607 ,528 ,043 -,160 ,568 ,430 -,263 ,574 ,685

2,083 ,705 ,135 -,203 5,066 12,410 2,242 -1,365 22,998 12,105 14,442

Pada model 1, P-value yang signifikan (< 0,1) hanya terdapat variabel X1, nilai P-value yang paling besar tidak signifikan akan dikeluatkan dari model yaitu X3. Model 2 tanpa menggunakan variabel X3 menunjukkan P-value yang tidak signifikan terdapat pada variabel X4, sehingga variabel X4 dikeluarkan dari model. Pada model 3 diperoleh nilai P-value X1, dan X2 sudah signifikan, sehingga tidak ada variabel yang perlu dikeluarkan dari model dan variabel yang dipilih atau digunakan dalam model yaitu variabel X1, dan X2. Dari ketiga cara diatas, langkah-langkah manual, program Minitab, dan program SPSS menghasilkan model yang sama yaitu model dengan menggunakan variabel X1, dan X2 sebagai variabel prediktornya dan model terbaik yang diperoleh adalah :Regression Analysis: y versus x1; x2The regression equation is y = 52,6 + 1,47 x1 + 0,662 x2 Predictor Constant x1 x2 S = 2,40634 Coef 52,577 1,4683 0,66225 SE Coef 2,286 0,1213 0,04585 T 23,00 12,10 14,44 P 0,000 0,000 0,000

R-Sq = 97,9%

R-Sq(adj) = 97,4%

Analysis of Variance Source Regression Residual Error DF 2 10 SS 2657,9 57,9 MS 1328,9 5,8 F 229,50 P 0,000

Total

12

2715,8

Metode Forward Selection Kebalikan dari metode backward, metode forward adalah pemodelan dimulai dari nol peubah (empty model), kemudian satu persatu peubah dimasukan sampai kriteria tertentu dipenuhi. Langkah-langkah metode forward adalah sebagai berikut :1. Membuat model dengan meregresikan variabel respon Y dengan setiap variabel

prediktor. Kemudian dipilih model yang mempunyai nilai R2 tertinggi. Misal model tersebut adalah yang memuat prediktor Xa, yaitu .

Y = b0 + b a X a2. Meregresikan variabel respon Y, dengan prediktor Xa, ditambah dengan setiap pre-

diktor selain Xa dan prediktor lain. Kemudian dipilih model yang nilai R2 nya tertinggi, misal mengandung tambahan prediktor Xb, yaitu model . Prediktor terpilih Xb berarti mempunyai Fsequensial tertinggi.

Y = b0 + ba X a + bb X bFormula Fsequensial untuk Xb adalah . Nilai Fsequensial

Fseq = R ( b | 0 , a ) / MSE / dbuntuk Xb juga dapat diperoleh dengan cara mengkuadratkan nilai statistik uji T prediktor Xb.3. Proses diulang sampai didapatkan Fsequensial > Fin. Nilai Fin = F(1,v,

), sehingga

inmodel terbaik yang dipilih adalah model yang tidak mempunyai prediktor dengan Fsequensial < Fin. Contoh Kasus: Apendix B (Drapper and Smith)1. Meregresikan variabel Y dengan setiap variabel prediktor yaitu X1, X2, X3, dan X4.

a.Regression Analysis: y versus x1The regression equation is y = 81,5 + 1,87 x1 Predictor Coef SE Coef T P

Constant x1 S = 10,7267

81,479 1,8687

4,927 0,5264

16,54 3,55

0,000 0,005

R-Sq = 53,4%

R-Sq(adj) = 49,2%

b.Regression Analysis: y versus x2The regression equation is y = 57,4 + 0,789 x2 Predictor Constant x2 S = 9,07713 Coef 57,424 0,7891 SE Coef 8,491 0,1684 T 6,76 4,69 P 0,000 0,001

R-Sq = 66,6%

R-Sq(adj) = 63,6%

c.Regression Analysis: y versus x3The regression equation is y = 110 - 1,26 x3 Predictor Constant x3 S = 13,2781 Coef 110,203 -1,2558 SE Coef 7,948 0,5984 T 13,87 -2,10 P 0,000 0,060

R-Sq = 28,6%

R-Sq(adj) = 22,1%

d.Regression Analysis: y versus x4The regression equation is y = 118 - 0,738 x4 Predictor Constant x4 S = 8,96390 Coef 117,568 -0,7382 SE Coef 5,262 0,1546 T 22,34 -4,77 P 0,000 0,001

R-Sq = 67,5%

R-Sq(adj) = 64,5%

1. Memilih model yang mempunyai nilai R2 tertinggi yaitu Y = 118 - 0,738 X4 dengan

R2 sebesar 67,5% dan Fsequensial = T2 = (-4,77)2 = 22,7529. Nilai Fin = F(1,v, in) = F(1, 11,

= 4,48. Karena Fsequensial > Fin maka proses memilih variabel untuk membang-un model terbaik terus dilakukan. 2. Meregresikan variabel Y dan X4 dengan setiap variabel X1, X2, dan X3. a.0.05)

Regression Analysis: y versus x4; x1The regression equation is y = 103 - 0,614 x4 + 1,44 x1 Predictor Constant x4 x1 S = 2,73427 Coef 103,097 -0,61395 1,4400 SE Coef 2,124 0,04864 0,1384 T 48,54 -12,62 10,40 P 0,000 0,000 0,000

R-Sq = 97,2%

R-Sq(adj) = 96,7%

b.Regression Analysis: y versus x4; x2The regression equation is y = 94,2 - 0,457 x4 + 0,311 x2 Predictor Constant x4 x2 S = 9,32137 Coef 94,16 -0,4569 0,3109 SE Coef 56,63 0,6960 0,7486 T 1,66 -0,66 0,42 P 0,127 0,526 0,687 18,7 18,7 VIF

R-Sq = 68,0%

R-Sq(adj) = 61,6%

c.Regression Analysis: y versus x4; x3The regression equation is y = 131 - 0,725 x4 - 1,20 x3 Predictor Constant x4 x3 S = 4,19211 Coef 131,282 -0,72460 -1,1999 SE Coef 3,275 0,07233 0,1890 T 40,09 -10,02 -6,35 P 0,000 0,000 0,000 1,0 1,0 VIF

R-Sq = 93,5%

R-Sq(adj) = 92,2%

Memilih model yang mempunyai nilai R2 tertinggi yaitu Y = 103 - 0,614 X4 + 1,44 X1 dengan R2 sebesar 97,2%. dan Fsequensial = T2 = (10,40)2 = 108,16. Nilai Fin = F(1,v, in) = F(1, 10, 0.05) = 4,96. Karena Fsequensial > Fin maka proses memilih variabel untuk membangun model dilanjutkan dengan proses penambahan variabel prediktor untuk memperoleh model terbaik.1. Meregresikan variabel respon Y, dengan prediktor X4 dan X1 , ditambah dengan se-

tiap prediktor X2 dan X3. a.Regression Analysis: y versus x4; x1; x2The regression equation is y = 71,6 - 0,237 x4 + 1,45 x1 + 0,416 x2 Predictor Constant x4 x1 x2 S = 2,30874 Coef 71,65 -0,2365 1,4519 0,4161 SE Coef 14,14 0,1733 0,1170 0,1856 T 5,07 -1,37 12,41 2,24 P 0,001 0,205 0,000 0,052

R-Sq = 98,2%

R-Sq(adj) = 97,6%

b.Regression Analysis: y versus x4; x1; x3The regression equation is y = 112 - 0,643 x4 + 1,05 x1 - 0,410 x3 Predictor Constant x4 x1 x3 S = 2,37665 Coef 111,684 -0,64280 1,0519 -0,4100 SE Coef 4,562 0,04454 0,2237 0,1992 T 24,48 -14,43 4,70 -2,06 P 0,000 0,000 0,001 0,070

R-Sq = 98,1%

R-Sq(adj) = 97,5%

Model yang mempunyai nilai R2 tertinggi yaitu Y = 71,6 - 0,237 X4 + 1,45 X1 + 0,416 X2 dengan R2 sebesar 97,2%, dan Fsequensial = T2 = (10,40)2 = 1,876. Nilai Fin=F(1,v,)

=F(1,9,0.1)=3,36, nilai Fsequensial pada prediktor X4 lebih kecil dari Fin.

in

Sehingga prediktor proses sudah berhenti, dan prediktor yang dipilih/digunakan dalam model adalah X1 dan X4. Pemilihan model terbaik dengan metode forward selection adalah menggunakan 2 prediktor yaitu X1 dan X4, dimana model tersebut sudah memenuhi asumsi tidak terjadi kasus multiko-linearitas yang ditunjukkan pada langkah 3, yaitu :Regression Analysis: y versus x4; x1The regression equation is y = 103 - 0,614 x4 + 1,44 x1 Predictor Constant x4 x1 S = 2,73427 Coef 103,097 -0,61395 1,4400 SE Coef 2,124 0,04864 0,1384 T 48,54 -12,62 10,40 P 0,000 0,000 0,000 1,1 1,1 VIF

R-Sq = 97,2%

R-Sq(adj) = 96,7%

Analysis of Variance Source Regression Residual Error Total DF 2 10 12 SS 2641,0 74,8 2715,8 MS 1320,5 7,5 F 176,63 P 0,000

Langkah-langkah metode forward selection dengan menggunakan program Minitab yaitu :1. Memasukkan data pada Worksheet.

2. Klik Stat Regression pilih Stepwise.

3. Pada variabel Response masukkan Y, dan Predictors masukkan semua prediktor

X1 sampai X4.

4. Klik tombol Methods pilih Forward Selection. Pada kotak dialog paling atas

terdapat dua cara, yaitu dengan menggunakan nilai alpha dan nilia F, pilih Use alpha values. Pada kotak dialog Alpha to remove diisi 0,05 Klik OK.

5. Klik OK, akan menghasilkan output sebagai berkut : Stepwise Regression: y versus x1; x2; x3; x4Forward selection. Alpha-to-Enter: 0,05

Response is y on 4 predictors, with N = 13 Step Constant x4 T-Value P-Value x1 T-Value P-Value S R-Sq R-Sq(adj) Mallows C-p 8,96 67,45 64,50 138,7 1 117,6 -0,738 -4,77 0,001 2 103,1 -0,614 -12,62 0,000 1,44 10,40 0,000 2,73 97,25 96,70 5,5

Regresi stepwise dengan menggunakan metode forward selection pada kasus di atas menunjukkan bahwa untuk pemilihan model terbaik dilakukan 2 langkah/step. Langkah per-tama variabel X4 terpilih untuk dimasukkan ke dalam model. Pada variabel X4, besarnya T2 yaitu 22,7529 > F(1, 11, 0.05) yaitu sebesar 4,48, maka diperlukan tahap kedua untuk memasuk-kan variabel prediktor lain ke model. Langkah kedua

ditambahkan variabel X1 ke dalam mo-del. Dengan T2 yaitu 108,16 < F(1, 10, 0.05) yaitu sebesar 4,96, maka langkah berikutnya tidak diperlukan lagi, sehingga variabel yang digunakan dalam model adalah X1 dan X4. Langkah-langkah metode forward selection dengan menggunakan program SPSS yaitu :1. Memasukkan data pada SPSS data editor.

2. Klik Analyze Regression pilih Linear.

3. Pada kotak dialog Dependent masukkan Y, Independent masukkan semua varia-

bel prediktor X1 sampai X4. Klik pada Method akan muncul beberapa pilihan, pilih Forward.

4. Klik OK, akan muncul output sebagai berikut :Variables Entered/Removeda Variables Model 1 Variables Entered Removed X4 . Method Forward (Criterion: Probability-of-Fto-enter