Download - Kuliah pemilihan model_terbaik_m14_dan_15
r.e.v.i.e.w
Postulated Model – ARB
1 1 2 2 ...o p pY X X X
Apakah postulated model tersebut
“THE BEST”?
Perhatikan ilustrasi sebagai berikut
Y
X1
Varians yang TIDAK bisaDijelaskan oleh by X1 and X2
Varians yang
Dijelaskan oleh X1
Varians yang dijelaskan oleh X2
X2
Varians yang dijelaskan olehX1 and X2
METODE PEMILIHAN MODEL TERBAIK
• All-Possible
• Best-Subsets Regression
• Backward Elimination
• Forward Selection
• Stepwise Regression
• Principle Component Regression
• Ridge Regression
• Latent Root Regression
• Stagewise Regression
SIFATNYA ITERATIF :SATU VARIABEL INDEPENDEN
Pada suatu waktu ditambahkanAtau dihilangkanBerdasarkan F-tes
(Partial F-test atau Sequential F-test)
Setiap subset darivariabel independen
di EVALUASI
BERUSAHA MEMPERTAHANKAN :
SELURUH VAR. INDEPENDEN Prinsip dasar : MengatasaiMULTIKOLINIERITASDasar : CENTERING dan
SCALLING
MODEL TERBAIK
SELEKSI VARIABEL
• All Possible Regression
• Best-Subsets Regression
• Backward Elimination
• Forward Selection
• Stepwise Regression
SIFATNYA ITERATIF :SATU VARIABEL
INDEPENDENPada suatu waktu ditambahkan
Atau dihilangkan Berdasarkan F-tes
Setiap subset dari variabel independen
di EVALUASI dengan KRITERIA tertentu
Procedure
CONTOH
• DATA PADA APENDIKS B
• X1 = Kandungan 3CaO-Al2O3
• X2 = Kandungan 3CaO – SiO2
• X3 = 4 CaO –Al2O3.Fe2O3
• X4 = 2CaO.SiO2
• Y = Kandungan panas yang terjadi (calori)
PEMILIHAN MODEL TERBAIK (1)
ALL POSSIBLE SELECTION• Seluruh model yang mungkin dibuat dibandingkan
• Kriteria model terbaik :
1. Nilai R²
2. Nilai s²
3. Statistik, Cp
BEST SUBSET REGRESSION
• Dipilih Best Regression pada masing-masing kelompok K
• Kriteria model terbaik :
1. Nilai R²
2. Nilai Ra²
3. Statistik, Cp
NILAI Cp MALLOWS
• Besaran Cp Mallows adalah sebagai berikut :
• Dimana SSRes(p) adalah Sum of Square Residual dari model yang memuat p parameter
• P adalah jumlah parameter termasuk B0
• S2 adalah Mean Square Residual
• Kriteria E(Cp) = p
)2(/Re 2 pnssSSC PP
PEMILIHAN MODEL TERBAIK (1)
ALL POSSIBLE SELECTION• Seluruh model yang mungkin dibuat dibandingkan
• Kriteria model terbaik :
1. Nilai R²
2. Nilai s²
3. Statistik, Cp
BEST SUBSET REGRESSION
• Dipilih Best Regression pada masing-masing kelompok K
• Kriteria model terbaik :
1. Nilai R²
2. Nilai Ra²
3. Statistik, Cp
Contoh : BEST SUBSET SELECTION
• Kriteria : 2 terbaik
Mallows X X X X
Vars R-Sq R-Sq(adj) C-p S 1 2 3 4
1 55.7 51.7 -0.8 21.520 X
1 53.7 49.4 -0.4 22.013 X
2 55.9 47.0 1.2 22.529 X X
2 55.8 46.9 1.2 22.553 X X
3 56.6 42.1 3.1 23.551 X X X
3 55.9 41.2 3.2 23.736 X X X
4 56.9 35.3 5.0 24.894 X X X X
• KRITERIA : 3 terbaik
Mallows X X X X
Vars R-Sq R-Sq(adj) C-p S 1 2 3 4
1 55.7 51.7 -0.8 21.520 X
1 53.7 49.4 -0.4 22.013 X
1 2.9 0.0 9.0 31.859 X
2 55.9 47.0 1.2 22.529 X X
2 55.8 46.9 1.2 22.553 X X
2 55.7 46.9 1.2 22.566 X X
3 56.6 42.1 3.1 23.551 X X X
3 55.9 41.2 3.2 23.736 X X X
3 55.8 41.0 3.2 23.772 X X X
4 56.9 35.3 5.0 24.894 X X X X
Contoh : BEST SUBSET SELECTION
BACWARD ELIMINATIONThe ‘worst’ predictor variables are eliminated, one by one
Mengeluarkan variabel satu per satu; dari yang
paling tidak berpengaruh
FORWARD SELECTIONThe ‘best’ predictor variables are entered, one by one.
Variabel yang mempunyai pengaruh paling
kuat, satu persatu dimasukkan dalam model.
STEPWISE METHODMenggabungkan metode forward dan backward
dengan korelasi partial
PEMILIHAN MODEL TERBAIK (2)
PROSEDUR : BACKWARD
Definisi :Metode eliminasi langkah mundur dimana pada metode inisemua variabel X dimasukkan dalam persamaan terlebihdahulu. Lalu, dikeluarkan satu per satu, dimulai dari yang paling tidak signifikan. Berhenti, saat TIDAK ADA lagi yang dikeluarkan dari model
Langkah-langkah manual :1. Menghitung regresi var Y dengan semua var X pilih
yang signifikan.2. Bandingkan Fhit. dengan Ftabel, dimana:
a. Fhit < Ftabel, maka buang variabel yang mengakibatkan Fhit dan regresikan kembali.
b. Fhit > Ftabel, maka ambil persamaan regresitersebut.
PROSEDUR : FORWARD
• Kebalikan dari backward
• Berpikir F-Sequential
• Berpikir Mundur
• Jadi konsep F-Partial
PROSEDUR : FORWARD
CONTOHBACKWARD
(1)
Stepwise Regression: Y versus X1, X2, X3, X4
Backward elimination. Alpha-to-Remove: 0.05
Response is Y on 4 predictors, with N = 13
Step 1 2 3 4
Constant 223.8 162.0 146.0 143.8
X1 -1.4 -0.9
T-Value -0.43 -0.39
P-Value 0.681 0.706
X2 -0.7
T-Value -0.23
P-Value 0.821
X3 -1.3 -0.8 -0.2
T-Value -0.46 -0.43 -0.19
P-Value 0.661 0.680 0.853
X4 -2.09 -1.45 -1.38 -1.38
T-Value -0.75 -3.27 -3.55 -3.72
P-Value 0.476 0.010 0.005 0.003
S 24.9 23.6 22.5 21.5
R-Sq 56.90 56.60 55.87 55.71
R-Sq(adj) 35.35 42.14 47.05 51.69
Mallows C-p 5.0 3.1 1.2 -0.8
Stepwise Regression: Y versus X1, X2, X3, X4
Backward elimination. Alpha-to-Remove: 0.8
Response is Y on 4 predictors, with N = 13
Step 1 2
Constant 223.8 162.0
X1 -1.4 -0.9
T-Value -0.43 -0.39
P-Value 0.681 0.706
X2 -0.7
T-Value -0.23
P-Value 0.821
X3 -1.3 -0.8
T-Value -0.46 -0.43
P-Value 0.661 0.680
X4 -2.09 -1.45
T-Value -0.75 -3.27
P-Value 0.476 0.010
S 24.9 23.6
R-Sq 56.90 56.60
R-Sq(adj) 35.35 42.14
Mallows C-p 5.0 3.1
CONTOHBACKWARD
(2)
CONTOH : FORWARD
Stepwise Regression: Y versus X1, X2, X3, X4
Forward selection. Alpha-to-Enter: 0.05
Response is Y on 4 predictors, with N = 13
Step 1
Constant 143.8
X4 -1.38
T-Value -3.72
P-Value 0.003
S 21.5
R-Sq 55.71
R-Sq(adj) 51.69
Mallows C-p -0.8
PROSEDUR : STEPWISEDefinisi :
Metode eliminasi langkah maju dimana pada metode ini variabelyang dimasukkan terlebih dahulu adalah variabel Y yang memilikikorelasi terbesar dengan variabel X.
Langkah-langkah manual :1. Menghitung korelasi var Y dengan semua var X pilih yang
paling besar.2. Regresikan var Y dengan var Xi lakukan uji F.3. Menghitung koef.korelasi parsial antara var Y dgn var Xi dengan
var X yang tidak masuk model pilih yang paling besar.4. Regresikan var Y dengan var X yang masuk model
lakukan uji F.5. Lakukan sampai semua var X yang paling akhir dianalisis
CONTOH
• DATA PADA APENDIKS B
• X1 = Kandungan 3CaO-Al2O3
• X2 = Kandungan 3CaO – SiO2
• X3 = 4 CaO –Al2O3.Fe2O3
• X4 = 2CaO.SiO2
• Y = Kandungan panas yang terjadi (calori)
METODE PEMILIHAN MODEL TERBAIK
• All-Possible
• Best-Subsets Regression
• Backward Elimination
• Forward Selection
• Stepwise Regression
• Principle Component Regression
• Ridge Regression
• Latent Root Regression
• Stagewise Regression
SIFATNYA ITERATIF :SATU VARIABEL INDEPENDEN
Pada suatu waktu ditambahkanAtau dihilangkanBerdasarkan F-tes
(Partial F-test atau Sequential F-test)
Setiap subset darivariabel independen
di EVALUASI
BERUSAHA MEMPERTAHANKAN :
SELURUH VAR. INDEPENDEN Prinsip dasar : MengatasaiMULTIKOLINIERITASDasar : CENTERING dan
SCALLING
KONSEP : Berusaha memasukkan semua variabel
• PRINCIPAL COMPONENT REGRESSION
• RIDGE REGRESSION/GULUD REGRESSION
• LATEN ROOT REGRESSION
• STAGEWISE REGRESSION
TIDAK SEMUA DIJELASKAN,HANYA PRINSIP-PRINSIP NYA SAJA
DIBAHAS LEBIH LANJUT DI MK LAIN
: Principle Component Regression
►Terdapat p variabel bebas yang mempunyai mulikolinieritas
►Metode regresi yang memasukkan seluruh variabel independen dan mengakomodasi adanya kolinieritas/multikolinieritas antar variabel independen dengan cara mengelompokkan variabel yang saling berkorelasi cukup tinggi dalam sebuah variabel baru.
► Sehingga mereduksi banyaknya dimensi regresi dan antar variabel baru tersebut tidak saling berkorelasi cukup tinggi.
Definisi
1. Melakukan standarisasi/pembakuan data variabel
independent xj :
2. Membuat matrik korelasi antar variabel independen
3. Membangkitkan variabel baru yang saling independent
PC1 = a11z1 + a12z2 + … + a1kzk
PC2 = a21z1 + a22z2 + … + a2kzk
......
PCk = ak1z1 + ak2z2 + … + akkzk
atau
PCj =ajTz, nilai a adalah eigen-vector dari eigenvalue ke-j dari matriks
korelasi antar variabel independent
Banyaknya PC ditentukan berdasarkan kriteria :
Eigen value ≥ 1, atau
Proporsi kumulatif eigen value : dengan k = banyaknya
variabel independen
4. Melakukan regresi y dengan skor PC
5. Menyatakan model regresi Y dengan PC ke dalam
model Y dengan z, kemudian x.
j
jj
js
xxz
%75
k
j
j
Langkah-langkah PCR
x1 x2 x3 x4 y
7 26 6 60 78.5
1 29 15 52 74.3
11 56 8 20 104.3
11 31 8 47 87.6
7 52 6 33 95.9
11 55 9 22 109.2
3 71 17 6 102.7
1 31 22 44 72.5
2 54 18 22 93.1
21 47 4 26 115.9
1 40 23 34 83.8
11 66 9 12 113.3
10 68 8 12 109.4
Contoh Soal : DATA APPENDIKS B
Pilih Model RegresiTerbaik!
Deteksi Multikolinieritas :
The regression equation is
y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4
Predictor Coef SE Coef T P VIF
Constant 62.41 70.07 0.89 0.399
x1 1.5511 0.7448 2.08 0.071 38.5
x2 0.5102 0.7238 0.70 0.501 254.4
x3 0.1019 0.7547 0.14 0.896 46.9
x4 -0.1441 0.7091 -0.20 0.844 282.5
S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4%
Analysis of Variance
Source DF SS MS F P
Regression 4 2667.90 666.97 111.48 0.000
Residual Error 8 47.86 5.98
Total 12 2715.76
Source DF Seq SS
x1 1 1450.08
x2 1 1207.78
x3 1 9.79
x4 1 0.25
MenunjukkanAdanya
MULTIKO-LINIERITAS
Deteksi Multikolinieritas :
The regression equation is
y = 62.4 + 1.55 x1 + 0.510 x2 + 0.102 x3 - 0.144 x4
Predictor Coef SE Coef T P VIF
Constant 62.41 70.07 0.89 0.399
x1 1.5511 0.7448 2.08 0.071 38.5
x2 0.5102 0.7238 0.70 0.501 254.4
x3 0.1019 0.7547 0.14 0.896 46.9
x4 -0.1441 0.7091 -0.20 0.844 282.5
S = 2.44601 R-Sq = 98.2% R-Sq(adj) = 97.4%
Analysis of Variance
Source DF SS MS F P
Regression 4 2667.90 666.97 111.48 0.000
Residual Error 8 47.86 5.98
Total 12 2715.76
Source DF Seq SS
x1 1 1450.08
x2 1 1207.78
x3 1 9.79
x4 1 0.25
MenunjukkanAdanya
MULTIKO-LINIERITAS
KonsepVariance Inflationary Factor
VIFj is used to measure collinearity:
If VIFj > 5 or 10 , xj is highly correlated with the other explanatory variables
R2j is the coefficient of determination when the jth
independent variable is regressed against the remaining k – 1 independent variables
21
1
j
jR
VIF
Standarisasi x z
y z1 z2 z3 z4
78.5 -0.07846 -1.42369 -0.90072 1.79231
74.3 -1.09845 -1.2309 0.5044 1.31436
104.3 0.60153 0.50422 -0.58847 -0.59744
87.6 0.60153 -1.10237 -0.58847 1.01564
95.9 -0.07846 0.24717 -0.90072 0.17923
109.2 0.60153 0.43996 -0.43235 -0.47795
102.7 -0.75846 1.46818 0.81665 -1.43385
72.5 -1.09845 -1.10237 1.59728 0.83641
93.1 -0.92845 0.3757 0.97278 -0.47795
115.9 2.30152 -0.07415 -1.21297 -0.23897
83.8 -1.09845 -0.524 1.7534 0.23897
113.3 0.60153 1.14686 -0.43235 -1.07539
109.4 0.43154 1.27539 -0.58847 -1.07539
j
jj
js
xxz
Matriks korelasi
z1 z2 z3 z4
z1 1 0.22858 -0.82413 -0.24545
z2 0.22858 1 -0.13924 -0.97295
z3 -0.82413 -0.13924 1 0.02954
z4 -0.24545 -0.97295 0.02954 1
Eigen value & eigen vektor
Eigenvalue 2.2357 1.5761 0.1866 0.0016Proportion 0.559 0.394 0.047 0.000Cumulative 0.559 0.953 1.000 1.000
Variable PC1 PC2 PC3 PC4z1 0.476 0.509 0.676 0.241z2 0.564 -0.414 -0.314 0.642z3 -0.394 -0.605 0.638 0.268z4 -0.548 0.451 -0.195 0.677
Komponen utama
PC1 = 0.476 z1 + 0.564z2 -0.394z3 – 0.548z4PC2 = 0.509z1 – 0.414z2 – 0.605z3 + 0.451 z4
Nilai darivariabel zidimasukkanPadaPersamaantersebut
Case PC1 PC2
1 -1,46724 1,90303
2 -2,13583 0,23835
3 1,12987 0,18388
4 -0,65989 1,57677
5 0,35876 0,48354
6 0,96664 0,16994
7 0,9307 -2,13482
8 -2,23214 -0,69167
9 -0,35152 -1,43224
10 1,66254 1,8281
11 -1,64018 -1,29511
12 1,69259 -0,39225
13 1,74568 -0,43752
Pemilihan Model
Analisis Regresi : Y dengan PC1
The regression equation is
y = 95,4 + 9,88 PC1
Predictor Coef SE Coef T P
Constant 95,4231 0,8163 116,90 0,000
PC1 9,8831 0,5682 17,39 0,000
S = 2,943 R-Sq = 96,5% R-Sq(adj) = 96,2%
Analysis of Variance
Source DF SS MS F P
Regression 1 2620,5 2620,5 302,53 0,000
Residual Error 11 95,3 8,7
Total 12 2715,8
Pemilihan Model
Analisis Regresi : Y dengan PC1, PC2
The regression equation is
y = 95.4 + 9.88 PC1 - 0.125 PC2
Predictor Coef SE Coef T P VIF
Constant 95.4231 0.8548 111.63 0.000
PC1 9.8831 0.5950 16.61 0.000 1.0
PC2 -0.1250 0.7087 -0.18 0.864 1.0
S = 3.082 R-Sq = 96.5% R-Sq(adj) = 95.8%
Analysis of Variance
Source DF SS MS F P
Regression 2 2620.8 1310.4 137.96 0.000
Residual Error 10 95.0 9.5
Total 12 2715.8
Model Regresi TerakhirDiperoleh estimasi model regresi komponen utama
(dianggap asumsi metode OLS terpenuhi)
Model regresi dalam z :
regresi dalam x :
Descriptive Statistics: x1; x2; x3; x4
Variable N Mean Median TrMean StDev SE Mean
x1 13 7,46 7,00 6,82 5,88 1,63
x2 13 48,15 52,00 48,09 15,56 4,32
x3 13 11,77 9,00 11,45 6,41 1,78
x4 13 30,00 26,00 29,45 16,74 4,64
PENGGUNAAN METODE RIDGE
• KASUS MULTIKOLINIERITAS Harus diatasi
• Cara menanggulangi : PCR dan RIDGE REGRESSION
• RIDGE REGRESSION : adalah salah satu metode yang digunakan untuk mengatasi multikolinieritas dengan cara memodifikasi metode kuadrat terkecil; sehingga dihasilkan penduga koefisien regresi lain yang bias namun mempunyai varian yang lebih kecil daripada regresi linier berganda.
E(b) E(bR)
ESTIMASI PARAMETER• Estimasi ridge regression diperoleh dengan cara
meminimumkan jumlah kuadrat kesalahan dari persamaan :
• Untuk Z = 1,2,…,k nilai dugaan dari ridge regression, dapat ditulis menjadi persamaan
dan dapat dinyatakan dalam bentuk :
dengan syarat , φ adalah nilai positif yang berhingga.
PENENTUAN NILAI θ
• Salah satu alternatif pilihan adalah :
Dimana :
k adalah banyaknya parameter di luar βo,
s2 adalah MSRes