teori analisis regresi (semester 5,pertemuan 2)
DESCRIPTION
statistikaTRANSCRIPT
2A. Regresi Linear Sederhana
Model regresi linear sederhana terdiri atas fungsi rata rata dan
fungsi varians
( | )
( | )
Parameter pada fungsi rata-rata adalah intersep , yaitu nilai
( | ) ketika x sama dengan nol dan kemiringan adalah
besarnya perubahan ( | ) setiap perubahan satu satuan x. Kita
dapat menemukan banyak kemungkinan garis lurus dengan parameter
yang bermacam-macam. Nilai dari parameter sering kali tidak
diketahui sehingga harus diestimasi menggunakan data yang ada. Pada
regresi linear sederhana, fungsi varians diasumsikan konstan, dengan
nilai positive yang juga sering kali tidak diketahui.
Karena varians sehingga menyebabkan tidak sama
dengan nilai harapannya ( | ) . Untuk menghitung perbedaan
antara nilai observasi dan nilai harapannya, maka ada suatu nilai yang
disebut nilai eror, yang dapat didefinisikan pada persamaan
( | ) . Besarnya nilai eror ini bergantung pada
parameter lain yang tidak diketahui pada fungsi rata-rata dan juga
menjadi nilai yang tidak dapat diobservasi. Eror juga merupakan
variabel acak dan dapat diukur dengan menghitung jarak antara titik
dengan garis fungsi rata-rata ( | ).
Ada dua asumsi penting yang berkaitan dengan eror. Yang
pertama, kita mengasumsikan ( | ) , sehingga jika kita
menggambarkan diagram pencar dari dan , maka didapatkan
diagram pencar yang tidak memiliki pola. Asumsi yang kedua adalah
jika eror –erornya adalah independen, maka nilai suatu eror tidak bisa
memberikan informasi tentang nilai eror pada kasus yang berbeda.
Gambar 2.1 garis lurus ( | ) adalah nilai
( | ) ketika x sama dengan nol dan adalah besarnya
perubahan ( | ) setiap perubahan satu satuan x.
Contoh soal
Dalam suatu penelitian mengenai banyaknya curah hujan dan
banyaknya debu yang hilang terbawa hujan, diperoleh data sebagai
berikut :
Curah Hujan
(0,01 cm)
Debu yang Terbawa
(mikrogram per meter kubik)
4,3 126
4,5 121
5,9 116
5,6 118
6,1 114
5,2 118
3,8 132
2,1 141
7,5 108
a. Tentukan persamaan garis regresinya untuk meramalkan debu
yang terbawa berdasarkan curah hujan dengan
menggambarkan diagram pencarnya terlebih dahulu
b. Dugalah banyaknya debu yang terbawa hujan bila curah
hujannya x = 4,8 satuan
Jawab :
a.
x y xy x2
4,3 126 541,8 18,5
4,5 121 544,5 20,3
5,9 116 684,4 34,8
5,6 118 660,8 31,4
6,1 114 695,4 37,2
5,2 118 613,6 27,0
3,8 132 501,6 14,4
2,1 141 296,1 4,4
7,5 108 810,0 56,3
∑ 45 ∑ 1094 ∑ 5348,2 ∑ 244,3
= 5 = 121,5556
Rumus persamaan garis regresi linear sederhana adalah sebagai
berikut
Langkah pertama adalah menemukan nilai menggunakan rumus
∑
(∑ ) (∑ )
∑
(∑ )
( )( )
( )
Setelah itu, gunakan rumus untuk menemukan nilai
( )( )
Sehinnga persamaan garis regresinya
Ini berarti, setiap bertambahnya curah hujan sebanyak 1 satuan, maka
jumlah debu yang terbawa berkurang sebanyak 6,3437 satuan.
Kemudian jika curah hujan sama dengan nol, maka jumlah debu yang
terbawa adalah 153,2741 satuan. Jika dikerjakan menggunakan poram
Rstudio, maka diperoleh hasil :
b. Untuk mengetahui banyaknya debu yang terbawa jika curah hujan
= 4,8 kita gunakan persamaan garis regresi linear sederhana yaitu
:
Kemudian subtitusikan nilai x ke persamaan
( )
Jika curah hujan sebesar 4,8 satuan, maka diperkirakan jumlah debu
yang terbawa adalah 122,8243 satuan.
2B. Asumsi Model Regresi Linier Sederhana
Asumsi-asumsi klasik model regresi linier sederhana ialah
beberapa pesyaratan yang harus ditaati saat kita menggunakan
prosedur regresi linear, diantaranya sebagai berikut:
1. Model regresi harus linier dalam parameter.
2. Variable bebas tidak berkorelasi dengan disturbance term
(error)
3. Nilai disturbance term sebesar 0 atau dengan symbol
sebagai berikut : E(U/X)=0
4. Varian untuk masing-masing error term (kesalahan)
konstan
5. Tidak terjadi autokorelasi
6. Model regresi dispesifikasi secara benar. Tidak terdapat
bias spesifikasi dalam model yang digunakan dalam
analisis empiris
7. Jika variable bebas lebih dari satu, maka antara variable
bebas (explanatory) tidak ada hubungan linier yang nyata.
(Sarwono, 2013)
Dengan demikian dalam melakukan analisis regresi berlaku
asumsi homoskedastisitas yaitu residu yang ada memiliki variansi yang
konstan atau dengan kata lain, variansi residu tidak meningkat atau
menurun dengan pola tertentu.
Dalam analisis model regresi linear jika asumsi homoskedastisitas
tidak terpenuhi sementara asumsi model regresi lainnya terpenuhi
maka penduga akan tetap memenuhi syarat unbias namun menjadi
tidak efisien karena penduga tidak memiliki varian terkecil diantara
penduga unbias lainnya. Untuk menguji homoskedastisitas, salah
satunya dengan menggunakan pengujian Levene untuk data variable
berskala non-metrik.
Jadi, homoskedastisitas merupakan asumsi dimana variable tergantung
menunjukkan tingkatan varian yang sama untuk semua variable
bebasnya. Jika penyebaran nilai varian pada semua variabel bebas
tidak sama maka hubungan tersebut dikatakan sebagai
heteroskedastisitas.
Asumsi lainnya yaitu tidak ada korelasi serial (autokorelasi)
antara pengganggu Ԑi , yang berarti kovarian (Ԑi,Ԑj) i≠j Hal ini
berarti data yang berbasis waktu (time-series), seharusnya tidak ada
korelasi antara data dari waktu ke waktu.
Autokorelasi ialah terjadi korelasi dalam variabel bebas yang
mengganggu hubungan variabel bebas tersebut dengan variabel
tergantung. Untuk pengujian autokorelasi kita menggunakan nilai dari
Durbin – Watson (DW). Kisaran nilai DW mulai dari 0 – 4. tidak terjadi
autokorelasi jika: - ≤ DW ≤ (Sarwono )
Dalam asumsi ini juga tidak terdapat multikolinearitas antar
variable bebas X. Model regresi yang baik memiliki variabel-variabel
independen yang tidak berkorelasi satu dengan yang lainnya, hal ini
dapat diuji melalui nilai korelasi antar variabel independen.
multikolinearitas ialah terjadinya korelasi antar variabel bebas dalam
regresi linier berganda dengan nilai yang sangat tinggi atau sangat
rendah. Nilai-nilai yang digunakan untuk menguji otokorelasi
diantaranya: nilai variance inflation factor (VIF) dengan ketentuan jika
nilai VIF > 5, maka terjadi multikolinieritas; nilai condition index
dengan ketentuan jika nilai condition index > 5, maka terjadi
multikolinieritas; nilai korelasi antar variable bebas dengan ketentuan
jika nilai koefesien korelasi antara variable bebas > 0,7 atau < - 7
maka terjadi multikolinieritas. (Sarwono, 2013)
Selain itu juga terdapat asumsi kenormalan. Normalitas data
berkaitan dengan distribusi suatu data. Data yang mempunyai
distribusi normal artinya data yang distribusinya simetris sempurna.
Menurut Johnston (2004) ciri-ciri data yang mempunyai distribusi
normal ialah sebagai berikut:
a) Kurva frekuensi normal menunjukkan frekuensi tertinggi
berada di tengah-tengah, yaitu berada pada rata-rata
(mean) nilai distribusi dengan kurva sejajar dan tepat
sama pada bagian sisi kiri dan kanannya. Kesimpulannya,
nilai yang paling sering muncul dalam distribusi normal
ialah rata-rata (average), dengan setengahnya berada
dibawah rata-rata dan setengahnya yang lain berada di
atas rata-rata;
b) Kurva normal, sering juga disebut sebagai kurva bel,
berbentuk simetris sempurna;
c) Karena dua bagian sisi dari tengah-tengah benar-benar
simetris, maka frekuensi nilai-nilai diatas rata-rata
(mean) akan benar-benar cocok dengan frekuensi nilai-
nilai di bawah rata-rata;
d) Frekuensi total semua nilai dalam populasi akan berada
dalam area dibawah kurva. Perlu diketahui bahwa area
total dibawah kurva mewakili kemungkinan munculnya
karakteristik tersebut;
e) Kurva normal dapat mempunyai bentuk yang berbeda-
beda. Yang menentukan bentuk-bentuk tersebut adalah
nilai rata-rata dan simpangan baku (standard deviation)
populasi.
2C. Ordinary Least Square
Ordinary Least Square (OLS) dapat di katakan sebagai penduga
model regresi yang paling banyak digunakan sampai sekarang.
OLS secara umum memiliki bentuk
(3.1)
Dimana merupakan hasil variabel pada kejadian , merupakan
konstanta regresi, adalah nilai ke pada kejadian pengamatan
variabel ke dan ℇ sebagai error Namun dengan menggunakan notasi
matriks, notasi (3.1) dapat direpresentasikan sebagai berikut
(3.2)
Tetapi seperti halnya penduga yang lain, OLS memerlukan
beberapa asumsi yang harus dipenuhi agar dapat dikatan sebagai
penduga yang baik. Asumsi yang harus dipenuhi tersebut adalah :
1. harus berasal dari persamaan (3.1)
2. harus bersifat tetap, bukan random
3. Error harus tidak saling berkorelasi satu sama lain dengan
rata-rata 0 (minimal)
4. Varians yang konstan (homoskedastisitas)
(Hayes & Cai, A New Test of Linear Hypotheses in OLS Regession Under
Heteroscedasticity of Unknown Error, 2008)
Setelah semua asumsi di atas telah dipenuhi, maka dapat
menggunakan metode Least Square untuk menduga parameter.
Untuk mendapat estimator yang baik bagi parameter dan
kita bisa mendapatkannya dari expected value persamaan (3.2).
Namun metode Least Square juga mengharuskan kita memerhatikan
jumlah kuadrat dari deviasi n. Kriteria ini di notasikan sebagai .
Dimana merupakan ∑
∑ ∑ ( ) (3.3)
∑ ( )
(3.4)
Dimana dan yang memenuhi sebagai penduga adalah dan yang
jika disubtitusikan ke dan pada persamaan 3.4, dapat
meminimalkan nilai pada sampel yang tersedia.
Estimator dan yang dapat memenuhi kriteria diatas
tersebut bisa didapatkan dengan dua pendekatan yaitu,
1. Metode matematis. Metode ini mengharuskan kita
melakukan tes matematis ( subtitusi angka kedalam
persamaan (3.4) ) sampai di dapatkan dan yang dapat
meminimalkan Q
2. Metode analisis. Metode ini dilakukan dengan menurunkan
persamaan (3.4) . Metode ini lebih baik dilakukan ketika
persamaan regresi yang dihadapi tidak terlalu kompleks
secara matematis.
Metode Analisis
∑ ( ( ))
(3.5)
Untuk memenuhi asumsi dimana harus minimal maka,
∑ ( ( ))
(3.6a)
∑ ( ) ( )
(3.6b)
∑ ( ) ∑ ( ) ∑ ( )
(3.6c)
∑ ( ) ∑ ∑ ( )
(3.6d)
∑ ( ) ∑ ∑ ∑ ( )
(3.6e)
∑ ( ) ∑ ∑ ∑ ∑ ∑ ( )
(3.6f)
∑ ( ) ∑ ∑ ∑ ∑ ( )
(3.6g)
Dari persamaan (3.6g) tersebut, untuk mendapatkan nilai , maka
turunkan persamaan tersebut terhadap
∑ (
) ∑ ∑ ∑ ∑ ( )
(3.7a)
∑ ( ) ∑ ( ) (3.7b)
∑ ( ) ∑ (3.7c)
(3.7d)
Sedangkan untuk mendapatkan nilai , persamaan (3.6g) dapat
diturunkan terhadap
∑ (
) ∑ ∑ ∑ ∑ ( )
∑ ∑ ∑ ( ) (3.8b)
∑ ( )∑ ∑ ( ) (3.8c)
∑ ∑ ∑ ∑ ( ) (3.8d)
∑ ∑ ( ) ∑ ∑ (3.8e)
(∑ ∑ ) ∑ ∑ (3.8f)
∑ ∑
(∑ ∑ )
(3.8g)
∑ ∑
∑ ∑
(3.8h)
Jika penduga dan yang didapat dari perhitungan tersebut
mampu memenuhi keempat asumsi yang disebutkan di awal bahasan,
maka penduga tersebut biasa disebut dengan penduga yang bersifat
BLUE (Best Linear Unbiased Estimator). Yang artinya merupakan
estimator yang unbiased dan memiliki varian minimum dari seluruh
penduga linear yang lain.
-Fun Fact about OLS-
Dari keempat asumsi yang harus mampu dipenuhi oleh
estimator sehingga dapat disebut estimator yang baik, ada satu syarat
krusial yang harus dapat dipenuhi. Yaitu homoskedastisitas (varian
yang konstan dan minimal).
Tetapi, dalam sebuah jurnal yang ditulis oleh Andrew F. Hayes
(Ohio University) dan Li Cai (University of North Carollina) dan dikutip
dalam tulisan ini, telah dibuktikan kalau dengan pendekatan statistik
modern, bisa didapatkan penduga yang baik dengan menggunakan
data yang yang bersifat heteroskedastik dan tidak diketahui
bentuknya.
Jurnal tersebut berjudul A New Test of Linear Hypotheses in
OLS Regession Under Heteroscedasticity of Unknown Error
(www.afhayes.com/public/hetreg.pdf). Dan implementasinya pada
program dalam artikel jurnal berjudul Using heteroskedasticity-
consistent standard error estimators in OLS regression: An
introduction and software implementation
(link.springer.com/article/10.3758/BF03192961).
2D. Maximum Likelihood Estimation (MLE)
Statistik inferensi digunakan untuk memprediksi keadaan dari suatu
populasi berdasarkan sampel yang diambil. Dalam statistika inferensia
ini, seringkali diasumsikan bahwa distribusi populasi diketahui. Salah
satu teknik yang sering digunakan untuk menaksir parameter bila
distribusi populasi diketahui adalah dengan Maximum Likelihood
Estimation.
Pada MLE, teknik penaksiran parameternya lebih mudah, akan tetapi
teknik ini hanya dapat digunakan bilamana distribusi populasi
diketahui. Selain itu, MLE juga sangat sensitif terhadap data ektrim.
Data ekstrim ini sangat berpengaruh terhadap nilai-nilai mean maupun
variansi.
Estimasi Parameter dengan Maximum Likelihood
Ketika bentuk fungsional dari distribusi probabilitas dimana kesalahan
(error) ditentukan, estimator dari parameter β0 β1 dan 2 dapat
diperoleh dengan metode maximum likelihood. Pada dasarnya, metode
ini memperkirakan nilai-nilai parameter yang paling konsisten dengan
data sampel. Sebagai contoh penjelasan, kita gunakan kasus sederhana
ketika ada sebuah populasi tunggal dengan satu parameter sampel.
Misalnya sebuah populasi berdistribusi normal dimana standar
deviasinya diketahui yaitu = 10 dan rata-ratanya tidak diketahui.
Kemudian diambil sampel acak sebanyak n=3 dari populasi dan
menghasilkan Y1 = 250, Y2 = 265, dan Y3 = 259. Selanjutnya kita akan
memastikan nilai 𝜇 yang paling konsisten dengan data sampel.
Misalnya kita tetapkan 𝜇 = 230. Pada Gambar 1.13.a menunjukan
distribusi normal dengan 𝜇 = 230 dan = 10 serta lokasi dari ketiga
sampel pengamatan. Perhatikan bahwa sampel observasi berada
dibagian right-tail dari distribusi. Karena dengan nilai tersebut tidak
menghasilkan gambaran distribusi yang tepat, maka 𝜇 = 230 tidak
konsisten dengan data sampel.
Gambar1.13
Pada Gambar 1.13.b menunjukan distribusi dan lokasi ketiga sampel
jika 𝜇 = 259. Sekarang hasil pengamatan akan berada di tengah
distribusi. Oleh karena itu, 𝜇 = 259 lebih konsisten dibandingkan
dengan data sampel dari 𝜇 = 230. Metode Maximum Likelihood
menggunakan densitas distribusi probabilita di Yi , yaitu ketinggian
kurva di Yi sebagai ukuran konsistensi pengamatan. Jika Yi berada di
bagian ekor seperti Gambar 1.13.a, ketinggian kurva akan menjadi
sangat kecil, tetapi jika Yi lebih ke pusat distribusi seperti Gambar
1.13.b maka tingginya akan lebih besar.
Dengan menggunakan fungsi kepadatan untuk probabilitas normal,
kita akan menemukan kepadatan untuk Y1 yang dilambakan dengan f1
untuk dua kasus 𝜇.
Fungsi kepadatan untuk ketiga sampel:
Metode Maximum Likelihood menggunakan produk dari densities atau
kepadatan (dalam hal ini produk dari tiga ketinggian) sebagai ukuran
konsistensi nilai parameter dengan data sampel. Produk ini disebut
Likelihood Value dari parameter 𝜇 dan dilambangkan dengan L(𝜇). Jika
𝜇 konsisten dengan data sampel kepadatan akan relatif besar, dan
sebaliknya akan relatif kecil jika 𝜇 tidak konsisten.
Untuk contoh tersebut:
Dari hasil perhitungan di atas, kita dapat melihat bahwa Likelihood
Value untuk = 230 sangat kecil, jika dibadingkan dengan Likelihood
Value untuk 𝜇 = 259. Oleh karena itu 𝜇 = 259 jauh lebih konsisten
dengan data sampel dibandingkan dengan 𝜇 = 230.
Model Regresi
Dalam konsep model regresi, setiap observasi Yi memiliki distribusi
normal dengan Mean β0 β1Xi dan standar deviasi . Untuk
menggambarkan metode ini, kita ambil contoh misalanya kita tetapkan
= 2.5. Kemudian kita akan menentukan Likelihood Value untuk
parameter β0 dan β1 = 0.5.
Gambar1.15
Untuk subjek pertama, X1 = 20, maka rata-rata dari distribusi
probabilitas akan β0 β1X1 = 0 + 0.5(20) = 10. Gambar 1.15.a
memperlihatkan sebuah distribusi normal dengan rata-rata 10 dan
standar deviasi 2.5. Perhatikan bahwa Y1 berada pada left tail dari
distribusi, yang berarti bahwa nilai kepadatan relatif cukup kecil.
Untuk subjek kedua, X2 = 55, maka rata-rata dari distribusi
probabilitas akan β0 β1X1 = 0 + 0.5(55) = 27.5. Gambar 1.15.b
memperlihatkan sebuah distribusi normal dengan rata-rata 27.5.
Perhatikan bahwa nilai Y2 adalah tidak mungkin dan hal ini berarti
bahwa nilai kepadatanya sangat kecil.
Kemudian untuk subjek ketiga, kita dapat nilai Y3 = 10 dan tetap
berada pada left tail dari distribusi. Dari gambar 1.15.c terlihat bahwa
saat Y3 = 10 juga masih memiliki nilai kepadatan yang relatif kecil.
Gambar1.15
Pada Gambar 1.15.d menggabungkan semua informasi, dan
menunjukan fungsi regresi E(Y) = 0 + 0.5X. Perhatikan bagaimana
garis regresi kurang cocok dengan ketiga kasus sampel. Oleh karena
itu dapat diketahui bahwa β0 = 0 dan β1 = 0.5 tidak konsisten dengan
data.
Jika kita hitung densities atau kepadatan (contoh: tinggi kurva) untuk
Y1 = 5, X1 = 20, maka hasilnya ialah:
Untuk hasil yang lainnya, yaitu f2 = 0.7175 x 10-9 dan f3 = 0.021596.
Kemudian didapat Likelihood Value dari β0 = 0 dan β1 = 0.5, dimana:
L(β0 = 0, β1 = 0.5) = (0.021596)x(0.7175 x 10-9) x (0.021596) = 0.3346x10-12
Secara umum, density atau kepadatan pengamatan Yi untuk error
regresi normal adalah sebagai berikut:
........... 1.25
Fungsi Likelihood untuk n pengamatan Y1, Y2, ..., Yn adalah produk dari
kepadatan di fungsi 1.25. Karena varians 2 biasanya tidak diketahui,
fungsi Likelohood adalah sebuah fungsi dengan tiga parameter yaitu β0,
β1, dan 2, dimana fungsi tersebut:
........ 1.26
Dengan demikian penduga Maximum Likelihood dari β0 dan β1 adalah
estimator yang sama dengan yang ada di metode Least Square.
Sedangkan estimator untuk 2 merupakan estimator yang bias.
Perhatikan bahwa estimator unbiased MSE atau s2 berbeda sedikit dari
estimator 2, terutama jika nilai n besar:
References Berry, W. D. (1993). Understanding Regression Asumptions. Newbury
Park: Sage Publication
Hayes, A. F., & Cai, L. (2007). Using heteroskedasticity-consistent
standard error estimators in OLS regression: An introduction
and software implementation. Behavior Research Methods, 39(4), 709-722
Hayes, A. F., & Cai, L. (2008). A New Test of Linear Hypotheses in OLS
Regession Under Heteroscedasticity of Unknown Error. Journal of Educational and Behavioral Statistics, 21-40
Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Model 5th Ed. New York: McGraw-Hill Irwin
Michael H. Kutner, dkk. Applied Linear Statistical Models Fifth Edition
Michael Kutner, C. N. (2004). Applied Linear Regression Models [Only Chapters 1, 2, 13] [4 ed.]. McGraw-Hill/Irwin.
Sarwono, Jonathan. (2013). 12 Jurus Ampuh SPSS untuk Riset Skripsi. Jakarta : Elexmedia Komputindo Kompas Gramedia
Weisberg, S. (2013). Applied Linear Regression, Third Edition (Wiley Series in Probability and Statistics) [4ed.]. Minnesota: Wiley.