pengenalan analisis deret waktu time series analysis y · pengenalan analisis deret waktu (time...
TRANSCRIPT
PengenalanAnalisis Deret Waktu (Time Series Analysis)
MA 2081 Statistika Dasar
( y )
MA 2081 Statistika Dasar30 April 2012
Utriweni MukhaiyarUtriweni Mukhaiyar
IlustrasiIlustrasi Berikut adalah data rata-rata curah hujan bulanan yang diamati dari Stasiun Padaherang pada tahun 2001 – 2004.
Sumber : Modul 3 Praktikum Mekanika Medium Kontinu “ Medan Gravitasi”
Tahun Jan Feb Mar Apr Mei Jun Jul Agust Sep Okt Nop Desa u Ja eb a p e Ju Ju gust Sep O t op es2001 278.59 279.78 355.29 241.34 115.9 176.9 55.32 29.08 43.82 313.68 508.49 267.822002 299.78 245.88 266.64 185.27 122.22 133.1 76.78 32.4 26.09 169.05 461.62 415.732003 425.21 370.8 300.23 157.43 184.96 69.93 23.28 14.39 17.86 275.23 433.23 456.022004 547.8 308.2 388 93 297 128 47 5 87 105 389 371.6
Apabila nilai curah hujan saat ini dianggap dipengaruhi oleh rata-p j gg p p grata curah hujan kemarin dst, maka data rata-rata curah hujan di atas dapat dikategorikan sebagai suatu deret waktu (time series).
2
Plot Data berdasarkan waktu
Rata-rata curah hujan bulanan 2001 - 2004 di Stasiun Padaherang
500
600
300
400
urah
huj
an
100
200nila
i cu
0
100
0 5 10 15 20 25 30 35 40 45
@ UM3
waktu (bulan ke-)
Proses StokastikProses Stokastik Proses stokastik adalah barisan peubah acak {Yt , t T }
Setiap proses stokastik memuat ruang keadaan S danindeks parameterTS : semua nilai yang mungkin dari YtS d T d t b il i di k it t k tiS danT dapat bernilai diskrit atau kontinu
Contoh proses stokastik:a. Cuaca harian kota Bandung gb. Banyaknya trombosit/hari pasien demam berdarah
sejak ia terinfeksi c. Laju pertumbuhan populasi orang utan (% per tahun)d Waktu antara mekarnya bunga bangkai yang ke nd. Waktu antara mekarnya bunga bangkai yang ke-n
dengan bunga bangkai yang ke n+1
Misal yt nilai dari Yt maka barisan nilai {yt , t T } disebut
4
yt t {yt }realisasi dari {Yt , t T }
Time SeriesTime Series Jika T : waktu, maka {Yt , t T } disebut time series Realisasinya disebut data TS Realisasinya disebut data TS Studi berkaitan dengan TS disebut analisis TS Permasalahan dalam analisis TS :
“Bagaimana menentukan model Yt sehingga model Bagaimana menentukan model Yt sehingga model tersebut dapat digunakan untuk forecasting (prakiraan di waktu mendatang)?? ”
Secara umum, model TS dapat ditulisYt = f (.) + et (1)
Asumsi galat: et ~ N (0, 2) dan tidak berkorelasi
Jika f linier dalam parameter-parameternya makapersamaan (1) disebut model linier TS
Koleksi semua model linier TS dinamakan model
5
Koleksi semua model linier TS dinamakan model ARIMA(p,d,q) (Box-Jenkins, 1976)
Contoh Time SeriesContoh Time Series
9
Tingkat Pengangguran di AS Produksi Tembakau di ASP
erse
n
56
78
Mili
ar p
ound
s
000
1500
2000
Kuartal
0 20 40 60 80 100 120
34
Tahun
M
1880 1900 1920 1940 1960 1980
500
10
Kuartal Tahun
0080
000
Data Penjualan lynx pelts di Canada
118
Ukuran partikel setelahpenyemprotan pengharum ruangan
0000
4000
060
00
112
114
116
6Tahun
1850 1860 1870 1880 1890 1900
20
Menit
0 100 200 300 400 500
110
Manfaat dan Tujuan TSManfaat dan Tujuan TS
d lk d h d d l h l k d Memodelkan data TS sehingga dapat dilihat perilaku data lebih lanjut
Melakukan prediksi ke depan atau prakiraan jangka pendek Melakukan prediksi ke depan atau prakiraan jangka pendek (short-time forecasting)
7
Beberapa Konsep Dasar dalam TSK t iKestasioneran
TS {Yt , t T } stasioner jika untuk setiap t,1. E[Yt] = (konstan) t2. kov(Yt , Yt –k) = k (tidak tergantung t )
Secara visual, data TS {Yt , t T } stasionerjika data TS berfluktuasi di sekitarrataannya dengan variansi konstan
8
Beberapa Konsep Dasar dalam TSACF f i t k l iACF, fungsi autokorelasi ACF (fungsi autokorelasi) : fungsi antara
lag k dan k dengan, k = corr (Yt ,Yt –k).ACF sampel:
1( )( )
n
t t kt k
Y Y Y Y1
2
1( )
t kk n
tt
rY Y
rk = 0 (secara signifikan) jika1 11 96 1 96
9
1,96 1,96krn n
Beberapa Konsep Dasar dalam TSPACF f i i l t k l iPACF, fungsi parsial autokorelasi PACF (fs. autokorelasi parsial) : fungsi antara lag k
d di (Y Y ) t l hdengan kk di mana kk = corr (Yt , Yt –k) setelahpengaruh Y1 , Y2, …, Yk-1 ditiadakan.
PACF dapat didefinisikan juga sebagai koefiesien sukuterakhir dari regresi Yt dengan Y1 , Y2, …, Yk.
Artinya, jika Yt = +1Yt-1 + 2Yt-2 + … + kYt-k makaPACF sampel untuk lag k = taksiran dari k.
t ˆ ˆ atau
= 0 (secara signifikan) jika
kk k
1 1ˆ1,96 1,96kk
10
0 (secara signifikan) jikakk 1,96 1,96kkn n
C t h ACF d PACF d g SPSSContoh ACF dan PACF dengan SPSS
8000
number of blowfly
6000
ber
of b
low
fly
1.0
0.5
0.0ACF
Lower ConfidenceLimit
Upper Confidence LimitCoefficient
4000
2000
num
b
16151413121110987654321
Lag Number
-0.5
-1.0
81
79
77
75
73
71
69
67
65
63
61
59
57
55
53
51
49
47
45
43
41
39
37
35
33
31
29
27
25
23
21
19
17
15
13
11
97531
Sequence number1.0
0.5
Lower ConfidenceLimit
Upper Confidence LimitCoefficient
number of blowfly
Dari menu SPSS, pilihGraphs
0.0
-0.5
Parti
al AC
F
pTime Series
Autocorrelations...pilih variabel yang akandihit ACF d PACF
11
16151413121110987654321
Lag Number
-1.0dihitung ACF dan PACF-nya
OK
Model-model Time SeriesUntuk TS Stasioner1. Autoregresi (AR) : “regresi terhadap TS yg lalu & galat
sekarang”sekarangAR(1): Yt = +1Yt-1 +et , di mana 1<1<1AR(2): Yt = +1Yt-1 + 2Yt-2 + et ,
di mana 1<2<1, 2+1<1, 2-1<1 AR(p): Yt = +1Yt-1 + 2Yt-2 + … + pYt-p + et
2. Moving Average (MA) : “regresi terhadap galat yang laludan galat sekarang”
MA(1) Y di 1 1MA(1): Yt = + et – 1et -1 , di mana 1<1<1MA(2): Yt = + et – 1et -1 – 2et -2
di mana 1<2<1, 2+1<1, 2-1<1
12
2 , 2 1 , 2 1
MA(q): Yt = + et – 1et-1 – 2et -2 - … – qet –q
Model-model Time SeriesUntuk TS Stasioner3. Autoregresi-Moving Average (ARMA)
“ h d S l l d l ”“regresi terhadap TS yang lalu dan semua galat”ARMA(1,1): Yt = +1 Yt-1 +et – 1et -1
ARMA(p,q): ARMA(p,q): Zt = +(1 Yt-1 + … + p Yt-p ) +(et – 1et -1 –… – qet -q )
Catatan: AR(p) = ARMA(p,0), MA(q) = ARMA(0,q)
13
Model-model Time SeriesUntuk TS tidak Stasioner Misal TS {Yt } tidak stasioner.
Buat TS baru yg stasioner, sebut {Zt } dengan caradiferensi, yaitu Zt = Yt – Yt-1, untuk setiap t.
Maka Maka“ARMA(p,q) untuk {Zt} disebut ARIMA (p,1,q) untuk {Zt }”t
Jika diferensi dilakukan d kali, ditulisARIMA( d )ARIMA(p,d,q)
Catatan: ARMA(p,q) = ARIMA (p,0,q)
14
Metode Box JenkinsMetode Box JenkinsTahap awal:Pemeriksaan kestasioneran:Pemeriksaan kestasioneran:- Plot TS- Jika stasioner, lanjutkan ke “tiga tahap iteratif”.
Jik tid k l k k t f i t dif iJika tidak lakukan transformasi atau diferensiTiga tahap iteratif :1 Identifikasi1. Identifikasi2. Penaksiran parameter3. Uji diagnostik (pemeriksaan asumsi sisa)
Jika pada uji diagnostik, ada asumsi yang dilanggarulangi lagi 3 tahap iteratif
15
IdentifikasiIdentifikasiModel ACF PACFAR(p) Menurun secara
eksponensial atau membentuk gelombang sinus
Cut off setelah lag p
teredam
MA(q) Cut off setelah lag q Menurun secaraeksponensial ataueksponensial ataumembentuk gelombang sinus teredam
Mengidentifikasi orde (p,q) model ARMA melalui kriteriaAkaike (AIC)
AIC n log + 2m , m = # parameter
16
Hitung nilai AIC untuk setiap (p,q). Orde yang dipilih adalah(p,q) dengan nilai AIC yang paling kecil
Penaksiran ParameterPenaksiran Parameter Metode: - Kuadrat terkecil (untuk model AR)
M k i lik lih d- Maksimum likelihood- Melard (digunakan SPSS)
Contoh penaksiran parameter melalui SPSSDari menu, pilih Analyze Forecasting Create Models ... Pilih nama TS sebagai Dependent variable Pilih nama TS sebagai Dependent variable Masukkan orde model ARIMA
17
Uji DiagnosisUji DiagnosisIngat asumsi galat: et ~ N (0,2) dan tidak berkorelasiP ji iPengujian asumsi:Cara 1: Plot sisaan
berfluktuasi di sekitar 0 E[et ] = 0nilai sisaan di sekitar 1,96 Var(et) = 2
plot ACF serta plot PACF-nya
2
ˆrk dan signifikan 0 sisaan “tidak berkorelasi”Cara 2: Uji Ljung-Box Uji “H0: korelasi antar sisaan = 0” dengan statistik Ljung-Box
kk
j 0 g j g
Jika Q * > 2 dengan = h – m dan m = # parameter maka H0
2*
1( 2)
hk
k
rQ n nn k
18
Jika Q > , dengan h m dan m # parameter, maka H0ditolak
ContohContoh Hasil produksi bulanan perkebunan teh di lokasi PAL tahun
1992-2009 (T = 216)
Produksi teh "PAL" 1992 2009
250000
300000
Produksi teh "PAL" 1992-2009
100000
150000
Produksi teh "PAL" 1992-2009diferensi 1 kali
100000
150000
200000
pro
duk
si te
h
0
50000
100000
0 50 100 150 200pro
duk
si te
h
0
50000
0 50 100 150 200
bulan ke-
-100000
-50000
0 50 100 150 200
bulan ke-
19
bulan ke-
Contoh Sari Numerik Data
Data perkebunan teh PAL Data perkebunan teh PAL (diff 1 kali)
Mean 133793.6Standard Error 2488.531Median 136781
Data perkebunan teh PAL (diff 1 kali)
Mean 455.7023Standard Error 2407.674
Median 136781Mode #N/AStandard Deviation 36573.79Sample Variance 1.34E+09
Median ‐1515Mode ‐15033Standard Deviation 35303.43Sample Variance 1.25E+09p
Kurtosis 0.222436Skewness ‐0.07241Range 218458Mi i 36305
Sample Variance 1.25E 09Kurtosis 1.855309Skewness 0.701741Range 216395Mi i 81536Minimum 36305
Maximum 254763Sum 28899412Count 216
Minimum ‐81536Maximum 134859Sum 97976Count 215
20
Count 216
ContohIdentifikasi
ACF menurun seperti ACF menurun seperti gelombang sinus teredam sedangkan PACF cut off setelah lag-1.g
Model yang mungkin adalah AR(1)
ACF cut off setelah lag-1 sedangkan PACF juga seperti cut off j g p ffsetelah lag-1.
Ada beberapa model yang mungkin, seperti
21
gARIMA(1,1,1)
ContohPenaksiran dan Uji Diagnostik
AR
(1)
1134113,420 0,535 t t tY Y eDiperoleh AR(1) :
,1,1
)A
RIM
A (1
221 119,205 0,434 0,934 t t t tZ Z e eDiperoleh ARIMA(1,1,1) :
ContohKesimpulan Berdasarkan hasil Ljung-Box, dimana pada model AR(1) H0
dit l k ( i b k l i) t k 1% 10% ditolak (sisaan berkorelasi) untuk semua 1% 10%, sedangkan ARIMA(1,1,1) tidak ditolak untuk <1,7%.
Oleh karena itu model ARIMA(1,1,1) bisa dianggap lebih ( , , ) gg pcocok (dengan sisaan yang tidak berkorelasi) sehingga dapat digunakan untuk melakukan short-time forecast dengan menggunakan persamaan :menggunakan persamaan :
1 119,205 0,434 0,934 t t t tZ Z e e1 1
1 1 1
, , ,
19,205 0,434( ) 0,934
19 205 1 434 0 434 0 934
t t t t
t t t t tY Y Y Y e
Y Y Y e
23
1 1 119,205 1,434 0,434 0,934 t t t tY Y Y e