forecaforecasting by smoothing methodssting by smoothing methods
DESCRIPTION
Forecasting by smoothing methodsTRANSCRIPT
Economics 20 - Prof. Anderson 1
Dự báo sử dụng mô hình chuỗi thờigian(Time Series Models for Forecasting)
Dự báo bằng phương pháp làm trơn số liệu
Nguyễn Ngọc AnhTrung tâm Nghiên cứu Chính sách và Phát triển
Nguyễn Việt CườngĐại học Kinh tế Quốc dân
Economics 20 - Prof. Anderson 2
Nội dung
Một số khái niệm và một vài mô hình giản đơnLàm trơn bằng phương pháp trung bình
Trung bình trượt giản đơn (simple moving averages - SMA)Phương pháp trung bình trượt kép (Double moving average) Ứng dụng của phương pháp trung bình trượt trên thị trường chứngkhoánTrung bình trượt có trọng số
Làm trơn số liệu theo qui luật số mũLàm trơn theo qui luật số mũ giản đơn (Simple Exponential
Smoothing)
Economics 20 - Prof. Anderson 3
Trong chương này chúng ta sẽ xem xét cácphương pháp làm trơn số liệu (smoothing). Mặc dù các phương pháp này là nhữngphương pháp giản đơn, và đã phát triểntương đối sớm, nhưng giá trị sử dụng thựctiễn của các phương pháp này vẫn còn.
Economics 20 - Prof. Anderson 4
Một số khái niệm và một vài mô hình giản đơn
Mô hình giản đơn (Naive model):
Mô hình này dự báo rằng giá trị của ngày hôm sau, hoặc một ngày t+i trong tương lai sẽ bằng giá trị củangày hôm nay. Mô hình này rất có ích và sẽ dự báo tương đối tốt khidãy số liệu là quá ngắn và không có một xu hướng cụthể nào (no systematic pattern), hoặc xu hướng này thayđổi rất chậm.
tit YF =+
Economics 20 - Prof. Anderson 5
Naive Forecasting
Simplest of thenaive forecasting
models
Simplest of thenaive forecasting
models
t t
t
t
F XF
Xwhere t
t
=
=
=
−
−
1
1 1
: the forecast for time period
the value for time period -
We sold 532 pairs of shoes lastweek, I predict we’ll
sell 532 pairs this week.
We sold 532 pairs of shoes lastweek, I predict we’ll
sell 532 pairs this week.
Economics 20 - Prof. Anderson 6
Một số khái niệm và một vài mô hình giảnđơn
Mô hình dự báo trung bình (Mean Forecast model)
Mô hình này dự báo giá trị của tương lai bằng vớitrung bình của dãy số. Mô hình dự báo trung bình này sẽ dự báo tốt khisố liệu của dãy số biến động xung quanh một hằngsố hoặc một giá trị ổn định (fluctuated around a constant or stationary value).
YF it =+
Economics 20 - Prof. Anderson 7
Simple Average Model
tt t t t nF X X X X
n=
+ + + +− − − −1 2 3 L
The monthly average last12 months was 56.45, so I predict
56.45 for September.
The monthly average last12 months was 56.45, so I predict
56.45 for September.
Month Year
Cents per
Gallon Month Year
Cents per
GallonJanuary 2 61.3 January 3 58.2February 63.3 February 58.3March 62.1 March 57.7April 59.8 April 56.7May 58.4 May 56.8June 57.6 June 55.5July 55.7 July 53.8August 55.1 August 52.8September 55.7 SeptemberOctober 56.7 OctoberNovember 57.2 NovemberDecember 58.0 December
Economics 20 - Prof. Anderson 8
Một số khái niệm và một vài mô hình giảnđơn
Economics 20 - Prof. Anderson 9
Một số khái niệm và một vài mô hình giảnđơn
Economics 20 - Prof. Anderson 10
Trung bình trượt giản đơn (simple moving averages - SMA)
Ý tưởng chính của sử dụng trung bình trượtlà tìm ra xu hướng của dãy số. Giả thiết cơbản của trung bình trượt là giá trị của dãy sốtrung tương lai sẽ bằng giá trị trung bìnhcủa số liệu trong quá khứ. Công thức nhưsau
nYYYYnSMAF tttnt
tt)...()( 123 −−−− ++++
==
Economics 20 - Prof. Anderson 11
Trung bình trượt
Cập nhật (tính toán lại) với mỗi kỳ mớiCó thể gặp khó khăn khi chọn số thời kỳ tối ưuCó thể không điều chỉnh được cho xu hướng, vàtính mùa vụ
tt t t t nF X X X X
n=
+ + + +− − − −1 2 3 L
Tính lại cho mỗi kỳ.
Economics 20 - Prof. Anderson 12
Ví dụ: Trung bình trượt bậc 4 đượctính bằng công thức
4)( 1234 −−−− +++
== tttttt
YYYYSMAF
4)( 2345
11−−−−
−−+++
== tttttt
YYYYSMAF
4)( 3456
22−−−−
−−+++
== tttttt
YYYYSMAF
4)( 4567
33−−−−
−−+++
== tttttt
YYYYSMAF
4)( 1234 −−−−−−−−
−−+++
== ktktktktktkt
YYYYSMAF
Economics 20 - Prof. Anderson 13
Minh họa:Four-Month Moving Average
00.67
00.1294136100.1294
41259119113811345
75.15
25.1243125925.1243
41191138113451056
=
−=
=
+++=
=
−=
=
+++=
Error
F
Error
F
June
June
May
MayMonths Shipments
4-Mo Moving Average
Forecast Error
January 1056February 1345March 1381April 1191May 1259 1243.25 15.75June 1361 1294.00 67.00July 1110 1298.00 -188.00August 1334 1230.25 103.75September 1416 1266.00 150.00October 1282 1305.25 -23.25November 1341 1285.50 55.50December 1382 1343.25 38.75
Economics 20 - Prof. Anderson 14
Minh họa:Four-Month Moving Average
1000
1100
1200
1300
1400
1500
0 2 4 6 8 10 12
Time
Ship
men
ts
Shipments 4-Mo Moving Average
Economics 20 - Prof. Anderson 15
Economics 20 - Prof. Anderson 16
Phương pháp trung bình trượt kép (Double moving average):
Chuỗi số thời gian qua biến đổi trung bìnhtrượt kép (trung bình trượt hai lần) được kýhiệu là MA(pxq), là một trung bình trượtbậc p (sử dụng p thời kỳ/quan sát) của mộtchuỗi đã được biến đổi trung bình trượt ởbậc q. q là bậc (q quan sát) của lần trungbình trượt thứ nhất, và p la trung bình trượtở lần thứ hai.
Economics 20 - Prof. Anderson 17
Ví dụ: Giả sử ta thực hiện phép trung bình trượt bậc 4 lần thứnhất với một chuỗi thời gian Y ta sẽ có:
4)( 1234 −−−− +++
= ttttt
YYYYSMA
4)( 2345
1−−−−
−
+++= tttt
tYYYYSMA
4)( 3456
2−−−−
−+++
= ttttt
YYYYSMA
4)( 4567
3−−−−
−
+++= tttt
tYYYYSMA
Economics 20 - Prof. Anderson 18
Ta tiếp tục thực hiện phép biến đổi trung bình trượt bậc 3 vớichuỗi số này, ta sẽ có chuỗi trung bình trượt kép (3-perioddouble moving average):
3)( 123 −−− ++
== ttttt
SMASMASMADMAF
nSMASMASMASMADMAF tttnt
tt)...( 123 −−−− ++++
==
Economics 20 - Prof. Anderson 19
Ưu điểm: bằng phương pháp này có thể loại bỏđược những biến thiên ngẫu nhiên quá lớn, vàphương pháp này ít bị tác động của các quan sátngoại biên (outlier), đặc biệt là so vớ phương phápsai phân bậc nhấtNhược điểm: Phương pháp này không xử lý đượcvấn đề mùa vụ (seasonality) của chuỗi thời gian, và việc xác định số bậc tối ưu (the optimal number of period) cũng gặp khó khăn.
Economics 20 - Prof. Anderson 20
Ứng dụng của phương pháp trung bình trượt trên thịtrường chứng khoán
HSPI
MA
Thời gian
Giá
Mua
Bán
Economics 20 - Prof. Anderson 21
Economics 20 - Prof. Anderson 22
Trung bình trượt có trọng sốFt = WMA4 = [0.4Yt-1 + 0.3Yt-2 + 0.2Yt-3 + 0.1Yt-4]Ưu điểm: Trọng số đối với các quan sát trong quá khứ cóthể khác nhau. Tuy nhiên việc xác định được trọng số tốiưu lại có thể rất khó khăn. Loại mô hình này rất có ích khisố liệu có đặc điểm là những thay đổi theo từng thời kỳ cókich thước gần như nhau. (This type of model is most useful when the historical data are characterized by period-to-period changes that are approximately the same size.)Hạn chế của mô hình WMA: Mô hình này không xử lýđược vấn đề xu hướng và mùa vụ. Rất khó xác định đượcbậc để thực hiện trung bình trượt bởi vì RSE không có giátrị, đồng thời việc xác định trọng số cũng rất khó khăn, nênphương pháp này thường không được sử dụng.
Economics 20 - Prof. Anderson 23
Trung bình trượt có trọng số
tt t t t t t t n t n
ii t
t nF W X W X W X W XW
=+ + + +− − − − − − − −
= −
−
∑1 1 2 2 3 3
1
L
Economics 20 - Prof. Anderson 24
Ví dụ: Trung bình trượt trọng số 4 tháng
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
May
May
June
June
F
Error
F
Error
=+ + +
=
= −
=
=+ + +
=
= −
=
4 1191 2 1381 1 1345 1 10568
1240 88
1259 1240 88
18 134 1259 2 1191 1 1381 1 1345
81268 00
1361 1268 0093 00
.
.
.
.
..
Months Shipments
4-Mo WeightedMoving Average
Forecast Error
January 1056February 1345March 1381April 1191May 1259 1240.88 18.13June 1361 1268.00 93.00July 1110 1316.75 -206.75August 1334 1201.50 132.50September 1416 1272.00 144.00October 1282 1350.38 -68.38November 1341 1300.50 40.50December 1382 1334.75 47.25
Economics 20 - Prof. Anderson 25
Làm trơn theo qui luật số mũ giảnđơn (Simple Exponential Smoothing)
Trung bình trượt giản đơn sử dụng trọng số bằng nhau chotất cả các quan sát, nhưng trên thực tế các quan sát nằm ởđầu và cuối dãy số có trọng số thấp hơn các quan sát khác(tức là được sử dụng ít hơn trong việc tính trung bình)
Trong phương pháp trung bình trượt kép thì vấn đề trọngsố lại trở nên nghiêm trọng hơn. Trung bình trượt kép thậmchí dành cho những quan sát nằm giữa dãy số trọng số caohơn cả những quan sát gần kỳ dự báo hơn (những quan sátgần đây hơn) – bởi vì các quan sát nằm giữa dãy số đượcsử dụng nhiều hơn trong việc tính toán con số trung bình.
Economics 20 - Prof. Anderson 26
Làm trơn theo qui luật số mũ giảnđơn (Simple Exponential Smoothing)
Do đó phương pháp trung bình trượt có trọng sốđã được phát triển để sử dụng. Trung bình trượt cótrọng số giới thiệu ở trên, trọng số giảm dần từ Yt-1 đến Yt-4 một cách đều đặn (0.4 0.1).
Tuy nhiên tác động của các quan sát trong quá khứlại có thể không giảm đều đặn như vậy, mà lạigiảm một cách phi tuyến hơn. Để xử lý vấn đềnày, người ta đã phát triển các phương pháp trungbình trượt có trọng số thay đổi theo số mũ
Economics 20 - Prof. Anderson 27
Làm trơn theo qui luật số mũ giảnđơn (Simple Exponential Smoothing)
Nhìn nhận ở một góc độ khác, trong phương pháptrung bình trượt giản đơn ở trên, giả sử có bậctrượt là k, thì chỉ có k quan sát gần nhất được sửdụng, còn tất cả các quan sát trước đó đều khôngđược sử dụng. Đây có thể được coi là một nhược điểm. Do đóngười ta tìm cách xây dựng phương pháp làm trơnsao cho các dữ liệu trong quá khứ vẫn được sửdụng và có trọng số giảm dần thay vì bị loại bỏnhư phương pháp trung bình trượt.
Economics 20 - Prof. Anderson 28
Làm trơn theo qui luật số mũ giảnđơn (Simple Exponential Smoothing)
Ft = Ft-1 + α(Yt-1 – Ft-1)
Ft = 1*Yt-1 + (1-1) Ft-1 Ft= Yt-1 (Naive model)
11 )1( −− −+= ttt FYF αα
Economics 20 - Prof. Anderson 29
Làm trơn theo qui luật số mũ giảnđơn (Simple Exponential Smoothing)
Công thức này cho thấy con số dự báo là trungtrình có trọng số giữa giá trị thực tế gần đây nhất(Yt-1) và giá trị dự báo gần đây nhất (Ft-1). So sánh với mô hình adaptive expectation ở bàitrước!!!Ở đây α luôn nằm giữa khoảng 0 và 1 (0.1 và 0.9). Giá trị tối ưu của α sẽ là giá trị sao cho sai số dựbáo SSE, hoặc RSE là nhỏ nhất.
Economics 20 - Prof. Anderson 30
Chứng minh rằng cho ta các trọngsố có dạng mũ
Từ công thức trên ta có viết như sauFt = αYt-1 + (1-α) Ft-1; Dự báo cho giai đoạn tFt-1 = αYt-2 + (1-α) Ft-2 Dự báo cho giai đoạn t-1Ft-2 = αYt-3 + (1-α) Ft-3; Dự báo cho giai đoạn t-2Ft-3 = αYt-4 + (1-α) Ft-4 Dự báo cho giaiđoạn t-3Từ công thức trên ta có viết như sauFt = αYt-1 + (1-α) Ft-1; Dự báo cho giai đoạn tFt-1 = αYt-2 + (1-α) Ft-2 Dự báo cho giai đoạn t-1Ft-2 = αYt-3 + (1-α) Ft-3; Dự báo cho giai đoạn t-2Ft-3 = αYt-4 + (1-α) Ft-4 Dự báo cho giaiđoạn t-3
∑∞
=−−−=
01)1(
sst
st YF αα
Economics 20 - Prof. Anderson 31
Nguyên tắc lựa chọn α :
(1) Với các chuỗi thời gian biến động ngẫu nhiên, khôngcó pattern cụ thể, biến động nhiễu loạn, nên chọn α có giátrị lớn. (2) Với các dãy số có dạng bước ngẫu nhiên (randomly and smoothly walks up and down without any repeating patterns), nên chọn α có giá trị nhỏ.(3) Khi cần có độ trơn trượt nhiều, nên sử dụng các trungbình trượt dài, sử dụng α có giá trị nhỏ trong trungbình trượt số mũ. Khi chỉ cần làm trơn ít, sử dụng trung bình trượt ngắn, Sử dụng α giá trị lớn.(4) Sử dụng α có giá trị khác nhau trong việc thực hiệntrung bình trượt số mũ, sau đó lựa chọn dựa trên RSE đểchọn α tối ưu.
Economics 20 - Prof. Anderson 32
Exponential Smoothing, w=.2
0
50
1001 3 5 7 9 11 13 15
Valu
e
Exponential Smoothing , w=.7
0
50
100
1 3 5 7 9 11 13 15
Valu
e
α nhỏ smoothing nhiều
α lớn smoothing ít
Economics 20 - Prof. Anderson 33
Ví dụ: α = 0.2 (xem file excel)
Business Statistics, 4e, by Ken Black. © 2003 John Wiley & Sons. 16-24
53803.2MSE
183.1MAD
807048.22746.9
45012.6212.2212.21453.83816661999
41596.4204.0204.01413.04816171998
5804.976.276.21397.8114741997
9798.599.099.01378.01214771996
900.930.0-30.01384.01613541995
8323.091.291.21365.76914571994
9450.197.2-97.21385.21212881993
53599.0231.5-231.51431.51512001992
272372.6521.9-521.91535.89310141991
183712.2428.6-428.61621.61711931990
94261.8307.0-307.01683.02113761989
59426.7243.8-243.81731.77614881988
19521.7139.7-139.71759.7216201987
3203.656.656.61748.418051986
64.08.0-8.01750.017421985
--------17501984
e2|e|eFHousing Units
(1,000)Year
0.2α =
Economics 20 - Prof. Anderson 34
Làm trơn số liệu mùa vụ theo qui luật số mũ giảnđơn (Seasonal Simple Exponential Smoothing)
Phương pháp làm trơn số liệu theo quy luậtsố mũ giản đơn có thể được sử dụng với sốliệu có tính mùa vụ (với điều kiện là số liệunày không có tính xu hướng (applied to seasonal data that does not possess a trend)
Economics 20 - Prof. Anderson 35
Làm trơn số liệu mùa vụ theo qui luật số mũ giảnđơn (Seasonal Simple Exponential Smoothing)
Ft = αYt-s + (1-α) Ft-s t-s = t-4 với số liệu quít-s = t-12 với số liệu thángt-s = t-7 Với số liệu tuần
Economics 20 - Prof. Anderson 36
Làm trơn số liệu mũ kép của BrownĐôi khi chúng ta muốn làm trơn thật nhiềumột chuỗi số nhưng lại không muốn dành quánhiều trọng số cho các quan sát trong quákhứ. Trong trường hợp như vậy việc sử dụng α cógiá trị nhỏ (trơn trượt nhiều) lại không phùhợp (vì dành nhiều trọng số cho dữ liệu quákhứ). Khi đó, ta có thể sử dụng phương pháplàm trơn mũ kép.
Economics 20 - Prof. Anderson 37
Làm trơn số liệu mũ kép của Brown
Bằng phương pháp này, thì khi hệ số trơn αdù có lớn (tức là dành ít trọng số cho số liệutrong quá khứ) thì dãy số vẫn được làm rấttrơn.Tương tự như trung bình trượt kép và nhưtên gọi của phương pháp này cho thấy, phương pháp làm trơn này là làm trơn thêmmột lần nữa một dãy số đã được làm trơn.
Economics 20 - Prof. Anderson 38
Làm trơn số liệu mũ kép của Brown
Gọi S’ là giá trị được làm trơn 1 lần, và S”là giá trị được làm trơn 2 lần, ta có
'1
' )1( −−+= ttt SYS αα
''1
''' )1( −−+= ttt SSS αα
Economics 20 - Prof. Anderson 39
DỰ BÁO VỚI PHƯƠNG PHÁP PHÂN RÃ CHUỖI SỐ THỜI GIAN
Xem lại đặc điểm của dãy số thời gianPhương pháp phân rã truyền thống
Economics 20 - Prof. Anderson 40
Một số đặc điểm thường gặp trongsố liệu chuỗi thời gian
Ngẫu nhiên (random pattern)
Biến động bất thường, làm ta không nhận ra các xu hướng khác trong dãy số
time
Y
Economics 20 - Prof. Anderson 41
Một số đặc điểm thường gặp trongsố liệu chuỗi thời gian
Có xu hướng (Trend patterns )
Xu hướng là dài hạn, thường dài hơn 1 năm
Y Y
Time Time
Economics 20 - Prof. Anderson 42
Một số đặc điểm thường gặp trongsố liệu chuỗi thời gian
Ít hơn một năm mùa vụ
Q1 Q1 Q1Q3 Q3 Q3
Y
Time
Economics 20 - Prof. Anderson 43
Một số đặc điểm thường gặp trongsố liệu chuỗi thời gian
Tính chu kỳ (Cyclical Patterns )
Dài hơn 1 năm
Y
Time
Economics 20 - Prof. Anderson 44
Cấu phần cua chuỗi thời gian
1 2 3 4 5 6 7 8 9 10 11 12 13
Year
Mùa vụ
Chu kỳ
Xu hướng
Ngẫu nhiên
Economics 20 - Prof. Anderson 45
Phương pháp phân rã truyền thống
Economics 20 - Prof. Anderson 46
Phương pháp phân rã truyền thống
Y = f (trend, cyclical, seasonal, error)= f (T, C, S, e )
(1) Mô hình cộng (Additive):Y = T + C + S + e
(2) Mô hình nhân (Multiplicative):Y = T · C · S · e
Economics 20 - Prof. Anderson 47
Xem đồ thị để biết cộng hay nhân
Y
time
Y
time
Additive seasonality
Multiplicative seasonality
Economics 20 - Prof. Anderson 48
Phân rã bằng phương pháp hồi qui (Decomposition using regression analysis)
ttttt eQQQTrendY +++++= 432 4321 ββββα
Yt = Dãy số thực tếTrend = giá trị thời gian (ta tự tạo) Q2, Q3, Q4 = Biến giả (tự tạo)
Economics 20 - Prof. Anderson 49
Các dạng hàm cho xu hướng
• Đường thằng tuyến tính :Y = a + bX
• Đường Geometric Curve Y = aebX
• Đường Parabol : Y = a + bX + cX2
•
Economics 20 - Prof. Anderson 50
Số giờ lao động trung bình/tuần củaCN
Period Hours Period Hours Period Hours Period Hours1 37.2 11 36.9 21 35.6 31 35.72 37.0 12 36.7 22 35.2 32 35.53 37.4 13 36.7 23 34.8 33 35.64 37.5 14 36.5 24 35.3 34 36.35 37.7 15 36.3 25 35.6 35 36.56 37.7 16 35.9 26 35.67 37.4 17 35.8 27 35.68 37.2 18 35.9 28 35.99 37.3 19 36.0 29 36.0
10 37.2 20 35.7 30 35.7
Economics 20 - Prof. Anderson 51
Mô hình tuyến tính - Linear TrendRegression Statistics
Multiple R 0.782R Square 0.611Adjusted R Square 0.5600Standard Error 0.509Observations 35
ANOVAdf SS MS F Significance F
Regression 1 13.4467 13.4467 51.91 .00000003Residual 33 8.5487 0.2591Total 34 21.9954
Coefficients Standard Error t Stat P-valueIntercept 37.4161 0.17582 212.81 .0000000Period -0.0614 0.00852 -7.20 .00000003
X
XY
t
itii
Y
where
0614.0416.37ˆperiod time
i periodfor valuedata :
XY
i
i
10
−=
=
=
++= εββ
Economics 20 - Prof. Anderson 52
Số liệu và đường xu hướng tuyếntính
34.535.035.536.036.537.037.538.0
0 5 10 15 20 25 30 35
Time Period
Wor
k W
eek
Economics 20 - Prof. Anderson 53
Mô hình bậc hai - Quadratic Trend
Regression StatisticsMultiple R 0.8723R Square 0.761Adjusted R Square 0.747Standard Error 0.405Observations 35
ANOVAdf SS MS F Significance F
Regression 2 16.7483 8.3741 51.07 1.10021E-10Residual 32 5.2472 0.1640Total 34 21.9954
Coefficients Standard Error t Stat P-valueIntercept 38.16442 0.21766 175.34 2.61E-49Period -0.18272 0.02788 -6.55 2.21E-07Period2 0.00337 0.00075 4.49 8.76E-05
i ti ti i
ti
t t
Y X X
XX X
where
Y
= + + +
=
=
=
= − +
0 1 2
2
2
238164 0183 0 003
β β β ε:
$ . . .
data value for period i
time period
the square of the i period
i
i
th
YX
Economics 20 - Prof. Anderson 54
Số liệu và đường xu hướng bậc 2
34.535.035.536.036.537.037.538.0
0 5 10 15 20 25 30 35
Period
Wor
k W
eek
Economics 20 - Prof. Anderson 55
Mô hình nhân (Multiplicative)
Biến đổi logarit
Yt = Dãy số thực tếTrend = giá trị thời gian (ta tự tạo) Q2, Q3, Q4 = Biến giả (tự tạo)
''4
'3
'2
'1
' 432)ln( ttttt eQQQTrendY +++++= ββββα