chương 16 dự báo kinh tế · marketing (ví dụ phản ứng của doanh số theo các kế...

1

Chương 16

Dự báo kinh tế

Domadar N. Gujarati

(Econometrics by example, 2011).

Người dịch và diễn giải: Phùng Thanh Bình, MB (6/10/2017)

Có nhiều lĩnh vực trong đó các dự báo kinh tế đã chứng tỏa sự hữu ích1:

1. Lập kế hoạch hoạt động và kiểm soát (ví dụ như quản trị tồn kho, lập kế

hoạch sản xuất, quản lý lực lượng bán hàng, …)

2. Marketing (ví dụ phản ứng của doanh số theo các kế hoạch marketing

khác nhau)

3. Kinh tế học (các biến kinh tế chủ yếu như GDP, thất nghiệp, tiêu dùng,

đầu tư và lãi suất)

4. Quản lý tài sản tài chính (ví dụ suất sinh lợi tài sản, tỷ giá hối đoái và giá

cả hàng hóa)

5. Quản trị rủi ro tài chính (ví dụ sự dao động suất sinh lợi của tài sản)

6. Dự toán của doanh nghiệp và chính phủ (các dự báo doanh thu)

7. Nhân khẩu học (tỷ lệ sinh và tỷ lệ tử)

8. Quản trị khủng hoảng (xác suất không trả được nợ, phá giá tiền tệ, đảo

chính quân sự, …)

Dựa trên các thông tin quá khứ và hiện tại, mục tiêu của dự báo là để cung cấp

các giá trị ước lượng định lượng về khả năng chiều hướng tương lai của đối

tượng quan tâm (ví dụ chi tiêu cho tiêu dùng cá nhân). Đối với mục đích này,

1 Xem Francis X. Diebold, Elements of Forecasting, Thompson-South-Western Publishers, 4th edn, 2007.

2

chúng ta xây dựng các mô hình kinh tế lượng và sử dụng một hoặc nhiều

phương pháp để dự báo xu hướng tương lai.

[Diễn giải: Một điều kiện quan trọng đằng sau các mô hình dự báo là chúng ta

ngầm giả định xu hướng vận động của dữ liệu trong quá khứ và hiện tại sẽ được

duy trình trong giai đoạn dự báo ở tương lai. Điều này đòi hỏi dữ liệu sử dụng

trong các mô hình dự báo phải là các chuỗi dừng (nghĩa là, trung bình không

đổi qua thời gian, phương sai không đổi qua thời gian, và hiệp phương sai chỉ

phụ thuộc vào khoảng cách giữa hai thời điểm nhất định).]

Mặc dù có nhiều phương pháp dự báo, nhưng chúng ta sẽ xem xét ba phương

pháp dự báo nổi trội trong chương này: (1) các mô hình hồi quy, (2) các mô hình

ARIMA, được phổ biến bởi hai nhà thống kê Box và Jenkinx và được biết với

tên gọi là phương pháp luận Box-Jenkins2, và (3) các mô hình VAR, được đề

xuất bởi Christopher Sims3.

16.1 Dự báo với các mô hình hồi quy

Chúng ta đã dành một không gian đáng kể trong cuốn sách này này để bàn về

các khía cạnh khác nhau của phân tích hồi quy, nhưng cho đến đây chúng ta

nói rất ít về việc sử dụng các mô hình hồi quy cho các mục đích dự báo. Đối với

nhiều người sử dụng phân tích hồi quy trong doanh nghiệp và chính phủ, dự

báo có thể là mục đích quan trọng nhất của việc ước lượng các mô hình hồi

quy. Chủ đề của dự báo trong kinh doanh và kinh tế thì rất rộng và nhiều cuốn

sách chuyên khảo được viết về chủ đề này4. Chúng ta sẽ chỉ thảo luận những

2 G. P. Box and G. M. Jenkins, Time Series Analysis: Forecasting and Control, revised edn, Holden Day, San Francisco, 1976. 3 Một phương pháp dự báo khác phổ biến vào những năm 1970 và 1980 là phương pháp các mô hình phương trình đồng thời. Nhưng phương pháp này đã mất dần sự ưa thích bởi vì thành tích dự báo kém cỏi của nó từ những cấm vận dầu lửa của OPEC trong những năm 1970, mặc dù nó vẫn được sử dụng bởi nhiều cơ quan chính phủ và Cục dự trữ liên bang. Một thảo luận về phương pháp này có thể xem trong Gujarati/Porter, các chương 18 – 20. 4 Ví dụ, xem Diebold, op cit, Michael K. Evans, Practical Business Forecasting, Blackwell Publishing, Oxford, UK, 2003, and Paul Newbold and Theodore Bos, Introductory Business and Economic Forecasting, 2dn edn, South-South-Western Publishing Company, Cincinnati, Ohio, 1994.

3

khía cạnh nổi bật của dự báo bằng các mô hình hồi quy. Để đơn giản, và để sử

dụng đồ thị, trước hết chúng ta sẽ xem xét hồi quy hai biến sau đây:

Trong đó PCE là chi tiêu cho tiêu dùng cá nhân bình quân đầu người và PDI là

thu nhập khả dụng (sau thuế) cá nhân bình quân đầu người tính theo giá đôla

năm 2005, và u là hạng nhiễu. Chúng ta sẽ gọi hồi quy này là hàm tiêu dùng.

Hệ số độ dốc trong hồi quy này thể hiện khuynh hướng tiêu dùng biên (MPC) –

nghĩa là, chi tiêu cho tiêu dùng tăng thêm ứng với một đôla thu nhập tăng thêm.

Để ước lượng hồi quy này, chúng ta thu thập dữ liệu dạng gộp về các biến này

của Mỹ giai đoạn 1960 – 2008. Xem Table 16.1 trên trang web đồng hành cùng

quyển sách.

Hình 16.1: PCE và PDI bình quân đầu người của Mỹ, giai đoạn 1960 – 2004.

10

00

015

00

020

00

025

00

030

00

0

Per

cap

ita p

ers

on

al d

ispo

sab

le inco

me

10000 15000 20000 25000 30000Per capita personal consumption expenditure

4

[Diễn giải: Trong Stata, chúng ta thực hiện như sau: twoway (scatter pdi pce) if

year < 2005].

Để ước lượng hàm tiêu dùng, trước hết chúng ta sử dụng các quan sát từ 1960

- 2004 và để dành bốn quan sát cuối, đây được gọi là mẫu để dành (holdover

sample), để đánh giá thành tích của mô hình ước lượng. Trước hết chúng ta vẽ

dữ liệu để có ý tưởng gì đó về bản chất của mối quan hệ giữa hai biến (Hình

16.1). Hình này cho thấy rằng hầu như có một mối quan hệ tuyế tính giữa PCE

và PDI. Thự hiện mô hình hồi quy tuyến tính với dữ liệu này, chúng ta thu được

kết quả trong Bảng 16.2.

Bảng 16.2: Ước lượng hàm tiêu dùng, 1960 – 2004.

Các kết quả này cho thấy rằng nếu PDI tăng thêm một đôla, thì chi tiêu cho tiêu

dùng trung bình tăng khoảng 95 cent, nghĩa là, khuynh hướng tiêu dùng biên là

0.95. Dựa vào các tiêu chí thống kê chuẩn, mô hình ước lượng trông có vẽ tốt,

mặc dù có bằng chứng mạnh về tự tương quan dương trong hạng nhiễu bởi vì

giá trị Durbin – Watson rất thấp. Chúng ta sẽ quay lại điểm này sau.

Để cảnh giác khả năng hồi quy giả mạo, chúng ta kiểm định nghiệm đơn vị cho

phần dư từ phương trình (16.1) và thấy không có bằng chứng về nghiệm đơn

5

vị, mặc dù từng chuỗi PCE và PDI là chuỗi không dừng. [Diễn giải: Điều này

chứng tỏ PCE và PDI đồng liên kết và phương trình (16.1) là hồi trình hồi quy

đồng liên kết].

. quietly reg pce pdi if year < 2005

. predict uhat, resid

Từ bảng này (16.2), bạn sẽ thấy hàm chi tiêu cho tiêu dùng trung bình ước

lượng được viết như sau:

Chúng ta làm gì với hồi quy ‘lịch sử’ này? Chúng ta có thể sử dụng để dự báo

các giá trị tương lai của chi tiêu cho tiêu dùng. Giả sử bạn muốn biết

E(PCE2005|PDI2005), nghĩa là giá trị chi tiêu cho tiêu dùng trung bình thực hoặc

của tổng thể trong năm 2005 khi biết giá trị của thu nhập khả dụng ở năm 2005,

giá trị này là 31.318 tỷ đôla (lưu ý rằng hồi quy mẫu của chúng ta dựa trên mẫu

giai đoạn 1960 - 2004).

Trước khi chúng ta thực hiện công việc này, chúng ta cần biết một vài thuật ngữ

chuyên biệt được sử dụng trong dự báo như: (1) dự báo điểm và dự báo khoảng,

6

(2) dự báo tiền nghiệm và dự báo hậu nghiệm, và (3) dự báo có điểu kiện và dự

báo không điều kiện. Chúng ta sẽ thảo luận ngắn gọn các thuật ngữ này ngay

dưới đây:

1. Các dự báo điểm và dự báo khoảng: Trong các dự báo điểm, chúng ta

cung cấp một giá trị đơn lẻ cho mỗi giai đoạn dự báo, trong khi đó trong

dự báo khoảng chúng ta thu được một khoảng sẽ chứa giá trị thực hiện

được (realized value) với một xác suất nhất định. Nói cách khác, dự báo

khoảng cung cấp một biên độ về sự không chắc chắn (margin of

uncertainty) về dự báo điểm.

Hình 16.2: Các loại dự báo.

2. Dự báo hậu nghiệm và dự báo tiền nghiệm: Để hiểu sự khác biệt, xem

Hình 16.25.

Trong giai đoạn ước lượng, chúng ta có dữ liệu về tất cả các biến trong

mô hình, trong giai đoạn dự báo hậu nghiệm (ex post forecast) chúng ta

cũng biết các giá trị của biến phụ thuộc và các biến giải thích (đây là trong

giai đoạn để dành, holdover period). Chúng ta có thể sử dụng các giá trị

này để có ý tưởng gì đó về thành tích của mô hình ước lượng. Trong dự

báo tiền nghiệm (ex anti forecast), chúng ta ước lượng các giá trị của biến

phụ thuộc ngoài giai đoạn ước lượng nhưng chúng ta có thể không biết

các giá trị của các biến giải thích một cách chắc chắn, trong trường hợp

5 Thảo luận sau đây dựa theo Robert S. Pindyck and Daniel L. Rubinfeld, Econometric Models and Economic Forecasts, 3rd edn, McGraw-Hill, New York, 1991, Chapter 8.

7

đó, chúng ta có thể phải ước lượng các giá trị này trước khi chúng ta có

thể dự báo (cho biến phụ thuộc).

3. Các dự báo có điều kiện và dự báo không có điều kiện: Trong các dự báo

có điều kiện, chúng ta dự báo một biến quan tâm với điều kiện biến các

giá trị được giả định của các biến giải thích. Nhớ lại rằng ngay từ khi

chúng ta thực hiện phân tích hồi quy, có điều kiện theo các giá trị cho

trước của các biến giải thích. Loại dự báo có điều kiện này cũng được

biết với các tên gọi như phân tích kịch bản (scenario analysis) hoặc phân

tích ngẫu nhiên (dự phòng) (contingency analysis).

Trong các dự báo không có điều kiện, chúng ta biết các giá trị của các

biến giải thích với sự chắc chắn thay vì lấy các giá trị tùy ý (arbitrary

values) về chúng, như trong dự báo có điều kiện. Dĩ nhiên, điều đó là

hiếm; nó thực sự liên quan đến điều mà Diebold gọi là các vấn đề dự báo

các biến bên vé phải (tức các biến giải thích)6. Đối với các mục đích hiện

tại, chúng ta sẽ làm việc với các dự báo có điều kiện.

Với các vấn đề sơ bộ này, chúng ta hãy ước lượng dự báo điểm của chi tiêu cho

tiêu dùng năm 2005, khi cho trước giá trị PDI bình quân đầu người năm 2005 là

31.318 tỷ đôla.

Bây giờ, kết quả hồi quy cho thấy rằng dự đoán trung bình tốt nhất của Y2005 với

giá trị X cho trước là như sau:

6 Giải pháp cho vấn đề này, xem Diebold, op cit, p. 223.

8

Nghĩa là, giá trị dự đoán trung bình tốt nhất của chi tiêu cho tiêu dùng trong năm

2005 là 28.784 tỷ đôla, khi cho trước giá trị của PDI là 31,378 tỷ đôla. Từ Table

16.1, chúng ta thấy rằng giá trị thực của PCE của năm 2005 là 29.771 tỷ đôla.

Vì thế giá trị thực lớn hơn giá trị ước lượng khoảng 987 tỷ đôla. Chúng ta gọi

đây là sai số dự báo (forecast error). Một cách tự nhiên, chúng ta không kỳ vọng

dùng đường hồi quy ước lượng để dự báo các giá trị thực mà không có sai số.

Vì con số PCE được cho trong phương trình (16.3) là một giá trị ước lượng, nên

nó có sai số như chúng ta vừa mới lưu ý. Vì vậy điều mà chúng ta cần là một

giá trị ước lượng của sai số dự báo mà chúng ta có thể tận dụng con số trong

phương trình (16.3) như một giá trị trung bình thực (true mean value) của chi

tiêu cho tiêu dùng trong năm 2005. Bây giờ, chúng ta có thể được cho thấy rằng

nếu hạng nhiễu trong phương trình (16.1) có phân phối chuẩn, thì, cho Y = PCE

và X = PDI, chúng ta có thể được cho thấy rằng giá trị ước lượng của Y ở năm

2005 (tức là �̂�2005) theo phân phối chuẩn với trung bình bằng (B1 + B2X2005) và

phương sai:

Trong đó, �̅� là trung bình mẫu của các giá trị X trong giai đoạn mẫu của chúng

ta (1960 - 2004), 2 là phương sai của hạng nhiễu u và n là cỡ mẫu.

Vì chúng ta không quan sát được phương sai thực của u, nên chúng ta ước

lượng nó từ mẫu như sau: �̂�2 = ∑ 𝑒𝑡2

/(𝑛 − 2) như thảo luận của chúng ta ở

chương 1,

Sử dụng thông tin này, và với giá trị cho trước của X năm 2005, chúng ta có thể

thiết lập một khoảng tin cậy 95% cho giá trị E(Y2005) thực như sau:

9

Trong đó 𝑠𝑒(�̂�2005) là sai số chuẩn thu được từ phương trình (16.4), và = 5%.

Lưu ý rằng khi thiết lập khoảng tin cậy này, chúng ta đang sử dụng phân phối t

thay vì phân phối chuẩn bởi vì chúng ta đang ước lượng phương sai thực của

hạng nhiễu. Tất cả điều này là dựa theo lý thuyết hồi quy tuyến tính đã được

thảo luận ở chương 1.

Sử dụng phương trình (16.4), chúng ta có 𝑠𝑒(�̂�2005). Vì thế, khoảng tin cậy 95%

của E(Y2005) là (28.552 tỷ đôla, 29.019 tỷ đôla), mặc dù một giá trị ước lượng

đơn lẻ tốt nhất là 28.784 tỷ đôla. (Lưu ý: t/2 ~ 2.02, với df = 43).

Chúng ta sẽ tính khoảng tin cậy như thế cho mỗi E(Y|X) trong mẫu của chúng

ta. Nếu chúng ta nối các khoảng tin cậy như thế lại, chúng ta có được một dải

tin cậy (confidence band). Việc tính toán chán ngắt này có thể tránh được nếu

chúng ta sử dụng một phần mềm như Stata hoặc Eviews. Sử dụng Eviews,

chúng ta có dải tin cậy như thế cho ví dụ của chúng ta (Hình 16.3).

Hình 16.3: Dải tin cậy của PCE trung bình.

10

[Diễn giải: Để có Hình 16.3 trong Eviews, sau khi hồi quy chúng ta chọn

Forecast và thực hiện như sau:]

Đường liền nét trong đồ thị này là đường (hoặc đường cong) hồi quy ước lượng

và hai đường gãy nét cho biết dải tin cậy 95% của nó. Nếu bạn nhìn công thức

của phương sai của các giá trị trung bình ước lượng, bạn sẽ thấy rằng phương

sai này tăng vì giá trị X tại đó dự báo được tính di chuyển xa dần giá trị trung

bình củ nó. Nói cách khác, sai số dự báo sẽ tăng khi chúng ta di chuyển xa khỏi

giá trị trung bình của biến giải thích. Điều này cho biết rằng việc dự báo E(Y|X)

cho các giá trị X lớn hơn nhiều giá trị trung bình của X sẽ dẫn đến các sai số dự

báo lớn đáng kể.

Bảng thống kê kèm theo đồ thị cho chúng ta các thước đo về chất lượng của dự

báo như căn bậc hai của sai số bình phương trung bình, sai số tuyệt đối trung

bình, sai số tuyệt đối phần tram và hệ số bất cân bằng Theil, giá trị của hệ số

này trong khoảng 0 và 1 – càng gần 0 thì mô hình càng tốt. Các thước đo này

được thảo luận một cách ngắn gọn ở Phụ lục cuối chương. Các thước đo thành

11

tích dự báo hữu ích nếu chúng ta so sánh hai hoặc nhiều phương pháp dự báo,

như chúng ta sẽ thảo luận dưới đây.

Chúng ta cũng có thể mở rộng phân tích cho các hồi quy bội, nhưng trong trường

hợp đó chúng ta cần phải sử dụng đại số ma trận để thể hiện các phương sai

của dự báo. Chúng ta để chủ đề này lại cho các tài liệu tham khảo.

Bảng 16.3: Hàm tiêu dùng với AR(1).

Trong các kết quả hồi quy được trình bày trong Bảng 16.2 chúng ta thấy rằng

thống kê Durbin-Watson có ý nghĩa, điều này cho biết rằng hạng nhiễu có tương

quan chuỗi dương bậc một [AR(1)]. Có thể thấy rằng nếu chúng ta đưa vào tính

tương quan chuỗi của hạng nhiễu, thì sai số dự báo có thể nhỏ hơn, nhưng

chúng ta sẽ không đi sâu về mặt toán học của vấn đề này7. Tuy nhiên, Eviews

có thể ước lượng mô hình (16.1) bằng cách cho phép tự tương quan trong hạng

nhiễu. Ví dụ, nếu chúng ta giả định hạng nhiễu theo cơ chế tự tương quan bậc

một [AR(1)] như được thảo luận ở chương 6, tức ut = ut-1 + t; - 1 1, trong

đó là hệ số tự tương quan bậc một và là hạng nhiễu trắng, chúng ta có được

7 Xem Robert S. Pindyck and Daniel L. Rubinfield, op cit, pp. 190 – 2.

12

kết quả như trong Bảng 16.3. [Diễn giải: Trong Stata, chúng ta sử dụng hồi quy

bằng lệnh prais y x hoặc prais y x, corc].

So với mô hình trong Bảng 16.2, chúng ta thấy rằng khuynh hướng tiêu dùng

biên có thay đổi chút đỉnh, nhưng sai số chuẩn thì cao hơn nhiều. Từ bảng này,

chúng ta cũng thấy rằng hệ số của tự tương quan bậc một là khoảng 0.818.

Hình 16.4: Dải tin cậy 95% của PCE với AR(1).

Sử dụng các kết quả trong Bảng 16.3, chúng ta thu được dải tin cậy 95% cho

đường hồi quy ước lượng – xem Hình 16.4. Nếu bạn so hình này với Hình 16.3,

thì bạn sẽ thấy mô hình trong Bảng 16.3 hơi tốt hơn mô hình trong Bảng 16.2

bởi vì nó có tính đến tương quan chuỗi bậc một, điều này ủng hộ phát biểu trước

đây rằng nếu chúng ta tính đến tương quan chuỗi thì khoảng (dải) dự báo sẽ

hẹp hơn so với trường hợp không tính đến. Điều này có thể được thấy bằng

cách so sánh các thống kê về thành tích dự báo xuất hiện cùng với các đồ thị.

8 Bạn đọc được khuyến khích thử các cơ chế tự tương quan bậc cao hơn, chẳng hạn AR(2), AR(3) để xem các kết quả trong Bảng 16.3 có thay đổi không.

13

[Diễn giải: Dự báo điểm và khoảng trong Stata]

gen pdi0 = pdi - 31318

use "D:\My Blog\Econometrics by example\Table16_1.dta", clear

tsset year

reg pce pdi if year < 2005

predict Y_hat

predict se, stdp

gen lower = Y_hat -2.02*se

gen upper = Y_hat +2.02*se

twoway (tsline Y_hat) (tsline lower) (tsline upper)

list lower Y_hat upper if year == 2005

14

16.2 Phương pháp Box – Jenkins: Mô hình hóa ARIMA

Ý tưởng cơ bản đằng sau phương pháp Box-Jenkins về dự báo là để phân tích

các thuộc tính xác suất hoặc ngẫu nhiên của bản thân các chuỗi thời gian kinh

tế dưới triết lý rằng “hãy để dữ liệu nói về chính nó”. Không giống các mô hình

hồi quy truyền thống, trong đó biến phụ thuộc Yt được giải thích bở k biến giải

thích X1, X2, …, Xk, các mô hình chuỗi thời gian theo phương pháp Box-Jenkins

[diễn giải: thuộc nhóm các mô hình đơn chuỗi, univariate models] cho phép Yt

được giải thích bởi chính các giá trị quá khứ hoặc biến trễ của chính Yt và giá

trị hiện tại và các giá trị trễ của ut, ut là một hạng nhiễu không tương quan với

trung bình bằng 0 và phương sai không đổi 2 – nghĩa là, một hạng nhiễu trắng.

[Diễn giải: Nghĩa là, Yt có thể theo cơ chế AR(p) hoặc MA(q) hoặc cả hai

ARMA(p,q), tùy vào bản chất của chuỗi thời gian kinh tế. Ví dụ, nếu Yt là giá

chứng khoán [hoặc suất sinh lợi của giá chứng khoán đó, tính bằng rt = (Yt – Yt-

1)/Yt-1], thì MA có thể được hiểu như các tin tức ‘news’ trong quá khứ và hiện tại

ngoài bản thân giá chứng khoán (hoặc suất sinh lợi) có ảnh hưởng đến giá

chứng khoán ở hiện tại, tức Yt hoặc rt. Theo kinh nghiệm, thì các chuỗi thời gian

về giá cả tài sản tài chính thường theo cơ chế MA hơn là cơ chế AR vì trong các

thị trường càng hiệu quả về mặt thông tin thì thông tin quá khứ của chuỗi Yt hầu

như không còn giá trị nữa. Chính vì thế các mô hình phân tích kỹ thuật cơ bản

dựa vào việc khai thác các thông tin quá khứ của một chuỗi thời gian tài chính

không còn đất diễn ở các thị trường phát triển. Một lưu ý rất quan trọng là cả

AR và MA đều là các chuỗi dừng. Cho nên, khi một chuỗi không dừng thì chúng

ta không thể xác định nó sẽ phù hợp với cơ chế nào, và điều chúng ta cần làm

trước tiên là phải chuyển đổi từ chuỗi gốc ấy sang chuỗi dừng (thường là lấy sai

phân bậc một)].

Phương pháp Box-Jenkins có nhiều cách để dự báo một chuỗi thời gian, chúng

ta sẽ thảo luận chúng một cách trình tự dưới đây. Trước hết chúng ta sẽ thảo

15

luận các cách tiếp cận khác nhau của phương pháp Box-Jenkins ở dạng tổng

quát và sau đó sẽ xem xét một ví dụ cụ thể, đó là ví dụ về tỷ giá euro/đôla đã

được chúng ta xem xét ở chương 13.

Phương pháp Box-Jenkins dựa trên giả định rằng chuỗi thời gian đang được

xem xét là chuỗi dừng. Chúng ta đã thảo luận chủ đề về tính dừng ở chương 13

và chỉ ra tầm quan trọng của việc nghiên cứu chuỗi thời gian dừng. Chúng ta

hãy thể hiện một chuỗi thời gian dừng, ký hiệu là Yt.

Mô hình tự hồi quy (AR)

Xem xét mô hình sau đây:

Trong đó ut là hạng nhiễu trắng.

Mô hình (16.6) được gọi là mô hình tự hồi quy bậc p, AR(p), vì nó liên quan đến

việc hồi quy Y tại thời điểm t theo p giá trị trễ trong quá khứ của nó, giá trị p

được xác định theo cách thực nghiệm bằng cách sử dụng các tiêu chí thông tin

như AIC. Nhớ lại rằng chúng ta đã thảo luận tự hồi quy khi chúng ta bàn về chủ

đề tự tương quan ở chương 6.

[Diễn giải: Ví dụ giá chứng khoán Y tại thời điểm t được giải thích bởi các giá

của Y trong quá khứ và các tin tức ngoài bản thân giá chứng khoán này tại thời

điểm t, tức là ut].

Mô hình trung bình di động (MA)

Chúng ta cũng có thể mô hình hóa Yt như sau:

16

Nghĩa là, chúng ta thể hiện Yt như trung bình có trọng số hoặc trung bình trượt

của hạng nhiễu trắng ở hiện tại và các hạng nhiễu trắng quá khứ. Mô hình (16.7)

được biết với tên gọi là mô hình MA(q), giá trị q được xác định một cách thực

nghiệm [cũng dựa vào các tiêu chí thông tin như AIC].

Hãy dừng lại để bước đi xa hơn …

Ở đây, tôi sẽ giải thích tại sao AR(p) và MA(q) là các chuỗi dừng và cách xác

định độ trễ p và q bằng giản đồ tự tương quan.

Trước hết, chúng ta xét hai chuỗi AR(1) và MA(1).

AR(1)

(1) Trung bình

17

(2) Phương sai

(3) Hiệp phương sai

(4) Hệ số tự tương quan [tức là AC = hiệp phương sai/phương sai]

Corr(Xt,Xt + 1) = 1

Corr(Xt,Xt + 2) = 2

…

Corr(Xt,Xt + h) = h

18

Vậy, AR(1) là một chuỗi dừng vì nó có trung bình bằng 0, phương sai không đổi

và hiệp phương sai chỉ phụ thuộc vào khoảng cách giữa hai giai đoạn (tức

khoảng cách h). Ví dụ, hiệp phương sai giữa Xt và Xt - 3 bằng hiệp phương sai

giữa Xt – 1 và Xt - 4 (tức khoảng cách h = 3), nhưng hiệp phương sai giữa Xt và Xt

- 3 (h = 3) sẽ khác với hiệp phương sai giữa Xt và Xt - 4 (h = 4). Điểm quan trọng

[để nhận diện một chuỗi Xt có theo cơ chế AR(1) hay không] là hệ số AC giảm

dần và tiến về 0 khi h tăng lên [nghĩa là AC1 0, AC2 0, … ACh 0, và ACh --

- > 0]; và chỉ có PAC1 0, và PAC2 = PAC3 = … = PACh = 0.

Lập luận tương tự cho AR(2): chỉ có PAC1 0 và PAC2 0, và PAC3 = PAC4 =

… = PACh = 0.

MA(1)

(1) Trung bình

E[Xt] = E[t + t - 1] = E[ t] + E[t - 1] = 0

(2) Phương sai

Var(Xt) = Var(t + t - 1) = Var(t) + 2Var(t - 1)

= 2 + 2 2

= 2(1+ 2)

(3) Hiệp phương sai

Cov(Xt, Xt - 1) = Cov(t + t - 1, t - 1 + t - 2)

19

= Cov(t - 1, t - 1) = 2

Cov(Xt, Xt - ) = Cov(t + t - 1, t - + t – 1 - ) = 0

(4) Hệ số tự tương quan [tức là AC = hiệp phương sai/phương sai]

Corr(Xt,Xt + 1) = /(1+ 2) 0

Corr(Xt,Xt + 2) = 0

…

Corr(Xt,Xt + h) = 0

Vậy, MA(1) là một chuỗi dừng vì nó có trung bình bằng 0, phương sai không đổi

và hiệp phương sai chỉ phụ thuộc vào khoảng cách giữa hai giai đoạn (tức

khoảng cách h). Ví dụ, hiệp phương sai giữa Xt và Xt - 1 bằng hiệp phương sai

giữa Xt – 1 và Xt - 2 (tức khoảng cách h = 1), nhưng hiệp phương sai giữa Xt và Xt

- 1 (h = 1) sẽ khác với hiệp phương sai giữa Xt và Xt - 2 (h = 2). Điểm quan trọng

[để nhận diện một chuỗi Xt có theo cơ chế MA(1) hay không] là chỉ có hệ số

AC1 0 và AC2 = AC3 = … = ACh = 0; và các hệ số PAC sẽ khác 0 và giảm dần

khi h tăng lên [chúng ta suy ra từ tính chất INVERTIBILITY giữa MA(1) và AR()

và giữa AR(1) và MA(), xem bài giảng của Ben Lambert: Invertibility -

converting an MA(1) to an AR(infinite) process].

Lập luận tương tự cho MA(2): chỉ có AC1 0 và AC2 0, và AC3 = AC4 = … =

ACh = 0.

Đến đây, chắc có bạn sẽ hỏi PAC là gì?

PAC = Partial Autocorrelation Coefficient

PAC được hiểu một cách tương tự như hệ số hồi quy riêng [xem Tóm lược kinh

tế lượng căn bản, # 2].

20

Ví dụ, ta xét hệ số PACk:

Yt = b0 + b1Yt – 1 + … + bkYt – k + et (1)

Yt - k = c0 + c1Yt – 1 + … + ct – k – 1Yt-k-1 + vk (2)

Yt = a0 + bkvk + rt (3)

Theo (2), chúng ta thấy rằng vk được hiểu là Yt – k sau khi loại trừ các ảnh hưởng

của Yt – 1, Yt – 2, …, Yt – k – 1 lên Yt – k. Nên nó có tên gọi là RIÊNG PHẦN.

Theo (3), chúng ta thấy rằng bk (tức PACk) chính là ảnh hưởng của riêng Yt – k

lên Yt.

Một lưu ý khác là AC1 luôn bằng PAC1

AC1 = Cov(Yt, Yt – 1)/sqrt[Var(Yt)]*sqrt[Var(Yt – 1)] = Cov(Yt, Yt – 1)/Var(Yt)]

PAC1 = Cov(Yt, Yt – 1)/Var(Yt – 1) = Cov(Yt, Yt – 1)/Var(Yt)

Xác định AR(1), MA(1) bằng giản đồ tự tương quan

21

Stata?

clear

set obs 400

gen timevar = _n

set seed 12345

drawnorm e1, n(400) means(0) sds(1)

tsset timevar

g ar1 = 0

qui replace ar1 = 0.7*L.ar1 + e1 if _n > 1

ac ar1

pac ar1

g ma1=0

qui replace ma1 = 0.7*L.e1 + e1 if _n > 1

ac ma1

pac ma1

22

Xác định AR(2), MA(2) bằng giản đồ tự tương quan

Stata?

clear

set obs 400

gen timevar = _n

set seed 12345


tsset timevar

g double ar2 = 0

qui replace ar2 in 3/l = 0.6*L.ar2 + 0.3*L2.ar2 + e1

ac ar2

pac ar2

g double ma2=0

qui replace ma2 in 3/l = 0.6*L.e1 - 0.4*L2.e1 + e1

ac ma2

pac ma2

23

Các dạng đồ thị có thể có của AR(1) và AR(2)

24

Các dạng đồ thị có thể có của MA(1) và MA(2)

AR(p) và MA(q)

25

AR(3) và MA(3) với Stata?

clear

set obs 400

gen timevar = _n

set seed 12345


tsset timevar

g ar3 = 0

qui replace ar3 = 0.7*L.ar3 + 0.5*L2.ar3 - 0.2*L3.ar3+ e1 if _n > 3

ac ar3

pac ar3

g ma3=0

qui replace ma3 = 0.7*L.e1 - 0.5*L2.e1 + 0.3*L3.e1+ e1 if _n > 3

ac ma3

pac ma3

26

ARMA(1, 1)

27

Mô hình tự trung bình trượt tự hồi quy (ARMA)

Chúng ta có thể kết hợp các mô hình AR và MA và tạo thành mô hình được gọi

là ARMA(p, q), với p số hạng tự hồi quy và p số hạng trung bình trượt, các giá

trị p và q được xác định một cách thực nghiệm [tức dựa vào đồ thị PAC và AC,

và tiêu chí thông tin như AIC].

Mô hình tích hợp trung bình trượt tự hồi quy (ARIMA)

Như đã lưu ý, phương pháp Box-Jenkins dựa trên giả định rằng chuỗi thời gian

cơ bản là dừng hoặc có thể chuyển thành chuỗi dừng bằng cách lấy sai phân

một hoặc nhiều lần. Đây được gọi là mô hình ARIMA(p,d,q), trong đó d ký hiệu

số lần một chuỗi thời gian phải được lấy sai phân để chuyển thành một chuỗi

dừng. Trong hầu hết các ứng dụng, d = 1, nghĩa là, chúng ta chỉ lấy sai phân

bậc một của chuỗi thời gian. Dĩ nhiên, nếu một chuỗi thời gian đã dừng rồi, thì

một mô hình ARIMA(p,d,q) trở thành một mô hình ARMA(p,q).

Câu hỏi thực tế là làm sao xác định mô hình thích hợp trong một trường hợp

nhất định. Để trả lời câu hỏi này, phương pháp Box – Jenkins thược thực hiện

theo một quy trình bốn bước như sau:

• Bước 1: Nhận dạng: Xác định các giá trị thích hợp của p, d, và q. Các

công cụ chính cho việc tìm kiếm này là giản đồ tự tương quan (AC) và

giản đồ tự tương quan riên (PAC).

• Bước 2: Ước lượng: Một khi chúng ta đã nhận dạng được mô hình, bước

kế tiếp là ước lượng các tham số của mô hình được chọn. Trong một số

trường hợp, chúng ta có thể sử dụng phương pháp bình phương bé nhất

thông thường (OLS), nhưng trong nhiều trường hợp chúng ta phải dựa

vào các phương pháp ước lượng phi tuyến (ở tham số). Vì các phần mềm

đã có sẵn các thủ tục ước lượng, nên chúng ta không phải lo lắng về khía

cạnh toán học thực sự của việc ước lượng.

28

• Bước 3: Kiểm tra chẩn đoán: Mô hình hóa theo phương pháp Box-Jenkins

là một nghệ thuận hơn là khoa học bởi vì nó đòi hỏi kỹ năng đáng kể để

chọn mô hình ARIMA đúng, vì chúng ta có thể không hoàn toàn chắc

chắn rằng mô hình được chọn là mô hình đúng. Một kiểm định đơn giản

điều này là xem phần dư từ mô hình ước lượng có phải là nhiễu trắng;

nếu đúng là vậy, thì chúng ta có thể chấp nhận mô hình, nhưng nếu phần

dư chưa phải là một nhiễu trắng, thì chúng ta sẽ phải bắt đầu lại. Đó là lý

do tại sao phương pháp Box-Jenkins là một quy trình lặp.

• Bước bốn: Dự báo: Kiểm định cuối cùng để biết một mô hình ARIMA có

thành công hay không là dựa vào thành tích dự báo của nó, cả dự báo

trong giai đoạn mẫu cũng như ngoài giai đoạn mẫu.

Diễn giải: Theo kinh nghiệm, có hai cách tiếp cận để xây dựng mô hình ARIMA.

1) Từ đơn giản đến khái quát: [giả sử chuỗi dừng (nếu không dừng thì

thường chúng ta lấy logorit, rồi lấy sai phân bậc một)] Từ giản đồ PAC và

AC của chuỗi (dừng) đang xem xét, chúng ta xác định xem chuỗi đó có

thể là AR(1) hoặc MA(1) hoặc ARMA(1,1). Ước lượng mô hình đơn giản

nhất vừa được chọn, lưu phần dư từ mô hình ước lượng, rồi xem giản đồ

PAC và AC của phần dư: nếu hệ số PAC hoặc AC nào của phần dư khác

0, thì chúng ta đưa độ trễ tương ứng của AR hoặc MA vào mô hình ban

đầu, rồi ước lượng lại. Quy trình được tiếp tục cho đến khi phần dư là một

hạng nhiễu trắng [kết hợp so sánh AIC giữa các mô hình: mô hình nào

có AIC nhỏ hơn sẽ tốt hơn].

2) Từ khái quát đến giản đơn: [giả sử chuỗi dừng (nếu không dừng thì

thường chúng ta lấy logorit, rồi lấy sai phân bậc một)] Từ giản đồ PAC và

AC của chuỗi (dừng) đang xem xét, chúng ta xác định tất cả các hệ số

PAC và AC nào khác 0, và đưa tất cả vào mô hình ban đầu. Ước lượng

mô hình với các p và q vừa được chọn. Trước hết, xem độ trễ dài nhất

29

của AR và MA có ý nghĩa thống kê hay không: nếu có thì để nguyên, nếu

không thì loại độ trễ dài nhất không có ý nghĩa thống kế, rồi ước lượng lại

mô hình. Khi đã thấy các độ trễ dài nhất của AR và MA đều có ý nghĩa

thống kê, chúng ta lưu phần dư từ mô hình này, rồi xem giản đồ PAC và

AC của phần dư: nếu hệ số PAC hoặc AC nào của phần dư khác 0, thì

chúng ta lại đưa độ trễ tương ứng của AR hoặc MA vào mô hình vừa

được ước lượng, rồi ước lượng lại. Quy trình được tiếp tục cho đến khi

phần dư là một hạng nhiễu trắng [kết hợp so sánh AIC giữa các mô hình:

mô hình nào có AIC nhỏ hơn sẽ tốt hơn].

[

Lưu ý: Để biết hệ số PAC hoặc AC nào khác 0, chúng ta có thể nhìn vào giản

đồ PAC và AC (Eviews hoặc Stata). Tuy nhiên, đôi khi việc xem giản đồ PAC

hoặc AC không phải là việc dễ dàng, nhất là khi cỡ mẫu lớn. Cho nên, để thận

trọng chúng ta nên xây dựng khoảng tin cậy cho các hệ số PAC và AC như sau:

1) Tính sai số chuẩn: se = sqrt(1/n), n là số quan sát (theo Bartlett).

2) Tính khoảng tin cậy 95% bằng [-1.96*se, 1.96*se].

3) So sánh các hệ số PAC và AC với khoảng tin cậy này: hệ số PAC hoặc

AC nào nằm ngoài khoảng tin cậy này được cho là khác 0 một cách có ý

nghĩa thống kê. [XEM VÍ DỤ DƯỚI ĐÂY].

16. 3 Mô hình ARIMA cho giá đóng cửa theo ngày của cổ phiếu IBM, từ

3/1/2000 đến 32/10/2002

Ở chương 13, chúng ta đã thấy log của giá đóng cửa theo ngày của cổ phiếu

IBM (LCLOSE) là chuỗi không dừng, nhưng sai phân bậc một của nó

(DLCLOSE) là một chuỗi dừng. Vì phương pháp Box-Jenkins dựa trên chuỗi

dừng, nên chúng ta sẽ làm việc với DLCLOSE thay vì LCLOSE để mô hình hóa

chuỗi thời gian này, ở đây DLCLOSE là sai phân bậc một của LCLOSE.

30

Để xem mô hình ARIMA nào phù hợp với dữ liệu DLCLOSE, và theo phương

pháp Box-Jenkins, chúng ta xem giản đồ tự tương quan của chuỗi này với 50

độ trễ (Bảng 16.4), mặc dù giản đồ này không thay đổi nhiều nếu chúng ta xem

xét nhiều độ trễ hơn.

Giản đồ tự tương quan (correlogram) này cho hai loại hệ số tương quan: AC

(autocorrelation) và PAC (partial autocorrelation). Hàm ACF (autocorrelation

function) cho chúng ta biết sự tương quan của DLCLOSE hiện tại (thời điểm t)

với các giá trị trễ của nó (t - k). Hàm PACF (partial autocorrelation function) cho

chúng ta biết sự tương quan giữa các quan sát các quan sát cách nhau k giai

đoạn sau khi đã kiểm soát ảnh hưởng của các độ trễ trung gian (tức là các độ

trễ ít hơn k)9. Phương pháp Box-Jenkins sử dụng cả hai hệ số này để nhận

dạng loại mô hình ARMA có thể phù hợp trong một trường hợp nhất định.

Một vài biên dạng lý thuyết (theoretical pattern) của ACF và PACF được trình

bày trong Bảng 16.5. Lưu ý rằng các ACF và PACF của các cơ chế AR và MA

có các biên dạng trái ngược nhau: Ở trường hợp AR(p), ACF giảm theo cấp số

mũ như PACF rơi xuống bằng 0 (cut off) sau một số độ trễ nhất định. Biên dạng

đối ngược lại xảy ra đối với quy trình MA(q). [Xem các minh họa ở phần trên là

hiểu ngay].

Nhớ rằng trong một áp dụng cụ thể chúng ta không thể thấy các biên dạng đúng

y như các biên dạng được trình bày trong Bảng 16.5. Một số lần ‘thử và sai’ là

điều không thể tránh khỏi trong các áp dụng thực tế.

Quay lại với ví dụ của chúng ta, chúng ta thấy rằng cả hàm ACF và PACF thay

đổi giữa các giá trị âm và dương và không thể hiện một sự giảm theo số mũ

trong bất kỳ giai đoạn liên tục nào.

9 Đây giống như hệ số hồi quy riêng trong hồi quy bội. Trong một mô hình hồi quy k biến, hệ số Bk của biến giải thích thứ k cho biết tác động của biến đó lên biến phụ thuộc sau khi giữ nguyên, hoặc cho phép, ảnh hưởng của các biến giải thích khác trong mô hình. [Chưa hiểu thì xem Nội dung ôn tập # 2, Tóm lược kinh tế lượng căn bản].

31

Một sự xem xét cẩn thận giản đồ tự tương quan cho thấy rằng cả ACF và PACF

đều không theo một biên dạng chính xác như được mô tả trong Bảng 16.5. Để

biết hệ số tương quan nào có ý nghĩa thống kê (tức khác 0), nhớ lại rằng sai số

chuẩn của một hệ số tương quan (mẫu) được cho bởi công thức √𝟏/𝒏 = √𝟏/𝟕𝟑𝟗

0.037, ở đây n là cỡ mẫu [xem phương trình (13.2)]. Vì thế, khoảng tin cậy

95% của các hệ số tương quan thực là khoảng 1.96(0.037) = (-0.0725 đến

0.0725). Các hệ số tương quan nằm ngoài khoảng giới hạn này là có ý nghĩa

thống kê ở mức 5%. Trên cơ sở này, dường như các hệ số tương quan ACF và

PACF tại các độ trễ 4, 18, 22, 35, và 43 dường như có ý nghĩa thống kê (xem

dải tin cậy trong Hình 16.4).

Bảng 16.5: Các biên dạng điển hình của ACF và PACF.

Vì chúng ta không có một biên dạng rõ ràng của các ACF và PACF theo lý

thuyết như được trình bày trong Bảng 16.5, nên chúng ta có thể tiến hành theo

cách thử và sai.

Trước hết, giả sử chúng ta ước lượng mô hình AR với các độ trễ 4, 18, 22, 35,

và 43. Các kết quả được trình bày trong Bảng 16.6 (Eviews). Như bạn có thể

thấy, các hệ số của AR(35) và AR(43) không có ý nghĩa thống kê. Tuy nhiên,

nên lưu ý rằng khi kiểm định tương quan chuỗi cho phần dư từ hồi quy trước,

chúng ta không phát hiện có tương quan chuỗi với độ trễ lên tới 5. Vì thế, mô

hình trong Bảng 16.6 có thể là một ‘ứng viên’ cần xem xét kỹ hơn.

32

Bảng 16.4: ACF và PACF của DLCLOSE của giá cổ phiếu IBM.

33

Bảng 16.4: (tiếp theo).

Bảng 16.6: Mô hình AR(4,18,22,35,43) cho DLCLOSE.

34

Vì các hệ số của AR(35) và AR(43) không có ý nghĩa thống kê, nên chúng ta

có thể loại ra và ước lượng lại mô hình chỉ với các số hạng AR(4), AR(18), và

AR(22), và kết quả được trình bày trong Bảng 16.7. Phần dư từ hồi quy này

dường như cũng có phân phối ngẫu nhiên.

Bảng 16.7: Mô hình AR(4.8,22) của DLCLOSE.

Nếu chúng ta phải chọn giữa hai mô hình vừa trình bày, chúng ta có thể sử

dụng các tiêu chí AIC hoặc SIC để thực hiện việc lựa chọn. Mặc dù không có

khác biệt lớn trong các giá trị của hai tiêu chí này ở hai bảng, nhưng về mặt con

số thì các giá trị thông tin hơi âm nhiều hơn đối với mô hình trong Bảng 16.7 so

với trong Bảng 16.6; nhớ rằng trên cơ sở các tiêu chí thông tin, chúng ta chọn

mô hình có giá trị của các tiêu chí này thấp hơn – trong ví dụ hiện tại giá trị âm

nhiều hơn là nhỏ hơn.

Trên cơ sở này, dường như mô hình trong Bảng 16.7 tốt hơn so với mô hình

trong Bảng 16.6. Mô hình trong Bảng 16.7 cũng đơn giản hơn mô hình trong

Bảng 16.6, vì chúng ta chỉ ước lượng 4 thay vì 6 tham số.

35

Lúc đầu chúng ta thử ước lượng mô hình tương tự Bảng 16.6 sử dụng 5 số hạng

trễ của MA tại độ trễ 4, 18, 22, 35, và 43, nhưng các hệ số của các độ trễ 35 và

43 không có ý nghĩa thống kê [chúng ta không trình bày kết quả ở đây]. Vì thế,

chúng ta ước lượng mô hình MA tương đương với Bảng 16.7, và thu được kết

quả trong Bảng 16.8. Phần dư từ hồi quy này cũng có phân phối ngẫu nhiên.

Bảng 16.8: Mô hình MA(4,18,22) của DLCLOSE.

Chúng ta nên chọn mô hình nào? AR(4,18,22) hay MA(4,18,22)?

Vì các giá trị thông tin AIC và SIC thấp hơn đối với mô hình MA, nên chúng ta

có thể chọn mô hình này hơn là mô hình AR, mặc dù khác biệt giữa hai mô hình

là không đáng kể.

Nhớ lại rằng mô hình MA đơn giản là trung bình có trọng số của các hạng nhiễu

ngẫu nhiên. Nhưng vì sai phân bậc một của log giá đóng cửa của cổ phiếu IBM

là chuỗi dừng, nên có lý khi sử dụng mô hình MA.

36

Nhưng trước khi chọn mô hình MA, chúng ta hãy xem liệu chúng ta có thể xây

dựng một mô hình có sử dụng cả các số hạng của AR và MA hay không. Sau

một số thử nghiệm, chúng ta thu được mô hình trong Bảng 16.9.

Bảng 16.9: Mô hình ARMA(4,22), (4,22) của DLCLOSE.

Sử dụng các tiêu chí AIC và SIC, dường như đây là mô hình ‘tốt nhất’. Chúng

ta thực hiện kiểm định nghiệm đơn vị đối với phần dư từ mô hình này và thấy

rằng không tồn tại nghiệm đơn vị, điều này cho thấy rằng phần dư từ mô hình

này là một chuỗi dừng. Trên cơ sở kiểm định Breusch – Godfrey về tự tương

quan, được thảo luận ở chương 6, sử dụng 5 độ trễ, chúng ta cũng thấy rằng

không có tương quan chuỗi trong phần dư.

Tóm lại, dường như mô hình ARMA(4,22,4,22) có thể là một mô hình phù hợp

để thể hiện hành vi của sai phân bậc một của log giá đóng cửa của cổ phiếu

IBM qua giai đoạn mẫu nghiên cứu.

37

Cách ước lượng các mô hình ARIMA trên Eviews:

LS DLCLOSE C AR(4) AR(18) AR(22)

LS DLCLOSE C MA(4) MA(18) MA(22)

LS DLCLOSE C AR(4) AR(22) MA(4) MA(22)

Cách ước lượng các mô hình ARIMA trên Stata:

arima D.lclose, ar(4 18 22)

arima D.lclose, ma(4 18 22)

drima D.lclose, ar(4 22) ma(4 22)

Dự báo với ARIMA

Một khi một mô hình ARIMA đã được ước lượng, chúng ta có thể sử dụng nó

cho dự báo, vì đây là mục tiêu chính của các mô hình như thế. Có hai loại dự

báo: tĩnh (static) và động (dynamic). Trong các dự báo tĩnh, chúng ta sử dụng

giá trị hiện tại và các giá trị trễ của biến dự báo, trong khi đó trong các dự báo

động, sau dự báo cho giai đoạn đầu tiên, chúng ta sử dụng các giá trị dự báo

trước đó cho biến dự báo.

Hình 16.5: Giá cổ phiếu IMB thực và dự báo.

38

Sử dụng mô hình trong Bảng 16.9, dự báo tĩnh được trình bày ở Hình 16.510.

Hình này đưa ra các giá trị dự báo và các giá trị thực của log giá cổ phiếu IBM,

cũng như khoảng tin cậy của dự báo. Bảng đồng hành với đồ thị cung cấp các

thước đo giống nhau về chất lượng của dự báo như căn bậc hai của sai số bình

phương trung bình, sai số tuyệt đối trung bình, sai số tuyệt đối phần tram, và hệ

số bất bình đẳng Theil. Đối với ví dụ của chúng ta, hệ số Theil này thực tế bằng

0, điều này cho thấy mô hình ước lượng là khá tốt. Điều này cũng có thể được

thấy ở Hình 16.5 rằng các giá trị dự báo và các giá trị thực gần với nhau như

thế nào.

Hình 16.6: Dự báo động của giá cổ phiếu IMB

Đồ thị dự báo động được trình bày trong Hình 16.6. Kết quả Eviews cung cấp

các thước đo về chất lượng dự báo như trong hình trước.

10 Mặc dù Bảng 16.6 dựa trên sai phân bậc một của giá cổ phiếu IBM, nhưng các dự báo cho trong các hình sau đây là log của các giá đóng cửa. Eviews thực hiện điều này một cách tự động. [Nhưng lưu ý rằng, chúng ta phải sử dụng các hàm khi ước lượng mô hình, thay vì tạo ra các biến mới. Ví dụ, LS D(log(CLOSE)) C AR(4) AR(22) MA(4) MA(22)].

39

Trên cơ sở của hệ số Theil, dự báo động dự báo động không thực hiện tốt như

dự báo tĩnh. Dải tin cậy 95% tăng rất nhanh khi chúng ta đi dọc theo trục thời

gian. Lý do của điều này là chúng ta sử dụng các giá trị dự báo trước đó khi tính

toán các dự báo tiếp theo và nếu có một sai số trong (các) giá trị dự báo trước,

thì sai số sẽ được chuyển sang giai đoạn sau.

Trước khi đi tiếp, bạn đọc được khuyến khích thu thập dữ liệu cập nhật gần đây

và xem liệu biên dạng (tức là mô hình dự báo được chọn) được quan sát trong

mẫu hiện tại có tiếp tục giữ nguyên trong mẫu mới hay không. Vì mô hình hóa

theo phương pháp ARIMA là một quy trình lặp, nên bạn đọc có thể muốn thử

nhiều mô hình ARIMA khác để xem liệu chúng có thể cải thiện so với các mô

hình đã được thảo luận ở phần này.

16.4 Véctơ tự hồi quy (VAR)

Trong các mô hình hồi quy đồng thời cổ điển với m biến nội sinh (tức biến phụ

thuộc), thì có m phương trình, mỗi phương trình cho một biến nội sinh11. Mỗi

phương trình có thể gồm một hoặc nhiều biến nội sinh (endogenous variable)

và một số biến ngoại sinh (exogenous variable). Trước khi các phương trình này

được ước lượng, chúng ta phải đảm bảo rằng vấn đề nhận dạng (problem of

identification) được giải quyết, nghĩa là, xem liệu các tham số hoặc một nhóm

các tham số có thể được ước lượng một cách nhất quán. Để đạt được sự nhận

dạng, thường các ràng buộc tùy ý (arbitrary restrictions) được áp đặt bằng cách

loại một số biến ra khỏi một phương trình, mà các biến này có thể hiện diện

trong các phương trình khác trong hệ thống.

Thực tế này bị trị trích gắt gao bởi Sims, ông lập luận rằng nếu có m biến nội

sinh, tất cả chúng nên được xử lý như nhau; không nên có bất cứ sự phân biệt

11 Trong cuốn sách này chúng ta không thảo luận các mô hình phương trình đồng thời, vì chúng không còn được sử dụng phổ biến như những năm 1970 và 1980. Để tìm hiểu dạng sơ lược, bạn có thể tìm đọc trong Gujarati/Porter op cit, các chương 18 – 20.

40

nào giữa các biến nội sinh và ngoại sinh12. Vì thế mỗi phương trình nên có cùng

số biến giải thích. Đó là lý do tại sao Sims phát triển mô hình VAR.

Mô hình VAR hai biến13

Để giải thích ý tưởng đằng sau mô hình VAR, trước hết chúng ta sẽ xem xét

một hệ gồm hai biến. Ở chương 14 chúng ta đã thảo luận mối quan hệ giữa lãi

suất trái phiếu kho bạc 3 tháng (TB3) và 6 tháng (TB6) từ quan điểm đồng liên

kết. Ở đây chúng ta thảo luận nó từ quan điểm dự báo hai lãi suất bằng cách

sử dụng phương pháp VAR. Đối với mục đích này, hãy xem xét hai phương trình

sau đây:

Trong đó, TB3 và TB6 là lãi suất trái phiếu kho bạc (T-bill) 3 tháng và 6 tháng,

và u là các hạng nhiễu trắng, được gọi là impulses (phản ứng sung), hoặc

innovations (đổi mới) hoặc shocks (cú sốc) trong ngôn ngữ VAR.

Lưu ý các tính chất sau đây của mô hình VAR hai biến được cho trong các

phương trình ở trên:

1. Hệ thống (VAR) hai biến giống với một hệ phương trình đồng thời, nhưng

khác biệt cơ bản giữa chúng là mỗi phương trình (trong VAR) chỉ bao

gồm các giá trị trễ của chính nó và các giá trị trễ của các biến khác trong

12 C. A. Sims, Macroeconomics and reality, Econometrica, 1980, vol. 48, pp. 1 – 48. 13 Trong toán học, một véctơ là bất kỳ đại lượng có xu hướng nào. Với mục đích của chúc ta, chúng ta có thể sắp xếp các giá trị của một biến theo cột, được gọi là véctơ cột. Vì trong VAR chúng ta xử lý nhiều hơn một biến, nên chúng ta có thể sắp xếp các giá trị của mỗi biến trong một cột. Vì chúng ta đang xử lý các giá trị được sắp xếp theo cột như thế, nên chúng ta gọi hệ thống đang xem xét một hệ thống VAR với các véctơ cột

41

hệ thống. Nhưng không có các giá trị hiện tại (tức tại thời điểm t) nào của

hai biến được đưa vào vế phải của các phương trình này.

2. Mặc dù số các giá trị trễ của mỗi biến có thể khác nhau, nhưng trong hầu

hết các trường hợp chúng ta sử dụng cùng số số hạng trễ trong mỗi

phương trình.

3. Hệ VAR hai biến được cho ở trên được biết với tên gọi là VAR(p), bởi vì

chúng ta có p giá trị trễ của mỗi biến ở vế phải. Nếu chúng ta chỉ có một

giá trị trễ của mỗi biến bên vế phải, thì đó sẽ là mô hình VAR(1); nếu có

hai số hạng trễ, thì đó sẽ là mô hình VAR(2); và vân vân.

4. Mặc dù chúng ta đang xử lý chỉ với hai biến, nhưng hệ thống VAR có thể

được mở rộng cho nhiều biến. Giả sử chúng ta đưa thêm một biến khác,

ví dụ lãi suất Quỹ liên bang. Thì chúng ta sẽ có một hệ thống VAR ba

biến, mỗi phương trình trong hệ thống bao gồm p giá trị trễ của mỗi biến

bên vế phải của mỗi phương trình.

5. Nhưng nếu chúng ta xem xét nhiều biến trong hệ thống với nhiều độ trễ

cho mỗi biến, thì chúng ta sẽ phải ước lượng nhiều tham số, đây không

phải là một vấn đề lớn trong thời đại máy tính tốc độ cao và phần mềm

phức tạp, nhưng hệ thống nhanh chóng trở nên cồng kềnh.

6. Trong hệ thống hai biến của các phương trình (16.8) và (16.9), có thể có

tối đa một mối quan hệ đồng liên kết hoặc quan hệ cân bằng giữa chúng.

Nếu chúng ta có một hệ VAR ba biến, thì có thể có tối đa hai mối quan

hệ đồng liên kết giữa ba biến. Nói chung, một hệ VAR gồm n biến có thể

có tối đa (n - 1) mối quan hệ đồng liên kết

Biết có bao nhiêu mối quan hệ đồng liên kết tồn tại giữa n biến đòi hỏi phải sử

dụng phương pháp kiểm định của Johansen, phương pháp này ngoài phạm vi

của cuốn sách. Tuy nhiên, các phần mềm như Stata và Eviews có thể xử lý

kiểm định này tương đối dễ dàng.

42

Mối quan hệ đồng liên kết có thể có nền tảng lý thuyết nào đó. Trong ví dụ của

chúng ta, nền tảng đó có thể là lý thuyết về cấu trúc kỳ hạn của lãi suất (the

term structure of interest rates): mối quan hệ giữa các lãi suất ngắn hạn và dài

hạn.

Vì ví dụ của chúng ta ở đây là nhằm giới thiệu các vấn đề cơ bản của VAR, nên

chúng ta sẽ chỉ xem xét hệ VAR hai biến.

Vì chúng ta có 349 quan sát theo tháng về hai lãi suất trái phiếu kho bạc, nên

chúng ta có thời gian đủ dài cho số các hạng trễ mà chúng ta có thể đưa vào

mô hình. Đưa quá ít số hạng trễ sẽ dẫn đến các lỗi sai dạng mô hình [bỏ sót

biến quan trọng]. Đưa quá nhiều số hạng trễ sẽ tiêu tốn nhiều bậc tự do, chưa

kể vấn đề cộng tuyến. Vì thế chúng ta sẽ phải tiến hành theo cách ‘thử và sai’

và xác định số số hạng trễ dựa vào các tiêu chí thông tin như AIC hoặc SIC.

Cho dù việc lựa chọn số số hạng trễ đưa vào hai phương trình như thế nào đi

nữa, thì một yêu cầu rất quan trọng của VAR là các chuỗi thời đang được xem

xét phải là các chuỗi dừng. Ở đây, chúng ta có ba khả năng:

• Thứ nhất, cả hai chuỗi TB3 và TB6 đều là I(0), hoặc hai chuỗi dừng.

Trong trường hợp đó, chúng ta có thể ước lượng mỗi phương trình theo

OLS.

• Thứ hai, cả hai chuỗi TB3 và TB6 đều là I(1), thì chúng ta có thể lấy sai

phân bậc một của hai biến, và như đã biết hai chuỗi sai phân sẽ dừng.

Ở đây, chúng ta cũng có thể sử dụng OLS để ước lượng mỗi phương

trình một cách riêng lẻ.

• Thứ ba, nếu hai chuỗi đều là I(1), nhưng đồng liên kết, thì chúng ta phải

sử dụng cơ chế hiệu chỉnh sai số (ECM) mà chúng ta đã thảo luận ở

chương 14. Nhớ lại rằng ECM kết hợp cân bằng dài hạn với thay đổi

trong ngắn hạn (short-run dynamics) để hướng về cân bằng. Vì chúng

ta đang xử lý với hơn một biến trong một hệ thống VAR, nên phiên bản

43

đa biến (multivariate counterpart) của ECM được biết với tên gọi là mô

hình véctơ hiệu chỉnh sai số (VECM).

Bây giờ, ước lượng hệ VAR được cho trong các phương trình (16.8) và (16.9),

sử dụng các tiếp cận VECM, gồm ba bước sau đây:

• Bước 1: Trước hết chúng ta ước lượng mối quan hệ đồng liên kết giữa hai

biến lãi suất. Từ chương 14 chúng ta biết rằng mối quan hệ đồng liên kết

này được cho bởi phương trình sau đây:

Kết quả ước lượng hồi quy này được trình bày trong Bảng 16.10. Các kết

quả này cho thấy rằng, khi đưa vào cả xu thế tuyến tính và xu thế bậc

hai, thì có một mối quan hệ dương có ý nghĩa thống kê giữa hai biến lãi

suất. Nếu TB3 tăng thêm 1 điểm phần tram, thì trung bình TB6 tăng thêm

khoảng 0.96 điểm phần tram khi các yếu tố khác được giữ nguyên. Kết

quả này cũng cho thấy rằng cả hai biến lãi suất đều có xu thế giảm, nhưng

chúng có xu thế giảm ở một mức tăng dần, điều này thấy rõ ở Hình 14.2.

Bảng 16.10: Mối quan hệ giữa TB6 và TB3.

44

• Bước 2: Từ hồi quy này, chúng ta thu được phần dư, et, được cho bởi mối

quan hệ như sau:

Nếu et là một chuỗi dừng, chúng ta biết rằng et trong phương trình (16.11)

là số hạng hiệu chỉnh sai số (EC)14.

• Bước 3: Bây giờ chúng ta ước lượng phương trình (16.8) và (16.9) sử

dụng các số hạng EC như sau, đó là mô hình VEC:

Bạn sẽ thấy EC gắn kết thay đổi ngắn hạn với các mối quan hệ dài hạn như thế

nào thông qua số hạng EC. Trong hai mối quan hệ này, các hệ số dốc được

biết như các hệ số hiệu chỉnh sai số (error correction coefficients), vì chúng cho

thấy TB6 và TB3 điều chỉnh để cân bằng sai số trong giai đoạn trước, et – 1,

như thế nào.

Lưu ý một cách cẩn thận hành vi ngắn hạn của hai lãi suất TB được kết nối với

mối quan hệ dài hạn của chúng như thế nào thông qua số hạng EC. Nếu, ví dụ,

2 dương, TB6 đang thấp hơn giá trị cân bằng của nó trong giai đoạn trước và

vì thế trong giai đoạn hiện tại nó phải được điều chỉnh lên. Trái lại, nếu nó âm,

TB6 đang cao hơn giá trị cân bằng của nó vì thế trong giai đoạn hiện tại nó sẽ

được điều chỉnh xuống. Nhận xét tương tự cho TB3.

14 Để xác minh et là là chuỗi dừng hay không, chúng ta sử dụng kiểm định nghiệm đơn vị. Kiểm định này liên

quan đến việc hồi quy et theo et – 1 và kiểm định giả thuyết rằng hệ số dốc trong hồi quy này bằng 0 (tức là có nghiệm đơn vị). Sử dụng dữ liệu có sẵn, bạn đọc có thể kiểm chứng rằng giả thuyết nghiệm đơn vị có thể bị bác bỏ một cách thuyết phục, vì thế điều này xác nhận rằng số hạng nhiễu trong phương trình (16.10) thực sự là chuỗi dừng.

45

Cũng nên lưu ý rằng các hệ số dốc trong hai hồi quy ở trên sẽ trái dấu nhau bởi

vì chỉ có một mối quan hệ cần bằng giữa hai lãi suất.

Kết quả hồi quy, được cho ở dạng rút rọn như sau:

Ở đây các con số trong hoặc là tỷ số t.

Các hệ số độ dốc trong cả hai mô hình này không có ý nghĩa thống kê, điều này

chỉ ra rằng hai lãi suất điều chỉnh cho nhau rất nhanh. [Tôi không đồng tình với

cách giải thích này, vì nếu không có ý thống kê thì các hệ số hiệu chỉnh sai số

này coi như bằng 0, và như thế khả năng tự điều chỉnh về cân bằng là rất chậm

mới đúng chứ? Theo tôi, lý do các hệ số này không có ý nghĩa thống kê có thể

là do từng phương trình trong mô hình VECM ở trên còn khá đơn giản. Nếu

chúng ta đưa các biến trễ của TB6 và TB3 vào từng phương trình thì có thể

chúng ta sẽ có một kết quả khác].

Bạn có thể tự hỏi rằng chúng ta bắt đầu mô hình VAR được cho trong (16.8) và

(16.9), với một số hạng trễ cho mỗi biến, và kết thúc với mô hình VECM được

cho trong (16.12) và (16.13) – chúng trông không giống nhau. Nhưng khác biệt

này rõ ràng hơn thực tế, vì chúng ta có thể cho thấy rằng thực tế chúng là tương

đương nhau:

Để thấy điều này, hãy xem phương trình (16.12):

46

Gom các số hạng lại, chúng ta có thể thấy rằng phương trình (16.15) chính xác

là một dạng của phương trình (16.8). Một phương trình tương tự có thể được

viết lại cho TB3.

Điểm quan trọng của bài tập này là nhằm cho chúng ta thấy rằng trong thực tế

chúng ta ước lượng một mô hình VAR, nhưng rõ ràng chúng ta xem xét cơ chế

hiệu chỉnh sai số theo Định lý biểu diễn của Granger (Granger’s Representation

Theorem), mặc dù trong ngữ cảnh đa chuỗi thời gian.

Dự báo với VAR

Mối quan tâm chính trong các mô hình chuỗi thời gian là dự báo. Chúng ta đã

chỉ ra ở phần trước rằng các mô hình ARIMA có thể được sử dụng như thế nào

cho việc dự báo. Bây giờ chúng ta xem xét mô hình VAR cho cùng mục đích

này. Nhưng không giống ARIMA, xử lý chỉ một chuỗi thời gian, bây giờ chúng

ta xử lý hai hoặc nhiều hơn hai chuỗi thời gian đồng thời.

Chúng ta tiếp tục với hai chuỗi TB3 và TB6 để cho thấy việc dự báo với mô hình

VAR được thực hiện như thế nào. Để đơn giản, và có một thay đổi nhỏ trong

cách ký hiệu, bây giờ chúng ta xem xét mô hình VAR(1) như sau:

47

Trong đó, t là biến xu thế15.

Sau khi đã ước lượng mô hình VAR hai biến, chúng ta ký hiệu các giá trị ước

lượng của các hệ số là a và b. Chúng ta có được các giá trị ước lượng này bằng

cách sử dụng dữ liệu mẫu từ giai đoạn 1 đến giai đoạn kết thúc (t). Bây giờ giả

sử rằng chúng ta muốn dự báo các giá trị TB3 và TB6 ngoài dữ liệu mẫu, tức t

+ 1, t + 2, …, (t + n), trong đó n được xác định cụ thể là bao nhiêu.

Chúng ta có thể tiến hành như sau, sử dụng TB3. Dự báo cho thời điểm (t + 1)

được cho bởi:

Vì chúng ta không biết giá trị của hạng nhiễu của trong giai đoạn (t + 1) sẽ là

bao nhiêu, nên chúng ta cho nó bằng 0 bởi vì u dầu gì cũng là ngẫu nhiên.

Chúng ta cũng không biết giá trị của các tham số, nhưng chúng ta có thể sử

dụng các giá trị ước lượng của các tham số này từ dữ liệu mẫu. Vì vậy chúng ta

thực sự ước lượng:

VÌ thế, để dự báo TB3 trong giai đoạn (t + 1), chúng ta sử dụng các giá trị thực

tế của TB3 và TB6 trong giai đoạn t, đó là quan sát cuối cùng trong mẫu. Lưu ý

rằng, như thường lệ, dấu mũ bên trên đại diện cho giá trị ước lượng.

Chúng ta tiến hành theo các bước như thế để dự báo TB6 trong giai đoạn (t +

1) như sau:

Để dự báo TB3 cho giai đoạn (t + 2), chúng ta làm theo các bước tương tự,

nhưng điều chỉnh nó như sau:

15 Nếu cần, chúng ta cũng có thể đưa thêm biến xu thế t2, để đơn giản cho việc thảo luận, chúng ta bỏ số hạng này ra khỏi mô hình.

48

Lưu ý một cách cẩn thận rằng trong phương trình này chúng ta sử dụng các giá

trị dự báo của TB3 và TB6 từ giai đoạn trước và không sử dụng các giá trị thực

tế bởi vì chúng ta không biết các giá trị này là bao nhiêu.

Như bạn có thể biết, thủ tục này cho ra các dự báo động. Cũng lưu ý rằng, nếu

chúng ta có một sai số dự báo trong giai đoạn đầu tiên, thì sai số dự báo đó sẽ

được chuyển tiếp sang giai đoạn sau, bởi vì sau giai đoạn dự báo thứ nhất,

chúng ta sử dụng giá trị dự báo trong giai đoạn trước như đầu vào ở vế phải

của phương trình ở trên.

Dĩ nhiên, cách dự báo này nếu thao tác bằng tay thì vô cùng chán ngắt. Nhưng

các phần mềm như Stata có thể thực hiện một cách dễ dàng, sử dụng lệnh

fcast. Để tiết kiệm không gian chúng ta sẽ không trình bày các kết quả cho ví

dụ của chúng ta ở đây. Lưu ý rằng lệnh fcast cũng sẽ tính các khoảng tin cậy

cho các giá trị dự báo.

Stata

Mô hình VAR cơ bản:

use "D:\My Blog\Econometrics by example\Table14_8.dta" , clear

varbasic D.tb6 D.tb3, lags(1/1)

fcast compute m1_

[Chỉ dự báo giá trị của sai phân]

Mô hình VECM:

vec tb6 tb3, trend(none) rank(1) lag(1)

vec tb6 tb3, trend(trend) rank(1) lag(1)

vec tb6 tb3, trend(rt) rank(1) lag(1)

vec tb6 tb3, trend(constant) rank(1) lag(1)

vec tb6 tb3, trend(rconstant) rank(1) lag(1)

vec tb6 tb3, trend(rt) rank(1) lag(1)

49

fcast compute m2_

fcast compute m3_, step(2)

[Chỉ dự báo giá trị của sai phân; và rank(?) là khai báo số mối quan hệ đồng

liên kết giữa các biến trong mô hình (ở đây chỉ là 1)].

Các lựa chọn của trend (?) dựa theo phương trình sau đây:

Kiểm định đồng liên kết theo phương pháp Johansen:

vecrank y x z, trend(*) lag(2) max

[với điều kiện các chuỗi y, x, và z đều I(1)]

16.5 Kiểm định nhân quả sử dụng VAR: kiểm định nhân quả Granger

Mô hình hóa theo phương pháp VAR đã được sử dụng để làm sang tỏ khái niệm

nhân quả (causality), một câu hỏi triết lý sâu sắc nhưng có quá nhiều sự tranh

cãi. Như chúng ta đã lưu ý trong thảo luận trước đây về phân tích hồi quy, sự

phân biệt giữa biến phụ thuộc Y và một hoặc nhiều biến giải thích X, không nhất

thiết có nghĩa là các biến X là nguyên nhân của Y. Nhân quả giữa chúng, nếu

50

có, phải được xác định từ bên ngoài, bằng cách dựa vào một lý thuyết nào đó

hoặc một kiểu thí nghiệm nào đó16.

Tuy nhiên, khi hồi quy liên quan đến dữ liệu chuỗi thời gian thì tình huống có

thể khác bởi vì, như một tác giả nhấn mạnh:

… thời gian không quay trở lại. Nghĩa là, nếu biến cố A xảy ra trước

biến cố B, thì có thể là A là nguyên nhân của B. Tuy nhiên, không

thể là B gây ra A. Nói cách khác, các biến cố trong quá khứ có thể

gây ra các biến cố xảy ra hôm nay, chứ các biến cố trong tương lai

thì không thể17.

Cách tư duy này có thể là nền tảng đằng sau thứ mà ta gọi là kiểm định nhân

quả Granger (Granger causality test).

Kiểm định nhân quả Granger

Để giải thích kiểm định nhân quả Granger, chúng ta sẽ xem xét ví dụ hàm tiêu

dùng đã được thảo luận ở mục 16.1 theo quan điểm nhân quả Granger. Câu

hỏi mà chúng ta đặt ra bây giờ là: Mối quan hệ giữa chi tiêu cho tiêu dùng cá

nhân bình quân đầu người (PCE) và thu nhập khả dụng cá nhân bình quân đầu

người (PDI) [cả hai đều được thể hiện bằng giá trị thực tính theo đôla năm 2005]

là gì? Có phải PCE PDI hay PDI PCE, trong đó mũi tên cho biết chiều

hướng của mối quan hệ nhân quả? Với mục đích thực nghiệm, chúng ta sẽ sử

dụng log của các biến này bởi vì các hệ số dốc có thể được giải thích như các

hệ số co giãn.

Kiểm định Granger liên quan đến việc ước lượng cặp hồi quy sau đây:

16 Kinh tế học thí nghiệm (experimental economics) là một lĩnh vực nghiên cứu đang phát triển. Để biết tổng quan, xem James H. Stock and Mark W. Watson, Introduction to Econometrics, 2nd edn, Pearson/Addison Wesley, Boston, 2007, Chapter 13. Bạn sẽ sớm thấy các cuốn sách về định lượng thí nghiệm (Experimetrics). 17 Gary Koop, Analysis of Economic Data, John Wiley & Sons, New York, 2000, p. 175.

51

Trong đó, L là logarit và t là thời gian hoặc biến xu thế và ở đây chúng ta giả

định các hạng nhiễu u1t và u2t không tương quan với nhau.

Lưu ý rằng hai phương trình thể hiện một hệ VAR hai biến. Mỗi phương trình

gồm các độ trễ của cả hai biến trong hệ thống; số số hạng trễ được đưa vào

mỗi phương trình thường được xác định bằng cách ‘thử và sai’.

Bây giờ chúng ta phân biệt bốn trường hợp:

1. Nhân quả một chiều từ LPCE sang LPDI (LPCE LPDI) xảy ra nếu các

hệ số ước lượng j trong phương trình (16.23) đồng thời khác 0 một cách

có ý nghĩa thống kê và các hệ số ước lượng j trong phương trình (16.22)

không khác 0.

2. Nhân quả một chiều từ LPDI sang LPCE (LPDI LPCE) xảy ra nếu các

hệ số ước lượng j trong phương trình (16.22) đồng thời khác 0 một cách

có ý nghĩa thống kê và các hệ số ước lượng j trong phương trình (16.23)

không khác 0.

3. Nhân quả hai chiều (nhân quả qua lại) xảy ra khi các hệ số của LPCE và

LPDI (tức là các j và j) đều khác 0 một cách có ý nghĩa thống kê ở cả

hai hồi quy.

4. Độc lập [hoặc không có quan hệ nhân quả giữa hai biến] xảy ra khi các

hệ số của LPCE và LPDI (tức là các j và j) đều không có ý nghĩa thống

kê ở cả hai hồi quy.

Để thực hiện kiểm định, hãy xem xét hồi quy (16.22). Chúng ta tiến hành như

sau:

52

1. Hồi quy LPCE hiện tại theo tất cả các số hạng trễ của LPCE và các biến

khác, nếu có (chẳng hạn như biến xu thế), nhưng không bao gồm các số

hạng trễ của LPDI trong hồi quy này. Chúng ta gọi đây là hồi quy bị giới

hạn (restricted regression)18. Từ hồi quy này, chúng ta thu được tổng bình

phương phần dư bị giới hạn, RSSr.

2. Bây giờ ước lượng lại phương trình (16.22) bao gồm các số hạng trễ của

LPDI. Đây là hồi quy không bị giới hạn. Từ hồi quy này chúng ta thu được

tổng bình phương phần dư không bị giới hạn, RSSur.

3. Giả thuyết H0: 1 = 2 = … = m = 0, nghĩa là, các số hạng trễ của LPDI

không thuộc trong hồi quy.

4. Để kiểm định giả thuyết H0, chúng ta áp dụng kiểm định F như sau:

có m và (n - k) bậc tự so, trong đó m là số số hạng trễ của LPDI, k là số

tham số ước lượng trong hồi quy không bị giới hạn, và n là cỡ mẫu.

5. Nếu giá trị F tính toán lớn hơn giá trị F phê phán tại một mức ý nghĩa được

chọn, thì chúng ta bác bỏ giả thuyết H0. Trong trường hợp này, các số

hạng trễ của LPDI thuộc phương trình của LPCE, điều này nói lên rằng

LPDI gây ra LPCE.

Các bước này có thể được lặp lại cho phương trình (16.23) để biết LPCE có gây

ra LPDI hay không.

Trước khi chúng ta thực hiện kiểm định Granger, chúng ta cần xem xét một số

yếu tố sau đây:

1. Số các hạng trễ được đưa vào các kiểm định nhân quả Granger là một

câu hỏi thực tiễn rất quan trọng, vì chiều hướng của nhân quả có thể phụ

18 Nhớ lại thảo luận của chúng ta ở chương 2 về hồi quy giới hạn và không giới hạn và kiểm định F.

53

thuộc rất nhiều vào số số hạng trễ được đưa vào mô hình. Chúng ta sẽ

phải sử dụng các tiêu chí thông tin như AIC, SIC hoặc các tiêu chí tương

tự để xác định độ dài của các độ trễ. Một số lần ‘thử và sai’ là không thể

tránh khỏi.

2. Chúng ta đã giả định rằng các hạng nhiễu đưa vào kiểm định Granger

không tương quan với nhau. Nếu không đúng như vậy, thì chúng ta sẽ

phải sử dụng cách thức chuyển hóa hạng nhiễu thích hợp như đã được

thảo luận ở chương 6 về tự hồi quy [như FGLS hoặc Newey-West].

3. Chúng ta phải cẩn thận với vấn đề ‘nhân quả giả mạo’ (spurious

causaility). Khi chúng ta nói LPCE gây ra LPDI (hoặc ngược lại), thì rất

có thể có một biến ‘ẩn’ (lurking variable) nào đó, ví dụ lãi suất, và biến ẩn

này gây ra cả LPCE và LPDI. Vì thế, nhân quả giữa LPCE và LPDI thực

sự có thể là do biến bị bỏ sót, tức là lãi suất gây ra. Một cách để phát hiện

điều này là chúng ta nên xem xét mô hình VAR ba biến, một phương trình

cho mỗi trong ba biến này.

4. Một giả định rất quan trọng làm nền tảng của kiểm định nhân quả Granger

là các biến đang xem xét, chẳng hạn LPCE và LPDI là các chuỗi dừng.

Trong ví dụ của chúng ta, chúng ta có thể thấy rằng cả LPCE và LPDI

đều không dừng. Vì thế, nói một cách nghiêm khắc, thì chúng ta không

thể sử dụng kiểm định Granger.

5. Tuy nhiên, trong khi từng biến là không dừng, nhưng có thể rằng các biến

đang xem xét là đồng liên kết. Trong trường hợp đó, như trường hợp của

các biến không dừng trong đơn phương trình, chúng ta sẽ sử dụng cơ chế

hiệu chỉnh sai số (ECM). Điều này là bởi vì nếu LPCE và LPDI đồng liên

kết, thì theo Định lý biểu diễn của Granger, thì hoặc LPCE phải gây ra

LPDI hoặc LPDI phải gây ra LPCE19 [nghĩa là chắc chắc có mối quan hệ

19 Xem Gary Koop, Analysis of Financial Data, John Wiley & Sons, West Sussex, England, 2006, Chapter 11.

54

nhân quả giữa chúng, nhưng chúng ta chưa biết chắc chiều hướng của

mối quan hệ nhân quả đó].

Bảng 16.11: Hồi quy LPCE theo LPDI và xu thế.

Để biết LPCE và LPDI có đồng liên kết hay không, chúng ta ước lượng hồi quy

(đồng liên kết) như Bảng 16.11. Hồi quy này cho thấy rằng hệ số co giãn của

PCE theo PDI là khoảng 0.71, và hệ số này có ý nghĩa thống kê. Hệ số của biến

xu thế cũng có ý nghĩa thống kê, hệ số này cho biết rằng tốc độ tang trưởng của

PCE là khoảng 0.76%/năm [tôi nghĩ PCE chứ không phải LPCE].

Khi thực hiện kiểm định nghiệm đơn vị cho phần dư từ hồi quy này, chúng ta

thấy rằng phần dư là một chuỗi dừng20. Vì thế, chúng ta có thể kết luận rằng

hai chuỗi thời gian, đều không dừng, là đồng liên kết.

Từ phát hiện này, chúng ta có thể thực hiện kiểm định nhân quả Granger, nhưng

chúng ta phải sử dụng cơ chế hiệu chỉnh sai số. Kiểm định này có thể được

thực hiện như sau:

20 Phương trình kiểm định không có hệ số cắt và xu thế

55

Trong đó, như thường lệ là toán tử sai phân bậc nhất và et – 1 là biến trễ một

giai đoạn của phần dư từ hồi quy đồng liên kết được cho trong Bảng 16.11, đó

chính là số hạng hiệu chỉnh sai số (EC).

Từ phương trình (16.25), chúng ta thấy rõ rằng bây giờ có hai nguồn của nhân

quả đối với LPCE: (1) thông qua các giá trị trễ của LPDI và/hoặc (2) thông qua

giá trị trễ của véctơ đồng liên kết (tức là số hạng EC). Kiểm định Granger chuẩn

bỏ qua nguồn thứ hai của nhân quả.

Vì thế, giả thuyết H0: 1 = 2 = … = q = = 0 có thể bị bác bỏ nếu bất kỳ hệ số

nào trong các hệ số này khác 0 hoặc nếu khác 0. Nói cách khác, thậm chí

nếu tất cả các hệ số = 0, nhưng hệ số của số hạng trễ của EC khác 0, chúng

ta có thể bác bỏ giả thuyết H0 rằng LPDI không có ảnh hưởng nhân quả lên

LPCE. Điều này là bởi vì số hạng EC bao gồm ảnh hưởng của LPDI.

Để kiểm định giả thuyết H0 rằng các biến trễ của LPDI không có ảnh hưởng

nhân quả lên LPCE, chúng ta tiến hành như sau:

1. Ước lượng phương trình (16.25) bằng OLS và thu được tổng bình phương

phần dư từ hồi quy này (RSS); gọi đây là RSSur, bởi vì chúng ta đưa tất

cả các số hạng vào hồi quy.

2. Ước lượng lại phương trình (16.25), bỏ tất cả các số hạng trễ của LPDI

và số hạng EC. Thu được RSS từ hồi quy rút gọn này; gọi đây là RSSr.

Bậy giờ áp dụng kiểm định F, như trong phương trình (16.24), và bác bỏ giả

thuyết H0 nếu giá trị F tính toán lớn hơn giá trị F phê phán tại mức ý nghĩa được

chọn.

56

Bảng 16.12: Kiểm định nhân quả Granger với EC.

Lưu ý rằng khác biệt giữa kiểm định nhân quả Granger chuẩn và kiểm định

nhân quả Granger mở rộng (extended) là do sự hiện diện của số hạng EC trong

phương trình (16.25).

Câu hỏi thực tiễn khi ước lượng phương trình (16.25) là số số hạng trễ trong hồi

quy này. Vì chúng ta có dữ liệu theo năm, nên chúng ta quyết định chỉ đưa một

độ trễ của mỗi biến vào vế phải21. Kết quả như sau:

Lưu ý rằng biến trễ LPDI(-1) không có ý nghĩa thống kê, nhưng số hạng EC

[tức S2(-1)] thì có ý nghĩa thống kê cao. Chúng ta đã ước lượng lại mô hình

trong Bảng 16.12, bỏ biến trễ của sai phân LPDI và EC, và trên cơ sở kiểm định

F, chúng ta thấy rằng cả hai biến này thuộc mô hình. Điều này có thể cho chúng

ta biết rằng LPCE chịu ảnh hưởng nhân quả hoặc bởi biến trễ của sai phân

LPDI hoặc số hạng trễ EC hoặc cả hai.

21 Chúng ta cũng đã đưa hai số hạng trễ của LPCE và LPDI, nhưng kết quả không thay đổi đáng kể.

57

Chúng ta lặp lại bài tập trên với LPDI là biến phụ thuộc [tức phương trình (16.23)]

để xem liệu biến trễ của (sai phân) LPCE hoặc biến trễ EC hoặc cả hai có ảnh

hưởng nhân quả lên LPDI không. Kết luận chúng ta rút ra là chúng thực sự có

ảnh hưởng nhân quả lên LPDI.

Qua phân tích trên chúng ta nhận ra rằng có mối quan hệ nhân quả hai chiều

giữa LPCE và LPDI. Ở cấp độ kinh tế học vĩ mô, phát hiện này không có gì quá

ngạc nhiên, bởi vì tổng thu nhập và tổng tiêu dùng phụ thuộc lẫn nhau.

Thực hành với Eviews 8:

60

GENR S3 = RESID

61

Lưu ý: Trong Eviews cũng có sẵn lệnh kiểm định nhân quả Granger, nhưng chỉ

đối với kiểm định nhân quả Granger chuẩn chứ không có cho kiểm định nhân

quả Granger mở rộng.

Các bước như sau:

63

Tuy nhiên, kết quả có vẻ khác 😊)))

Tốt nhất là nên làm DO FILE với Stata: NHANH GỌN DỄ HIỂU …

use "D:\My Blog\Econometrics by example\Table16_1.dta", clear

tsset year

keep if year < 2005

reg lnpce lnpdi time

predict s2, resid

reg D.lnpce LD.lnpce LD.lnpdi L.s2

test LD.lnpdi L.s2

reg lnpdi lnpce time

predict s3, resid

reg D.lnpdi LD.lnpdi LD.lnpce L.s3

test LD.lnpce L.s3

64

16.6 Tóm tắt và kết luận

Mục tiêu chính của chương này là giới thiệu cho bạn đọc bốn chủ đề trong kinh

tế lượng chuỗi thời gian, đó là: (1) dự báo với các mô hình hồi quy tuyến tính,

(2) dự báo đơn chuỗi theo phương pháp Box-Jenkins, (3) dự báo đa chuỗi theo

véctơ tự hồi quy (VAR), và (4) bản chất của nhân quả trong kinh tế lượng.

Các mô hình hồi quy tuyến tính đã được sử dụng rất lâu trong dự báo doanh

số, sản xuất, thất nghiệp, lợi nhuận công ty, và nhiều chủ đề kinh tế khác. Khi

thảo luận về dự báo với hồi quy tuyến tính, chúng ta đã phân biệt giữa dự báo

điểm và dự báo khoảng, dự báo hậu nghiệm và dự báo tiền nghiệm, và dự báo

có điều kiện và dự báo không có điều kiện. Chúng ta đã minh họa các loại dự

báo này bằng một ví dụ về mối quan hệ giữa chi tiêu cho tiêu dùng thực bình

quân đầu người với thu nhập khả dụng thực bình quân đầu người ở Mỹ giai đoạn

1960 – 2004 và để dành các quan sát từ 2005 đến 2008 để xem thành tích dự

đoán của mô hình ước lượng đạt được như thế nào sau giai đoạn ước lượng.

Chúng ta đã thảo luận ngắn gọn việc dự báo khi các sai số có tự tương quan.

Sau đó chúng ta đã thảo luận phương pháp ARIMA trong dự báo, phương pháp

này được biết rộng rãi với tên gọi là phương pháp luận Box-Jenkins. Trong cách

tiếp cận Box-Jenkins về dự báo, chúng ta phân tích chỉ một chuỗi thời gian trên

cơ sở lịch sử đã qua của nó và trung bình di động thuần túy của hạng nhiễu

ngẫu nhiên hoặc cả hai. Tên gọi ARIMA là một sự kết hợp của hai thuật ngữ

AR và MA. Phương pháp này giả định rằng chuỗi thời gian đang được xem xét

là chuỗi dừng. Nếu là một chuỗi không dừng, thì chúng ta làm cho nó dừng

bằng cách lấy sai phân một hoặc nhiều lần.

Mô hình hóa theo ARIMA là một thủ tục gồm bốn bước: (1) Nhận dạng, (2) Ước

lượng, (3) Kiểm tra chẩn đoán, và (4) Dự báo. Khi xây dựng một mô hình

ARIMA, chúng ta có thể xem xét tính chất của một số mô hình ARIMA chuẩn

và sau đó cố gắng điều chỉnh chúng trong một trường hợp cho trước. Một khi

65

mô hình đã được nhận dạng, nó được ước lượng. Để biết liệu mô hình ước lượng

có thỏa đáng không, chúng ta thực hiện nhiều kiểm định chẩn đoán. Điểm then

chốt ở đây là cần xem phần dư từ mô hình được chọn có phải là nhiễu trắng

hay không. Nếu không phải là nhiễu trắng, chúng ta bắt đầu lại với thủ tục bốn

bước. Vì thế phương pháp luận Box-Jenkins là một thủ tục lặp.

Một khi mô hình ARIMA cuối cùng được chọn, nó có thể được sử dụng để dự

báo các giá trị tương lai của biến số mà chúng ta quan tâm. Dự báo theo phương

pháp này có thể là tĩnh hoặc động.

Để xử lý việc dự báo hai hay nhiều chuỗi thời gian, chúng ta cần đi ra ngoài

khuôn khổ của phương pháp luận Box-Jenkins. Các mô hình véctơ tự hồi quy

(VARs) được sử dụng cho mục đích này. Trong VAR, chúng ta có một phương

trình cho mỗi biến và mỗi phương trình chỉ bao gồm các giá trị trễ của biến số

đó và các giá trị trễ của tất cả các biến khác trong hệ thống.

Như trong trường hợp đơn chuỗi thời gian, trong VAR chúng ta cũng yêu cầu

các chuỗi thời gian trong hệ thống phải là các chuỗi dừng. Nếu mỗi chuỗi trong

VAR đã dừng rồi, thì mỗi phương trình có thể được ước lượng theo OLS. Nếu

mỗi chuỗi trong VAR không dừng, chúng ta có thể ước lượng VAR chỉ với các

sai phân bậc một của các chuỗi; hiếm khi chúng ta phải lấy sai phân của một

chuỗi thời, gian nhiều hơn một lần. Tuy nhiên, nếu các chuỗi riêng lẻ trong VAR

là không dừng, nhưng chúng đồng liên kết, thì chúng ta có thể ước lượng VAR

bằng cách đưa thêm vào số hạng hiệu chỉnh sai số, số hạng này thu được từ

hồi quy đồng liên kết. Điều này dẫn đến mô hình véctơ hiệu chỉnh sai số

(VECM).

Chúng ta có thể sử dụng mô hình VAR ước lượng cho việc dự báo. Khi dự báo

như thế, chúng ta không chỉ sử dụng thông tin từ biến đang được xem xét mà

còn tất cả các biến có trong hệ thống. Cơ chế thực tế thì chán ngắt, nhưng các

phần mềm bây giờ đều có lập trình sẵn cho việc ước lượng và dự báo này.

66

Các mô hình VAR cũng có thể được sử dụng để làm sang tỏ khái niệm nhân

quả giữa các biến. Ý tưởng cơ bản đằng sau kiểm định nhân quả là quá khứ có

thể là nguyên nhân của hiện tại và tương lai, nhưng không thể có chiều ngược

lại. Nhân quả Granger sử dụng khái niệm này. Trong ví dụ về PE và PDI, nếu

các giá trị trễ của PDI dự báo tốt cho các giá trị hiện hành của PCE hơn là chỉ

riêng các giá trị trễ của PCE, thì chúng ta có thể đồng ý rằng PDI có ảnh hưởng

nhân quả (Granger) lên PCE. Tương tự, nếu các giá trị trễ của PCE dự báo tốt

cho các giá trị hiện hành của PDI hơn là chỉ riêng các giá trị trễ của PDI, thì

chúng ta có thể nói rằng rằng PCE có ảnh hưởng nhân quả (Granger) lên PDI.

Hai kết quả này là ví dụ về nhân quả một chiều. Nhưng rất có thể rằng có nhân

quả hai chiều giữa hai biến này, nghĩa là PCE có ảnh hưởng nhân quả lên PDI

và PDI cũng có ảnh hưởng nhân quả lên PCE.

Khi kiểm chứng nhân quả, chúng ta phải đảm bảo rằng các biến đang xem xét

là những chuỗi dừng. Nếu không dừng, thì chúng ta phải lấy sai phân các biến

và chạy kiểm định nhân quả với các biến sai phân. Tuy nhiên, nếu các biến

không dừng, nhưng đồng liên kết, thì chúng ta cần sử dụng số hạng hiệu chỉnh

sai số để xem xét mối quan hệ nhân quả, nếu có./.

chương 16 dự báo kinh tế · marketing (ví dụ phản ứng của doanh số theo các kế...

Documents