ii i i xx 12 ε -...
TRANSCRIPT
1
教学用 PPT,《高级计量经济学及 Stata 应用》,陈强编著,高等教育出版社,© 2010 年
第 9 章 模型设定与数据问题
9.1 遗漏变量
假设真实模型为,
1 1 2 2β β ε′ ′= + +i i i iy x x (9.1) 其中, 1 2,x x 可以是向量,且与扰动项ε不相关。而实际估
2
计的模型为,
1 1β′= +i i iy x u (9.2)
遗漏变量 2 2β′ix 进入新扰动项 2 2i i iu x β ε′= + 。考虑两种情形。
(1)遗漏变量 2ix 与解释变量 1ix 不相关,即 1 2Cov( , ) 0i ix x = ,
则,OLS 依然一致。
3
(2)遗漏变量 2ix 与解释变量 1ix 相关,即 1 2Cov( , ) 0≠i ix x ,
则,OLS 不再是一致估计,其偏差被称为“遗漏变量偏差”。
解决遗漏变量偏差的主要方法有,
(i)加入尽可能多的控制变量
(ii)使用“代理变量”
(iii)工具变量法(第 10 章)
(iv)使用面板数据(第 11, 12 章)
4
(v)随机实验与自然实验(第 15 章)
当控制变量不可得时,可以考虑第(ii)种方法“代理变
量法”。比如,在教育投资回归中,可以使用智商(IQ)
来作为个人能力的代理变量。理想的代理变量应满足,
(1)多余性:即代理变量仅通过影响遗漏变量而作用于
被解释变量。比如,“智商”仅通过对“能力”的作用来
5
影响工资收入。假如有“能力”的数据,再引入“智商”
作为解释变量就是多余。
(2)遗漏变量中不受代理变量影响的剩余部分与所有解
释变量均不相关。
命题 如果上述两个条件满足,则使用代理变量能获得一
致估计。
6
9.2 无关变量
假设真实模型为,
1 1i i iy x β ε′= + (9.3) 其中, 1Cov( , ) 0i ix ε = 。而实际估计的模型为,
1 1 2 2 2 2
0
( )i i i i iy x x xβ β ε β=
′ ′ ′= + + − (9.4)
其中,加入了无关变量 2′ix 。由于真实参数 2 0β = ,故可将
模型写为 1 1 2 2i i i iy x xβ β ε′ ′= + + ,即扰动项仍是原来的 iε 。由于
7
2x 与 y 无关, 2x 也与 y 的扰动项ε无关,即 2Cov( , ) 0i ix ε = 。
故扰动项 ε与所有解释变量均无关,OLS 仍然一致,即
1 1ˆplimβ β
→∞=
n , 2 2ˆplim 0
nβ β
→∞= = 。
9.3 建模的策略:“由小到大”还是“由大到小”
“由小到大”(specific to general)的建模方式首先从最简
单的小模型开始,然后逐渐增加解释变量。此方法的缺点
8
是,小模型很可能存在遗漏变量,系数估计量不一致,t
检验、F 检验失效,很难确定该如何取舍变量。
与此相反,“由大到小”(general to specific)的建模方式从
一个尽可能大的模型开始,收集所有可能的解释变量,然
后再逐步剔除不显著的解释变量。这样可能包含无关变
量,但其危害性没有遗漏变量严重。在实证研究中,常采
用以上两种策略的折衷方案。
9
9.4 解释变量个数的选择
需要在模型的解释力与简洁性之间找到一个最佳平衡。可
供选择的权衡标准包括,
(1)校正可决系数2R :选择解释变量个数 K 以最大化
2R 。
(2)“赤池信息准则”(Akaike Information Criterion,AIC):
10
选择解释变量的个数 K,使得以下目标函数最小化,
( ) 2min AIC lnK
n Kn
′≡ +e e (9.5)
(3)“贝叶斯信息准则”(Bayesian Information Criterion,
BIC)或“施瓦兹信息准则”(Schwarz Information Criterion,
SIC):选择解释变量的个数 K,使得以下目标函数最小化,
( ) ln( )min BIC lnK
nn Kn
′≡ +e e (9.6)
11
(4)“汉南-昆准则”(Hannan-Quinn Information Criterion,
HQIC):选择解释变量的个数 K,使以下目标函数最小化,
( ) [ ]ln ln( )min HQIC ln
K
nn K
n′≡ +e e (9.7)
9.5 对函数形式的检验
可使用“Ramsey’s RESET 检验”(Regression Equation
Specification Error Test),即把非线性项引入方程,并检验
12
其系数是否显著。
假设线性回归模型为 ε′= +y x β 。回归后可得拟合值
ˆ ′=y x b。 y 是解释变量 x 的一个线性组合,2y 包含了各
解释变量二次项(含平方项与交叉项)的信息,3y 包含了
各解释变量三次项的信息,以此类推。考虑以下回归方程,
2 3 4
2 3 4ˆ ˆ ˆy y y yδ δ δ ε′= + + + +x β (9.8)
13
对原假设“ 0 2 3 4: 0δ δ δ= = =H ”做 F 检验。
9.6 多重共线性
严格的多重共线性在现实数据中很少出现,较常见的是近.
似.(非严格)的多重共线性。其表现为,如果将第 k 个解
释变量 kx 对其余的解释变量 { }1 1 1, , , , ,k k Kx x x x− + 进行回
归,所得到的可绝系数(记为2kR )较高。
14
由于存在多重共线性,矩阵 ( )′X X 变得几乎不可逆,1( )−′X X
变得很“大”,致使方差2 1Var( | ) ( )σ −′=b X X X 增大,使得系
数估计变得不准确。
协方差矩阵主对角线上的第 k 个元素为,
2
2Var( | )(1 )k
k kk
bR Sσ
=−
X (9.9)
其中,2
1( )n
kk ik kiS x x
=≡ −∑ 。定义第 k 个解释变量 kx 的“方
15
差膨胀因子”(Variance Inflation Factor,VIF),
2
1VIF1
≡−k
kR (9.10)
则 ( )2Var( | ) VIFk k kkb Sσ=X 。VIF越大则说明多重共线性问
题 越 严 重 。 一 个 经 验 规 则 是 , 最 大 的 VIF , 即
{ }1max VIF , , VIFK ,不超过 10。
如果存在多重共线性,可采取以下处理方法,
(1)如果你不关心具体的回归系数,而只关心整个方程
16
预测被解释变量的能力,则可不必理会多重共线性。
(2)如果你关心具体的回归系数,但多重共线性并不影
响你所关心变量的显著性,也可以不理会。
(3)如果多重共线性影响到你所关心变量的显著性,则
需要增大样本容量,剔除导致严重共线性的变量,或对模
型设定进行修改。
17
9.7 极端数据
如果样本数据中的少数观测值离大多数观测值很远,可能
对 OLS 的回归系数产生很大影响,被称为“极端观测值”。
18
图 9.1、极端值对回归系数的影响
第 i 个观测数据对回归系数的“影响力”(leverage)可通
ix
iy
ii
i
ii
ii
ii
i
i
含极端值的回归
不含极端值的回归
极端值
19
过投影矩阵1( )−′ ′≡P X X X X 的第 i 个主对角线元素来表示,
1lev ( )−′ ′≡i i ix X X x (9.11)
所有观测数据的影响力 levi 满足:( i) 0 lev 1≤ ≤i ,
1, ,i n∀ = ;(ii) 1lev
==∑n
iiK 。记
( )ib 为去掉第 i 个观测
数据后的 OLS 估计值,则
( ) 11 ( )
1 levi
i ii
e−⎛ ⎞⎟⎜ ′⎟− =⎜ ⎟⎜ ⎟⎜ −⎝ ⎠
b b X X x (9.12)
20
levi 越大则( )( )i−b b 的变化越大。
如何处理极端值?
首先,应仔细检查是否因数据输入有误而导致极端值。
其次,对出现极端值的个体进行背景调查,看是否由与研
究课题无关的特殊现象所致。
21
最后,比较稳健的做法是在论文中同时汇报全样本与删除
极端数据后子样本的回归结果。
9.8 虚拟变量
如果使用“定性数据”或“分类数据”,通常需要引入“虚
拟变量”,即取值为 0 或 1 的变量。
22
比如,性别分男女,可定义malefemale
10
⎧⎪⎪=⎨⎪⎪⎩D 。
对于全球的五大洲,则需要四个虚拟变量,即
1
Asiaother
10
⎧⎪⎪=⎨⎪⎪⎩D , 2
Americaother
10
⎧⎪⎪=⎨⎪⎪⎩D , 3
Europeother
10
⎧⎪⎪=⎨⎪⎪⎩D , 4
Africaother
10
⎧⎪⎪=⎨⎪⎪⎩D
如果 1 2 3 4 0= = = =D D D D ,则表明为大洋洲。
在有常数项的模型中,如果定性指标共分M 类,则最多只
23
能有 ( 1)M − 个虚拟变量。
考虑一个有关中国的时间序列模型,
1950, , 2000,t t ty x tα β ε= + + = (9.13) 由于经济结构可能在 1978 年以后有变化,引入虚拟变量,
if 1978otherwise
10
≥⎧⎪⎪=⎨⎪⎪⎩
tD (9.14)
考虑以下两种情况。
24
(1)仅仅引入虚拟变量本身
α β γ ε= + + +t t t ty x D (9.15) 该模型等价于,
if 1978
if 1978,
( ) , α β εα γ β ε
<
≥
⎧ + +⎪⎪=⎨⎪ + + +⎪⎩
t tt
t t
tt
xy
x (9.16)
25
图 9.2、仅引入虚拟变量的效果
(2)引入虚拟变量,以及虚拟变量与解释变量的“互动
α β+ tx
( )α γ β+ + tx
ty
tx1978
26
项”
α β γ δ ε= + + + +t t t t t ty x D D x (9.17) 该模型等价于,
1978if 1978
, if( ) ( ) ,
t tt
t t
tt
xy
xα β εα γ β δ ε
<
≥
⎧ + +⎪⎪=⎨⎪ + + + +⎪⎩ (9.18)
27
图 9.3、引入虚拟变量及其互动项的效果
α β+ tx
( ) ( )α γ β δ+ + + tx
ty
tx1978
28
9.9 经济结构变动的检验
1.结构变动日期已知
首先考虑结构变动日期已知的情形(a break at a known
date)。检验中国经济是否在 1978 年有结构变动。定义第 1
个时期为1950 1978≤ <t ,第 2 个时期为1978 2000≤ ≤t ,则
两个时期对应的回归方程分别为,
1 1 1 1= +y X β ε (9.19)
29
2 2 2 2= +y X β ε (9.20)
需要检验的原假设为,“1 2
0 : =H β β ”。在无约束的情况下,
可对两个时期分别进行回归。在有约束的情况下,可将模
型合并为,
= +y Xβ ε (9.21) 传统的“邹检验”(Chow, 1960)通过做以下三个回归来检
验“无结构变动”的原假设。
30
首先,回归整个样本1950 2000≤ ≤t ,得到残差平方和 ′e e。
其次,回归子样本1950 1978≤ <t ,得到残差平方和 1 1′e e 。
再次,回归子样本1978 2000≤ ≤t ,得到残差平方和 2 2′e e 。
根据似然比检验原理的 F 统计量为,
1 1 2 2
1 1 2 2
22
( ) ~ ( , )( ) ( )
KF F K n Kn K
′ ′ ′− −= −
′ ′+ −e e e e e e
e e e e (9.22)
31
检验结构变动的另一简便方法是引入虚拟变量,并检验所
有虚拟变量以及其与解释变量交叉项的系数的联合显著
性。比如,在前面的例子中,进行如下回归,
α β γ δ ε= + + + +t t t t t ty x D D x (9.23) 然后检验“ 0 : 0γ δ= =H ”。此检验所得到的 F 统计量与传
统的邹检验完全相同。
32
传统的邹检验在“扰动项同方差”的假设下得到,并不适
用于异方差的情形。在异方差的情况下,仍可使用虚拟变
量法,只需要在对方程(9.23)进行回归时,使用异方差稳健
的标准差即可。
2.结构变动日期未知
可能不知道结构变动的具体时间(a break at an unknown
break date)。
33
给定一个区间 0 1 ,[ , ] [1 ]Tτ τ ⊆ ,其中 T 为样本容量,可以按照
以上方法计算在此区间中的每一年份 t ( 0 1τ τ≤ ≤t )所对应
的 F 统计量,然后取其最大者,即为“匡特似然比”(Quandt
Likelihood Ratio,QLR)。
QLR 统计量不再服从 F 分布,其分布取决于约束条件的个
数(即有多少个变量的系数可能发生变动),以及( )0 Tτ 与
( )1 Tτ 。
34
通常选择 0 0.15Tτ = , 1 850. Tτ = (选择最接近的整数),这
被称为“15%修边”(15% trimming),即只对样本中间的
70%观测值计算 F 统计量,然后取其最大者得到 QLR 统
计量。
QLR统计量的10%,5%与1%显著性水平的临界值见教材。
9.10 变量单位的选择
35
在选择变量单位时,应尽量避免变量间的数量级差别过于
悬殊,以免出现计算机运算的较大误差。
比如,通货膨胀率通常小于 1,而如果模型中有 GDP 这个
变量,则 GDP 应该使用亿或万亿作为单位。否则,变量
GDP 的取值将是通货膨胀率的很多倍,即数据矩阵X 中某
列的数值是另一列的很多倍,这可能使计算机在对1( )−′X X
进行数值计算时出现较大误差。