ii i i xx 12 ε -...

1

教学用 PPT，《高级计量经济学及 Stata 应用》，陈强编著，高等教育出版社，© 2010 年

第 9 章模型设定与数据问题

9.1 遗漏变量

假设真实模型为，

1 1 2 2β β ε′ ′= + +i i i iy x x (9.1) 其中， 1 2,x x 可以是向量，且与扰动项ε不相关。而实际估

2

计的模型为，

1 1β′= +i i iy x u (9.2)

遗漏变量 2 2β′ix 进入新扰动项 2 2i i iu x β ε′= + 。考虑两种情形。

（1）遗漏变量 2ix 与解释变量 1ix 不相关，即 1 2Cov( , ) 0i ix x = ，

则，OLS 依然一致。

3

（2）遗漏变量 2ix 与解释变量 1ix 相关，即 1 2Cov( , ) 0≠i ix x ，

则，OLS 不再是一致估计，其偏差被称为“遗漏变量偏差”。

解决遗漏变量偏差的主要方法有,

（i）加入尽可能多的控制变量

（ii）使用“代理变量”

（iii）工具变量法（第 10 章）

（iv）使用面板数据（第 11, 12 章）

4

（v）随机实验与自然实验（第 15 章）

当控制变量不可得时，可以考虑第（ii）种方法“代理变

量法”。比如，在教育投资回归中，可以使用智商（IQ）

来作为个人能力的代理变量。理想的代理变量应满足，

（1）多余性：即代理变量仅通过影响遗漏变量而作用于

被解释变量。比如，“智商”仅通过对“能力”的作用来

5

影响工资收入。假如有“能力”的数据，再引入“智商”

作为解释变量就是多余。

（2）遗漏变量中不受代理变量影响的剩余部分与所有解

释变量均不相关。

命题如果上述两个条件满足，则使用代理变量能获得一

致估计。

6

9.2 无关变量

假设真实模型为，

1 1i i iy x β ε′= + (9.3) 其中， 1Cov( , ) 0i ix ε = 。而实际估计的模型为，

1 1 2 2 2 2

0

( )i i i i iy x x xβ β ε β=

′ ′ ′= + + − (9.4)

其中，加入了无关变量 2′ix 。由于真实参数 2 0β = ，故可将

模型写为 1 1 2 2i i i iy x xβ β ε′ ′= + + ，即扰动项仍是原来的 iε 。由于

7

2x 与 y 无关， 2x 也与 y 的扰动项ε无关，即 2Cov( , ) 0i ix ε = 。

故扰动项 ε与所有解释变量均无关，OLS 仍然一致，即

1 1ˆplimβ β

→∞=

n ， 2 2ˆplim 0

nβ β

→∞= = 。

9.3 建模的策略：“由小到大”还是“由大到小”

“由小到大”（specific to general）的建模方式首先从最简

单的小模型开始，然后逐渐增加解释变量。此方法的缺点

8

是，小模型很可能存在遗漏变量，系数估计量不一致，t

检验、F 检验失效，很难确定该如何取舍变量。

与此相反，“由大到小”（general to specific）的建模方式从

一个尽可能大的模型开始，收集所有可能的解释变量，然

后再逐步剔除不显著的解释变量。这样可能包含无关变

量，但其危害性没有遗漏变量严重。在实证研究中，常采

用以上两种策略的折衷方案。

9

9.4 解释变量个数的选择

需要在模型的解释力与简洁性之间找到一个最佳平衡。可

供选择的权衡标准包括，

（1）校正可决系数2R ：选择解释变量个数 K 以最大化

2R 。

（2）“赤池信息准则”（Akaike Information Criterion，AIC）：

10

选择解释变量的个数 K，使得以下目标函数最小化，

( ) 2min AIC lnK

n Kn

′≡ +e e (9.5)

（3）“贝叶斯信息准则”（Bayesian Information Criterion，

BIC）或“施瓦兹信息准则”（Schwarz Information Criterion，

SIC）：选择解释变量的个数 K，使得以下目标函数最小化，

( ) ln( )min BIC lnK

nn Kn

′≡ +e e (9.6)

11

（4）“汉南-昆准则”（Hannan-Quinn Information Criterion，

HQIC）：选择解释变量的个数 K，使以下目标函数最小化，

( ) [ ]ln ln( )min HQIC ln

K

nn K

n′≡ +e e (9.7)

9.5 对函数形式的检验

可使用“Ramsey’s RESET 检验”（Regression Equation

Specification Error Test），即把非线性项引入方程，并检验

12

其系数是否显著。

假设线性回归模型为 ε′= +y x β 。回归后可得拟合值

ˆ ′=y x b。 y 是解释变量 x 的一个线性组合，2y 包含了各

解释变量二次项（含平方项与交叉项）的信息，3y 包含了

各解释变量三次项的信息，以此类推。考虑以下回归方程，

2 3 4

2 3 4ˆ ˆ ˆy y y yδ δ δ ε′= + + + +x β (9.8)

13

对原假设“ 0 2 3 4: 0δ δ δ= = =H ”做 F 检验。

9.6 多重共线性

严格的多重共线性在现实数据中很少出现，较常见的是近．

似．（非严格）的多重共线性。其表现为，如果将第 k 个解

释变量 kx 对其余的解释变量 { }1 1 1, , , , ,k k Kx x x x− + 进行回

归，所得到的可绝系数（记为2kR ）较高。

14

由于存在多重共线性，矩阵 ( )′X X 变得几乎不可逆，1( )−′X X

变得很“大”，致使方差2 1Var( | ) ( )σ −′=b X X X 增大，使得系

数估计变得不准确。

协方差矩阵主对角线上的第 k 个元素为，

2

2Var( | )(1 )k

k kk

bR Sσ

=−

X (9.9)

其中，2

1( )n

kk ik kiS x x

=≡ −∑ 。定义第 k 个解释变量 kx 的“方

15

差膨胀因子”（Variance Inflation Factor，VIF），

2

1VIF1

≡−k

kR (9.10)

则 ( )2Var( | ) VIFk k kkb Sσ=X 。VIF越大则说明多重共线性问

题越严重。一个经验规则是，最大的 VIF ，即

{ }1max VIF , , VIFK ，不超过 10。

如果存在多重共线性，可采取以下处理方法，

（1）如果你不关心具体的回归系数，而只关心整个方程

16

预测被解释变量的能力，则可不必理会多重共线性。

（2）如果你关心具体的回归系数，但多重共线性并不影

响你所关心变量的显著性，也可以不理会。

（3）如果多重共线性影响到你所关心变量的显著性，则

需要增大样本容量，剔除导致严重共线性的变量，或对模

型设定进行修改。

17

9.7 极端数据

如果样本数据中的少数观测值离大多数观测值很远，可能

对 OLS 的回归系数产生很大影响，被称为“极端观测值”。

18

图 9.1、极端值对回归系数的影响

第 i 个观测数据对回归系数的“影响力”（leverage）可通

ix

iy

ii

i

ii

ii

ii

i

i

含极端值的回归

不含极端值的回归

极端值

19

过投影矩阵1( )−′ ′≡P X X X X 的第 i 个主对角线元素来表示，

1lev ( )−′ ′≡i i ix X X x (9.11)

所有观测数据的影响力 levi 满足：（ i） 0 lev 1≤ ≤i ，

1, ,i n∀ = ；（ii） 1lev

==∑n

iiK 。记

( )ib 为去掉第 i 个观测

数据后的 OLS 估计值，则

( ) 11 ( )

1 levi

i ii

e−⎛ ⎞⎟⎜ ′⎟− =⎜ ⎟⎜ ⎟⎜ −⎝ ⎠

b b X X x (9.12)

20

levi 越大则( )( )i−b b 的变化越大。

如何处理极端值？

首先，应仔细检查是否因数据输入有误而导致极端值。

其次，对出现极端值的个体进行背景调查，看是否由与研

究课题无关的特殊现象所致。

21

最后，比较稳健的做法是在论文中同时汇报全样本与删除

极端数据后子样本的回归结果。

9.8 虚拟变量

如果使用“定性数据”或“分类数据”，通常需要引入“虚

拟变量”，即取值为 0 或 1 的变量。

22

比如，性别分男女，可定义malefemale

10

⎧⎪⎪=⎨⎪⎪⎩D 。

对于全球的五大洲，则需要四个虚拟变量，即

1

Asiaother

10

⎧⎪⎪=⎨⎪⎪⎩D ， 2

Americaother

10

⎧⎪⎪=⎨⎪⎪⎩D ， 3

Europeother

10

⎧⎪⎪=⎨⎪⎪⎩D ， 4

Africaother

10

⎧⎪⎪=⎨⎪⎪⎩D

如果 1 2 3 4 0= = = =D D D D ，则表明为大洋洲。

在有常数项的模型中，如果定性指标共分M 类，则最多只

23

能有 ( 1)M − 个虚拟变量。

考虑一个有关中国的时间序列模型，

1950, , 2000,t t ty x tα β ε= + + = (9.13) 由于经济结构可能在 1978 年以后有变化，引入虚拟变量，

if 1978otherwise

10

≥⎧⎪⎪=⎨⎪⎪⎩

tD (9.14)

考虑以下两种情况。

24

（1）仅仅引入虚拟变量本身

α β γ ε= + + +t t t ty x D (9.15) 该模型等价于，

if 1978

if 1978,

( ) , α β εα γ β ε

<

≥

⎧ + +⎪⎪=⎨⎪ + + +⎪⎩

t tt

t t

tt

xy

x (9.16)

25

图 9.2、仅引入虚拟变量的效果

（2）引入虚拟变量，以及虚拟变量与解释变量的“互动

α β+ tx

( )α γ β+ + tx

ty

tx1978

26

项”

α β γ δ ε= + + + +t t t t t ty x D D x (9.17) 该模型等价于，

1978if 1978

, if( ) ( ) ,

t tt

t t

tt

xy

xα β εα γ β δ ε

<

≥

⎧ + +⎪⎪=⎨⎪ + + + +⎪⎩ (9.18)

27

图 9.3、引入虚拟变量及其互动项的效果

α β+ tx

( ) ( )α γ β δ+ + + tx

ty

tx1978

28

9.9 经济结构变动的检验

1．结构变动日期已知

首先考虑结构变动日期已知的情形（a break at a known

date）。检验中国经济是否在 1978 年有结构变动。定义第 1

个时期为1950 1978≤ <t ，第 2 个时期为1978 2000≤ ≤t ，则

两个时期对应的回归方程分别为，

1 1 1 1= +y X β ε (9.19)

29

2 2 2 2= +y X β ε (9.20)

需要检验的原假设为，“1 2

0 : =H β β ”。在无约束的情况下，

可对两个时期分别进行回归。在有约束的情况下，可将模

型合并为，

= +y Xβ ε (9.21) 传统的“邹检验”（Chow, 1960）通过做以下三个回归来检

验“无结构变动”的原假设。

30

首先，回归整个样本1950 2000≤ ≤t ，得到残差平方和 ′e e。

其次，回归子样本1950 1978≤ <t ，得到残差平方和 1 1′e e 。

再次，回归子样本1978 2000≤ ≤t ，得到残差平方和 2 2′e e 。

根据似然比检验原理的 F 统计量为，

1 1 2 2

1 1 2 2

22

( ) ~ ( , )( ) ( )

KF F K n Kn K

′ ′ ′− −= −

′ ′+ −e e e e e e

e e e e (9.22)

31

检验结构变动的另一简便方法是引入虚拟变量，并检验所

有虚拟变量以及其与解释变量交叉项的系数的联合显著

性。比如，在前面的例子中，进行如下回归，

α β γ δ ε= + + + +t t t t t ty x D D x (9.23) 然后检验“ 0 : 0γ δ= =H ”。此检验所得到的 F 统计量与传

统的邹检验完全相同。

32

传统的邹检验在“扰动项同方差”的假设下得到，并不适

用于异方差的情形。在异方差的情况下，仍可使用虚拟变

量法，只需要在对方程(9.23)进行回归时，使用异方差稳健

的标准差即可。

2．结构变动日期未知

可能不知道结构变动的具体时间（a break at an unknown

break date）。

33

给定一个区间 0 1 ,[ , ] [1 ]Tτ τ ⊆ ，其中 T 为样本容量，可以按照

以上方法计算在此区间中的每一年份 t （ 0 1τ τ≤ ≤t ）所对应

的 F 统计量，然后取其最大者，即为“匡特似然比”（Quandt

Likelihood Ratio，QLR）。

QLR 统计量不再服从 F 分布，其分布取决于约束条件的个

数（即有多少个变量的系数可能发生变动），以及( )0 Tτ 与

( )1 Tτ 。

34

通常选择 0 0.15Tτ = ， 1 850. Tτ = （选择最接近的整数），这

被称为“15%修边”（15% trimming），即只对样本中间的

70%观测值计算 F 统计量，然后取其最大者得到 QLR 统

计量。

QLR统计量的10%，5%与1%显著性水平的临界值见教材。

9.10 变量单位的选择

35

在选择变量单位时，应尽量避免变量间的数量级差别过于

悬殊，以免出现计算机运算的较大误差。

比如，通货膨胀率通常小于 1，而如果模型中有 GDP 这个

变量，则 GDP 应该使用亿或万亿作为单位。否则，变量

GDP 的取值将是通货膨胀率的很多倍，即数据矩阵X 中某

列的数值是另一列的很多倍，这可能使计算机在对1( )−′X X

进行数值计算时出现较大误差。

ii i i xx 12 ε -...

Documents