ファイナンスのための数学基礎 第1回 オリエンテーション...
TRANSCRIPT
1
線形回帰分析②
重回帰分析
講師: 長倉大輔 (慶應義塾大学経済学部)
今日の予定
1. 重回帰分析について
2. EViews を用いた分析
3 自由度調整済み決定係数、
多重共線性、定式化の誤り等
について
2
重回帰分析
単回帰分析
⇒ 2つの変数の間の関係を分析
する事。
(Yi と Xi の関係)
Yi = α + β Xi + εi
3
重回帰分析
重回帰分析とは?
⇒ 2つ以上の変数の間の関係を分析
する事。
4
重回帰分析
1つの説明変数だけではうまく説明できない (普通はそう)
⇒ 説明変数を任意の数 K 個にする
5
重回帰分析
(重回帰分析)
Yi = α + β1 X1i + β2 X2i + … + βKXKi + εi
i = 1, …, N
Yi : 被説明変数
Xki : k 番目の説明変数 (k = 1, …, K)
εi : 誤差項
N : 標本数
6
重回帰分析
■最小二乗法による推定
重回帰モデルにおいて データ
{Yi, X1i , …, XK,i }, i = 1, …, N
から α, β1, …, βK を推定する。
考え方は単回帰分析の時と全く同じ。
7
重回帰分析
■残差
適当な推定値 に対して、
Yi と推定した式
で説明できる部分の差
ei = Yi
を残差という。
8
K ˆ..,ˆ,ˆ 1
KiKi XX ˆ..ˆˆ11
KiKi XX ˆ..ˆˆ11
重回帰分析
■ 最小二乗推定
ei の2乗の総和(残差平方和):
が最小となるような を見つける。
⇒最小二乗推定値
9
211
11
2 )ˆˆˆ( KiKi
N
i
i
N
i
i XXYe
K ˆ...,,ˆ,ˆ 1
10
重回帰分析
(最小二乗法の計算: やや数学的…)
残差平方和を最小化する
⇒
という目的関数を変数 a , b1, …, bK という
K + 1 個の未知係数について最小化する
n
i
KiKii XbXbaYbaSSR1
211 )(),(
11
重回帰分析
最小化のための1階の条件を計算
(偏微分を 0 とおく)
および
0)(2
0),...,,(
11
1
n
iKKii
K
XbXbaY
a
bbaSSR
Kk
XbXbaYX
b
bbaSSR
n
iKiKiiik
k
K
,...,1
0)(2
0),...,,(
111,
1
12
重回帰分析
これより
という K+1 個の連立方程式を得る。これを a, b1,…, bK
について解いたものが、それぞれ α、β1,…, βK の
最小二乗推定値
,0)(2),...,,(
1,,11
1
n
iiKKii
K XbXbaYa
bbaSSR
.0)(2),...,,(
,0)(2),...,,(
1,,11,
1
1,,11,1
1
1
n
iiKKiiiK
K
K
n
iiKKiii
K
XbXbaYXb
bbaSSR
XbXbaYXb
bbaSSR
単回帰の時と同様以下の過程がある時最小二乗法は(ある基準で)最高に良い推定量
13
仮定 意味
仮定1 E[εi] = 0 誤差項の期待値 0
仮定2 var[εi] = σ2 誤差項の分散は一定
仮定3 cov[εi, εj] = 0 誤差項は互いに無相関
仮定4 Xi と εiは独立
重回帰分析
14
重回帰分析
単回帰の場合と異なり、推定値の簡便な
表現はない。
,
統計ソフトウェアで計算
15
EViews による推定
実際の計算は統計ソフトウェアを用いる。
ここでは EViews 8 を用いて計算する。
16
EViews による推定
データ: 日本の零細企業114社のデータ (1998年と2002年に対しての)
「Eviews による計量経済分析(第2班)」 松浦克己、コリンマッケンジー、2012、東洋経済新報社
付属のデータより
変数名 変数の説明
delprosales 売上高利益率の変化幅
delloan 借入金比率変化幅
deloth その他負債比率変化幅
deltochi2 担保比率変化幅
17
EViews による推定
分析の目的
1998年から2002年にかけて、経済が不振に
陥る中、零細企業の税引き後売上高利益率へ各種説明変数がどのような影響を与えたか見る。
EViews による推定
EViewsにおけるデータの読み込み
今回はエクセルファイルからデータを読み込む。
data2.xls ファイルを読み込む
18
19
data2.xls ファイル
1行目にすでに変数名がついている事に注意。
1番左の列はデータの番号。
20
EViews を起動
21
データを読み込む
File → Open → Foreign Data as Workfile
22
data2.xls ファイルを読み込む
完了をクリック
読み込み完了!
このような画面になる。
23
ここに入力
24
データの画面
delprosales,
delloan, deloth,
deltochi2
が今回使用する予定
のデータ
25
EViews による推定
推定式は
delprosalesi = α + β1 delloani + β2 delothi
+ β3 deltochi2i + εi,
i = 1, …, 144
である。係数 α, β1, β2, β3を推定する。
26
Quick → Estimate Equation をクリック
推定式を入力
delprosales c delloan deloth deltochi2
と入力
27
28
OKをクリック
推定結果が表示される
29
30
推定結果
推定値 標準誤差
推定結果の見方は単回帰の時とほとんど同じ
31
推定結果の見方
■ 推定値 (Coefficient)
各説明変数の係数の推定値。
■ 標準誤差 (Std. Error)
解釈は単回帰の時と同じ。
誤差の平均的な大きさ(みたいなもの)
係数の絶対値の大きさと比べて大きすぎな
ければよい(目安としては係数の絶対値の
½ 以下)。
32
推定結果の見方
■ t 値 ( t – Statistic )
これも解釈は単回帰の場合と同じ。
係数の有意性をみる指標。目安として
絶対値で1.96以上なら係数の真の値は0
ではない。
■ P値 (Prob)
単回帰の場合と同じ。t 値の代わりに使える。
目安として0.05以下なら係数の真の値は0
でない。
33
推定結果の見方
■ 決定係数 (R –square)
あてはまり度の指標。単回帰の場合と同じく
と定義される。
ここで 。
解釈の仕方は単回帰の時と同じ。
n
i i
n
i i
YY
YYR
1
2
1
2
2
)(
)ˆ(
KiKii XXY ˆˆˆˆ11
34
推定結果の見方
推定された式は
delprosalesi = – 0.337delloani – 0.057delothi
(0.451) (0.035)
+ 0.061deltochi2i + ei
(0.061)
となる。括弧内は t 値。
定数項以外すべて有意(に真の値は0でない)
ちなみに重回帰式もロバスト推定できる
35
ロバスト推定の結果
推定値は変わらない。Std. Error, t-Satistic, Prob. は変わる。有意なものがなくなってしまった。
36
37
自由度調整済み決定係数 (Adjusted R-
squared) について説明する。
38
重回帰分析
■自由度調整済み決定係数
(決定係数の問題点)
決定係数はモデルのあてはまり度をみる
指標 で、1 に近いほどそのモデルはよくあ
てはまっている (モデルの説明力が高いと
いういい方もする) というもの。
39
重回帰分析
■自由度調整済み決定係数
(決定係数の問題点)
しかし、決定係数には
「説明変数を増やすと必ず大きくなる!!」
(より正確に言うと決して小さくならない)
という性質がある。
40
重回帰分析
■自由度調整済み決定係数
(決定係数の問題点)
この現象は例えその新たに加えられた説
明変数が本来はまったく被説明変数と関
係なくても起きてしまう。
→ 自由度調整済み決定係数
41
重回帰分析
決定係数は
と書き換えることができる。
n
i i
n
i i
YY
eR
1
2
1
2
2
)(1
42
重回帰分析
これに対して自由度調整済み決定係数
は
と定義される。K ≥ 1 であれば青丸内は常
に1 より大きい。
→ (同じ説明変数なら)自由度調整済み決定係数は決定係数より常に小さい。
,)(1
11
1
2
1
2
2
n
i i
n
i i
YY
e
Kn
nR
2R
43
重回帰分析
→ 説明変数を増やすと残差平方和が小さくなるが、その分青丸内が大きくなる。
→ 下手な説明変数 (残差平方和を小さくしない)を加えると、この効果の方が大きくて
が加える前より小さくなる。
→ 本当に説明力のある変数を加える必要がある。
2R
44
重回帰分析
自由度調整済み決定係数の上限は、通常
の決定係数と同じく、最大で 1 になる (残
差平方和が0 の時)
しかし、自由度調整済み決定係数の下限
は、通常の決定係数と異なり、場合によっ
ては0以下になる。
45
重回帰分析
■ 多重共線性の問題
多重共線性とは複数の説明変数を用いた
とき、その説明変数間の相関が強すぎると
きに起きる問題(より正確には説明変数間
で線形従属してしまう事による問題)。
→推定誤差が大きくなり、本当は重要な変
数の係数が有意にならない。
46
重回帰分析
■ 多重共線性の問題
(完全な多重共線性; 直観的な説明)
真のモデルが
Yi = α + βXi + γZi+ εi
だとする。完全な多重共線性というのは説
明変数が完全な相関関係(より正確には線
形従属関係)にある事をいう。上の場合 Xi と
Zi の相関 1 か –1 という事。(実際のデータで
はまず起きないし起きたらすぐわかる)。
47
重回帰分析
■ 多重共線性の問題
この時、適当な係数 c に対して Zi = cXi とい
う関係があるので (より正確には Zi = b + cXi
だが b = 0 とした)、先ほどのモデルは
Yi = α + β Xi + cγ Xi + εi
= α + (β + cγ) Xi + εi
と表せる。
48
重回帰分析
■ 多重共線性の問題
例えば真の β と γ の値が β0 , γ0 だとしよう、
しかしながら
β0 + cγ0 = β + cγ
となる β と γ の値は無数にあり、これらはYi
と Xi のデータを生み出す構造としてはまった
く同じなので、観測上は区別できない!
→ β と γ は同時に推定できない。
49
重回帰分析
■ 多重共線性の問題
この場合は 例えば Zi を推定式か
ら抜けば β + c γ は推定できるが、
β と γ の個別の値はやはりわからない。
50
重回帰分析
■ 多重共線性の問題
完全な多重共線性はまず起きない。
通常、説明変数間の相関が高い事
(より正確には説明変数間で線形従属の
関係に近いこと)を多重共線性の問題という。
この時どのような事が起こるだろうか?
先ほどのモデルで Xi と Zi の相関が高い
場合を考えよう。
51
重回帰分析
■ 多重共線性の問題
この時、以下のようなことが起こる。
① Xi と Zi を 2 つとも入れると t 値が両方とも有意にならないが、どちらかを抜くと、
推定値が大きく変わり、有意になる
② 標本数を増やすと推定値が大きく変動する(推定が不安定)。
説明変数が2個以上の場合も同じ。
52
重回帰分析
■ 多重共線性の問題
対処法: 特にない。
まず多重共線性が起きているかどうか(どこ
まで説明変数間の相関が高いと問題か)、
目安がない。尺度はいくつか提案されている
が、一致した見解は得られていない。
多重共線性を引き起こしていそうな変数を抜
いたりするくらいしかやる事がない。
53
重回帰分析
■ 多重共線性の問題
またこれは「誤差が大きくなってしまう」事に
よる問題なので、(完全な多重共線性でなけ
れば)標本数が十分大きければ原理的には
解決する。
つまり「多重共線性の問題」は実は
「標本数が少ない」という問題と本質的には
同じ。
54
重回帰分析
■ 多重共線性の問題
さらにいうと、多重共線性が起きていても、
統計的な分析としては実は全く問題ない
(誤差は大きいがそれは正確に推定できる)
ので、そもそもこれは問題かどうかというと
人によっては問題ないという人もいる。
55
重回帰分析
■ 定式化のあやまり
重要な変数が抜けていたり、関係ない変
数を入れてしまったりすることを定式化の
誤りという。
重要な変数が抜けてしまう事を過小定式
化、関係ない変数を入れてしまう事を過剰
定式化という。
56
重回帰分析
■ 定式化のあやまり
(過小定式化)
例えば真のモデルが
Yi = α + βXi + γZi+ εi
の時に
Yi = α + βXi + εi
と定式化を行い推定するとどうなるか?
57 57
重回帰分析
■ 定式化のあやまり
この場合、Xi 最小二乗推定値は係数
β の真の値を推定しない。
推定に偏りが生じる。またこの偏りは標本数が増えてもなくならない。標本数が増えると最小二乗推定量は β の真の値ではなく何か別の値に収束する。
58 58
重回帰分析
■ 定式化のあやまり
(過大定式化)
例えば真のモデルが
Yi = α + βXi + εi
の時に
Yi = α + βXi + γZi+ εi
と定式化を行い推定するとどうなるか?
59
重回帰分析
■ 定式化のあやまり
この場合、Xi と Zi の最小二乗推定値は
ともに真の値を偏りなく推定する。すなわち Xi の係数は β の真の値に近い値、γ
の推定値はその真の値 γ = 0 に近い値に
なり、標本数が大きくなると、これらの真の値に収束する。
60
重回帰分析
■ 定式化のあやまり
過小定式化
→ バイアスが生じる。
過剰定式化
→ 推定効率は落ちるが、標本数が多くなれば解決するので、推定上は問題ない。
61
EViews による推定
説明変数として
delcredit: 企業間受信比率変化幅
を加えてみる。
62
EViews による推定
推定式は
delprosalesi = α + β1 delloani + β2 delothi
+ β3 deltochi2i + β4 delcrediti
+ εi,
i = 1, …, 144
である。係数 α, β1, β2, β3 , β4を推定する。
63
今回は最初からロバスト推定
標準誤差
最小二乗推定値
64
EViewsによる推定
推定結果が大幅に変わった!
ロバスト推定でも delloan と deloth は有
意!
以前の推定は過小推定の問題が生じて
いた可能性。
まとめ
1. 多重回帰はやってる事は単回帰とほと
んど同じ
2. 自由度調整済み決定係数というものが
ある。
3. 多重共線性の問題は気にしすぎない。
4. 重要な説明変数を落とすと問題発生。
65