(correlation/regression) - 北海道大学...4.4 相関解析の実例 application of correlation...
TRANSCRIPT
4. 相関・回帰 (correlation/regression)
4.0 相関関係とは? What is correlation? 4.1 相関係数 Correlation coefficient 4.2 自己相関 Auto-correlation 4.3 相互相関 Cross-correlation 4.4 相関解析の実例 Application of correlation analysis 4.5 相関の有意性 Significance of correlation
– 相関係数の検定 Test of correlation coefficient – 有効自由度 Effective degree of freedom
4.6 回帰 Regression – 回帰係数 Regression coefficient
– 決定係数 Coefficient of determination
– 回帰係数の区間推定 Confidence interval of regression coefficient 4.7 回帰分析の実例 Application of regression analysis
1
4.3 相互相関関数 cross-correlation function
異なる変数間でのラグ相関を求める
Rxy(0) = 1にはならない。 左右対称にはならない。
相互相関関数
相互相関係数
2
相互相関関数 の計算式
伊藤・見延 (2010) 3
ダーウィンと世界各地の年平均海面気圧偏差の相関係数 (x 10)。
係数が正の値のところはダーウィンの気圧が通常より高いときにその場所の気圧も通常より高い傾向にあり、係数 が負の値のところはダーウィンの気圧が通常より高いとき、逆に通常より低い傾向にある。数字の大きさがその傾 向の程度を示す。(Trenberth and Shea,1987)
4.4 相関解析の実例
季節変化を除去して考えている
南方振動の発見
一点相関図(同時相関)
タヒチ
4
5
Original time series High-passed time series 相関解析の実例:南極の水位の変動
6
Aoki et al. (2002)
自己相関関数・相互相関関数
0 10 20 30 40 50 600
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Lag (day)
Cor
rela
tion
coef
ficie
nt
Syowa-Syowa
Syowa-Mawson
昭和での位相 がリード 7
自己相関関数・相互相関関数
-60 -40 -20 0 20 40 600
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Lag (day)
Cor
rela
tion
coef
ficie
nt
Syowa-Syowa
Syowa-Mawson
昭和がリード モーソンがリード 8
モーソンがリードの場合の相関が高いのは、西進する陸棚波が存在するから。
AAO(南極振動)と海洋応答
気圧のパターン AAO Index
9
AAO index HIGH AAO index LOW
L L H H
L H
L H Westerly anomaly
Easterly Anomaly Northward
Ekman drift Southward Ekman drift
Sea level LOW Sea level HIGH Negatively-correlated!
10
11
4.5 相関の有意性 4.5.1 相関係数の検定 (test of correlation coefficient)
無相関の検定 母相関係数 ρ=0 のときは、標本数 n の相関係数 r は次の T について、(近似的に)自由度 n-2 の t 分布に従うことが知
られている。 母相関係数に関する検定は一般に母相関係数 ρ=0 という帰無仮説を検定する。したがって、上の式の T を求めて t 検定すればよい。 (面倒な計算をしなくてもよいように検定の表がある。) 帰無仮説 H0:“無相関である” 対立仮説 H1:“相関がある”
T
12
無相関の検定の例: 標本数 n が14で、相関係数 r が 0.361 のデータを考える。
T
この式から T を計算すると、1.438 となる。
この1.438という値は左図の棄却域には 入っていないので、 検定の結果として、 有意水準1%では、 相関があるとは 言えない。
13
14
両側検定 (two-sided test) Emery and Thomson (2001)
有意水準
データ数が多い (自由度が大きい)ほど低い相関係数でも有意。
15
サンプル数 n(自由度 ν = n-2)のときに標本の相関係数が表の値よりも大きければ、母相関係数 ρ= 0 という帰無仮説
が棄却され、有意な相関があるといえる。
しかし、相関係数の検定はあくまでも母相関係数が 0 でな
い(すなわち相関が弱いとしてもある)ことを判断するだけで、帰無仮説が棄却されたからといって「相関が強い」わけではない。 相関係数が 0.5 未満では余り意味がない。
例: n=7 で r=0.70: n=12で r=0.65: n=17で r=0.65:
どちらの有意水準でも有意な相関なし 有意水準 5% でのみ有意な相関あり どちらの有意水準でも有意な相関あり
16
相関係数の例: NAO (North Atlantic Oscillation) の持続性
冬のNAOが夏の大気
循環に影響する!
Icelandic Low Azores High
Ogi et al.(2003)
17
冬季の北大西洋振動 (NAO) インデックスと海面水温(コンター) 海氷分布(ハッチ)、積雪との相関係数 3-4月 5-7月
Ogi et al.(2003)
Low SST High sea-ice cover
18
以上はサンプリングがランダムになされている(自由度が保証されている)場合に適用される。
実際には、すべてのデータが独立とは限らない。
大気・海洋データの多くの場合
19
4.5.2 有効自由度
(effective degrees of freedom)
• 大気海洋データは、時・空間的に相関をもっているため
「ν(自由度)= N(データ数)」にはならない。
• 時系列がランダムである場合は自由度 ν = N でよい
が、特定の周期の波が含まれている場合には自由度は著しく下がる。
松山・谷本 (2005) ・気温の季節変化を表すにはおおよそ1ヶ月に1個のサンプリングで12個のデータ もあれば明確な季節変化を表現できる。仮に1時間に1回のデータを持っていたとしても365×24個のデータから季節変化を表現することにあまり意味はない。むしろ、春夏秋冬に1個ずつであっても、ある程度季節変化を表現することはできる。 ・毎時の気温365日間のデータについて季節変化を対象とした場合、自由度は2から多くても10以下と言える。逆に、日々の変化を対象にした場合は自由度は数百程度あると考えてよい。
20
b. 三角 関数成分 +ノイズ
三角関数は振幅と位相で決まる ので、自由度は 2 しかない。
有効自由度 =6 高い係数 でも有意ではない
a. ノイズ のみ
Chelton (1982)
有効自由度 =50 低い係数でも有意
青矢印は<90% の信頼限界
Daily-sampled time series
Semi-annual signal
x1(t)
x2(t)
x1(t)
x2(t)
Noise
21
有効自由度 (effective degrees of freedom) の推定
実効的に独立な標本間の時間(有効無相関時間)と呼ばれる Te で、データのサンプル数 N を割って、 有効自由度(有効標本数)Ne を求める。 Ne=N/Te
自己相関関数 からIntegral time scale を求める。
Emery and Thomson (1999)
22
比較的簡便な方法は、自己相関関数がはじめて 0.2~0.3程度になるラグ時間を特徴的な時間スケール と定め、時系列全体の長さをこの時間スケールで 割ることである(松山・谷本, 2005)。 また、自己相関関数が初めてゼロとなるラグ時間を 目安とすることもある。
23
無相関時間(したがって有効自由度)は、現象に内在する量ではなく、標本の長さにも、またどの統計解析を行うかにも依存する。
詳細については、伊藤・見延 (2010)を参照
24
相関係数についての注意点
はずれ値の影響が大きい。 散布図でのチェックが重要。
r = 0.806
r = 0.960 r = -0.503
下の2つの場合は、上の場合に、はずれ値のデータを1つ加えただけ