草薙メソ2014 2 ブートストラップ

37
外国語教育研究における ブートストラップ法 ブートストラップ法 応用可能性 様々 用途 今後 展望 様々用途今後展望 外国語教育メディア学会(LET)関⻄⽀部 メソドロジー研究部会2014年度第⼀回研究⼤会 関⻄⼤学 2014/7/12

Upload: kusanagi-kunihiro

Post on 21-Jun-2015

915 views

Category:

Education


2 download

DESCRIPTION

草薙邦広 (2014) 「外国語教育研究におけるブートストラップ法の応用可能性:様々な用途と今後の展望」 外国語教育メディア学会関西支部メソドロジー研究部会2014年度第一回研究会. 関西大学.

TRANSCRIPT

Page 1: 草薙メソ2014 2 ブートストラップ

外国語教育研究における

ブートストラップ法外国語教育研究ブートストラップ法の

応用可能性様々 用途 今後 展望

応用可能性様々な用途と今後の展望外国語教育メディア学会(LET)関⻄⽀部

メソドロジー研究部会2014年度第⼀回研究⼤会関⻄⼤学 2014/7/12

Page 2: 草薙メソ2014 2 ブートストラップ

概略

• 背景背景• ブートストラップ法とはなにか• 実際にやってみよう!• 研究事例紹介• 今後の展望• 今後の展望

Page 3: 草薙メソ2014 2 ブートストラップ

背景

• 国内の外国語教育研究の大部分が量的研究国内の外国語教育研究の大部分が量的研究(Mizumoto, Urano, & Maeda, 2014)

• 統計的仮説検定で検定⼒が十分でない研究も多い(草薙・水本・竹内, to appear)

• 標本サイズの決定⼿順が不透明で• 標本サイズの決定⼿順が不透明であり,得てして十分でない(草薙他)

Page 4: 草薙メソ2014 2 ブートストラップ

背景• しかし当該分野の国際的トップジャーナルでも同様の指摘(e.g., ジャーナルでも同様の指摘(e.g.,

Plonsky, 2013; Plonsky & Gass, 2011)• 一方,メソドロジーに関する関心の高まり(Plonsky et al., 2014)

→頑健統計(Robust Statistics)の機→頑健統計(Robust Statistics)の機運(e.g., Larson-Hall, 2010; Larson-Hall &

Herrington, 2011)

Page 5: 草薙メソ2014 2 ブートストラップ

背景• 頑健統計?

–頑健性(robustness)–頑健性(robustness)• 統計⼿法が仮定している条件を満たしていなくても結果が妥当であるような程度

–頑健統計(robust statistics)• 頑健性のある統計⼿法:• 頑健性のある統計⼿法:

–正規性に依存する従来の統計⼿法に対して,様々な確率分布を⽤いたり,分布に依存せずに妥当な結果を出す⼿法

Page 6: 草薙メソ2014 2 ブートストラップ

背景

• どんなこと?どんなこと?–刈り取り平均(trimmed mean)–中央値–IQR(四分位数範囲)

• 外れ値の影響につよい• 外れ値の影響につよい–各種ノンパラメトリック検定

• 正規性を仮定しない

Page 7: 草薙メソ2014 2 ブートストラップ

背景

• 検定結果への依存からの脱却検定結果への依存からの脱却–効果量・信頼区間の報告–標本サイズの適切さ(検定⼒・正確度

分析)–研究成果の体系的統合(メタ分析)研究成果の体系的統合(メタ分析)–追⾏・シミュレーション研究

Page 8: 草薙メソ2014 2 ブートストラップ

背景

• 研究におけるツールの変化研究におけるツールの変化–複雑な統計⼿法も無償で,標準的なPC

環境で⾏えるツールの開発・普及(Rなど)

–計算資源の安価化–解説書,ネット上の解説資料などの学–解説書,ネット上の解説資料などの学習機会の充実

Page 9: 草薙メソ2014 2 ブートストラップ

背景

• 再度,外国語教育研究では– 理想的な実験環境が得にくい再度,外国語教育研究では– 理想的な実験環境が得にくい– 現実による制約が多すぎる(e.g., 草薙,2014)

– 分析上,統計⼿法における様々な仮定を満たせない場合も多い

• 正規性• 標本サイズ• 標本サイズ• 第⼀種・第二種の過誤の制御• 各種統計量の誤差や信頼区間の推定• モデル自体の推定が甘い

Page 10: 草薙メソ2014 2 ブートストラップ

BootstrapBootstrap--- Finally I recalled the stopgap solution of a great princess who was told that

the researchers could not satisfy the assumptions, and who responded:

"Let them run a bootstrap"

Page 11: 草薙メソ2014 2 ブートストラップ

ブートストラップ法とは何か

• なあに?なあに?–頑健統計の⼀角–再標本化(resampling)のひとつ

• 一度得た標本から再度標本を作り直す⼿法

–モンテカルロ法のひとつ–モンテカルロ法のひとつ• シミュレーションなどを乱数を⽤いて⾏う⼿法

Page 12: 草薙メソ2014 2 ブートストラップ

ブートストラップ法とは何か

• 再標本化法?–パラメトリック・ブートストラップ法–パラメトリック・ブートストラップ法

– 標本値から得た値に基づく分布の乱数を生成–ノンパラメトリック・ブートストラップ法

– 標本値⾃体を復元抽出して標本を生成–ジャックナイフ–ジャックナイフ

• n -1のサイズからなら標本をn 個生成• 重複標本化なし

Page 13: 草薙メソ2014 2 ブートストラップ

ブートストラップ法とは何か

①元標本を得る①元標本を得る–30人の英語テストの点• M = 70.11

• SD = 8.24

Fre

quen

cy

12

34

56

7

• SD = 8.24(M = 70, SD = 8となるように正

規分布を⽤いて乱数を生成)

Score

50 55 60 65 70 75 80 85

01

Page 14: 草薙メソ2014 2 ブートストラップ

ブートストラップ法とは何か

②ブートストラップ標本を作成②ブートストラップ標本を作成–ブートストラップ標本サイズを決める

• とりあえず元標本と同じn = 30

–ブートストラップ標本数(B )を決める• とりあえず1,000回(B = 1,000)

–復元抽出してブートストラップ標本を生–復元抽出してブートストラップ標本を生成する

Page 15: 草薙メソ2014 2 ブートストラップ

ブートストラップ法とは何か

• 復元抽出のイメージ–抽出したものを元に戻す–抽出したものを元に戻す–元標本が(0,1,2),n = 3–元標本から抽出した標本

• (0,0,0); (0,0,1); (0,0,2); (1,0,1); (1,0,2); (1,1,1); (1,1,2); (1,2,2); (1,0,2); (1,1,1); (1,1,2); (1,2,2); (2,2,2)

–同じのが出る!

Page 16: 草薙メソ2014 2 ブートストラップ

ブートストラップ法とは何か

③ブートストラップ標本毎の目的とする統計量を計算

③ブートストラップ標本毎の目的とする統計量を計算–平均値,中央値,分散,各パーセンタイ

ル点–二標本(変数)以上なら相関係数,効果–二標本(変数)以上なら相関係数,効果

量…

–どんなものでも計算できる

Page 17: 草薙メソ2014 2 ブートストラップ

ブートストラップ法とは何か

④ブートストラップ標本を標本とみなし統計量の分標本とみなし統計量の分布を⾒る– ブートストラップ標本の分

布は⺟数の確率分布に近似する

– M = 70.11

Fre

quen

cy

5010

015

020

025

0

– M = 70.11

– ブートストラップ標本分布の95%区間を信頼区間と⾒做せる

– [67.32, 72.99]

Mean Score

64 66 68 70 72 74

050

Page 18: 草薙メソ2014 2 ブートストラップ

ブートストラップ法とは何か• ブートストラップの利点

– ⺟数の確率分布が不明,計算が複雑な統計量に関– ⺟数の確率分布が不明,計算が複雑な統計量に関しても簡単に計算できる

– 元標本が持つ標本誤差を緩和して⺟数を推定できる(特に小標本の際に有効)

– 一般に通常の標本のみによる推定より真値に近いと期待できる

– 誤差・信頼区間の計算• パーセンタイル法,ベーシック法,BCa法,ブートスト

誤差・信頼区間の計算• パーセンタイル法,ベーシック法,BCa法,ブートスト

ラップt 法– 非常に汎用性の高い用途

• t 検定のp 値,効果量,標準化偏回帰係数…

Page 19: 草薙メソ2014 2 ブートストラップ

実際にやってみよう

• 様々なツール様々なツール–SPSS, AMOS, HAD, MATLAB…

–Rのパッケージ• boot, simpleboot, bootstrap

–ここではRのデフォルト関数のみ–ここではRのデフォルト関数のみで!

Page 20: 草薙メソ2014 2 ブートストラップ

例1:小標本の中央値の信頼区間

• 元標本dat <- c(12, 11, 10, 12, 12,

• 中央値の点推定– dat <- c(12, 11, 10, 12, 12,

13, 19, 8)

• 標本中央値 = 12

– median(dat)

• 入れる変数の準備– bsmedian=numeric(0)

• ブートストラップ標本の

• 中央値の点推定• mean(bsmedian)

• > 11.827

• パーセンタイル法で直接信頼区間を計算• quantile(bsmedian, c(0.025,

0.975))

• >[10, 13]• ブートストラップ標本の生成

– for(i in 1:1000){

bs<-sample(dat, 8, replace=T)

bsmedian[i]<-median(bs)

}

• >[10, 13]

Page 21: 草薙メソ2014 2 ブートストラップ

Original Sample

18

Bootstrap Samples

1012

1416

18

Fre

quen

cy

020

040

060

0

8

Median

8 10 12 14 16 18

Page 22: 草薙メソ2014 2 ブートストラップ

例2:刈り取り平均の信頼区間

• 元標本• 元標本– dat2 = rnorm(14, 50, 10)

• 刈り取り平均(80%)– mean(dat2[dat2<quantile(dat2,.9)&dat2>quantile(dat2,.1)])

• 同様の処理で点推定値と信頼区間– 点推定値:45.45– 点推定値:45.45

– 信頼区間:[42.23, 48.52]

Page 23: 草薙メソ2014 2 ブートストラップ

Bootstrap Samples

60

Fre

quen

cy

5010

015

020

0

3540

4550

5560

Trimmed Mean

40 42 44 46 48 500

Score

Page 24: 草薙メソ2014 2 ブートストラップ

研究事例紹介• Larson-Hall and Herrington

(2010)(2010)– Unpublished dataの再分析(ANOVA)

• Plonsky et al. (2014)– 26のLL, SSLAに掲載された研究の生データを

⽤いてブートストラップを⽤いたt 検定とANOVAの分析⽤いてブートストラップを⽤いた 検定とANOVAの分析

– 第一種・第二種の過誤の検証

Page 25: 草薙メソ2014 2 ブートストラップ

研究事例紹介• Kusanagi (2014)

– Processing Flat Adverbs in English as a Foreign LanguageForeign Language

– 第二言語としての英語の⽂処理研究• 第二言語の⽂処理研究では,「条件間の平均読解時間

に差がない」証拠を解釈の主軸に添える奇妙な風習がある

• 帰無仮説を積極的支持?• 検定⼒は著しく低い• 検定⼒は著しく低い• 二種の過誤• 効果量,効果量・平均差の信頼区間,ベイズ因⼦によ

る方法などを検討する必要性がある(草薙, 2014)• 標本誤差に対する配慮を積極的に示すべき

Page 26: 草薙メソ2014 2 ブートストラップ

• データ– ⾃己ペース読み課題– 5つの対象領域,二条件– 対象領域Bで理論的には差が出るはず– 対象領域Bで理論的には差が出るはず– 標本の検定結果は有意ではない

• t (25) = 0.80, p = .43, d = 0.11

Region A-1 Region A Region B Region B+1 Region B+2

200 500 800

0.00

00.

004

0.00

8

Reading Time(ms)

Den

sity

200 500 800

0.00

00.

004

0.00

8

Reading Time(ms)

Den

sity

200 500 800

0.00

00.

004

0.00

8

Reading Time(ms)

Den

sity

200 500 8000.

000

0.00

40.

008

Reading Time(ms)

Den

sity

200 500 800

0.00

00.

004

0.00

8

Reading Time(ms)

Den

sity

Page 27: 草薙メソ2014 2 ブートストラップ

1.0

95% CI 95% CIPoint estimate

二条件における標準化平均差(d)のブートストラップ;B = 1,000, ブートストラップ標本サイズ = 26

点推定値(d) = 0.1995%CI(パーセンタイル法)

0.0

0.5

Effe

ct s

ize

95%CI(パーセンタイル法)[-0.36, 0.74]

Bias = -0.08

・標本が偏っている可能性もある・仮にこの効果量

0 20 40 60 80 100

-0.5

Probability (%)

る可能性もある・仮にこの効果量なら有意差になる

Page 28: 草薙メソ2014 2 ブートストラップ

今後の展望

• 計算の困難な統計量の標本誤差や信頼区間計算の困難な統計量の標本誤差や信頼区間

• 幅広い統計手法に応用–各種効果量,線形回帰分析,局所多項

式回帰,クラスター分析…式回帰,クラスター分析…

• ただ検定はあまり…

Page 29: 草薙メソ2014 2 ブートストラップ

今後の展望• 指導法効果研究とブートストラップトラップ–そもそも⺟集団があれだけど…

• 標本誤差が大きいし小標本• 正規性も分からないし,検定の意味も曖昧正規性も分からないし,検定の意味も曖昧

• むしろ中央値や四分位数範囲,効果量などの統計量を的確に推定していきたい

Page 30: 草薙メソ2014 2 ブートストラップ

今後の展望• 例えば• 2-2のANOVAをされ• 2-2のANOVAをされ

てたような実験計画• 14人ずつ,事前事後

のテストの得点40

60

80

100

点数

指導A指導B

0

20

事前 事後時間

Page 31: 草薙メソ2014 2 ブートストラップ

• 例1. 80%刈り込み平均を用いた標準化平均差の全変数総当り点・区間推定– B = 1,000

– ブートストラップ標本n = 14

事前-B 事後-A 事後-B

点推定 区間推定 点推定 区間推定 点推定 区間推定

事前-A -0.18 [-1.15, 0.58] -14.46 [-18.46, -12.06] -3.39 [-4.57, -2.68]

事前-B -18.41 [-28.06, -14.27] -4.49 [-6.63, -3.32]

事後-A 11.37 [9.48, 14.43]

Page 32: 草薙メソ2014 2 ブートストラップ

1015

事事-A

事事-B80

100指導A指導B

Dis

tanc

e

-10

-50

5

0

20

40

60

点数

-15

-10

事事-A

事事-B

0

事前 事後時間

Page 33: 草薙メソ2014 2 ブートストラップ

例2. 効果量の累積確率密度による可視化

-20

-18

-16

-14

-12

Effe

ct S

ize

-20

-18

-16

-14

-12

Effe

ct S

ize

0.0 0.2 0.4 0.6 0.8 1.0

-22

-20

Probability

BootstrapModel

0.0 0.2 0.4 0.6 0.8 1.0

-22

-20

Probability

Page 34: 草薙メソ2014 2 ブートストラップ

例3. ブートストラップ信頼区間の応用・任意の効果量以上の値を取るブートストラップシミュレーション型確率・例えば,効果量中(0.4)以上の確率は,50%程度・他研究間の効果量の⽐較にも利⽤可能であり,直接的・直感的な解釈に有利・通常の効果量による指導法効果の⽐較は効果量の推定精度の影響に弱い

0.0

0.5

1.0

Effe

ct S

ize

-0.5

0.0

0.5

1.0

Effe

ct S

ize

0.0 0.2 0.4 0.6 0.8 1.0

-1.0

-0.5

Probability

0.0 0.2 0.4 0.6 0.8 1.0

-1.0

-0.5

Probability

Page 35: 草薙メソ2014 2 ブートストラップ

今後の展望• しかし…

–確率論的に計算できるものを何–確率論的に計算できるものを何でも代用すればいいわけではない

–元標本に依存しやすく,⺟集団を狭く⾒るを狭く⾒る•標本サイズの小ささには強いが標本の偏りには弱く,それを示す方法がない

Page 36: 草薙メソ2014 2 ブートストラップ

今後の展望• 最後に!

– “Finally and as always, no degree of statistical – “Finally and as always, no degree of statistical sophistication should ever take the place of principled analysis and interpretation based on an understanding of the data and the constructs they represent. It will always be important for researchers to take a step back from the statistical analysis to evaluate the degree to which a particular technique is practically particular technique is practically significant/useful in moving forward our knowledge of a given set of constructs.”

– (Plonsky et al. 2014, p. 17)

Page 37: 草薙メソ2014 2 ブートストラップ

草薙邦広名古屋⼤学⼤学院

日本学術振興会特別研究員

[email protected]

0.0

0.5

1.0

Effe

ct S

ize

Bootstrap Samples

150

200

Bootstrap

0.0 0.2 0.4 0.6 0.8 1.0

-1.0

-0.5

0.0

Probability

Effe

ct S

ize

Trimmed Mean

Fre

quen

cy40 42 44 46 48 50

050

100

150

Bootstrap--- Finally I recalled the stopgap solution of a great princess who was told that

the researchers could not satisfy the assumptions, and who responded:

"Let them run a bootstrap"