2015-1003 英語コーパス学会ワークショップ使用スライド

119
Web アプリケーションを使った コーパス研究のための統計的手法 英語コーパス学会(JAECS) 第41回大会 2015/10/03@愛知大学名古屋キャンパス 水本 篤(関西大学)

Upload: mizumoto-atsushi

Post on 20-Jan-2017

1.497 views

Category:

Education


1 download

TRANSCRIPT

Page 1: 2015-1003 英語コーパス学会ワークショップ使用スライド

Webアプリケーションを使ったコーパス研究のための統計的手法

英語コーパス学会(JAECS) 第41回大会 2015/10/03@愛知大学名古屋キャンパス

水本 篤(関西大学)

Page 2: 2015-1003 英語コーパス学会ワークショップ使用スライド

自己紹介

Page 3: 2015-1003 英語コーパス学会ワークショップ使用スライド
Page 4: 2015-1003 英語コーパス学会ワークショップ使用スライド

竹内・水本(編著)(2012)

Page 5: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://mizumot.com/handbook

書籍で使用したデータと分析方法

Page 6: 2015-1003 英語コーパス学会ワークショップ使用スライド

•MS Excel(できるものだけ) • IBM SPSS • フリーのデータ解析環境R

Page 7: 2015-1003 英語コーパス学会ワークショップ使用スライド

•MS Excel(できるものだけ) • IBM SPSS • フリーのデータ解析環境R

Page 8: 2015-1003 英語コーパス学会ワークショップ使用スライド

•過去のJAECSでのWS(田畑, 2004; 金, 2007; 田中・小林, 2009; 阪上, 2013)

• 過去のLET全国大会WS(小林, 2011; 阪上, 2012, 2014) • “R passes SPSS in scholarly use” (Muenchen, 2014)

Page 9: 2015-1003 英語コーパス学会ワークショップ使用スライド

ただ... RはCLI

Page 10: 2015-1003 英語コーパス学会ワークショップ使用スライド

RをGUIで利用できる http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/Rcmdr-screenshot.html

R Commander(EZR)など

http://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmedEN.html

Page 11: 2015-1003 英語コーパス学会ワークショップ使用スライド

https://sites.google.com/site/casualmacr/home

RをGUIで利用できる Mac用アプリのMacR

Page 12: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://norimune.net/had

(FYI)なんでもExcelでできるHAD

Page 13: 2015-1003 英語コーパス学会ワークショップ使用スライド

さらに一歩進んで便利

(というか楽)なのが

Webアプリケーション

Page 14: 2015-1003 英語コーパス学会ワークショップ使用スライド

これまでの経験から…

赤野・堀・投野(編著)(2014)石川・前田・山崎(編著)(2010)

Page 15: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://www.kisnet.or.jp/nappa/software/star/

便利な

Page 16: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://www.m-sugaya.jp/python/

便利な

Page 17: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://www.hju.ac.jp/~kiriki/anova4/index.html便利な

Page 18: 2015-1003 英語コーパス学会ワークショップ使用スライド

普段Rでやってること

•csvやxlsなどで元データを準備

•Rにデータを読み込む

•パッケージの関数を使って分析

Page 19: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://hoxom-hist.appspot.com/hist.html

こういうのを作りたかった便利な

Page 20: 2015-1003 英語コーパス学会ワークショップ使用スライド

こういうのを作りたかった

http://www.wessa.net/rwasp_cronbach.wasp

便利な

Page 21: 2015-1003 英語コーパス学会ワークショップ使用スライド

Since 2012

http://shiny.rstudio.com/

Page 22: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://shiny.rstudio.com/

Page 23: 2015-1003 英語コーパス学会ワークショップ使用スライド

• 「ハンドブック」の量的チャプターのサンプルを使用して再現できる。

• アウトプットの見方がわかる • 自分でも簡単に分析できる。 • グラフを充実させている。 • Excelのデータをコピペするだけ。

langtest.jp

Page 24: 2015-1003 英語コーパス学会ワークショップ使用スライド

ここにExcelからデータをコピペするだけ

Page 25: 2015-1003 英語コーパス学会ワークショップ使用スライド

行列もいける。

Page 26: 2015-1003 英語コーパス学会ワークショップ使用スライド

コードはアプリ上とGitHubですべて公開

https://github.com/mizumot

Page 27: 2015-1003 英語コーパス学会ワークショップ使用スライド

注意点•誰でもできる… だけに危険。

•ドキュメンテーションがない。

•サーバでRを走らせているので少し重い。

•自由度ゼロ(要望が有り次第改善予定)。

•コードが残らないので再現性に乏しい。

Page 28: 2015-1003 英語コーパス学会ワークショップ使用スライド

• 学部生,修士課程の院生「ハンドブック」などの分析をハンズオンで実行し, 卒論,修論の分析で利用。

• 博士課程の院生,量的研究を行う研究者分析方法の確認,コードを見て自分でRを使う。(langtest.jp だけでは不十分と感じるはずなので)

対象と目的

Page 29: 2015-1003 英語コーパス学会ワークショップ使用スライド
Page 30: 2015-1003 英語コーパス学会ワークショップ使用スライド
Page 31: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://www.routledgetextbooks.com/textbooks/9781138024571/

Page 32: 2015-1003 英語コーパス学会ワークショップ使用スライド

これまでに使用された国 (2015/09/30 現在)

Page 33: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://mizumot.com/handbook

http://langtest.jp/

Page 34: 2015-1003 英語コーパス学会ワークショップ使用スライド

https://twitter.com/CorpusTan/status/640876418801405953

Page 35: 2015-1003 英語コーパス学会ワークショップ使用スライド

Webアプリケーションを使ったコーパス研究のための統計的手法

Page 36: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. コンコーダンサーやウェブサイトからワードリスト作成,もしくは,特定の語・フレーズの頻度抽出(レマ化,頻度の標準化)

2. Rなどの統計解析ソフトで分析

基本的な分析の流れ

Page 37: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. 記述統計と推測統計

2. 統計的検定と効果量

3. 相関と多変量解析

4. 再現性

Webアプリケーションを使ったコーパス研究のための統計解析

Page 38: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. 記述統計と推測統計

2. 統計的検定と効果量

3. 相関と多変量解析

4. 再現性

Webアプリケーションを使ったコーパス研究のための統計解析

Page 39: 2015-1003 英語コーパス学会ワークショップ使用スライド

全体

一部抽出

推測

1. 記述統計と推測統計

Page 40: 2015-1003 英語コーパス学会ワークショップ使用スライド

母集団と標本

母集団

(未知)

標 本

(既知)推定

データ解析

Σ, F, t, p...

http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/

Page 41: 2015-1003 英語コーパス学会ワークショップ使用スライド

母集団μ = 15.3

標本A M = 14.7

標本BM = 15.9

標本C M = 15.2

標本DM = 15.4

標本EM = 15.1 http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/

標本ごとに実現値は違う

Page 42: 2015-1003 英語コーパス学会ワークショップ使用スライド

母集団μ = ?

標本A M = 14.7

http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/

実際はM = μとして推定

Page 43: 2015-1003 英語コーパス学会ワークショップ使用スライド

母集団μ = ?

実際はM = μとして推定

ScoreFrequency

30 40 50 60 70 80

05

1015

20

M = 50.59

Page 44: 2015-1003 英語コーパス学会ワークショップ使用スライド

コーパスの代表性について

The web may not be “representative of anything other than itself,” as Kilgarriff and Grefenstette (2003: 333) point out – “but then neither are other corpora” (Boulton, 2012).

e.g., The web as “corpus”

Page 45: 2015-1003 英語コーパス学会ワークショップ使用スライド

Hands-on 11. langtest.jpを開く2. “Basic Statistics Calculator” を開く3. JAECS2015data の「(1)記述統計」の「語数」を数字のみをコピペ

Basic statistics

Page 46: 2015-1003 英語コーパス学会ワークショップ使用スライド

平均30点,標準偏差10点

MとSD

Page 47: 2015-1003 英語コーパス学会ワークショップ使用スライド

頻度データの扱いに注意

•同じ内容をコーパスから作成したワードリスト(頻度データ)に適用しても意味がない。

•データの種類にあった分析方法を心がける。

Page 48: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. 記述統計と推測統計

2. 統計的検定と効果量

3. 相関と多変量解析

4. 再現性

Webアプリケーションを使ったコーパス研究のための統計解析

Page 49: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. 記述統計と推測統計

2. 統計的検定と効果量

3. 相関と多変量解析

4. 再現性

Webアプリケーションを使ったコーパス研究のための統計解析

Page 50: 2015-1003 英語コーパス学会ワークショップ使用スライド

• Chi-square test: 22%

• Correlation: 17%

• ANOVA: 12%

• t-test: 11%

• log-linear analysis: 10%

• Followed by non-parametric techniques, multiple regression, logistic regression, etc.

どのような分析が多いか?“Quantitative research methods and study quality in Learner Corpus Research” Paquot & Plonsky (2015@LCR) reported by Dr. Akira Murakami https://twitter.com/mrkm_a/status/642802550928998400

Page 51: 2015-1003 英語コーパス学会ワークショップ使用スライド

カイ2乗検定

コーパスA

コーパスB 合計

語X 40

語Y 40

合計 40 40 80

Page 52: 2015-1003 英語コーパス学会ワークショップ使用スライド

カイ2乗検定

コーパスA

コーパスB 合計

語X 20 20 40

語Y 20 20 40

合計 40 40 80

Page 53: 2015-1003 英語コーパス学会ワークショップ使用スライド

左が期待値,右が実測値

コーパスA

コーパスB 合計

語X 20 20 40

語Y 20 20 40

合計 40 40 80

コーパスA

コーパスB 合計

語X 15 25 40

語Y 25 15 40

合計 40 40 80

Page 54: 2015-1003 英語コーパス学会ワークショップ使用スライド

カイ2乗値のイメージ

コーパスA

コーパスB 合計

語X 20 20 40

語Y 20 20 40

合計 40 40 80

コーパスA

コーパスB 合計

語X 15 25 40

語Y 25 15 40

合計 40 40 80

ズレ

Page 55: 2015-1003 英語コーパス学会ワークショップ使用スライド

全体

一部抽出

推測

母集団から抽出

Page 56: 2015-1003 英語コーパス学会ワークショップ使用スライド

0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

df=1のときのカイ2乗分布曲線

Chi-square value

相対度数(確率密度) 同じ 違う

Page 57: 2015-1003 英語コーパス学会ワークショップ使用スライド

カイ2乗値のイメージ

コーパスA

コーパスB 合計

語X 20 20 40

語Y 20 20 40

合計 40 40 80

コーパスA

コーパスB 合計

語X 15 25 40

語Y 25 15 40

合計 40 40 80

ズレ

(15-20)^2/20+(25-20)^2/20+(25-20)^2/20+(15-20)^2/20 = 5

Page 58: 2015-1003 英語コーパス学会ワークショップ使用スライド

同じ 違う

0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

df=1のときのカイ2乗分布曲線

Chi-square value

相対度数(確率密度)

ズレ

Page 59: 2015-1003 英語コーパス学会ワークショップ使用スライド

結果の見方

• X-squared: カイ2乗値(大きいと「ズレ」が大きい)

• df: 自由度(行の数 − 1)×(列の数 − 1)

• p-value: p 値が0.05以下なら有意差あり

• 特定のセルの「期待値」が5以下の場合,カイ2乗検定は不正確

Page 60: 2015-1003 英語コーパス学会ワークショップ使用スライド

残差分析

Page 61: 2015-1003 英語コーパス学会ワークショップ使用スライド

Hands-on 21. langtest.jpを開く2. “Chi-square Test” を開く3. JAECS2015dataの「(2)カイ2乗」の該当部分をコピペ

Chi-square test

Page 62: 2015-1003 英語コーパス学会ワークショップ使用スライド

コロケーション指標

• 相互情報量(MI)

• tスコア,zスコア

• ダイス係数,ジャッカード係数,コサイン類似度,シンプソン係数

Page 63: 2015-1003 英語コーパス学会ワークショップ使用スライド

コロケーション指標

石川(2012) 石川(2008)

Page 64: 2015-1003 英語コーパス学会ワークショップ使用スライド

で分析を実行する場合

← Shinyで使用

← Shinyで使用

この部分をRで使用

↑ワーキングディレクトリなどのファイルを参照

Page 65: 2015-1003 英語コーパス学会ワークショップ使用スライド

で分析を実行する場合(カイ2乗検定)

Page 66: 2015-1003 英語コーパス学会ワークショップ使用スライド

Hands-on 3

「小林(2015)の例」のセルの値をすべて10倍にして,10倍にする前と後で p 値がどう変化するか確認する。

Introduction to effect sizes

Page 67: 2015-1003 英語コーパス学会ワークショップ使用スライド

統計的に有意な

p < .05(0.05以下)

statistically significant

Page 68: 2015-1003 英語コーパス学会ワークショップ使用スライド

• 統計的検定の問題点- サンプルサイズが影響。- 有意差あり・なしのみの判断。- p 値は実質的な差を示さない。

効果量(effect size)

Page 69: 2015-1003 英語コーパス学会ワークショップ使用スライド

• 効果量(effect size)- サンプルサイズに影響されない。- 効果の大小を示す。- 実質的な差を確認できる。

• APA 6th では報告が「不可欠」

Page 70: 2015-1003 英語コーパス学会ワークショップ使用スライド

Cumming (2012)

ストップ p 値信仰

APA 6th (2009) 大久保・岡田 (2009)

「統計改革」

Page 71: 2015-1003 英語コーパス学会ワークショップ使用スライド

The Basic and Applied Social Psychology

http://www.tandfonline.com/doi/abs/10.1080/01973533.2015.1012991#.Vb3tuJPtlBd

p値(帰無仮説検定)禁止!

Page 72: 2015-1003 英語コーパス学会ワークショップ使用スライド

"it is important to note that one cannot use the chi-square value as a measure of effect size, i.e. as an indication of how strong the correlation between the two investigated variables is. This is due to the fact that the chi-square value is dependent on the effect size, but also on the sample size."

Gries (2009, p. 196)

Page 73: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://www.mizumot.com/method/06-05_Kobayashi.pdf

Page 74: 2015-1003 英語コーパス学会ワークショップ使用スライド

“log ratio as a means of taking effect size into consideration in the ranking of keyword results is being incorporated into a number of programs” (p. 105).

Culpeper, J., & Demmen, J. (2015). Keywords. In D. Biber & R. Reppen (Eds.), The Cambridge handbook of English corpus linguistics (pp. 90–105). Cambridge University Press.

コーパス言語学でも

log ratio = ”the binary log of the ratio of relative frequencies” (http://cass.lancs.ac.uk/?p=1133)

Page 75: 2015-1003 英語コーパス学会ワークショップ使用スライド

https://benjamins.com/#catalog/journals/ijcl.20.3.01ant/details

http://www.laurenceanthony.net/software/protant/

Page 76: 2015-1003 英語コーパス学会ワークショップ使用スライド

CasualConc https://sites.google.com/site/casualconcj/

Version 2.0: 効果量 r を特徴語抽出に利用

Page 77: 2015-1003 英語コーパス学会ワークショップ使用スライド

langtest.jp — Cramer’s V

※ 行と列のいずれかが2のクロス表の場合は,

 M=2となり,ファイ係数(四分点相関係数)と一致。

(一般的な)基準:

V = 0.1 効果量小

V = 0.3 効果量中

V = 0.5 効果量大

Vは0から1の値をとる(相関係数と同じ)

(with 95% CI)

Page 78: 2015-1003 英語コーパス学会ワークショップ使用スライド

Cramer’s V 2×2の分割表

(= φ係数)の場合(四分点)相関係数の絶対値を求める

= 0.25

コーパスA語X

コーパスA語Y

コーパスB語X

コーパスB語Y

Page 79: 2015-1003 英語コーパス学会ワークショップ使用スライド

langtest.jp — オッズ比

語Xは語Yと比べると,コーパスAよりもコーパスBで使われやすい。

コーパスA(語X): 15/25 = 0.60コーパスB(語X): 25/15 = 1.6667オッズ比: 0.6/1.6667 = 0.36

オッズ比 = 1 は2つのコーパスで差がないことを意味する。1以上だとコーパスA,1以下だとコーパスBで使われやすいという解釈になる。

(2×2の分割表のときのみ表示) (with 95% CI)

(1 / 0.36 = 2.778倍)

Page 80: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://ucrel.lancs.ac.uk/llwizard.html

Page 81: 2015-1003 英語コーパス学会ワークショップ使用スライド

Hands-on 41. langtest.jpを開く2. “Chi-square Test” を開く3. JAECS2015dataの「(2)カイ2乗」の該当部分をコピペ4. オッズ比,クラメールのV(φ係数)を確認

Calculating effect sizes

Page 82: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. 記述統計と推測統計

2. 統計的検定と効果量

3. 相関と多変量解析

4. 再現性

Webアプリケーションを使ったコーパス研究のための統計解析

Page 83: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. 記述統計と推測統計

2. 統計的検定と効果量

3. 相関と多変量解析

4. 再現性

Webアプリケーションを使ったコーパス研究のための統計解析

Page 84: 2015-1003 英語コーパス学会ワークショップ使用スライド

相関係数•  2

1 1

.00 ± . 20 .00

.20 ± . 40

.40 ± . 70

.70 ± 1.00

Page 85: 2015-1003 英語コーパス学会ワークショップ使用スライド

赤野・堀・投野(2014)「英語教師のためのコーパス活用ガイド」(p. 204)

Page 86: 2015-1003 英語コーパス学会ワークショップ使用スライド

エッセイの総語数

英語習熟度

エッセイの総語数英語習熟度

エッセイの総語数

英語習熟度

エッセイの総語数

英語習熟度

エッセイ中のエラー数

英語習熟度

エッセイ中のエラー数

英語習熟度

エッセイ中のエラー数

英語習熟度

エッセイ中のエラー数

英語習熟度

�����������

r = .00 r = .30 r = .70 r = .90

r = .00 r = -.30 r = -.70 r = -.90

相関係数の効果量は「相関係数そのもの」で,

一般的には,0.1(小),0.3(中),0.5(大)

Page 87: 2015-1003 英語コーパス学会ワークショップ使用スライド

Hands-on 51. langtest.jpを開く2. “Correlation” を開く3. JAECS2015dataの「(3)相関・多変量」の該当部分をコピペ

Correlation

Page 88: 2015-1003 英語コーパス学会ワークショップ使用スライド

多変量解析

Page 89: 2015-1003 英語コーパス学会ワークショップ使用スライド

(大まかな)目的クラスター分析(cluster analysis) → データを分類する 因子分析(exploratory factor analysis) → データの潜在因子を探る 主成分分析(principal component analysis) → データを圧縮する,結合する コレスポンデンス分析(correspondence analysis) → データを圧縮する(少ない次元にまとめる)

Page 90: 2015-1003 英語コーパス学会ワークショップ使用スライド

主成分分析のイメージ

変数間の情報を圧縮して「合成得点」(主成分)を作る

Page 91: 2015-1003 英語コーパス学会ワークショップ使用スライド

コレスポンデンス分析のイメージ

行と列の関係(相関)が

最大になるように並べ替える

Page 92: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://www.mizumot.com/files/2009_corpus2.pdf

Page 93: 2015-1003 英語コーパス学会ワークショップ使用スライド

Tabata, T. (1995). Narrative style and the frequencies of very common words: A corpus-based approach to Dickens's first person and third person narratives. English Corpus Studies, 2, 91–109. Retrieved from http://www.lang.osaka-u.ac.jp/~tabata/papers/1995.pdf

Narrative Style & the Frequencies of Very Common Words 99

-200

-150

-100

-50

0

50

100

150

200

-400 -300 -200 -100 0 100 200 300 400

2nd PC (8.15 %)

1st PC (20.15 %)

the

and

be

of

a

in(p)

his

have

to(i)

he

with

to(p)

say

it

as

at

that(c)

on(p)

by(p)

her(a)

which(r)

him

for(p)

but

she

not

from

whenthis

all

an

they

look

or

out

there

into

one

who(r)

that(d)

very

if

little

up(adv)

go

so(a.d.)

do

upon(p)

take

their

make

no(a)

come

them

would

see

down

some

could

moreold

man

then

beforeher(pron)

other

over

again

itsthat(r)

time

two

than

about

head

himself

gentleman

knowwhat

reply aftermuch

any

face

great

hand

like(p)

eyes

turn

mother

get

such

on(adv)

seem

backsit

think

way

young

never

Figure 1. First person narratives versus Third person narratives: Word-plot(for the 100 most common words of the narrative corpus).

-100

0

100

200

300

400

500

600

-2000 -1500 -1000 -500 0 500 1000 1500

2nd PC

1st PC

David#1

David#2

David#3

David#4David#5

Esther#1

Esther#2Esther#3Esther#4

Pip#1

Pip#2Pip#3 Pip#4

SB#1

SB#2

SB#3

PP#1

PP#2

PP#3

OT#1

OT#2OT#3 OT#4

NN#1

NN#2

NN#3

BH#1

BH#2TTC#1

TTC#2

TTC#3

OMF#1

OMF#2

OMF#3

ED#1

ED#2

ED#3

First person narratives

Third person narratives

Figure 2. First person narratives versus Third person narratives: Texts in 4000-word segments (based on the 100 most common words of the narrative corpus).

Page 94: 2015-1003 英語コーパス学会ワークショップ使用スライド

内田 諭 (2015).「CEFR レベルに基づいた教材コーパス—レベル別基準特性の抽出に向けて」『英語コーパス研究』22, 87–100.

Page 95: 2015-1003 英語コーパス学会ワークショップ使用スライド

Tono, Y. (2013). Criterial feature extraction using parallel learner corpora and machine learning. In A. Díaz-Negrillo, N. Ballier, & P. Thompson (Eds.), Automatic treatment and analysis of learner corpus data (pp. 169–203). Amsterdam/Philadelphia: John Benjamins.

Page 96: 2015-1003 英語コーパス学会ワークショップ使用スライド

Tono, Y. (2013). Criterial feature extraction using parallel learner corpora and machine learning. In A. Díaz-Negrillo, N. Ballier, & P. Thompson (Eds.), Automatic treatment and analysis of learner corpus data (pp. 169–203). Amsterdam/Philadelphia: John Benjamins.

Page 97: 2015-1003 英語コーパス学会ワークショップ使用スライド

Hands-on 61. langtest.jpを開く

2. "Cluster Analysis","Principal Component Analysis", "Correspondence

Analysis"の3つを確認

3. JAECS2015data の「(3)相関・多変量」の該当部分をコピペ

Multivariate analysis

Page 98: 2015-1003 英語コーパス学会ワークショップ使用スライド

参考

Page 99: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://www.lang.osaka-u.ac.jp/~tabata/JAECS2004/multi.html

http://www.lang.osaka-u.ac.jp/~tabata/JAECS2004/JAECS2004hand.pdf

Page 100: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. 記述統計と推測統計

2. 統計的検定と効果量

3. 相関と多変量解析

4. 再現性

Webアプリケーションを使ったコーパス研究のための統計解析

Page 101: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. 記述統計と推測統計

2. 統計的検定と効果量

3. 相関と多変量解析

4. 再現性

Webアプリケーションを使ったコーパス研究のための統計解析

Page 102: 2015-1003 英語コーパス学会ワークショップ使用スライド

1. コンコーダンサーやウェブサイトからワードリスト作成,もしくは,特定の語・フレーズの頻度抽出(レマ化,頻度の標準化)

2. Rなどの統計解析ソフトで分析

コーパス研究の再現性は?

Page 103: 2015-1003 英語コーパス学会ワークショップ使用スライド

前田・山森(編著)(2004)

「必要な情報はきちんと書く。情報は追試できるように書く。読者にわかりやすく書く。」(p. 172)

Page 104: 2015-1003 英語コーパス学会ワークショップ使用スライド

Porte (2012)

Page 105: 2015-1003 英語コーパス学会ワークショップ使用スライド

Replication や メタ分析に

必要な情報を書く

Page 106: 2015-1003 英語コーパス学会ワークショップ使用スライド

「ダメ。ゼッタイ。」

•平均・標準偏差の記載なし。•人数・総数が不明。•信頼性係数などの報告なし。• p 値のみの報告。(* がたくさん。)

Page 107: 2015-1003 英語コーパス学会ワークショップ使用スライド

(分析の)再現に必要な情報

•サンプルサイズ,平均,標準偏差•相関係数(対応ありデータ,SEMなど)

•信頼性係数(平均への回帰,相関の希薄化       の修正など)

Page 108: 2015-1003 英語コーパス学会ワークショップ使用スライド

L2研究における「統計改革」

•「統計改革」がL2研究でも進んでいる。

• 各ジャーナルで Editorial や Guideline,特別号に方針が掲載されている。

http://onlinelibrary.wiley.com/doi/10.1111/lang.2015.65.issue-S1/issuetoc

Page 109: 2015-1003 英語コーパス学会ワークショップ使用スライド

L2研究における「統計改革」Larson-Hall, J., & Plonsky, L. (2015). Reporting and interpreting quantitative research findings: What gets reported and recommendations for the field. Language Learning, 65/Supp. 1, 125–157. doi:10.1111/lang.12115

1. 記述統計報告の改善

2. 効果量とその信頼区間の報告

3. 測定道具の信頼性の報告

4. データ可視化の重視

5. データの公開

Page 110: 2015-1003 英語コーパス学会ワークショップ使用スライド

L2研究における「統計改革」Larson-Hall, J., & Plonsky, L. (2015). Reporting and interpreting quantitative research findings: What gets reported and recommendations for the field. Language Learning, 65/Supp. 1, 125–157. doi:10.1111/lang.12115

1. 記述統計報告の改善

2. 効果量とその信頼区間の報告

3. 測定道具の信頼性の報告

4. データ可視化の重視

5. データの公開

Page 111: 2015-1003 英語コーパス学会ワークショップ使用スライド

再現性は研究の基本

• データの二次利用を推奨すべき。例えば,使用したデータを(個人情報に気をつけて)オンラインなどで公開。  

• Rなどのコードも 公開すれば,誰でも再現可能。

Page 112: 2015-1003 英語コーパス学会ワークショップ使用スライド

コーパス研究の場合• 分析の各ステップで使用したデータやメモ書きは残しておく。論文中では可能な限り記載。  

• 研究を生業とするのなら,データやコードの公開,分析再現の練習を惜しまない。

Page 113: 2015-1003 英語コーパス学会ワークショップ使用スライド

どうやって  やればいいですか?

Page 114: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://mizumot.com/files/ecs2015.html

Page 115: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://onlinelibrary.wiley.com/doi/10.1111/lang.12134/full

Page 116: 2015-1003 英語コーパス学会ワークショップ使用スライド

http://www.iris-database.org/iris/app/home/index;jsessionid=CB9E46535FA0D81136CADA87BC414BA0

Page 117: 2015-1003 英語コーパス学会ワークショップ使用スライド

https://osf.io/

Open Science Framework

Dataverse Projecthttp://dataverse.org/

Page 118: 2015-1003 英語コーパス学会ワークショップ使用スライド

まとめ• langtest.jp

-「ハンドブック」などの分析確認- Rへの橋渡し

• コーパス研究のための統計解析 記述・推測統計,検定・効果量,相関・多変量解析

• 進む「統計改革」と研究の透明化

Page 119: 2015-1003 英語コーパス学会ワークショップ使用スライド

を使って  コーパス研究をはじめたい人

http://www.slideshare.net/langstat/presentationshttp://www.slideshare.net/sakaue/presentations