title 琉球大学欧米文化論集 = ryudai review of euro-american...

24
Title コーパス言語学 : 言語教育への応用と分析の実際 Author(s) 金城, 克哉 Citation 琉球大学欧米文化論集 = Ryudai Review of Euro-American Studies(58): 27-49 Issue Date 2014-03-31 URL http://hdl.handle.net/20.500.12000/29035 Rights

Upload: others

Post on 24-Feb-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

Title コーパス言語学 : 言語教育への応用と分析の実際

Author(s) 金城, 克哉

Citation 琉球大学欧米文化論集 = Ryudai Review of Euro-AmericanStudies(58): 27-49

Issue Date 2014-03-31

URL http://hdl.handle.net/20.500.12000/29035

Rights

Page 2: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

RyudaiReviewofEuw-Ame伽α"StudiesNo.58,2014

コーパス言語学:

言語教育への応用と分析の実際

金城克哉

世紀が変わる前後から研究の場でも教育の場でも盛んに「コーパス」という

言葉を耳にするようになった。「コーパスに基づく○○の研究」といったもの

から、「コーパスを利用した辞書」(『コウビルド英英辞典』.『ウィズダム英和・

和英辞典』等)、また国立国語研究所が構築を進めてきた「書き言葉均衡コー

パス」といったものまで様々な用いられ方をしている。また、NHKの英会話

番組「100語でスタート1英会話」(2003~2005年放映)では「コーパスくん」

というキャラクターが登場し、この「コーパス」という言葉が一般に広く知ら

れるようになった(投野2006)。また世紀が改まって以降、現在までに様々な

コーパス関連の論文や書籍が世に出たが、あらためてこの「コーパス」とは一

体何なのかを問われると一般の人はもとより言語研究を専門としている者でさ

え、答えに困ってしまうことも少なくない。コーパスは言語研究や言語教育と

どのような接点を持つものなのであろうか。本論ではコーパスをめぐる基本的

な事柄からその応用、簡単ではあるが実際の分析の手順までを概観することを

目的とする。

1.コーパスとは何か?

LongmanActiveStudyDictionaryでは、Corpusを"alargecollectionof

writtenorspokenlanguage,usedforstudyingthelanguage"と定義づけて

いる。訳すと「研究に用いられる書き言葉・話し言葉双方の膨大な集積(物)」

となるであろうか。しかしながら、これだけでは大変大雑把な説明で具体的に

どういったものを指すのかわかりにくい。前川(2009)は次のようにコーパス

-27-

Page 3: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

を特徴づけている:

言語研究のための大規模なデータ。対象とする言語において実際に用い

られた用例を、その言語の実'情を正確に反映するように組織的に収集し

て、公開したもの。通常コンピュータで利用する。品詞』情報などの検索

用」情報を付加したものも多い。

コンピュータの普及以前の言語研究における用例収集は、書籍を購入し、その

中から用例を探し出し、ノートやカードに抜き書きや切り貼りをするという大

変労力の要る作業をしていた。しかしながら、パーソナル・コンピュータが個

人レベルで活用できるようになり、従来は個人で取り扱うことの難しかった大

量のデータ(コーパス)を利用した言語調査・研究が可能になり、教育へと応

用されるようになってきた(梅咲2005)。

2.なぜコーパスを利用するのか?

Chomskyが言語研究の目標を言語能力の解明に設定して以来、理論言語学

は主に研究者の内省に基づいて文の適格性の判断がなされてきた。Chomsky

が非文とした*Colorlessgreenideassleepfuriouslyという有名な文を目にし

たことがある方も多いと思う。このような例に限らず、文法の中心を成す統語

論の議論は、そのほとんどが研究者が内省によって作成した文をもとに構成さ

れてきた。しかしながら、このような文法'性の判断は言語事実に反するデータ

を是としたり、研究者の個人語(idiolect)に影響されたりする恐れもある(赤

野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

スの果たす役割は特定の文法理論の構築に貢献するというよりは、より「経

験主義的な言語記述」(斎藤ほか2005:4)を目指した一つの方法論というこ

とができるだろう。研究という側面から言えば、具体的には当該言語の大量

の運用サンプルを収集し、コロケーション'情報(後述)や文法’情報、文体‘情

報、社会言語学的情報など様々な情報を容易に検索し得られる点にある(大曾

2006;砂川2011;真島2011)。さらに、言語教育という視点からコーパスを

見ると、実際の言語の使用状況が把握できることで、それが教材開発や教材分

-28-

Page 4: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

析へとつながる(石川2008)。また学習者の産出したデータをもとに誤用の傾

向を分析するばかりでなく、学習者自らが主体的に学ぶという学びの変化へと

つながっていく可能性を持つと言える。

3.どのようなコーパスがあるのか?

新聞記事をCD-ROM化したもの、また(利用は一部の者に限られているが)

大学図書館などを通じて利用できるオンラインの新聞記事データベースや雑誌

データベースなどは「広義のコーパス」と呼ばれ、言語研究の目的のためにデ

ザインされたコンピュータ処理が可能な大規模なデータという「狭義のコーパ

ス」とは区別される。では後者のコーパスにはどのようなものがあり、いかに

活用されているのだろうか。以下、代表的なコーパスを紹介しよう。

3.1ブラウン・コーパス(BrownCorpus)

上述したように、コーパスからは様々な情報を得ることができるが、特定

の1冊の本を対象とした語棄研究や索引作成等ではなく、広く当該言語の書

き言葉もしくは話し言葉の代表サンプルとしてのコーパスを構築するためには

どのようなジャンルからどの程度サンプリングを行うかという綿密な計画が必

要となる。ブラウンコーパスはそういった計画に基づいて構築された世界初の

電子コーパスで、Brown大学のW.N.FrancisとH.Kuceraによって1964年に

完成したものである。総語数は約100万語、1961年の編集当時にアメリカで

出版された書籍や新聞等16のテキストカテゴリーを代表する500のテキスト

からそれぞれ平均2,000語を抽出している。このように、単に入手可能な書籍

から任意に一定の語数を抽出するのではなく、明確な設計に基づくコーパスで

あるという点でもこのブラウンコーパスの持つ意義は大きい(赤野2006,後藤

2003)。

-29-

Page 5: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

3.2ブリテイツシユ・ナシヨナル・コーパス(BritishNationalCorpus)

これは1991年に収集が始められ1994年に完成したイギリス英語の書き言

葉・話し言葉双方の様々なジャンルを代表する1億語からなる大規模なコーパ

スである。そのうち書き言葉は全体の90%を占め、地方紙・全国紙の新聞を

始め、専門誌から一般大衆向けの雑誌・小説、手紙の類に至るまで様々なテキ

ストから構成されている。話し言葉のデータは全体の10%程度であり、社会

階級や年齢・地域の異なるボランティアが録音した会話資料、ビジネスシーン

から国会の会議、ラジオ番組まで、こちらも様々なテキストから成る。1994

年の完成後は新しいテキストは加えられていないが、2001年と2007年に改

訂が行われている。最新版のBNCXMLEdition(DVD版)は個人でも法人で

も購入できるが、ウェブ上でも簡単な検索を行うことができる。BNCのホー

ムページ(http://www.natcorp.ox.ac.uk/)を利用することもできるし、ブリ

ガムヤング大学のMarkDavies氏が運営するBYU-BNC(http://corpus.byu.

edu/bnc/)のサイトを利用してもよい(石川ほか2010)。

3.3バンク・オブ・イングリッシュ(TheBankofEngIishTM)

TheBankofEnglishTMとは、約6億5千万語におよぶ、文語・口語英語の

データベースである。このデータベースは1990年以降収集された何百種類も

の文語・口語の様々な‘情報から成り立っており、イギリス英語(約40%)、ア

メリカ英語(30%)、オーストラリア英語・ニュージーランド英語・カナダ英

語(30%)から構成されている。文語は、おもに世界中の新聞、雑誌、テレビ、

ラジオ、文庫本に始まり、ウェブサイトやチラシ、カタログ、レポート、手紙

に至るまで、さまざまな素材を‘情報源としている。また、口語は日常会話やミー

ティング、インタビュー、議論を始め、テレビやラジオの録音などを収録して

いる。全データベースのうち、約4千万語はこのような口語体である(参照引

用:JapanKnowledgeサイト)

-30-

Page 6: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

3.4コーパス・オブ・コンテンポラリー・アメリカン・イングリッシュ

(CorpusofcontemporaryAmericanEnglish,COCA)

オンライン上で無料で利用できるコーパスとしては現在最大の均衡コーパ

ス(2011年8月現在、総語数4億2500万語)。ブリガムヤング大学(Brigham

YoungUniversity)で作成されているもので、1990年から2011年(現在)ま

での話し言葉、小説、一般雑誌、新聞、学術誌などから毎年2000万語を追

加している。ウェブサイトではErinM.Shaw氏によるデータ駆動型語棄指導

(TeachingVocabularyThroughData-drivenLearning,英文)も参考にする

ことができる(http://corpus.byu.edu/coca/)。

3.5現代日本語書き言葉均衡コーパス

日本では、大学共同利用機関法人人間文化研究機構国立国語研究所と文部科

学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で「現

代日本語書き言葉均衡コーパス」(BCCWJ:BalancedCorpusofContemporary

WrittenJapanese)という大規模コーパスを開発している。これは約1億480

万語からなる書き言葉を対象としたコーパスで、2013年8月現在、ウエブ上

の「少納言」というサイトでこのコーパスを利用し検索を行うことができる。

また、2011年夏からは形態論情報(形態素解析情報)を利用した検索サイト

も開設されている。

3.6学習者コーパス

上述した5つのコーパスは母語話者の言語使用例を収集したものであるが、

学習者コーパスとは「外国語学習者によって実際に用いられた用例を集積した

もの」と考えていただければいい。つまり、外国語学習者が産出した言語を収

集したものを指す。学習者コーパスも学習レベルを統一するために単純均一な

タスクを学習者に課し横断的にサンプリングを行ったGeneralLearnerCorpus

-31-

Page 7: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

と、特定の目的に応じた多様なタスク・調査項目・学習者・サンプリングのデ

ザインを行い実証研究に生かそうとするSpecificLearnerCorpusがある(藤

田1998)。

もっとも大規模なものはベルギーのSylvianeGranger教授がコーディ

ネーターを務める国際学習者英語コーパス(InternationalCorpusofLearner

English,ICLE)であろう。現在、Version2のCD付きハンドブックが発売さ

れているが、これには日本を含む世界16か国の中上級レベル~上級レベル学

習者の370万語から成るライテイングデータが収められている。その他、ロ

ングマン学習者コーパス(LongmanLearners'Corpus)は1000万語から成り、

様々な背景を持つ多様なレベルの学習者のデータを扱っている。日本では神戸

大学の石川‘慎一郎氏が構築したアジア圏英語学習者コーパス(CEEAUS、日本

人と中国人の英語学習者、英語母語話者の英語作文および日本語母語話者の日

本語作文から成る)や名古屋大学の杉浦正利氏によるNagoyaInterlanguage

CorpusofEnglish(NICE)などがある。日本語に関しては、OPIを利用した

KYコーパスなどがあるが、現在東京外国語大もEラーニングを活用した日本

語学習者言語コーパスの作成および日本語学習者誤用コーパス作成を進めてい

る(国立国語研究所(2001))。

4.どのような研究がなされているのか

コーパスを用いた言語研究はコーパス言語学(corpuslinguistics)と呼ばれ、

「コンピュータで処理可能な電子コーパスを検索して言語分析・記述を行う言

語学一般」を指すとされる(需藤ほか2005:3)。言語研究には従来、理論言

語学の核を成すとされる音韻・形態・統語・意味のそれぞれの「論」があり、

それとは別に社会言語学や歴史言語学などの名称が用いられてきた。それに対

して「コーパス言語学」という名称は比較的新しいもので、「コーパス」とい

う言語資料を名に関するという点で従来の手法とは異なっており、パーソナル・

コンピュータの普及・操作性や容量の向上といった背景も手伝って1990年代

から広まってきたものである(田野村2010)。

-32-

Page 8: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

4.1.コロケーション研究

ある語が現れる際に、その他の特定の語との結びつきがあると認められる場

合、言い換えれば語の現れ方に一定のパターンが認められる場合、そのパター

ンを「コロケーション」と言う(赤野2006)。田野村(2009)はコロケーシヨ

ン研究は「言語の運用に関わる方面での応用的価値が期待される」としている。

これには、辞書の編集、外国語教育ならびに学習、母国語の運用などの実用的

な分野での利用が含まれる。実際に、Lewis(2000)等の語棄中心の指導法では

指導項目の中でも中心的な役割を担っている(赤野2006)。

国立‘情報学研究所はヤフー株式会社との契約に基づき2004年4月から

2005年10月までに蓄積された「Yahoo!知恵袋」のデータ質問約311万件・

回答約1,347万件のデータを提供している。金城(2011)では、この「Yahoo!

知恵袋コーパス第一弾」を利用し、「読みにくい」・「読みづらい」といった表

現に現れる「~にくい」と「~づらい」について調査を行い、(i)「~にくい」

表現が「~づらい」表現の約5倍多く用いられていること、(ii)出現数に偏り

があるにもかかわらず、存在動詞「居る」とのコロケーションでは「居づらい」

が「居にくい」を上回ること、(iii)従来の指摘に反して「~づらい」がコロケー

ションとして無意志動詞と結びつくケースがあることなどが明らかとなってい

る。

4.2.コーパス意味論

マイケル・スタツブズ(2006)に代表されるコーパスを用いた語棄意味論

では、「意味は使用である」という考え方をベースに、「語の意味は、それがい

かに句の中に組み込まれるか、それがいかに社会的状況の中で用いられるかに

よって決まる」(2006:26)とし、「大規模な集成テクストから得られた観察デー

タを主な証拠として語や句の用法や意味を説明する(2006:27)。

-33-

Page 9: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

4.3.認知言語学研究

認知言語学の分野へのコーパス研究の応用として、アリス・ダイグナン(Alice

Daignan)のメタファー研究などがあげられる(ダイグナン2010)。概念メタ

フアー理論の先駆け的研究であるLakoff&Johnson(1980)ではメタフアーが

身体的経験に基づき思考や知識を構成するものであり、それがイデオロギー的

'性格を持つことなどが提唱されている。ダイグナンの研究では上述したThe

BankofEnglishコーパスのうち、タグ付け・修正がされた5600万語を用いて、

これら概念メタファー理論の提唱する事柄がコーパスデータを通して実際に観

察できるかどうかを調査・検討している。

4.4.通時的研究(歴史言語学)

2010年に公開されたTheCorpusofHistoricalAmericanEnglish(COHA)

はアメリカのブリガムヤング大学(BrighamYoungUniversity,BYU)で構築

運営されているものである。COHAは1810年代から2000年代までの過去

200年のアメリカ英語からなる4億1千万語の大規模コーパスであり、これに

よって英語の通時的な変化を知ることが可能となる。柴崎(2010)はCOHA

を用いてmustneed(s)およびmustnecessarilyとその異形態(mustnedesなど)

の使用状況を調査し、これらの表現が1830年代から1840年代をピークに徐々

に使用率が下がり、1930年代以降の頻度はかなり低く、現在ではほとんど用

いられなくなっていることを明らかにしている。

一方、日本語においても国会会議録を用いた通時的研究がなされている。国

会会議録は1947年から現在までの60年余りの日本語の話し言葉の姿を捉え

た言語研究において貴重な資料である(話し言葉としての国会会議録の性格付

けに関しては松田(2008)の議論を参照のこと)。田野村(2008,2009)は

この国会会議録を用いて、現在用いられている「十分な」・「個人的な」は過

去において「十分の」・「個人的の」という言い方がなされており、「の」から

「な」への移行が確認できること、「属しない>属さない」などの一宇漢語複合

-34-

Page 10: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

サ変動詞の活用の変化とゆれを詳細に追うことができる(五段化の率が高まっ

ている)としている。また、服部(2007)は国会会議録データに基づき「全然」

の用法を分析し、遅くとも昭和20年代ごろまでに否定との共起の制約が強ま

るようになったことを明らかにしている。

5.言語教育への応用

5.1.英語教育

梅咲(2011)はコーパス言語学と英語教育の関わりを表1のようにまとめ

ている。このうち、母語話者コーパスを利用した研究として上述したコーパ

スを用いたコロケーション研究があるが、その核心は、「語はパターンを成す」

ということであった(赤野2006)oLewis(2000)等は語棄中心の指導法を提唱

し、「自然で母語話者に近い表現を生み出す」ためには語に関するコロケーショ

ン能力(collocationalcompetence)が不可欠であるとする。このようなコロケー

ションや文法パターンは句表現(phraseology)と呼ばれ、このフレーズが1つ

の単位として意味を担い機能すると考える。コンピュータに例えるならば、文

型や文法項目といったハードウェアを持っていてもそれだけで文が成り立つわ

けではなく、そこに単語というソフトウェアが必要となる。この2つが組み

合わさってコンピュータが動くように、従来は文法・文型という枠組みを与え、

その枠に組み込むために、生徒・学生にできるだけたくさんの単語を覚えるよ

う指導がなされてきた。だが、語にはそれぞれ共起しやすい仲間がおり、そう

いった仲間とともにフレーズとして語を習得させるようにする、そのような視

点が必要なのではないかという提言がなされている。

母語話者コーパスを利用した言語研究については4章で既に述べた。非母

語話者(学習者)コーパスを利用した言語習得研究の代表的なものは誤用分

析である。InternationalCorpusofLearnerEnglishのプロジェクトでは、11

の異なる母語の英語学習者の作文データを収集し、エラー分析が行われてい

る(藤田1998)また、野地(2008)は「彼は犬が好きだ」のような状態動詞

-35-

Page 11: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

での目的格表示が初級L2英語において目的格ではなく主格表示になるエラー

が起こるのではないかとして発話コーパス(NICTJLECorpus)を用いて調査

を行っている。これは全米外国語教育協会(ACTL)と(株)アルクが開発した

StandardSpeakingTestの音声資料を書き起こしてタグ付けしたものである。

表1コーパス言語学と英語教育との関わり(梅咲(2011)より)

コーパス分析による言

語学的研究成果の英語

母語話者コーパスを利用した

言語研究

歴史言語学、社会言語学、語蕊文

法、ディスコース・音声音韻研究、

第一言語習得

教育への応用 非母語話者(学習者)コーパス

を利用した言語習得研究第二言語習得(誤用分析)

コーパス自体の教育利間接利用

教材・テスト作成、語蕊リスト作

成・教材評価

用直接利用

コーパス言語学教育目的

英語学習目的

コーパスの間接利用としては、OUPのGradedReaderシリーズや中高の教

科書をコーパス化し、コンコーダンスソフトを利用して目的とする語句をキー

ワードとしてKWIC(KeyWordsInContext)形式で出力し学習者に提示し、

それによって帰納的学習が効果的であると考えられる文法項目・語法の機能的・

発見的な学習を目指すという試みがあげられる。藤田(1998)は中学生に不

定詞の用法を整理させるために400語レベルの英語教材をコーパスにしてコ

ンコーダンスソフトを利用した教材を作成し、機能的学習を試みている。

コーパス自体の直接利用を教育に取り入れる試みとして、中篠等(2006)

は初級英語学習者を対象とした日英パラレルコーパスの利用を試み、DDL

(データ駆動型学習)はCALLで対応できない部分をカバーでき、「自分で調

べて理解する」方式の文法学習は英語の苦手意識の強い学習者の興味を引き出

すことがわかったとし、remedialgrammar(文法再学習)の指導方法として

有効であるとしている。

また中島(2008)は、従来の短時間で効率的に学ばせる演緯的教授法が英

語を「暗記科目」として学習者に定着させてしまったのではないかとの反省か

ら、限られた時間内にParole的言語データから帰納的に言語システムや文法

-36-

Page 12: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

の仕組みを抽象し自ら構築する疑似体験をさせるためにコーパス検索システム

の活用が有効ではないかと提唱している。さらに、石井(2010)では上級学

習者向け英英辞書の定義・用例データ約900万語を横断的に全文検索できる

システムを開発し、教育目的での辞書利用の可能性について考察を加えている。

5.2.日本語教育

砂川(2010,2011)は外国語教育においてはシラバスデザイン(何をどの

順序で教えるか)が重要であるとし、コーパスを利用した教育用の語黄表づく

りと文法シラバス評価を取り上げている。2010年に改訂になった日本語能力

試験(2010年度受験者数は国内外を含め60万人)では「場面に応じたコミュ

ニケーション能力」が能力評価の重要な指標となっているが、砂川は場面や話

題に即して語貢を分類し、さらに「各語棄の難易度や使用域を表示した語棄表

が必要」であるとする(砂川2010:657)。この「コミュニケーシヨン能力」

の育成は単に語黄にとどまらない。小林(2008)は基本的な文法項目とは何

かについて論じているが、我々の日常会話における頻出の「い形容詞」では非

過去肯定の用法が全体の9割以上を占め、否定形はほとんど用いられていな

いことが示されている。使用頻度が低いことをもってすぐに文法シラバスで過

去形や否定形を教えることを見直さなければならないということにはならない

が、使用域に応じ、また学習者のニーズを考慮した文法教育を改めて見直す契

機になると考えられる。

日本人の日本語活用については林等(2008)の研究がある。近年理工系の大

学院では日本人学生の「誤字・脱字、主語と述語の不一致、文体の不統一、書

き言葉と話し言葉の混用、テニオハの間違い、同音異義語の誤用、修飾・被就

職の関係の不明、語黄の不足」などが問題視され慶膳義塾大学や高知大学で「日

本語技法」や「科学技術日本語」などの科目名で授業が提供されているという。

林等は大学院生が専門のデイスコース・コミュニテイの一員になるまでの過程

に注目し、母語話者が実際に使った日英バイリンガルコーパスを構築した。3

人の博士課程進学者の口頭発表の変化について科学技術系に特徴的な内容・目

-37-

Page 13: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

的・形式をもった表現形式をとりあげ、語棄・表現と論理性の面で進歩が見ら

れていると報告している。

また、上述のコロケーションとの関連で言えば、「ただす」という動詞は「姿勢」

「元」「方針」などの名詞とともに多用されるという知識のほかに、「元をただす」

という表現があり、これは「元をただせば」という(形で用いられるのが一般

的であり、「私は昨日元をただしました」や「明日元をただしましょう」といっ

たふうには用いられないという用法上の知識も身に着ける必要があろう。こう

いった気づかれにくいパターンなどは教師の直観や偶然の発見などに頼るので

はなく、コーパスに基づいた実証的なデータに裏打ちされた知識が必要となる

(砂川2010:660)。

橋本・河原(2008)は「胸を打つ」や「足を洗う」など日本語‘慣用句の暖

昧性解消技術の確立にむけ慣用句コーパスの構築を進めている。英語の場合は

コーパスを活用した学習辞書の編纂がなされているが、日本語教育では日本語

学習者が利用できる類義語やコロケーション'情報が盛り込まれた学習辞書はな

い。今後は開発が望まれる。

6.分析の実際

6.1.日本語の分析

上述したように、オンライン上で既にあるコーパスデータを利用するケース

([BYU-BNC」や「少納言」など)以外に、独自のデータを解析する場合には、

解析用のソフトウェアが必要となる。以下、日本語と英語いずれの言語にも対

応したソフトウェアを紹介し、実際の解析の進め方の手順を示す。読者も実際

に試してもらいたい。今回は立命館大学の樋口耕一氏が開発したテキストマイ

ニング用のフリーソフトウェアKHCoderを用いる。KHCoderはhttp://khc.

sourceforge.net/より入手可能。詳しい操作方法についてはこのサイトのチュー

トリアルやダウンロードの際に付属するマニュアルを参照のこと。

-38-

Page 14: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

①分析対象となるサンプルコーパスを作成する。

Windowsを用いた分析を紹介する。Illllll'll左隅のスタートメニュー→すべて

のプログラム→アクセサリ→メモ|帳と進み、メモ帳に「兄が猫にえさをやった」

と入力。これにtestlと名称をつけて保存する。(一般に用いられているWord

ファイルを直接KHCoderに読み込ませることはできないため、テキストファ

イルの形式にしておく。データの量が大きくなると上記のメモ'帳では何かと不

便になる。そこで、容量の大きいデータの場合は「さくらエディタ」などのこ

れもフリーで用いることのできるテキストエディタを用いるとよい。)

②KHCoderに対象ファイルを読み込ませる。

KHCoderを起動したら左上のプロジェクトをクリックし「新規」ボタンを

押す。新規プロジェクトのダイアログボックスが開いたら、「参照」ボタンを

押し、testlのファイルを選択し、OKボタンを押す。

週KHCoder k=:E!i,叉、J唇I-l.v-ざ」’プロジェクト(P)前処理(B)ツール(T)ヘルプ(H)

r-Project・一・・…一一一

|現在のブロジエ外:||説明(メモ):-’-.DatabaseStats

総抽H」,語数:

集計単位|ケー ス数

図1KHCoderを立ち上げたところ

ー 回

Entry

苛析対象ファイル:豊盟」l分析対望ファイルの文字コー ド:自動判別三’ド':自動判別三

説8月(メモ):|

「OKキャンセルOK

図2新規プロジェクトの登録画面

一qQ-uJ

|’

」1

Page 15: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

③前処理の実行

現在のプロジェクトの部分にtestl.txtと表示されているのを確認し、上

部にある「前処理」から「分析対象ファイルのチェック」を選択し、クリック

する。「この処理には時間がかかる場合があります。続行してよろしいですか?」

のダイアログボックスで○Kを押す。再び「前処理」から今度は「語の取捨選

択」を選び、現れた品詞名が書いてあるボックスを下へたどり、「その他」に

チェックを入れる。OKを押す。再度「前処理」から「前処理の実行」を選択し、

OKを押す。

1

図3前処理を実行した後の画面(総抽出語と異なり語数が示される)

④抽出語の確認

上部メニューの「ツール」から、抽出語→抽出語リストを選択すると、ダイ

アログボックスが開く。今回はそのままOKを押す。すると、エクセルが立ち

上がり、分析対象となった文の解析結果が示される。

一A1日:‐“_Q鍔LD#E;F1Gw“!H;蝦、I溝;名詞日‘I動詞巳名詞Cその他

1。(記号一句点)

1が(助詞-格助詞-一般)

た(助動詞)

|こ(助詞-格助詞--股)

を(助詞-格助詞一一般)

↓11

十r

I↑l‐F1Ⅱロ

ー一j、

図4「兄が猫にえさをやった」の解析結果(エクセル表示)

-40-

1

句&鐸唇胃○4,厘》Ru守I

nDq〉〈U1n色

111

えさ.『._1やる

‘些冒[

Page 16: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

このように品詞ごとの語のl-l-l現頻度を示すこともできるし、頻出の上位150

語を示すこともできる。また上記の例のように1文だけではなく、大量の文

を解析し、KWIC(クイック)表示することもできる。次に示すのはあるデー

タにおける「にくい」のKWIC表示例である:

目口KWICコンコーダンス

一可不一

i睡訓私肇=

SearchEntry ===臣=E=E臣EEE=EE=E=‐E

「一-追加条件|

出現'''日一当|〈前後廊語を表示)|鷲噌書,ソー,寧原-コ,諏思

図5「にくい」のKWIC表示

検索IReady1

このKWICコンコーダンスでは、一定の語(上記の場合は「にくい」)を中心

に揃え、左右の語を指定して頻度|||頁に示した一覧を作成することもできる。

62.英語の分析

同じKHCoderを用いて英語も分析できるようになった。(2011年1J月26

日更新Ver.2.beta,27)。以下でサンプル分析として2008年当時上院議員だっ

たオバマ氏が行った"AMorePerfectUnion"というスピーチを見てみよう。

YahooやGoogleなどの検索エンジンでObama,race,speechという検索文字

を入力しEnterキーを押すとObamaRaceSpeech:ReadtheFullTextという

サイトが見つかる(2011年12月現在)。ここに掲載されている英文をコピー

して、上記の日本語の場合と同様にメモ帳に貼り付け任意のファイル名を付し

テキストファイルとして保存する(ここではobamaracespeech・txtを作成し

-41-

Page 17: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

た)。

日本語の手順と同様に、KHCoderを立ち上げ、出てきたウィンドウの左上

にある「プロジェクト」をクリックする。新規→分析対象ファイルとすすみ、「参

照」のボタンを利用してobamaracespeech.txtを選択し、「OK」を押す。こ

こから1つ日本語の場合とは異なる操作をする。おなじ「プロジェクト」を

クリックし、設定を押すと、以下のようなウィンドウが現れる。

熟迩・甥、甥。博

串』

II|’

一一一一ヤ宇一早産一一一一一一一÷ー一一ー一P■一一号 …

図6設定の画面

ここでラジオボタンの3つ目、Lemmatizationという項目を選択し「○K」ボ

タンを押して画面を閉じる。4番目のStemmingは動詞の-ing形や過去形を

原形としてカウントするもので、Lemmatizationはより詳細な解析を行うとい

う程度に理解しておいてよいだろう(詳細はKHCoder付属のマニュアルを参

照のこと)。

この画面を閉じ、最初に立ち上がったウィンドウに戻り、前処理をクリック

-42-

11‐‐l醸理輝懸鴎翻露秘録溺騨驚詞鞭齢斜鯵擁壁鼠雪研き宰興“ざ二四ザfぞ.,〃己匝F,0塁齢よ‐.髄吻9覇琶塔鴎.》品、罫撰臓幌卯軽

…語を抽出する方法…

r茶竺(日本語)

。h園…海鋤ス:重劉|D:¥t!hcoder_2b27¥dep¥chr,MeCab(日本語)(要・別途インストー ノレ)

m…霞x霞のバス:重劉I(*Lemmatizationwith"StanfordPOSTagger"

*.JARfilepath:童堕」:|D*khcoder_2b27*dep*雪瞳*TAGGERfilepath:童里」|D:*khcoder_2b27*dep¥st!L箇確u雫這ilEnglish三」St・idwords:confisl

r、Stemmingwith"Snowball"

L葛、富…English-JSt。p綱。r…。n雌’一その他の設定一

‘”前処理効率化のため(こテ'-タをRAH!E読み出す

r前処理の完了をメールで'通知する

iSMTPSe1・リ己r

|異。雲」|……JMごU』□othiCJ10

D:¥khcod巳r-2b27¥d巳p¥stこ

OKキャンセルI

Page 18: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

する。すると「分析ファイルのチェック」や「前処理の実行」などの項目がで

てくる。ここでは日本語のように「分析ファイルのチェック」が選択できない

ようになっている(この機能はもともと半角カタカナなどを検索し修正するた

めのものであり、英語では必要がないため)。「語の取捨選択」をクリックし、

現れたウィンドウの左側にある品詞を確認する。日本語よりもずっと品詞設定

が少ないことが確認できる。全ての語を検索するためにここでは「OTHER」

にもチェックを入れ、「○K」を押してウィンドウを閉じ、先ほどの「前処理の

実行」を行う。

結果、総抽出語数5,472語、異なり語数1,249語、文186、段落61といっ

た‘情報が現れる。頻出150語を見るには、ツール→抽出語→抽出語リストと

進み、現れたウインドウで「頻出150語」を選択するとExcelが立ち上がり、

頻度順位表が表示される。今回のスピーチは人種問題が主要テーマとなってい

る。ではwhiteとblackという語の頻度はどうなっているであろうか。

表2頻出上位15語

抽出語出現回数be l61

we l26

have 69

they 68

not 59

I 56

that 39

I t35

black34

he 34

who 34

do 33

my 31

she 29

white 27

■■■ ■G■

be動詞やhaveなど、どのようなテクストでも頻出の語のほかに、代名詞では

一人称単数のIよりも複数のWeが2.5倍多く表れており、blackがわずかだ

がwhiteの頻度を上回っていることがわかる。

-43-

Page 19: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

また、たとえばwhiteという語の前後のコンテクストを見るにはKWIC表

示を用いる。ツールー→抽出語→KWICコンコーダンスと進み、表示されたウイ

ンドウの検索枠にwhiteと入力しEnterを押せば図7のようなKWIC画面が

現れる。

このKWIC表示は検索語whiteを中心に前後の文脈を一通り見渡せるよう

になっているが、さらに詳しくどのような語と共起しているかを見るには、右

下にある集計ボタンを押し、コロケーション統計画面を表示させる(図8)。

-一---::塵*塁…軸一

欝g:|ite仙轍愚~。,誕雨割,鶏…》筈

j樵撫0郷馳駕蛎撫卿thehelp榊懲:撫騨hasurviv無撫assemblyII.wobuiltapowerfulCDalitbnolAlricanAmericansandwhiteAmeric冨諭s〈l)Thisisnott…ythatroc参h“|’

慧::蹴:憩駕olou親内職鰯卿削淵eandb眺職砺噸雛sd郷唇糊冨ル#.undlydi夢tortedviewoithisc画untry-・viewthatseeswhiteradsm…ndemic,andthatelsvateswhatis脚r,|

縫謹蕊驚職溌灘驚崎瀞proved畿離溌騰磯蕪聯鵜繍繊聯」1-エニ」_z董垂」衰示単位:段落一|前週。。1次200jヒット数:27表示:'-27保存|菓針!

図7whiteのKWIC表示

||

|’図8whiteのコロケーシヨン統計(直近の右側の語の頻度順)

-44-

:.コロケー シヨン蹴嘩趨識……皐‘…皐等“’--- |響一診{且函

卜NordWo『。…抽出語:扉…品詞:|…活用形:Iヒット数:27

i・ResuIt

IY磯。繁蝦'童富:'惹畠!t|5|4|S3|a2|童嬢'看雛'3i3w o m 塑 可 ト 心 _ 、 3 2 5 0 4 0 0 00030010

14,OT卜ERE37弓70311022111

1::淵”麓謡;::::;:;::;:ill7grandmotherI,心〆,20002OOOOO200OOl l8…I,掴_r,2",2,OOOO2OQOOI:9co-worWer1,妃unl50110001010,00

'!。,『陰、。吋唾o・・。。。。↑,。,。11grl …1-”O10000010000

1繍祷齢#§:淵職洲11;l15r巳s巴ntmEnth…1.50110001010OOOマ

ヱー|ソー ト;右・’一|フィルタ設定’

1句。(U1l可1〈U〈Un》。’〈U《U(U(リ

qlqln》1nごくUO(U《U〈U〈U〈U〔リ

’1‐I1111111111

Page 20: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

KHCoderは大変使い勝手のよいソフトウェアであるが、注意すべき点もあ

る。第一に言語分析用に開発されたソフトウェアではないため、ここで用いて

いる茶室という形態素解析器が解析(形態素に分割)できない場合も生じる。

話し言葉などはエラーが起こりやすい。第二に、前処理の結果として総抽出語

数や異なり語数が表示されるが、上述のような問題点があるため、全体の語数

を正確に示すことが難しく、統計処理をする場合には注意が必要となる。第三

に、100MB程度の大容量のデータも解析することはできるが、非常に時間が

かかること、また、用いるPC側に分析対象ファイルの100倍程度の空き容量

が必要となる点などにも気を付けたほうがよい。大容量データの解析の場合は

適切なサンプリングを行うとよいだろう。ここではKHCoderを用いた分析方

法を紹介したが、分析方法はこれだけに限られるわけではない。これを端緒と

して各自が行いやすい方法で分析を進めてもらいたい。

7.おわりに

セクション6で紹介した分析方法はコーパスを用いた分析のほんの一部で

しかない。語の頻度などを扱うにはやはり統計の基礎知識も必要となる。本格

的に複数のコーパスについてそれぞれ特定の語の頻度を調査しコーパスの特徴

を探るというような作業を視野に入れた研究をする場合には、石川慎一郎著『英

語コーパスと言語教育:データとしてのテクスト』(大修館書店)や需藤俊雄・

中村純作・赤野一郎(編)『改訂新版英語コーパス言語学基礎と実践』といっ

た本を読まれることをお勧めする。また、石川慎一郎・前田忠彦・山崎誠(編)『言

語研究のための統計入門』では主に日本語がとりあげられているが、紹介され

ている分析手法(多変量解析を用いた分析)は大変参考になるため、こちらも

併せて読まれることを勧めたい。

-45-

Page 21: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

参考文献

赤野一郎.2006.「英語コーパス言語学と英語教育」『日本語教育」130号

pp.11-21

石井康毅.2010.「学習者向け英英辞書データの教育目的コーパスとしての活

用可能性の考察」『東京理科大学紀要教養篇」(43),269-292

石川慎一郎.2008.『英語コーパスと言語教育:データとしてのテクスト』大

修館書店

石川'慎一郎・前田忠彦・山崎誠(編).2011.『言語研究のための統計入門』

くるしお出版

梅咲敦子.2005.「コーパスとは何か」斎藤俊雄・中村純作・赤野一郎(編)『英

語コーパス言語学一基礎と実践一』(改訂新版)研究社,21-48

梅咲敦子.2011.「コーパス言語学の手法を英語教育に活かす(1)『辞書とコー

パスで自信をもって楽しく英語を使う』ための方策」『言語と文化』(14),55-

71

大曾美恵子.2006.「日本語コーパスと日本語教育」『日本語教育』130号,

3-10

金城克哉.2011.「コーパス分析に基づく『~にくい』・『~づらい』表現の研究」

琉球大学留学生センター『留学生教育』(8),19-35

国立国語研究所2001『日本語学習者による日本語作文と、その母語訳との対

訳データベースver.2』

後藤斉.2003.「言語理論と言語資料一コーパスとコーパス以外のデータ」『日

本語学』第22巻,6-15

寮藤俊雄・中村純作・赤野一郎(編)『改訂新版英語コーパス言語学基礎

と実践』研究社

柴崎礼士郎.2010.TheCo""sofHistoricα/America〃E"g"sh(COHAノ:Anew

toolforfull-fledgedstudiesofLateModernEnglish(1810s-2000s).Souther"此view

(25).11-27

スタツブズ,マイケル.南出康世・石川慎一郎(監訳)2006.『コーパス語棄

意味論」研究社

-46-

Page 22: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

砂川有里子.2010.「コーパスを活用した日本語教育研究」『人口知能学会誌』

24巻5号,656-664

砂川有里子.2011.「日本語教育へのコーパスの活用に向けて」『日本語教育』

150号,4-18

ダイグナン,アリス.渡辺秀樹・大森文子・加野まきみ・小塚良孝(訳)2010.『コー

パスを活用した認知言語学』大修館書店

田野村忠温.2008.「大規模な電子資料に見る現代日本語の動態」『待兼山論叢』

(文化動態論篇)(42),55-76

田野村忠温.2009.「サ変動詞の活用のゆれについて・続一大規模な電子資料

の利用による分析の精密化一」『日本語科学』(25),91-103

田野村忠温.2010.「コーパスを用いた日本語研究の精密化と新しい研究領域・

手法の開発」『人口知能学会誌』24巻5号,647-655

投野由紀夫.2006.『コーパス超入門』小学館

中尾浩・赤瀬川史朗・宮川信‘悟.2002.『コーパス言語学の技法I:テキスト

処理入門』夏目書房

中島浩二.2008.「正規表現を使った英語コーパス検索システムの開発と帰納

的言語教育の可能‘性」徳島大学『言語文化研究』16,151-163

中篠清美・西垣知佳子・内山将夫・山崎淳史.2006.「初級英語学習者を対象

としたコーパス利用学習の試み」『日本大学生産工学部研究報告.B,文系』

(39),29-50

日本語教育学会(編)2006.『日本語教育特集:コーパスと日本語教育一現

状と課題一』130号

野地美幸.2008.[L2英語における目的格標示:日本人英語学習者の発話コー

パス研究」『上越教育大学研究紀要』27,173-180

服部匡.2010.「『全く』と『全然』の使用傾向の変遷一国会会議録のデータ

より-」『同志社女子大学総合文化研究所紀要』第27巻,162-167

林洋子・国吉ニルソン・野口ジユデイー・東篠加寿子.2008.「若い研究者の

言語獲得(言語とコーパス,思考と言語一般)」『電子情報通信学会技術研究

報告.TL,思考と言語』108(50),11-16

-47-

Page 23: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

藤田高弘.1998.「コーパスを応用した英語教育研究と英語学習:現状と可能

』性の考察」『名古屋大学教育学部附属中高等学校紀要』43,169-174

真島知秀.2011.「日本語コーパス:概要から利用まで」沖縄県大学等日本語

教育研究会第2回研究会資料

松田謙次郎(編).2008.『国会会議録を使った日本語研究』ひつじ書房

前川喜久雄.2009.「導入コーパスとは何か」『国文学:解釈と鑑賞』74(1),

6-14

Granger,Sylviane,EstelleDagneaux,FannyMeunier,MagaliPaquot.2009.

Inter"α伽"αノCorpusofLearnerEnglisノi叱畑on2.PressesUniversitairesde

Louvain

Lakoff,GeorgeandMarkJohnson.1980.MetaphorsWを〃veBy.Chicago:University

ofChicagoPress

Lewis,Michael,(ed)2000.姥αc〃"gColloca伽":FurtherDeノeノ叩me"応加油eLexical

A〃、αcノz.Hove:Language!bachingPublications

-48-

Page 24: Title 琉球大学欧米文化論集 = Ryudai Review of Euro-American …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/29035/1/No58p27.pdf · 野他)。その一方、Chomskyの目指す言語理論との比較で言うならば、コーパ

Corpus Linguistics:

An overview of its application to language teaching and

analytical procedures

Katsuya Kinjo

This paper, firstly, tries to show the overview of corpus linguistics, which has

been paid much attention in recent linguistic analysis. Definition of corpus, the purpose

of using corpus, and the kinds of corpus will be shown. Also provided is the recent

studies utilizing corpus as their database; variety of fields such as collocation analysis,

semantics, cognitive linguistics, and historical linguistics are related to corpus studies.

Second, it will be discussed how these corpus studies are applied to language teaching,

both teaching English and Japanese. Thirdly, it will be shown how to analyze corpus

data using a free software, KH Coder, which has been developed by Dr. Koichi Higuchi

at Ritsumeikan University.

-49-