アジアン・ミスコミュニケーションコーパスの構築 ·...

4
アジアン・ミスコミュニケーションコーパスの構築 Developing of the Asian Miscommunications Corpus of Chinese and Japanese 1 砂岡和子 2 敬松 Kazuko Sunaoka 1 , Yu Jingsong 2 1 早稲田大学政治経済学術院 1 School of Political Science and Economics, Waseda University 2 北京大学軟件与微電子学院 2 School of software and microelectronics, Peking University Abstract: This paper introduces the Asian miscommunications Corpus of Chinese and Japanese, which is under construction based on the Waseda University Cross-Cultural Distance LearningCCDLprogram, between five Asian cities, namely Tokyo, Yokohama, Beijing, Taipei and Seoul since 2000. To develop this corpus, we collected and investigated more than 100 hours long video conferences libraries. This paper verifies the effectiveness of the language information processing science through the developing of the Corpus of Miscommunications on Spontaneous Spoken Chinese and Japanese. Keywords: Cross culture distance LearningSpontaneous Spoken LanguageMiscommunications Corpus (1) 研究背景 国際交流の拡大と情報通信技術の高度化に伴い、 地域や国境を超えて人、物、情報の移動が加速し、 外国語によるコミュニケーションの場が身近になっ た。異なる文化背景を持つ同士の交流には、語学力 を核とするコミュニケーション能力とともに、互い の社会・文化に対する理解力も不可欠である。 本文は、過去 8 年間、早稻田・慶応・北京大・清 華大・台湾師範大・韓国高麗大の間で開催する、ア ジア 6 大学学生 TV 会議の録画データに基づいて構築 中の、アジアン・ミスコミュニケーション・コーパ スについて述べる。 アジア学生会議の平常の話題は、恋愛や大学生活 など身近なテーマが多いが、環境、格差社会、著作 権、日中報道、台湾問題など、意見が対立する時事 問題も好まれる 1 。以下、 2008 5 22 [日本語会 ]6 5 [中国語会議]に開催した、四川大地震 の支援活動に関する討論を例に、コミュニケーショ ンを工学的土俵に乗せる可能性について考察してゆ く。2 回の討論は、直前に中国四川省で発生した大 地震を巡って行われ、焦点は地震の支援活動に置か れた。会議は言語の壁を乗り越え、被災地の状況理 解や日本側の支援申し出の伝達には一定の成功を納 めたものの、双方の思考の壁は厚く、意見の対立は その後のアンケートや BBS 投稿に残響を留めた。ア 1 http://www.f.waseda.jp/ksunaoka/enkaku/index.html ジアン・ミスコミュニケーション・コーパスは、学 生会議の交流障害箇所に、相互にコメントを付加で きる学習コーパスで、テキスト、音声、動画レベル でアノテーションを付し、画像検索機能を使って直 感的に録画中の障害要因を参照できる。輻輳する交 流障害要因を定量的に分析し、可視化して表示する ため、本コーパス構築には各所に言語処理技術の応 用を試みている。言語の壁を越え、議論を活性化す るのに、現在の情報処理科学はどこまで支援が可能 であろうか?個人情報保護と版権処理後、インター ネット上での公開を目指す、アジアン・ミスコミュ ニケーション・コーパスの構築を通し考えてゆく。 (2)中国語学習支援プログラム 5 22 日と 6 5 日の討論参加校は、 22 日が北京 大学と早稲田大学、6 5 日はこれに慶応大学が加 わった。どの地点の参加者も母語話者を除いては国語もしくは日本語の外国語学習歴が 2-5 年未満 であり、専門的テーマで、かつオンラインの討論は ハードルが高い。 5 22 日の日本語会議は北京大側 に日本育ちの学生がおり、彼が司会と同時通訳を担 当した。6 5 日の中国語会議では、早大は参加者 中の華人が、慶応は台湾と中国人留学生が途中通訳 に入って、時間のロスなく討論を継続できた。 外的環境に頼らず自力で中国語討論に加われるよ う、早稲田大学では、平素から中国語スキル向上を 支援する各種学習支援プログラムを提供している [図 1]。非同期学習では大いに役立つ電子辞書、イ

Upload: others

Post on 19-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: アジアン・ミスコミュニケーションコーパスの構築 · 国語もしくは日本語の外国語学習歴が2-5年未満 であり、専門的テーマで、かつオンラインの討論は

アジアン・ミスコミュニケーションコーパスの構築

Developing of the Asian Miscommunications Corpus of Chinese and Japanese 1 砂岡和子 2 俞敬松

Kazuko Sunaoka 1, Yu Jingsong 2

1 早稲田大学政治経済学術院 1 School of Political Science and Economics, Waseda University

2 北京大学軟件与微電子学院 2 School of software and microelectronics, Peking University

Abstract: This paper introduces the Asian miscommunications Corpus of Chinese and Japanese, which is under construction based on the Waseda University Cross-Cultural Distance Learning(CCDL)program, between five Asian cities, namely Tokyo, Yokohama, Beijing, Taipei and Seoul since 2000. To develop this corpus, we collected and investigated more than 100 hours long video conferences libraries. This paper verifies the effectiveness of the language information processing science through the developing of the Corpus of Miscommunications on Spontaneous Spoken Chinese and Japanese. Keywords: Cross culture distance Learning,Spontaneous Spoken Language,Miscommunications Corpus

(1) 研究背景

国際交流の拡大と情報通信技術の高度化に伴い、

地域や国境を超えて人、物、情報の移動が加速し、

外国語によるコミュニケーションの場が身近になっ

た。異なる文化背景を持つ同士の交流には、語学力

を核とするコミュニケーション能力とともに、互い

の社会・文化に対する理解力も不可欠である。 本文は、過去 8 年間、早稻田・慶応・北京大・清

華大・台湾師範大・韓国高麗大の間で開催する、ア

ジア6大学学生TV会議の録画データに基づいて構築

中の、アジアン・ミスコミュニケーション・コーパ

スについて述べる。

アジア学生会議の平常の話題は、恋愛や大学生活

など身近なテーマが多いが、環境、格差社会、著作

権、日中報道、台湾問題など、意見が対立する時事

問題も好まれる1。以下、2008 年 5 月 22 日[日本語会

議]と 6 月 5 日[中国語会議]に開催した、四川大地震

の支援活動に関する討論を例に、コミュニケーショ

ンを工学的土俵に乗せる可能性について考察してゆ

く。2 回の討論は、直前に中国四川省で発生した大

地震を巡って行われ、焦点は地震の支援活動に置か

れた。会議は言語の壁を乗り越え、被災地の状況理

解や日本側の支援申し出の伝達には一定の成功を納

めたものの、双方の思考の壁は厚く、意見の対立は

その後のアンケートや BBS 投稿に残響を留めた。ア

1 http://www.f.waseda.jp/ksunaoka/enkaku/index.html

ジアン・ミスコミュニケーション・コーパスは、学

生会議の交流障害箇所に、相互にコメントを付加で

きる学習コーパスで、テキスト、音声、動画レベル

でアノテーションを付し、画像検索機能を使って直

感的に録画中の障害要因を参照できる。輻輳する交

流障害要因を定量的に分析し、可視化して表示する

ため、本コーパス構築には各所に言語処理技術の応

用を試みている。言語の壁を越え、議論を活性化す

るのに、現在の情報処理科学はどこまで支援が可能

であろうか?個人情報保護と版権処理後、インター

ネット上での公開を目指す、アジアン・ミスコミュ

ニケーション・コーパスの構築を通し考えてゆく。

(2)中国語学習支援プログラム

5 月 22 日と 6 月 5 日の討論参加校は、22 日が北京

大学と早稲田大学、6 月 5 日はこれに慶応大学が加

わった。どの地点の参加者も母語話者を除いては中

国語もしくは日本語の外国語学習歴が 2-5 年未満

であり、専門的テーマで、かつオンラインの討論は

ハードルが高い。5 月 22 日の日本語会議は北京大側

に日本育ちの学生がおり、彼が司会と同時通訳を担

当した。6 月 5 日の中国語会議では、早大は参加者

中の華人が、慶応は台湾と中国人留学生が途中通訳

に入って、時間のロスなく討論を継続できた。 外的環境に頼らず自力で中国語討論に加われるよ

う、早稲田大学では、平素から中国語スキル向上を

支援する各種学習支援プログラムを提供している

[図 1]。非同期学習では大いに役立つ電子辞書、イ

Page 2: アジアン・ミスコミュニケーションコーパスの構築 · 国語もしくは日本語の外国語学習歴が2-5年未満 であり、専門的テーマで、かつオンラインの討論は

ンターネット翻訳ツールも、待ったなしのオンライ

ン会議では、討論の展開とスピードに歯が立たない。

現有の ICT 技術が通信速度と表示機能で進化を続け

ても、言語理解と処理機能の突破技術がない限り、

同期型言語交流の支援効果には限界がある。

[図 1]

(3)録画記録とコーパス用ツールの開発

一過性の対面会議を記録として保存し、交流障害

要因を可視化できるよう、アジア学生会議の録画約

100 本を蓄積してきた。うち近過去の 20 数本は授業

支援ポータルサイト CourseN@vi に Real Media 形式

で UP し、登録者はオンデマンドで常時閲覧可能に

した[図 2]。画像再生には便利であるが、検索は単

純な機能に限定され、ことに言語学習支援のための

情報付加が難しい。

[図 2]

アジアン・ミスコミュニケーション・コーパスは、

現在、以下の各種ツールとプラットフォームを開発

している。①DVD-Video、Rrmvb の Mpg 断片分割と Wav

ファイルの分離ツール、②録画音声無音区間の自動

分割ツール(認識率 70%-90%)、③動画音声テキスト

の多言語相互注記が可能な ELAN をカスタマイズし

た Multi Annotation Program[図 3]、④コーパス管

理用プラットフォーム、⑤教育用ミス・コミュニケ

ーション分析システム (④⑤は準備中) 。80 回分の

録画について、開催期日、テーマ別、言語別、専門

家による談話分析データ、参加者学習歴に基づいて

整理を終え、現在、中国語会議 4 本、日本語会議 5

本の前処理と書き起こし作業を完了した。今後、分

析深度を掘り下げ、コーパスデータを蓄積する。

[図 3]

(4)コミュニケーション障害の分析

コミュニケーション障害の特定と提示には、デー

タの情報処理と、分析結果の可視化が有効だ。NNS

の外国語学習者が NS 母語話者と対話を行う際の障

害は、言語的、非言語的要因に大別できよう。

われわれは言語行動と近隣関係にあり、言語コミ

ュニケーションと情報を相互補完することで理解可

能な、非言語的伝達手段の分析から着手した。語彙

や語法情報と異なり、沈黙や言いよどみ、しぐさや

態度などの副言語的、非言語的交流障害は、非母語

話者にとって自覚が難しい。中国語や日本語の自然

発話中の非言語的要素の運用に関しては、十分なデ

ータがなく2、テキスト解説では克服方法が理解しに

くい。以下、アジア学生会議の発話から、NS と NNS

のポーズ、およびフィラーの使用分析例を挙げる3。

[図4]は10分弱の日本語会議発言中に出現するNS

早稲田生 8 名対と、NNS 北京大生 3 名のポーズ回数

を、話者ごとにポーズの長さ別に集計し、対数表示

した。NNS は NS に比べポーズ使用回数が多いが、ポ

ーズ長には双方大きな違いがない(横軸ポーズ尺度

3~5[200ms~800ms]に収束)ことがわかる。発話 10 秒

当たりのポーズ出現回数のデータも同様の傾向を示

しており、録画の聴覚的印象とも一致する。以上か

ら NNS 日本語学習者は、自然体でポーズを置くのは

構わないが、一発話内に頻繁にポーズを挟まないよ

う注意が必要といえる。

2自発講演発話の書き起しと分析方法に関しては「大

規模日本語話し言葉コーパス(CSJ)」が基準を示す。 3 データは(株)アイアール・アルトの提供による。

なお四川地震の会議は言語分析未完のため、[図 4、

5]は 2007 年 10 月 25 日の録画の分析である。

Page 3: アジアン・ミスコミュニケーションコーパスの構築 · 国語もしくは日本語の外国語学習歴が2-5年未満 であり、専門的テーマで、かつオンラインの討論は

同様に[図

を話者ごと

的フィラー]

図からNNSは

B3 を除いた

が語彙的フ

名は[F1]と

ており、これ

的フィラー

るよう指導

定量分析の精

データを分析

(5)アン

アジア学

後、日本語

早稲田生と

ルサイト Co

アンケート集

も回答内容

役立てる。

ーパスも、

箇所に評価

図 5]で、NS8

に集計した。

][F2;語彙的

はNSに比べフ

た NNS2 名は、

ィラー[F2]よ

[F2] のフィ

れから NNS 日

の多用を控え

できる。今後

精度を上げる

析して、定性

ンケート内

生会議では、

と中国語でア

一部北京大生

ourseN@vi に

集計結果はサ

を分析して、

アジアン・ミ

アンケート結

を自動付与し

[図 4]

名と NNS3 名

フィラーは

的フィラー]の

フィラー使用

音声的なフ

より著しく多

ィラーをバラ

日本語初級学

え、語彙的フ

後は、観察デー

ると同時に、

性的な観察を

[図 5]

内容分析

毎回参加者

アンケートを

生は、大学の

登録し、ネッ

サイト登録者

次回からの

ミスコミュニ

結果から満足

し、コーパス

名のフィラー回

属性を[F1;音

の 2種類に分

用量が総じて多

フィラー[F1]使

多い。対して

ンスよく使用

学習者には、音

フィラーを習得

ータ量を増や

話者別に細か

を進めてゆく。

者全員に討論終

を回収してい

の授業支援ポー

ット上で回答す

者に公開し、教

の会議運営改善

ニケーション

足度に応じて討

スデータに取

回数

音声

けた。

多く、

使用

NS8

用し

音声

得す

し、

かく

終了

る。

ータ

する。

教員

善に

・コ

討論

り込

む機

は、

度が

た。

「発

続ト

った

議 6

が 6

じテ

て残

感想

てこ

言欲

議と

行か

よか

思い

た」

月 2

リケ

る。

ない

治る

震と

こと

稲田

京大

質問

いと

受け

つき

抱く

(6)

を補

BBS

~05

田生

で 9

3 倍

の 5

発言

こと

がで

交流

ンツ

機能を持たせ

全会議 83 分

が高く、100%

不満が多い

発言機会が少

トラブル 20%」

た。対して 6

67 分中、前半

60%を占める。

テーマが続い

残念」「議論が

想)等の問題が

この日は中国

欲を十分に満

と違った視点

かずに難しか

かった」「デリ

いつかなかっ

など、使用言

22 日、日本語

ケートな話題

「中国に災害

いことに危険

ると思う」と

と四川大地震

とが収穫であ

田生の感想)。

大学生は、日本

問はきつすぎ

というわけで

け止めている

母語か非母語

き、ときには

くに至ること

)BBS 内容

言語弱者の情

補強するため

で日常的な交

5/19 間の日本

生 25 通)に対

93 通(北京大

倍近くあり、か

5倍以上に及

言でも母語に

とは明白だ。

できるため、

流経過を観察

ツールであろ

せる予定だ。5

分中、中盤 6

%が「討論内容

いのは前半 40

少ない 20%」、「

」で、「討論の

月 5 日の討論

半が不評で、理

。6月 5日は前

いたため、前半

が尽くされた

が生じたこと

国語での討論の

満たすことが出

点から意見を言

かった」「ちゃん

ケートな話題

た」「重い話題

言語に関し明

語での発言時

題に踏み込み、

害対策マニュア

険を感じた」「

いう発言に問

震の政府の対応

あった」(とも

反対にその

本人の発言を

ぎる」「四川大

ではない」な

語かで発言内容

は非母語話者が

もある。

容分析

情報不足を補

め、アジア学生

交流の場を設

本語投稿は 3

対し、中国語投

大生 41 通、早稲

かつ北京大生の

及ぶ。口語によ

による表現が本

BBS 投稿は非

それぞれの思

察するには、最

ろう。

5 月 22 日のア

60.0%と後半

容が良かった

0%、後半 20%

「聞き取れな

の内容が浅い

論は不調に終

理由は「討論内

前回日本語会

半で「重複す

た感があった

とは確かだが、

のため、日本

出来なかった

言いたかった

んと原稿を作

題なこともあ

題なので発言

明示的な言及

時は、同じ日本

、深い討論を

アルが広く知

「「子供のトラ

問題を感じた

応に対する評

もに 5 月 22 日

日は外国語で

を、「早稲田大

大地震は(天災

ど非難めいた

容の深度に明

が理解不足の

補い、双方の社

生会議は TV 会

設定している

3通(北京大生

投稿は 04/20

稲田生 52 通

の投稿文の長

よる TV 会議同

本音の交流を

非同期で時間

思考法を知り

最適のコミュ

アンケートで

80.0%の満足

た」と回答し

で、理由は

い 20%」、「接

い」は 0%であ

終わった。会

内容が浅い」

会議に続き同

する質問が出

」(早稲田生

、前回と違っ

本人学生の発

た。「前回の会

たが、そうも

作っておけば

あって話題が

言が難しかっ

及がないが、5

本人学生がデ

を展開してい

知れ渡ってい

ラウマはすぐ

た」「唐山大地

評価が聞けた

日会議への早

で発言した北

大学のかたの

災で)誰が悪

た質問として

明らかに差が

のため誤解を

社会文化知識

会議とは別に

。2008/04/20

生 8 通、早稲

~06/28 現在

通)と日本語の

長さは日本人

同様、BBS の

を深化させる

間をかけ発言

り、通時的に

ュニケーショ

5

0

Page 4: アジアン・ミスコミュニケーションコーパスの構築 · 国語もしくは日本語の外国語学習歴が2-5年未満 であり、専門的テーマで、かつオンラインの討論は

早稲田生の中国語による BBS 書き込みや、北京大

や台湾師範大からのメイル解読支援に、大学内限定

ではあるが翻訳辞書として高電社(株)の J-Server

をライセンス契約している。他の中国語授業でのア

クセス数が含まれるが、J-Server 使用回数は 2008

年 4 月-6 月初旬までに計 4,886 回を数えた。非同期

交流にはこうした電子媒体の翻訳辞書が言語の壁を

超える有効なツールであることを示している。

日本語文書は、形態素解析ソフト「茶筅」で部分

的にデータマイニングを行い、キーワードを抽出し

ようと試みているが、有効な手法を見つけられない

[図 6]。投稿文書から、内容を自動的に抽出するテ

キストマイニング技術は、適用範囲が限定的である。

現在、CourseN@vi アンケートや BBS に書き込まれる

大量の文書は、授業教員が目視と手作業で仕分けを

行い、問題の所在を判断している。

[図 6]

アジア学生会議専用の BBS では、4 月中旬から頻

繁に情報交換が行われていた。チベット暴動鎮圧に

端を発し、北京オリンピック聖火リレー妨害、カル

フール不買運動など、一連の国際社会との軋轢に抗

議する中国政府の公式発言を擁護する北京大側発言、

日本人学生は、中国の民族主義と大国のメンツに戸

惑いながら、双方の意見は平行線をたどったまま、5

月 12 日の四川大地震を迎える。それ以降も北京側の

BBS 書き込みは、依然として中国政府の発表する論

調を反映していたが、22 日の TV 会議では、日本人

学生の最大の関心事は、四川地震の被災者の心理的

ケアーや孤児引き取り、耐震予防などに集中した。

対して北京大学側は、ハード面の支援が急務と訴え、

孤立した被災村落の救援、被災民へのテントの供給、

生活物資の輸送、献血、重病人の沿岸地区大病院へ

の搬出といった取組を積極的に報告した。耐震対策

や心理ケアーに関しては、会議時点で中国側に必要

性が理解されておらず、北京大は度重なる日本側の

問いかけの真意がつかめず、戸惑う表情が見られた。

今回の TV 会議は、被災者支援という共通目的があ

り、画面を通じて双方の表情が見え、気持ちが伝わ

った点が、BBS 交流と決定的に異なるコラボレーシ

ョンを生んだ。北京大側から BBS での発言のような

一方通行の態度表明や釈明が消え、「とてもレベルの

高い議論内容で驚いた」「日本の皆さんから暖かいメ

ッセージをもらえて本当にうれしかった」(北京大生

アンケートによる)など、肯定的で素直な発言が多く

見えるようになった。早稲田生も、「北京生の話を聞

き、考え方の違いや、現地を理解するうえで日本人

に欠けている発想に気付くことができた」「みんなし

っかり自分の意見や疑問を述べ、テレビ会議の真価

を感じた」「北京大生が揃って日本の支援に礼儀正し

く感謝を表明してくれて嬉しかった」(早稲田生アン

ケートによる)など、TV 会議を有意義な意見交流の

場と評価している。

(7)多言語交流支援ツール

アジア学生会議は幸いに上級通訳とファシリテー

ターに恵まれ、言語の壁は低い。しかし日中間の情

報格差を短時間で埋めることは容易ではない。交流

を継続し、双方の信頼関係を強化することの必要性

が再確認された。

2007 年、早稲田大学の Polycom を使った海外との

遠隔接続総回数は延べ 687 回に達した。1/3 が異文

化交流と語学学習が主目的の討論授業であるが、使

用言語は英語 8 割に対し、中国語を含むその他言語

による会議は 2 割に止まる。世界各地で頻発する災

害や環境汚染など、現地住民とのコミュニケーショ

ンが不可欠な課題に対処するには、被災者の言葉に

よるコラボレーションが迅速かつ有効な問題解決に

つながる。多言語コミュニケーションツールの開発

と、交流障害分析用のコーパス構築が急がれよう。

謝辞 本研究は平成 19-21 年度文部科学省科学研究費

補助金〔基盤(B)課題番号:19320087 研究代表者

砂岡和子〕の助成で進行中の成果の一部である。共

同研究者の俞敬松(北京大学)のほか、保坂敏子(日

本大学)、河内彩香(早稲田大学)、山口真紀(東京工

業大学)の協力を得、一部データ分析は(株)アイアー

ル・アルトに委託して提供を受けた。

参考文献: [1] 石田亨 機械翻訳を用いた異文化コラボレーション

情報処理 Vol.47 No.3 2006 [2] 砂岡和子・比企静雄・劉松「言語情報分析データの

中国語教育への応用―経験知の検証と法則性の記述

へ向けて―」言語処理学会第 14 回年次大会 WS 2008 [3]俞敬松,砂冈和子,郭涛,跨文化汉语错误传播语料库的

建设,上海交通大学语料库与译学研究国际研讨会予稿

集 2007