照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 )...

20
照照 照照照照照照照照照 照照照照照 照照照照照照 照照照照 一() 照照照 照照照照 照照照照照照 NLP2012 (March 14 2012)

Upload: aidan-melendez

Post on 03-Jan-2016

51 views

Category:

Documents


0 download

DESCRIPTION

照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍 徳永健伸 東京工業大学. NLP2012 (March 14 2012). はじめに. 談話の首尾一貫性 ( 意味的なつながりの良さ ) の推定は談話理解の研究で必須となる課題 応用先 複数文書要約の後処理 文章 の自動採点・推敲支援など. 研究の動機 : 談話レベルの推敲支援. 修正前. 修正後. 研究の動機 : 談話レベルの推敲支援. 修正前. 部分問題. 首尾一貫性の良さの評価 談話単位 (e.g. 文,節 ) の順序並び換え 照応・共参照関係の解析・生成 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

照応・共参照解析に基づく文章の首尾一貫性の指標(修正版)

飯田龍 徳永健伸東京工業大学

NLP2012 (March 14 2012)

Page 2: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

2

はじめに 談話の首尾一貫性 ( 意味的なつながりの良さ )

の推定は談話理解の研究で必須となる課題

応用先 複数文書要約の後処理 文章の自動採点・推敲支援など

Page 3: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

3

研究の動機 : 談話レベルの推敲支援1: 本稿では,文の構造情報を利用した照応解析 2 の手法を提案する.

2: 照応関係 1 とは文章中の表現がある表現を指す関係をいう.

3: 本研究では (φ2 の ) 問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて考える.

4:(φ1 の ) 指し元側の表現を照応詞, (φ1 の ) 指し先側の表現を先行詞という.

5: 照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほとんど着目されていなかった.

6: 機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた.2: 照応関係とは文章中の表現がある表現を指す関係をいう.

4: このうち,指し元側の表現を照応詞,指し先側の表現を先行詞という.

6: これまでの機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた.

5: 照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほとんど着目されていなかった.

3: そこで,本研究 3 では問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて考え,

1: 前者の問題については, (φ3 では ) 文の構造情報を利用した照応解析 2 の手法を提案する

修正前

修正後

Page 4: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

4

研究の動機 : 談話レベルの推敲支援1: 本稿では,文の構造情報を利用した照応解析 2 の手法を提案する.

2: 照応関係 1 とは文章中の表現がある表現を指す関係をいう.

3: 本研究では (φ2 の ) 問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて考える.

4:(φ1 の ) 指し元側の表現を照応詞, (φ1 の ) 指し先側の表現を先行詞という.

5: 照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほとんど着目されていなかった.

6: 機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた.2: 照応関係とは文章中の表現がある表現を指す関係をいう.

4: このうち,指し元側の表現を照応詞,指し先側の表現を先行詞という.

6: これまでの機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた.

5: 照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほとんど着目されていなかった.

3: そこで,本研究 3 では問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて考え,

1: 前者の問題については, (φ3 では ) 文の構造情報を利用した照応解析 2 の手法を提案する

修正前

修正後

首尾一貫性の良さの評価

談話単位 (e.g. 文,節 ) の順序並び換え

照応・共参照関係の解析・生成

接続関係の同定と必要に応じた接続表現の挿入・修正・削除

部分問題

Page 5: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

5

関連研究 談話単位 (e.g. 節 or 文 ) の間の関係をどう考える

か 修辞構造理論 (Mann ら 1988) に代表される談話関係

に関する議論 定義された関係のセットの妥当性 / 文章の構造を木とグラフのどちらで考えるか ?

談話単位 (e.g. 名詞句 ) の文章内の遷移から ( 局所的な ) 首尾一貫性の特徴を捉える entity-grid モデル (Barzilay ら 2008): 文法役割

に関する遷移を利用した首尾一貫性モデルを提案

Page 6: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

6

entity-grid モデル (Barzilay ら 2008)

首尾一貫性の高い文章でP(SS) や P(OSX) などそれぞれの遷移がどの程度起こるのか

首尾一貫性の低い場合でも同様に P(..) を計算し,順序学習する

S1

さきがけの武村正義代表は 五日、地元の滋賀県で記者会見し、今夏の参院選について、党公認候補として選挙区で八、九人を擁立する方針を初めて表明した。

S2

武村代表は「改選数三以上の東京、大阪、神奈川、埼玉、愛知と、改選数一の三、四県で公認候補を擁立し、比例区にも候補者を立てたい」と語った。

S3

さきがけは同日、参院選滋賀選挙区に、県議の奥村展三氏を公認候補として擁立 すると発表した。

さきがけ

武村代表 五日 方針 ...

S1X S X O ...

S2

− S − − ...

S3S − X − ...

entity-grid

S: 主語 / O: 目的語 / X: その他 / −:出現しない

Page 7: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

7

関連研究 : entity-grid モデルの拡張

日本語への適用 (横野ら 2010 ) 文法役割の 4クラス : subj/obj/other/-

主題を加えた 5クラス : は / が / に , を / その他 /-

Penn Discourse Treebank(PDTB)(Prasadら 2008) の利用 文法役割ではなく PDTB で定義された談話関係において談話要素がどのように出現するか

例 : S1:Comp.Arg1S3:Temp.Arg1S4:Exp.Arg2

(逆接 ) ( 順接 ) (詳述 )

Page 8: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

8

本研究のアイデア 「首尾一貫性の高い文章を書く際は,

照応・共参照関係を適切に多用する傾向がある」という考えを採用

Page 9: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

9

具体例

社会党は今年, (φ ガ ) 党の尊保をかけた「民主リベラル新党」構想の実現に取り組む.(φ ガ )21日に開く臨時党大会で新党結成方針を決定し, (φ ガ )他団体に働きかける.しかし,旧民主党は大半の議員が新進党に参加し,さきがけとの連携も流動的で連携相手は不確定だ.

社会党は今年, (φ ガ ) 党の尊保をかけた「民主リベラル新党」構想の実現に取り組む.しかし,旧民主党は大半の議員が新進党に参加し,さきがけとの連携も流動的で連携相手は不確定だ.21日に開く臨時党大会で新党結成方針が決定され, (φ ガ )他団体に働きかける.

首尾一貫性 : 高い 首尾一貫性 : 低い

• 社会党についての記述が局所的にまとめられている

• その後に旧民主党についての話題が記述されている

• 社会党 旧民主党 社会党と頻繁に主題が交替する

• 顕現性を反映しないゼロ照応の利用

Page 10: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

10

本研究のアイデア 「首尾一貫性の高い文章を書く際は,

照応・共参照関係を適切に多用する傾向がある」という考えを採用

「適切さ」「多用する」の推定 照応・共参照解析の結果を利用

Page 11: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

11

照応・共参照関係の適切さ /多用の推定

「適切さ」 首尾一貫性の高い文章にタグ付けされた照応・共参

照関係をもとに構築された照応・共参照解析のモデルを利用

期待できること このモデルを首尾一貫性の高い文章へ適用適切に照応・共参照関係を同定できる 首尾一貫性の低い文章へ適当相対的に照応・共参照関係を同定できない

「多用」 照応・共参照解析モデルの出力する照応・共参照関係

の個数

Page 12: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

12

提案する首尾一貫性スコア 文章 T ,文章中に出現する照応詞候補 j ,

照応詞候補の総数を N とする

文章 T に何個照応関係が出現するかを首尾一貫性の指標とする

首尾一貫性の高い文章と低い文章で同じスコアと なる場合が多くなることが容易に想像できる

j が先行詞を持つ

それ以外

Page 13: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

13

提案する首尾一貫性スコア 文章 T ,文章中に出現する照応詞候補 j ,

照応詞候補の総数を N とする

文章 T に出現する照応詞候補 j がどの程度の信頼度で前方文脈に先行詞を持つかという情報を参照

e.g.

Page 14: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

14

名詞句共参照解析モデルの利用 名詞句共参照解析のモデルを導入し,その結果が

どのように首尾一貫性のスコアに影響するかを調査 名詞句共参照のモデルは Iida &Poesio (2011) の

解析モデルを利用

: 探索先行分類型モデル ( 飯田ら 2005)

先行詞同定モデル

照応性判定 /ゼロ代名詞検出モデル

Page 15: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

15

評価実験 : 首尾一貫性の良さの評価

Barzilay ら (2008) と同様の評価 首尾一貫性の高い文章と低い文章の対を入力とし,

どの程度首尾一貫性の高い文章を選択できるか ? データ生成

首尾一貫性の高い文章 : オリジナルの文章 首尾一貫性の低い文章 : 首尾一貫性の高い文章の文を

ランダムに並び変えたもの 1 文章につき 20 の文章を作成

データ : NAISTテキストコーパス 1.4ß ( 飯田ら 2010)

データ種別

記事数 総文数 共参照関係

訓練用 1,753 24,263 10,206

評価用 696 9,287 4,396

Page 16: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

16

比較するモデル entity-grid モデル

共参照解析を利用して同一実体を指す要素を同定 文法役割は横野らが利用した [ は / が / に,を / その他 /-]の 5種類を採用

首尾一貫性スコア ( 提案手法 ) 名詞句共参照解析を利用 or ゼロ照応解析を利用

上記 2 つの組合せ entity-grid モデルの素性の 1 つにスコアを加える

Page 17: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

17

実験結果

モデル 精度random 0.500

(a) entity-grid (+coref) 0.707(b) 首尾一貫性スコア:

名詞句共参照解析0.761

(a)+(b) 0.782

Page 18: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

18

首尾一貫性モデルの適用例 :名詞句共参照解析

首尾一貫性 : 高い 首尾一貫性 : 低いS1十四日午前一時三十五分ごろ、東京都世田谷区代沢二の区道で、乗用車が電柱に衝突して逃げた、 と一一〇番通報があった。

S’1(=S4)

運転していたのは俳優の坂上忍容疑者で、酒酔い状態だったため、 同署は道路交通法違反の現行犯で逮捕した。

S2

北沢署であて逃げ事件とみて捜査したところ、前部が壊れた乗用車を発見。

S’2(=S6)

同乗の女優にけがはなかった。

S3逃走したためパトカーが追跡、運転していた男を取り押さえた。

S’3(=S1)

十四日午前一時三十五分ごろ、東京都世田谷区代沢二の区道で、乗用車が電柱に衝突して逃げた、 と一一〇番通報があった。

S4運転していたのは俳優の坂上忍容疑者で、酒酔い状態だったため、 同署は道路交通法違反の現行犯で逮捕した。

S’4(=S2)

北沢署であて逃げ事件とみて捜査したところ、前部が壊れた乗用車を発見。

S5

坂上容疑者は二週間のけが。 S’5(=S5)

坂上容疑者は二週間のけが。

S6

同乗の女優にけがはなかった。 S’6(=S3)

逃走したためパトカーが追跡、運転していた男を取り押さえた。

Page 19: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

19

まとめ 照応・共参照関係の自動解析の結果に基づく首

尾一貫性モデルの提案 名詞句共参照の結果から首尾一貫性スコアを計算 そのスコアをもとに首尾一貫性の良さを推定する

手法を提案

日本語新聞記事コーパスを対象とした首尾一貫性の評価で 78.2% の精度を得た

Page 20: 照応・共参照 解析に基づく 文章 の首尾一貫性 の 指標 ( 修正版 ) 飯田龍   徳永健伸 東京工業大学

20

今後の課題 新聞記事は社説などの記事を含むため,想定

する首尾一貫性に関連する記述 ( 議論的な内容 ) でない場合がある 学生の作成した小論文 (宇佐美 2011) を対象とした評価を実施

首尾一貫性モデルの改善に向けて 同一実体を指していない場合でも関連する談話要素が文章中に偏在しており,それらをどう考慮すべきかを検討すべき