Transcript
Page 1: 読解支援プレゼン 4 28

 語彙的対応関係の一般化に基づく  

言い換え知識の拡張    

藤田篤 Pierre  Isabelle  情報通信研究機構 National  Research  Council  Canada  

 言語処理学会第21回年次大会発表論文集  

D1-­‐5,  pp.321-­‐324,  2015

紹介者:塩田健人

1

Page 2: 読解支援プレゼン 4 28

概要 ・言い換えを頑健かつ精度よく自動生成するためには  多くの言い換え知識が不可欠である    ・現在の言い換え技術では精度のよい言い換えをするには  高品質な言語資源が必要  

 例:Catvar,  Word  Net    ・しかし、構築・保守にかかる人的コストは大きく、  高価な資源である    そこで、  

『言語依存の高価な言語資源を使わずに  精度のよい言い換え手法を提案する』

2

Page 3: 読解支援プレゼン 4 28

先行研究 1.単言語コーパスに基づく方法

• 分布仮説に基づいて使用される文脈が類似している(文脈類似度が高い)表現の対を言い換え表現対として獲得する。

• 反義関係や上位ー下位関係などの同義以外の関係を持つ表現の対も高い文脈類似度を持つため、精度は低い。

3

Page 4: 読解支援プレゼン 4 28

先行研究 2.単言語パラレル/コンパラブルコーパスに基づく方法

•  .単言語パラレル/コンパラブルコーパスの対応する文の対における同義の部分を使い、精度よく言い換え表現対を獲得できる。

• 単言語コーパスほどのカバレージを得ることは出来ない。

4

Page 5: 読解支援プレゼン 4 28

先行研究 3.異言語パラレルコーパス(対訳コーパス)に基づく方法

• 異なる言語において共通の訳を持つ表現を言い換えとして獲得できる。

• しかし、たとえ大きな対訳コーパスであっても単言語コーパスに比べると極めて小さく、言い換えカバレージも低い

5

Page 6: 読解支援プレゼン 4 28

提案手法    

言い換え知識中の個々の言い換え表現対における  語彙的な対応関係に着目し、言い換えパターンの獲得  

 獲得した言い換えパターンを用いて、

単言語コーパスから新たな言い換え表現対を収集する  

6

Page 7: 読解支援プレゼン 4 28

提案手法 言い換えパターンの獲得

言い換え表現対Sseedから言い換えパターンの獲得

接辞パターンの候補を獲得

抽出された接辞パターンの候補をフィルタリングする

7

Page 8: 読解支援プレゼン 4 28

提案手法 言い換えパターンの獲得

言い換え表現対Sseedから言い換えパターンの獲得

接辞パターンの候補を獲得

抽出された接辞パターンの候補をフィルタリングする

8

Page 9: 読解支援プレゼン 4 28

提案手法  

Amendment  of  regulation  ⇔  amending  regulation    

X  :  ment  of  Y  :  ϕ ⇔ X : ing Y : ϕ  

investment  of  resources  ⇔  investing  resources  recruitment  of  engineers  ⇔  recruiting  engineers  

•  上記のような元々の対とは表層的に全く異なる語で構成される対も得られる。

9

Page 10: 読解支援プレゼン 4 28

着目する語群 •  派生語  

o 表記や意味の一部を共有する異なる語の群  {“develop”,  “developer”,  “development”,  …}  

•  活用形/屈折形  o 活用や屈折に由来する同じ語の異なる出現形  {“amend”,  “amends”,  “amending”,  …}  

•  異表記  o 同じ語の同じ活用形/屈折形の異なる表記  {“color”,  “colour”},  {“authorize”,  “authorise”,  …}  

10

Page 11: 読解支援プレゼン 4 28

提案手法 言い換えパターンの獲得

言い換え表現対Sseedから言い換えパターンの獲得

接辞パターンの候補を獲得

抽出された接辞パターンの候補をフィルタリングする

11

Page 12: 読解支援プレゼン 4 28

提案手法 •  高品質なSseedを前提として  

•  言い換え表現対の各辺にあり、同じ語幹をもつ語の対は、特定の(意味的な)関係を持つ

語1      語2 接辞1 接辞2 語幹 aimed  aimed  achieving  achieving  

aims  achieve  aims  achieve  

X  :  ed  X  :  imed  X  :  chieving  X  :  ing

X  :  s  X  :  chieve  X  :  ims  X  :  e

aim  a  a  achiev  

12

Page 13: 読解支援プレゼン 4 28

提案手法 言い換えパターンの獲得

言い換え表現対Sseedから言い換えパターンの獲得

接辞パターンの候補を獲得

抽出された接辞パターンの候補をフィルタリングする

13

Page 14: 読解支援プレゼン 4 28

提案手法 •  抽出した接辞パターンの品質保持のため  

長さk以上の語幹n種類以上に対して  観察された接辞パターンのみを残す。

接辞1 接辞2 語幹の種類数

結果 長さ  ≥  5   長さ  <  5  

X  :  chieve  X  :  chieving  X  :  ed  X  :  ing

X  :  imed  X  :  ims  X  :  s  X  :  e

0  0  

69  330  

1  1  

22  70

捨てる  捨てる  残す  残す  

14

Page 15: 読解支援プレゼン 4 28

新規言い換え表現の獲得

15

Page 16: 読解支援プレゼン 4 28

コーパス  

•  Europarl  o 英仏対200万文(英語5570万語、仏語6190万語)  o 使用したコーパス  

• 英語側とNews  Crawl  5,200万文、12.0億語  

•  NTCIR  o 日英対320万文(英語1.07億語、日本語1.16億形態素)  o 使用したコーパス  

• 英語側とNTCIRの単言語文書3,990万文、13.6億語  

16

Page 17: 読解支援プレゼン 4 28

問題点 People  of  Europe  ⇔  European  population  

 People  of  X  :  ϕ  ⇔  X  :  an  population  

 単言語コーパスで同じ関係を持つ  (“Haiti”,  ”Haitian”),  (“suburb”,  “suburban”)だけでなく  (“uncle”,  “unclean”)など語の意味ではなく、語の形だけで抽出されてしまう    文脈類似度を単言語コーパスから計算して、置き換え出来ないような対を除外する

17

Page 18: 読解支援プレゼン 4 28

拡張結果

SLVとSseed中の  言い換え表現対の数  

SLVとSseed中の  言い換え表現対の数の比  

18

Page 19: 読解支援プレゼン 4 28

評価 •  評価設定  

o 自動生成した言い換え文が文法的か  o 言い換え文が原文と同じ意味を持つか  

•  評価方法  o 同じ原文から得られた複数の言い換え文を横並びにし、文法性、意味の等価性を人間が評価する  

19

Page 20: 読解支援プレゼン 4 28

評価結果 評価基準 粗い分類 細かい分類 文法性 0.64  –  0.79 0.51  –  0.56

意味の等価性 0.48  –  0.53 0.27  –  0.35

評価者各対のCohenのk

文数 文法性 意味の等価性 両方 SSeed 66 0.85 0.91 0.76 SLV 534 0.76 0.78 0.59 合計 600 0.75 0.79 0.61

自動生成した言い換え文の精度

言語依存の高価な言語資源をほとんど使用することなく、構文解析器などを用いた従来手法と同等以上の精度を達成  

20

Page 21: 読解支援プレゼン 4 28

考察 文法カテゴリの変化  

•  The  safety  issue  was  considered  sufficiently  serious  for  all  affected  parties  to  be  informed  

•  The  safety  issue  was  sufficient  consideration  serious  for  all  affected  parties  to  be  informed

 数や冠詞の違い  

•  There  are  tons  of  potential  buyers  of  military  weapons  

•  There  are  a  potential  buyer  of  military  weapons

21

Page 22: 読解支援プレゼン 4 28

まとめ 従来手法で自動的に獲得された言い換え知識を  言い換え表現対に見られる語彙的対応関係に着目し、  単言語コーパスで拡張する手法の提案    

この手法は高いカバレージ、許容可能程度の精度  を達成できた    今後は、英語以外の言語、他の手法で獲得した言い換えにもこの手法を試していきたい。

22


Top Related