読解支援@2015 05-22

16
松吉俊, 佐藤理史. 文体と難易度を制御可能な 日本語機能表現の言い換え. 自然言語処理, 15(2), pp.7599, 2008. プレゼンテーション 関沢祐樹 2015/05/22 1

Upload: sekizawayuuki

Post on 08-Aug-2015

27 views

Category:

Education


1 download

TRANSCRIPT

松吉俊,  佐藤理史.    文体と難易度を制御可能な  日本語機能表現の言い換え.    

自然言語処理,  15(2),    pp.75-­‐99,  2008.

プレゼンテーション  関沢祐樹

2015/05/22 1

概要

•  日本語の機能語、複合辞  – この論文では機能表現と呼ぶ  

•  言い換えには、文体の制御が必要  

•  取り組んだこと  – 形態階層構造と意味階層構造を持つ機能表現

辞書を用いた日本語表現の言い換え手法  •  文体、難易度も制御  •  クローズドテスト、オープンテストの試行

2015/05/22 2

はじめに(1)

•  機能表現・・・機能語と複合辞  – 機能語:助詞、助動詞、接続詞、形式名詞  – 複合辞:2語以上で、1つの機能語のように働く  – ほぼ全ての文、文節に含まれる→言い換えは重要    

•  難易度・・・言い換え後の機能表現の          理解しやすさ  – 知らない機能表現は文の意味の理解の妨げ  – 必要以上にやさしく言い換えると、    意味的に曖昧になる可能性がある  – 読者にふさわしい難易度の表現に言い換えたい  

2015/05/22 3

はじめに(2)

•  機能表現・・・多くの形態的異形を持つ  – 例、 「なければならない」  – 常体: 「なくてはならない」  – 敬体: 「なければなりません」  – 口語体: 「なけりゃならない」  – 堅い文体:「ねばならん」  – 言い換え先の文体を制御したい  

•  形態階層構造、意味階層構造を持つ機能表現辞書を用い、文体と難易度を制御しつつ、  

  日本語機能表現を言い換える手法を提案

2015/05/22 4

形態階層構造

•  機能表現の異形を階層構造を用いて分類  –  全9層から成り立つ  –  下位階層ほど、細かい条件で表現を区別  •  下位階層ほど表現数が多い  

–  階層構造における位置を表すIDが付与  •  上位階層の機能表現がわかる  

–  文体、左接続、右接続、難易度などの情報つき  •  難易度は、日本語能力試験出題基準の級に基づく  

2015/05/22 5

意味階層構造

•  機能表現の少ない意味的等価クラスを    その上位の意味を示す意味的等価クラスの     下位クラスと再定義  – 言い換えのパターンの増加  – 3層からなる意味階層構造を作成  

•  下位階層ほど、多くのクラスが存在  •  1つの意味的等価クラスに様々な難易度の機能

表現が存在する  – やさしい例:「とどうじに」、「たとたんに」  – 難しい例    :「やいなや」、「がはやいか」

2015/05/22 6

指定を満たすすべての出現形の列挙

•  等価な機能表現の列挙  1.  形態階層構造で与えられた上位の機能表現の探索  2.  意味階層構造でその機能表現を含む意味的     等価クラスを見つけ、属する機能表現の集合を得る  3.  集合から、難易度指定を満たさない機能表現を排除  4.  形態階層構造に基づき、集合内の各機能表現に対して、

そのすべての異形を列挙  5.  得られた出現形のリストから、文体指定を満たさない     出現形を排除

2015/05/22 7

機能表現の言い換え手法 •  入力表現の単位 ・・・ 文節  – 機能表現を含む も基本的文構成  – 機能表現を言い換えて、代替表現を生成  

•  予備調査 : 人間による機能表現の言い換え  – 以下の条件で、日本語教育の知識がある1人が調査  1.  機能語を言い換え(内容語は言い換えない)  2.  自由に言い換え(やさしく、短くといった制約なし)  3.  1つの文節に複数の代替表現がある場合、全て記述  * 代替表現がない場合、書き換えなくても良い  

2015/05/22 8

予備調査の結果

•  238の文節中226の文節に代替表現  – 代替表現数は410  

•  適切かどうかを作業者とは異なる2人の    判定者が、判定基準に基づき独立に判定  – 言い換え前後の表現が、ある文脈で置換可能     →代替表現として適切  – 2人とも◯  : 353個(86%)  – このうち215個(61%)は“1→1”の置換

2015/05/22 9

言い換えシステムのモジュール

1.  文節解析:文節を内容語と機能表現に分割  –  機能語部解析器:MeCab  •  17,000の機能表現の出現形のみを保持  

–  機能語部抽出器:MeCab(IPA辞書を組み込み)  2.  言い換え生成:代替表現のリストを生成  –  文体指定と難易度指定をもとに生成  

3.  順位付け  –  代替表現のリストをコーパス中の頻度に基づく

スコアで順位付け

2015/05/22 10

評価

•  本実験で評価した項目  – 言い換えシステムが生成する代替表現を評価  – 意味的等価クラスの妥当性の検証  

•  評価方法  – 言い換えシステムの出力上位5位までに適切な

代替表現が含まれているか  – 1人の判定者が、〇、△、×の3段階で評価  – 複数の機能表現に関する文献を参照しつつ評価  

2015/05/22 11

評価(続き)

•  クローズドテスト:学習データを入力とする  – 予備調査に使用した文節リストを入力文節リスト  

•  オープンテスト:学習データ以外を入力とする  – 「どんな時どう使う日本語表現文型500」の用例を    入力文節リスト  

•  言い換えシステム出力上位5位までを対象  –  代替表現の順位づけにコーパスを利用  •  毎日新聞コーパス1991-­‐2005年度版を用いた  •  15年分、約2,100万文、約1.5GB  

2015/05/22 12

結果

•  上位5位に、〇が1つは含まれていた文節数

•  値が、1位-3位でほぼ飽和 – ここからは、 1位-3位における結果において議論  

2015/05/22 13

議論1

•  入力文節に対する適切な代替表現の割合  – 文章作成支援において十分高い  

•  オープンテストで適切な代替表現の非生成  – 全体の3%  :  意味的等価クラスの不備  

•  わずかなため、意味的等価クラスは妥当なもの  

2015/05/22 14

議論2

•  1→1と少数語の挿入のみでは代替表現不可  –  1→n、n→1、n→mが必要  

•  入力文節の解析誤り  – 例.ひらがなさえ  →  ひら  /  がな  /  さえ  – 人手での解析で、適切な代替表現を上位に出力可  – 文節解析モジュールの改善とともに減少するだろう  

2015/05/22 15

おわりに

•  実装した言い換えシステム  – 機能表現に対し、文体指定、難易度指定を満たす    意味的に等価な機能表現のすべてを列挙可能  – 入力文節の79%に対して適切な代替表現を生成  – 類似性規則による、より多様な機能表現の言い換え  

•  今後の課題  – 内容表現の言い換え手法と、本論文の    言い換え手法を組み合わせることによる     日本語表現の幅広い言い換えの実現  

2015/05/22 16