読解支援@2015 05-22
TRANSCRIPT
概要
• 日本語の機能語、複合辞 – この論文では機能表現と呼ぶ
• 言い換えには、文体の制御が必要
• 取り組んだこと – 形態階層構造と意味階層構造を持つ機能表現
辞書を用いた日本語表現の言い換え手法 • 文体、難易度も制御 • クローズドテスト、オープンテストの試行
2015/05/22 2
はじめに(1)
• 機能表現・・・機能語と複合辞 – 機能語:助詞、助動詞、接続詞、形式名詞 – 複合辞:2語以上で、1つの機能語のように働く – ほぼ全ての文、文節に含まれる→言い換えは重要
• 難易度・・・言い換え後の機能表現の 理解しやすさ – 知らない機能表現は文の意味の理解の妨げ – 必要以上にやさしく言い換えると、 意味的に曖昧になる可能性がある – 読者にふさわしい難易度の表現に言い換えたい
2015/05/22 3
はじめに(2)
• 機能表現・・・多くの形態的異形を持つ – 例、 「なければならない」 – 常体: 「なくてはならない」 – 敬体: 「なければなりません」 – 口語体: 「なけりゃならない」 – 堅い文体:「ねばならん」 – 言い換え先の文体を制御したい
• 形態階層構造、意味階層構造を持つ機能表現辞書を用い、文体と難易度を制御しつつ、
日本語機能表現を言い換える手法を提案
2015/05/22 4
形態階層構造
• 機能表現の異形を階層構造を用いて分類 – 全9層から成り立つ – 下位階層ほど、細かい条件で表現を区別 • 下位階層ほど表現数が多い
– 階層構造における位置を表すIDが付与 • 上位階層の機能表現がわかる
– 文体、左接続、右接続、難易度などの情報つき • 難易度は、日本語能力試験出題基準の級に基づく
2015/05/22 5
意味階層構造
• 機能表現の少ない意味的等価クラスを その上位の意味を示す意味的等価クラスの 下位クラスと再定義 – 言い換えのパターンの増加 – 3層からなる意味階層構造を作成
• 下位階層ほど、多くのクラスが存在 • 1つの意味的等価クラスに様々な難易度の機能
表現が存在する – やさしい例:「とどうじに」、「たとたんに」 – 難しい例 :「やいなや」、「がはやいか」
2015/05/22 6
指定を満たすすべての出現形の列挙
• 等価な機能表現の列挙 1. 形態階層構造で与えられた上位の機能表現の探索 2. 意味階層構造でその機能表現を含む意味的 等価クラスを見つけ、属する機能表現の集合を得る 3. 集合から、難易度指定を満たさない機能表現を排除 4. 形態階層構造に基づき、集合内の各機能表現に対して、
そのすべての異形を列挙 5. 得られた出現形のリストから、文体指定を満たさない 出現形を排除
2015/05/22 7
機能表現の言い換え手法 • 入力表現の単位 ・・・ 文節 – 機能表現を含む も基本的文構成 – 機能表現を言い換えて、代替表現を生成
• 予備調査 : 人間による機能表現の言い換え – 以下の条件で、日本語教育の知識がある1人が調査 1. 機能語を言い換え(内容語は言い換えない) 2. 自由に言い換え(やさしく、短くといった制約なし) 3. 1つの文節に複数の代替表現がある場合、全て記述 * 代替表現がない場合、書き換えなくても良い
2015/05/22 8
予備調査の結果
• 238の文節中226の文節に代替表現 – 代替表現数は410
• 適切かどうかを作業者とは異なる2人の 判定者が、判定基準に基づき独立に判定 – 言い換え前後の表現が、ある文脈で置換可能 →代替表現として適切 – 2人とも◯ : 353個(86%) – このうち215個(61%)は“1→1”の置換
2015/05/22 9
言い換えシステムのモジュール
1. 文節解析:文節を内容語と機能表現に分割 – 機能語部解析器:MeCab • 17,000の機能表現の出現形のみを保持
– 機能語部抽出器:MeCab(IPA辞書を組み込み) 2. 言い換え生成:代替表現のリストを生成 – 文体指定と難易度指定をもとに生成
3. 順位付け – 代替表現のリストをコーパス中の頻度に基づく
スコアで順位付け
2015/05/22 10
評価
• 本実験で評価した項目 – 言い換えシステムが生成する代替表現を評価 – 意味的等価クラスの妥当性の検証
• 評価方法 – 言い換えシステムの出力上位5位までに適切な
代替表現が含まれているか – 1人の判定者が、〇、△、×の3段階で評価 – 複数の機能表現に関する文献を参照しつつ評価
2015/05/22 11
評価(続き)
• クローズドテスト:学習データを入力とする – 予備調査に使用した文節リストを入力文節リスト
• オープンテスト:学習データ以外を入力とする – 「どんな時どう使う日本語表現文型500」の用例を 入力文節リスト
• 言い換えシステム出力上位5位までを対象 – 代替表現の順位づけにコーパスを利用 • 毎日新聞コーパス1991-‐2005年度版を用いた • 15年分、約2,100万文、約1.5GB
2015/05/22 12
議論1
• 入力文節に対する適切な代替表現の割合 – 文章作成支援において十分高い
• オープンテストで適切な代替表現の非生成 – 全体の3% : 意味的等価クラスの不備
• わずかなため、意味的等価クラスは妥当なもの
2015/05/22 14
議論2
• 1→1と少数語の挿入のみでは代替表現不可 – 1→n、n→1、n→mが必要
• 入力文節の解析誤り – 例.ひらがなさえ → ひら / がな / さえ – 人手での解析で、適切な代替表現を上位に出力可 – 文節解析モジュールの改善とともに減少するだろう
2015/05/22 15