acl読み会@2015 09-18
TRANSCRIPT
ACL読み会2015-‐09-‐18
Domain-‐Specific Paraphrase Extrac5on
Ellie Pavlick, Juri Ganitkevitch, Tsz Ping Chan, Xuchen Yao,
Benjamin Van Durme, Chris Callison-‐Burch
プレゼンテーション 関沢祐樹
2015/09/18 1
概要
• 言い換えの正当性 • 言い換え適用先のテキストのドメインによる
• 提案手法 • 二言語間のピボッティングによる言い換えを用い
訓練データを言い換え先のドメインに偏らせる • 適合率ー再現率曲線の曲線下面積が
ベースラインの10%だけ増加
2015/09/18 2
はじめに
• 言い換えが適切かどうかの判断は難しい • 言い換え後の文法が正しいかどうか • 単語の意味が正しいかどうか
• 言い換えでのドメインの影響は不明 • 言い換えの信頼性はドメインにより異なるのでは? • 特定のドメインでのみ言い換えできるものもある
2015/09/18 3
言い換えの抽出
• 二言語間でのピボッティング • e1, e2 : 英語のフレーズ , f : 他言語のフレーズ • e1 à f, e2 à f ならば, e1 と e2 は似た意味である
• e1, e2 は言い換えペアであると言える
• 言い換えらしさ
• 様々な他言語、翻訳確率を使用 • 多義語で、頻度が少ないと確率が低くなる
2015/09/18 4
ドメイン特有のサンプル
• 2つの言語モデルからなる大きなコーパスの 各文に重みを付与
一般ドメイン ターゲット分野テキストのサンプル • ドメイン特有らしさ : • si : 文 • Htgt : ターゲットドメイン言語モデルでのクロスエントロピー
• Hgen : 一般ドメイン言語モデルでのクロスエントロピー • σi が小さいほど、ドメイン依存な文と言える
2015/09/18 5
ドメイン特有の言い換え
• ドメイン特有らしさの計算 – 単一言語の専門的ドメインのサンプルが必要 • 言い換え抽出ではなく、ターゲットドメイン言語の nグラムモデルの訓練に使用する
– σi を計算し、より近い文のペア à リストの先頭
• ソートの方法 1. σi の閾値を決め、残ったものをターゲットドメイン 2. 訓練サンプルの重みをσi に比例したものにする
2015/09/18 6
実験設定
• ターゲットドメイン : 生物学(biology) • 単一言語ドメインデータ
• GENIA database , 生物学の教科書の序論
• 一般ドメイン : Wikipediaのデータ • 二言語間ドメインデータ • 仏ー英、10億単語のパラレルコーパス
• 言語モデル : 5-‐gram
2015/09/18 7
実験評価
• 評価指標 : 適合率と再現率 • 評価数 • 生物学ドメイン : 15,000文、一般ドメイン : 10,000文
• 評価方法 : 言い換えが適切かどうかの2値評価 5人で評価し、多数決 ある文のフレーズに対して、 その言い換え候補のリストがある
2015/09/18 8
実験手法
• ベースライン(General) – パラレルコーパスそのまま使用
目標ドメインに対する重み付けなし • サブサンプリング(M-‐L,T=τ) – パラレルコーパスをソート、上位τ語を使用
• M-‐L Change Point – σi の正負が変化する部分を閾値(τ=20Mに相当)
• M-‐L Weighted – 言い換えスコアをσi に比例させる
2015/09/18 9
実験結果(biology)
10 2015/09/18
実験結果(biology)
• ベースラインよりも良くなっている
• 再現率が減少 • サブサンプリングで
全単語は出現しない • τが大きい à 再現率上昇
11 2015/09/18
生物ドメインと一般ドメインの合体
• これまでの方法 : テキストの一部分を使用 • 全部は考慮していない à 再現率に限界あり
• 部分サンプリングしたモデルと一般ドメインをロジスティック回帰によって合体 • p(e2|e1) を見積もることができる
2015/09/18 12
生物ドメインと一般ドメインの合体
2015/09/18 13
生物ドメインと一般ドメインの合体
2015/09/18 14
おわりに
• 本研究が行ったこと • ドメイン依存の言い換え抽出 • 機械翻訳の方法で抽出 • 目標ドメインに近いものを使用
• 実験結果 • ベースラインと比較してP – R曲線下面積が10%向上
2015/09/18 15