Download - 読解支援@2015 05-01
やさしい表現へのニュースの 自動変換評価用データセットの構築
後藤功雄 熊野正 田中英輝
NHK 放送技術研究所
プレゼンテーション 関沢祐樹
1 2015-05-01
概要
• 現在の課題
–ニュースをやさしく書き換えるのは人手
• 取り組みたいこと
–自動処理技術による、支援システムの自動化
–書き換え作業の効率化、及び配信記事数の増加
• 取り組んだこと
– NEWSWEB EASYに蓄積された書き換えを用いた 自動変換評価用データセットの構築
2015-05-01 2
自動処理技術に用いるもの
統計的機械翻訳(SMT)
–テキストデータを集め、統計モデルを学習
–統計モデルを基に自動的に翻訳
• 書き換え前の記事と、やさしく書き換えられた記事対から、対応する文対を抽出
• 自動変換評価用データセットを構築
2015-05-01 3
記事の書き換え
• 日本語教師と、記者が交互に書き換え
• 1回目の日本語教師の書き換えを採用
– 2回目以降の書き換えの状態
–すでにやさしくなっている
–書き換えの数が少なくなる
• 記者の書き換えが含まれる
–表現をやさしくする部分での評価ができなくなる
2015-05-01 4
人手によるパラレル文対の抽出
パラレル記事対内でアラインメント作成 (1:n)
2015-05-01 5
原文1
原文2
目的文3
目的文2
目的文1
対象とするための条件
• 条件1・・・原文:目的文=1:n (n:自然数) – n:1は対象外 – 書き換えられていない文を1文単位で評価したいため
• 条件2・・・ノイズ制約 – 原文の主要内容が目的文にあること – 原文にない内容が目的文に 追加されていないこと
*原文の詳細情報が目的文になくてもよい
2015-05-01 6
文アラインメントの付与
• 前述2つの条件内で、人手で付与 – 490記事対中485記事で抽出可能だった
• ノイズ制約を満たさない文対 – ノイズありと見なす
1:nのパラレル文対のノイズの割合
2015-05-01 7
人手による記事の書き換えの例
2015-05-01 8
文アラインメントの自動推定
• 書き換え前後の文は、単語、文順が一致しやすい
→一致する語に対して動的計画法
・Champollion を用いる
• Champollionの動的計画法
– 文の省略、追加、連続の複数文を含む
アラインメントの推定が可能
– 対応する文対の文順を同じに制限する
– 文順が変わると、アラインメント不可
– 質の低いパラレル文対の抽出を回避
2015-05-01 9
文アラインメントの割合
人手:490記事対 自動推定:1,559記事対
2015-05-01 10
文アラインメント推定の品質評価
• 人手で文アラインメントを付与した
490記事対を用いて評価
• アラインメントの単位を1つの対応関係
– 1文:1文、1文:2文、1文:0文など
2015-05-01 11
自動変換の重要点
• 自動変換できない表現の存在
–そのまま出力
–無理矢理変換 の2つの方法がある
• 無理矢理変換すると、誤りを含みやすい
– 出力の品質の低下
• データ量よりも、ノイズの軽減が重要
2015-05-01 12
自動変換評価用データセット
• 2012年4月〜2014年9月のデータから構築
• 日本語教師の書き換えを含む編集を利用
• 訓練データ、開発データ、テストデータを持つ
2015-05-01 13
各データの用途 • 訓練データ
– Champollionの自動推定のうち、1:nを採用
–言語モデルの構築
• 開発データ –人手によるパラレル文対を採用
– SMTシステムのパラメータのチューニング
• テストデータ –人手によるパラレル文対を採用
–機械翻訳の自動評価手法などを用いて、
自動変換した文の品質評価
2015-05-01 14
終わりに
• データセットの用途
–自動変換の評価・課題調査・改善
• 書き換え方法の変更
–現在、記者の書き換え→日本語教師の書き換え
–最初に表現を自動変換で効率が上がるかも
– この条件での評価データも構築したい
2015-05-01 15