読解支援@2015 05-01

15
やさしい表現へのニュースの 自動変換評価用データセットの構築 後藤功雄 熊野正 田中英輝 NHK 放送技術研究所 プレゼンテーション 関沢祐樹 1 2015-05-01

Upload: sekizawayuuki

Post on 18-Jul-2015

71 views

Category:

Education


1 download

TRANSCRIPT

Page 1: 読解支援@2015 05-01

やさしい表現へのニュースの 自動変換評価用データセットの構築

後藤功雄 熊野正 田中英輝

NHK 放送技術研究所

プレゼンテーション 関沢祐樹

1 2015-05-01

Page 2: 読解支援@2015 05-01

概要

• 現在の課題

–ニュースをやさしく書き換えるのは人手

• 取り組みたいこと

–自動処理技術による、支援システムの自動化

–書き換え作業の効率化、及び配信記事数の増加

• 取り組んだこと

– NEWSWEB EASYに蓄積された書き換えを用いた 自動変換評価用データセットの構築

2015-05-01 2

Page 3: 読解支援@2015 05-01

自動処理技術に用いるもの

統計的機械翻訳(SMT)

–テキストデータを集め、統計モデルを学習

–統計モデルを基に自動的に翻訳

• 書き換え前の記事と、やさしく書き換えられた記事対から、対応する文対を抽出

• 自動変換評価用データセットを構築

2015-05-01 3

Page 4: 読解支援@2015 05-01

記事の書き換え

• 日本語教師と、記者が交互に書き換え

• 1回目の日本語教師の書き換えを採用

– 2回目以降の書き換えの状態

–すでにやさしくなっている

–書き換えの数が少なくなる

• 記者の書き換えが含まれる

–表現をやさしくする部分での評価ができなくなる

2015-05-01 4

Page 5: 読解支援@2015 05-01

人手によるパラレル文対の抽出

パラレル記事対内でアラインメント作成 (1:n)

2015-05-01 5

原文1

原文2

目的文3

目的文2

目的文1

Page 6: 読解支援@2015 05-01

対象とするための条件

• 条件1・・・原文:目的文=1:n (n:自然数) – n:1は対象外 – 書き換えられていない文を1文単位で評価したいため

• 条件2・・・ノイズ制約 – 原文の主要内容が目的文にあること – 原文にない内容が目的文に 追加されていないこと

*原文の詳細情報が目的文になくてもよい

2015-05-01 6

Page 7: 読解支援@2015 05-01

文アラインメントの付与

• 前述2つの条件内で、人手で付与 – 490記事対中485記事で抽出可能だった

• ノイズ制約を満たさない文対 – ノイズありと見なす

1:nのパラレル文対のノイズの割合

2015-05-01 7

Page 8: 読解支援@2015 05-01

人手による記事の書き換えの例

2015-05-01 8

Page 9: 読解支援@2015 05-01

文アラインメントの自動推定

• 書き換え前後の文は、単語、文順が一致しやすい

→一致する語に対して動的計画法

・Champollion を用いる

• Champollionの動的計画法

– 文の省略、追加、連続の複数文を含む

アラインメントの推定が可能

– 対応する文対の文順を同じに制限する

– 文順が変わると、アラインメント不可

– 質の低いパラレル文対の抽出を回避

2015-05-01 9

Page 10: 読解支援@2015 05-01

文アラインメントの割合

人手:490記事対 自動推定:1,559記事対

2015-05-01 10

Page 11: 読解支援@2015 05-01

文アラインメント推定の品質評価

• 人手で文アラインメントを付与した

490記事対を用いて評価

• アラインメントの単位を1つの対応関係

– 1文:1文、1文:2文、1文:0文など

2015-05-01 11

Page 12: 読解支援@2015 05-01

自動変換の重要点

• 自動変換できない表現の存在

–そのまま出力

–無理矢理変換 の2つの方法がある

• 無理矢理変換すると、誤りを含みやすい

– 出力の品質の低下

• データ量よりも、ノイズの軽減が重要

2015-05-01 12

Page 13: 読解支援@2015 05-01

自動変換評価用データセット

• 2012年4月〜2014年9月のデータから構築

• 日本語教師の書き換えを含む編集を利用

• 訓練データ、開発データ、テストデータを持つ

2015-05-01 13

Page 14: 読解支援@2015 05-01

各データの用途 • 訓練データ

– Champollionの自動推定のうち、1:nを採用

–言語モデルの構築

• 開発データ –人手によるパラレル文対を採用

– SMTシステムのパラメータのチューニング

• テストデータ –人手によるパラレル文対を採用

–機械翻訳の自動評価手法などを用いて、

自動変換した文の品質評価

2015-05-01 14

Page 15: 読解支援@2015 05-01

終わりに

• データセットの用途

–自動変換の評価・課題調査・改善

• 書き換え方法の変更

–現在、記者の書き換え→日本語教師の書き換え

–最初に表現を自動変換で効率が上がるかも

– この条件での評価データも構築したい

2015-05-01 15