翻訳精度の最大化による同時音声翻訳のための文分割法 (nlp2014)
Post on 11-Jun-2015
636 Views
Preview:
DESCRIPTION
TRANSCRIPT
翻訳精度の最大化による同時音声翻訳のための文分割法
小田 悠介 (@odashi_t)Graham Neubig 清水 宏晃
Sakriani Sakti 戸田 智基 中村 哲
情報科学研究科 , NAIST2014/3/18 (NLP2014)
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 1
1. 研究背景2. 関連研究3. 提案手法4. 実験と結果
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 2
同時音声翻訳 ― 機械翻訳の応用
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST2014/3/18 (NLP2014) 3
• 講義・スピーチの同時音声翻訳(Simultaneous Speech Translation: SST)
– 原発話を連続的に音声認識、翻訳(、音声合成)– 同時性(訳出時間の短さ)を重視
同時音声翻訳システム (English → Japanese)
今から 18 分間で皆様を旅にご案内します
可能な限り短時間で訳出
In the next 18 minutesI'm going to take you on a journey
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
従来の音声翻訳と文分割法• 従来の音声翻訳 …
2014/3/18 (NLP2014) 4
しかし…
同時性が大きく損失• 講義など 「文が長い」 「文末が曖昧」
EN JA
in the next 18 minutes I 'm going to take you on a journey and it 's a
journey that you and i have been on for many years now and ...
翻訳単位 = 文末推定 [Matusov+ 2006]
in the next 18 minutesI 'm going to take you
on a journey
文分割
より短い単位の翻訳が必要 文分割法の適用
今から 18 分間であなたを連れていきます
旅に
翻訳
翻訳単位を細分化
高速な訳出を実現(翻訳精度も低下:トレードオ
フ)
1. 研究背景2. 関連研究3. 提案手法4. 実験と結果
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 5
関連研究
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 6
• [Rangarajan-Sridhar+ 2013]– 予測された句読点の挿入位置 ( コンマ、ピリオド、その他 ) を使用
• 線型 SVM で学習 ( 素性 : word 1,2,3-gram / POS 1, 2, 3-gram)• 数種類の手法を比較検討 … 句読点による手法が最高性能
• [Fujita+ 2013]– 分割位置の右確率 (Right Probability: RP) を使用
• 右確率 … ある位置の前後で語順が同じになる確率
• [Bangalore+ 2012]– 音声認識の無音区間(=発話の休止)を用いて文を分割
すべてヒューリスティクスに基づく手法音韻的情報、言語的情報 …
関連研究の問題点
• 分割位置が翻訳精度に与える影響を考慮せず• 翻訳器に対して分割位置が最適化されていな
い
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 7
1. 研究背景2. 関連研究3. 提案手法4. 実験と結果
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 8
提案手法への要件• 提案手法が満たすべき要件
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 9
機械翻訳の評価尺度に基づいて最適な分割位置を決定
1. 定式化2. 文分割アルゴリズムの提案
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
文ごとの評価値の総和:
文分割 →個別に翻訳 →結合
定式化
2014/3/18 (NLP2014) 10
学習データ中の文分割位置集合
機械翻訳の評価尺度
学習済み翻訳器
対訳文(学習デー
タ)
• 対訳文・翻訳器・評価尺度が与えられたとき、文ごとの評価尺度の合計を最大化する文分割位置を探索
11
文分割モデル
モデル化
S*
分割位置の選択
アルゴリズムの概要
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
3. 分割位置を素性でモデル化
2. 個の分割位置を学習データから選択
翻訳器 MT対訳
評価尺度 EV
K
今回メインの話題3 種類の手法
1. 学習データ(対訳コーパス)全体で分割する数 を決定(=分割頻度の制約)
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
例
I ate lunch but she left
手法 1: 貪欲法に基づく探索• 次の分割位置を決めるとき、今までに選んだ分割位置を保
持( =貪欲法 : greedy search)
2014/3/18 (NLP2014) 12
最初の分割位置ω = 0.7 ω = 0.5 ω = 0.8 ω = 0.6 ω = 0.6
2 番目の分割位置ω = 0.7 ω = 0.5 ω = 0.7 ω = 0.8
3 番目の分割位置ω = 0.5 ω = 0.8ω = 0.9
I ate lunch but she left
I ate lunch but she left
選ばれた分割位置の素性を SVM で学習
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
I ate lunch but she left代名詞 動詞 名詞 接続詞 代名詞 動詞
I ate an apple and an orange代名詞 動詞 限定詞 名詞 接続詞 限定詞 名詞
例 (素性:前後の品詞)
手法 2: 素性によるグループ化
2014/3/18 (NLP2014) 13
• 翻訳器・評価尺度 … 複雑な関数 ノイズが多い– 学習データの性能が偶然良くなる分割位置で過学習
• 解決策 … 同じ素性を持つ分割位置をグループ化、同時に分割
グループ (代名詞 +動詞 ) グループ (名詞 +接続詞 ) グループ ( 限定詞 +名詞 )
• 動的計画法 (DP) で探索、 探索で素性が得られるので モデル化は不要
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
手法 3: 正則化の追加
2014/3/18 (NLP2014) 14
• 素性によるグループ化を行っても、滅多に現れない素性に対して過学習してしまう可能性
正則化項
• 素性の数に対する正則化項を導入
• 大きな α … 最終的に選択される素性の数が減少– α = 0 のときはグループ化のみの場合と等価
1. 研究背景2. 関連研究3. 提案手法4. 実験と結果
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 15
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
実験設定• テストデータのドメイン … TED 翻訳タスク [WIT3: Cettolo+ 2012]• 言語対 ... 英語→ドイツ語 ・ 英語→日本語• トークン化・品詞推定 ... Stanford POS Tagger, KyTea• ... BLEU+1• ... Moses(PBMT)• テストデータの評価 ... BLEU, RIBES
2014/3/18 (NLP2014) 16
言語対 用途 形態素数(英)形態素数(独 /
日)
英語→ドイツ語
PBMT 学習 21.8M 20.3M
文分割 学習 424k 390k
テスト 27.6k 25.4k
英語→日本語
PBMT 学習 13.7M 19.7M
文分割 学習 401k 550k
テスト 8.20k 11.9k
17
比較対象
手法名 概要
従来手法Punct-Predict 句読点位置の予測 [Rangarajan+ 2013]
RP 右確率 [Fujita+ 2013]
提案手法
Greedy 手法 1: 貪欲法(+ SVM によるモデル化)
Greedy+DP 手法 2: 貪欲法+素性によるグループ化
Greedy+DP (α = 0.5) 手法 3: 貪欲法+素性によるグループ化+正則化
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
実験結果 - BLEU
2014/3/18 (NLP2014) 18
翻訳単位の平均単語数
BLEU
Greedyは性能が低い(過学習?)
Greedy+DPはRP よりも高性能(英→独: 1程度向上)
翻訳性能を維持して未分割より 3~ 5倍、句読点予測より 2~ 3倍の分割頻度を実現
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
実験結果 - RIBES
2014/3/18 (NLP2014) 19
翻訳単位の平均単語数
RIBE
S
英→独、英→日両方で RP より高性能(英→独: 1程度向上)(英→日: 3程度向上)
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
実験結果 - 学習データの BLEU
2014/3/18 (NLP2014) 20
翻訳単位の平均単語数
BLEU
Greedyは学習データに対し非常に高い性能
しかしテスト結果は悪い
過学習
Greedy+DPグループ化制約
過学習を抑制
21
学習結果 (Greedy+GP)
(高頻度順)
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
1 NN / CC 7 NN / RB2 NN / VBZ 8 NNS / VBP3 CC / PRP 9 NN / VBD4 NN / PRP 10 CC / IN5 CC / DT 11 CC / NN6 CC / RB 12 CC / LS
まとめ• 同時音声翻訳の実現には文分割法が必要
• 従来手法 = ヒューリスティクス• 提案手法 = 翻訳精度を直接最適化
– 貪欲法– 動的計画法– 素性の数による正則化
• 実験結果– BLEU 英→独 で性能向上– RIBES 英→独、英→日 で性能向上– 分割頻度 未適用より 3~ 5倍、従来手法(句読点予測)
より 2~ 3倍
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 22
23
今後の課題• Greedy+DP アルゴリズムの改良
– 多数の素性を使用できるようにする– 学習データの大規模化 (要:高速化・省メモリ化)
• 履歴を考慮した翻訳 [Rangarajan-Sridhar+ 2013] の適用– 翻訳精度が向上することが既知
• 文末推定・品詞推定のオンライン化
• 人手評価による検証
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
References• [Matusov+ 2006]
Evgeny Matusov, Arne Mauser, and Hermann Ney. Automatic sentence segmentation and punctuation prediction for spoken language translation. In Proc. IWSLT, pages 158-165, 2006.
• [Bangalore+ 2012]Srinivas Bangalore, Vivek Kumar Rangarajan Sridhar, Prakash Kolan, Ladan Golipour, and Aura Jimenez. Real-time incremental speech-to-speech translation of dialogs. In Proc. NAACL HLT, pages 437-445, 2012.
• [Rangarajan-Sridhar+ 2013]Vivek Kumar Rangarajan Sridhar, John Chen, Srinivas Bangalore, Andrej Ljolje, and Rathinavelu Chengalvarayan. Segmentation strategies for streaming speech translation. In Proc. NAACL HLT, pages 230-238, 2013.
• [Fujita+ 2013]Tomoki Fujita, Graham Neubig, Sakriani Sakti, Tomoki Toda, and Satoshi Nakamura. Simple, lexicalized choice of translation timing for simultaneous speech translation. In InterSpeech, 2013.
• [WIT3: Cettolo+ 2012]Mauro Cettolo, Christian Girardi, and Marcello Federico.2012. Wit3: Web inventory of transcribed and translated talks. In Proc. EAMT, pages 261–268.
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 24
top related