emnlp 2015 読み会 @ 小町研 "morphological analysis for unsegmented languages using...

18
EMNLP 2015 読読読 @ 読読読 “ Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model “ Hajime Morita, Daisuke Kawahara, Sadao Kurohashi 読読読読読読 読読読読読読読読読読 読読読読読 M2 読 読読 1

Upload: yuki-tomo

Post on 14-Apr-2017

545 views

Category:

Engineering


3 download

TRANSCRIPT

Page 1: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

1

EMNLP 2015 読み会 @ 小町研

“ Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model “Hajime Morita, Daisuke Kawahara, Sadao Kurohashi

首都大学東京 情報通信システム学域 小町研究室  M2 塘 優旗

Page 2: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

2

Abstract Recurrent Neural Network Language

Model (RNNLM) を利用し、新たな形態素解析モデルを提案

意味的に一般化された言語モデルとしてRNNLM を利用

二つの日本語コーパスにおいて、提案手法がベースラインに比べて良い結果を示した

Page 3: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

3

Proposed Method RNNLM を利用することで意味的に尤もらしい単語列を

考慮して形態素解析を行う手法 RNNME (Recurrent Neural Net-work trained jointly

with Maximum Entropy) language model (Mikolov et al., 2011; Mikolov, 2012) を RNNLM の実装として利用

Page 4: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

4

Recurrent Neural Network Language Model (RNNLM) Auto Segmented Corpus

生の Web コーパス 1,000 万文 (Kawahara and Kurohashi, 2006) を JUMAN で自動解析し作成

JUMAN における解析誤りが含まれる Training

Auto Segmented Corpus 中の POS タグ無し,レンマ化された単語列で学習

学習されたモデルは,自動解析における誤りを含む Re-training

人手でラベル付けされたコーパスで再学習 機能語の単語列に関するエラーの解消のため

Page 5: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

5

Base Model 教師有り形態素解析モデル(単語分割,レンマ化, POS

タグ付け)を Base Model として利用 Train data :アノテーション済み 1 万文のコーパス 解析手順

1. 入力文の文字列を辞書を利用し参照2. 単語ラティスの構築3. ラティス中の最もスコアの高いパスを探索

Page 6: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

6

Base Model 辞書 - 80 万単語

レンマ, POS ,活用形 の情報を含む JUMAN 辞書 追加辞書 – 日本語 Wikipedia 中の記事中の箇条書き,記事タイ

トルで主に構成 Scoring function

Features 単語の 基本形 , POS, 活用形 の unigram, bigram (Kudo et al.

2004) 文字種, trigram (Zhang and Clark 2008)

y : タグ付けされた単語列Φ(y) : y に対しての素性べクトルw : 重みベクトル

Page 7: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

7

Base Model Training

重みベクトル w の学習のために soft confidence-weighted learning (Wang et al., 2012) を利用

out-of-vocabulary (OOV) の取り扱い 解析時:文字種で入力列を分割することで自動で単語を生成 学習時:辞書中には無いが学習コーパスにある単語は OOV 単

語としてそれらの重みを学習する Decording

second-order Viterbi algorithm (Thede and Harper, 1999)を利用することで厳密なデコードが可能

Page 8: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

8

RNNLM Integrated Model タグ付けされた系列に対しての RNNLM ,ベースモ

デルによるそれぞれのスコア( score_R, score_B )を統合

OOV 単語に対してのスコア付け

C_p : OOV への定数ペナルティL_p : 単語長に対してのペナルティlength(n) : 次の単語 n の長さ

α :補間パラメータ

Page 9: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

9

RNNLM Integrated Model Decording

RNNLM における可能な単語ラティスは組み合わせ爆発が起こるため beam search (Zhang and Clark 2008) を利用し,ビーム幅中の可能な context 候補のみ保持する

十分なビームサイズは単語列の曖昧な候補を保持することができると考える

各候補は context を表現するベクトルを持ち,二つの単語の履歴を持つ

Page 10: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

10

Experiments - Data sets 人手タグ付きコーパス ( RNNLM の再学習 , base model の学習に利用)

Kyoto University Text Corpus (Kawahara et al., 2002)

Kyoto University Web Document Leads Corpus (Hangyo et al., 2012)

Test : 2000, Develop : 500, Train : 45000

Page 11: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

11

Experiments - Baselines JUMAN MeCab Base model のみ Base model + 従来の言語モデル

3-gram 言語モデル(同じ自動単語分割コーパスから SRILM を使い Kneser-Ney Smothing を行い作成)

Page 12: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

12

Experiments - Settings 事前に設定するパラメータ

ビーム幅: 5 C_p = 5 (Mikolov et al. 2011) のデフォルト値

チューニングするパラメータ development data において、提案手法 , ベースモ

デル , 言語モデルのパラメータをグリッドサーチし下記のように決定

手法 α L_pBase + SRILM 0.3 0.5Base + RNNLM 0.1 2.0Base + RNNLM_retrain(提案手法) 0.3 1.5

Page 13: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

13

Experiments - Evaluation 単語分かち書き , POS タグ付けのジョイン

ト評価の F 値 ドメイン: News, Web, ALL(News +

Web) ブートストラッピング (Zhang et al.,

2004) を用いて提案手法とその他のモデルの優位性をテスト

Page 14: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

14

Experiments - Results

提案手法が全ての点で最高精度

Page 15: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

15

Experiments - Results

Segmentation で特に大きな改善 レンマ化された POS タグ付けのされてい

ない単語列をベースに学習された RNNLMを利用することによる

Page 16: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

16

Experiments - Results 単語分割の具体例

上記のようなベースラインの解析誤りは言語モデルを作成する際に利用される自動作成コーパスにおけるエラーに由来する

RNNLM を利用し、意味的な単語の遷移が捉えることができれば提案手法で正しい解析が可能になる

手法 解析結果

JUMAN 外国 / 人参 / 政権Base + SRILM

Base + RNNLM_retrain(提案手法)

外国人 / 参政権

Page 17: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

17

Experiments - Results 単語分割の具体例

ベースラインのような分割は文法的には問題ないが、意味的に解釈することは難しい

RNNLM が意味的に尤もらしい単語列を学習するため、提案手法ではうまくいく

手法 解析結果

JUMAN 健康 / な / どの /点 / でBase + SRILM

Base + RNNLM_retrain(提案手法) 健康 / など / の /点 / で

Page 18: EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

18

Conclusion RNNLM を自動的に単語分割を行ったコーパス、人手で

作成したコーパスで学習することで形態素解析の新しいモデルを提案

RNNLM によって単語系列の意味的な尤もらしさを捉えることでベースモデルのエラーを減少

Future Work RNNLM モデル由来の素性を設計し、それらを統合された学習フ

レームワークに組み込みたい 中国語やタイ語のような単語分割のされていない言語にも適用し

たい