emnlp読み会@2015 10-09

13
EMNLP読み会20151009 Transla’on Invariant Word Embeddings Kejun Huang; Ma6 Gardner; Evangelos Papalexakis; Christos Faloutsos; Nikos Sidiropoulos; Tom Mitchell; Partha P. Talukdar; Xiao Fu プレゼンテーション 関沢祐樹 2015/10/09 1

Upload: sekizawayuuki

Post on 13-Apr-2017

242 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Emnlp読み会@2015 10-09

EMNLP読み会2015-­‐10-­‐09    

Transla'on  Invariant  Word  Embeddings        

Kejun  Huang;  Ma6  Gardner;  Evangelos  Papalexakis;  Christos  Faloutsos;  Nikos  Sidiropoulos;  Tom  Mitchell;  

Partha  P.  Talukdar;  Xiao  Fu  

プレゼンテーション  関沢祐樹

2015/10/09 1

Page 2: Emnlp読み会@2015 10-09

概要

•  本研究が扱うこと  •  単語のベクトル表現  

•  特に多言語コーパス内の単語  

•  提案手法  •  言語間の翻訳を用いた単語の学習  

•  翻訳関係は不変であることを利用  •  多言語間のタスクの結果を向上  •  単一言語のタスクのパフォーマンスを保つ

2015/10/09 2

Page 3: Emnlp読み会@2015 10-09

先行研究での複数言語間のベクトル表現

•  正準相関分析を使用(Faruqui  and  Dyer,  2014b)  •  2つの異なるベクトル空間を1つにする  

•  アライメントを使用(Guo  et  al.,  2015)  •  アライメント行列を用いて、ある言語の単語を  

別の言語の単語にする(ヒューリスティック)  

v どちらの方法も1度に2つの言語しか扱えない

2015/10/09 3

Page 4: Emnlp読み会@2015 10-09

提案手法

•  複数の行列を使用  •  X  :  複数言語間の単語ー文脈共起行列  •  D  :  各言語間の翻訳辞書を行列にして使用  

•  M1  :  英語の語彙数、 M2  :  英語の文脈数  •  N1  :  スペイン語の語彙数、 N2  :  スペイン語の文脈数  

2015/10/09 4

D2  (文脈辞書)

X  (共起)  

D1  (単語辞書)

M1  

+  M2

N1  +  N2

M1  

+  M2

N1  +  N2 M1  +  M2

N1  

+  N2

Page 5: Emnlp読み会@2015 10-09

ベクトル表現の獲得(1)

•  共起頻度行列Xのみを用いた  単語、文脈ベクトルの獲得  •  Uの行  :  単語ベクトル  •  Vの行  :  文脈ベクトル  •  行列Xを分解して、階数を小さくする  

•  行列Xの特異値分解(SVD)を用いて得る  

•  この方法によって単語ベクトルを得る方法を  潜在意味解析(LSA)という  

2015/10/09 5

Page 6: Emnlp読み会@2015 10-09

ベクトル表現の獲得(2)

•  共起頻度行列X、辞書行列D1、D2を用いた  単語、文脈ベクトルの獲得  

2015/10/09 6

 

Page 7: Emnlp読み会@2015 10-09

式変形の意図

•  X、D1、D2は非常にスパースな行列  •  一方、XX  はそれほどスパースでない  •  XXを求めるために使用するアルゴリズム  –  Lanczos  algorithm  (Golub  and  Van  Loan,  1996,  Chapter  9)    

•  必要な乗算  :  XXμ、XXTν •  XXは3つの疎行列からなるため、複雑計算無し  •  計算時間は非ゼロの要素数に線形  •  XXはXよりも十分密な行列である一方、  

計算時間はそれほど増えない  2015/10/09 7

Page 8: Emnlp読み会@2015 10-09

実験1  :  言語横断係り受け解析

•  ベースライン1  :  CCA(Faruqui  &  Dyer、2014b)  •  2つの異なるベクトル空間を1つにする  

•  ベースライン2  :  Projec_on(Guo  et  al.、2015)  •  ニューラルネットに基づいた係り受け解析  •  ヒューリスティックに別言語の単語に予測  

•  提案手法  :  TI-­‐LSA  n  訓練データ  :  English  treebank、テストデータ :  Spanish  treebank

2015/10/09 8

Page 9: Emnlp読み会@2015 10-09

実験1  :  言語横断係り受け解析

•  LAS  :              labeled  a6achment  score    •  UAS  :  unlabeled  a6achment  score    

2015/10/09 9

Page 10: Emnlp読み会@2015 10-09

実験2  :  単一言語での単語類似度

•  単一言語タスクの成果の保持を目指す  •  wordvectors.org  :  様々なジャンルの英語に対応  •  システムの出力に対して人間が正解かを判定  

•  本実験では最初の11個のタスクを使用  

•  結果の差がほとんどない(CCAがTI-­‐LSAより0.010高い)  •  全ての結果は統計的に有意ではない  

2015/10/09 10

Page 11: Emnlp読み会@2015 10-09

実験3  :  多言語でのスケーラビリティ

•  提案手法は3言語以上にも対応  •  計算時間は非ゼロ(nnz)の数に線形  •  各言語のデータ量は大体同じ  

•  使用した計算機  •  Linuxサーバ(32  Xeon、  2GHz  cores、  128GB  memory)  

•  計算方法  :  MATLAB2013a

2015/10/09 11

Page 12: Emnlp読み会@2015 10-09

実験3  :  多言語でのスケーラビリティ

2015/10/09 12

かかった時間(h)

行列での非ゼロの数

Page 13: Emnlp読み会@2015 10-09

まとめ

•  提案したこと  •  複数言語コーパスでの単語ベクトル生成  •  翻訳が不変であることを利用  

•  実験結果  •  複数言語でのタスクで、既存手法よりも良い結果  •  単一言語での成果を保持  •  スケーラビリティは入力データに線形

2015/10/09 13