acl yomikai, 1016, 20110903

12
Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections Best paperDipanjan Das, Slav Petrov 東京大学 中川研究室 江原 1

Upload: yo-ehara

Post on 14-Jun-2015

973 views

Category:

Documents


1 download

DESCRIPTION

Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections

TRANSCRIPT

Page 1: Acl yomikai, 1016,  20110903

Unsupervised Part-of-Speech

Tagging with Bilingual Graph-Based

Projections (Best paper)

Dipanjan Das, Slav Petrov

東京大学 中川研究室

江原 遥

1

Page 2: Acl yomikai, 1016,  20110903

Unsupervised PoS tagging (教師なし品詞推定)

既存研究の最高精度(英語)

76.1% (Christodoulopoulos+, 2010)

低いからなんとかしたい.

入力:

対象言語のコーパス

英語-対象言語の並行コーパス

(これはペンです,This is a pen.)の羅列.

出力:

対象言語のコーパスに対する品詞

2

これを活用

Page 3: Acl yomikai, 1016,  20110903

貢献

1. Novel graph-based framework

– 構文情報を言語を超えたラベル伝搬

2. ラベル伝搬によって得られたラベルを,Feature-

based HMM (Berk-Kirkpatrick+, NAACL2010)の素性として用いてラベル伝搬とHMMを組み合わせている.

3

2

1

• グラフを作って

• ラベル伝搬して

• Feature-based HMM と組み合わせる.

この順番に説明.

Page 4: Acl yomikai, 1016,  20110903

グラフ構築

4

enactment

[NOUN]

imprisonment

[NOUN]

character

[NOUN]

suo iter ,

suo incarceramento ,

suo caraterre ,

al fidanzato e

suo fidanzato ,

il fidanzato ,

del fidanzato ,

英語 品詞推定済み 対象言語

3-gram type (occurrenceではない)

重みはalignment

済みの並行コーパス中

でのedgeの頻度.

この例では

(enactment, iter)の回数

重みは

Σ素性数

pmi(3-gram, 素性)

k-NNでスパース化

素性: (Subramanya+, EMNLP2010)

赤:peripheral nodes 英語と接続するノード.

Page 5: Acl yomikai, 1016,  20110903

ラベル伝搬

5

enactment

[NOUN]

imprisonment

[NOUN]

character

[NOUN]

suo iter ,

suo incarceramento ,

suo caraterre ,

al fidanzato e

suo fidanzato ,

il fidanzato ,

del fidanzato ,

peripheralノードiがラベルyを持つ確率:

赤:peripheral nodes

英語と接続するノード.

Vflで表す.

peripheralノード以外については,

次の最適化問題を解いて計算…

マジメに解くと大変+一辺が3-gramの行列とか考えたくない

Page 6: Acl yomikai, 1016,  20110903

iterative update based method で代用.

6

Vfl:英語と接続しているノード

Page 7: Acl yomikai, 1016,  20110903

Feature-based HMM ここまで:対象言語の各3-gram type iに対するラベルyの分布qi(y)を求める.ここから:実際に対象言語の文章が与えられたときにqi(y)ラベルを付与する方法.

Feature-based HMM (Berg-Kirkpatrick+, 2010)

これの素性にqi(y)を加える.

7

x:単語, z:品詞

出力確率を多項分布の代わりに

このlog-linear modelで置き換える

L-BFGSで最大化

Page 8: Acl yomikai, 1016,  20110903

素性の加え方: constraint feature

Feature-based HMM (Berg-Kirkpatrick+, 2010)

の素性として対象言語の各3-gram type iに対するラベルy

の分布qi(y)を加える.

8

x:単語, z:品詞

出力確率を多項分布の代わりに

このlog-linear modelで置き換える

L-BFGSで最大化

両側の語で

平均する

x:単語, y, z:品詞

tx(y)=0だとft(x,z)=-∞になって

PΘ(x,z) = 0になるという

constraint feature.この論文の貢献

Page 9: Acl yomikai, 1016,  20110903

実験結果

並行コーパスはEuroparl.対象言語コーパスはCoNLL 2007 shared taskの多言語コーパス.

development setを作らず,パラメータは多くが固定.

3-gram typeの数は約200万.

グラフ伝搬のνは2 x 10^(-6)に固定.

3-gram type→feature constraintのしきい値τは0.2で固定.

太字は有意に性能がよい.

(EM-HMM以外はFeature-HMMを裏で使っている) 9

Page 10: Acl yomikai, 1016,  20110903

例文

10

Page 11: Acl yomikai, 1016,  20110903

まとめ

• ある言語の品詞情報をグラフに基づくラベル伝搬で他の言語にprojectionすることのefficacyを示した.

• 並行コーパスは多量に用意できるが,品詞タグ付きの教師データに乏しい対象言語に対して,既存の教師なし品詞推定法より高い精度を示した.

疑問:「並行コーパスは多量だが,品詞ラベル付きの教師データは乏しい」言語/状況があまり思いつかない

11

Page 12: Acl yomikai, 1016,  20110903

参考文献

グラフ構築,ラベル伝搬:

Amar Subramanya, Slav Petrov, and Fernando Pereira.

2010. Efficient graph-based semi-supervised learning of

structured tagging models. In Proc. of EMNLP.

Feature-based HMM:

Taylor Berg-Kirkpatrick, Alexandre B. Cote, John DeNero,

and Dan Klein. 2010. Painless unsupervised learning with

features. In Proc. of NAACL-HLT.

12