acl yomikai, 1016, 20110903

Unsupervised Part-of-Speech

Tagging with Bilingual Graph-Based

Projections （Best paper）

Dipanjan Das, Slav Petrov

東京大学中川研究室

江原遥

1

Unsupervised PoS tagging （教師なし品詞推定）

既存研究の最高精度（英語）

76.1% (Christodoulopoulos+, 2010)

低いからなんとかしたい．

入力：

対象言語のコーパス

英語-対象言語の並行コーパス

(これはペンです，This is a pen.)の羅列．

出力：

対象言語のコーパスに対する品詞

2

これを活用

貢献

1. Novel graph-based framework

– 構文情報を言語を超えたラベル伝搬

2. ラベル伝搬によって得られたラベルを，Feature-

based HMM (Berk-Kirkpatrick+, NAACL2010)の素性として用いてラベル伝搬とHMMを組み合わせている．

3

2

1

• グラフを作って

• ラベル伝搬して

• Feature-based HMM と組み合わせる．

この順番に説明．

グラフ構築

4

enactment

[NOUN]

imprisonment

[NOUN]

character

[NOUN]

suo iter ,

suo incarceramento ,

suo caraterre ,

al fidanzato e

suo fidanzato ,

il fidanzato ,

del fidanzato ,

…

…

英語品詞推定済み対象言語

3-gram type (occurrenceではない)

重みはalignment

済みの並行コーパス中

でのedgeの頻度．

この例では

(enactment, iter)の回数

重みは

Σ素性数

pmi(3-gram, 素性)

k-NNでスパース化

素性： (Subramanya+, EMNLP2010)

赤：peripheral nodes 英語と接続するノード．

ラベル伝搬

5

enactment

[NOUN]

imprisonment

[NOUN]

character

[NOUN]

suo iter ,

suo incarceramento ,

suo caraterre ,

al fidanzato e

suo fidanzato ,

il fidanzato ,

del fidanzato ,

…

peripheralノードiがラベルyを持つ確率：

赤：peripheral nodes

英語と接続するノード．

Vflで表す．

peripheralノード以外については，

次の最適化問題を解いて計算…

マジメに解くと大変＋一辺が3-gramの行列とか考えたくない

iterative update based method で代用．

6

Vfl：英語と接続しているノード

Feature-based HMM ここまで：対象言語の各3-gram type iに対するラベルyの分布qi(y)を求める．ここから：実際に対象言語の文章が与えられたときにqi(y)ラベルを付与する方法．

Feature-based HMM (Berg-Kirkpatrick+, 2010)

これの素性にqi(y)を加える．

7

x:単語, z:品詞

出力確率を多項分布の代わりに

このlog-linear modelで置き換える

L-BFGSで最大化

素性の加え方: constraint feature

Feature-based HMM (Berg-Kirkpatrick+, 2010)

の素性として対象言語の各3-gram type iに対するラベルy

の分布qi(y)を加える．

8

x:単語, z:品詞

出力確率を多項分布の代わりに

このlog-linear modelで置き換える

L-BFGSで最大化

両側の語で

平均する

x:単語, y, z：品詞

tx(y)=0だとft(x,z)=-∞になって

PΘ(x,z) = 0になるという

constraint feature．この論文の貢献

実験結果

並行コーパスはEuroparl．対象言語コーパスはCoNLL 2007 shared taskの多言語コーパス．

development setを作らず，パラメータは多くが固定．

3-gram typeの数は約200万．

グラフ伝搬のνは2 x 10^(-6)に固定．

3-gram type→feature constraintのしきい値τは0.2で固定．

太字は有意に性能がよい．

（EM-HMM以外はFeature-HMMを裏で使っている） 9

例文

10

まとめ

• ある言語の品詞情報をグラフに基づくラベル伝搬で他の言語にprojectionすることのefficacyを示した．

• 並行コーパスは多量に用意できるが，品詞タグ付きの教師データに乏しい対象言語に対して，既存の教師なし品詞推定法より高い精度を示した．

疑問：「並行コーパスは多量だが，品詞ラベル付きの教師データは乏しい」言語／状況があまり思いつかない

11

参考文献

グラフ構築，ラベル伝搬：

Amar Subramanya, Slav Petrov, and Fernando Pereira.

2010. Efficient graph-based semi-supervised learning of

structured tagging models. In Proc. of EMNLP.

Feature-based HMM：

Taylor Berg-Kirkpatrick, Alexandre B. Cote, John DeNero,

and Dan Klein. 2010. Painless unsupervised learning with

features. In Proc. of NAACL-HLT.

12

acl yomikai, 1016, 20110903

Documents