acl yomikai, 1016, 20110903
DESCRIPTION
Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based ProjectionsTRANSCRIPT
Unsupervised Part-of-Speech
Tagging with Bilingual Graph-Based
Projections (Best paper)
Dipanjan Das, Slav Petrov
東京大学 中川研究室
江原 遥
1
Unsupervised PoS tagging (教師なし品詞推定)
既存研究の最高精度(英語)
76.1% (Christodoulopoulos+, 2010)
低いからなんとかしたい.
入力:
対象言語のコーパス
英語-対象言語の並行コーパス
(これはペンです,This is a pen.)の羅列.
出力:
対象言語のコーパスに対する品詞
2
これを活用
貢献
1. Novel graph-based framework
– 構文情報を言語を超えたラベル伝搬
2. ラベル伝搬によって得られたラベルを,Feature-
based HMM (Berk-Kirkpatrick+, NAACL2010)の素性として用いてラベル伝搬とHMMを組み合わせている.
3
2
1
• グラフを作って
• ラベル伝搬して
• Feature-based HMM と組み合わせる.
この順番に説明.
グラフ構築
4
enactment
[NOUN]
imprisonment
[NOUN]
character
[NOUN]
suo iter ,
suo incarceramento ,
suo caraterre ,
al fidanzato e
suo fidanzato ,
il fidanzato ,
del fidanzato ,
…
…
英語 品詞推定済み 対象言語
3-gram type (occurrenceではない)
重みはalignment
済みの並行コーパス中
でのedgeの頻度.
この例では
(enactment, iter)の回数
重みは
Σ素性数
pmi(3-gram, 素性)
k-NNでスパース化
素性: (Subramanya+, EMNLP2010)
赤:peripheral nodes 英語と接続するノード.
ラベル伝搬
5
enactment
[NOUN]
imprisonment
[NOUN]
character
[NOUN]
suo iter ,
suo incarceramento ,
suo caraterre ,
al fidanzato e
suo fidanzato ,
il fidanzato ,
del fidanzato ,
…
peripheralノードiがラベルyを持つ確率:
赤:peripheral nodes
英語と接続するノード.
Vflで表す.
peripheralノード以外については,
次の最適化問題を解いて計算…
マジメに解くと大変+一辺が3-gramの行列とか考えたくない
iterative update based method で代用.
6
Vfl:英語と接続しているノード
Feature-based HMM ここまで:対象言語の各3-gram type iに対するラベルyの分布qi(y)を求める.ここから:実際に対象言語の文章が与えられたときにqi(y)ラベルを付与する方法.
Feature-based HMM (Berg-Kirkpatrick+, 2010)
これの素性にqi(y)を加える.
7
x:単語, z:品詞
出力確率を多項分布の代わりに
このlog-linear modelで置き換える
L-BFGSで最大化
素性の加え方: constraint feature
Feature-based HMM (Berg-Kirkpatrick+, 2010)
の素性として対象言語の各3-gram type iに対するラベルy
の分布qi(y)を加える.
8
x:単語, z:品詞
出力確率を多項分布の代わりに
このlog-linear modelで置き換える
L-BFGSで最大化
両側の語で
平均する
x:単語, y, z:品詞
tx(y)=0だとft(x,z)=-∞になって
PΘ(x,z) = 0になるという
constraint feature.この論文の貢献
実験結果
並行コーパスはEuroparl.対象言語コーパスはCoNLL 2007 shared taskの多言語コーパス.
development setを作らず,パラメータは多くが固定.
3-gram typeの数は約200万.
グラフ伝搬のνは2 x 10^(-6)に固定.
3-gram type→feature constraintのしきい値τは0.2で固定.
太字は有意に性能がよい.
(EM-HMM以外はFeature-HMMを裏で使っている) 9
例文
10
まとめ
• ある言語の品詞情報をグラフに基づくラベル伝搬で他の言語にprojectionすることのefficacyを示した.
• 並行コーパスは多量に用意できるが,品詞タグ付きの教師データに乏しい対象言語に対して,既存の教師なし品詞推定法より高い精度を示した.
疑問:「並行コーパスは多量だが,品詞ラベル付きの教師データは乏しい」言語/状況があまり思いつかない
11
参考文献
グラフ構築,ラベル伝搬:
Amar Subramanya, Slav Petrov, and Fernando Pereira.
2010. Efficient graph-based semi-supervised learning of
structured tagging models. In Proc. of EMNLP.
Feature-based HMM:
Taylor Berg-Kirkpatrick, Alexandre B. Cote, John DeNero,
and Dan Klein. 2010. Painless unsupervised learning with
features. In Proc. of NAACL-HLT.
12