spectral clustering による語義曖昧性解消のための教師あり類似度学習

Spectral Clustering による語義曖昧性解消のための

教師あり類似度学習松本研研究会 2009-01-28

小町守

やりたいこと

• ラベル付きデータが少ない状況での語義曖昧性解消（半教師あり語義曖昧性解消）–ラベルつきデータもラベルなしデータも両方活

用

• ラベルなしデータを用いたパターン（素性）・インスタンスの適切な重み付け–ラベル見るのもアリ

2

スペクトラルクラスタリング

教師あり距離（類似度）学習

本日の内容

• kNN による語義曖昧性解消• 教師あり類似度（距離）学習• 半教師ありクラスタリング– Spectral Clustering

• 制約付きスペクトラル学習による語義曖昧性解消実験

3

4

背景 :kNN による語義曖昧性解消

シード = 語義を当てたいインスタンス距離 = インスタンス同士の類似度（正則化ラプ

ラシアンカーネル）学習 = k-nearest neighbor (k=3)→△ 分離平面がきれいにならない→△SVM に負けている

シード

類似度尺度（距離）とは

• 2 インスタンス間の（非）類似度を返すクラスタリング、知識獲得、構文解析、意味

解析などに応用可能ユークリッド距離、コサイン類似度、 etc.

5

この　はし　わたるべからず

ホームの　はし　は危険です

イオンで　はし　を買ってきた

どっちが「近い」？

• 距離→類似度行列のパラメータ M = W’W （ W は

インスタンス - パターン行列）を学習→M を対角行列にするとパターンの「重み」

を学習• Pointwise-mutual information や tf.idf は教

師なしで重みをつけられるが、類似度学習ではラベル付きデータから重みを推定

• 素性選択や次元削減に相当

類似度（マハラノビス距離）学習

6

€

D( r x i,r x j ) = L( r x i − r x j )

2= ( r x i − r x j ′ ) M( r x i − r x j )

教師あり類似度学習

• 距離をグラフ全体で最適化するように学習– Relevant Component Analysis (Bar-Hillel ICML-2003)

• 局所的な距離を学習– Neighborhood Component Analysis (Goldberger et al. NIPS-

2005)– Large magin nearest neighbor (Weinberger et al. NIPS-2006)

• カーネルを学習– Kernel alignment (Cristianini et al. NIPS-2002)– Idealized kernel (Kwok and Tsang ICML-2003)

7

最大マージン NN （ LMNN ）

8

LMNN のコスト関数

• ただし ηij は xi と xj が近傍にあるかどうか判定する関数（学習時には変わらない）–ユークリッド距離に基づいて k 個のインス

タンスを近傍とする– [z]+ は max(z, 0) で、 hinge loss に相当

• SVM に似た定式化

9

€

ε(L) = η ij Lr x i − r x j( )

ij∑ 2

+ c η ji 1− y il( )ijl∑ 1+ L r x i − r x j( )

2− L r x i − r x l( )

2 ⎡ ⎣ ⎢

⎤ ⎦ ⎥+

コスト関数の効率的な最適化

• Semi-definite programming として表現できる

• 3 番目の制約は行列 M が半正定値（固有値が全て正）という条件（対角行列なら対角要素が全て正）

10

€

Maximize η ijr x i − r x j( )′M

r x i − r x j( )ij

∑ + c η ij 1− y il( )ξ ijlij∑ subject to

(1) r x i − r x l( )′Mr x i − r x l( ) − r x i − r x j( )′M

r x i − r x j( ) ≥1−ξ ijl

(2) ξ ijl ≥ 0 (slack variable)

(3) Mf 0

本日の内容

• kNN による語義曖昧性解消• 教師あり類似度（距離）学習• 半教師ありクラスタリング– Spectral Clustering

• 制約付きスペクトラル学習による語義曖昧性解消実験

11

半教師ありクラスタリング

• ラベルを 2 項間の制約として入れる（ Wagstaff and Cardie 2000 ）– Must-link 2 つのインスタンスが同じラベル

– Cannot-link 2 つのインスタンスは違うラベル

12

K-means + 半教師ありクラスタリング

• 制約ベース : インスタンスが制約を満たすようクラスタリング– COP-kmeans (Wagstaff et al. ICML-2001)

• 距離ベース : 制約を考慮してインスタンス間の距離を再計算– CCL (Klein et al. 2002)– Must-link を持つインスタンス同士の距離を

0 、 cannot-link を∞とし、 Must-link に関係する距離を修正→最後は complete-link でクラスタリング

→△ 使えるクラスタリングに条件があるという問題

13


• クラスタ間の類似度が最小（クラスタ内の類似度が最大）になるようなグラフカット

14

固有ベクトルとラプラシアンの関係

• グラフラプラシアン L = D – A (D は対角行列、ただし　　　　 ) の 2 番目に小さい固有ベクトルがそうしたグラフカットの近似になっている

• 2 番目に小さい固有ベクトルを用いてデータを2 つに分割できる（ Shi and Malik CVPR-1997 ）

• K 個の固有ベクトルを使って複数クラスタに分割できる（ Ng et al. NIPS-2002; Meila and Shi AISTAT-2001 ）

→○K クラスの分類問題に利用できる

€

Dii = Aijj=1

n

∑

15

スペクトラル学習のアルゴリズム

1. 類似度行列 A を作るCos 類似度、ユークリッド距離、 etc…

2. 対角行列 D を作る3. A を正規化する（ =N ）

D-1A, D-1/2AD-1/2, (A + dmaxI – D) / dmax （ dmax = A の行和の最大値）

4. N の k 個の最大固有ベクトルを計算し、列に順番に並べて行列 X を作る

5. X の各行を正規化する→ここから先がクラスタリングと分類で違う

€

Dii = Aijj=1

n

∑

16


6. 各インスタンスを X の各行にマップし k 個のクラスタに分割（ K-means などを使う）

分類の場合は上記に変えて以下の 2 ステップ各インスタンスを X の各行にマップ各行を訓練事例として教師あり学習

7. インスタンスのラベルはマップされた X の行に相当するラベル

17

制約つきスペクトラルクラスタリング 1

• 類似度行列に制約を入れる（ Kamvar et al. IJCAI-2003 ）– Must-link のあるところは Aij = Aji = 1

– Cannot-link のあるところは Aij = Aji = 0–残りは普通にスペクトラルクラスタリング

→○ 多クラスでも扱える→△ （数学的に）きれいではない→△? （制限）類似度尺度は 0-1 の範囲のみ

18

制約つきスペクトラルクラスタリング 2

• Subspace trick （ De Bie et al. SSPR-2004 ）–制約を書いた行列を用いることによって固有

ベクトルの探索空間を変化させる（ DMLA 12月 17 日）

→○ （数学的に）きれい→△ （ 2 クラスの場合はよいが）多クラス

の場合 Cannot-link の書き方が自明ではない

€

v =

1 0 01 0 0−1 0 00 1 00 1 00 0 In−5

⎡

⎣

⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢

⎤

⎦

⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

u = Yu

2

1

7

6

5

3

4

19

スペクトラル学習による WSD

• Must-link 、 Cannot-link はラベル付きデータから生成できる–同じ語義なら Must-link 、違う語義なら

Cannot-link 、語義が分からないときは制約なし

• 複数ラベルを考慮したモデルがよい– Kamvar et al. の方法を試した

→2 クラスに限定すれば subspace trick も使えるが……

20

制約つきスペクトラル学習

1. 類似度行列 A を作る2. 対角行列 D を作る3. 制約を満たすよう A を修正する

1. Must-link のあるところは Aij = Aji = 12. Cannot-link のあるところは Aij = Aji = 0

4. A を正規化する（ =N ）5. N の k 個の最大固有ベクトルを計算し、列

に順番に並べて行列 X を作る→以下同様

21

（予想）

• スペクトラル学習はラベル付きデータが少ないときに有効

→SVM や kNN と比べてラベル付きデータが少ないところで勝ちたい

• いくつか分岐点がある–類似度尺度、クラスタリング（どのクラスタ

リング手法） or 分類（どの分類器）、正規化方法、制約の入れ方

→どれがよい ?

22

実験設定

• データ : Senseval-3 English Lexical Sample– 57単語、 1 語につき 100-200 文章の訓練データ–語義の数は平均して 6.47 個– 10%, 25%, 50%, 75%, 100% で実験

• 手法（スペクトラル学習）–類似度行列 A = PPT （ただし P は各行で正規

化）– A の正規化なし– K = 50 （てきとう）–分類器 libsvm-2.84.0 （線形カーネル）

23

SVM, kNN(k=5) との比較

精度

データ量（利用できる訓練データに対する割合）24

考察

• × 最頻出語義ベースライン以下• 結果を分析したところ、（全てではない

が）ほとんど最頻出語義を選択してしまっている

→類似度に正則化ラプラシアンカーネルを使うべき ?

• K の数は大きすぎると過学習するが、小さすぎると全く判別できない

25

まとめ

• 制約付きスペクトラル学習を用いて語義曖昧性解消ができる。

• ただし、類似度行列、正規化方法、分類器、制約の入れ方など、設定するべきパラメータが多い。

• 特に類似度行列の選び方が意味ドリフトを防ぐために重要（みたい）。

26

TODO

• LMNN による類似度行列の学習• （ 2 クラス問題に限定して） subspace

trick を使ってみる• （多クラス問題で Must-link のみに限定

して） subspace trick を使ってみる

27

コメント・アドバイスありましたら

• どうぞよろしくお願いします。

28

spectral clustering による 語義曖昧性解消のための 教師あり類似度学習

Documents

spectral clustering による語義曖昧性解消のための教師あり類似度学習