nmf
TRANSCRIPT
論文紹介Document clustering based on non-negative matrix factorization
Wei Xu, Xin Liu, Yihong Gong
Intoroduction• 文書クラスタリングは大規模文書にたいする処理を実現する基本技術
• 分類, 閲覧支援, 検索, 文書要約, etc...• 良い文書クラスタリング手法によるコーパスの効率的編成ができれば...• コーパスの大域的なトレンドがつかめる• 内容の同一性や新規性・独自性の検出
Intoroduction• 事前知識無しの文書クラスタリングは未だに難しいタスク
• そこで、Non-Negative Matrix Factorization(以下NMF)に基づいた文書クラスタリングを提案• NMFは行列を非負の値を持った小さな行列の積で近似する手法• 既存の特異値分解や固有値分解に基づいた手法に対する優位性を示す
関連研究• クラスタリング手法の二大潮流• 凝集型クラスタリング(階層型クラスタリング)• 計算量の問題で大規模化が難しい• 分割クラスタリング• k-means, Naive Bayes, ガウス混合モデル...• それぞれ文書の分布などに(誤った)仮定を置いているため上手くいかない
関連研究(既存の改善手法)• Latent Semantic Indexing• 特異値分解を用いて潜在的な意味空間に変形• 変形した空間上でクラスタリング• グラフの分割に基づく手法(spectral clustering)• 文書間の類似度を元にグラフを構築• 類似度行列の固有ベクトルを用いてグラフ分割の最適化問題を解く• データの分布に仮定をおく必要がない• k-means等と違って最適解が保証•
関連研究の問題点• LSIの問題• 潜在意味空間を捉えた特異値ベクトルは負値を含むため解釈が難しい
• 両方に共通する問題• 得られた固有ベクトルや特異値ベクトルが直接クラスタ表さないため、k-means等を用いなければクラスタが求まらない
提案手法の前に...• 基本的な仮定• コーパスはk個のクラスタから構成• それぞれのクラスタはトピックを表す• 文書は一つまたは複数のトピックと関連
• コーパスはそれぞれのトピックに関連したk次元の空間で構成できるはず
仮定の続き• 文書はk個のトピックの足し合わせで表現• トピックとの関連度は非負であるのが自然
• トピック間にも関連はあるはず• トピックを表す各軸は直交ではない可能性
• NMFを用いる• NMFで生成された潜在意味空間はクラスタを反映している
LSIとNMF• SVDやEVDで求まる潜在意味空間は直交しており, しかも負値を持つ
• NMFの各軸は直交しておらず全て非負値
Wei Xu, Xin Liu, Yihong Gong, “Document clustering based on non-negative matrix factorization”, SIGIR '03
LSIに対するNMFの優位点まとめ
1. クラスタ間に関連がある場合でも各軸とクラスタに対応付けが出来る
2. 潜在的な概念の足し合わせだけで文書を表現でき,解釈もし易い
3. 各軸が直接クラスタと対応付けがあるので,後処理としてのk-means等のクラスタリング手法の適用が不要
NMFを用いた文書クラスタリング
• X: m*nの重み付きの単語・文書行列• 各文書はXの列と対応しtf-idfで重み付け• 各列はユークリッドノルムが1になるように正規化
• Xを行列UとVTで近似• U=m*kの行列 VT=k*nの行列• 近似の二乗誤差を最小化
X ≈ UV T
NMF • 最小化問題 制約
• 目的関数を変形
NMF• ラグランジュの未定乗数法
• UとVでそれぞれ偏微分• Kuhn-Tucker条件より• (i,j)に着目して
NMFの更新式• 下記更新式の繰り返しでUとVTの局所解が得られる
• 誤差は減少し収束するがUやVの値は増大または減少するのでUの正規化が必要
UとVTの意味合い• uij :i番目の語がクラスタjに属する度合い • vji : i番目の文書がクラスタjに属する度合い
• 最も文書の重みベクトルの中で最も大きな重みを持つクラスタに割り当て
文書のクラスタへの重みベクトル
単語のクラスタへの重みベクトル
X ≈
u11 u12 · · · u1k
u21 u22 · · · u2k...
.... . .
...um1 um2 · · · umk
v11 v12 · · · vk1
v21 v22 · · · vk2...
.... . .
...vk1 vk2 · · · vkn
LSIとNMFの比較
Wei Xu, Xin Liu, Yihong Gong, “Document clustering based on non-negative matrix factorization”, SIGIR '03
• TDT2とReutersコーパスを使用
• サイズが5文書以下のクラスタを除去• TDT2は一文書一クラスタ• Reutersは一文書に複数クラスタが関連
実験データ
Wei Xu, Xin Liu, Yihong Gong, “Document clustering based on non-negative matrix factorization”, SIGIR '03
評価手法• 評価用コーパスから,k個のトピックをランダムに選択して混合
• 混合したデータをk個のクラスタに分けた場合の精度を評価
• 評価手法• Accuracy(AC)• Mutual Infomation(MI)
Accuracy• クラスタリング結果の精度
• 元のクラスタがどれだけ再現出来たか1,2,3
4,5,6
7,8
4,6,1
5,7,8
2,3accuracy = 6
8Kuhn-Munkres algorithmで最適なマッピングを見つける
・正解 ・クラスタリング結果
Mutual Infomation• 文書集合からランダムに1文書選んだ際に,正解クラスタciとクラスタc’jの両方に同時に属する確率p(ci,c’j)を考える
• 0~1のスコアにするために正規化
p(ci) = |ci|n
p(ci, c�j) = |ci∩c�j |
n
提案手法の評価と比較
• Spectral ClusteringとNMFを比較• Spectral Clustering• Average Association(AA)• Normarized Cut(NC)• NMFとその拡張• NMF• NMF-NCW
Spectral Clustering
• W: 文書間の類似度行列• それぞれ以下の評価関数を最小化
• 固有値問題を解いて解決• Average Association(AA)• LSIとk-meansと等価• Normarized Cut(NC)• AAにD-1で重み付けしたもの
NMF
• NMF• 提案手法• NMF-NCW• 単語文書行列に対して文書ごとに重み付けを行った上でNMF
(直感的な解釈)多くの文書と内容が類似する文書の重みを小さく
Wei Xu, Xin Liu, Yihong Gong, “Document clustering based on non-negative matrix factorization”, SIGIR '03
実験結果
Wei Xu, Xin Liu, Yihong Gong, “Document clustering based on non-negative matrix factorization”, SIGIR '03
LSIに対するNMFの良さとまとめ
• NMFで得られる近似行列は非負であり非直交であるので
1. クラスタ間に関連がある場合でも各軸とクラスタに対応付けが出来る
2. 潜在的な概念の足し合わせだけで文書を表現
3. 各軸とクラスタが対応しているため,後処理としてのk-means等のクラスタリング手法の適用が不要
4. 性能もLSIよりも上回った