topic model survey (wsdm2012)
DESCRIPTION
topic model survey in WSDM2012http://d.hatena.ne.jp/repose/TRANSCRIPT
![Page 1: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/1.jpg)
トピックモデル勉強会WSDM2012
@y_benjo
![Page 2: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/2.jpg)
論文一覧
• Auralist: Introducing Serendipity into Music Recommendation
• ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness
• Mining Contrastive Opinions on Political Texts using Cross-Perspective Topic Model
• Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking
• Scalable Inference in Latent Variable Models
![Page 3: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/3.jpg)
論文一覧
• Auralist: Introducing Serendipity into Music Recommendation
• ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness
• Mining Contrastive Opinions on Political Texts using Cross-Perspective Topic Model
• Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking
• Scalable Inference in Latent Variable Models
レビューの話
推薦の話
意見の話
ランキングの話
スケーラブルの話
![Page 4: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/4.jpg)
Auralist: Introducing Serendipity into Music Recommendation
Yuan Cao Zhang, Diarmuid Séaghdha, Daniele Quercia and Tamas Jambor
(Multimedia and Geo Mining)
![Page 5: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/5.jpg)
Auralist
•背景• 音楽を推薦したい
•解くべき課題: 精度だけじゃいかん• diversity: 幅広く推薦したい
• novelty: 知らなかったものを推薦したい
• serendipity: 意外なものを推薦したい
![Page 6: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/6.jpg)
Auralist
•方針:• accuracy/diversity/novelty/serendipityを考慮した推薦
を実現
•オリジナリティ: • Artist-userにLDAを使ってp(user|z)から類似度を測る
• Artist-LDA + Listener Diversity(serendipity)• トピックの情報量でDiversityを測る
• Artist-LDA + Declustering• もう既に退屈しているであろうアーティストを除外する
![Page 7: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/7.jpg)
Auralist
•評価• データ: Last.fm dataset
• 実験1: 既存指標
• 実験2: ユーザ調査• 「知らなかった曲を教えてくれて最高だぜ!HAHAHA!」
•感想• タイトルがかっこいい
• 手法は超絶アレなグラフィカルモデルが書いてあるわけではない
![Page 8: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/8.jpg)
ETF: Extended Tensor Factorization Model for Personalizing Prediction
of Review HelpfulnessSamaneh Moghaddam, Mohsen Jamali and Martin Ester
(Spotlight on Mining)
![Page 9: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/9.jpg)
ETF
•背景• レビューが増えすぎている
•解くべき課題• クオリティが高く有用なレビューを抽出したい
• 読む人によってレビューの有用度は異なる
![Page 10: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/10.jpg)
ETF
•方針• reviewer,review,rater(読む人),productを潜在変数と
して考える• 文章/ソーシャルの要素を考えなくて済む
•オリジナリティ• MF: rater × review で行列分解
• TF: rater × reviewer × productをテンソル分解
• ETF: TF + レビュアーの全商品に対する得点
• BETF: ETF + バイアス
![Page 11: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/11.jpg)
ETF
•評価• データ: Epinions
• 指標: RMSE• テキストを使ったものより改善
• レビュー数5未満のユーザに対してRMSEが倍近く改善
•感想• 読んでわかったけどトピックモデルじゃない• グラフィカルモデルに釣られた
• テンソル分解とか楽しそうで紹介した
![Page 12: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/12.jpg)
Mining Contrastive Opinions on Political Texts using the Cross-perspective Topic Model
Yi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu(Spotlight on Mining)
![Page 13: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/13.jpg)
Mining Contrastive Opinions
•背景• 異なる観点ごとにまとめ,その違いを定量化したい
•想定例• 入力: 新聞社ごとの文章や,政党ごとのマニフェスト
• 出力: それぞれの政策や法案,事件について新聞社や政党ごとの意見
![Page 14: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/14.jpg)
Mining Contrastive Opinions•方針・オリジナリティ• Cross-Perspective Topic(CPT) modelの提案
• Jensen-Shannon divergenceで違いを定量化
トピック共通
オピニオン固有 オピニオン固有
fig1の簡単なイメージ図同じトピックから異なるオピニオンワードが生成される
![Page 15: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/15.jpg)
Mining Contrastive Opinions
•評価• Perplexity,P@N,nDCG,MMR(関連度)
• 質的分析• トピックごとにそれっぽいか
• 意見の異なりはそれっぽいか
•感想• 完全なunsupervisedかと思って途中まで読んでいた• <document, opinion word, word> が入力形式
• ダライラマに関して新華社とNYTで意見がかなり違うというのに笑った
![Page 16: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/16.jpg)
Pairwise Cross-Domain Factor Model for Heterogeneous Transfer
RankingBo Long, Yi Chang, Anlei Dong and Jianzhang He
(Spotlight on Mining)
![Page 17: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/17.jpg)
Pairwise Cross-Domain
•背景• ランキング学習で二つのジャンルのデータを使いたい
•解くべき課題• transfer learning + learning to rankをどう解くか?
• targetとsourceで共通して持つ/持たない特徴量がある場合にどう解くか
![Page 18: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/18.jpg)
•方針・オリジナリティ• 共通する次元は「同じパラメータ」を持つ分布から
• 異なる次元は異なるパラメータを持つ分布から
Pairwise Cross-Domain
fig1のイメージ
S固有次元 ST共通次元 ST共通次元 T固有次元
スコアS スコアT
選好順序
![Page 19: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/19.jpg)
Pairwise Cross-Domain
•評価• データ• ソース => 普通の英語圏の検索
• ターゲット => スペイン語の普通の検索,英語圏のニュース検索,非英語圏のQAサイトの検索
• 指標: DCG
•感想• グラフィカルモデルが曼荼羅かと思ったが意味は分かった
![Page 20: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/20.jpg)
Scalable Inference in Latent Variable Models
Amr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan Narayanamurthy and Alex Smola
(Spotlight on Mining)
![Page 21: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/21.jpg)
Scalable Latent Variable
•背景• 潜在変数が入ったモデルマジ大事
•解くべき課題• 大規模,ストリーミングデータへの適用が困難• 理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要
![Page 22: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/22.jpg)
Scalable Latent Variable
•方針• Webスケールのストリーミングデータに対してスケーラブ
ルかつ並列に解く
• Collapsed Gibbs Sampling
•オリジナリティ• グローバルなデータを各machineにコピーする
• コピーできないぐらい大きい時はmemcachedに入れる
• スケジューリングも頑張る
![Page 23: Topic Model Survey (wsdm2012)](https://reader033.vdocuments.mx/reader033/viewer/2022052908/5595ac361a28ab91678b4810/html5/thumbnails/23.jpg)
Scalable Latent Variable
•評価• 対数尤度,計算時間
•感想• トピックモデルの話というより並列処理の話
• 前提知識足りなくてピンとこなかった
• 早くてすごいと思った(小学生並みの感想)