Download - Unigram mixtures
Transcript
Unigram Mixtures の話
@fmkz___
教師あり学習とは?
教師なし学習とは?
教師あり学習でのラベルを潜在変数として推定するのが
教師なし学習
• 教師あり学習: p(y|x)
• 教師なし学習: p(x) = Σyp(x|y)p(y)
K-means h"p://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-‐visualise/
• 距離の中心を計算して • 最も近いクラスに割り当てて
• を繰り返す
EMアルゴリズム • EMアルゴリズムは観測データの対数尤度を、E stepとM stepの繰り返しにより最大化するアルゴリズム
スパムとハムの話に戻る • 教師あり学習 – 事前にスパムとハムに分類していた
• これをラベルを付与してない状態から2つのグループに分割できないか? – 教師なし学習
Unigram Mixtures
アルゴリズム • このスライドが詳しい – http://www.ism.ac.jp/~daichi/lectures/ISM-2012-TopicModels-daichi.pdf
実装 • R – https://github.com/ariddell/mixture-of-unigrams
• C – http://www.ism.ac.jp/~daichi/lectures/H24-TopicModels.html
デモ 本当はいつものようにeしずおかのブログのデータを分類するつもりだったのだけど読書が急がしくてやる暇なかったw
まとめ • 入門機械学習のナイーブベイズの応用としてUnigram Mixturesの紹介とデモをしました