今日から使える! みんなのクラスタリング超入門
DESCRIPTION
第2回さくさくテキストマイニング勉強会で発表したk-meansに関する資料です。TRANSCRIPT
今日から使える!みんなのクラスタリング超入門
2011/04/16toilet_lunch
12011年4月20日水曜日
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
0. Agenda
22011年4月20日水曜日
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
32011年4月20日水曜日
1. クラスタリングとは
データ解析手法の1つ。教師なしデータ分類手法、つまり与えられたデータを
外的基準なしに自動的に分類する手法。
(wikipedia「データ・クラスタリング」より)
42011年4月20日水曜日
データを…
52011年4月20日水曜日
データを… 分ける!
62011年4月20日水曜日
データを… 分ける!
クラス
72011年4月20日水曜日
例:パーティー会場
82011年4月20日水曜日
例:パーティー会場
リア充
非リア充
普通
92011年4月20日水曜日
例:パーティー会場
リア充
非リア充
普通
特徴別に分けられる
102011年4月20日水曜日
1. クラスタリングとは
例:文書をトピック別に分解
製品アンケート
製品への要望
製品の故障情報
クレーム
112011年4月20日水曜日
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
122011年4月20日水曜日
2.クラスタリングの種類
132011年4月20日水曜日
階層型高さによってクラスの数を
自由に決められる
2.クラスタリングの種類
142011年4月20日水曜日
階層型高さによってクラスの数を
自由に決められる
2.クラスタリングの種類
152011年4月20日水曜日
階層型高さによってクラスの数を
自由に決められる
2.クラスタリングの種類
162011年4月20日水曜日
非階層型分けるクラスの数をあらかじめ指定する
2.クラスタリングの種類
172011年4月20日水曜日
ソフトクラスタリング事例がすべてのクラスに確率的に所属する
2.クラスタリングの種類
182011年4月20日水曜日
ソフトクラスタリング事例がすべてのクラスに確率的に所属する
確率80%
15%
5%確率22%
76%
2%
2.クラスタリングの種類
192011年4月20日水曜日
今回は代表的な手法であるk-meansを理解します
2.クラスタリングの種類
202011年4月20日水曜日
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
212011年4月20日水曜日
3. k-means
k-means (k平均法)
・非階層型, ハードクラスタリングの手法・古典的、調べるとすぐ出てくる・知っているとある程度ドヤ顔ができる
222011年4月20日水曜日
k-meansという名前だけでも覚えて帰ってください
k-means (k平均法)
・非階層型, ハードクラスタリングの手法・古典的、調べるとすぐ出てくる・知っているとある程度ドヤ顔ができる
3. k-means
232011年4月20日水曜日
k-meansという名前だけでも覚えて帰ってください
3. k-means
242011年4月20日水曜日
「文書をトピックごとに分けたいなあ…」
252011年4月20日水曜日
「え? それk-meansでできるよ」
262011年4月20日水曜日
「ドヤッ!」272011年4月20日水曜日
今日からドヤ顔をするためにk-meansを理解しましょう!!
3. k-means
282011年4月20日水曜日
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
292011年4月20日水曜日
"Text", "Mining" の2語しか存在しない世界を考えてみる
文書1 文書2
TextMiningMiningMining
TextMiningText
4. アルゴリズム
302011年4月20日水曜日
"Text"
"Mining"0 1 2 3 4
1
2
3
文書1
文書2
4. アルゴリズム
単語の出現頻度で文書を空間にマッピング(Bag-Of-Words)
312011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
322011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.1重心をランダムに決める
332011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.2最も近い重心にクラスを決める
342011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.3それぞれのクラスで重心を決め直す
352011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.4再び最も近い重心にクラスを決める
362011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.5step3,4を変化がなくなるまで繰り返す
372011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.5step3,4を変化がなくなるまで繰り返す
382011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.5step3,4を変化がなくなるまで繰り返す
392011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.5step3,4を変化がなくなるまで繰り返す
402011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.6クラスが決定する
412011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.0初期状態
422011年4月20日水曜日
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.6クラスが決定する
432011年4月20日水曜日
きれいなデモがあったので見てみますhttp://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise
4. アルゴリズム
442011年4月20日水曜日
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
452011年4月20日水曜日
1. 最適になるとは限らない2.偏ったクラスタリングに不向き
5. 問題点
462011年4月20日水曜日
1. 最適になるとは限らない5. 問題点
参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089
0
1
2
1 2 3 4
472011年4月20日水曜日
1. 最適になるとは限らない5. 問題点
参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089
0
1
2
1 2 3 4
482011年4月20日水曜日
1. 最適になるとは限らない5. 問題点
参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089
0
1
2
1 2 3 4
最初の重心の決め方によっては誤った結果になることもある
492011年4月20日水曜日
2. 偏ったクラスタリングに不向き
5. 問題点
分けるべきクラスタのサイズが異なると
精度が下がる
参考:http://www.kamishima.net/jp/clustering/S.Guha, R.Rastogi, and K.Shim: CURE: An Efficient Clustering Algorithm for Large Databases, in Proc. of the ACM SIGMOD International Conference on Management of Data, pp.73-80 (1998)
502011年4月20日水曜日
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
512011年4月20日水曜日
・クラスタリングの定番 k-means・k-meansを知っていると(それなりに)ドヤ顔ができる・使用に不向きな場面もある
6. まとめ
522011年4月20日水曜日
今日から(ドヤ顔が)使える!みんなのクラスタリング超入門
532011年4月20日水曜日
おまけbayon
542011年4月20日水曜日
アルゴリズムとかどうでもいいから仕事で使えるツールを!
552011年4月20日水曜日
= bayonを使いましょう
アルゴリズムとかどうでもいいから仕事で使えるツールを!
562011年4月20日水曜日
http://alpha.mixi.co.jp/blog/?p=1049
・Repeated Bisection法(分からない…)・k-meansでもクラスタリングできる・商用利用で事前許可が不要
bayon
572011年4月20日水曜日
・R 「はじめてでもわかる R言語によるクラスター分析」
http://d.hatena.ne.jp/hamadakoichi/20100320/p1
・CLUTO 「CLUTO - Software for Clustering High-Dimensional Datasets」 http://glaros.dtc.umn.edu/gkhome/views/cluto
・GETA 「汎用連想計算エンジン(GETA)」 http://geta.ex.nii.ac.jp/geta.html
その他クラスタリングに使えるツール
582011年4月20日水曜日
ご清聴ありがとうございました
592011年4月20日水曜日