今日から使える! みんなのクラスタリング超入門

59
今日から使える! みんなのクラスタリング超入門 2011/04/16 toilet_lunch 1 2011420日水曜日

Upload: toiletlunch

Post on 28-May-2015

18.051 views

Category:

Documents


3 download

DESCRIPTION

第2回さくさくテキストマイニング勉強会で発表したk-meansに関する資料です。

TRANSCRIPT

Page 1: 今日から使える! みんなのクラスタリング超入門

今日から使える!みんなのクラスタリング超入門

2011/04/16toilet_lunch

12011年4月20日水曜日

Page 2: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ

0. Agenda

22011年4月20日水曜日

Page 3: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ

32011年4月20日水曜日

Page 4: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは

データ解析手法の1つ。教師なしデータ分類手法、つまり与えられたデータを

外的基準なしに自動的に分類する手法。

(wikipedia「データ・クラスタリング」より)

42011年4月20日水曜日

Page 5: 今日から使える! みんなのクラスタリング超入門

データを…

52011年4月20日水曜日

Page 6: 今日から使える! みんなのクラスタリング超入門

データを… 分ける!

62011年4月20日水曜日

Page 7: 今日から使える! みんなのクラスタリング超入門

データを… 分ける!

クラス

72011年4月20日水曜日

Page 8: 今日から使える! みんなのクラスタリング超入門

例:パーティー会場

82011年4月20日水曜日

Page 9: 今日から使える! みんなのクラスタリング超入門

例:パーティー会場

リア充

非リア充

普通

92011年4月20日水曜日

Page 10: 今日から使える! みんなのクラスタリング超入門

例:パーティー会場

リア充

非リア充

普通

特徴別に分けられる

102011年4月20日水曜日

Page 11: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは

例:文書をトピック別に分解

製品アンケート

製品への要望

製品の故障情報

クレーム

112011年4月20日水曜日

Page 12: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ

122011年4月20日水曜日

Page 13: 今日から使える! みんなのクラスタリング超入門

2.クラスタリングの種類

132011年4月20日水曜日

Page 14: 今日から使える! みんなのクラスタリング超入門

階層型高さによってクラスの数を

自由に決められる

2.クラスタリングの種類

142011年4月20日水曜日

Page 15: 今日から使える! みんなのクラスタリング超入門

階層型高さによってクラスの数を

自由に決められる

2.クラスタリングの種類

152011年4月20日水曜日

Page 16: 今日から使える! みんなのクラスタリング超入門

階層型高さによってクラスの数を

自由に決められる

2.クラスタリングの種類

162011年4月20日水曜日

Page 17: 今日から使える! みんなのクラスタリング超入門

非階層型分けるクラスの数をあらかじめ指定する

2.クラスタリングの種類

172011年4月20日水曜日

Page 18: 今日から使える! みんなのクラスタリング超入門

ソフトクラスタリング事例がすべてのクラスに確率的に所属する

2.クラスタリングの種類

182011年4月20日水曜日

Page 19: 今日から使える! みんなのクラスタリング超入門

ソフトクラスタリング事例がすべてのクラスに確率的に所属する

確率80%

15%

5%確率22%

76%

2%

2.クラスタリングの種類

192011年4月20日水曜日

Page 20: 今日から使える! みんなのクラスタリング超入門

今回は代表的な手法であるk-meansを理解します

2.クラスタリングの種類

202011年4月20日水曜日

Page 21: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ

212011年4月20日水曜日

Page 22: 今日から使える! みんなのクラスタリング超入門

3. k-means

k-means (k平均法)

・非階層型, ハードクラスタリングの手法・古典的、調べるとすぐ出てくる・知っているとある程度ドヤ顔ができる

222011年4月20日水曜日

Page 23: 今日から使える! みんなのクラスタリング超入門

k-meansという名前だけでも覚えて帰ってください

k-means (k平均法)

・非階層型, ハードクラスタリングの手法・古典的、調べるとすぐ出てくる・知っているとある程度ドヤ顔ができる

3. k-means

232011年4月20日水曜日

Page 24: 今日から使える! みんなのクラスタリング超入門

k-meansという名前だけでも覚えて帰ってください

3. k-means

242011年4月20日水曜日

Page 25: 今日から使える! みんなのクラスタリング超入門

「文書をトピックごとに分けたいなあ…」

252011年4月20日水曜日

Page 26: 今日から使える! みんなのクラスタリング超入門

「え? それk-meansでできるよ」

262011年4月20日水曜日

Page 27: 今日から使える! みんなのクラスタリング超入門

「ドヤッ!」272011年4月20日水曜日

Page 28: 今日から使える! みんなのクラスタリング超入門

今日からドヤ顔をするためにk-meansを理解しましょう!!

3. k-means

282011年4月20日水曜日

Page 29: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ

292011年4月20日水曜日

Page 30: 今日から使える! みんなのクラスタリング超入門

"Text", "Mining" の2語しか存在しない世界を考えてみる

文書1 文書2

TextMiningMiningMining

TextMiningText

4. アルゴリズム

302011年4月20日水曜日

Page 31: 今日から使える! みんなのクラスタリング超入門

"Text"

"Mining"0 1 2 3 4

1

2

3

文書1

文書2

4. アルゴリズム

単語の出現頻度で文書を空間にマッピング(Bag-Of-Words)

312011年4月20日水曜日

Page 32: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

322011年4月20日水曜日

Page 33: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.1重心をランダムに決める

332011年4月20日水曜日

Page 34: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.2最も近い重心にクラスを決める

342011年4月20日水曜日

Page 35: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.3それぞれのクラスで重心を決め直す

352011年4月20日水曜日

Page 36: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.4再び最も近い重心にクラスを決める

362011年4月20日水曜日

Page 37: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.5step3,4を変化がなくなるまで繰り返す

372011年4月20日水曜日

Page 38: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.5step3,4を変化がなくなるまで繰り返す

382011年4月20日水曜日

Page 39: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.5step3,4を変化がなくなるまで繰り返す

392011年4月20日水曜日

Page 40: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.5step3,4を変化がなくなるまで繰り返す

402011年4月20日水曜日

Page 41: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.6クラスが決定する

412011年4月20日水曜日

Page 42: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.0初期状態

422011年4月20日水曜日

Page 43: 今日から使える! みんなのクラスタリング超入門

4. アルゴリズム

参考:「言語処理のための機械学習入門」(奥村学/コロナ社)

事例数:5クラス数:2

次元:2

:事例

:重心

Step.6クラスが決定する

432011年4月20日水曜日

Page 44: 今日から使える! みんなのクラスタリング超入門

きれいなデモがあったので見てみますhttp://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise

4. アルゴリズム

442011年4月20日水曜日

Page 45: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ

452011年4月20日水曜日

Page 46: 今日から使える! みんなのクラスタリング超入門

1. 最適になるとは限らない2.偏ったクラスタリングに不向き

5. 問題点

462011年4月20日水曜日

Page 47: 今日から使える! みんなのクラスタリング超入門

1. 最適になるとは限らない5. 問題点

参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089

0

1

2

1 2 3 4

472011年4月20日水曜日

Page 48: 今日から使える! みんなのクラスタリング超入門

1. 最適になるとは限らない5. 問題点

参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089

0

1

2

1 2 3 4

482011年4月20日水曜日

Page 49: 今日から使える! みんなのクラスタリング超入門

1. 最適になるとは限らない5. 問題点

参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089

0

1

2

1 2 3 4

最初の重心の決め方によっては誤った結果になることもある

492011年4月20日水曜日

Page 50: 今日から使える! みんなのクラスタリング超入門

2. 偏ったクラスタリングに不向き

5. 問題点

分けるべきクラスタのサイズが異なると

精度が下がる

参考:http://www.kamishima.net/jp/clustering/S.Guha, R.Rastogi, and K.Shim: CURE: An Efficient Clustering Algorithm for Large Databases, in Proc. of the ACM SIGMOD International Conference on Management of Data, pp.73-80 (1998)

502011年4月20日水曜日

Page 51: 今日から使える! みんなのクラスタリング超入門

1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ

512011年4月20日水曜日

Page 52: 今日から使える! みんなのクラスタリング超入門

・クラスタリングの定番 k-means・k-meansを知っていると(それなりに)ドヤ顔ができる・使用に不向きな場面もある

6. まとめ

522011年4月20日水曜日

Page 53: 今日から使える! みんなのクラスタリング超入門

今日から(ドヤ顔が)使える!みんなのクラスタリング超入門

532011年4月20日水曜日

Page 54: 今日から使える! みんなのクラスタリング超入門

おまけbayon

542011年4月20日水曜日

Page 55: 今日から使える! みんなのクラスタリング超入門

アルゴリズムとかどうでもいいから仕事で使えるツールを!

552011年4月20日水曜日

Page 56: 今日から使える! みんなのクラスタリング超入門

= bayonを使いましょう

アルゴリズムとかどうでもいいから仕事で使えるツールを!

562011年4月20日水曜日

Page 57: 今日から使える! みんなのクラスタリング超入門

http://alpha.mixi.co.jp/blog/?p=1049

・Repeated Bisection法(分からない…)・k-meansでもクラスタリングできる・商用利用で事前許可が不要

bayon

572011年4月20日水曜日

Page 58: 今日から使える! みんなのクラスタリング超入門

・R 「はじめてでもわかる R言語によるクラスター分析」

 http://d.hatena.ne.jp/hamadakoichi/20100320/p1

・CLUTO 「CLUTO - Software for Clustering High-Dimensional Datasets」 http://glaros.dtc.umn.edu/gkhome/views/cluto

・GETA 「汎用連想計算エンジン(GETA)」  http://geta.ex.nii.ac.jp/geta.html

その他クラスタリングに使えるツール

582011年4月20日水曜日

Page 59: 今日から使える! みんなのクラスタリング超入門

ご清聴ありがとうございました

592011年4月20日水曜日