はじパタ2nd 20130702 otanet

Post on 25-Jun-2015

1.459 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

第2回 「はじめてのパターン認識」読書会

2013/07/02(火)

@otanet

自己紹介(@otanet)

• 背景: 2008年まで環境問題(廃棄物)を研究。

-産業廃棄物の不法投棄の実証分析

-最終処分場の跡地利用の環境評価

-用いた手法:ゲーム理論、統計解析

• 現在:不動産賃貸のFC本部にてWebのKPIの集計業務に従事(6月30日に退職、転職活動中)

• スタンス:統計解析をパターン認識・機械学習に応用して、幅広い分析のできるマーケターとして活躍したい。

2

本日の担当箇所(2章前半 19:55~20:25)

第2章 識別規則と学習法の概要

まえがき

2.1 識別規則と学習法の分類

2.2 汎化能力

3

まえがき

4

パターン認識の流れ(P2 図1.1より)

識別クラス 特徴ベクトル

重さ

透過率

サイズ

穴の有無

10円

50円

100円

500円

識別不能

10円玉

50円玉

100円玉

500円玉

-

特徴抽出

識別対象

識別規則

入力データとそのクラスの照合・対応づけ

まえがき(2章)

・微妙に異なる100円玉の特徴ベクトル=学習データ

・100円玉(新しい、古い、怪しい)⇔本物の100円玉:正しく識別すること=汎化能力 5

100円玉の場合(P8)と学習データ、汎化能力について

入力データとそのクラスの照合・対応づけ

100円玉

識別クラス 特徴ベクトル

重さ

透過率

サイズ

穴の有無

-

-

100円

-

-

様々な100円玉

-

-

-

特徴抽出

識別対象

識別規則

10円玉

50円玉

100円玉

500円玉

-

入力パターン 識別部 特徴抽出部 出力

2.1 識別規則と学習法の分類

6

2.1.1 識別規則の構成法

-ベイズの最大事後確立法

-最近傍法(KNN法)

-パーセプトロン型学習回路・SVM

-決定木(CART、C4.5)

学習データセット

2.1.2 教師付き学習 2.1.4 教師なし学習

-パーセプトロン型学習回路・SVM -クラスタリング(自己組織型学習)

-決定木(CART、C4.5)

-形質導入学習(効率化)

2.1 識別規則と学習法の分類

7

2.1.1 識別規則の構成法

→4つ

2.1.2 教師付き学習

→線形識別関数、2クラスの場合、3つ以上のクラスの場合、学習データセットについて

2.1.3 教師付き学習と線形回帰

→2値の場合

2.1.4 教師なし学習

→すべてのデータ(クラスタリング)と一部のデータ(形質導入学習)

2.1.1 識別規則の構成法(概要)

8

(c) 関数値 パーセプトロン型学習回路

写像の実現方法

(d) 決定木 CART、C4.5

写像の実現方法

決定木の終端ノードでクラスを分類

方法 代表例

(a) 事後確率 ベイズ推定法

写像の実現方法 事後確率の最大のクラスに分類

(b) 距離 最近傍法

写像の実現方法

2.1.1 識別規則の構成法(概要)

9

(c) 関数値 パーセプトロン型学習回路

サポートベクトルマシン

R関数 nnet()

主な参照先 7章・8章

(d) 決定木 CART、C4.5

R関数 rpart()

主な参照先 11章

方法 代表例

(a) 事後確率 ベイズ推定法

R関数 -

主な参照先 3章・11章

(b) 距離 最近傍法

R関数 hclust()

主な参照先 5章

2.1.2 教師付き学習

10

例題2.1

11

例題2.1

• 詳しくはP76-P78の例題6.2、6.3を参照のこと。 12

2.1.2(続き)学習と学習データその1

• 学習データ:入力データとそのクラスを指定したデータ(=教師データ)を対にしたデータセットのこと。

13

識別クラス 特徴ベクトル

重さ

透過率

サイズ

穴の有無

-

-

100円

-

-

様々な100円玉

-

-

-

特徴抽出

識別対象

識別規則

10円玉

50円玉

100円玉

500円玉

-

入力パターン 識別部 特徴抽出部 出力

学習データ 教師データ

識別クラス 入力データ

2.1.2(続き)学習と学習データその2

14

2.1.2(続き)学習と学習データその3

15

2.1.3 教師付き学習と線形回帰

16

2.1.4 教師なし学習

2.1.4 教師なし学習(自己組織型学習)

・クラスタリング:入力データ間の距離や類似度、確率モデルに基づきクラスを自動生成

・形質導入学習:コスト削減のため、一部のデータのみ教師をつけて、そのほかは教師なしで学習を行う。

例)Webのテキストや画像・音楽データなど

17

参考文献一覧

1.平井(2003)「はじめてのパターン認識」 森北出版

2.石井他(1998)「わかりやすいパターン認識」

3.金編,金森・竹之内・村田著(2010)「Rで学ぶデータサイエンス 5 パターン認識」

4.金編,姜著(2010)「Rで学ぶデータサイエンス 3 ベイズ統計データ解析」

5.金著(2007)「Rによるデータサイエンス」

18

ご清聴ありがとうございました。

19

top related