google prediction apiを使う前に知っておきたい統計のはなし

Satoshi Tada

2014/4/6 GDG DevFest Japan 2014 Spring

たださとし

G+ : +たださとし

Tw : @pinmarch_t

「Google Prediction APIを使えば機械学習でデータ

の予測してくれるらしいね、機械学習っていうくらいだから統計の知識なくても使えそうで便利だね！」

「Google Prediction APIを使えば機械学習でデータ

の予測してくれるらしいね、機械学習っていうくらいだから統計の知識なくても使えそうで便利だね！」

(いやあ、統計は知ってた方がいいよ…)

統計学について

機械学習について

(時間もないので)

ほぼ「数式を使わずに！」ご紹介

歴史上「統計学」は大きく3つに分類ができる

記述統計学

推計統計学

ベイズ統計学

ベイズ統計学のみ「主観確率」という概念を持つ (主観確率客観確率)

ベイズ主義に対して頻度主義

記述統計学(19～20世紀) ◦ 生物統計学が源流

◦ 収集した情報の基本統計量(平均・分散・標準偏差 etc.)

◦ 回帰、最小二乗法

◦ 確率論、確率分布(正規分布の概念)

推計統計学(20世紀前半～) ◦ 統計学的仮説検定法の出現

◦ 標本集団の情報から母集団の状態を推定

◦ 頻度主義 (Nを大きくしていけばある確率に落ち着く)

ベイズ統計学(20世紀中ごろ～) ◦ 「母集団を前提としない」確率の計算

◦ ベイズの定理自体は18世紀に存在 (トーマス・ベイズ)

◦ 事後確率(条件付き確率)は事前確率から計算ができる

◦ ベイジアンフィルタに応用されている

機械学習との関連性

事前確率(分布) 事後確率(分布)

事象(観測データ)

生物統計学

数理統計学記述統計学推計統計学

確率論

社会統計学

人口統計 (18世紀ごろ～)

(19世紀～)

ベイズ統計学ベイズ理論

(20世紀～)

正規分布誤差

推定仮説検定

回帰

(16世紀ごろ～)

(アドルフ・ケトレー)

(フランシスコ・ゴルトンカール・ピアソン)

(フローレンス・ナイチンゲール)

(ロナルド・フィッシャーエゴン・ピアソン, イェジ・ネイマン)

(フェーズ・パスカルピエール・ド・フェルマー)

(ピエール＝シモン・ラプラス)

(カール・フリードリヒ・ガウス)

(17世紀ごろ～)

(ブルーノ・デ・フィネッティレオナルド・ジミー・サヴェッジ)

機械学習ってなに ◦ センサやデータベースなどからある程度の数のサンプルデータ集合を入力して解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズムを発展させる。なおデータ集合を解析するので統計学との関連が深い。 (Wikipediaより)

訓練(training)を行う ◦ 訓練結果は必ずしもデータセットとはならない

(モデル式であれば、関数で表せられる)

◦ 訓練と実践(実動環境)が同一である必要はない

「抽出」をした結果を解釈するのは「(主に)人間」！

機械学習には教師あり、教師なし学習がある

教師あり学習、教師なし学習 ◦ 違いは、手本となるデータの有無 ◦ 教師あり

回帰による予測

分類器による分類 etc.

◦ 教師なし主成分分析による特徴抽出

クラスタリングによる分類 etc.

教師なし ◦ 「前例」となるデータがないとき ◦ 単純にグループ分けをしたいとき

そこから何かを見出したい(人間が) 例1) (主成分分析→)クラスタリング→系統樹の作成 (生物系)

見出した何かを機械的に処理例2) 主成分分析→パターン認識

教師あり ◦ 「次のデータ」について判定したいとき

モデルに当てはめて機械的に処理例1) 回帰直線、SVM、ニューラルネットワークなど判別分析

例2) パターン認識

例: 迷惑メールの判定 = ベイジアンフィルタの1つプログラマのための数学勉強会第18回(中村晃一氏) より

http://nineties.github.io/math-seminar/18.html

「事前の確率が明らか」 ◦ 過去の全データ中の”通常”の割合(確率)

◦ 「連絡」が含まれるときの”通常”の割合(確率) etc.

「起こった現象」を「次の事前確率」として更新できる

例) 京都で20日晴れが続いた時の“明日が晴れの確率” ◦ 頻度主義で推定すると、「晴れ100%」となるが…

「事前の確率が明らか」 ◦ 過去の全データ中の”通常”の割合(確率)

◦ 「連絡」が含まれるときの”通常”の割合(確率) etc.

「起こった現象」を「次の事前確率」として更新できる

例) 京都で20日晴れが続いた時の“明日が晴れの確率”

？%

？% ？%

常識的に考えて、「100%はないでしょ」例えば、過去1000日の天気から

ベイジアンネットワーク

隠れマルコフモデル(HMM) ◦ 確率過程の1つ、状態遷移を確率で表現できる

◦ 音声認識(波形処理)・ゲノム解析(テキストマイニング)で活躍

◦ 動的”ベイジアンネットワーク”の1つ

記述統計学・推計統計学とベイズ統計学 ◦ 頻度主義 vs. ベイズ主義という考え方の違い

機械学習 ◦ 教師ありと教師なしの学習

ベイズ統計学(ベイズ推定)を使った機械学習 ◦ スパムフィルタ ◦ 音声認識 ◦ テキストマイニング ◦ 異常(値)検知

関東でたまに(月1回程度)もくもく会しています ◦ テーマは特に定めていません

◦ 「スリッパ」Facebookページ (https://www.facebook.com/slipperworld)

google prediction apiを使う前に知っておきたい統計のはなし

Data & Analytics