おしゃスタat銀座

iAnalysis合同会社

最高解析責任者倉橋一成

1

私が『Statistics』を読んで内容を話してます

これまで第1回～第5回まで開催

◦ 第1章：制御された実験

◦ 第2章：観察研究

◦ 第3章：ヒストグラム

◦ 第4章：平均と標準偏差

◦ 第5章：正規近似

◦ 第6章：測定誤差

◦ 第7章：直線プロット

◦ 第8, 9章：相関

◦ 第10, 11, 12章：回帰

◦ 第13, 14章：確率

◦ 第15章：二項式

ここまで進んでます

2

2011年東京大学博士号取得

◦ 修士まで：医療系の統計学が中心

疫学、臨床試験

◦ 博士から：データマイニング分野の研究

統計的学習、機械学習

2011年iAnalysis設立メンバー

◦ 分析ノウハウをビジネスへ

◦ ミッション：日々溜まっていくデータをどうやったら有効活用できるか？

Twitter: @isseing333

blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/

3

http://d.hatena.ne.jp/isseing333/

設立：2011年3月24日

Web：http://ianalysis.jp/

場所：東京都港区南青山2-2-15 ウィン青山 1403

取引先業種

◦ 製薬会社

◦ 医療系支援・コンサルティング会社

◦ 広告代理店

◦ 人材サービス会社

◦ ソーシャルゲーム会社

◦ 商社

◦ 統計解析会社

医療分野から始まり、様々な業種へコンサルティングを行なっています

4

http://ianalysis.jp/

5

統計学のこぼれ話とデータマイニング

◦ iAnalysis Facebookページより：http://www.facebook.com/ianalysis

6

http://www.facebook.com/ianalysis

◦ iAnalysis Facebookページより：http://www.facebook.com/ianalysis

7

経験的に得られたデータを分析し法則性を見出す

http://www.facebook.com/ianalysis

ある事象を数値化した集合

◦ 身長が165cm

◦ 体重が60kg

分析をするためには基本的に表（テーブル）の形にしなければならない

◦ データベースのテーブルやエクセルのシートのイメージ

8

ID 年齢身長体重

1 20 165 60

2 43 178 73

3 36 163 57

... ... ... ...

「行」が1つ分のデータ、「列」が1つの項目

9

ID 年齢身長体重

1 20 165 60

2 43 178 73

3 36 163 57

... ... ... ...

行

列

（1つの）データ観測

特徴ベクトル

項目、変数

SASジャパンとクロス・マーケティングによる調査

◦ ビジネスパーソン1,000人へのアンケート

◦ http://www.sas.com/offices/asiapacific/japan/news/press/201112/14.html

◦ イメージ：顧客ニーズ、市場調査、数字をベースにした業務など

ちょっと曖昧、、、

11

http://www.sas.com/offices/asiapacific/japan/news/press/201112/14.html

ネットフリックス

◦ 1997〜

◦ DVDのオンラインレンタル

既に全国展開していた「ブロックバスター」を破綻に追いやるほど成長 ◦ http://www.afpbb.com/article/economy/2759296/6233470

12

http://www.afpbb.com/article/economy/2759296/6233470

ビジネスモデル：オンラインでDVDで注文し郵便で届きポストで返す

◦ 1999年の売上：500万ドル

◦ 2006年の売上：10億ドル

7年で売上200倍！

成功した理由は、、、

13

ビジネスモデル：オンラインでDVDで注文し郵便で届きポストで返す

◦ 1999年の売上：500万ドル

◦ 2006年の売上：10億ドル

7年で売上200倍！

成功した理由は、、、

14

数学、統計、データマイニング

顧客の好みを分析して映画をレコメンド（推奨）する

◦ アマゾンの推奨が有名

商品のクラスタリング

顧客のクラスタリング

レビューの分析

在庫状況

◦ 普段借りられないが好みの合映画を推奨する

自社：数学者、エンジニア、統計家などで開発

社外：コンテストを利用して優秀な力を借りている

◦ シネマッチの性能を最も改善できたチームに100万ドル

◦ 優秀な人材を雇う人件費に比べたら100万ドルは微々たるもの

15

ビジネスモデル：月額固定で借り放題、期間制限・延滞料なし、配送無料

普段は借りず、たまにしか借りない顧客が利益率が高く、最重要！！

このような顧客に優先してDVDを届けたい

頻繁に借りる会員が「不公平だ」と感じてしまう（→訴訟へ発展）

「利益の最適化」と「公平な配送」のバランスを計算する

このアルゴリズムのお陰で、利益を上げつつ不満も解消できた

16

過去に借りられた「似ている映画」と同じくらいレンタルされるだろう

「ファヴェーラの丘」という映画

主役はリオデジャネイロのスラム出身ミュージシャン

リオのスラム街を描いた「シティ・オブ・ゴッド」は100万回

インドのスラム街を描いた「売春窟に生まれついて」は50万回

両方借りられた回数は25万回

なので「ファヴェーラの丘」も25万回は借りられるだろうと推測できる

17

チーフ・プロダクト・オフィサーの言葉

商品管理からエンジニアリングに至るあらゆる部署で分析のできる人間を雇い、定量分析を行なっている

消費者の行動パターンについて、同時にいくつかの実験を行う

例えば“ネットフリックス試写室”を実験中

ネット上に4種類の試写室を用意して、会員2万人に試してもらった

比較対照のために、試写室に誘導しないグループも設けた

最後まで見る人は何人居るか、作品をお気に入り登録する人は何人居るか、最終的に借りるか、借りた後の評価はどうだったか

すべてデータにしてチェックする

18

野球：アスレチックス、レッドソックス（映画：マネーボール）

娯楽：アマゾン、ネットフリックス

小売：ウォルマート

Web：グーグル、ヤフー

ソーシャルゲーム：DeNA、グリー

金融：キャピタル・ワン

19

野球：アスレチックス、レッドソックス（映画：マネーボール）

娯楽：アマゾン、ネットフリックス

小売：ウォルマート

Web：グーグル、ヤフー

ソーシャルゲーム：DeNA、グリー

金融：キャピタル・ワン

20

分析すると業績が上がる！？

21

今日からできるデータ解析

22

データマイニング

Phase I データの収集・加工

DBの作成・接続ログの収集システム開発サーベイ、調査

Phase II

データの可視化ヒストグラム散布図

時系列プロット円グラフ、棒グラフ地域プロット

Phase III モデル作成予測モデル機械学習

クラスタリング因果推論

Phase IV 効果検証デザイン A/Bテスト

ランダム化試験実験計画

データを「解析できる形」にする

◦ データが全くない場合は作る

◦ データが様々なデータベース（DB）に保存されている場合は統合する

DBに保存されていてもフォーマットが違う

管理している部署が違う

アクセス制限がある

“汚い”データを綺麗にクレンジングする必要がある

◦ 欠測値の検討

そのまま残す、除去する、補完する

補完：平均値、多重補完（proc MI）

◦ 外れ値の検討

間違った値→除去、欠測

間違ってないが解析には大きすぎる→ウィンザライゼーション

23

数値の羅列であるデータを目に見える形にする

◦ ヒストグラム

◦ 箱ひげ図

◦ 棒グラフ

◦ 円グラフ

◦ 時系列プロット

◦ 散布図

24

第 1 四半期

第 2 四半期

第 3 四半期

第 4 四半期

0

1

2

3

4

5

6

0

1

2

3

4

5

6

時点1 時点2 時点3 時点4

25

http://www.gapminder.org/

http://www.gapminder.org/

データに様々な「モデル」を当てはめて、情報を探索する

◦ 変数同士の関連をチェックする

◦ ある変数に影響を与えている変数は何か？

マーケティング：購買、課金、リピートに影響する変数は何か？

医療：疾病発症、生存時間、再発、予後に影響する変数は何か？

予測したい変数：結果変数

予測に使われる変数：説明変数

◦ 呼び方がたくさんある

結果変数→応答変数、従属変数

説明変数→予測変数、独立変数

◦ 「統計学を勉強するときに知っておきたい10ポイント」

http://d.hatena.ne.jp/isseing333/20110710/1310283922

モデルの例：「購買したかどうか」という結果変数を、「性別・年齢・居住地域・収入」などの説明変数で予測する

◦ ロジスティック回帰、判別分析、SVM、ニューラルネットワーク

26


既にあるデータを分析するだけでは「介入効果」は測定不可

◦ 広告の購買効果

◦ 薬剤の治療効果

ランダム化試験を行う

◦ 対象者をランダムにいくつかの群に分けて、異なる介入を行う

◦ 介入後の結果を比較する

例

◦ 広告A vs. 広告B

◦ 薬剤A vs. 薬剤B

サンプルサイズ設計を行い、介入を行うべき人数を計算する

◦ ランダム化試験を行えば、介入人数は数百人で十分な場合が多い

◦ 大がかりな試験をすることなく、介入効果の有無を見積もることが可能

27

データマイニングと分析

30

Data mining is a tool for extracting the jewel of truth from the data.

データマイニングとはデータから真実という宝を抽出するためのツールである

“Data Mining and Statistics for Decision Making.” 『意思決定のためのデータマイニングと統計学』 Stphane Tuffry

31

DB

DB DB Data

データベース (Source Data)

データマート (Data Mining Mart)

Cleaning Data

前処理データ (Preprocessed Data)

変換データ (Transformed Data)

パターン (Pattern)

知識 (Knowledge)

データマイニング定番のプロセス

厳密にはニュアンスが異なるが、どれも「データ分析」を指している

ニュアンス

データマイニング

◦ ビッグデータと関連して話されることが多い

◦ 砂漠のようなデータから金を見つける

機械学習

◦ 中身はブラックボックスだが予測精度が良い

統計的学習

◦ 計算方法の可読性・解釈を重視

33

様々なところに記録されているデータを統合する

◦ 社内の部署連携

◦ データベースエンジニア、インフラエンジニア

大規模データを扱う必要

◦ 数100GB～数10TB

◦ Facebookは1日に約100TBのデータが発生

◦ Googleは約200億（？）のサイトから検索を行っている（約400TB？）

◦ Amazonは数千万アイテムの中からリコメンド（推奨）している

「分散処理」によって高速に処理を行う

◦ Hadoop（ハドゥープ）

Googleの基盤技術であるMapReduceをJavaでオープンソース実装した分散処理のフレームワーク

34

Hadoop

◦ 分散処理のためのJavaライブラリ

「Hadoop分散処理、6時間から5分に高速化 - Yahoo! Japan」 ◦ http://journal.mycom.co.jp/news/2009/03/04/030/index.html

MapReduceという概念

◦ Map：データを分散して処理

◦ Reduce：処理を統合

35

http://itpro.nikkeibp.co.jp/article/COLUMN/20110112/355999/

http://journal.mycom.co.jp/news/2009/03/04/030/index.html

http://itpro.nikkeibp.co.jp/article/COLUMN/20110112/355999/

論文：Map-Reduce for Machine Learning on Multicore ◦ http://www.cs.stanford.edu/people/ang//papers/nips06-

mapreducemulticore.pdf

MapReduceできる統計手法

◦ 局所重み付き線形回帰（Locally Weighted Linear Regression）

◦ ナイーブベイズ（Naive Bayes）

◦ 判別分析（Gaussian Discriminative Analysis）

◦ K-means法

◦ ロジスティック回帰（Logistic Regression）

◦ ニューラルネットワーク（Neural Network）

◦ 主成分分析（Principal Components Analysis）

◦ 独立成分分析（Independent Component Analysis）

◦ EMアルゴリズム（Expectation Maximization）

◦ サポートベクターマシン（Support Vector Machine）

これらを組み込んでいるのがMahout

リアルタイム性を重視したJubatus

36

http://www.cs.stanford.edu/people/ang/papers/nips06-mapreducemulticore.pdf



教師付き学習

◦ “予測的”データマイニング

◦ 過去のデータを使って将来の値を予測する

1. 回帰モデル

2. カテゴリ予測

3. 機械学習

非教師付き学習

◦ “記述的”データマイニング

◦ データのパターンを発見する

A. アソシエーションルール

B. クラスタリング

C. テキストマイニング

37

一般化線形モデル

◦ 線形回帰：Y = a + bx1 + cx2 + …

◦ ロジスティック回帰：logit(P) = a + bx1 + cx2 + …

◦ ポアソン回帰：log(Y) = a + bx1 + cx2 + …

正則化回帰

◦ リッジ回帰、LASSO、LARS

パラメータ推定にペナルティを付けて過適合を防ぐ

時系列モデル ◦ ARIMA

非線形回帰

◦ スプライン、一般化加法モデル

◦ 多変量加法回帰スプライン（multiple adaptive regression splines; MARS）

生存時間解析

◦ カップラン・マイヤー曲線、Cox比例ハザードモデル

38

教師付き学習

判別分析

ロジスティック回帰

決定木

◦ 再帰的分割アルゴリズム（Recursive Partitioning Algorithms）

39

収入＞○○

職歴＞3年高負債

購入する購入しない購入しない購入する

Yes No

教師付き学習

サポートベクターマシン（Support Vector Machine; SVM）

ニューラルネットワーク（Neural Network; NN）

40

カーネルトリック

x1 x2

xn

…

β1

βn

β2

β0

input

Y

output ニューロン

教師付き学習

線形予測・判別

非線形予測・判別

41

複雑な結果（非線形）になるので解釈が難しい

データの特徴を単純化（モデル化）できない

複雑なモデルから解釈可能なルールを抽出する方法もある

◦ 決定木を駆使してルールを抽出する

42

「学習」させ過ぎると「過適合」が起こる

クロスバリデーション（交差検証）を行う必要がある

◦ K-fold Cross-Validation（K=10、K=2、K=nの場合が多い）

43

…

…

…

…

Training Data（学習データ、訓練データ）

Validation Data（検証データ）

K回

44

学習

エラー

学習データ

検証データ

過適合!!

ここで学習を止める（early stopping）

バスケット分析

◦ 一緒に購入しやすいアイテムのパターンを抽出する

45

対象者アイテム

1 Item6, Item2, Item4

2 Item1, Item3

3 Item3, Item6


5 Item1, Item2, Item6, Item3, Item4



Item6 → Item4, Item2 support = 4/7, confidence = 4/5 Item6, Item2 → Item4 support = 4/7, confidence = 4/4

・support(X→Y) = number of (X U Y) / total number ・confidence(X→Y) = support(X U Y) / support(X)


K-means

◦ ↓このサイトが非常に分かりやすい

◦ http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise

自己組織化マップ（Self-Organization Map; SOM）

◦ ニューロンを使ったクラスタリング

ネットワーク分析

◦ データのネットワーク図を描いて特徴を探る

46


http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise

47

AとCの関連は強い AとBの関連は弱い

A B

C



ハイテク企業の管理職21人の社会ネットワーク

◦ 『ネットワーク分析 (Rで学ぶデータサイエンス 8) 』

48

http://d.hatena.ne.jp/yokkuns/20110223/1298416018

「友人である」「報告をする」「アドバイスを求める」

http://d.hatena.ne.jp/yokkuns/20110223/1298416018

「文章」データから情報を抽出する

◦ Twitter、Facebook

◦ 小説

ワードクラウド

◦ 形態素解析＋単語が利用されている頻度の可視化

49


50

このままではちょっと分からない →パラメータを変えたりして「マイニング」

全文章（約35万文字）を分析

利点

Rは完全無料の統計ソフト

データサイズは1Gくらいまで分析できる（もちろんPC性能に依ります）

充実したライブラリ（全て無料）

欠点

保証がない→コミュニティ（使ってる人同士）でカバー

ビッグデータは扱えない→これからの発展に期待、Rhadoopとか

計算結果が本当に合っているのか→ベースとなる機能はほぼ大丈夫

◦ ミスが起こりやすいのはライブラリよりデータ加工やプログラムの方

プログラミングが必要→言語の中では取得しやすい

51

ぜひデータ分析を活用して業務アップに役立てて下さい！

おしゃスタat銀座

Documents