おしゃスタ@リクルート

43
iAnalysis合同会社 代表・最高解析責任者 倉橋一成 1

Upload: issei-kurahashi

Post on 14-Jun-2015

23.195 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: おしゃスタ@リクルート

iAnalysis合同会社 代表・最高解析責任者 倉橋一成

1

Page 2: おしゃスタ@リクルート

【経歴】 東京大学Ph.D (2011), Statistician, Data Scientist, Data Miner 【専門】 cDNAマイクロアレイ、臨床試験データ、レセプトデータ、 電子カルテ・医療オーダーデータ、マーケティングデータ 【スキル】 R, SAS, SPSS, Visual C++, Ruby on Rails, Python 【主な実績】 ・2005:NPO日本臨床研究支援ユニット、解析担当 腎臓癌患者の調査データの解析(SAS) レセプトデータの解析と結果のレポーティング(R)

・2007、2009:スタットコム株式会社、統計解析者 小児癌の臨床試験のプロトコルに沿った解析とレポーティング 術後乳癌患者のQOLに関する研究の解析と統計アドバイス

・2009~2010:帝京大学、医師への統計コンサルタント 論文化にあたっての医師へのアドバイスと解析 様々な科の医師に対してのコンサルタント(内科、外科、眼科など)スタットコム株式会社、統計解析者

・2010:キャピタルメディカ株式会社、プロジェクトメンバー レセプトデータを活用した新規プロジェクトの立ち上げメンバー

・2011:iAnalysis合同会社 設立 ※Twitter: @isseing333 ※blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/

2

Page 3: おしゃスタ@リクルート

iAnalysis合同会社 設立:2011年3月24日 Web:http://ianalysis.jp/ 本社:東京都港区南青山2-2-15 ウィン青山 取引先企業

◦ エーザイ株式会社、大鵬薬品工業株式会社、株式会社gumi、大手自動車会社、 大手人材サービス会社など

医療分野から始まり、多種多様な業種へ

実績 ◦ セミナー活動 ◦ コンサルティング

分析手法のアドバイス 分析環境作りのアドバイス

◦ 分析実務 調査データ分析によるインサイト抽出 売上データ分析によるKPIの開発

◦ 分析のためのデータベース構築 ◦ 予測モデル開発

Web上の行動履歴データを使ったユーザーの属性予測

3

Page 4: おしゃスタ@リクルート

4

http://ianalysis.jp/

Page 5: おしゃスタ@リクルート

『注目の職種!データサイエンティストになるための条件』 ◦ リクナビNEXT:ブレインパッド佐藤氏との対談

『業務改善のためのデータサイエンス』 ◦ スクー(Web教室)でのレクチャー

『データサイエンティスト問題』 ◦ リクルート、CodeIQ

『データサイエンティスト協会(仮)』 ◦ 一般社団法人設立に向けてFacebookページの開設

5

Page 6: おしゃスタ@リクルート

データサイエンスとは?

データサイエンティストの流れ

CodeIQデータサイエンス問題 ◦ データサイエンティスト初級問題 ◦ データサイエンティスト~統計学編1~ ◦ データサイエンティスト~統計学編2~ ◦ データサイエンティスト~機械学習編1~ ◦ データサイエンティスト~機械学習編2~

6

Page 7: おしゃスタ@リクルート

データサイエンス とは?

Page 8: おしゃスタ@リクルート

「経験的に得られたデータを分析し法則性を見出す学問」 政治・ギャンブルなどのニーズから生まれた

8

webアクセス・広告

サンプリング調査

Page 9: おしゃスタ@リクルート

様々な事象を数値化した集合

9

ID 年齢 身長 体重

A 20 165 60

B 43 178 73

C 36 163 57

... ... ... ...

ID Webページ 時間

A Top 20120607

A Service 20120607

B Top 20120607

B Service 20120607

B contact 20120607

… … …

データベース

Page 10: おしゃスタ@リクルート

データマイニング ◦ (大量の)データから有益な情報を掘り起こす(マイニング)こと ◦ 分析対象のデータは「排気データ」なことが多い ◦ 技術的な視点が強い

データサイエンス ◦ データを適切に分析することで、正しい意思決定を行う ◦ 目的、仮説を持って意識的にデータを溜めて分析しよう ◦ 技術を何のためにどう活かすかという視点が強い

Google:「次の10年で熱い職業は統計学」 ◦ あらゆるデータが記録される時代 ◦ データをどのように有効活用するか! ◦ http://www.publickey1.jp/blog/10/10_3.html

Facebook:「データサイエンティスト」を公募

10

Page 11: おしゃスタ@リクルート

Gmail ◦ 「迷惑メール」であるかどうか予測し、フィルタを行う ロジスティック回帰 ナイーブベイズ

◦ 利用者が「迷惑メール」と選択した時点で予測方法を更新する ベイズによるパラメータ更新

11

Page 12: おしゃスタ@リクルート

ECサイトなどで、ユーザの好みを分析し、各ユーザごとに興味のあ

りそうな情報を選択して表示すること

Amazon ◦ Webサイトで顧客層ごとに異なるトップメニューを用意 ◦ ある商品を購入したら他の商品を推奨する

マクドナルド ◦ カスタマイズクーポン ◦ 会員の購買履歴を分析して個々人に異なるキャンペーンを行う ◦ おさいふケータイを利用している1,000万人が対象

12

Page 13: おしゃスタ@リクルート

Gartner社:楽観視していない(否定的なわけではない)

13

Page 14: おしゃスタ@リクルート

Gartner社:楽観視していない(否定的なわけではない)

McKinseyの警鐘

14

「2015年までを通じ、Fortune 500企業の85%以上が、ビッグデータを競合優位性確保のために効果的に活用することに失敗する」

米国では2018年までに、高度なアナリティクス・スキルを持つ人材(データサイエンティスト)が14~19万人不足し、大規模なデータセットのアナリティクスを活用し意思決定のできるマネージャーやアナリストが150万人不足する

Page 15: おしゃスタ@リクルート

15

Page 16: おしゃスタ@リクルート

16

Page 17: おしゃスタ@リクルート

広報ページ:http://www.facebook.com/DataScientist.jp

議論ページ:http://www.facebook.com/groups/datascientist.jp/ ◦ スキル要件、人物像等について議論 ◦ 興味のある方はぜひご連絡を(要申請)

17

Page 18: おしゃスタ@リクルート

18

データサイエンスの流れ

Page 19: おしゃスタ@リクルート

19

Page 20: おしゃスタ@リクルート

20

ビジネス インテリジェンス

(BI)

ビジネス アナリティクス

(BA)

Page 21: おしゃスタ@リクルート

21

CodeIQ データサイエンス問題

Page 22: おしゃスタ@リクルート

22

データサイエンティスト を目指して問題を解こう!

Page 23: おしゃスタ@リクルート

【前提】 とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデー

タを受け取りました。先方は何をして欲しいかまだはっきりと決まってない様子。

受け取ったデータは、 「応募した人の属性データ(oubo_zokusei.csv)」 「応募した時間の記録データ(oubo_kiroku.csv)」 の2種のCSVファイルです。

【課題】 幸いにもデータサイズはあまり大きくなく、Rで読み込める程度。まずはRで読み込ん

でどんなデータか把握してください。 解答はテキストファイル(.txt)で、 1. Rコード 2. データの概要:どんなデータかまとめた文章 3. 分析提案:もし応募数の予測モデルを作るとしたらあった方がよさそうな変数とその

理由 の3つを、この順番で書いて下さい。

23

Page 24: おしゃスタ@リクルート

24

Page 25: おしゃスタ@リクルート

25

Page 26: おしゃスタ@リクルート

26

Page 27: おしゃスタ@リクルート

27

頻度

値(身長)

平均値

標準偏差

Page 28: おしゃスタ@リクルート

28

頻度

年収

平均値

中央値

最頻値

Page 29: おしゃスタ@リクルート

問1. Rを使い、5人分の身長に関し、下記の6つの統計量を求めてくだ

さい。

# 5人分の身長データ height1 <- c(168, 173, 152, 181, 175)

(1) 5人分の身長データの平均値 (2) 5人分の身長データの中央値 (3) 5人分の身長データの標本分散 (4) 5人分の身長データの不偏分散 (5) 5人分の身長データの標準偏差(不偏分散を使う) (6) 5人分の身長データの標準誤差(不偏分散を使う)

29

Page 30: おしゃスタ@リクルート

問2. 下記のrnorm関数を使うと5人分の身長のデータを擬似生成できます。擬似生成データを使った以下の質問に答えてください。

# 5人分の身長を擬似生成するコード height2 <- 170 + 10*rnorm(5) (1) 擬似生成した5人分の身長データを使って - 標本分散 - 不偏分散 - 標準偏差(不偏分散を使う) - 標準誤差(不偏分散を使う) の4つの統計量を計算してください。 計算に使ったRのコードと計算結果を提出してください。

30

Page 31: おしゃスタ@リクルート

(2) 「100人分の身長データ」、「1,000人分の身長データ」を擬似生

成し、上記4つの統計量(標本分散、不偏分散、標準偏差、標準誤差)を計算してみてください。人数(データ件数)が増えたとき、この4つの関係性はどうなるか議論してください。

31

Page 32: おしゃスタ@リクルート

32

Page 33: おしゃスタ@リクルート

例)選挙の調査

サンプリング調査で分かるのは、”母集団”の”平均値” ◦ 母集団の平均値(真値)を推測するのが95%信頼区間

妥当な結果を得るには”ランダムサンプリング”していることが必要

33

1億人 1,000人(十万分の1)

Page 34: おしゃスタ@リクルート

問1. DataScience_stat2.csvのデータは100万人分の身長を模擬的に作成したものです。

この100万人分の身長データから、1000人分のデータをRを使ってサンプリングしてください。

問2. 問1でランダムサンプリングしたデータを使って以下の値を求めてください。

2-1. 平均値 2-2. 標準誤差(不偏分散を使う) 2-3. 平均値の95%信頼区間

問3. 問2-3の信頼区間は、もとの100万人の集団の平均身長(真値)

を推測するものです。サンプリングを無限に繰り返すと、理論的には95%の割合で信頼区間の範囲に真値が含まれます。ランダムサンプリングを10000回繰り返し、この事を確認してください。計算に使ったRのコードと簡単な説明を提出してください。

34

Page 35: おしゃスタ@リクルート

35

Page 36: おしゃスタ@リクルート

データに様々な「モデル」を当てはめて、情報を探索する

36

Page 37: おしゃスタ@リクルート

x ◦ 説明変数 ◦ 独立変数 ◦ 予測変数 ◦ 共変量 ◦ 入力

y ◦ 結果変数 ◦ 従属変数 ◦ 応答変数 ◦ アウトプット ◦ 出力 ◦ ターゲット

37

Page 38: おしゃスタ@リクルート

38

結果変数: y 説明変数: x 手法 連続値 2値 t検定

3つ以上のカテゴリー

分散分析

連続 線形単回帰、線形重回帰 カテゴリー、連続 共分散分析

2値 カテゴリー 分割表、ロジスティック回帰

連続 ロジステック回帰など カテゴリー、連続 ロジステック回帰

3つ以上のカテゴリー カテゴリー 分割表 カテゴリー、連続 名義ロジステック回帰

順序 カテゴリー、連続 順序ロジステック回帰 カウント値 カテゴリー 対数線形モデル

カテゴリー、連続 ポアソン回帰 生存時間 カテゴリー、連続 Cox回帰 相関のある値、グループ値 カテゴリー、連続 混合効果モデル

Page 39: おしゃスタ@リクルート

【問題】 問1. Rを使い、DataScience_ML1.csvを読み込み以下の線形回帰モデ

ルを作成してください。 y=x1+x2

問2. Rを使い、問1で作ったモデルに対して以下の回帰診断を行なってください。

(1) ローデータの散布図 (2) 調整済みR二乗 (3) 残差プロット (4) キャリブレーションプロット

39

Page 40: おしゃスタ@リクルート

40

SVMとは以下のカーネルを定義したとき、

以下の式を解くことで判別を行う方法です。

SVMを回帰に応用したものがSVRです。

カーネルの種類には次のようなものがあります。

Page 41: おしゃスタ@リクルート

1. 高次元への変換 2. マージン最大化 3. カーネルトリック

41

高次元へ変換

X Φ(X)

マージン最大化

Page 42: おしゃスタ@リクルート

【問題】 問1. Rを使い、DataScience_ML1.csvを読み込み、以下のモデルを作

成してください。結果変数はyとします。

・線形カーネルのSVRモデル ・3次多項式カーネルのSVRモデル ・ガウシアンカーネルのSVRモデル(radial basis) ・シグモイドカーネルのSVRモデル 問2. 作ったモデルに対して予測診断を行うために、各モデルのキャリ

ブレーションプロットとR二乗をチェックしてください。

42

Page 43: おしゃスタ@リクルート

43

ご清聴ありがとうございました

[email protected]