おしゃスタ@リクルート

iAnalysis合同会社代表・最高解析責任者倉橋一成

1

【経歴】東京大学Ph.D (2011), Statistician, Data Scientist, Data Miner 【専門】 cDNAマイクロアレイ、臨床試験データ、レセプトデータ、電子カルテ・医療オーダーデータ、マーケティングデータ【スキル】 R, SAS, SPSS, Visual C++, Ruby on Rails, Python 【主な実績】・2005：NPO日本臨床研究支援ユニット、解析担当腎臓癌患者の調査データの解析(SAS) レセプトデータの解析と結果のレポーティング(R)

・2007、2009：スタットコム株式会社、統計解析者小児癌の臨床試験のプロトコルに沿った解析とレポーティング術後乳癌患者のQOLに関する研究の解析と統計アドバイス

・2009～2010：帝京大学、医師への統計コンサルタント論文化にあたっての医師へのアドバイスと解析様々な科の医師に対してのコンサルタント（内科、外科、眼科など）スタットコム株式会社、統計解析者

・2010：キャピタルメディカ株式会社、プロジェクトメンバーレセプトデータを活用した新規プロジェクトの立ち上げメンバー

・2011：iAnalysis合同会社設立 ※Twitter: @isseing333 ※blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/

2

iAnalysis合同会社設立：2011年3月24日 Web：http://ianalysis.jp/ 本社：東京都港区南青山2-2-15 ウィン青山取引先企業

◦ エーザイ株式会社、大鵬薬品工業株式会社、株式会社gumi、大手自動車会社、大手人材サービス会社など

医療分野から始まり、多種多様な業種へ

実績 ◦ セミナー活動 ◦ コンサルティング

分析手法のアドバイス分析環境作りのアドバイス

◦ 分析実務調査データ分析によるインサイト抽出売上データ分析によるKPIの開発

◦ 分析のためのデータベース構築 ◦ 予測モデル開発

Web上の行動履歴データを使ったユーザーの属性予測

3

4

http://ianalysis.jp/

http://ianalysis.jp/�

『注目の職種！データサイエンティストになるための条件』 ◦ リクナビNEXT：ブレインパッド佐藤氏との対談

『業務改善のためのデータサイエンス』 ◦ スクー（Web教室）でのレクチャー

『データサイエンティスト問題』 ◦ リクルート、CodeIQ

『データサイエンティスト協会（仮）』 ◦ 一般社団法人設立に向けてFacebookページの開設

5

データサイエンスとは？

データサイエンティストの流れ

CodeIQデータサイエンス問題 ◦ データサイエンティスト初級問題 ◦ データサイエンティスト～統計学編1～ ◦ データサイエンティスト～統計学編2～ ◦ データサイエンティスト～機械学習編1～ ◦ データサイエンティスト～機械学習編2～

6

データサイエンスとは？

「経験的に得られたデータを分析し法則性を見出す学問」政治・ギャンブルなどのニーズから生まれた

8

webアクセス・広告

サンプリング調査

様々な事象を数値化した集合

9

ID 年齢身長体重

A 20 165 60

B 43 178 73

C 36 163 57

... ... ... ...

ID Webページ時間

A Top 20120607

A Service 20120607

B Top 20120607

B Service 20120607

B contact 20120607

… … …

データベース

データマイニング ◦ （大量の）データから有益な情報を掘り起こす（マイニング）こと ◦ 分析対象のデータは「排気データ」なことが多い ◦ 技術的な視点が強い

データサイエンス ◦ データを適切に分析することで、正しい意思決定を行う ◦ 目的、仮説を持って意識的にデータを溜めて分析しよう ◦ 技術を何のためにどう活かすかという視点が強い

Google：「次の10年で熱い職業は統計学」 ◦ あらゆるデータが記録される時代 ◦ データをどのように有効活用するか！ ◦ http://www.publickey1.jp/blog/10/10_3.html

Facebook：「データサイエンティスト」を公募

10

http://www.publickey1.jp/blog/10/10_3.html�

Gmail ◦ 「迷惑メール」であるかどうか予測し、フィルタを行うロジスティック回帰ナイーブベイズ

◦ 利用者が「迷惑メール」と選択した時点で予測方法を更新するベイズによるパラメータ更新

11

ECサイトなどで、ユーザの好みを分析し、各ユーザごとに興味のあ

りそうな情報を選択して表示すること

Amazon ◦ Webサイトで顧客層ごとに異なるトップメニューを用意 ◦ ある商品を購入したら他の商品を推奨する

マクドナルド ◦ カスタマイズクーポン ◦ 会員の購買履歴を分析して個々人に異なるキャンペーンを行う ◦ おさいふケータイを利用している1,000万人が対象

12

Gartner社：楽観視していない（否定的なわけではない）

13

Gartner社：楽観視していない（否定的なわけではない）

McKinseyの警鐘

14

「2015年までを通じ、Fortune 500企業の85％以上が、ビッグデータを競合優位性確保のために効果的に活用することに失敗する」

米国では2018年までに、高度なアナリティクス・スキルを持つ人材（データサイエンティスト）が14～19万人不足し、大規模なデータセットのアナリティクスを活用し意思決定のできるマネージャーやアナリストが150万人不足する

広報ページ：http://www.facebook.com/DataScientist.jp

議論ページ：http://www.facebook.com/groups/datascientist.jp/ ◦ スキル要件、人物像等について議論 ◦ 興味のある方はぜひご連絡を（要申請）

17

http://www.facebook.com/DataScientist.jp�

http://www.facebook.com/groups/datascientist.jp/�

18

データサイエンスの流れ

20

ビジネスインテリジェンス

（BI）

ビジネスアナリティクス

（BA）

21

CodeIQ データサイエンス問題

22

データサイエンティストを目指して問題を解こう！

【前提】とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデー

タを受け取りました。先方は何をして欲しいかまだはっきりと決まってない様子。

受け取ったデータは、「応募した人の属性データ(oubo_zokusei.csv)」「応募した時間の記録データ(oubo_kiroku.csv)」の2種のCSVファイルです。

【課題】幸いにもデータサイズはあまり大きくなく、Rで読み込める程度。まずはRで読み込ん

でどんなデータか把握してください。解答はテキストファイル(.txt)で、 1. Rコード 2. データの概要：どんなデータかまとめた文章 3. 分析提案：もし応募数の予測モデルを作るとしたらあった方がよさそうな変数とその

理由の3つを、この順番で書いて下さい。

23

27

頻度

値（身長）

平均値

標準偏差

28

頻度

年収

平均値

中央値

最頻値

問1. Rを使い、5人分の身長に関し、下記の6つの統計量を求めてくだ

さい。

# 5人分の身長データ height1 <- c(168, 173, 152, 181, 175)

(1) 5人分の身長データの平均値 (2) 5人分の身長データの中央値 (3) 5人分の身長データの標本分散 (4) 5人分の身長データの不偏分散 (5) 5人分の身長データの標準偏差（不偏分散を使う） (6) 5人分の身長データの標準誤差（不偏分散を使う）

29

問2. 下記のrnorm関数を使うと5人分の身長のデータを擬似生成できます。擬似生成データを使った以下の質問に答えてください。

# 5人分の身長を擬似生成するコード height2 <- 170 + 10*rnorm(5) (1) 擬似生成した5人分の身長データを使って - 標本分散 - 不偏分散 - 標準偏差（不偏分散を使う） - 標準誤差（不偏分散を使う）の4つの統計量を計算してください。計算に使ったRのコードと計算結果を提出してください。

30

(2) 「100人分の身長データ」、「1,000人分の身長データ」を擬似生

成し、上記4つの統計量（標本分散、不偏分散、標準偏差、標準誤差）を計算してみてください。人数（データ件数）が増えたとき、この4つの関係性はどうなるか議論してください。

31

例）選挙の調査

サンプリング調査で分かるのは、”母集団”の”平均値” ◦ 母集団の平均値（真値）を推測するのが95%信頼区間

妥当な結果を得るには”ランダムサンプリング”していることが必要

33

1億人 1,000人（十万分の1）

問1. DataScience_stat2.csvのデータは100万人分の身長を模擬的に作成したものです。

この100万人分の身長データから、1000人分のデータをRを使ってサンプリングしてください。

問2. 問1でランダムサンプリングしたデータを使って以下の値を求めてください。

2-1. 平均値 2-2. 標準誤差（不偏分散を使う） 2-3. 平均値の95%信頼区間

問3. 問2-3の信頼区間は、もとの100万人の集団の平均身長（真値）

を推測するものです。サンプリングを無限に繰り返すと、理論的には95%の割合で信頼区間の範囲に真値が含まれます。ランダムサンプリングを10000回繰り返し、この事を確認してください。計算に使ったRのコードと簡単な説明を提出してください。

34

データに様々な「モデル」を当てはめて、情報を探索する

36

x ◦ 説明変数 ◦ 独立変数 ◦ 予測変数 ◦ 共変量 ◦ 入力

y ◦ 結果変数 ◦ 従属変数 ◦ 応答変数 ◦ アウトプット ◦ 出力 ◦ ターゲット

37

38

結果変数: y 説明変数: x 手法連続値 2値 t検定

3つ以上のカテゴリー

分散分析

連続線形単回帰、線形重回帰カテゴリー、連続共分散分析

2値カテゴリー分割表、ロジスティック回帰

連続ロジステック回帰などカテゴリー、連続ロジステック回帰

3つ以上のカテゴリーカテゴリー分割表カテゴリー、連続名義ロジステック回帰

順序カテゴリー、連続順序ロジステック回帰カウント値カテゴリー対数線形モデル

カテゴリー、連続ポアソン回帰生存時間カテゴリー、連続 Cox回帰相関のある値、グループ値カテゴリー、連続混合効果モデル

【問題】問1. Rを使い、DataScience_ML1.csvを読み込み以下の線形回帰モデ

ルを作成してください。 y=x1+x2

問2. Rを使い、問1で作ったモデルに対して以下の回帰診断を行なってください。

(1) ローデータの散布図 (2) 調整済みR二乗 (3) 残差プロット (4) キャリブレーションプロット

39

40

SVMとは以下のカーネルを定義したとき、

以下の式を解くことで判別を行う方法です。

SVMを回帰に応用したものがSVRです。

カーネルの種類には次のようなものがあります。

1. 高次元への変換 2. マージン最大化 3. カーネルトリック

41

高次元へ変換

X Φ(X)

マージン最大化

【問題】問1. Rを使い、DataScience_ML1.csvを読み込み、以下のモデルを作

成してください。結果変数はyとします。

・線形カーネルのSVRモデル・3次多項式カーネルのSVRモデル・ガウシアンカーネルのSVRモデル（radial basis）・シグモイドカーネルのSVRモデル問2. 作ったモデルに対して予測診断を行うために、各モデルのキャリ

ブレーションプロットとR二乗をチェックしてください。

42

43

ご清聴ありがとうございました

[email protected]

おしゃスタ@リクルート

Documents