data science summit 2012 レポート

46
Data Science Summit 2012 レポート 草薙 昭彦 (@nagix) EMC Greenplum

Upload: nagix

Post on 24-Jun-2015

5.056 views

Category:

Technology


0 download

DESCRIPTION

Hadoop ソースコードリーディング第10回での発表資料です。2012年5月23日にラスベガスで開催された Data Science Summit 2012 の講演内容をレポートにまとめました。

TRANSCRIPT

Page 1: Data Science Summit 2012 レポート

Data  Science  Summit  2012  レポート  

草薙 昭彦  (@nagix)  EMC  Greenplum  

Page 2: Data Science Summit 2012 レポート

自己紹介  

•  草薙 昭彦  (@nagix)  •  EMC  Greenplum  テクニカル・コンサルタント  

Page 3: Data Science Summit 2012 レポート

ココ  

Page 4: Data Science Summit 2012 レポート
Page 5: Data Science Summit 2012 レポート

Data  Science  Summit  2012  とは  

•  2012年5月23日開催(EMC  World  2012併設)  •  今年2回目  •  アカデミア、ソーシャルエンタープライズ、スタートアップ、公共セクタなど各界のリーダーがネタを持ち寄り「Data  Drivenな世界」への道筋を示す集い  

•  キーノート、事例紹介、パネルを含む計9つのセッション  

Page 6: Data Science Summit 2012 レポート

Opening  Keynote:  What  We  Can  Predict  About  PredicJon  •  講演者  

– Nate  Silver  統計専門家・NY  Timesの政治ブログ「FiveThirtyEight.com」設立者・ライター。2008年米大統領選の予測で有名。2009年Time誌「世界で最も影響力のある100人」

•  現実のデータに予測モデルを適用する際の難しさとその影響について警告  

•  いくつかの分析事例  

Page 7: Data Science Summit 2012 レポート

Opening  Keynote:  What  We  Can  Predict  About  PredicJon  

Page 8: Data Science Summit 2012 レポート

Opening  Keynote:  What  We  Can  Predict  About  PredicJon  

Page 9: Data Science Summit 2012 レポート

Opening  Keynote:  What  We  Can  Predict  About  PredicJon  

Page 10: Data Science Summit 2012 レポート

Opening  Keynote:  What  We  Can  Predict  About  PredicJon  •  研究者は不確実性やリスクを包含した、現実的な予測モデルを開発すべき  – 例:  最近のノースダコタ州North  Forksの洪水では気象予測は51フィートの堤防高に対し49フィートの水位上昇を予測したが、9フィートの誤差を考慮しなかった  

– 例:  Deep  BlueとGary  Kasparovのチェス対戦では、KasparovはDeep  Blueのバグを作戦と勘違いし、最後まで「ノイズ」を取り除けなかった  

Page 11: Data Science Summit 2012 レポート

Roundtable:  Economic,  PoliJcal,  &  Societal  Roles  of  Social  Data  •  パネリスト  –  Jeffrey  Davitz:  Solariat設立者・CEO  – Dan  Neely:  Networked  Insights設立者,・CEO  – Andreas  Weigend:  スタンフォード大Social  Data  Lab・元Amazon.com  Chief  ScienJst  

– Nathan  Wolfe:  Global  Viral  ForecasJng設立者・CEO・スタンフォード大客員教授

•  ソーシャルデータからどのように価値を見つけ出すことができるか?新しいルールとは?  

Page 12: Data Science Summit 2012 レポート

Roundtable:  Economic,  PoliJcal,  &  Societal  Roles  of  Social  Data  

Page 13: Data Science Summit 2012 レポート

Roundtable:  Economic,  PoliJcal,  &  Societal  Roles  of  Social  Data  •  ユーザーの「query-­‐like  intent」を自然言語解析と機械学習で捉える  

•  Solariatは出版業界と協業し、twiberユーザーの興味と一致するコンテンツを配信するサービスを提供  – クリックスルー率は20%超、スパム扱いもされない  

•  コンテンツからコンテキストへ、コンバージョンからカンバセーションへ。カンバセーションがマーケットを形成する  

Page 14: Data Science Summit 2012 レポート

Big  Data  TransformaJon  

•  講演者  –  John  Brownstein:  HealthMap共同設立者・Harvard  Medical  School准教授  

– Nora  Denzel:  Intuit  Big  DataマーケティングソーシャルSVP  

– Oren  Etzioni:  ワシントン大教授・Decide.com共同設立者  

–  Tarek  Kamil:  InfoMoJon  Sports  Technologiesエグゼクティブディレクター  

– Nate  Silver:  統計専門家・FiveThirtyEight.comライター

Page 15: Data Science Summit 2012 レポート

Big  Data  TransformaJon  –  HealthMap  

Page 16: Data Science Summit 2012 レポート

Big  Data  TransformaJon  –  HealthMap  

•  ソーシャルネットワークはモノを売るマーケットだけではなく、学習・トレンドの収集・世界を支援する場でもある  

•  1996年ではウイルスのアウトブレイクを検知するのに160日かかったがいまでは20日へ  

•  HealthMapは世界5万都市からの情報を一日2000回データベースの更新を行い、潜在的なウイルスの検知に備えている  

Page 17: Data Science Summit 2012 レポート

Big  Data  TransformaJon  –  Intuit  

Page 18: Data Science Summit 2012 レポート

Big  Data  TransformaJon  –  Intuit  

•  「Big  Data  for  The  Lible  Guy」:  Big  Dataの恩恵はスモールビジネスからコンシューマまで到達  –––  例:  Mint.com  – 個人は大きなコミュニティと比較したい  – スモールビジネスは競合と比較して支出はどうか、雇用を今増やすべきか、売上げを増やすべきか減らすべきかを知りたい  

•  データの力により、これまでにはない新たな質問と答えが生まれ、古いものを駆逐する  

Page 19: Data Science Summit 2012 レポート

Big  Data  TransformaJon  –  InfoMoJon  Sports  Technologies  

Page 20: Data Science Summit 2012 レポート

Big  Data  TransformaJon  –  InfoMoJon  Sports  Technologies  •  バスケットボールに仕込んだセンサーであらゆるボールの動きをトラック  – バウンド、インパクト、スピンレート、シュートの弧、さらには個々のプレーヤーの身体能力まで  

•  ユースリーグや大学で高いトレーニング効果  

Page 21: Data Science Summit 2012 レポート

Big  Data  TransformaJon  –  Decide.com  

Page 22: Data Science Summit 2012 レポート

Big  Data  TransformaJon  –  Decide.com  

•  価格比較サイト&アプリ  •  ソーシャルデータを基に、5000商品の販売業者が決して提供できないオンラインショッピングの買い時、待ち時を教えてくれる  – 買い時:  価格が底に近い  – 待ち時:  価格が下がりそう  or  新モデルが出そう  

•  理由の詳細や買うべき価格まで明らかにしてくれるため、消費者は行動をとりやすい  

Page 23: Data Science Summit 2012 レポート

AnalyJcs  Maturity:  Master  or  Novice?  

•  講演者  – Michael  Chui  マッキンゼー・グローバル・インスティテュートシニアフェロー。「Big  data:  The  next  fronJer  for  innovaJon,  compeJJon  and  producJvity」レポート共同著者

•  次世代の労働者が高い競争力を身につけるために、教育機関は統計分析をより重視する必要がある  

Page 24: Data Science Summit 2012 レポート

AnalyJcs  Maturity:  Master  or  Novice?  

Page 25: Data Science Summit 2012 レポート

AnalyJcs  Maturity:  Master  or  Novice?  

•  「2010  NaJonal  Academies  study」によると、ScienceおよびEngineeringの卒業生の比率は29の富裕国の中でアメリカは27位  

•  計算法ではなく、統計を教えるべき。ビジネスで微分積分なんか使うか?条件付き確率、選択バイアス、その他データサイエンスがもっと必要  

•  このような技術的な課題を解決することは組織をまたがって人々の考え方を変えて行く  

Page 26: Data Science Summit 2012 レポート

AnalyJcs  Maturity:  Master  or  Novice?  

•  MGIレポート「Big  data:  The  next  fronJer  for  innovaJon,  compeJJon  and  producJvity」  – アメリカの全産業における従業員数1,000人以上の企業では、少なくとも200TB以上のデータを抱える(2009年)  

•  必要なのはベストプラクティスではなく「ネクストプラクティス」  

•  ビジネスリーダー、教育者、一般市民はBig  Dataの価値と課題について意識すべし  

Page 27: Data Science Summit 2012 レポート

Keynote:  NavigaJng  the  Road  from  Business  Intelligence  to  Data  science:  Trials  and  Triumphs  

•  講演者  – Piyanka  Jain  Aryng創業者・社長・CEO。分析関連のビジネスカンファレンスでの講演多数。Aryngはビジネス分析のトレーニングを提供する企業。Google、eBay、Paypalなども顧客

•  BIの限界とは? データサイエンスの恩恵を受けるのに必要なものは? データサイエンスを取り入れることで現場はどう変わる??  

Page 28: Data Science Summit 2012 レポート

Keynote:  NavigaJng  the  Road  from  Business  Intelligence  to  Data  science:  Trials  and  Triumphs  

Page 29: Data Science Summit 2012 レポート

Keynote:  NavigaJng  the  Road  from  Business  Intelligence  to  Data  science:  Trials  and  Triumphs  

•  「How  do  you  navigate  from  B.I.  to  B.I」  – Business  Intelligenceからビジネスインパクトへ  – Data  SavvyからIntelligence  Heavyへ  

•  データサイエンティストだけではなく、すべての人がデータを基にした決断の方法について理解を深めるべき  – 世界は変化しており決断の根拠となるデータをもつことはnice-­‐to-­‐haveではなく必須要件  

Page 30: Data Science Summit 2012 レポート

Keynote:  NavigaJng  the  Road  from  Business  Intelligence  to  Data  science:  Trials  and  Triumphs  

Page 31: Data Science Summit 2012 レポート

Panel:  From  Raw  Data  to  Value  Data  

•  パネリスト  – Michael  Brown:  comScore  CTO  – Bob  Flores  –  Applicology設立者・社長・元CIA  CTO  

–  Jeremy  Howard:  Kaggle社長・Chief  ScienJst  

– Tony  Jebara  –  Sense  Networks共同設立者・コロンビア大准教授  

•  Big  Dataはゴミ、しかしその中に価値がある  

Page 32: Data Science Summit 2012 レポート

Panel:  From  Raw  Data  to  Value  Data  

Page 33: Data Science Summit 2012 レポート

Panel:  From  Raw  Data  to  Value  Data  

•  プライバシーの問題  –  Intuitではベストプラクティスのコンセンサスを組織間で共有  

– 匿名データに過度の信頼をおくことには注意–––ソーシャルメディアでは情報が関連づけられて個人の特定は可能  

•  データ品質の問題  – 異常値を除外することは不要、時として最も興味深いデータになり得る  

Page 34: Data Science Summit 2012 レポート

Panel:  From  Raw  Data  to  Value  Data  

•  “Data  exhaust”の問題  – Data  exhaust:  個人が日々インターネット上で行う様々なインタラクションに関するデータの集合  

– 現在でも議論の問題:  Data  exhaust特有のバイアスに注意  

– 相関と因果関係の区別は大変難しい  – 保険会社でData  exhaustから最適な保険料を探る実験を行ったが、結果的に過去のトランザクションデータを活用する方が有効だった  

Page 35: Data Science Summit 2012 レポート

Panel:  Tapping  Into  the  Pulse  of  the  Data  Science  Movement  •  パネリスト  

–  Joe  Hellerstein:  UCバークレー教授  –  Jure  Leskovec:  スタンフォード大助教授  – Hadley  Wickham:  ライス大助教授  – Chris  Wiggins:  コロンビア大助教授

•  Big  Dataに関する大学・研究機関での取り組み  

Page 36: Data Science Summit 2012 レポート

Panel:  Tapping  Into  the  Pulse  of  the  Data  Science  Movement  

Page 37: Data Science Summit 2012 レポート

Panel:  Tapping  Into  the  Pulse  of  the  Data  Science  Movement  •  UCバークレーとスタンフォードの研究コミュニティでは1999年よりインターネット・SNSの活動をグラフベースで観察し続けている  

•  ユーザーエクスペリエンスが次の2年のチャレンジ。いかに人々の生産性を高めるかが鍵  

•  偉大なData  ScienJstは結果だけではなくストーリーで語れる。アカデミー界でも同じ。プロパガンダじゃダメだけど。コミュニケーションが重要  

Page 38: Data Science Summit 2012 レポート

Keynote:  Data  VisualizaJon  at  the  Point  of  Influence  •  講演者  

– Adam  Bly  Seed創業者・CEO。科学的なアプローチで技術コンサルテーションを提供  

•  データから得られた知見をいかにパワフルなストーリーに変換するか?知見を明らかにするだけでなくいかに理解を刺激するか?  

Page 39: Data Science Summit 2012 レポート

Keynote:  Data  VisualizaJon  at  the  Point  of  Influence  

Page 40: Data Science Summit 2012 レポート

Keynote:  Data  VisualizaJon  at  the  Point  of  Influence  •  地球上の70億人が科学的教養を身につけるにはどうすればよいか?  世界中の複雑な出来事をどうやって科学的、経験的、理性的に考えることができるか?  →工芸、認知プロセス、デザインツールが重要  

•  ビジュアライゼーションの手法は新しくなくとも「新しいDataは新しいInsightをもたらす」  

Page 41: Data Science Summit 2012 レポート

Keynote:  Data  VisualizaJon  at  the  Point  of  Influence  

Page 42: Data Science Summit 2012 レポート

Closing  Keynote:  The  Promise  and  Peril  in  the  Human/  Technology  RelaJonship  

•  講演者  –  Jonathan  Harris  プログラマー・アーティスト・ストーリーテラー。世界経済フォーラム2009  Young  Global  Leaders。作品はNY  MOMA常設展示。TEDカンファレンススピーカー

•  人間と技術のより良い関係、データサイエンスが持つ力で社会を形作るとき、ビジネスだけではなく人々に対してもよい活用を  

Page 43: Data Science Summit 2012 レポート

Closing  Keynote:  The  Promise  and  Peril  in  the  Human/  Technology  RelaJonship  

Page 44: Data Science Summit 2012 レポート

Closing  Keynote:  The  Promise  and  Peril  in  the  Human/  Technology  RelaJonship  

•  データがユビキタスになり予測分析やビジュアライゼーションは新しい知見やビジネス機械をもたらすが、課題として残るのはそのストリーをいかに人々に伝えるか  

•  人間個々の経験とデータの認知を尊重し、研究者者は様々なツールや手法を活用することが重要  

Page 45: Data Science Summit 2012 レポート

Closing  Keynote:  The  Promise  and  Peril  in  the  Human/  Technology  RelaJonship  

Page 46: Data Science Summit 2012 レポート

まとめ  

•  さすがにアメリカ、この分野での投資は回り始めている感はあります  

•  分析プロセスやビジネス活用は、企業文化や組織論に行きつくかと。底上げ大事  

•  ビデオはこちらで見られます  – hbp://www.greenplum.com/datasciencesummit/