data science summit 2012 レポート
DESCRIPTION
Hadoop ソースコードリーディング第10回での発表資料です。2012年5月23日にラスベガスで開催された Data Science Summit 2012 の講演内容をレポートにまとめました。TRANSCRIPT
Data Science Summit 2012 レポート
草薙 昭彦 (@nagix) EMC Greenplum
自己紹介
• 草薙 昭彦 (@nagix) • EMC Greenplum テクニカル・コンサルタント
ココ
Data Science Summit 2012 とは
• 2012年5月23日開催(EMC World 2012併設) • 今年2回目 • アカデミア、ソーシャルエンタープライズ、スタートアップ、公共セクタなど各界のリーダーがネタを持ち寄り「Data Drivenな世界」への道筋を示す集い
• キーノート、事例紹介、パネルを含む計9つのセッション
Opening Keynote: What We Can Predict About PredicJon • 講演者
– Nate Silver 統計専門家・NY Timesの政治ブログ「FiveThirtyEight.com」設立者・ライター。2008年米大統領選の予測で有名。2009年Time誌「世界で最も影響力のある100人」
• 現実のデータに予測モデルを適用する際の難しさとその影響について警告
• いくつかの分析事例
Opening Keynote: What We Can Predict About PredicJon
Opening Keynote: What We Can Predict About PredicJon
Opening Keynote: What We Can Predict About PredicJon
Opening Keynote: What We Can Predict About PredicJon • 研究者は不確実性やリスクを包含した、現実的な予測モデルを開発すべき – 例: 最近のノースダコタ州North Forksの洪水では気象予測は51フィートの堤防高に対し49フィートの水位上昇を予測したが、9フィートの誤差を考慮しなかった
– 例: Deep BlueとGary Kasparovのチェス対戦では、KasparovはDeep Blueのバグを作戦と勘違いし、最後まで「ノイズ」を取り除けなかった
Roundtable: Economic, PoliJcal, & Societal Roles of Social Data • パネリスト – Jeffrey Davitz: Solariat設立者・CEO – Dan Neely: Networked Insights設立者,・CEO – Andreas Weigend: スタンフォード大Social Data Lab・元Amazon.com Chief ScienJst
– Nathan Wolfe: Global Viral ForecasJng設立者・CEO・スタンフォード大客員教授
• ソーシャルデータからどのように価値を見つけ出すことができるか?新しいルールとは?
Roundtable: Economic, PoliJcal, & Societal Roles of Social Data
Roundtable: Economic, PoliJcal, & Societal Roles of Social Data • ユーザーの「query-‐like intent」を自然言語解析と機械学習で捉える
• Solariatは出版業界と協業し、twiberユーザーの興味と一致するコンテンツを配信するサービスを提供 – クリックスルー率は20%超、スパム扱いもされない
• コンテンツからコンテキストへ、コンバージョンからカンバセーションへ。カンバセーションがマーケットを形成する
Big Data TransformaJon
• 講演者 – John Brownstein: HealthMap共同設立者・Harvard Medical School准教授
– Nora Denzel: Intuit Big DataマーケティングソーシャルSVP
– Oren Etzioni: ワシントン大教授・Decide.com共同設立者
– Tarek Kamil: InfoMoJon Sports Technologiesエグゼクティブディレクター
– Nate Silver: 統計専門家・FiveThirtyEight.comライター
Big Data TransformaJon – HealthMap
Big Data TransformaJon – HealthMap
• ソーシャルネットワークはモノを売るマーケットだけではなく、学習・トレンドの収集・世界を支援する場でもある
• 1996年ではウイルスのアウトブレイクを検知するのに160日かかったがいまでは20日へ
• HealthMapは世界5万都市からの情報を一日2000回データベースの更新を行い、潜在的なウイルスの検知に備えている
Big Data TransformaJon – Intuit
Big Data TransformaJon – Intuit
• 「Big Data for The Lible Guy」: Big Dataの恩恵はスモールビジネスからコンシューマまで到達 ––– 例: Mint.com – 個人は大きなコミュニティと比較したい – スモールビジネスは競合と比較して支出はどうか、雇用を今増やすべきか、売上げを増やすべきか減らすべきかを知りたい
• データの力により、これまでにはない新たな質問と答えが生まれ、古いものを駆逐する
Big Data TransformaJon – InfoMoJon Sports Technologies
Big Data TransformaJon – InfoMoJon Sports Technologies • バスケットボールに仕込んだセンサーであらゆるボールの動きをトラック – バウンド、インパクト、スピンレート、シュートの弧、さらには個々のプレーヤーの身体能力まで
• ユースリーグや大学で高いトレーニング効果
Big Data TransformaJon – Decide.com
Big Data TransformaJon – Decide.com
• 価格比較サイト&アプリ • ソーシャルデータを基に、5000商品の販売業者が決して提供できないオンラインショッピングの買い時、待ち時を教えてくれる – 買い時: 価格が底に近い – 待ち時: 価格が下がりそう or 新モデルが出そう
• 理由の詳細や買うべき価格まで明らかにしてくれるため、消費者は行動をとりやすい
AnalyJcs Maturity: Master or Novice?
• 講演者 – Michael Chui マッキンゼー・グローバル・インスティテュートシニアフェロー。「Big data: The next fronJer for innovaJon, compeJJon and producJvity」レポート共同著者
• 次世代の労働者が高い競争力を身につけるために、教育機関は統計分析をより重視する必要がある
AnalyJcs Maturity: Master or Novice?
AnalyJcs Maturity: Master or Novice?
• 「2010 NaJonal Academies study」によると、ScienceおよびEngineeringの卒業生の比率は29の富裕国の中でアメリカは27位
• 計算法ではなく、統計を教えるべき。ビジネスで微分積分なんか使うか?条件付き確率、選択バイアス、その他データサイエンスがもっと必要
• このような技術的な課題を解決することは組織をまたがって人々の考え方を変えて行く
AnalyJcs Maturity: Master or Novice?
• MGIレポート「Big data: The next fronJer for innovaJon, compeJJon and producJvity」 – アメリカの全産業における従業員数1,000人以上の企業では、少なくとも200TB以上のデータを抱える(2009年)
• 必要なのはベストプラクティスではなく「ネクストプラクティス」
• ビジネスリーダー、教育者、一般市民はBig Dataの価値と課題について意識すべし
Keynote: NavigaJng the Road from Business Intelligence to Data science: Trials and Triumphs
• 講演者 – Piyanka Jain Aryng創業者・社長・CEO。分析関連のビジネスカンファレンスでの講演多数。Aryngはビジネス分析のトレーニングを提供する企業。Google、eBay、Paypalなども顧客
• BIの限界とは? データサイエンスの恩恵を受けるのに必要なものは? データサイエンスを取り入れることで現場はどう変わる??
Keynote: NavigaJng the Road from Business Intelligence to Data science: Trials and Triumphs
Keynote: NavigaJng the Road from Business Intelligence to Data science: Trials and Triumphs
• 「How do you navigate from B.I. to B.I」 – Business Intelligenceからビジネスインパクトへ – Data SavvyからIntelligence Heavyへ
• データサイエンティストだけではなく、すべての人がデータを基にした決断の方法について理解を深めるべき – 世界は変化しており決断の根拠となるデータをもつことはnice-‐to-‐haveではなく必須要件
Keynote: NavigaJng the Road from Business Intelligence to Data science: Trials and Triumphs
Panel: From Raw Data to Value Data
• パネリスト – Michael Brown: comScore CTO – Bob Flores – Applicology設立者・社長・元CIA CTO
– Jeremy Howard: Kaggle社長・Chief ScienJst
– Tony Jebara – Sense Networks共同設立者・コロンビア大准教授
• Big Dataはゴミ、しかしその中に価値がある
Panel: From Raw Data to Value Data
Panel: From Raw Data to Value Data
• プライバシーの問題 – Intuitではベストプラクティスのコンセンサスを組織間で共有
– 匿名データに過度の信頼をおくことには注意–––ソーシャルメディアでは情報が関連づけられて個人の特定は可能
• データ品質の問題 – 異常値を除外することは不要、時として最も興味深いデータになり得る
Panel: From Raw Data to Value Data
• “Data exhaust”の問題 – Data exhaust: 個人が日々インターネット上で行う様々なインタラクションに関するデータの集合
– 現在でも議論の問題: Data exhaust特有のバイアスに注意
– 相関と因果関係の区別は大変難しい – 保険会社でData exhaustから最適な保険料を探る実験を行ったが、結果的に過去のトランザクションデータを活用する方が有効だった
Panel: Tapping Into the Pulse of the Data Science Movement • パネリスト
– Joe Hellerstein: UCバークレー教授 – Jure Leskovec: スタンフォード大助教授 – Hadley Wickham: ライス大助教授 – Chris Wiggins: コロンビア大助教授
• Big Dataに関する大学・研究機関での取り組み
Panel: Tapping Into the Pulse of the Data Science Movement
Panel: Tapping Into the Pulse of the Data Science Movement • UCバークレーとスタンフォードの研究コミュニティでは1999年よりインターネット・SNSの活動をグラフベースで観察し続けている
• ユーザーエクスペリエンスが次の2年のチャレンジ。いかに人々の生産性を高めるかが鍵
• 偉大なData ScienJstは結果だけではなくストーリーで語れる。アカデミー界でも同じ。プロパガンダじゃダメだけど。コミュニケーションが重要
Keynote: Data VisualizaJon at the Point of Influence • 講演者
– Adam Bly Seed創業者・CEO。科学的なアプローチで技術コンサルテーションを提供
• データから得られた知見をいかにパワフルなストーリーに変換するか?知見を明らかにするだけでなくいかに理解を刺激するか?
Keynote: Data VisualizaJon at the Point of Influence
Keynote: Data VisualizaJon at the Point of Influence • 地球上の70億人が科学的教養を身につけるにはどうすればよいか? 世界中の複雑な出来事をどうやって科学的、経験的、理性的に考えることができるか? →工芸、認知プロセス、デザインツールが重要
• ビジュアライゼーションの手法は新しくなくとも「新しいDataは新しいInsightをもたらす」
Keynote: Data VisualizaJon at the Point of Influence
Closing Keynote: The Promise and Peril in the Human/ Technology RelaJonship
• 講演者 – Jonathan Harris プログラマー・アーティスト・ストーリーテラー。世界経済フォーラム2009 Young Global Leaders。作品はNY MOMA常設展示。TEDカンファレンススピーカー
• 人間と技術のより良い関係、データサイエンスが持つ力で社会を形作るとき、ビジネスだけではなく人々に対してもよい活用を
Closing Keynote: The Promise and Peril in the Human/ Technology RelaJonship
Closing Keynote: The Promise and Peril in the Human/ Technology RelaJonship
• データがユビキタスになり予測分析やビジュアライゼーションは新しい知見やビジネス機械をもたらすが、課題として残るのはそのストリーをいかに人々に伝えるか
• 人間個々の経験とデータの認知を尊重し、研究者者は様々なツールや手法を活用することが重要
Closing Keynote: The Promise and Peril in the Human/ Technology RelaJonship
まとめ
• さすがにアメリカ、この分野での投資は回り始めている感はあります
• 分析プロセスやビジネス活用は、企業文化や組織論に行きつくかと。底上げ大事
• ビデオはこちらで見られます – hbp://www.greenplum.com/datasciencesummit/