open cloud innovation2016...
TRANSCRIPT
これからのデータ分析者とデータエンジニアに必要なData Science Experienceというツール~あらゆるデータを活用するために~日本アイ・ビー・エム株式会社アナリティクス事業本部アナリティクス・クライアント・アーキテクトテクニカルリード土屋 敦
Open Cloud Innovation 2016
本日の内容 ~45分~
▪ はじめに▪ ラムダ・アーキテクチャー▪ ストリーム処理
▪ データ・サイエンス・エクスペリエンスとは?▪ まとめ
$whoami> 土屋 敦 [email protected]> 日本アイ・ビー・エム株式会社 アナリティクス事業本部> アナリティクス・クライアント・アーキテクト
> ストリーム・コンピューティング、分散並列処理 テクニカル・スペシャリスト
> 法政大学大学院 情報科学研究科 兼任教員
|
2015年~、Open for Dataを中心としたアーキテクト、先端テクノロジーのエバンジェリスト活動
2009年~、ストリーム処理(InfoSphere Streams) / 2010年~、Hadoop / 2014年~、Spark
2011年~、エンタープライズシステムにおける先端データベース技術
自動車元年だったでしょうか?
Cabriolet(カブリオレ) Wagon(ワゴン) Coupe(クーペ)
自動車はすぐ壊れるし、ガソリンがなくなったら走らない・・・
Flint Buick, 1904
アーキテクチャの変革
出典(IBM Institute for Business Value):Device democracy- Saving the future of the Internet of Thingshttp://www-01.ibm.com/common/ssi/cgi-bin/ssialias?subtype=XB&infotype=PM&appname=GBSE_GB_TI_USEN&htmlfid=GBE03620USEN&attachment=GBE03620USEN.PDF#loaded
モノとモノモノとヒト
モノとサービス
• 安全に、効率よく、スケーラブルなシステム実現するには、従来アーキテクチャーから徐々な変革を求められます。
データを活用することが目的• データを収集することが目的ではなく、データ処理・分析を行い、サービスへ有効活用することが目的。
収集は手段
目的はアクション
モノとモノモノとヒト
モノとサービス
例えば、データ分析から価値を得るには• 世界中のモノとモノ、モノとヒト、モノとサービスの様々な情報の交換が始まり、ノイズ除去、不足情報の付与、そしてデータ活用のための分析を実施して、誰よりも早くアクションをすることが重要になります。
収集 処理・分析 アクション
Collect the Data
Analyze the Data
Act on the Data
【サイクリック(循環)することが重要】
モノとモノモノとヒト
モノとサービス
本日の内容
▪ はじめに▪ ラムダ・アーキテクチャー▪ ストリーム処理
▪ データ・サイエンス・エクスペリエンスとは?▪ まとめ
ラムダ・アーキテクチャ• ラムダ・アーキテクチャは、過去のデータとリアルタイムなデータを区別することなく、集計・分析することができる。
• 処理性能• 処理タイミング• 処理コスト
(CPU、メモリ、HDDコスト)• 処理性能の拡張性• システムの複雑性の最適化
バッチ層 提供層
スピード層
参考文献/情報:http://lambda-architecture.net/http://www.intellilink.co.jp/article/column/bigdata-kk03.html
3つのレイヤー(層)で考える
バッチ層
提供層
スピード層
• バッチ処理、ミニ(マイクロ)バッチ処理、そしてストリーム処理の関係~境界線は曖昧~ 単にスピード重視なら、ストリーム処理の選択も。
ラムダ・アーキテクチャから見たテクノロジー俯瞰
バッチ処理Batch
Processing
ストリーム処理Stream
Processing
マイ
クロ
・バッチ
Mic
ro
Batc
h
Data inData at
• 1つのDB/DWH(One-Fits-All)ではなく,組み合わせによって、様々なデータ処理要求に対応し、より柔軟な基盤の提供を可能とする。
分析・処理要求に柔軟に対応できる構成にする
バッチ処理Batch
Processing
ストリーム処理Stream
Processing
マイ
クロ
・バッチ
Mic
ro
Batc
h
Data inData at
データ処理特性の考え方• それぞれの層で異なる要求に応えるべく、各レイヤーに分けて実装するという考え方→将来の新たな要求にも応えやすくなる。
バッチ(低) マイクロバッチ ストリーム(高)
処理モデル MapReduce マイクロバッチ ストリーム
実行時間 分~時間 秒~分 μ秒・㍉秒~秒
実行単位 蓄積データ 蓄積データ区切りデータ
流れるデータ区切りデータ
実行契機 定期的、指定時実行
アドホック、定期的実行
継続的実行
ストリームレイヤー
インタラクティブレイヤー
バッチレイヤー
リアルタイムにデータ分析をする• Sparkとストリーム処理の組み合わせ
DB DB
DB
マスタDB 履歴
DB Apache Spark
MLlib
HDFS
ヒストリカル・データModel2 :
どのアクションを実行すべきか?
Model1 :これは同じ方向に進んでい
るのか?
リアルタイムインプットデータ
リアルタイム予測分析&
コンテキスト解析
リアルタイム・ダッシュボード
①データを蓄積
②モデル作成
③スコアリング
バッチ層
提供層スピード層
TWC :The Weather Company
TWCでの処理量の例300億回APIコール/日1.2億のアクティブ・モバイル・ユーザ米国第三位のアプリ360ペタバイトのトラヒック量/日
TWCは、ラムダアーキテクチャによる大規模データ処理を活用
ETL バッチ層
提供層
スピード層
パーソナル・ウェザー・ステーション(観測機器)におけるアーキテクチャ
パーソナル・ウェザーステーション
IBM Streams
1億5千万人を超えるユーザ
1)データ受信(Ingestion)2)データ・クレンジング(Cleansing)3)5分間隔の集約(Aggregation)4)1日間隔の集約(Aggregation)5)1週間の集約(Aggregation)6)データレイクへの並列書込み!
バッチ層
提供層
スピード層
本日の内容
▪ はじめに▪ ラムダ・アーキテクチャー▪ ストリーム処理
▪ データ・サイエンス・エクスペリエンスとは?▪ まとめ
情報ソース(取込み)
アクションまでに所要する時間
WAREHOUSE
レポートアドホック・クエリ
データマート
ビジネスプロセッシング & イベント管理
オペレーショナルレポート
ダッシュボード 計画 スコアリング・カード
分析モデル & 情報
データ・インテグレーションオペレーショナル・データ・ストア(ODS)
意思決定アクション
今までの情報処理における時間軸の考え方
- アクションまでの実行時間短縮-より速く予測する-より早くルール実行するなどアクションまでの時間
情報ソース(取込み)
WAREHOUSE
レポート動的なクエリ
データ・インテグレーションオペレーショナル・データ・ストア(ODS)
データマート
ビジネスプロセッシング & イベン
ト管理
オペレーショナルレポート
ダッシュボード 計画 スコアリング
分析モデル & 情報
分析モデル& リアルタイムな情報
様々なデータ
(構造化/非構造化)
意思決定アクション
ストリーム処理の時間軸
ストリーム・コンピューティング~Current Fact Finding~【今の出来事の把握】
Nowcast
一般的なデータストア~Historical Fact Finding~
【過去の出来事の発見】
■目的静的な過去のデータをバッチ的に分析し、過去の事実を発見する
■目的
流入するデータをリアルタイム分析し、直近の事実を発見する
(クエリ駆動型)(データ駆動型)
(データ・イベント駆動型)
ストリーム・コンピューティングとは
• 全データに対する一括処理を目的とせず、断続的に流れるデータをインメモリで加工処理しデータ出力をする一連の流れを、最も簡単にモデル化したデータ処理モデルを「ストリーム・コンピューティング」と呼ぶ。
従来のデータ処理との違い ~データを”永久”に保持しない~
記録データ
定期的・一括処理
〔結果〕
記録データ
〔要求〕 〔結果〕
処理
バッチ処理 クエリ処理 ストリーム・コンピューティング
更新・トランザクション
従来のデータ処理
※任意の時間・区間データをインメモリ上に保持する
※全てのデータはHDDに永続化されていることが前提。
PULL型 PUSH型インメモリ
データ処理
長い 応答時間 短い
〔データ〕 〔データ〕
〔結果〕
+
• 流れるデータを、キャプチャし、処理し、アクションへつなげる
ロジック
STREAM(経路)※データの通り道
TUPLE(タプル)※流れるデータ
SOURCE(キャプチャ)
SINK(アクション&シンク)Operator
(ロジック実行)
検知・アラートルール実行
リアルタイム分析・可視化
アクション・制御
解析実行R/SPSS
Operator(ロジック)※処理ロジック
ストリーム・コンピューティングの概念
Honda R&D Co. Ltd.エンジン故障のリスクをリアルタイムに分析し、新たなレース分析基盤の構築を支援
お客様の課題、要望
ハイブリッド・エンジンによるパワー・ユニット設計の向上とエンジン故障を回避するためのリアルタイム・モニタリングの実現
サービス概要
F1に搭載した数百以上におよぶ複数のセンサーからを、リアルタイムにモニタリング(可視化)し、エンジン異常をモニタリング。収集したデータは、エンジン設計などへ反映するためにディープな分析に活用各種センサー・データ(燃費、エンジンからのデータ)の集約、集計、分析、提供
活用例、期待効果
F1ハイブリッド・エンジンの故障予測開発時間の99%削減短縮と、10倍のR&Dにおけるエンジン設計と戦略の効率化分析に関連するコスト削減(USD 1M)
ハイブリッド・エンジンのデータを分析→エンジン設計(燃費効率化)へ反映、レース中の故障監視
IBMStreams
リアルタム解析
https://www-03.ibm.com/press/jp/ja/pressrelease/49190.wss#resource
IBMCognos
参考画像
IoT for Automotiveセンサーデータをリアルタイムに取得
~リアルタイムデータの観察~
生命を脅かす状況や、急変の兆候を看護スタッフや専門医が判断する最大24時間早く検知する。
• 平均20名以上の異なるソースから、毎秒約1,000以上におよぶ測定値を監視
• 実証開始時は、2名からスタート、臨床実験での最大監視数は120名、120万測定値/秒、これは約10億レコード/日
• 現在は、クラウドでの展開も実施
専門医が経験則を生かし、データからパターンを見つけるストアに蓄積した膨大な量のデータに対して解析を行い、分析モデルを抽出。そのパターン分析モデルをストリームに環流させることによって、リアルタイム分析、および、長期的なデータ蓄積からの分析モデルの抽出のPDCAサイクルを実装
オンタリオ工科大学
アラート警告
様々な領域でリアルタイム処理が活用されています
メッセージ・ハブ IoT IoT
リアルタイムデータ加工
リアルタイムトラッキング
リアルタイムデータ集計
IoT Analytics
リアルタイムデータ解析
本日の内容
▪ はじめに▪ ラムダ・アーキテクチャー▪ ストリーム処理▪ データ・サイエンス・エクスペリエンスとは?▪ まとめ
データサイエンスにおける2つの課題:
①スキル ②ツール
データサイエンティスト育成へのコミット
• 全世界でユーザが43万人を超えるコミュニティー(sponsored by IBM)• データ・データサイエンスに関するコース• @yourpace, @yourplace• 完了証明書(完了バッジ取得)• 60+ コース• 5-5-5 rule
各コースに• レッスンが5つ• ビデオレクチャーが5つ• 各レクチャーが5分間• ハンズオン
BigDataUniversity.com
データサイエンティスト育成へのコミット - MOOC
データサイエンティスト育成へのコミット - Meetupmeetup.com/BDU-Tokyo
データサイエンスにおける2つの課題:
①スキル ②ツール
データサイエンティスト育成へのコミット
Data Scientist Workbench
46
Jupyterノートブック
Apache Zeppllin IDE Rstudio/Shiny
DSWBはSparkも利用可能• コマンドライン• インターフェイス
• Jupyter• Apache Zeppelin
Standalone
Cluster
Zeppelin
Two Problems in Data Science:
スキル ツール
データサイエンティスト育成へのコミット
商用・組織横断的に使うには・・・
© 2016 IBM Corporation49
IBM DATA SCIENCE EXPERIENCEA L L Y O U R T O O L S I N O N E P L A C E
Data Science Experience (DSX)は、データサイエンティスト・データエンジニアが必要とするデータ分析環境を1つにして提供をします。
50 http://bit.ly/IntroDSXjpn
© 2016 IBM Corporation51
ビルドインされた、簡単なコースから、アドバンスなチュー
トリアルまで
学ぶ
オープンソールや付加価値機能を統合したデータ分
析ツール
作る
コラボレーションのためのコミュニティーとソーシャル機能
共創
IBM DATA SCIENCE EXPERIENCEA L L Y O U R T O O L S I N O N E P L A C E
ビジネスアナリスト
アプリ開発者
データサイエンティスト
データエンジニアUnderstand problem
and domain
Ingest data
Transform: clean
Transform:shape
Create and build model
Evaluate
Deliver and deploy model
Architects how data is organized and ensures operability
Gets deep into the data to draw hidden insights for the business
Works with data to apply insights to the business strategy
Plugs into data and models and writes code to build applications
FOSTERING COLLABORATION TO DRIVE BETTER DECISIONS
アウトプット
分析
インプット
Communicate results
Explore and understand
data
データエンジニア
ビジネスアナリスト
データサイエンティストComposable
Services
Advanced Analytics
DataRecognition
Data Store Awareness
Community Experiences
Fluid Data Layer
Social
IoT
DBaaS DB/DW
Public
An IBM Business
DELIVERING ON A NEXT GENERATION TECHNOLOGY FOR DATA AND ANALYTICS
アプリ開発者
Analytics
Hybrid
• Watson Analytics• Cognos Analytics• SPSS Modeler
• Data Science Experience• SPSS• DataWorks
• DataWorks• dashDB / DB2• Spark / IDE
• Cloudant• Compose• Graph
in the cloudon premises
Data Lake
収集 カタログ/ガバナンス ビルド デプロイ 提供
データサイエンティストビジネスアナリスト データエンジニア アプリ開発者
データソース
THE IT DATA STACK GIVES WAY TO A FLUID DATA LAYER
Data Science EXperience
Notebooks
Data
RStudio
Projects
Shaping
Community
Scheduling
CORE CAPABILITIES OF THEIBM DATA SCIENCE EXPERIENCE
データサイエンティストビジネスアナリスト
データエンジニア アプリ開発者
© 2016 IBM Corporation56
Shaping(シェーピング⇒データ加工):•Sparkling.Data APIs: Jupyterノートブック(Python/Scala)•チュートリアル(Python and Scala)RStudio (Shiny):•Rstudio(オープンソースサーバ):16GB RAM/5GB領域•Shiny: 分析WEBアプリの作成•SparkR: Sparkサービスとの連携(Spark as a Service)
プロジェクト:•共創(コラボ): プロジェクトへのユーザ追加•ノートブックの共有/コネクション/ファイル管理スケジューリング:•CRON•スケジューリングUI: スケジュールされたノートブック一覧、 前回/次回実行予定、ステータス(初期版は機能制限あり)
コミュニティー:• Analytics Exchange: コミュニティーによるオープン・データとノートブック共有• ソーシャルメディアによる共有機能• ノートブックとデータのプリビュー機能• ブログ(DSXブログ含む)• チュートリアル (e.g., Big Data University)
ノートブック:Jupyterノートブック言語: Scala/Python/Rライブラリ: Open Source and IBM (Brunel/Prescriptive)Import from File (*.ipynb)/URL/TemplatesURLによる共有
IBM DATA SCIENCE EXPERIENCEA L L Y O U R T O O L S I N O N E P L A C E
© 2016 IBM Corporation57
コミュニティー オープンソース 付加価値機能- チュートリアル、データセットの探索- データサイエンティストとの共創- 質問をする – Ask Question- 情報を収集する(記事、論文、技術情報)- プロジェクトのフォークと共有
- Scala/Python/R/SQL- Jupyter / Zeppelin* Notebooks- RStudio IDE / Shinyアプリケーション- Apache Spark - その他のライブラリ
- データシェーピング/パイプラインUI *- 自動データ準備(Auto-data prep)*- 自動モデリング(Auto-modeling)*- 高度なビジュアライゼーション*- Model管理とデプロイメント*- Well documented Model APIs*
IBM DATA SCIENCE EXPERIENCEA L L Y O U R T O O L S I N O N E P L A C E
© 2016 IBM Corporation58
datascience.ibm.comオープンβのリストを受け付けています
ご清聴ありがとうございました。
次回は、Meetupでお会いしましょう!
meetup.com/BDU-Tokyo
2016/10/18開催予定TOKYO Big Data University Meetupデータサイエンティスト実践セミナー
DSWB – Data Scientist Workbench• R, Python, Scala, Sparkを無償で利用できる開発・分析環境
datascientistworkbench.com
DSX – Data Science Experience• DSWBがトライアル・勉強目的に対して、DSXは商用環境での利用を想定
datascience.ibm.com
ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含まれている内容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。
本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。
IBM、IBM ロゴ、ibm.comは、 世界の多くの国で登録されたInternational Business Machines Corporationの商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。
Adobe, Adobeロゴ, PostScript, PostScriptロゴは、Adobe Systems Incorporatedの米国およびその他の国における登録商標または商標です。
IT Infrastructure LibraryはAXELOS Limitedの登録商標です。
インテル, Intel, Intelロゴ, Intel Inside, Intel Insideロゴ, Centrino, Intel Centrinoロゴ, Celeron, Xeon, Intel SpeedStep, Itanium, およびPentium は Intel Corporationまたは子会社の米国およびその他の国における商標または登録商標です。
Linuxは、Linus Torvaldsの米国およびその他の国における登録商標です。PowerLinux is a trademark of International Business Machines Corp. The registered trademark Linux is used pursuant to a sublicense from LMI, the exclusive licensee of Linus Torvalds, owner of the mark on a world-wide basis.
Microsoft, Windows, Windows NT および Windowsロゴは Microsoft Corporationの米国およびその他の国における商標です。
ITILはAXELOS Limitedの登録商標です。
UNIXはThe Open Groupの米国およびその他の国における登録商標です。
Cell Broadband Engineは、Sony Computer Entertainment, Inc.の米国およびその他の国における商標であり、同社の許諾を受けて使用しています。
JavaおよびすべてのJava関連の商標およびロゴは Oracleやその関連会社の米国およびその他の国における商標または登録商標です。
Linear Tape-Open, LTO, LTOロゴ, UltriumおよびUltriumロゴは、HP, IBM Corp.およびQuantumの米国およびその他の国における商標です。