open cloud innovation2016...

これからのデータ分析者とデータエンジニアに必要なData Science Experienceというツール~あらゆるデータを活用するために~日本アイ・ビー・エム株式会社アナリティクス事業本部アナリティクス・クライアント・アーキテクトテクニカルリード土屋敦

Open Cloud Innovation 2016

本日の内容 ~45分~

▪ はじめに▪ ラムダ・アーキテクチャー▪ ストリーム処理

▪ データ・サイエンス・エクスペリエンスとは？▪ まとめ

$whoami> 土屋敦 [email protected]> 日本アイ・ビー・エム株式会社アナリティクス事業本部> アナリティクス・クライアント・アーキテクト

> ストリーム・コンピューティング、分散並列処理テクニカル・スペシャリスト

> 法政大学大学院情報科学研究科兼任教員

|

2015年~、Open for Dataを中心としたアーキテクト、先端テクノロジーのエバンジェリスト活動

2009年~、ストリーム処理(InfoSphere Streams) / 2010年~、Hadoop / 2014年~、Spark

2011年~、エンタープライズシステムにおける先端データベース技術

自動車元年だったでしょうか？

Cabriolet（カブリオレ） Wagon（ワゴン） Coupe（クーペ）

自動車はすぐ壊れるし、ガソリンがなくなったら走らない・・・

Flint Buick, 1904

アーキテクチャの変革

出典（IBM Institute for Business Value）：Device democracy- Saving the future of the Internet of Thingshttp://www-01.ibm.com/common/ssi/cgi-bin/ssialias?subtype=XB&infotype=PM&appname=GBSE_GB_TI_USEN&htmlfid=GBE03620USEN&attachment=GBE03620USEN.PDF#loaded

モノとモノモノとヒト

モノとサービス

• 安全に、効率よく、スケーラブルなシステム実現するには、従来アーキテクチャーから徐々な変革を求められます。

データを活用することが目的• データを収集することが目的ではなく、データ処理・分析を行い、サービスへ有効活用することが目的。

収集は手段

目的はアクション



例えば、データ分析から価値を得るには• 世界中のモノとモノ、モノとヒト、モノとサービスの様々な情報の交換が始まり、ノイズ除去、不足情報の付与、そしてデータ活用のための分析を実施して、誰よりも早くアクションをすることが重要になります。

収集処理・分析アクション

Collect the Data

Analyze the Data

Act on the Data

【サイクリック（循環）することが重要】



本日の内容



ラムダ・アーキテクチャ• ラムダ・アーキテクチャは、過去のデータとリアルタイムなデータを区別することなく、集計・分析することができる。

• 処理性能• 処理タイミング• 処理コスト

（CPU、メモリ、HDDコスト）• 処理性能の拡張性• システムの複雑性の最適化

バッチ層提供層

スピード層

参考文献/情報：http://lambda-architecture.net/http://www.intellilink.co.jp/article/column/bigdata-kk03.html

3つのレイヤー（層）で考える

バッチ層

提供層

スピード層

• バッチ処理、ミニ（マイクロ）バッチ処理、そしてストリーム処理の関係~境界線は曖昧~ 単にスピード重視なら、ストリーム処理の選択も。

ラムダ・アーキテクチャから見たテクノロジー俯瞰

バッチ処理Batch

Processing

ストリーム処理Stream

Processing

マイ

クロ

・バッチ

Mic

ro

Batc

h

Data inData at

• 1つのDB/DWH(One-Fits-All)ではなく,組み合わせによって、様々なデータ処理要求に対応し、より柔軟な基盤の提供を可能とする。

分析・処理要求に柔軟に対応できる構成にする

バッチ処理Batch

Processing

ストリーム処理Stream

Processing

マイ

クロ

・バッチ

Mic

ro

Batc

h

Data inData at

データ処理特性の考え方• それぞれの層で異なる要求に応えるべく、各レイヤーに分けて実装するという考え方→将来の新たな要求にも応えやすくなる。

バッチ(低）マイクロバッチストリーム（高）

処理モデル MapReduce マイクロバッチストリーム

実行時間分~時間秒~分 μ秒・㍉秒~秒

実行単位蓄積データ蓄積データ区切りデータ

流れるデータ区切りデータ

実行契機定期的、指定時実行

アドホック、定期的実行

継続的実行

ストリームレイヤー

インタラクティブレイヤー

バッチレイヤー

リアルタイムにデータ分析をする• Sparkとストリーム処理の組み合わせ

DB DB

DB

マスタDB 履歴

DB Apache Spark

MLlib

HDFS

ヒストリカル・データModel2 :

どのアクションを実行すべきか？

Model1 :これは同じ方向に進んでい

るのか？

リアルタイムインプットデータ

リアルタイム予測分析&

コンテキスト解析

リアルタイム・ダッシュボード

①データを蓄積

②モデル作成

③スコアリング

バッチ層

提供層スピード層

TWC :The Weather Company

TWCでの処理量の例300億回APIコール/日1.2億のアクティブ・モバイル・ユーザ米国第三位のアプリ360ペタバイトのトラヒック量/日

TWCは、ラムダアーキテクチャによる大規模データ処理を活用

ETL バッチ層

提供層

スピード層

パーソナル・ウェザー・ステーション（観測機器）におけるアーキテクチャ

パーソナル・ウェザーステーション

IBM Streams

1億5千万人を超えるユーザ

1)データ受信(Ingestion)2)データ・クレンジング(Cleansing)3)5分間隔の集約(Aggregation)4)1日間隔の集約(Aggregation)5)1週間の集約(Aggregation)6)データレイクへの並列書込み!

バッチ層

提供層

スピード層

本日の内容



情報ソース（取込み）

アクションまでに所要する時間

WAREHOUSE

レポートアドホック・クエリ

データマート

ビジネスプロセッシング & イベント管理

オペレーショナルレポート

ダッシュボード計画スコアリング・カード

分析モデル & 情報

データ・インテグレーションオペレーショナル・データ・ストア(ODS)

意思決定アクション

今までの情報処理における時間軸の考え方

- アクションまでの実行時間短縮-より速く予測する-より早くルール実行するなどアクションまでの時間

情報ソース（取込み）

WAREHOUSE

レポート動的なクエリ

データ・インテグレーションオペレーショナル・データ・ストア(ODS)

データマート

ビジネスプロセッシング & イベン

ト管理

オペレーショナルレポート

ダッシュボード計画スコアリング

分析モデル & 情報

分析モデル& リアルタイムな情報

様々なデータ

（構造化/非構造化）

意思決定アクション

ストリーム処理の時間軸

ストリーム・コンピューティング~Current Fact Finding~【今の出来事の把握】

Nowcast

一般的なデータストア~Historical Fact Finding~

【過去の出来事の発見】

■目的静的な過去のデータをバッチ的に分析し、過去の事実を発見する

■目的

流入するデータをリアルタイム分析し、直近の事実を発見する

(クエリ駆動型)(データ駆動型)

(データ・イベント駆動型)

ストリーム・コンピューティングとは

• 全データに対する一括処理を目的とせず、断続的に流れるデータをインメモリで加工処理しデータ出力をする一連の流れを、最も簡単にモデル化したデータ処理モデルを「ストリーム・コンピューティング」と呼ぶ。

従来のデータ処理との違い ~データを”永久”に保持しない~

記録データ

定期的・一括処理

〔結果〕

記録データ

〔要求〕〔結果〕

処理

バッチ処理クエリ処理ストリーム・コンピューティング

更新・トランザクション

従来のデータ処理

※任意の時間・区間データをインメモリ上に保持する

※全てのデータはHDDに永続化されていることが前提。

PULL型 PUSH型インメモリ

データ処理

長い応答時間短い

〔データ〕〔データ〕

〔結果〕

+

• 流れるデータを、キャプチャし、処理し、アクションへつなげる

ロジック

STREAM(経路)※データの通り道

TUPLE(タプル)※流れるデータ

SOURCE（キャプチャ）

SINK（アクション&シンク）Operator

（ロジック実行）

検知・アラートルール実行

リアルタイム分析・可視化

アクション・制御

解析実行R/SPSS

Operator(ロジック)※処理ロジック

ストリーム・コンピューティングの概念

Honda R&D Co. Ltd.エンジン故障のリスクをリアルタイムに分析し、新たなレース分析基盤の構築を支援

お客様の課題、要望

ハイブリッド・エンジンによるパワー・ユニット設計の向上とエンジン故障を回避するためのリアルタイム・モニタリングの実現

サービス概要

F1に搭載した数百以上におよぶ複数のセンサーからを、リアルタイムにモニタリング（可視化）し、エンジン異常をモニタリング。収集したデータは、エンジン設計などへ反映するためにディープな分析に活用各種センサー・データ（燃費、エンジンからのデータ）の集約、集計、分析、提供

活用例、期待効果

F1ハイブリッド・エンジンの故障予測開発時間の99%削減短縮と、10倍のR&Dにおけるエンジン設計と戦略の効率化分析に関連するコスト削減（USD 1M)

ハイブリッド・エンジンのデータを分析→エンジン設計（燃費効率化）へ反映、レース中の故障監視

IBMStreams

リアルタム解析

https://www-03.ibm.com/press/jp/ja/pressrelease/49190.wss#resource

IBMCognos

参考画像

IoT for Automotiveセンサーデータをリアルタイムに取得

～リアルタイムデータの観察～

生命を脅かす状況や、急変の兆候を看護スタッフや専門医が判断する最大24時間早く検知する。

• 平均20名以上の異なるソースから、毎秒約1,00０以上におよぶ測定値を監視

• 実証開始時は、2名からスタート、臨床実験での最大監視数は120名、120万測定値/秒、これは約10億レコード/日

• 現在は、クラウドでの展開も実施

専門医が経験則を生かし、データからパターンを見つけるストアに蓄積した膨大な量のデータに対して解析を行い、分析モデルを抽出。そのパターン分析モデルをストリームに環流させることによって、リアルタイム分析、および、長期的なデータ蓄積からの分析モデルの抽出のPDCAサイクルを実装

オンタリオ工科大学

アラート警告

様々な領域でリアルタイム処理が活用されています

メッセージ・ハブ IoT IoT

リアルタイムデータ加工

リアルタイムトラッキング

リアルタイムデータ集計

IoT Analytics

リアルタイムデータ解析

本日の内容

▪ はじめに▪ ラムダ・アーキテクチャー▪ ストリーム処理▪ データ・サイエンス・エクスペリエンスとは？▪ まとめ

データサイエンスにおける2つの課題:

①スキル ②ツール

データサイエンティスト育成へのコミット

• 全世界でユーザが43万人を超えるコミュニティー（sponsored by IBM）• データ・データサイエンスに関するコース• @yourpace, @yourplace• 完了証明書（完了バッジ取得）• 60+ コース• 5-5-5 rule

各コースに• レッスンが５つ• ビデオレクチャーが５つ• 各レクチャーが５分間• ハンズオン

BigDataUniversity.com

データサイエンティスト育成へのコミット - MOOC

データサイエンティスト育成へのコミット - Meetupmeetup.com/BDU-Tokyo

データサイエンスにおける2つの課題:

①スキル ②ツール


Data Scientist Workbench

46

Jupyterノートブック

Apache Zeppllin IDE Rstudio/Shiny

DSWBはSparkも利用可能• コマンドライン• インターフェイス

• Jupyter• Apache Zeppelin

Standalone

Cluster

Zeppelin

Two Problems in Data Science:

スキルツール


商用・組織横断的に使うには・・・

© 2016 IBM Corporation49

IBM DATA SCIENCE EXPERIENCEA L L Y O U R T O O L S I N O N E P L A C E

Data Science Experience (DSX)は、データサイエンティスト・データエンジニアが必要とするデータ分析環境を1つにして提供をします。

50 http://bit.ly/IntroDSXjpn


ビルドインされた、簡単なコースから、アドバンスなチュー

トリアルまで

学ぶ

オープンソールや付加価値機能を統合したデータ分

析ツール

作る

コラボレーションのためのコミュニティーとソーシャル機能

共創


ビジネスアナリスト

アプリ開発者

データサイエンティスト

データエンジニアUnderstand problem

and domain

Ingest data

Transform: clean

Transform:shape

Create and build model

Evaluate

Deliver and deploy model

Architects how data is organized and ensures operability

Gets deep into the data to draw hidden insights for the business

Works with data to apply insights to the business strategy

Plugs into data and models and writes code to build applications

FOSTERING COLLABORATION TO DRIVE BETTER DECISIONS

アウトプット

分析

インプット

Communicate results

Explore and understand

data

データエンジニア

ビジネスアナリスト

データサイエンティストComposable

Services

Advanced Analytics

DataRecognition

Data Store Awareness

Community Experiences

Fluid Data Layer

Social

IoT

DBaaS DB/DW

Public

An IBM Business

DELIVERING ON A NEXT GENERATION TECHNOLOGY FOR DATA AND ANALYTICS

アプリ開発者

Analytics

Hybrid

• Watson Analytics• Cognos Analytics• SPSS Modeler

• Data Science Experience• SPSS• DataWorks

• DataWorks• dashDB / DB2• Spark / IDE

• Cloudant• Compose• Graph

in the cloudon premises

Data Lake

収集カタログ/ガバナンスビルドデプロイ提供

データサイエンティストビジネスアナリストデータエンジニアアプリ開発者

データソース

THE IT DATA STACK GIVES WAY TO A FLUID DATA LAYER

Data Science EXperience

Notebooks

Data

RStudio

Projects

Shaping

Community

Scheduling

CORE CAPABILITIES OF THEIBM DATA SCIENCE EXPERIENCE

データサイエンティストビジネスアナリスト

データエンジニアアプリ開発者


Shaping（シェーピング⇒データ加工）:•Sparkling.Data APIs: Jupyterノートブック（Python/Scala）•チュートリアル（Python and Scala）RStudio (Shiny):•Rstudio（オープンソースサーバ）:16GB RAM/5GB領域•Shiny: 分析WEBアプリの作成•SparkR: Sparkサービスとの連携（Spark as a Service)

プロジェクト:•共創（コラボ）: プロジェクトへのユーザ追加•ノートブックの共有/コネクション/ファイル管理スケジューリング:•CRON•スケジューリングUI: スケジュールされたノートブック一覧、前回/次回実行予定、ステータス（初期版は機能制限あり）

コミュニティー:• Analytics Exchange: コミュニティーによるオープン・データとノートブック共有• ソーシャルメディアによる共有機能• ノートブックとデータのプリビュー機能• ブログ（DSXブログ含む）• チュートリアル (e.g., Big Data University)

ノートブック:Jupyterノートブック言語: Scala/Python/Rライブラリ: Open Source and IBM (Brunel/Prescriptive)Import from File (*.ipynb)/URL/TemplatesURLによる共有



コミュニティーオープンソース付加価値機能- チュートリアル、データセットの探索- データサイエンティストとの共創- 質問をする – Ask Question- 情報を収集する（記事、論文、技術情報）- プロジェクトのフォークと共有

- Scala/Python/R/SQL- Jupyter / Zeppelin* Notebooks- RStudio IDE / Shinyアプリケーション- Apache Spark - その他のライブラリ

- データシェーピング/パイプラインUI *- 自動データ準備(Auto-data prep)*- 自動モデリング(Auto-modeling)*- 高度なビジュアライゼーション*- Model管理とデプロイメント*- Well documented Model APIs*



datascience.ibm.comオープンβのリストを受け付けています

ご清聴ありがとうございました。

次回は、Meetupでお会いしましょう！

meetup.com/BDU-Tokyo

2016/10/18開催予定TOKYO Big Data University Meetupデータサイエンティスト実践セミナー

DSWB – Data Scientist Workbench• R, Python, Scala, Sparkを無償で利用できる開発・分析環境

datascientistworkbench.com

DSX – Data Science Experience• DSWBがトライアル・勉強目的に対して、DSXは商用環境での利用を想定

datascience.ibm.com

ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責任を負わないものとします。本講演資料に含まれている内容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。

本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。パフォーマンスは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと同様の結果を得られると確約するものではありません。

記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。

IBM、IBM ロゴ、ibm.comは、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。

Adobe, Adobeロゴ, PostScript, PostScriptロゴは、Adobe Systems Incorporatedの米国およびその他の国における登録商標または商標です。

IT Infrastructure LibraryはAXELOS Limitedの登録商標です。

インテル, Intel, Intelロゴ, Intel Inside, Intel Insideロゴ, Centrino, Intel Centrinoロゴ, Celeron, Xeon, Intel SpeedStep, Itanium, およびPentium は Intel Corporationまたは子会社の米国およびその他の国における商標または登録商標です。

Linuxは、Linus Torvaldsの米国およびその他の国における登録商標です。PowerLinux is a trademark of International Business Machines Corp. The registered trademark Linux is used pursuant to a sublicense from LMI, the exclusive licensee of Linus Torvalds, owner of the mark on a world-wide basis.

Microsoft, Windows, Windows NT および Windowsロゴは Microsoft Corporationの米国およびその他の国における商標です。

ITILはAXELOS Limitedの登録商標です。

UNIXはThe Open Groupの米国およびその他の国における登録商標です。

Cell Broadband Engineは、Sony Computer Entertainment, Inc.の米国およびその他の国における商標であり、同社の許諾を受けて使用しています。

JavaおよびすべてのJava関連の商標およびロゴは Oracleやその関連会社の米国およびその他の国における商標または登録商標です。

Linear Tape-Open, LTO, LTOロゴ, UltriumおよびUltriumロゴは、HP, IBM Corp.およびQuantumの米国およびその他の国における商標です。

open cloud innovation2016...

Data & Analytics