hortonworksが提供する データ活用方法の紹介

36
1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworksが提供する データ活⽤⽅法の紹介 ビッグデータの収集、蓄積、分析 プラットフォーム ホートンワークスジャパン 北瀬 公彦

Upload: kimihiko-kitase

Post on 13-Apr-2017

508 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Hortonworksが提供する データ活用方法の紹介

1 ©HortonworksInc.2011– 2016.AllRightsReserved

Hortonworksが提供するデータ活⽤⽅法の紹介ビッグデータの収集、蓄積、分析プラットフォーム

ホートンワークスジャパン北瀬 公彦

Page 2: Hortonworksが提供する データ活用方法の紹介

2 ©HortonworksInc.2011– 2016.AllRightsReserved

北瀬 公彦KIMIHIKOKITAsE

http://blogs.itmedia.co.jp/kkitase@kkitase

2016年6⽉、ホートンワークスジャパンに⼊社。ビッグデータの収集、蓄積、分析基盤製品のマーケティングを担当。⼊社前、⽶Data Science Dojoが開催するデータサイエンティスト養成講座に参加するも、全く畑の違う分野で悪戦苦闘。開き直って、初⼼者に優しいデータの利活⽤術をお伝えしようと考えている。

facebook.com/kkitase

Page 3: Hortonworksが提供する データ活用方法の紹介

3 ©HortonworksInc.2011– 2016.AllRightsReserved

出所:第27回産業競争⼒会議 2016.5

政府は2016年5⽉19⽇、第27回産業競争⼒会議を開催し、名⽬国内総⽣産(GDP)600兆円に向けた成⻑戦略(「⽇本再興戦略2016」)の素案を公表しました。

新たな有望成⻑市場の創出では、IoT・ビッグデータ・AI・ロボットなどによる第4次産業⾰命の実現で2020年には30兆円の付加価値創出を⽬指しています。

⽇本再興戦略2016 〜第4次産業⾰命の実現〜

Page 4: Hortonworksが提供する データ活用方法の紹介

4 ©HortonworksInc.2011– 2016.AllRightsReserved

Hortonworks® の顧客は、新たなビジネス⽬標を達成する、コストを削減することのいずれかの理由で当社の技術を利⽤しています。Customer Journeyは、弊社が保持する多くのユースケースを案内する事によりお客様のニーズに応えます。

ソーシャルマッピング

リスク評価

テレマトリックス

ロスコントロー

コール分析 センサーデータ 製品設計 M & A

デューデリジェンス

レコメンデーション

サイバーセキュリ

ティ

リスクモデリング

リスクアペタイト

ロスコントロール

Catモデル 調査計画

⽀払い請求深刻度

カスタマーサポート

センチメント分析

リスク分析

広告掲載 ⽀払い請求分析

セグメンテーション

クロスセル 顧客維持

代理店スコアカー

不正調査

運⽤コスト削減

メインフレームのオフロード

履歴レコード

サービスとしてのデータ

パブリックデータ取得

不正予防

デバイスデータ

取り込み

⾼速レポーティング

デジタル保護

不正緩和

⽀払い能⼒分析

Page 5: Hortonworksが提供する データ活用方法の紹介

TheDataJourneytoSafeRoads

Page 6: Hortonworksが提供する データ活用方法の紹介

6 ©HortonworksInc.2011– 2016.AllRightsReserved

Case StudyProgressiveʼs JourneyProgressiveは、IoTデータを元に「使⽤ベース」保険商品のリスク予測を⾏いたい

à Progressive Snapshotは、⾞載センサーデバイスから運転データを送信し、使⽤ベースの保険を提供

à ドライバーから収集された最⼤6ヶ⽉分のデータは、規制の要件に従い、数年間アーカイブする必要がある

à Progressiveの既存のシステムでは、効率的にスケールすることができないà 5⽇から7⽇かけても、UBIデータの25%しか流し込むことができない

*UBI – User Based Insurance

Page 7: Hortonworksが提供する データ活用方法の紹介

7 ©HortonworksInc.2011– 2016.AllRightsReserved

Progressiveʼs Journey

安全なドライバへの優遇と交通安全の向上

à Snapshot plug-in デバイスは運転の詳細を収集

à Progressiveは、1000万マイル以上の運転データを保存 (約1600万Km)

à Webアプリ経由で、顧客は⾃⾝の運転詳細を⾒ることができ、安全向上に努めることが可能

à Snapshotとusage-based insurance は2014年には、Progressiveに2.6 億ドルの貢献(約273億円)

Innovate

Renovate

SafeRoads

ClaimsNotesMining

IndividualDrivingHistories

Usage-BasedInsurance(UBI)

WebLogAnalysis

OnlineAdPlacement

SensorDataIngest

Page 8: Hortonworksが提供する データ活用方法の紹介

8 ©HortonworksInc.2011– 2016.AllRightsReserved

Page 9: Hortonworksが提供する データ活用方法の紹介

TheDataJourneyforCyberSecurity

Page 10: Hortonworksが提供する データ活用方法の紹介

10 ©HortonworksInc.2011– 2016.AllRightsReserved

Symantec’sJourney

AnalyzingStreamingThreatDatatoIncreaseVelocityforTimetoProtection

à Symantec™ Global Intelligence Network は、157カ国で、5700万以上の攻撃を検知している

à 1億2000万以上のデバイス、7500万ユーザーからのデータストリーム

à 旧来のプラットフォームはデータ処理に3〜4時間かかっていた

Page 11: Hortonworksが提供する データ活用方法の紹介

11 ©HortonworksInc.2011– 2016.AllRightsReserved

Symantec’sJourney

DigitalSecurity

MetadataCapture

ThreatPredictions

AttackerDetection

UnifiedSecurity

SecurityLogAnalysis

ThreatArchive

DeviceDataIngest

ThreatDetection

GreenplumOffload

Innovate

Renovate

DataScienceSpeedsTimetoProtection

à 驚異検出時間が4時間から2秒にà 防御回数が5000倍にà 10ペタバイト以上のデータを

使って機械学習した結果、驚異予測が可能に

à AmbariとCloudbreakを使ってクラスターを管理

Page 12: Hortonworksが提供する データ活用方法の紹介

Hortonworks - 急速な成⻑拡⼤:顧客数およびパートナーHadoopを早くから導⼊されたお客様もHortonworksのディストリビューションを採⽤

1,600を超えるエコシステムパートナー

Hortonworks テクノロジーパートナー

Hortonworksについて• 100%オープンソース• 会社設⽴3年⽬で株式公開• 顧客数 800社以上(*2015年 Q4)

Connected Data Platforms のリーダ• Hortonworks Data Platform - HDP:さまざまなデータを保存する (data at rest)• Hortonworks DataFlow - HDF:リアルタイムのデータを扱う(data in motion)• Powering new modern data applications:モダンデータアプリケーションの活性

開発 & データツール

インフラストラクチャ

オペレーションツール

RDBMSEDWMPP

データシステム

分析ツール & アプリケーションBusinessObjects BI

Microsoft Analytics Platform System

Page 13: Hortonworksが提供する データ活用方法の紹介

13 ©HortonworksInc.2011– 2016.AllRightsReserved

Apache Communityへの貢献コミッターの多くがHortonworksの社員です。Apache Hadoop プロジェクトに関わるコミッターの約1/3はHortonworksの社員です。Apache NiFiの⼤半を始めとする多くの重要なプロジェクトに関わっています。

コミッターはコネクティッド・データプラットフォームを改良し、⾰新を続けています。Hadoopのロードマップに関わっています。コミュニティに対し、重要なリクワイアメントを⾔える⽴場にいます。

1,500を超えるエコシステムパートナーHortonworks テクノロジーパートナー

専⾨家集団: 開発に深く携わるコア・メンバーにより構成

Hortonworks はApache Communityに⾮常に深く関与しています。

Page 14: Hortonworksが提供する データ活用方法の紹介

14 ©HortonworksInc.2011– 2016.AllRightsReserved

Hortonworksが提供するソリューションConnectedDataPlatform

• HadoopはData at Rest(蓄積されたデータ)の基礎• IoTの登場により、Data in Motion(流れているデータ)の必要性• モダンデータアプリケーションはData in MotionとData at Restの両

⽅のデータを利⽤してお客様の価値を最⼤化

• 最適な保険料⾦の選定システム• 故障予測サービス• サイバーセキュリティ• その他のインダストリーアプリなど

Page 15: Hortonworksが提供する データ活用方法の紹介

15 ©HortonworksInc.2011– 2016.AllRightsReserved

データの蓄積、分析プラットフォームHortonworks Data Platform (HDP)

YARN: Data Operating System

クリックストリーム センサー ソーシャル モバイル 位置情報 サーバーログ

バッチ インタラクティブ サーチ ストリーミング マシンラーニング

既存データ

Page 16: Hortonworksが提供する データ活用方法の紹介

16 ©HortonworksInc.2011– 2016.AllRightsReserved runson

ETL

RDBMSImport/Export

DistributedStorage&ProcessingFramework

SecureNoSQL DB

SQLonHBase

NoSQL DB

WorkflowManagement

SQL

StreamingDataIngestion

ClusterSystemOperations

SecureGateway

DistributedRegistry

ETL

Search&Indexing

EvenFasterDataProcessing

DataManagement

MachineLearning

HadoopEcosystem

Page 17: Hortonworksが提供する データ活用方法の紹介

17 ©HortonworksInc.2011– 2016.AllRightsReserved

HortonworksDataPlatform

Page 18: Hortonworksが提供する データ活用方法の紹介

Page 18 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HORTONWORKS DATA PLATFORM

Hado

op&

YARN

Flum

e

Ooz

ie

HDP 2.3 is Apache Hadoop; not “based on” Hadoop

Pig

Hive

Tez

Sqoo

p

Clou

dbre

ak

Amba

ri

Slid

er

Kafk

a

Knox

Solr

Zook

eepe

r

Spar

k

Falc

on

Rang

er

HBas

e

Atla

s

Accu

mul

o

Stor

m

Phoe

nix

4.10.2

DATA MGMT DATA ACCESS GOVERNANCE & INTEGRATION OPERATIONS SECURITY

HDP 2.2Dec 2014

HDP 2.1April 2014

HDP 2.0Oct 2013

HDP 2.2Dec 2014

HDP 2.1April 2014

HDP 2.0Oct 2013 0.12.0 0.12.0

0.12.1 0.13.0 0.4.0

1.4.4 1.4.4 3.3.23.4.5

0.4.00.5.0

0.14.0 0.14.0 3.4.6 0.5.0 0.4.00.9.30.5.2

4.0.04.7.2

1.2.1 0.60.0 0.98.4 4.2.0 1.6.1 0.6.0 1.5.21.4.5 4.1.02.0.0

1.4.0 1.5.1 4.0.0

1.3.1

1.5.1 1.4.4 3.4.5

2.2.0

2.4.0

2.6.0

2.7.1 1.4.6 1.0.0 0.6.0 0.5.02.1.00.8.2 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0HDP 2.3Oct 2015 4.2.0

0.96.1

0.98.0 0.9.1

0.8.1

1.4.1 1.1.2

2.7.3 1.4.6 1.3.0 0.9.0 0.6.02.4.00.10.0 3.4.61.5.25.5.1 0.91.0 0.7.01.7.04.7.0 1.0.1 0.10.00.7.01.2.1+2.1***0.16.0

HDP 2.5*2H2016

4.2.01.6.2+2.0** 1.1.2

2.7.1 1.4.6 1.2.0 0.6.0 0.5.02.2.10.9.0 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0HDP 2.4Mar 2016 4.2.01.6.0 1.1.2

Zepp

elin

Ongoing Innovation in Apache

0.6.0

* HDP 2.5 – Shows current Apache branches being used. Final component version subject to change based on Apache release process.

** Spark 1.6.2+ Spark 2.0 – HDP 2.5 support installation of both Spark 1.6.2 and Spark 2.0. Spark 2.0 is Technical Preview within HDP 2.5.*** Hive 2.1 is Technical Preview within HDP 2.5.

Page 19: Hortonworksが提供する データ活用方法の紹介

19 ©HortonworksInc.2011– 2016.AllRightsReserved

Ambari(クラスタ管理)

Page 20: Hortonworksが提供する データ活用方法の紹介

20 ©HortonworksInc.2011– 2016.AllRightsReserved

Ambari(SQLクエリ)

Page 21: Hortonworksが提供する データ活用方法の紹介

21 ©HortonworksInc.2011– 2016.AllRightsReserved

Hive performance

http://hortonworks.com/blog/announcing-apache-hive-2-1-25x-faster-queries-much/LLAP: http://www.slideshare.net/techblogyahoo/hivellap

Page 22: Hortonworksが提供する データ活用方法の紹介

22 ©HortonworksInc.2011– 2016.AllRightsReserved

Apache Zeppelin (データサイエンティスト向けUI)

Page 23: Hortonworksが提供する データ活用方法の紹介

23 ©HortonworksInc.2011– 2016.AllRightsReserved

DemonstrationHortonworks Data Platform (HDP)

1. クラスタの管理 – Ambari (クラスタ管理), Hive(Hadoop SQLエンジン), Ranger (監査)

2. オーストラリア州の納税額を使ったデータ分析 – Zeppelin (データ分析ツール)

Page 24: Hortonworksが提供する データ活用方法の紹介

24 ©HortonworksInc.2011– 2016.AllRightsReserved

Hortonworks DataFlowとHortonworks Data Platformにより、ビックデータ基盤のエンド・ツー・エンドソリューションを提供します。

Hortonworks Data Platform

powered by Apache Hadoop

Hortonworks Data Platformpowered by Apache Hadoop

EnrichContex

t

Store Data and Metadata

Internetof Anything

Hortonworks DataFlow powered by Apache NiFi

動的・鮮度が重要な⾒識

静的・過去データによる⾒識

Connected Data Platform

データ収集プラットフォーム

Page 25: Hortonworksが提供する データ活用方法の紹介

25 ©HortonworksInc.2011– 2016.AllRightsReserved

Lambda (λ) Architecture

Page 26: Hortonworksが提供する データ活用方法の紹介

26 ©HortonworksInc.2011– 2016.AllRightsReserved

IngestionSimple Event Processing

EngineComplex Event

Processing

Destination

Data Bus

Build Predictive ModelFrom Historical

Data

DeployPredictive Model

For Rea-time Insights

Perishable Insights

Historical Insights

Lambda (λ) Architecture

Page 27: Hortonworksが提供する データ活用方法の紹介

27 ©HortonworksInc.2011– 2016.AllRightsReserved

Hortonworks DataFlow

Page 28: Hortonworksが提供する データ活用方法の紹介

28 ©HortonworksInc.2011– 2016.AllRightsReserved

過去8年間にNSAによって開発

「NSAのイノベーターは、考えられる中で最も困難な国家安全保障の問題の⼀部に取り組んだ」「商業エンタープライズは、これを利⽤して地理的に離れたサイトからの情報フローを迅速に制御、管理、分析し、総合的な状況認識を⽣み出すことができる」

-- NSAディレクターLinda L. Burger⽒

国家安全保障局が開発したNiFi

Page 29: Hortonworksが提供する データ活用方法の紹介

29 ©HortonworksInc.2011– 2016.AllRightsReserved

130以上のシステムとの連携が可能

HTTP

Syslog

Email

HTML

Image

Hash Encrypt

Extract

TailMerge

Evaluate

Duplicate Execute

Scan

GeoEnrich

Replace

ConvertSplit

Translate

HL7

FTP

UDP

XML

SFTP

RouteContent

RouteContext

RouteText

ControlRate

DistributeLoadAMQP

Page 30: Hortonworksが提供する データ活用方法の紹介

30 ©HortonworksInc.2011– 2016.AllRightsReserved

DemonstrationHortonworks DataFlow (HDF)

1. Twitterのリアルタイム分析 - NiFi, Solar

Page 31: Hortonworksが提供する データ活用方法の紹介

31 ©HortonworksInc.2011– 2016.AllRightsReserved

クラウド環境での利⽤ - Azure編

Page 32: Hortonworksが提供する データ活用方法の紹介

32 ©HortonworksInc.2011– 2016.AllRightsReserved

クラウド環境での利⽤ - AWS編

http://hortonworks.com/blog/quickly-launch-hortonworks-data-platform-amazon-web-services/

Page 33: Hortonworksが提供する データ活用方法の紹介

33 ©HortonworksInc.2011– 2016.AllRightsReserved

クラウド環境での利⽤ - OpenStack編 (Rakspace)

Page 34: Hortonworksが提供する データ活用方法の紹介

34 ©HortonworksInc.2011– 2016.AllRightsReserved

Hortonworksが提供する付加価値

Hortonworks の専⾨知識と経験Apache Hadoop と Apache NiFiのオリジナルアーキテクトが在籍

Annual Subscriptions年間サブスクリプションの提供による、状況に柔軟な対応Apache Committersお客様からの要望を聞き、お客様が⽬的を達成するためのロードマップ作成の協⼒Expert Consulting & Trainingお客様⾃⾝が実現可能なインテリジェンスをできるだけ効率よく培うことの⼿助け

Hortonworks SmartSense™機械学習をベースとした提案型クラスター環境の⾃動アドバイスサービス

Integrated Customer Portal豊富なナレッジベースと、1000時間を超えるWEBベースのトレーニングコンテンツ

STO

RAG

E STOR

AGE

ARCHITECT&

DEVELOP

DEPLOY

OPERATE

Project 1

Project 5

Project 4

Project 3

Project 2

Project 6

EXPAND

プロアクティブなサポート

ナレッジベース

Integrated Customer Portal

オンデマンドトレーニング

Customer EnvironmentAny cloud • Hybrid Environment •

Multi-tenant

Hortonworks SmartSense

ライフサイクルのサポート

Page 35: Hortonworksが提供する データ活用方法の紹介

35 ©HortonworksInc.2011– 2016.AllRightsReserved

Hortonworksを始める為の5ステップ

1. Hortonworksサンドボックスを試すhortonworks.com/sandbox

2. チュートリアルを試すhortonworks.com/tutorials

3. Future of Data 勉強会に参加するfutureofdata.connpass.com

4. Hortonworks Community Connect (HCC)に参加するhortonworks.com/community

5. サポートサービスを検討するhttp://hortonworks.com/support

Page 36: Hortonworksが提供する データ活用方法の紹介

36 ©HortonworksInc.2011– 2016.AllRightsReserved

26-27 OCTOBERTOKYO, JAPAN

http://hadoopsummit.org/tokyo只今、早期割引チケット販売中

お問い合わせ: [email protected]