基調講演: 「パーペイシブ分析を目指して」#cwt2015

19
1 © Cloudera, Inc. All rights reserved. Amr Awadallah | Cloudera 共同創業者、CTO Twitter: @awadallah “パーペイシブ分析”を目指して

Upload: cloudera-japan

Post on 12-Jan-2017

611 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

1©Cloudera,Inc.Allrightsreserved.

Amr Awadallah | Cloudera 共同創業者、CTOTwitter: @awadallah

“パーペイシブ分析”を目指して

Page 2: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

2©Cloudera,Inc.Allrightsreserved.

ビッグデータ⾰命が今まさに起ころうとしています

産 業 ⾰ 命 デ ー タ ⾰ 命

Page 3: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

3©Cloudera,Inc.Allrightsreserved.

それはあらゆる産業で起っていますテ レ コ ム

ネットワークパフォーマンスの最適化

⾦ 融 サ ー ビ ス

マネーロンダリングの検知

公 共 機 関

サイバー攻撃の検知

⼩ 売

商品のレコメンデーション

ヘ ル ス ケ ア

パーソナライズ医療

Page 4: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

4©Cloudera,Inc.Allrightsreserved.

それはあらゆる事業分野で起っていますマ ー ケ テ ィ ン グ 部 ⾨

コンバージョンを 2% 増加

営 業 部 ⾨

リードの 5% を実績に

管 理 部 ⾨

不正⾏為を 3% 削減

顧 客 満 ⾜ 度

解約率を 1% 削減

製 品

ユーザーの採⽤が 10% 増加

Page 5: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

5©Cloudera,Inc.Allrightsreserved.

なぜ今ビッグデータなのでしょう?

インスツルメンテーション パーソナライゼーション アドバンスド・アナリシス

測定できるものはすべて計測されるようになる

従業員とお客様は、費⽤をかけずによりパーソナライズされた

関わりが持てることを期待してる。「ひとりを区別する」時代 �

⾰新的な企業は、実験的で予測的な分析を活⽤して迅速な対応を図ってる

Page 6: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

6©Cloudera,Inc.Allrightsreserved.

ビッグデータの要件は何によって決まるのでしょう?

©2014Cloudera,Inc.Allrightsreserved.

求められるのは:1.   技術的にも経済的にも⼤規模な拡張が可能(1バイトあたりのコスト削減)

2.   異なるデータタイプを同時に処理(マルチイン)

Ø  構造化データ: リレーショナルデータベースからトランザクションシステムまで (RDBMS)

Ø  半構造データ: サーバログ、センサーログ、クリックストリームなど

Ø  ⾮構造化データ: Eメール、ツイート、画像、⾳声、動画など

3.   同じデータパイプラインで異なるデータタイプを処理(マルチアウト)

Page 7: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

7©Cloudera,Inc.Allrightsreserved.

Hadoop: スケーラブルでフレキシブルなストレージと処理機能

©2014Cloudera,Inc.Allrightsreserved.

Hadoop の⽅式従来の⽅式

1TB あたり $30,000 以上⾼ 額 で 達 成 不 能

•  拡張が困難•  必然的にネットワークがボトルネックに•  構造化データ、リレーショナルデータのみに対応•  新規フィールドやデータタイプの追加が困難

⾼価、特定⽬的、ベンダー製の「信頼性の⾼い」サーバー、⾼価なソフトウェアライセンス

ネットワーク

データストレージ(SAN, NAS)

処理(RDBMS, EDW)

1TB あたり $300 ~ $1,000⼿ 頃 な 価 格 で 達 成 可 能

•  無限に拡張可能•  ボトルネックになるネットワークを排除•  あらゆるデータタイプを容易に投⼊可能•  ⾼速な「スキーマ・オン・リード」データアクセス

「普通の信頼性」をもったコモディティサーバーハイブリッド・オープンソース・ソフトウェア

処理(CPU)

メモリ ストレージ(ディスク)

zz

Page 8: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

8©Cloudera,Inc.Allrightsreserved.

アジリティを提供する「スマートフォン」のようなビッグデータ

現状アプリケーションにデータをコピー

あるべき姿データにアプリケーションを提供

データ

情報中⼼型であらゆるデータを扱う

業務向け仕様:

さまざまなデータ構造の、あらゆるタイプの

内部や外部データを、360度のビューで統合

アプリ

アプリ

アプリ

処理中⼼型の業務向け仕様:

•  構造化データが中⼼•  内部データ限定•  「⾼い価値密度」のみ•  複数のデータコピー

アプリ

アプリ

アプリ

データ

データ

データ

データ

Page 9: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

9©Cloudera,Inc.Allrightsreserved.

データソース

データシステム

データアクセス 業務分析 カスタム

アプリケーション

既存データ

データベース

業務アプリケーション

新 規 デ ー タ

限定的なデータ新規データはもちろん既存のデータでさえ、⼤規模な環境でパフォーマンスを維持しながら管理するには、不適切

まずデータを構造化しなければならない

限定的なインサイトアクセスの制約や貧弱なデータビューにより、不⼗分な分析と限定的な適⽤しかできない

インサイトを実践に移すことは困難

複雑なアーキテクチャ複雑さを⽣む複数のデータやユーザー、ツール群

総合的なセキュリティ対策の⽋如が、犯罪者の付け⼊る隙を⽣む

なぜレガシーなデータアーキテクチャでは不⼗分なのでしょう?

従来のアプローチは構造化のための設計になっている:•  構造化 データ•  構造化 分析•  構造化 プロセス

Page 10: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

10©Cloudera,Inc.Allrightsreserved.

つまり、

道のりはやさしくない、ということです

Page 11: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

11©Cloudera,Inc.Allrightsreserved.

1. 正しいチームを組むこと2. 正しいアーキテクチャを採⽤すること3. アジャイルなアプローチを採⽤すること

Page 12: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

12©Cloudera,Inc.Allrightsreserved.

正しいチームを組む

IT運⽤、情報セキュリティ、DBA、ETL

データチームBI、分析、データサイエンス

「ビジネス」ユーザーすべての⼈

•  SLA を守りながらコストをコントロール•  セキュアな環境の維持•  可能なら、セルフサービス機能を提供

•  データを精査し、新しい事を試してみる•  多⾓的な分析テクニックを駆使•  ⾼いパフォーマンスとアジリティが必要

•  適時、リアルタイムなインサイトが必要•  ⾼度な分析を⾏なう時間やスキルはない•  結果がすべて:ビジネス上の成果は?

成功するビッグデータプロジェクトには、常に次の各グループに属するメンバーが⼊っています:

Page 13: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

13©Cloudera,Inc.Allrightsreserved.

ビッグデータプラットフォーム⾰命

2006 2008 2009 2010 2011 2012 現在

Core Hadoop (HDFS, MR)

HBaseZooKeeper

Core Hadoop

HivePig

MahoutHBase

ZooKeeperCore Hadoop

SqoopWhirrAvroHivePig

MahoutHBase

ZooKeeperCore Hadoop

FlumeBigtopOozie

MRUnitHCatalog

SqoopWhirrAvroHivePig

MahoutHBase

ZooKeeper

SparkImpala

SolrKafkaFlumeBigtopOozie

MRUnitHCatalog

SqoopWhirrAvroHivePig

MahoutHBase

ZooKeeper

ParquetSentrySpark

ImpalaSolr

KafkaFlumeBigtopOozie

MRUnitHCatalog

SqoopWhirrAvroHivePig

MahoutHBase

ZooKeeper

Core Hadoop +YARN

Core Hadoop +YARN

Core Hadoop +YARN

Hadoop は、単なる Hadoop 以上に多くのことを成し遂げています

Page 14: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

14©Cloudera,Inc.Allrightsreserved.

Cloudera EnterpriseHadoopを⾼速化し、使いやすく、セキュアな環境に

OPERATIONS DATA+MANAGEMENT

STRUCTURED UNSTRUCTURED

PROCESS,+ANALYZE,+SERVE

UNIFIED+SERVICES

RESOURCE+MANAGEMENT SECURITY

FILESYSTEM RELATIONAL NoSQL

STORE

INTEGRATE

BATCH STREAM SQL SEARCH SDK

新しい種類のデータプラットフォーム•  無制限のデータを1か所に

•  統⼀的なデータアクセス

Cloudera が実現:•  業務スピードの向上

•  容易な管理

•  侵害のないセキュアな環境

Page 15: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

15©Cloudera,Inc.Allrightsreserved.

WEB/モバイル アプリケーション

オンラインサービスシステム

エンタープライズデータウェアハウス

業務報告書BI / 分析機械学習⾼度なアプリケーション

CLOUDERA MANAGER

メタデータ / ETL ツール

エンタープライズデータハブ

今⽇の情報アーキテクチャデータアーキテクト システム運⽤担当 エンジニア データサイエンティスト アナリスト ビジネスユーザー

お客様およびエンドユーザー

SYS ログ WEB ログ ファイル RDBMS

Page 16: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

16©Cloudera,Inc.Allrightsreserved.

1つにまとめる: EDHのデータを活⽤する

収集、作成、管理制約の無いデータ

データ検索、分析さまざまな⼿段で

実践化⾏動を促すインサイト

アジャイルな処理ステージ データ処理 ユーザーアクセス

IT運⽤、情報セキュリティ、DBA、ETL

データチームBI、分析、データサイエンス

「ビジネス」ユーザーすべての⼈

1.

2.

3.

Enterprise Data Hub

⽣データロード、セキュア、統治、タグ

データの改善ブレンド、クレンジング、構造化

信頼性の⾼いデータ⼀般のアクセスを可能に

Page 17: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

17©Cloudera,Inc.Allrightsreserved.©2014Cloudera,Inc.Allrightsreserved.

スタートスモール、シンクビッグ (あるいは「⾛る前に歩きなさい」)

SQLを超越する

アジャイルなデータソース

調査

ETL/Batchの⾼速化

運⽤効率(より⾼速に、⼤規模に、低予算で)

⾰新的なアプリケーション (新しいビジネス価値)

安価なストレージ

ビジネスIT

EDWの最適化

パーベイシブ分析

Page 18: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

18©Cloudera,Inc.Allrightsreserved.

まとめ

1.  テクノロジーの変化であると同時に、⽂化の変化です

2. はじめはゆっくりと、歩いて、それから⾛りましょう

3. 時間がかかります。直ぐに始めましょう

4. コミュニティの専⾨家に学びましょう

Page 19: 基調講演: 「パーペイシブ分析を目指して」#cwt2015

19©Cloudera,Inc.Allrightsreserved.

共同創業者/CTO、Cloudera, Inc.Twitter: @awadallah

AmrAwadallah