yifeng hadoop-present-public
Post on 16-Apr-2017
604 Views
Preview:
TRANSCRIPT
Hadoopの今とこれから
Yifeng Jiang Solutions Engineer, Hortonworks
2015/10/15
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
自己紹介
蒋 逸峰 (Yifeng Jiang)• Solutions Engineer, Hortonworks• Apache HBase本の作者• ⽇本に来て10年経ちました…• 趣味は⼭登り• Twitter: @uprush
Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopコミュニティのアクティビティ
コード⾏数の増加http://ajisakaa.blogspot.jp
Hortoworksのオープンリーダーシップ
組織毎のコード貢献(2014年)
Hortonworks
Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HortonworksのApache コミュニティに対する影響力
コミッターの多くがHortonworks社員 -- Apache® Hadoop™プロジェクトの 全コミッターの1/3、および他の重要プロジェクトのコミッターの大多数を占める
Hortonworksコミッターの役割 Open Enterprise Hadoopの革新と拡張
Hadoopロードマップに対する影響力 リーダーを通じて、重要な要件をコミュニティに 伝達
A PA C H E H A D O O P の コ ミ ッ タ ー
About Hortonworks
顧客 • 556 のお客様 (2015年8月5日時点) • 2015年2期に119 新規お客様追加 • NASDAQに上場(HDP)
Hortonworks Data Platform • 完全にオープンなマルチテナント プラットフォーム。あらゆるデータ、あらゆるアプリ。
• 一貫したエンタプライズ サービス:セキュリティ、オペレーション、ガバナンス
お客様のためのパートナー • オープンソース コミュニティのリーダー、エンタプライズ要件を満たすための革新に注力
• 比類のないHadoopのサポートサブスクリプション
Founded in 2011
Original 24 architects, developers, operators of Hadoop from Yahoo!
740+ E M P L O Y E E S
1350+ E C O S Y S T E M
P A R T N E R S
Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成やコストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込まれている。
Social Mapping
Payment Tracking
Factory Yields
Defect Detection
Call Analysis
Machine Data
Product Design M & A
Due Diligence
Next Product
Recs
Store Design
Risk Modeling
Ad Placement
Proactive Repair
Disaster Mitigation
Investment Planning
Inventory Predictions
Customer Support
Sentiment Analysis
Supply Chain
Ad Placement
Basket Analysis Segments
Cross- Sell
Customer Retention
Vendor Scorecards
Optimize Inventories
OPEX Reduction
Mainframe Offloads
Historical Records
Data as a
Service
Public Data
Capture
Fraud Prevention
Device Data
Ingest
Rapid Reporting
Digital Protection
Hortonworks Data Platform (HDP)
Open Enterprise Hadoop
Open Enterprise Hadoop
オープン
相互運用性
一元化
万全の対応
Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
Open Enterprise Hadoop
Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
一元化
万全の対応
オープン
Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
完全にオープンなHortonworks Data Platform
リスクの解消 完全なオープンソースであるApache技術を提供することで、ベンダー固定化のリスクを解消
コミュニティイノベーションの最大化 数百社の企業の数百人の開発者により、 コミュニティイノベーションを最大化
シームレスな統合 共同エンジニアリングの取り組みを通して、 他の先進技術を統合
コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化
イ ノ ベ ー シ ョ ン の優 位 性
独自の HADOOP
時間
イノ
ベー
ショ
ン
オープンコミュニティ
Open Enterprise Hadoop
Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
万全な対応
オープン
一元化
YA R N データオペレーティングシステム
オペレーション セキュリティ
ガバナンス
スト
レー
ジ ス
トレ
ージ
機械学習 バッチ
ストリーミング
インタラクティブ
検索
プラットフォーム一元化 オペレーション、ガバナンス、セキュリティ
多様なアプリケーション 単一クラスタで同時実行
データ取り込みの最大化 ローフォーマットかどうかに関係なく、新旧のソースに対応
ビッグデータ資産の共有 すべての事業部門、機能部門、ユーザー間での共有
YARN ベースのアーキテクチャによるプラットフォーム一元化
Open Enterprise Hadoop
万全な対応
オープン
相互運用性
一元化
© Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
最大限の柔軟性を提供
あ ら ゆ る デ ー タ 新旧のデータセット
あ ら ゆ る ア プ リ ケ ー シ ョ ン 複数のデータ分析エンジン
あ ら ゆ る 場 所 あらゆる環境に対応
バッチ
インタラクティブ
検索
ストリーミング
機械学習
クリック ストリーム センサー
ソーシャル モバイル
ジオ ロケーション
サーバ ログ Linux Windows
クラウド オンプレミス
業界標準との同期
エコシステム相互運用性の向上 Hortonworksが立ち上げたOpen Data Platform(ODP)イニシアティブの一環
選択肢の開放 HDPと統合された複数のベンダーのコンポーネントを選択可能
無駄な当て推量の解消 システムバージョンの調整を行う必要があるアーキテクトに対するメリット
HDP
Apache Hadoop対応 オープン
プラットフォーム
Pivotal HD
IIP Apache Hadoop
Apache Ambari
O D P コ ア
エコシステムとの統合
パートナー
Open Enterprise Hadoop
Page 19 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
オープン
一元化
相互運用性
万全な対応
信頼できるガバナンス
データ管理 データライフサイクル全般における管理
メタデータによるモデリング ハイブリッドアプローチにより総合的なデータリネージが実現
相互運用ソリューション 共通のメタデータストアにより、Hadoopエコシステム全体で相互運用が可能
オペレーション セキュリティ
GOVERNANCE ガバナンス
YA R N データオペレーティングシステム
スト
レー
ジ ス
トレ
ージ
機械学習 バッチ
ストリーミング
インタラクティブ
検索
Apache Atlas – データガバナンスのための基盤
Rest API Atlasサービス、 HDPコンポーネント、外部ツールへの柔軟なアクセスが可能
SQLのようなドメイン特化型言語を使った検索 キーワード、ファセット、フルテキストによる検索
データリネージとスキーマ
HiveServer2上のすべてのSQLランタイムアクティビティを取得 エクスチェンジ 既存のメタデータのインポートと、ダウンストリームシステムへのメタデータのエクスポート
Apache Atlas
ナレッジストア
監査ストア
モデル 型システム
ポリシールール 分類
タグベースのポリシー
データライフサイクル管理
リアルタイムのタグベースアクセス制御
REST API
サービス
検索 リネージ エクスチェンジ
ヘルスケア
HIPAA HL7
l金融
SOX Dodd-Frank
エネルギー
PPDM
小売業
PCI PII
その他
CWM
YA R N データオペレーティングシステム
OPERATIONS セキュリティ
ガバナンス
スト
レー
ジ ス
トレ
ージ
機械学習 バッチ
ストリーミング
インタラクティブ
検索
安定した運用
一元化 Hadoopクラスタの管理・監視
自動プロビジョニング Cloudbreak APIにより、オンプレミスかクラウドのいずれかの環境に数分でクラスタをプロビジョニング
マネージドサービス ダッシュボードとアラート機能により、高可用性と一貫したライフサイクル管理を提供
オペレーション
包括的なセキュリティ
包括的なセキュリティ プラットフォームアプローチによるセキュリティ
暗号化 保存データと移動中のデータの暗号化
管理の一元化 セキュリティポリシーとユーザー認証の管理
きめ細かな承認 データアクセスを管理
オペレーション SECURITY
ガバナンス
セキュリティ
YA R N データオペレーティングシステム
スト
レー
ジ ス
トレ
ージ
機械学習 バッチ
ストリーミング
インタラクティブ
検索
安定した運用と包括的なセキュリティ
安定した運用
容易なセットアップと設定
リアルタイムのカスタマイズが可能なダッシュボード
包括的なセキュリティ
すべてのコンポーネントの承認と監査
HDFSの透過的なデータ暗号化
Apache Ambari Apache Ranger
© Hortonworks Inc. 2015. All Rights Reserved
ビッグデータの技術革新 ~ Hadoop Core ~
Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 26 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSとYARN – イノベーションの基盤
Hadoop / YARNを用いたデータオペレーティングシステム あらゆるアプリケーション、データセット、環境に対応する、 100%オープンソースのマルチテナント型データプラットフォーム
共有エンタープライズサービスの集中型アーキテクチャをベースに構築 拡張可能な階層型ストレージ リソース/ワークロード管理 信頼性に優れたデータガバナンスとメタデータ管理 安定した運用 包括的なセキュリティ 開発者向けAPIとツール
YARN
ガバナンス セキュリティ
オペレーション
リソース管理
ストレージ
コモディティ アプライアンス クラウド
データアクセス:バッチ、インタラクティブ、リアルタイム
Page 27 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム
拡張性 データの増加にあわせて水平方向に拡張し、1つ以上のノードを1度に追加 信頼性 高可用性(HA)とフォルトトレラント性により、データの 損失と破損を防止
コスト効率 階層型ストレージで汎用ハードウェアを採用 クロスワークロードアクセス
安全性 強力なアクセス制御と認証メカニズムの統合 すべてのユーザー/グループのデータセットへのアクセスを細かく制御 移動中のデータ/保存データを保護
HDFS
YARN:データオペレーティングシステム
C A B C B B A C
B A B A C A
標準ベースの データインターフェイス
NFS 発信元/ 発信先
REST
RPC
発信元/ 発信先
発信元/ 発信先
あらゆるフォーマットのあらゆるデータを取り込み、保管
柔軟なリードアクセスにより多様なワークロードに対応
Page 28 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSのエンタプライズ機能エンタプライズ機能
• Namenode HA(冗⻑化)• 単⼀障害点がない
• ファイル システム スナップショット
• HDFS NFS Gateway• HDFSをNFSマウント、データを簡単にHadoopに
• データ暗号化 (HDFS TDE)• データを置くだけで⾃動暗号化
Page 29 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS -- 大規模向け更に効率アップ⼤規模向け• ティア・ストレージ
• HDD, SSD, アーカイブ, RAM Disk• アーカイブ・ティア:コストが最⼤1/6までダウン
• Erasure Code• ⽇本のエンジニアからの貢献が⼤きい• 3レプリケーションと⽐べ、ストレージ効率が2倍
Cluster Storage and Compute Capacity
Cluster Storage Utilization
Compute Utilization
Page 30 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARNにおけるマルチテナント/ワークロード
Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDP 2.3内のApache Spark 1.4.1
完璧な組み合わせ セキュリティ、 プラットフォーム統合、 Zepplinによる可視化など
リソース管理 – Spark on YARN
マルチテナントワークロードと予測可能なSLA SparkR* RデータサイエンティストはSpark機械学習を活用可能
アプリケーション
ガバ
ナン
スと
統合
セキ
ュリ
ティ
オペ
レー
ショ
ン
YARN
HDFS
Scala Java
Python API
SparkコアエンジンSparkコアエンジン
Spark SQL
Spark Streaming MLlib GraphX
Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Apache Zeppelinについて インタラクティブな分析を可能にするWebベースのノートブック
特徴アドホックな実験Spark + Hadoopとの緊密な統合複数の⾔語バックエンドをサポートApacheでのインキュベート
ユースケースデータの探索と発⾒データの視覚化インタラクティブなスニペット⼀括処理「モダンデータサイエンススタジオ」
Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARN - エコシステムの拡大
YARN:データオペレーティングシステム
データアクセス
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
HDFS Hadoop Distributed File System
データ管理
環境の選択肢Linux Windows オンプレミス クラウド
バッチ
MapReduce
スクリプト
Pig
検索
Solr
SQL
Hive
NoSQL
HBase Accumulo Phoenix
ストリーム
Storm
インメモリ
Spark
その他
ISVエンジン
Tez Tez Slider Slider
SAS統合 SASで、Hadoopからのデータの取り出し、 Hadoopを利用したインメモリ処理、 Hadoop クラスタ内での直接動作が可能に
Slider Hbase、Accumolo、StormなどのSlider経由でYARN上のDocker化アプリケーションを実行 Solr HDP 2.3を利用して Solr検索エンジンをYARN上で実行できるように
YARNとDocker セキュアなクラスタおよびアンセキュアなクラスタでコンテナを実行するための透過的な方法
Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Data Operating System
Enable all data and applications TO BE
accessible and shared BY
any end-user
Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Page 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
サンドボックスをダウンロードし、試してみてください: hortonworks.com/sandbox
Page 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Page 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
Thank You
top related