cloudera world tokyo 2014 ltセッション「マイクロソフトとhadoop」

36
マイクロソフトとHadoop 2014年11月6日 日本マイクロソフト株式会社 佐々木邦暢 (@ksasakims)

Upload: kuninobu-sasaki

Post on 09-Jul-2015

379 views

Category:

Technology


0 download

DESCRIPTION

Cloudera World Tokyo 2014のライトニングトークセッション資料です。

TRANSCRIPT

Page 1: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

マイクロソフトとHadoop

2014年11月6日

日本マイクロソフト株式会社

佐々木邦暢 (@ksasakims)

Page 2: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

2

佐々木と申します

(@ksasakims)

Page 3: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

3

担当の技術営業です

Page 4: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

4

今日はマイクロソフトの

Hadoop への取り組み

について話そうかと

Page 5: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

5

しかしその前に

Page 6: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

マイクロソフトの

内なるHadoop的なもの

2014年11月6日

日本マイクロソフト株式会社

佐々木邦暢 (@ksasakims)

Page 7: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Page 8: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

8

Dryad って聞いたことありますよね

http://research.microsoft.com/en-us/projects/dryad

Page 9: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

9

Cosmos ってご存知でしょうか

http://research.microsoft.com/en-us/events/fs2011/helland_cosmos_big_data_and_big_challenges.pdf

PB クラスの分散ストレージ

計算ノード群(クラスタ)の

管理とジョブスケジューリング

Dryad ベースの分散並列処理

“SCOPE” という SQL 的な

クエリ言語(Dryad 上のジョブ

へコンパイルされる)

Page 10: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

10

Cosmos のアーキテクチャ

ここにDryad

Hive, Pig的な

クエリの仕組み

HDFS的な

分散ストレージ

Page 11: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

11

SCOPE

http://research.microsoft.com/en-us/um/people/jrzhou/pub/Scope.pdf

Page 12: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

12

AdCenter, Azure, Bing, Bing Maps, MSN, Xbox Live

and more!

2005年ぐらいから今に至るまで、大好評稼働中

社内には多くのCosmos ユーザー

Page 13: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

13

外部公開する?

Page 14: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

14http://www.publickey1.jp/blog/10/hadoopdryad.html

http://blogs.technet.com/b/windowshpc/archive/2011/05/20/dryad-becomes-linq-to-hpc.aspx

Page 15: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

15

しかし LINQ to HPC は開発中止

正式リリースの2週間前のことでした…

「これは LINQ to HPC

の最後のプレビューです。

正式版を出荷する計画は

ありません。

Windows 版 Hadoop

を提供するので。」

Page 16: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Page 17: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

17

Microsoft Azure HDInsight Service

すぐに使えるクラウド上の Hadoop です

2013 年 10 月正式リリース済み

利用可能なリージョンは 11 箇所

日本では西日本リージョンで利用可能

OS

Windows Server 2012 R2

バージョンは以下の3種から選択可能

HDInsight-3.0

(HDP 2.0 / Hadoop 2.2)

HDInsight-3.1

(HDP 2.1 / Hadoop 2.4)

Page 18: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

18

HDInsight Service システム構成

データ ノードネーム ノード BLOB ストレージ

A4サイズ8 コア /ノード

A3サイズ4 コア /ノード

Microsoft Azure の PaaS 機能と BLOB ストレージを活用します

ネームノード、

データノードはどちらも

Worker ロールの

インスタンスです。

多数のノードを素早く

デプロイできます。

また、Microsoft Azure の

「BLOB ストレージ」を、

デフォルトのファイル

システムとして利用します。

もちろん HDFS も

利用可能です。

Page 19: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

19

Azure ストレージに関する論文

http://sigops.org/sosp/sosp11/current/2011-Cascais/printable/11-calder.pdf

Page 20: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

20

ファイル(BLOB)の構造

複製の仕組み

Page 21: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

21

NativeAzureFileSystem

BLOB を Hadoop のファイルシステムに

様々なファイルシステムを扱えるように、

Hadoop はファイルシステムの抽象化層を持っています。

マイクロソフトは NativeAzureFileSystem クラスを作成し、

Azure BLOB をサポートしました。

種類 URIスキーム

Javaの実装クラス(org.apache.Hadoop)

説明

Local file fs.LocalFileSystemローカルファイルシステム

HDFS hdfs hdfs.DistributedFileSystem HDFS

FTP ftp fs.ftp.FTPFileSystem FTP サイト用

S3 s3n fs.s3native.NativeS3FileSystem Amazon S3 用

AzureBLOB

wasb fs.azurenative.NativeAzureFileSystem Azure BLOB 用

Page 22: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

22

BLOB 対応の Parcel もあります

Page 23: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

23

HBase や Storm もサポート

こんなチュートリアルも出ています

Page 24: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Page 25: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

25

実は

Dryad と

DryadLINQ

Page 26: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

26

GitHub なう

https://github.com/MicrosoftResearch/Dryad

Page 27: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

27

HDInsight 上の

YARN アプリケーション

Page 28: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

28

Page 29: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

29

Naiad という新しい兄弟も

http://research.microsoft.com/en-us/projects/naiad/

Dryad 及び DryadLINQ が

スループット重視だとすれば、

Naiadはインメモリでの低遅延

処理を重視

こちらも、HDInsight

クラスタ上での実行が可能

Page 30: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

30

SOSP 2013 の論文

http://research.microsoft.com/pubs/201100/naiad_sosp2013.pdf

Page 31: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

31

Dryad と Naiad

向いている処理 成熟度

Dryad + DryadLINQスループット重視

バッチ処理に向く

歴史が長い分

安定している

Naiadレイテンシ重視

繰り返しの処理に向く

活発に開発中

API 変更頻繁

Page 32: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Page 33: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

33

Cloudera さんとコラボ

Page 34: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

34

Azure Marketplace に Cloudera Enterprise

Page 35: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

35

最新の D14 インスタンスで Cloudera

Page 36: Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」

+