atn no.1 hadoop vs amazon emr

25
Advanced Tech Night No.01 Hadoop vs Amazon EMR 2011/04/22 Acroquest Technology 株式会社 橋本 拓也

Upload: advancedtechnight

Post on 02-Jul-2015

1.415 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: ATN No.1 Hadoop vs Amazon EMR

Advanced Tech Night No.01

Hadoop vs Amazon EMR

2011/04/22

Acroquest Technology 株式会社

橋本 拓也

Page 2: ATN No.1 Hadoop vs Amazon EMR

はじめに

1. 簡単に自己紹介。

2. Acroquest Technology テクニカルコンサルタント橋本 拓也

3. JaTS(Javaトラブルシューティング)を中心に、プロジェクトの障害解析・障害回避を仕事としています。

4. Hadoopは個人的に注目して触っています。それを自慢げに話していたら、プロジェクトでHadoop使うことになってオタオタしました。 1

Page 3: ATN No.1 Hadoop vs Amazon EMR

どんな仕事をしているか?

2

JaTS never ending story

(http://www.acroquest.co.jp/jats_novel/index.html) より抜粋

Page 4: ATN No.1 Hadoop vs Amazon EMR

目的

1. Hadoopと比べていまいち知名度の低いAmazon EMR(Elastic Map Reduceの略)がどんなものだか、調べてみました。

2. 「Hadoopをやっと使えるようになったと

思ったら、また変なのが出てきた!」とプレスリリースで思ったので、何が凄いのか試してみました。

3

Page 5: ATN No.1 Hadoop vs Amazon EMR

この発表の前提

1. 私は身内びいきな傾向が強いので、

「Hadoopサイコー、後発のAmazon EMRなん

てっ!」というのが大前提です。

実はこの後発というのさえ間違いなのですが・・・

2. そのため、大分偏った評価になるかもしれませんが、ご了承を。

4

Page 6: ATN No.1 Hadoop vs Amazon EMR

内容

1. 各製品の歴史

2. Elastic MapReduceの導入

3. EMR vs Hadoopの比較

4. EMR, Hadoopはこんな人におすすめ

5

Page 7: ATN No.1 Hadoop vs Amazon EMR

各製品の歴史(Hadoop)

1. 言わずとしれたJavaの分散処理環境ですね。

2. 2005年ごろから開発が始まり、現在に至る。

3. Yahoo版と、Cloudera版の配布形態があり、以前は違いが結構あった。

最近はバイナリ的には殆ど同じ、サポートの違いにのみになりつつあるようですね。

4. 「スケールアウトを手軽にしたいシステムならもうHadoop一択でいいんじゃないか!」・・・と私は思ってます。

6

Page 8: ATN No.1 Hadoop vs Amazon EMR

各製品の歴史(Elastic Map Reduce)

1. 端的に言えば、Elastic Map Reduce(以下

EMR)はHadoopをEC2で簡単に使えるようにしたサービスです。

2. 実はEMRは2009年から提供されています。

3. Hadoop Summit 2010で発表された機能追加で一気に使えるサービスになりました。

① Hadoop 0.20へバージョンアップ

② クラスタを動作させたままでのインスタンスの増減可能

7

Page 9: ATN No.1 Hadoop vs Amazon EMR

Elastic MapReduce導入

1. Elastic MapReduceは、Amazon EC2/S3と深く結びついているため、まずここらへんが使えるようにならないといけません。

Amazon S3はEMRのデータ置き場になるため、利用が(おそらく)必須です。

Amazon S3に巨大なデータを入れるのが思いの他時間がかかるので注意が必要です。

2. 課金のためのクレジットカード番号と、電話番号なんかの社会的な個人認証方式が必要になりますので、ニート的な人は注意。

8

Page 10: ATN No.1 Hadoop vs Amazon EMR

まとめ

Elastic Map Reduce

≒Amazon EC2上のHadoop

9

Page 11: ATN No.1 Hadoop vs Amazon EMR

Advanced Tech Night No.01

ご清聴ありがとうございました!

10

Hadoop vs Amazon EMR

Page 12: ATN No.1 Hadoop vs Amazon EMR

Advanced Tech Night No.01

某先輩が怒るので、真面目に比較します。

11

Hadoop vs Amazon EMR

Page 13: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較

No 内容 EMR Hadoop

1 導入コスト ○ほぼ無料。登録が手間。 ×ハードウェアのセットアップが必要。

2 対応言語 ○Java, Ruby, Python, C++な

ど、あらかじめ用意された言語

◎Hadoop Streaming, Pipes

を使えば何でもあり。

3 構成の柔軟性 ○EC2で提供される構成を手軽に選択

×なんでもできますが、それ相当のお金がかかります。

4 スケールアップ

スケールアウト

○スケールアップは基本無理。スケールアウトは簡単。

◎スケールアップ・アウトとも自由にできる。

5 運用コスト ×使えば使うだけ増加します。 ○基本的に電気代ぐらい。

6 性能 ×思いの他速い。

重い処理にはノード追加で対応。

○用意するハードウェアスペックによりけり。

7 耐障害性 ○Amazonが守ってくれるかも ×マシンが壊れたらそれでまで

12

Page 14: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較~導入コスト

13

課金は思いの他安い。どんなに失敗しても1000円いかないはず。EC2のアカウントがあれば、ものの数分で動作環境が整う手軽さ。マシンを用意しなくても良く、Hadoopのインストールに手間取ることもない。

EMR

ハードウェアを用意するところから始まるが、普通PCの自作大好きだから問題なし!Hadoopのインストールではまっても、「経験値があがった」と思って前向きに頑張る!

Hadoop

Page 15: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較~対応言語

14

主にRuby, Javaを推奨している?利用例もこの2つが多い。それ以外にもHadoop Streamingが使え、C++、Python、PHP

なども利用が可能になっている。

EMR

Hadoop Streaming, Hadoop Pipesを使って自由に言語を組み合わせられる。設定に困ったら「教えてgoo」とかで生温かくサポートしてもらおう。

Hadoop

Page 16: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較~構成の柔軟性

15

インスタンスのスペックをカスタマイズはできないが、EC2

で提供されている様々なサービスを利用可能。特に手軽にNVIDIA Teslaがつかえる"Cluster GPU Instance"との組み合わせは、魅力的。

EMR

インスタンスのスペックを自由にカスタマイズできる。IOボトルネックならSSD導入も可能。高スペックなパーツの組み合わせを想像して興奮できる!

Hadoop

Page 17: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較~スケールアップ・スケールアウ

16

スケールアウトでの性能向上を得意としています。クラスタを再起動せずにインスタンスを追加できるのは、重い処理をしている際や、想定外のデータ量増加に効果的。逆にスケールアップは実質不可能。

EMR

スケールアウトでもスケールアップでも自由にできます。皆さんの居住スペースや作業スペースが減ってもキニシナイ!

Hadoop

Page 18: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較~運用コスト

17

数Gbyte程度のデータ処理なら数百円程度。想像よりもお金はかかりませんでした。定常的なバッチ処理やインスタンスの過剰追加で、"EMR bunkrupt"する人たちがいるので、運用時には注意が必要。

EMR

電気代くらい?あと掃除の手間。ハードウェアが壊れたりするとコストが跳ね上がるけれど、まあ、それも歓びのうち。

Hadoop

Page 19: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較~運用コスト

ちなみに、EC2もEMRも、どこのリージョンを使うかによって、コストと出来ることが変わってきます。

18

リージョン EC2コスト EMRコストGPGPU

使える?

米国東部 $0.085/時間 $0.015/時間 ○

米国西部 $0.095/時間 $0.015/時間

EU $0.095/時間 $0.015/時間

シンガポール

$0.095/時間 $0.015/時間

東京 $0.100/時間 $0.015/時間※コストはそれぞれ最少規模の金額です。

シンガポールは分かりませんが、米国東部とのネットワーク遅延は思いの他大きかったです。(私が評価した時は東京リージョンがありませんでした)そう考えると、少々高くても東京リージョンがお勧めですね。

Page 20: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較~性能面

19

現状でも手元のマシンと比べて特段遅いとは感じない。時間がたてば、ノードの性能が勝手に上昇していくクラウドの優位性があります。クラウド上のサービスのため、ネットワーク帯域・遅延に影響を受けやすいです。特に大量データのアップロードとか。

EMR

Map/Reduceを立ち上げるごとに巨大データをロードするとか、単一ノードに高い負荷がかかる、非常に重いロジックを処理する際に、最適な環境を構築できます。

Hadoop

Page 21: ATN No.1 Hadoop vs Amazon EMR

EMR vs Hadoopの比較~耐障害性

20

Amazonのデータセンタがつぶれない限りは問題ないはず。リージョンを移し替えることも比較的容易にできる。

EMR

地震でラックが倒れてきたら、あなたの腕力でカバー!計画停電も自家発電で対抗可能。

Hadoop

Page 22: ATN No.1 Hadoop vs Amazon EMR

EMRはこんな人におすすめ!

1. とにかくスモールスタートで始めたい

Amazon EC2を利用する準備があれば、すぐに使い始められます。

2. マシンを物理的に何台も用意したくない人

インスタンスの増減が数クリックで実現できます。

3. クラウド上で完結する処理を主に扱う人

4. 重い処理を定常的に行わない人

21

Page 23: ATN No.1 Hadoop vs Amazon EMR

Hadoopはこんな人におすすめ!

1. 運用コストで思いもよらない金額を請求されたくない人。そういうのが見積もれない人

2. 扱うデータをクラウド上に置きたくない・置けない人

処理結果を高頻度でDBに反映させる必要性あり

3. スケールアウトより、スケールアップをはかる必要がある人

ノードで実行するロジックのCPU負荷が高い

4. 既存システムとMapReduce処理を連携させたい人

22

Page 24: ATN No.1 Hadoop vs Amazon EMR

まとめ

1. EMRはHadoopをEC2上で使えるようにしたもの。2010年の機能追加で使い勝手が一気によくなりました。

2. EMRは思ったよりも低コストで運用できる。今回のセミナー用の調査でも1000円ぐらい・・のはず。

3. 個人でも、少しお金がかかっても手軽に使いたいならばEMR、とことん自分で作りこみたいならHadoopと住み分けられる・・・はず。

23

私は手元で全部動かしたいので、ローカルでHadoop使うと思いますが・・・

Page 25: ATN No.1 Hadoop vs Amazon EMR

Advanced Tech Night No.01

ご清聴ありがとうございました。本当に。

24

Hadoop vs Amazon EMR