atn no.1 hadoop vs amazon emr

Post on 02-Jul-2015

1.415 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Advanced Tech Night No.01

Hadoop vs Amazon EMR

2011/04/22

Acroquest Technology 株式会社

橋本 拓也

はじめに

1. 簡単に自己紹介。

2. Acroquest Technology テクニカルコンサルタント橋本 拓也

3. JaTS(Javaトラブルシューティング)を中心に、プロジェクトの障害解析・障害回避を仕事としています。

4. Hadoopは個人的に注目して触っています。それを自慢げに話していたら、プロジェクトでHadoop使うことになってオタオタしました。 1

どんな仕事をしているか?

2

JaTS never ending story

(http://www.acroquest.co.jp/jats_novel/index.html) より抜粋

目的

1. Hadoopと比べていまいち知名度の低いAmazon EMR(Elastic Map Reduceの略)がどんなものだか、調べてみました。

2. 「Hadoopをやっと使えるようになったと

思ったら、また変なのが出てきた!」とプレスリリースで思ったので、何が凄いのか試してみました。

3

この発表の前提

1. 私は身内びいきな傾向が強いので、

「Hadoopサイコー、後発のAmazon EMRなん

てっ!」というのが大前提です。

実はこの後発というのさえ間違いなのですが・・・

2. そのため、大分偏った評価になるかもしれませんが、ご了承を。

4

内容

1. 各製品の歴史

2. Elastic MapReduceの導入

3. EMR vs Hadoopの比較

4. EMR, Hadoopはこんな人におすすめ

5

各製品の歴史(Hadoop)

1. 言わずとしれたJavaの分散処理環境ですね。

2. 2005年ごろから開発が始まり、現在に至る。

3. Yahoo版と、Cloudera版の配布形態があり、以前は違いが結構あった。

最近はバイナリ的には殆ど同じ、サポートの違いにのみになりつつあるようですね。

4. 「スケールアウトを手軽にしたいシステムならもうHadoop一択でいいんじゃないか!」・・・と私は思ってます。

6

各製品の歴史(Elastic Map Reduce)

1. 端的に言えば、Elastic Map Reduce(以下

EMR)はHadoopをEC2で簡単に使えるようにしたサービスです。

2. 実はEMRは2009年から提供されています。

3. Hadoop Summit 2010で発表された機能追加で一気に使えるサービスになりました。

① Hadoop 0.20へバージョンアップ

② クラスタを動作させたままでのインスタンスの増減可能

7

Elastic MapReduce導入

1. Elastic MapReduceは、Amazon EC2/S3と深く結びついているため、まずここらへんが使えるようにならないといけません。

Amazon S3はEMRのデータ置き場になるため、利用が(おそらく)必須です。

Amazon S3に巨大なデータを入れるのが思いの他時間がかかるので注意が必要です。

2. 課金のためのクレジットカード番号と、電話番号なんかの社会的な個人認証方式が必要になりますので、ニート的な人は注意。

8

まとめ

Elastic Map Reduce

≒Amazon EC2上のHadoop

9

Advanced Tech Night No.01

ご清聴ありがとうございました!

10

Hadoop vs Amazon EMR

Advanced Tech Night No.01

某先輩が怒るので、真面目に比較します。

11

Hadoop vs Amazon EMR

EMR vs Hadoopの比較

No 内容 EMR Hadoop

1 導入コスト ○ほぼ無料。登録が手間。 ×ハードウェアのセットアップが必要。

2 対応言語 ○Java, Ruby, Python, C++な

ど、あらかじめ用意された言語

◎Hadoop Streaming, Pipes

を使えば何でもあり。

3 構成の柔軟性 ○EC2で提供される構成を手軽に選択

×なんでもできますが、それ相当のお金がかかります。

4 スケールアップ

スケールアウト

○スケールアップは基本無理。スケールアウトは簡単。

◎スケールアップ・アウトとも自由にできる。

5 運用コスト ×使えば使うだけ増加します。 ○基本的に電気代ぐらい。

6 性能 ×思いの他速い。

重い処理にはノード追加で対応。

○用意するハードウェアスペックによりけり。

7 耐障害性 ○Amazonが守ってくれるかも ×マシンが壊れたらそれでまで

12

EMR vs Hadoopの比較~導入コスト

13

課金は思いの他安い。どんなに失敗しても1000円いかないはず。EC2のアカウントがあれば、ものの数分で動作環境が整う手軽さ。マシンを用意しなくても良く、Hadoopのインストールに手間取ることもない。

EMR

ハードウェアを用意するところから始まるが、普通PCの自作大好きだから問題なし!Hadoopのインストールではまっても、「経験値があがった」と思って前向きに頑張る!

Hadoop

EMR vs Hadoopの比較~対応言語

14

主にRuby, Javaを推奨している?利用例もこの2つが多い。それ以外にもHadoop Streamingが使え、C++、Python、PHP

なども利用が可能になっている。

EMR

Hadoop Streaming, Hadoop Pipesを使って自由に言語を組み合わせられる。設定に困ったら「教えてgoo」とかで生温かくサポートしてもらおう。

Hadoop

EMR vs Hadoopの比較~構成の柔軟性

15

インスタンスのスペックをカスタマイズはできないが、EC2

で提供されている様々なサービスを利用可能。特に手軽にNVIDIA Teslaがつかえる"Cluster GPU Instance"との組み合わせは、魅力的。

EMR

インスタンスのスペックを自由にカスタマイズできる。IOボトルネックならSSD導入も可能。高スペックなパーツの組み合わせを想像して興奮できる!

Hadoop

EMR vs Hadoopの比較~スケールアップ・スケールアウ

16

スケールアウトでの性能向上を得意としています。クラスタを再起動せずにインスタンスを追加できるのは、重い処理をしている際や、想定外のデータ量増加に効果的。逆にスケールアップは実質不可能。

EMR

スケールアウトでもスケールアップでも自由にできます。皆さんの居住スペースや作業スペースが減ってもキニシナイ!

Hadoop

EMR vs Hadoopの比較~運用コスト

17

数Gbyte程度のデータ処理なら数百円程度。想像よりもお金はかかりませんでした。定常的なバッチ処理やインスタンスの過剰追加で、"EMR bunkrupt"する人たちがいるので、運用時には注意が必要。

EMR

電気代くらい?あと掃除の手間。ハードウェアが壊れたりするとコストが跳ね上がるけれど、まあ、それも歓びのうち。

Hadoop

EMR vs Hadoopの比較~運用コスト

ちなみに、EC2もEMRも、どこのリージョンを使うかによって、コストと出来ることが変わってきます。

18

リージョン EC2コスト EMRコストGPGPU

使える?

米国東部 $0.085/時間 $0.015/時間 ○

米国西部 $0.095/時間 $0.015/時間

EU $0.095/時間 $0.015/時間

シンガポール

$0.095/時間 $0.015/時間

東京 $0.100/時間 $0.015/時間※コストはそれぞれ最少規模の金額です。

シンガポールは分かりませんが、米国東部とのネットワーク遅延は思いの他大きかったです。(私が評価した時は東京リージョンがありませんでした)そう考えると、少々高くても東京リージョンがお勧めですね。

EMR vs Hadoopの比較~性能面

19

現状でも手元のマシンと比べて特段遅いとは感じない。時間がたてば、ノードの性能が勝手に上昇していくクラウドの優位性があります。クラウド上のサービスのため、ネットワーク帯域・遅延に影響を受けやすいです。特に大量データのアップロードとか。

EMR

Map/Reduceを立ち上げるごとに巨大データをロードするとか、単一ノードに高い負荷がかかる、非常に重いロジックを処理する際に、最適な環境を構築できます。

Hadoop

EMR vs Hadoopの比較~耐障害性

20

Amazonのデータセンタがつぶれない限りは問題ないはず。リージョンを移し替えることも比較的容易にできる。

EMR

地震でラックが倒れてきたら、あなたの腕力でカバー!計画停電も自家発電で対抗可能。

Hadoop

EMRはこんな人におすすめ!

1. とにかくスモールスタートで始めたい

Amazon EC2を利用する準備があれば、すぐに使い始められます。

2. マシンを物理的に何台も用意したくない人

インスタンスの増減が数クリックで実現できます。

3. クラウド上で完結する処理を主に扱う人

4. 重い処理を定常的に行わない人

21

Hadoopはこんな人におすすめ!

1. 運用コストで思いもよらない金額を請求されたくない人。そういうのが見積もれない人

2. 扱うデータをクラウド上に置きたくない・置けない人

処理結果を高頻度でDBに反映させる必要性あり

3. スケールアウトより、スケールアップをはかる必要がある人

ノードで実行するロジックのCPU負荷が高い

4. 既存システムとMapReduce処理を連携させたい人

22

まとめ

1. EMRはHadoopをEC2上で使えるようにしたもの。2010年の機能追加で使い勝手が一気によくなりました。

2. EMRは思ったよりも低コストで運用できる。今回のセミナー用の調査でも1000円ぐらい・・のはず。

3. 個人でも、少しお金がかかっても手軽に使いたいならばEMR、とことん自分で作りこみたいならHadoopと住み分けられる・・・はず。

23

私は手元で全部動かしたいので、ローカルでHadoop使うと思いますが・・・

Advanced Tech Night No.01

ご清聴ありがとうございました。本当に。

24

Hadoop vs Amazon EMR

top related