cloudera大阪セミナー 20130219
DESCRIPTION
2013/02/19に開催された、大阪セミナーでの資料です。 Cloudera Managerを使用してCDHをインストールするデモ動画はこちら↓ https://vimeo.com/49643526/TRANSCRIPT
Cloudera のビッグデータ技術~ Hadoop と CDH 、 Cloudera Manager ~
Cloudera 株式会社 小林大輔2012/02/19
2
アジェンダ
• Hadoop とは?• Cloudera が提供する Hadoop ディストリ
ビューション• Hadoop の運用について• 運用管理ツールのご紹介
3
自己紹介
• 小林大輔• カスタマーオペレーションズエンジニアと
してテクニカルサポート業務を担当
( 小中高を神戸の田舎の方で過ごしました )( いまは両親とも東京に移住済み )
4
Hadoopとは?
5
データ処理の課題
• ストレージ• データをどこにどう貯めておくか
• 処理• データをどこでどう計算するか
6
ストレージの容量
1997 2004 20120
500
1000
1500
2000
2500
3000
3500
2.1
200
3000
HDD単体容量 (GB)
7
ストレージの価格
1997 2004 2012$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$157.00
$1.05 $0.05
GBあたりのコスト
8
ディスクの性能
1997 2004 20120.0
50.0
100.0
150.0
200.0
250.0
16.6
56.5
210.0
転送レート (MB/s)
9
ディスク読み込み時間
• ディスク全体の読み込み時間はむしろ増えている状況といえる
年 容量 時間
1994 年 2.1GB 126 秒
2004 年 200GB 59 分
2012 年 3000GB 3 時間 58 分
10
ディスク読み込み時間
• ディスク全体の読み込み時間はむしろ増えている状況といえる
年 容量 時間
1994 年 2.1GB 126 秒
2004 年 200GB 59 分
2012 年 3000GB 3 時間 58 分
11
つまり、、、
• ディスク容量は増え、価格も下がった• しかし、データを読み書きする速度 (I/O)
はそれほど改善されていない
データアクセスがボトルネックになる
12
• 一般的に計算処理は CPU に依存• ムーアの法則
「マイクロプロセッサの性能は 18 ヶ月で 2 倍になる」
• iPhone5 の CPU は、 1977 年に発表された富士通のスーパーコンピュータ、FACOM 230-75 の 20 倍
処理
13
• 一般的に計算処理は CPU に依存• ムーアの法則
「マイクロプロセッサの性能は 18 ヶ月で 2 倍になる」
• iPhone5 の CPU は、 1977 年に発表された富士通のスーパーコンピュータ、FACOM 230-75 の 20 倍
処理
14
大規模処理をしようと思ったら、、、
• 現代の大規模処理はマシン間で処理を分散する• 分散処理システムが必要
「開拓時代には重いものを引くのに雄牛が使われたものですが、一頭の雄牛が丸太を
引くことができなくても、もっと大きな雄牛を育てようとはしませんでした」
Grace Hopper: 初期の分散コンピューティングの研究者
15
分散処理の問題:データ処理のボトルネック
• 少量のデータでは問題ない• 計算サーバーが増えると悪化する
• ネットワーク間の通信による
16
分散処理の問題:複雑さ
• 可用性• 部分障害• 連鎖障害• データの一貫性• イベントの同期• 帯域の制限• …..• …..
17
分散処理の問題:複雑さ
• 可用性• 部分障害• 連鎖障害• データの一貫性• イベントの同期• 帯域の制限• …..• ….. そこで登場したのが Hadoop
18
Hadoop とは何か?
• コモディティハードウェアにより構成される
• スケールアウト型のアーキテクチャ• Hadoop は Google の論文を参考に開発
されている
20
Hadoop での解決:ディスクのパフォーマンス
• 複数のディスクを並列に使用する• 単一ディスクの転送レートが 210MB/s
• 3TB のデータ読み込みには約 4 時間• 1000 台並列であれば 210GB/s
• 3TB のデータ読み込みには 15 秒弱
22
Hadoop での解決:複雑さと耐障害性
• MapReduce プログラミングモデルにより処理を単純化
• 障害が不可避であるという前提で動作• 大規模なクラスタであれば、 1日あた
り 1 台の障害が起こりうる• MTBF(平均故障間隔 ) が 5 年、 2000 台と仮定• 365日 *5 年 =1825日 ( ほぼ 2000日 )
Hadoop とは ?
23
• コモディティハードウェアにより構成される
• スケールアウト型のアーキテクチャ• 耐障害性を備えている• オープンソースのソフトウェア
Hadoop のコアコンポーネント
24
HDFS
自己修復機能を持つ
分散ストレージ
MapReduce
分散コンピューティング・フレームワーク
HDFS
• Hadoop の分散ファイルシステム• 大量のデータを多数のノードに分散し
て保存する• 耐障害性が高く、シーケンシャルアク
セスに対するスループットが高い•低レイテンシのデータアクセスや小さ
いファイルへのアクセスは苦手
25
26
HDFS
自己修復機能を持つ高帯域なクラスタストレージ
1
2
3
4
5
2
4
5
HDFS
1
2
5
1
3
4
2
3
5
1
3
4
HDFSは受け取ったファイルをブロックに分割し、そのブロックをクラスタ全体にわたって重複して格納します
27
HDFS
1 つのサーバが壊れても自動複製
2
4
5
1
1
2
5
3
1
3
4
2
3
5
4
1
3
4
生きているノードに自動的に複製し、常に 3 つのレプリカがあるようにす
る
MapReduce
©2011 Cloudera, Inc. All Rights Reserved.
28
分散コンピューティングフレームワーク
1
2
3
4
5
2
4
5
MR
1
2
5
1
3
4
2
3
5
1
3
4
多数のノード間で大規模ジョブを並列処理し、処理結果を結合します
なぜMapReduce か?
• データを取得するのではなく、データのある場所にプログラムを送信して計算する
• データを HDFS に保存することで耐障害性の確保• ノード障害発生時にはそのノードの処理分だけ再実行
29
Hadoop の周辺コンポーネント
分散ファイルシステムAPACHE HDFS
大規模分散処理基盤APACHE MapReduce
分散データベースAPACHE HBase
高級言語とライブラリAPACHE Hive, APACHE Pig, APACHE Mahout
ワークフローとスケジューリングAPACHE Oozie
クラウドでの分散処理ライブラリAPACHE Whirr
分散協調サービスAPACHE ZooKeeper
Hadoopと RDBMSとの連携APACHE Sqoop
分散ログストリーミング処理APACHE Flume
30
Hadoop の周辺コンポーネント
分散ファイルシステムAPACHE HDFS
大規模分散処理基盤APACHE MapReduce
分散データベースAPACHE HBase
高級言語とライブラリAPACHE Hive, APACHE Pig, APACHE Mahout
ワークフローとスケジューリングAPACHE Oozie
クラウドでの分散処理ライブラリAPACHE Whirr
分散協調サービスAPACHE ZooKeeper
Hadoopと RDBMSとの連携APACHE Sqoop
分散ログストリーミング処理APACHE Flume
• Hadoop を使ってみたい• コンポーネント毎にソースをダウンロードしてきてビルドする• 各サーバーにデプロイする• どのバージョンにどの修正が含まれているのか把握するのは困難
• 互換性の問題
31
Cloudera が提供する Hadoop ディストリビューション
• CDH(Cloudera’s Distribution including Apache Hadoop)
• 主要コンセプトは 4 つ• 大規模データの蓄積• 並列処理• データインテグレーション• 言語とインタフェース
• CDH では、これらのコンセプトを実現するための様々なコンポーネントを用意
32
なぜ CDH なのか ?
• CDH には大量のパッチが当てられています• 性能改善・バグ修正パッチ• 互換性を維持できる範囲での機能追加
• CDH はパッケージで管理できます• yum コマンドで簡単にインストール / アップデート可能
• コミュニティ版を使うとコンポーネントごとにダウンロード、コンパイル、デプロイを行う必要がある
CDHはエンタープライズ向けのHadoopディストリビューションです
33
34
CDH3Q2 2011
2009 2010 2011 20122012/06
2012/09
CDH2Q1 2010
CDH1Q3 2009
高可用性ネームノード (NFS)複数のデータ処理フレームワーク(MR1 と
MR2)etc…
CDH42012/06
CDH 開発の歴史
高可用性ネームノード ( クォーラムベースストレージ )Hue の Oozie ワークフロー GUI と日本語化統計分析用 Pig ライブラリ DataFuetc…
CDH4.12012/09
35
Hadoopの運用について
36
Hadoop の運用
• 必要になる作業• クラスタの管理と監視• 設定• 設定パラメータ• メンテナンス• パフォーマンス監視• アクセス管理
37
Hadoop の運用
• Hadoop は複雑なシステム• 非常に多くの要素がある• ネットワークやストレージなど、考慮することが多い
•設定項目も膨大• サポートで問い合わせをうける問題も、設定ミスによるものであるケースが多い
38
Hadoop の運用
• Apache Hadoop は複雑なシステム• 非常に多くの要素がある• ネットワークやストレージなど、考慮することが多い
•設定項目も膨大• サポートで問い合わせをうける問題も、設定ミスによるものであるケースが多い
• Hadoop の運用は難しく、大変• Cloudera が提供する運用管理ソフトが
これらの問題 /不安を解消します= Cloudera Manager
39
Cloudera Manager とは
• エンタープライズ規模の Hadoopユーザーの必要に応じて設計されたアプリケーション
• Hadoop をノードにインストール• クラスタにホストの追加/削除、サービスを設定• クラスタの動作を監視• クラスタの使用量のレポートを生成• クラスタにアクセスするユーザーを管理
日本語に対応!
ダッシュボード
40
パフォーマンスと使用量のレポート
41
42
CDH をインストールする
• Cloudera Manager を使用します• Web アプリケーションなので、操作は
すべてブラウザから行います• GUI は日本語化対応済みです
43
デモ動画https://vimeo.com/49643526
44
Cloudera Manager の種類
• Free Edition• 無償でダウンロード可能• インストールと基本的な設定を容易にする
• Enterprise Edition• エンタープライズ/商用向けの機能を含んで
いる• Free Edition から容易にアップデート可能
45
Free Edition の制限
• Free Edition では 50ノードまでサポート• Enterprise Edition は制限なし
• Free Edition にはエンタープライズ用の機能が含まれない
• サービス監視• LDAP/Kerberos統合• イベント管理とアラート• アクティビティモニタ• レポート機能• サポートシステムとの統合
46
ダウンロードして試してみてください
• https://ccp.cloudera.com/display/support/downloads
•弊社 Web サイトのトップページから、
「 RESOURCES 」-> 「 Download Cloudera Manager 」と辿ってください
47
今日話したこと
• Hadoop とは?• Cloudera が提供する Hadoop ディストリ
ビューション• Hadoop の運用について• Cloudera Manager のご紹介
48