greenplum database - データ ストレージ、コンバー …...
TRANSCRIPT
東京都渋谷区代々木 2-1-1新宿マインズタワー〒151-0053http://japan.emc.com
EMCジャパン株式会社
EMC2、EMC、Greenplum、Greenplum DatabaseおよびEMCロゴは、EMC Corporationの登録商標、または商標です。これらの商標は、日本または諸外国で 商標登録等により、適用法令で守られている場合があります。他のすべての名称ならびに製品についての商標は、それぞれの所有者の商標または登録商標です。
© Copyright 2012 EMC Corporation. 不許複製
SG1046-1 7/12
● お問い合わせは
お問い合わせはhttp://japan.emc.com/contact/
2012年7月版
構造化データと非構造化データ処理の連携
● 対象: 業務データ● データフォーマットは事前に規定● SQLによるクエリ● MPP(Massive Parallel Processing)型データ ベースによる効率的な処理
構造化データ処理
Greenplum Database大規模並列データベース
● 対象: ログ、Webテキスト、画像、センサ入力● データフォーマットはさまざま● プログラミング・インターフェースでロジックを記述、利用時にデータ解釈
非構造化データ処理
Greenplum MRHadoop ディストリビューション
Greenplum Databaseビッグデータ時代のデータマネジメント基盤スケールアウト型・超並列データベース
ソフトウェア仕様Red Hat Enterprise Linux 64-bit 5.5, 5.6, 5.7, 6.1 SUSE Linux Enterprise Server 64-bit 10 SP4, 11 SP1 Solaris x86 64-bit v10 U7, U8, U9, U10Oracle Unbreakable Linux 64-bit 5.5 CentOS 64-bit 5.5, 5.6, 5.7
Mac OS X 10.5以降Red Hat Enterprise Linux 64-bit 5.5, 5.6, 5.7, 6.1 CentOS 64-bit 5.5, 5.6, 5.7
<本番環境>
<開発・評価環境>
SUSE Linux, Red Hat Enterprise Linuxではデータ領域に XFS, Solarisではデータ領域に ZFSを使用
サーバあたり16GB以上
ギガビットEthernetスイッチまたは10ギガビットEthernetスイッチ
<本番環境> x86 64ビット<開発・評価環境> x86 32/64ビット
標準ディスク・インターフェイス規格(SATA/SAS)ストレージ・エリア・ネットワーク(SAN)
OS
ファイル・システム
プロセッサ
メモリ容量
ディスク
ネットワーク
Greenplum
MR
GreenplumDatabase
Greenplum Databaseの外部テーブル機能により、HDFS(Hadoop Distributed File System)に存在
するデータに Greenplum Database 経由でのアクセスが可能です。
Greenplum DatabaseとHDFSとの間
でファイルの読み取り /書き込みを双
方向にパラレル実行できるため、高速
かつシンプルなデータ共有を実現でき
ます。
プラットフォームをまたがって構造化
データと非構造化データを統合して分
析できるビッグデータ分析プラット
フォームを実現します。
Hadoopとのシームレスな連携
これまでの基幹系システムのデータベースで扱っていた構造化データをGreenplum Databaseに取り込む
一方で、企業内外の様々な非構造化データはGreenplum MRクラスタに蓄積し、必要な加工・分析を経て
Greenplum Databaseに
集約します。Greenplum
Databaseの並列処理能
力を最大限に生かし、
ユーザは慣れ親しんだ
SQLインターフェースで
様々な集計や分析を行い、
Greenplum Databaseに
接続したBI/レポーティ
ングツールを含む様々
なアプリケーションで結
果を活用することが可能
です。
ビッグデータ時代のエンタープライズ・システム
Greenplum DBセグメント・サーバ
Greenplum DBセグメント・サーバ
Greenplum DBセグメント・サーバ
Greenplum DBマスター・サーバ
Hadoopネーム・ノード
Hadoopデータ・ノード
Hadoopデータ・ノード
Hadoopデータ・ノード
Hadoopデータ・ノード
メタデータ通信
データ通信
Greenplum DatabaseとGreenplum MRの高速データ連携● DB側からHadoopに対するSQLアクセス● Hadoop側からDBに対するJava API(JDBC)アクセス
ソフトウェア・ソリューション
アプライアンス・ソリューション
シェアードナッシング・アーキテクチャによる高速DB処理
SQLを解析し、セグメントサーバのための最適な並列実行プランを作成
gNetソフトウェアインタコネクトによるセグメント間の効率的なデータ送受信
パラレルデータフローエンジンが、ハードサーバ性能を最大活用
パラレルロードによる、高速ローディング
マスターサーバクエリプランニング&ディスパッチ
セグメントサーバクエリの実行&データの格納
外部ソースローディング、ストリーミング等
ネットワークインタコネクト
SQL
TB/h
10
0
20
30
40
�
従来のMPP
GreenplumDatabase
1.ロード 2.スキャン 3.結合 4.集約 5.アンロード
ノード#1
ノード#1 ノード#1 ノード#1
ノード#2 ノード#2 ノード#2 ノード#1
ノード#3 ノード#3 ノード#3
ノード#1 ノード#1 ノード#1
ノード#2 ノード#2 ノード#2
ノード#3 ノード#3 ノード#3
ノード#1
ノード#2
ノード#3
ノード#1
ノード#2
ノード#3
ノード#n ノード#n ノード#n ノード#n ノード#n
ノード#1
シェアードエブリシングアーキテクチャ
ノード#1 ノード#1 ノード#1 ノード#1 ノード#1
コモディティ・ハードウェア
ネットワークスイッチ
IAサーバ
データベースの乱立物理システムのサイロ化管理コストの増大
クラウド/仮想化基盤上でのデータベース統合管理コストの削減
Greenplum Databaseはラック数に比例してロード性能が向上
● ハードウェア、ソフトウェア導入済み統合アプライアンス
● 短期間での導入が可能
● 保守ワークロードの削減
● ペタバイトクラスまでのリニア・スケーラビリティ
OS
データ分析を通じて企業の製品やサービスを差別化し競争力を強化する「ビッグデータ時代」
が訪れています。企業内に保有する構造化データ、非構造化データのさらなる活用と企業外に
存在する様々なデータを統合して分析することでビジネスにイノベーションを起こすことを多
くの企業が目指しています。
Greenplum Databaseは、 Greenplum® が提唱する統合分析基盤の中核製品です。数百ギガ
バイトの小規模システムから数ペタバイトまでの超大規模システムまでの拡張性を超並列処理
MPP(Massively Parallel Processing)、スケールアウトアーキテクチャにより実現しています。
Greenplum Databaseのデータロード性能は 「パラレル・ローディング」 機能により、従来のデータウェアハ
ウス製品と比較して圧倒的に高速です。マスターサーバを経由せずに、データソースからセグメントサーバ
にパラレルに直接データをロードすることにより、高速ローディングを実現しています。ローディング性能の
高速化に加えて、セグメントサーバを追加するとデータロード性能がリニアに向上するデータローディング
処理におけるスケールアウトを実現しています。
製品の特徴1. 高性能
● パラレル・ローディング● 処理全般にわたるパラレル処理● カラムストア・ローストア
2. スケールアウト方式による拡張性● スモールスタート● クラウド環境への対応
3. コストパフォーマンス● 容量課金● 必要なタイミングで拡張● コモディティHW
ビックデータ時代をリードするGreenplum Database®
パラレル・ローディング
従来のMPPアーキテクチャ、シェアードエブリシング・アーキテクチャにおいては、いくつかのフェーズにお
いて パラレル処理が行われずボトルネックが発生することが課題でした。Greenplum Databaseはデータ
ロード、クエリ処理、アンロードまで全ての処理フェーズにおいてパラレル処理を実現しています。
さらにセグメントサーバの追加をすることでパラレル度を容易に上げることが可能です。より大規模な並列
分散処理で、ビッグデータ時代のデータマネジメント基盤を実現します。
処理全般にわたるパラレル処理
Greenplum Databaseは、一般的なDBで使われているローストアと集計処理の高速化、I/O負荷の軽減や
圧縮効率化を可能にするカラムストアを、求められる性能やデータ格納効率に応じて、選択可能です。さらに、一
つのテーブル中でこれらのストア方式を混在させることも可能です。混在させて使用しても、一つのテーブ
ルとして透過的に見えるので、ユーザからはストア方式を意識すること無く、使用することができます。
カラムストア・ローストア
高性能
Greenplumのライセンス形態は、ビジネスの要件に合わせて、
ユーザーデータの容量に対して課金するライセンス形態を採用
しています。パフォーマンス向上のためにCPUやサーバを追加し
た場合でも、ユーザーデータの容量が同じであれば追加ライセ
ンスは発生しません。
容量課金 : ビジネス要件に合ったライセンス形態
時系列で拡張時のコストを考えてみた場合、従来型RDBMSのス
ケールアップ方式では、拡張時には数年後の増加予測からキャ
パシティプランニングをして、それに合わせたスペックのサーバ
を用意するわけですが、増強したタイミングでは非常に無駄も発生
します。一方、Greenplumはスケールアウト方式を採用している
ので、最初は小さく始めて、ビジネスの成長に合わせて段階的に
拡張できます。
システムの成長に合わせて、性能や容量を必要な時に必要な分
だけ増強できます。
必要なタイミングで拡張
Greenplumは専用のハードウェアを使用することなく、コモディ
ティ製品のみで高速化を実現しています。特定のハードウェアの
仕様に縛られることなく汎用的なIAサーバとネットワークスイッ
チでDB環境を構築できますので、常に最新スペックのサーバ
やネットワークスイッチを使うことが可能で、高いコストパフォー
マンスを実現します。
コモディティ・ハードウェア
コストパフォーマンス
Greenplum Databaseは従来のMPPテクノロジーと異なり、サーバ1台からの真のスモールスタートを実現し
ます。負荷の増大に応じて、オンラインでサーバを追加し数百台規模のシステムまで拡張することが可能で
す。加えて、SANストレージを接続することでサーバ能力はそのままで、ストレージ容量のみを拡張することも
可能です。このように柔軟な拡張性を実現することでシステム設計時の詳細なキャパシティプランニング・コ
ストを大幅に削減し、より多くの時間を本来のデータ分析に割くことが可能となります。
スモールスタート
ITシステムの運用において、物理サーバの仮想化基盤への統合やクラウドサービスへの移行による管理コ
ストの削減は避けては通れない重要な課題です。このような背景の中、Greenplum Databaseは、LinuxOS
が稼働する環境であれば、物理環境、仮想化環境問わず稼働させることが可能です。クラウドサービス上で
稼働させることも可能です。これにより、従来のDWHシステムのように物理サーバを設置することなく、シ
ステム内の仮想化やクラウド化に親和性高く、データ活用のための基盤を構築することが可能となります。
クラウド環境への対応
スケールアウト方式による拡張性
Greenplum Databaseは、データウェアハウスに加えて、参照系処理の高速化やパッチ処理の高速化にも
高い効果を発揮します。
Greenplum Database の適用分野
機 能
主なユーザー■ 顧客■ 顧客窓口■ アナリスト
■ マネジメント■ アナリストー
■ オンライン参照■ レポーティング (定型帳票 /定型検索 )
■ レポーティング■ データマイニング /非定型検索
■ 集計■ データマート作成
■ 複数ユーザによる頻繁な検索 ■ 複数ユーザによる頻繁な検索と分析
■ バッチプロセスによるデータの集計とテーブル作成
サービス
ストアデータ 直近 3ヶ月のデータ 集計対象データ 過去 3年間の長期データ
参照系処理の高速化(キャッシュ)
アクセス・プロファイル
バッチ処理 データウェアハウス参照系処理の高速(キャッシュ) バッチ処理 データウェアハウス
(例)1TB
ユーザーデータの容量が変わらなければGreenplumに追加ライセンスは発生しません
サーバ追加して拡張
パフォーマンスは追加サーバの分だけ確実にUP!
リプレース/増設
ビジネスの成長に合った性能と容量
この期間はコストが割高
この期間は性能・容量不足
従来型DBの場合(スケールアップ)
性能と容量
性能と容量
スケールアウト型DBの場合
拡張 拡張 拡張
ビジネスの成長に合った性能と容量
小さく始めて 必要に応じて大きく
ソフトウェア・ソリューション
アプライアンス・ソリューション
シェアードナッシング・アーキテクチャによる高速DB処理
SQLを解析し、セグメントサーバのための最適な並列実行プランを作成
gNetソフトウェアインタコネクトによるセグメント間の効率的なデータ送受信
パラレルデータフローエンジンが、ハードサーバ性能を最大活用
パラレルロードによる、高速ローディング
マスターサーバクエリプランニング&ディスパッチ
セグメントサーバクエリの実行&データの格納
外部ソースローディング、ストリーミング等
ネットワークインタコネクト
SQL
TB/h
10
0
20
30
40
�
従来のMPP
GreenplumDatabase
1.ロード 2.スキャン 3.結合 4.集約 5.アンロード
ノード#1
ノード#1 ノード#1 ノード#1
ノード#2 ノード#2 ノード#2 ノード#1
ノード#3 ノード#3 ノード#3
ノード#1 ノード#1 ノード#1
ノード#2 ノード#2 ノード#2
ノード#3 ノード#3 ノード#3
ノード#1
ノード#2
ノード#3
ノード#1
ノード#2
ノード#3
ノード#n ノード#n ノード#n ノード#n ノード#n
ノード#1
シェアードエブリシングアーキテクチャ
ノード#1 ノード#1 ノード#1 ノード#1
コモディティ・ハードウェア
ネットワークスイッチ
IAサーバ
データベースの乱立物理システムのサイロ化管理コストの増大
クラウド/仮想化基盤上でのデータベース統合管理コストの削減
Greenplum Databaseはラック数に比例してロード性能が向上
● ハードウェア、ソフトウェア導入済み統合アプライアンス
● 短期間での導入が可能
● 保守ワークロードの削減
● ペタバイトクラスまでのリニア・スケーラビリティ
OS
データ分析を通じて企業の製品やサービスを差別化し競争力を強化する「ビッグデータ時代」
が訪れています。企業内に保有する構造化データ、非構造化データのさらなる活用と企業外に
存在する様々なデータを統合して分析することでビジネスにイノベーションを起こすことを多
くの企業が目指しています。
Greenplum Databaseは、 Greenplum® が提唱する統合分析基盤の中核製品です。数百ギガ
バイトの小規模システムから数ペタバイトまでの超大規模システムまでの拡張性を超並列処理
MPP(Massively Parallel Processing)、スケールアウトアーキテクチャにより実現しています。
Greenplum Databaseのデータロード性能は 「パラレル・ローディング」 機能により、従来のデータウェアハ
ウス製品と比較して圧倒的に高速です。マスターサーバを経由せずに、データソースからセグメントサーバ
にパラレルに直接データをロードすることにより、高速ローディングを実現しています。ローディング性能の
高速化に加えて、セグメントサーバを追加するとデータロード性能がリニアに向上するデータローディング
処理におけるスケールアウトを実現しています。
製品の特徴1. 高性能
● パラレル・ローディング● 処理全般にわたるパラレル処理● カラムストア・ローストア
2. スケールアウト方式による拡張性● スモールスタート● クラウド環境への対応
3. コストパフォーマンス● 容量課金● 必要なタイミングで拡張● コモディティHW
ビックデータ時代をリードするGreenplum Database®
パラレル・ローディング
従来のMPPアーキテクチャ、シェアードエブリシング・アーキテクチャにおいては、いくつかのフェーズにお
いて パラレル処理が行われずボトルネックが発生することが課題でした。Greenplum Databaseはデータ
ロード、クエリ処理、アンロードまで全ての処理フェーズにおいてパラレル処理を実現しています。
さらにセグメントサーバの追加をすることでパラレル度を容易に上げることが可能です。より大規模な並列
分散処理で、ビッグデータ時代のデータマネジメント基盤を実現します。
処理全般にわたるパラレル処理
Greenplum Databaseは、一般的なDBで使われているローストアと集計処理の高速化、I/O負荷の軽減や
圧縮効率化を可能にするカラムストアを、求められる性能やデータ格納効率に応じて、選択可能です。さらに、一
つのテーブル中でこれらのストア方式を混在させることも可能です。混在させて使用しても、一つのテーブ
ルとして透過的に見えるので、ユーザからはストア方式を意識すること無く、使用することができます。
カラムストア・ローストア
高性能
Greenplumのライセンス形態は、ビジネスの要件に合わせて、
ユーザーデータの容量に対して課金するライセンス形態を採用
しています。パフォーマンス向上のためにCPUやサーバを追加し
た場合でも、ユーザーデータの容量が同じであれば追加ライセ
ンスは発生しません。
容量課金 : ビジネス要件に合ったライセンス形態
時系列で拡張時のコストを考えてみた場合、従来型RDBMSのス
ケールアップ方式では、拡張時には数年後の増加予測からキャ
パシティプランニングをして、それに合わせたスペックのサーバ
を用意するわけですが、増強したタイミングでは非常に無駄も発生
します。一方、Greenplumはスケールアウト方式を採用している
ので、最初は小さく始めて、ビジネスの成長に合わせて段階的に
拡張できます。
システムの成長に合わせて、性能や容量を必要な時に必要な分
だけ増強できます。
必要なタイミングで拡張
Greenplumは専用のハードウェアを使用することなく、コモディ
ティ製品のみで高速化を実現しています。特定のハードウェアの
仕様に縛られることなく汎用的なIAサーバとネットワークスイッ
チでDB環境を構築できますので、常に最新スペックのサーバ
やネットワークスイッチを使うことが可能で、高いコストパフォー
マンスを実現します。
コモディティ・ハードウェア
コストパフォーマンス
Greenplum Databaseは従来のMPPテクノロジーと異なり、サーバ1台からの真のスモールスタートを実現し
ます。負荷の増大に応じて、オンラインでサーバを追加し数百台規模のシステムまで拡張することが可能で
す。加えて、SANストレージを接続することでサーバ能力はそのままで、ストレージ容量のみを拡張することも
可能です。このように柔軟な拡張性を実現することでシステム設計時の詳細なキャパシティプランニング・コ
ストを大幅に削減し、より多くの時間を本来のデータ分析に割くことが可能となります。
スモールスタート
ITシステムの運用において、物理サーバの仮想化基盤への統合やクラウドサービスへの移行による管理コ
ストの削減は避けては通れない重要な課題です。このような背景の中、Greenplum Databaseは、LinuxOS
が稼働する環境であれば、物理環境、仮想化環境問わず稼働させることが可能です。クラウドサービス上で
稼働させることも可能です。これにより、従来のDWHシステムのように物理サーバを設置することなく、シ
ステム内の仮想化やクラウド化に親和性高く、データ活用のための基盤を構築することが可能となります。
クラウド環境への対応
スケールアウト方式による拡張性
Greenplum Databaseは、データウェアハウスに加えて、参照系処理の高速化やパッチ処理の高速化にも
高い効果を発揮します。
Greenplum Database の適用分野
機 能
主なユーザー■ 顧客■ 顧客窓口■ アナリスト
■ マネジメント■ アナリストー
■ オンライン参照■ レポーティング (定型帳票 /定型検索 )
■ レポーティング■ データマイニング /非定型検索
■ 集計■ データマート作成
■ 複数ユーザによる頻繁な検索 ■ 複数ユーザによる頻繁な検索と分析
■ バッチプロセスによるデータの集計とテーブル作成
サービス
ストアデータ 直近 3ヶ月のデータ 集計対象データ 過去 3年間の長期データ
参照系処理の高速化(キャッシュ)
アクセス・プロファイル
バッチ処理 データウェアハウス参照系処理の高速(キャッシュ) バッチ処理 データウェアハウス
(例)1TB
ユーザーデータの容量が変わらなければGreenplumに追加ライセンスは発生しません
サーバ追加して拡張
パフォーマンスは追加サーバの分だけ確実にUP!
リプレース/増設
ビジネスの成長に合った性能と容量
この期間はコストが割高
この期間は性能・容量不足
従来型DBの場合(スケールアップ)
性能と容量
性能と容量
スケールアウト型DBの場合
性能と容量
拡張 拡張 拡張
ビジネスの成長に合った性能と容量
小さく始めて 必要に応じて大きく
東京都渋谷区代々木 2-1-1新宿マインズタワー〒151-0053http://japan.emc.com
EMCジャパン株式会社
EMC2、EMC、Greenplum、Greenplum DatabaseおよびEMCロゴは、EMC Corporationの登録商標、または商標です。これらの商標は、日本または諸外国で 商標登録等により、適用法令で守られている場合があります。他のすべての名称ならびに製品についての商標は、それぞれの所有者の商標または登録商標です。
© Copyright 2012 EMC Corporation. 不許複製
SG1046-1 7/12
● お問い合わせは
お問い合わせはhttp://japan.emc.com/contact/
2012年7月版
構造化データと非構造化データ処理の連携
● 対象: 業務データ● データフォーマットは事前に規定● SQLによるクエリ● MPP(Massive Parallel Processing)型データ ベースによる効率的な処理
構造化データ処理
Greenplum Database大規模並列データベース
● 対象: ログ、Webテキスト、画像、センサ入力● データフォーマットはさまざま● プログラミング・インターフェースでロジックを記述、利用時にデータ解釈
非構造化データ処理
Greenplum MRHadoop ディストリビューション
Greenplum Databaseビッグデータ時代のデータマネジメント基盤スケールアウト型・超並列データベース
ソフトウェア仕様Red Hat Enterprise Linux 64-bit 5.5, 5.6, 5.7, 6.1 SUSE Linux Enterprise Server 64-bit 10 SP4, 11 SP1 Solaris x86 64-bit v10 U7, U8, U9, U10Oracle Unbreakable Linux 64-bit 5.5 CentOS 64-bit 5.5, 5.6, 5.7
Mac OS X 10.5以降Red Hat Enterprise Linux 64-bit 5.5, 5.6, 5.7, 6.1 CentOS 64-bit 5.5, 5.6, 5.7
<本番環境>
<開発・評価環境>
SUSE Linux, Red Hat Enterprise Linuxではデータ領域に XFS, Solarisではデータ領域に ZFSを使用
サーバあたり16GB以上
ギガビットEthernetスイッチまたは10ギガビットEthernetスイッチ
<本番環境> x86 64ビット<開発・評価環境> x86 32/64ビット
標準ディスク・インターフェイス規格(SATA/SAS)ストレージ・エリア・ネットワーク(SAN)
OS
ファイル・システム
プロセッサ
メモリ容量
ディスク
ネットワーク
Greenplum
MR
GreenplumDatabase
Greenplum Databaseの外部テーブル機能により、HDFS(Hadoop Distributed File System)に存在
するデータに Greenplum Database 経由でのアクセスが可能です。
Greenplum DatabaseとHDFSとの間
でファイルの読み取り /書き込みを双
方向にパラレル実行できるため、高速
かつシンプルなデータ共有を実現でき
ます。
プラットフォームをまたがって構造化
データと非構造化データを統合して分
析できるビッグデータ分析プラット
フォームを実現します。
Hadoopとのシームレスな連携
これまでの基幹系システムのデータベースで扱っていた構造化データをGreenplum Databaseに取り込む
一方で、企業内外の様々な非構造化データはGreenplum MRクラスタに蓄積し、必要な加工・分析を経て
Greenplum Databaseに
集約します。Greenplum
Databaseの並列処理能
力を最大限に生かし、
ユーザは慣れ親しんだ
SQLインターフェースで
様々な集計や分析を行い、
Greenplum Databaseに
接続したBI/レポーティ
ングツールを含む様々
なアプリケーションで結
果を活用することが可能
です。
ビッグデータ時代のエンタープライズ・システム
Greenplum DBセグメント・サーバ
Greenplum DBセグメント・サーバ
Greenplum DBセグメント・サーバ
Greenplum DBマスター・サーバ
Hadoopネーム・ノード
Hadoopデータ・ノード
Hadoopデータ・ノード
Hadoopデータ・ノード
Hadoopデータ・ノード
メタデータ通信
データ通信
Greenplum DatabaseとGreenplum MRの高速データ連携● DB側からHadoopに対するSQLアクセス● Hadoop側からDBに対するJava API(JDBC)アクセス