メモリ最適化列ストアインデックスと 透過的な hadoop 操作を実...

22
メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実現する Parallel Data Warehouse エグゼクティブ プロダクト マネージャー 北川 SC-003

Upload: others

Post on 03-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

メモリ最適化列ストアインデックスと透過的な Hadoop 操作を実現する

Parallel Data Warehouse

エグゼクティブ プロダクト マネージャー

北川 剛

SC-003

Page 3: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

SQL Server 2012 Parallel Data Warehouse の導入により

100 倍の性能向上を実現

3

Red 1807

R186 G20 B26

“… SQL Server Parallel Data Warehouse を利用することで、以前は 20 分以上かかっていた基本的なクエリ処理が数秒で完了するようになった”- Tom Settle, Assistant VP, Data Warehousing, Hy-vee

利用効果大手総合食品・雑貨スーパー “Hy-Vee 社” では、経営層とアナリストの両者に、より早く正確な売上データの提供を目指し、MPP ベースの新しいデータ ウェアハウスの構築が急務となっていた。

PDWと、それに搭載された SQL Server は既存システムの 100 倍のクエリ性能を実現し、今までは 2 年分の売上データでしかできなかった処理を、7 年まで拡張するだけのスケーラビリティを有していた。

Page 4: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

激変する

“データ”を取り巻く環境

4

今後 5 年単位で、データ量

は 10 倍になる

データの

85%は新しいデータ形式

大人 1 人当たりのネット接続機器

4.3 台

人口の

27%がソーシャルメディアを利用

データ爆発

IT の

コンシューマリゼーション

“By 2015, organizations integrating high-value, diverse, new information types

and sources into a coherent information management infrastructure will

outperform their industry peers financially by more than 20% “- Gartner, Regina Casonato et al., “Information Management in the 21st Century”

Page 5: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

ビジネスにおいて

新しい「問いかけ」が生まれています。

5

Page 6: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

システムはその「問いかけ」に如何に応えるか

6

高額なアプライアンスの購入

レガシーシステムへの継続投資

スケーラビリティの制限

高額な投資専門性の高い教育への投資

ソリューションの複雑化

ソリューション技術の習得

高価な BI 製品の導入

Page 7: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

SQL Server 2012 Parallel Data Warehouse

新しいビッグデータ アプライアンス

7

成長に対応するスケーラビリティ

• データ量が増大しても機材追加により性能がスケールする

Big Data サポート

• Hadoop 上のデータとDWH 上のデータとを横串で操作可能

• 大規模データを処理可能

適正な価格

• 業界最安の Terabytes 単価

Page 8: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

新技術の習得を必要とする処理

今日におけるデータ解析の制限

8

HDFS(Hadoop)

MapReduce の習得

HDFS(Hadoop)

DWH(RDBMS)

SQL

分析前に必要なデータを HDFS から DWH へ取り込み

Page 9: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

制限をなくす

新しいビッグデータ アプライアンス

9

構造化・非構造化に依存しないクエリ技術• HDFS (Hadoop) と DWH (RDBMS) のテーブル

をまたがったクエリの実行が可能• 標準的な SQL 言語の利用

例: SELECT, FROM, WHERE etc…

既存の SQL技術知識を活用

既存 IT システムへの干渉なし

コストと時間の大幅な削減

全てのデータタイプを分析

HDFS(Hadoop)

RDBMS

SQL Server 2012

Parallel Data Warehouse

(PolyBase)

SQL

SQL Server 2012 Parallel Data Warehouse

Architecture

ビッグ データ分析に最適なツール• ネイティブな MS BI ツールの使用が可能• 構造化・非構造化データの Excel 内での共存• 既存アプリや幅広いソリューションとの統合

Page 10: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

HDFS と RDBMS との横断した分析の課題

10

HDFS(Hadoop)

RDBMSRDBMS にデータをロード

ボトルネック

Hadoop Cluster

Sqoop によるデータ連携の課題

Hadoop Cluster と RDBMS 間のデータ転送がボトルネックとなりパフォーマンスが劣化

ネームノード

Sqoop

データノード

データノード

データノード

データノード

データノード

データノード

RDBMS

コンピュート ノード

コンピュート ノード

コンピュート ノード

コンピュート ノード

コンピュート ノード

データノード

データノード

データノード

データノード

データノード

データノード

Hadoop Cluster SQL Server 2012Parallel Data Warehouse

SQL Server 2012 Parallel Data Warehouse の場合

クエリ実行時やデータの取り込み時などに、複数ノード間で、並列にデータ転送を実施し、高いパフォーマンスを実現

RDBMS DWH 肥大化コスト増大

Page 11: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

VideoPolybase を使用した HDFS 上のデータ操作

Page 12: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

12

Page 13: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

SMP におけるスケールアップの限界

13

Scale Up

• コンピューティング リソースをすべて共有しているため、その設計上の上限を超えることができない

• スケールアップを行うためには、より大きなサーバーに置き換えていく必要がある

Row Store

• Row Store では、データはテーブルにおけるレコードとして格納され、レコードを構成する値は全て同一ページに格納される

• DWH で実行される分析計クエリは集計操作など一部の値しか利用しないケースが多いため、処理に不要な値を返してしまう

… … ……

Existing Table (Partitions)

Page 14: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

xVelocity による性能限界の打破

クエリ処理性能を 50 倍以上に

14

カラムストアによる劇的な

性能向上

• 更新可能でクラスタ化されたカラムストア処理 (xVelocity)

• 独自のカラム フォーマットでのデータストア• メモリ上で最適化される事で効率的な CPU 処

理を実現• バルクローディング機能によるロード性能の

向上

50倍以上の処理性能

15倍以上の圧縮性能

時間とコストの大幅な削減

リアルタイム DWH の構築

Cu

stom

er_id

Cu

stom

er_N

am

e

Reven

ue

Ven

do

r_Nam

e

Loca

tion

Co

st

Page 15: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

Massively Parallel Processing (MPP) エンジンによる

SQL Server の完全なスケールアウト

15

MPP によるリニアな

スケールアウト

• スーパーコンピュータ仕様の MPP アーキテクチャ

• ユニット単位での HW 追加でリニアなスケールアウトを実現

• ウルトラ シェアード ナッシングによる処理性能の向上

対 SMP DW

10 倍の性能大規模タスク対応

リニアな性能向上

容易なスケールアウト

スケールアウト

Page 16: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

スモールスタートを可能にする柔軟な拡張性

TB から PB (Peta Bytes) までをカバー

16

スモールスタートを実現

• 成長性を見据えて最適規模からの DWH 構築

• 最大で 5 PB までの拡張性を実現

PB レベルの大規模DWH 対応

5PB

成長を見据えたスモールスタート

冗長化によるダウンタイムの排除

Page 17: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

仮想環境上に展開された複数の SQL Server で超並列処理を実行

ハードとソフトのデザインが同時進行

HW リソースを最大活用するためのビルトイン SW

17

組み込まれた

Windows Server2012 が リソー

スを最大限に活用

• HW 設置面積を最小化する仮想化技術の大幅活用

• 格納効率を上げるハイエンドストレージ搭載

コスト削減 予め最適構成を組込み

ホスト

Hyper-V

SQL Server Windows Server

Hyper-V

SQL Server Windows Server

Hyper-V

SQL Server Windows Server

コンピュート ノードのスケールアウトにより並列処理の能力を向上

Page 18: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

SQL Server 2012 Parallel Data Warehouse

基本的な構成

18

ストレージ

コンピュート ノード

コンピュート ノード

ストレージ

コンピュート ノード

コンピュート ノード

ストレージ

コンピュート ノード

コンピュート ノード

ストレージ

コンピュート ノード

コンピュート ノード

フェールオーバー 用

コントロールノード最小構成

(Base Scale Unit)

拡張

(Capacity Scale Unit)

Page 19: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

SQL Server 2012 Parallel Data Warehouse

内部アーキテクチャ

19

Microsoft Storage Space

ホスト 1

仮想マシン

コンピュート ノード 1

(COMP 1)

Microsoft Storage Space

MADストレージ

CTL

AD

VMM

DB 1

DB 2

COMP 2

COMP 1

ホスト 0

仮想マシン

コントロール

ノード

(CTL)

仮想マシン

マネジメント

ノード

(MAD)

仮想マシン

Active Directory

(AD)

仮想マシン

Virtual

Machine

Manager

(VMM)

フェールオーバー用スペア

Base Scale Unit

Direct attached SAS

In

fin

iban

d&

Eth

ern

et

Scale Unit

DB 3

DB 4スケールアウトによる拡張性

最小構成: 1/4 ラック (15 TB) 最大構成: 7 ラック (1,268 TB)

仮想マシン

コンピュート ノード 2

(COMP 2)

ホスト 2

ホスト 3

COMP3

COMP4

仮想マシン

コンピュート ノード 3 (COMP 3)

仮想マシン

コンピュート ノード 4 (COMP 4)

ホスト 4

ホスト 5

ストレージ

Scale Unit 単位で追加して拡張可能

VMM による自動的なプロビジョニング

Page 20: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

何が最適なのでしょうか

20

高額なアプライアンスの購入

レガシーシステムへの継続投資

スケーラビリティの制限

高額な投資専門性の高い教育への投資

ソリューションの複雑化

ソリューション技術の習得

高価な BI 製品の導入

Page 21: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

SQL Server 2012 Parallel Data Warehouse

制限を受けない選択

21

Parallel Data Warehouse

高度なスケール性能

コスト削減 Only SQL一体化したソリューション

Hardware and Software

Engineered For Optimal

Value And Lowest Cost

価値の最大化とコスト削減を同時に実現するアプライアンス製品

Built For Big Data With

Integrated Query Using

Standard SQL

標準SQLで構造化・非構造化データ(Big Data)

に対応可能

Next-generation

Performance At Scale

リニアにスケールする最新のアーキテクチャ

を実装

Native integration with

familiar, widely adopted BI

tools

統合されたデータベースと高機能BIツール

Page 22: メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実 …download.microsoft.com/download/9/9/0/990DE8BD-B565-4C49-B89… · • 大規模 データを処理

© 2013 Microsoft Corporation. All rights reserved. Microsoft, Windows, and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.

The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the

part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.