sap startup forum tokyo 2013 / sap hana one ビックデータに会いたくて

HANA Startupビックデータに会いたくて

13年6月29日土曜日

x 30人


１２億件の生データ


Amazon S3CSV：65.1 GiB


どうやって料理する？


MySQLSecond Generation 2XL

(m3.2xlarge)

CPU：8コアECU：26

メモリ：30 GiBノード：1つ価格：$1.520/h


SAP HANA OneCluster Compute 8XL

(cc2.8xlarge)


メモリ：60.5 GiBノード：1つ価格：$4.065/h


Amazon RedshiftHigh Storage 8XL (dw.hs1.8xlarge)


メモリ：120 GiBノード：2つ価格：$20.00/h


Amazon EMR /w HiveHigh Memory 4XL

(m2.4xlarge)


メモリ：68.4 GiBノード：4つ価格：$4.04/h


Amazon DynamoDBProvisioned IOPS

write : 10000 IOPSread : 10000 IOPS価格：$10.12/h


各環境のテーブルを定義する


CREATE TABLE detail( client_id varchar(4) NOT NULL, sales_key varchar(50) NOT NULL, receipt_line integer NOT NULL,

sales_date timestamp NOT NULL, article_key integer, article_key2 integer,

coupon_jancd varchar(13), sales integer, sales_tax integer,

amount integer, discount integer, coupon integer, gross integer,

regdate timestamp );


Amazon S3のデータをインポートする方法


MySQLの場合> LOAD DATA INFILE "/usr/local/detail_aa"

INTO TABLE hanatest.detail;


SAP HANA Oneの場合> IMPORT FROM CSV FILE

'/backup/detail_aa.csv'INTO "HOGE"."DETAIL"

WITH THREADS 10BATCH 10000

RECORD DELIMITED BY '\n'FIELD DELIMITED BY '\t';

MERGE DELTA OF "HOGE"."DETAIL";


Amazon Redshiftの場合> copy detail from

's3://bucket/hoge/detail_aa' CREDENTIALS

'aws_access_key_id=?????;aws_secret_access_key=?????'

delimiter '\t';


Amazon EMR /w Hiveの場合> create external table detail (

client_id string, sales_key string,receipt_line int, sales_date timestamp,)

row format delimitedfields terminated by '\t' lines terminated by '\n'

stored as textfile location 's3://hoge/detail';


Amazon DynamoDBの場合> CREATE EXTERNAL TABLE detail (client_id string, sales_key string) STORED BY

'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'

TBLPROPERTIES ("dynamodb.table.name" = "DETAIL_DYNAMO",

"dynamodb.column.mapping" = "col1: client_id,col2: sales_key");


インデックス無し


普通のテーブル定義です！


select count(*) from ”DETAIL”;

result : 1,233,895,734

hana : 0.02 sredshift : 0.42 smysql : 24.0 s

emr : 約60分...


select * from ”DETAIL”

result : all

hana : 0.04 sredshift : 0.27 s

mysql : 0.00 s (local)


select count(*) from (select distinct "ARTICLE_KEY"

from "DETAIL")

result : 30,253



select "SALES_DATE" from "DETAIL" where "SALES_KEY" = ‘123456781234567’

and "RECEIPT_LINE" = ‘123’

result : 1



select "SALES_DATE" from "DETAIL"

where "SALES_KEY" like ‘%5678123%’ and "RECEIPT_LINE" = ‘123’

result : 27,719



実は、、、


SAP HANA : 12億レコードAmazon Redshift : 7億レコード

MySQL : 1億レコード

でした。


なぜ早い？


SAP HANAが早い理由1.CPU最適化2.インメモリ

3.カラム型データストア4.データ圧縮


Amazon Redshiftが良い場合1.増え続けるビックデータ2.クラスタリングしたい3.サービス利用したい

4.処理性能を後から上げたい


Amazon DynamoDBが良い場合1.スパイクな書き込みを保証したい2.スパイクな読込みを保証したい3.読み取り一貫性を保証したい※SQLな集計関数は使えません


Amazon EMRが良い場合1.非定型な情報を集計したい

2.Hiveと合わせてSQL使いたい


MySQLが良い場合1.正規化された情報を扱いたい2.トランザクション管理したい


Amazon S3が良い場合

1.無限にスケールするストレージ2.検索などがない場合3.KVSな情報の場合

4.追記書き込みが無い場合5.結果整合性で問題ない場合


クラウド破産w


次回予告

スパイクアクセスに耐えたくて


sap startup forum tokyo 2013 / sap hana one ビックデータに会いたくて

Technology