엔터프라이즈데이터레이크와 scale-out 데이터스토리지 · 2020-03-14 · title:...

19
1 © Copyright 2015 EMC Corporation. All rights reserved. 엔터프라이즈 데이터 레이크와 Scale-Out 데이터 스토리지 서영일 차장 한국이엠씨컴퓨터시스템즈㈜

Upload: others

Post on 25-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

1© Copyright 2015 EMC Corporation. All rights reserved.

엔터프라이즈 데이터 레이크와 Scale-Out 데이터 스토리지

서영일 차장한국이엠씨컴퓨터시스템즈㈜

Page 2: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

2© Copyright 2015 EMC Corporation. All rights reserved.

목차

• Data Lake 전략의 필요성

• Enterprise Data Lake 정의

• EMC의 EDLP(Enterprise Data Lake Platform) 전략

• EMC Scale-Out NAS Isilon

• 성공 사례

Page 3: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

3© Copyright 2015 EMC Corporation. All rights reserved.

전통적인 분석을 위한 Data Flow전통적인 분석 방식의 한계점

수집(Ingest)

저장(Store)

분석(Analyze)

정보 제공(Surface)

실행(Act)

기존 소스와새로운 소스를 포함한다양한 소스에서데이터 캡처

교차 데이터 분석을위해 모든 데이터를 한

환경에 저장

고급 알고리즘을사용하여 새로운 예측

패턴 발견

각 비즈니스 영역전문가와 분석 결과

공유

데이터 중심애플리케이션을

구축하여 비즈니스 요구사항 충족

데이터 섬/사일로화 보안과 규제준수

시스템 전반의 비효율성 유연하지 못한 아키텍처

Page 4: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

4© Copyright 2015 EMC Corporation. All rights reserved.

Enterprise Data Lake Platform

Data Lake – 컨텐츠 저장소(content depot, content repository), 오브젝트 저장소 (object store), 빅데이터

EDLP(Enterprise Data Lake Platform) –Data Lake를 지원하는 스토리지 플랫폼

EDLP는 기업에서 사용하는 향상된빅데이터 솔루션을 의미

Page 5: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

5© Copyright 2015 EMC Corporation. All rights reserved.

Data Lake 전략

분석

정보제공

실행

Analytics

Mobile

Cloud Apps

HPC

File Shares

Backup/Archive

저장수집데이터소스

VELO

CIT

YVARIE

TY

VO

LU

ME Data Lake

Page 6: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

6© Copyright 2015 EMC Corporation. All rights reserved.

언제 Data Lake가 필요한가?누구에게 Data Lake가 필요한가?

Archive

VMwareFile Shares

BLOBS

Cloud/Object

VideoCall

Recording

Splunk

DB Dumps

• Splunk, Cloudera, Hortonworks, Pivotal, RainStor, Teradata, Netezza, Exadata와 같은 여러솔루션을 사용하는가?

• Hadoop의 데이터 증가를 걱정하는가?

• Video Surveillance 데이터 처리에도움이 필요한가?

• 대용량 데이터베이스 덤프, 로그 파일, 아카이브 등의 용도로 스토리지가필요한가?Hadoop &

Data Analytics

Sync n Share

Ticker Data

Remote Office

Surveillance

Page 7: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

7© Copyright 2015 EMC Corporation. All rights reserved.

Data Lake 플랫폼 선택 시 고려사항

Page 8: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

8© Copyright 2015 EMC Corporation. All rights reserved.

Data Lake 필수 요소

여러 가지 워크로드와 어플리케이션 지원을 통한 효율적인 데이터 통합

관리의 단순화 및 비용 절감

엔터프라이즈급의 데이터 보호 및 보안 및 컴플라이언스 요구사항 준수

‘무한한’ 확장성과 효율성을 제공하는 심층 스토리지

1

2

3

4

Page 9: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

9© Copyright 2015 EMC Corporation. All rights reserved.

EMCDATA LAKEFOUNDATION

Scale-Out File / HDFS

Scale-Out Object / HDFS

EMC의 EDLP 전략

Page 10: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

10© Copyright 2015 EMC Corporation. All rights reserved.

EMC의 EDLP 비교

Capacity

Perfo

rm

an

ce

Exabytes

Good(~100mS)

Extreme(<50uS)

Terabytes Petabytes

PERFORMANCEWORKLOADS

GENERAL PURPOSEWORKLOADS

CAPACITYWORKLOADS

Co

st

(¢ / GB)

($ / GB)

Page 11: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

11© Copyright 2015 EMC Corporation. All rights reserved.

HDFS 기반 스토리지멀티 프로토콜 액세스를 통해 데이터 스토리지 통합

Isilon, ViPR ECS 컴퓨팅 및 스토리지를 필요에 따라 별도로 확장

기존 데이터에 대해 HDFS 지원

완벽한 이중화

차세대 통신 기술을 통해 간편하게 가져오기 및내보내기 수행 (예: HDFS, S3, Swift API 지원)

장애에 대비한 완벽한 데이터 보호

셀프 서비스 프로비저닝

스토리지 하드웨어 선택: 엔터프라이즈급, 상용, ECS 어플라이언스

실시간

배치

(b

atc

h)

Hadoop

분석

정보 제공

실행클라우드

아카이브

모바일

HPC

공유

Page 12: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

12© Copyright 2015 EMC Corporation. All rights reserved.

Next Gen AccessHDFS, OpenStack

Massive Scale50 PB in a single cluster

Enterprise ScaleData Lake Foundation

100PB+Biggest Single Storage

Purchase

#1 MARKET LEADER

Hadoop Shared Storage

6,000+ Customers World Wide

ISILON

EMC Scale-Out NAS Isilon

Page 13: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

13© Copyright 2015 EMC Corporation. All rights reserved.

효율적인 데이터 통합

60초이내증설

16TB 50TB

60TB 50TB

100TB

30TB

16TB

50TB

불균등한 사용률 자동 용량 재분배

UNBALNCED

16TB 50TB

60TB 50TB

100TB

30TB

16TB

50TB

UNBALNCED

16TB 50TB

60TB 50TB

100TB

30TB

16TB

50TB

UNBALNCED

16TB 50TB

60TB 50TB

100TB

30TB

16TB

50TB

UNBALNCEDEMPTY

EMPTY

EMPTY

EMPTY

EMPTY

FULL

FULL

FULL

FULL

BALANCED

BALANCED

BALANCED

BALANCED

BALANCED

스토리지 사일로 구조 Data Lake 구조

Page 14: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

14© Copyright 2015 EMC Corporation. All rights reserved.

뛰어난 데이터 보호 기능

FAILED

FAILED

FAILED

FAILED

N+1보호모드X

SMART FAILURE

N+4보호모드

Virtual HotSpare Data Protection

Page 15: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

15© Copyright 2015 EMC Corporation. All rights reserved.

자동 계층화를 통한 비용절감Isilon SmartPools

• 관리 포인트 단일화– 단일 파일시스템 / 단일 볼륨

– 최대 4단계(SSD, S시리즈, X시리즈, NL시리즈) 계층화 구성 가능

• 자동 데이터 이동– 정책 기반의 계층화 관리

– 원본 데이터의 재배치

– 어플리케이션 변경 없음

• 스토리지 자원 최적화– 자동으로 정책에 맞는 스토리지 데이터 최적화

– 데이터 마이그레이션 없음

S-SeriesPerformance

NL-SeriesActive archives

Reduced cost/TB

X-SeriesCollaboration

Page 16: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

16© Copyright 2015 EMC Corporation. All rights reserved.

Teragen 벤치마크 테스트 결과

0

500

1000

1500

2000

2500

teragen terasort teravalidate

Jo

b D

urati

on

(seco

nd

s)

(10) Compute + (10) X400

(5) Compute + (10) X400

(10) Compute + (5) X400

(5) Compute + (5) X400

(10) DAS

1 TB data set size

Page 17: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

17© Copyright 2015 EMC Corporation. All rights reserved.

선형적인 성능 증가

• 컴퓨트 노드와 Isilon 노드를같은 비율로 늘리는 경우, 성능이 선형적으로 증가

• 원형 모양은 실측 데이터

• 선 모양은 실측 데이터기반의 예상치

• S200 클러스터와Teragen을 이용

Page 18: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015

18© Copyright 2015 EMC Corporation. All rights reserved.

Monsanto지속 가능한 농업 기업

빅데이터를 활용하여 혁신을 꾀하는 기업들모든 업계의 기업들이 획기적인 결과 경험

• 기계화와 과학을 통해 수확량 2배 증가를두 차례 달성한 바 있음

• 97억 명에게 농산물을 공급하기 위해서는2배의 수확량을 다시 2배로 증가시켜야 함

‐ 빅데이터가 핵심

‐ 4억 에이커 이상의 농지에서 들어오는 데이터 처리

‐ 다양한 데이터 소스: 토양, 날씨, 위성, 위치, 농지크기/형태

University of Southern California신경 촬영 실험실

• 세계 최대 뇌 검사 데이터 저장소 사용:

‐ 뇌의 특징을 신경성 질병과 연결

‐ 파킨슨병, 헌팅턴병, 알츠하이머병 등의 질병치료법 개발

‐ DNA 데이터와 뇌 검사 데이터를 조합하여개별 치료 계획 수립

Page 19: 엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 · 2020-03-14 · Title: 자동화된 소프트웨어 정의 데이터센터 Author: EMC Created Date: 8/13/2015