엔터프라이즈데이터레이크와 scale-out 데이터스토리지 · 2020-03-14 · title:...
TRANSCRIPT
1© Copyright 2015 EMC Corporation. All rights reserved.
엔터프라이즈 데이터 레이크와 Scale-Out 데이터 스토리지
서영일 차장한국이엠씨컴퓨터시스템즈㈜
2© Copyright 2015 EMC Corporation. All rights reserved.
목차
• Data Lake 전략의 필요성
• Enterprise Data Lake 정의
• EMC의 EDLP(Enterprise Data Lake Platform) 전략
• EMC Scale-Out NAS Isilon
• 성공 사례
3© Copyright 2015 EMC Corporation. All rights reserved.
전통적인 분석을 위한 Data Flow전통적인 분석 방식의 한계점
수집(Ingest)
저장(Store)
분석(Analyze)
정보 제공(Surface)
실행(Act)
기존 소스와새로운 소스를 포함한다양한 소스에서데이터 캡처
교차 데이터 분석을위해 모든 데이터를 한
환경에 저장
고급 알고리즘을사용하여 새로운 예측
패턴 발견
각 비즈니스 영역전문가와 분석 결과
공유
데이터 중심애플리케이션을
구축하여 비즈니스 요구사항 충족
데이터 섬/사일로화 보안과 규제준수
시스템 전반의 비효율성 유연하지 못한 아키텍처
4© Copyright 2015 EMC Corporation. All rights reserved.
Enterprise Data Lake Platform
Data Lake – 컨텐츠 저장소(content depot, content repository), 오브젝트 저장소 (object store), 빅데이터
EDLP(Enterprise Data Lake Platform) –Data Lake를 지원하는 스토리지 플랫폼
EDLP는 기업에서 사용하는 향상된빅데이터 솔루션을 의미
5© Copyright 2015 EMC Corporation. All rights reserved.
Data Lake 전략
분석
정보제공
실행
Analytics
Mobile
Cloud Apps
HPC
File Shares
Backup/Archive
저장수집데이터소스
VELO
CIT
YVARIE
TY
VO
LU
ME Data Lake
6© Copyright 2015 EMC Corporation. All rights reserved.
언제 Data Lake가 필요한가?누구에게 Data Lake가 필요한가?
Archive
VMwareFile Shares
BLOBS
Cloud/Object
VideoCall
Recording
Splunk
DB Dumps
• Splunk, Cloudera, Hortonworks, Pivotal, RainStor, Teradata, Netezza, Exadata와 같은 여러솔루션을 사용하는가?
• Hadoop의 데이터 증가를 걱정하는가?
• Video Surveillance 데이터 처리에도움이 필요한가?
• 대용량 데이터베이스 덤프, 로그 파일, 아카이브 등의 용도로 스토리지가필요한가?Hadoop &
Data Analytics
Sync n Share
Ticker Data
Remote Office
Surveillance
7© Copyright 2015 EMC Corporation. All rights reserved.
Data Lake 플랫폼 선택 시 고려사항
8© Copyright 2015 EMC Corporation. All rights reserved.
Data Lake 필수 요소
여러 가지 워크로드와 어플리케이션 지원을 통한 효율적인 데이터 통합
관리의 단순화 및 비용 절감
엔터프라이즈급의 데이터 보호 및 보안 및 컴플라이언스 요구사항 준수
‘무한한’ 확장성과 효율성을 제공하는 심층 스토리지
1
2
3
4
9© Copyright 2015 EMC Corporation. All rights reserved.
EMCDATA LAKEFOUNDATION
Scale-Out File / HDFS
Scale-Out Object / HDFS
EMC의 EDLP 전략
10© Copyright 2015 EMC Corporation. All rights reserved.
EMC의 EDLP 비교
Capacity
Perfo
rm
an
ce
Exabytes
Good(~100mS)
Extreme(<50uS)
Terabytes Petabytes
PERFORMANCEWORKLOADS
GENERAL PURPOSEWORKLOADS
CAPACITYWORKLOADS
Co
st
(¢ / GB)
($ / GB)
11© Copyright 2015 EMC Corporation. All rights reserved.
HDFS 기반 스토리지멀티 프로토콜 액세스를 통해 데이터 스토리지 통합
Isilon, ViPR ECS 컴퓨팅 및 스토리지를 필요에 따라 별도로 확장
기존 데이터에 대해 HDFS 지원
완벽한 이중화
차세대 통신 기술을 통해 간편하게 가져오기 및내보내기 수행 (예: HDFS, S3, Swift API 지원)
장애에 대비한 완벽한 데이터 보호
셀프 서비스 프로비저닝
스토리지 하드웨어 선택: 엔터프라이즈급, 상용, ECS 어플라이언스
실시간
배치
(b
atc
h)
Hadoop
분석
정보 제공
실행클라우드
아카이브
모바일
HPC
공유
12© Copyright 2015 EMC Corporation. All rights reserved.
Next Gen AccessHDFS, OpenStack
Massive Scale50 PB in a single cluster
Enterprise ScaleData Lake Foundation
100PB+Biggest Single Storage
Purchase
#1 MARKET LEADER
Hadoop Shared Storage
6,000+ Customers World Wide
ISILON
EMC Scale-Out NAS Isilon
13© Copyright 2015 EMC Corporation. All rights reserved.
효율적인 데이터 통합
60초이내증설
16TB 50TB
60TB 50TB
100TB
30TB
16TB
50TB
불균등한 사용률 자동 용량 재분배
UNBALNCED
16TB 50TB
60TB 50TB
100TB
30TB
16TB
50TB
UNBALNCED
16TB 50TB
60TB 50TB
100TB
30TB
16TB
50TB
UNBALNCED
16TB 50TB
60TB 50TB
100TB
30TB
16TB
50TB
UNBALNCEDEMPTY
EMPTY
EMPTY
EMPTY
EMPTY
FULL
FULL
FULL
FULL
BALANCED
BALANCED
BALANCED
BALANCED
BALANCED
스토리지 사일로 구조 Data Lake 구조
14© Copyright 2015 EMC Corporation. All rights reserved.
뛰어난 데이터 보호 기능
FAILED
FAILED
FAILED
FAILED
N+1보호모드X
SMART FAILURE
N+4보호모드
Virtual HotSpare Data Protection
15© Copyright 2015 EMC Corporation. All rights reserved.
자동 계층화를 통한 비용절감Isilon SmartPools
• 관리 포인트 단일화– 단일 파일시스템 / 단일 볼륨
– 최대 4단계(SSD, S시리즈, X시리즈, NL시리즈) 계층화 구성 가능
• 자동 데이터 이동– 정책 기반의 계층화 관리
– 원본 데이터의 재배치
– 어플리케이션 변경 없음
• 스토리지 자원 최적화– 자동으로 정책에 맞는 스토리지 데이터 최적화
– 데이터 마이그레이션 없음
S-SeriesPerformance
NL-SeriesActive archives
Reduced cost/TB
X-SeriesCollaboration
16© Copyright 2015 EMC Corporation. All rights reserved.
Teragen 벤치마크 테스트 결과
0
500
1000
1500
2000
2500
teragen terasort teravalidate
Jo
b D
urati
on
(seco
nd
s)
(10) Compute + (10) X400
(5) Compute + (10) X400
(10) Compute + (5) X400
(5) Compute + (5) X400
(10) DAS
1 TB data set size
17© Copyright 2015 EMC Corporation. All rights reserved.
선형적인 성능 증가
• 컴퓨트 노드와 Isilon 노드를같은 비율로 늘리는 경우, 성능이 선형적으로 증가
• 원형 모양은 실측 데이터
• 선 모양은 실측 데이터기반의 예상치
• S200 클러스터와Teragen을 이용
18© Copyright 2015 EMC Corporation. All rights reserved.
Monsanto지속 가능한 농업 기업
빅데이터를 활용하여 혁신을 꾀하는 기업들모든 업계의 기업들이 획기적인 결과 경험
• 기계화와 과학을 통해 수확량 2배 증가를두 차례 달성한 바 있음
• 97억 명에게 농산물을 공급하기 위해서는2배의 수확량을 다시 2배로 증가시켜야 함
‐ 빅데이터가 핵심
‐ 4억 에이커 이상의 농지에서 들어오는 데이터 처리
‐ 다양한 데이터 소스: 토양, 날씨, 위성, 위치, 농지크기/형태
University of Southern California신경 촬영 실험실
• 세계 최대 뇌 검사 데이터 저장소 사용:
‐ 뇌의 특징을 신경성 질병과 연결
‐ 파킨슨병, 헌팅턴병, 알츠하이머병 등의 질병치료법 개발
‐ DNA 데이터와 뇌 검사 데이터를 조합하여개별 치료 계획 수립