미래경쟁력확보를위한빅데이터 실€¦ ·...
TRANSCRIPT
미래 경쟁력 확보를 위한 빅데이터 IOT 실시간 분석 플랫폼의 중요성
굿모닝아이텍 | 박근봉 이사
2
“Internet of Things”시대 도래
Predictions on global connections
M2M global connections will grow from 3.5bn in 2013 to 22.2bn in 2023
• Machina Research defines M2M as “Connections to remote sensing, monitoring and actuating devices, together with associated aggregation devices”
• Based on this definition there were 3.5 billion M2M connections at the end of 2013 and this will grow to 22.2 billion in 2023, a CAGR of 20.3%
• Machina Research estimates an additional 11.7 billion connected PCs, tablets and handset data devices by 2023, bringing the total to 33.9 billion connections in the Internet of Things
0
5
10
15
20
25
30
35
40
billi
ons
M2M Connections PCs, tablets & handset data
Global M2M and PC, tablet and handset data connections 2013-23 Source: Machina Research 2014
Machina Research 13
Sourced by Machina Research
“Internet of Things” Market Size
Big Data/Analytics
Big Data/Analytics Market Size (by 2017/2018)
Analytics in IoT Market Size (by 2017/2018)
$32.4B
(27% CAGR)
$114B
(30% CAGR)
$24.2B
(12% CAGR)
$48.3B
(41% CAGR)
$1.9B
$14.3B
53% CAGR
• Big Data/Analytics market continues explosive growth
Analytics 3.0 I Fast Business Impact
Sourced by Machina Research
새로운 개념의 IOT 플랫폼 환경 요구
Sourced by Machina Research
New Concept of Platform for IoT
Analytic 3.0
Legacy BI/DW 구조
Legacy BI/DW 구조
Legacy BI/DW 구조
Hadoop의 확산과 Role 변화
SQL on Hadoop
Hadoop + BI/DW, SQL on Hadoop 확산
SQL on Hadoop
Hadoop 진입장벽
Hybrid Big Data Platform : MPP + Hadoop
In-Memory DB – 비싼 메모리, 저장 용량 한계
ALTIBASE Hybrid-DB
ALTIBASE ENGINE
DISKTablespace
MEMORY LAYER
DISK STORAGE LAYER
MemoryBuffer
MemoryTablespace
ParStream : The Fastest !!
Environment: Single EC2 XL node with 15 GB RAM, 2 TB disk on Amazon AWS. OTP Data Se
t with 150 Million records. Query set based on customer use-cases.
ParStream1초 미만
ParStream : Import / Query 동시 처리
ParStream‘s Technology
1
2
3
Lockless architecture가장 빠른 쿼리 성능과 동시에 적용 가능한 데이터임포팅 지원
MPPMassively Parallel Processing
데이터의 위치 분산 및 비자원공유 방식의 클러스터 지원
특허기술 HPCIHigh performance compressed index (patent)
SQL API / JDBC / ODBCC++
UDF - API
Real-Time Analytics Engine
In-Memory andDisk Technology
Multi-DimensionalPartitioning
Massively ParallelProcessing (MPP)
Shared NothingArchitecture
3rd generation Columnar Storage
High Speed Loader with Low Latency
HPCI
High Performance Compressed
Index
ParStream HPCI (High Performance Compressed Index)
+ Zero latency to start analytics
+ No Need for decompression,
no need for full table scans
+ Massively reduced memory + IO load
+ Ultra-high throughput and query variability
IndexIndexIndexIndex Index…..
Search 1 Search 2 Search 3 Search 4 Search n
ParStream Index Architecture
일반적인 Index Architecture
– Decompression latency
– High Memory and CPU Load
– Not Suitable for Big Data
– Limited query variability and throughput
uncompressed Index
Decompression Search
Index 20x
고객 적용을 통한 성능 검증 사례
고객 적용을 통한 성능 검증 사례 - CAKE
“ParStream은 가장 근접한 경쟁자 보다 40배 빠른 성능을 보였습니다.”
- David Stewart, CTO, CAKE, Marketing Tech Company at Ad:Tech 2014
고객 적용을 통한 성능 검증 사례 - CAKE
True Real-time Analytics Platform
True Real-time Analytics Platform
Application
Streaming/ETL
Visualization Tools
Geo-Distributed Analytics
Alerts & Action
Time Series
Analytics
Advanced Analytics
ParStream Real-time Analytic DB
기존 투자된 인프라와의 쉬운 통합
실시간 분석 엔진
초고속 적재 기술
C++
UDF - APISQL API / JDBC / ODBC
인메모리와 디스크하이브리드 기술
대량병렬처리(MPP)
다차원파티셔닝
비자원공유글러스터링
3세대 컬럼너 스토리지
고성능압축인덱스
(HPCI)
Hadoop ETL Raw-Data
표준 SQL Query Interface
• SQL-92 compliant
• Core SQL-2003
• 표준 JDBC, ODBC 연계
BI/DW 솔루션과 통합/연계
• BI, ETL, Visualization
초고속 Import Interface
• 범용 Import Interface 지원
• File based & Streaming API
• Hadoop Interface API
기존 투자된 인프라와의 쉬운 통합
6 billion rows of transactional, daily sales data for retail stores were generated. This data was loaded into ParStream in less than 3 hours. A dashboard solution for Direct Discovery data was built; this solution integrates with the existing QlikView In-Memory-driven dashboards.
Increased Query Performance 3 weeks, all stores and 1 department 1.2 sec Full time range, 1 store and 1 department 0.9 sec 3 weeks, 5 stores and 1 department 0.7 sec 4 days, 5 stores and 1 department 0.45 sec
Low TCO
대부분의 x86 Server, Linux 지원
• 저가 Physical x86 H/W
• Virtual Machine (VMware)
• Public Cloud (AWS, Azure etc)
HA Cluster 지원
• 단일 서버 지원
• 2-node 이상 클러스터 지원
• Replicaiton, Partition 사용자 지정 지원
적은 H/W Sizing, 높은 Performance
• HPCI 적용 더 적은 H/W 수량 필요
실시간 분석을 통한 즉각적인 통찰력 제공
IoT 확산과 새로운 비즈니스 모델
2014, 기업내 IoT, 2012년에 비해 333% 증가 <Forrest Research>
Industrial Internet & Sensor
GE’s View on Industrial Internet
GE’s View on Industrial Internet
IoT 환경에서 더 큰 가치 창출을 위한 도전과제
Data is growing Bigger데이터는 어느 때 보다 더욱더 크게 증가하고 있다
Data is coming Faster at you데이터는 어느 때 보다 더욱 빠르게 생성되고 저장되어야 한다
Geographically Distributed 데이터는 다수의 지역적으로 분산된 위치에서 생성되고 있다
New Functionality and tools새로운 분석 기능과 도구를 필요로 하지만, 많은 솔루션들이 통합, 검증되지 않았다
발생된 이벤트에 대하여 즉각적이고 효과적이며 고품질의 반응을 할 수 있도록 지능적인 접근이 필요함
IoT 실시간 데이터에 대한 즉각적 분석의 가치
Time = Money
IoT 실시간 데이터 분석을 활용한 비즈니스 효과
Data
실시간 데이터 적재 + 즉각적 조회
= 적기에 실행 가능한 통찰력
“IoT의 가치는 데이터에 있다.
기업들이 더 빨리 그들의 데이터를 분석할 수 있다면
더 많은 비즈니스 가치를 창출할 수 있을 것이다.”
Forbes, June 2014
Action
Devices
Devices
Devices
Rules or On-deman
d InsightsA
ggre
gatio
n
ParStream 적용 사례 : SIEMENS 가스터빈 모니터링
업무 도전과제 Real-time으로 시스템의 효율성이나 작업결정을 하기 위한
복잡한 장비의 최적화 새로운 서비스 기반의 비즈니스 기회 창출
적용 분야 및 데이터 Real-Time 분석이 필요한 터빈당 초당 5천개 이상의 데이터
발생 포인트에서 시간당 18억 건 데이터 생성 모델 기반의 learning/root 원인 분석을 위한 과거 기반
데이터 필요
ParStream 적용 기술 즉각적인 발견과 조치가 가능한 연속적인 data-flow의 real-
time 모니터링 기술 모든 센서 데이터를 저장하고 즉시 읽을 수 있는 통합된
platform의 저장소 및 분석기능 제공 – “Analytical Historian”
효과 및 결과 저진동 시동에 의한 뒤틀림 감소 산화질소 배출 감소 재질의 피로도 예측 및 메인터넌스 효율 향상
ParStream GDA: Geographically Distributed Analytics
Geo-Distributed setup substantially reduces network traffic enabling continuous monitoring (sampling proofed insufficient)
Application
Database
More than 20 billion records returned
Query Search Results40 records found
4 billion records
4 billion records
4 billion records
4 billion records
4 billion records
현재 방식
Application
Query Search Results40 records found
ParStream
ParStream Geo-Distributed Server
7records
18records
5records
12records
8records
4 billionrecords
ParStream ParStream ParStream ParStream
ParStream Geo-Distributed Analytics
ParStream GDA: Geographically Distributed Analytics
ParStream 적용 사례 : Customer Proof Point for IOT in Telco
Dashboards and interactive a
d hoc queries
Continuous import streaming
All queries with sub-second r
esponse times
Demonstrated linear scalabilit
y on import and query side
Geo-Distributed Analytics Architecture
Real-time Analytics of Network Events
ParStream 적용 사례 : bd4travel
ParStream 적용 사례 : IRNA’s MGP (MetaGenoPolis)
Faster due to ParStream’s ultra-fast interactive analytics
Analyzes 17 billion records interactively – growing 100x per year
ParStream 증명된 성공사례
가스터빈 모니터링: 터빈 당 100Hz의 5000개 센서를 통해 시간당 18억 건의 데이터를 Import하고 실시간으로 분석함
POS정보분석: 기존 4억 건 분석에서 파스트림 적용 후 500억 건의판매정보를 실시간으로 분석
온라인마케팅분석: “ParStream은 50억건의 POC에서 가장 근접한 경쟁자 보다 40배가 빨랐습니다.
웹 분석: “ParStream은 우리 데이터 센터에서 24x7 으로 운영되는 가장 안정적인 제품입니다.
검색엔진최적화(SEO): 처리시간을 14일에서 1시간으로 줄여서 TCO
를 95% 절감하였습니다.
Global TelecomCompany
파스트림의 지역분산분석 기능을 이용하여 실시간 통화품질 분석. 1일250억 건의 데이터를 Import 하여 1초 이내의 분석 결과를 제공
ParStream 적용 이유
고객실시간Import
실시간조회
유연한분석기능
TCOHW 절감
ParStream – The Company
2008년 설립, 독일 퀄른 (Cologne, Germany)
Cologne, Paris, Silicon Valley, Boston, Israel, etc
Korea
• 지사 설립 완료, 총판 굿모닝아이텍㈜ 계약
Running 24x7 in production for more than 3 years
$ 18 M funding: Khosla Ventures (lead), Andy Bechtolsheim,
Crunchfund, Data Collective, Baker Capital, Tola Capital, and others
ParStream : #1 Big Data Startup
ParStream은 우리의데이터센터 안에서가장 신뢰할 수 있는 시스템입니다.
CTO, etracker
ParStream은 가장근접한 경쟁자 보다40배나 빨랐습니다.
CTO, Cake Marketing
ParStream은 우리에게글로벌 시스템 확장을 가능하게 하였고 TCO가 하둡보다 훨씬 낮습니다.
VP Eng, Searchmetrics
#1 Big DataStartup
ParStream Demo- System Configuration
ParStream Server(Cluster)
CPU : Xeon® E5-1650 v2 6Core
Memory : 64 GB Disk : 3TB (Hardware Raid 5)
DataWatch Server
CPU : Xeon® E5-2650
1.87 GHz 8Core
Memory : 7.5 GB
Remote Desktop
4 Nodes Cluster / Amazon AWS Cloud
ParStream Demo – DataWatch BI with Real-time SQL
ParStream Demo – SQL Query
• Cluster configuration / Table Information
- SELECT name, host, port, type, leader, follower, active
FROM ps_info_cluster_node
WHERE type = 'QUERY' ORDER BY leader DESC, follower DESC, type DESC;
- SELECT table_name FROM ps_info_table;
- SELECT count(*) from callheader1;
- SELECT count(*) from callheader1
WHERE etldate >= date'2014-01-14' and etldate <= date'2014-01-18';
ParStream Demo – SQL Query #1
Call 건수(1월1일~1월20일)
- SELECT count(*) from callheader1
WHERE etldate >= date'2014-01-01' and etldate <= date'2014-01-20';
시간별 Drop call 건수(1월1일~1월20일)
- SELECT etlhour, count(*) FROM callheader1
WHERE etldate >= date'2014-01-01' and etldate <= date '2014-01-20' and dropped = 1
GROUP BY etlhour ORDER BY etlhour;
1
2
1
2
ParStream Demo – SQL Query #2
사유(reason)별 Drop call(1월1일~1월20일)
- SELECT reason, count(*) FROM callheader1 WHERE dropped = 1
and etldate >= date'2014-01-01' and etldate <= date '2014-01-20' GROUP BY reason ORDER BY reason;
Phase별 Drop call (1월1일~1월20일)
- SELECT phase, count(*) FROM callheader1 WHERE dropped = 1
and etldate >= date'2014-01-01' and etldate <= date '2014-01-20' GROUP BY phase ORDER BY phase;
상태 별 Drop call (1월1일~1월20일)
- SELECT status, count(*) FROM callheader1 WHERE dropped = 1
and etldate >= date'2014-01-01' and etldate <= date '2014-01-20' GROUP BY status ORDER BY status;
3
4
5
3
4
5
ParStream Demo – Real-time Import & Visualization
Thanks. Q&A
ParStream Real-time IoT / Big Data Analytics Platform
ParStream 굿모닝아이텍㈜김영일 상무 [email protected]박근봉 이사 [email protected]