sas high-performance analytics : big data analytics를 위한 · pdf file ·...
TRANSCRIPT
Copyright © 2013, SAS Institute Inc. All rights reserved.
SAS High-Performance Analytics :
Big Data Analytics를 위한 기술 혁신 SAS Korea 김근태
Copyright © 2013, SAS Institute Inc. All rights reserved.
빅데이터가 과거에는 불가능했던 새로운 기회를 제공합니다.
수 일 또는 수 주일이 소요되었던 분석 인사이트를 수 분 또는 수 초 내에
확보할 수 있습니다.
Copyright © 2013, SAS Institute Inc. All rights reserved.
What if you could.…
… Big Data를 경쟁사보다 며칠 더 빠르게 가망
고객의 구매 행위와 의사결정 기준을 예측할 수
있다면…
…누구도 시도하지 못했던 초 세분화된 마켓을
타겟으로 하는 상품 및 서비스를 출시함으로써
시장선점우위를 가져갈 수 있다면 …
… 마케팅 캠페인 효과를 즉시 평가하여, 실시간에
가깝게 전략 수정을 할 수 있다면 …
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Data 시대의 분석 과제
분석 속성 Big Data 분석 요건
데이터 크기 Giga Bytes 수백 Tera ~ Peta Bytes
데이터 종류 구조화된 데이터 비정형 Text Data로 확장
데이터 성격 Legacy Data SNS, Log, CDR, FDC, Packet, Meter...
분석 시간 수 시간 이상 (Batch) 수 초, 수 분 이내 (Near Real-time)
수행할 분석의 양 수십개의 모델 수천~수만개 이상의 세분화 된 모델
사용자 환경 전문가 환경 Data Visualization, 분석 모델링 자동화
Copyright © 2013, SAS Institute Inc. All rights reserved.
The Forrester Wave™: Big Data Predictive
Analytics Solutions, Q1 2013, Forrester Research,
Inc., January 3, 2013.
The Forrester Wave is copyrighted by Forrester Research, Inc. Forrester and
Forrester Wave are trademarks of Forrester Research, Inc. The Forrester Wave is
a graphical representation
of Forrester's call on a market and is plotted using a detailed spreadsheet with
exposed scores, weightings, and comments. Forrester does not endorse any
vendor, product, or service
depicted in the Forrester Wave. Information is based on best available resources.
Opinions reflect judgment at the time and are subject to change.
ANALYST REPORTS - FORRESTER WAVE™ (Q1 2013)
BIG DATA PREDICTIVE ANALYTICS GLOBAL TOP 벤더
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Data Analytics
BIG
DATA
INFORMATION
MANAGEMENT
STATISTICS
데이터에 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 활용
DATA MINING
과거데이터를 활용하여 보다 예측력이 높은 비즈니스 인사이트 확보 및 미래에 대한 의사결정에 활용
FORECASTING TEXT ANALYTICS
소셜미디어, 설문조사 등의 비정형 데이터에서
고객의 감성 등, 밝혀지지 않은 인사이트 획득
가장 많은 수익을 낼 수 있는 최적의 영역을
정확하게 정의하기 위해 빅 데이터를 분석하는 것
OPTIMIZATION
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Data 분석을 위한 기술 혁신
BIG
DATA
예 측
결 과
PROACTIVE
정형, 계획적 비정형, 실험적
REACTIVE
DEPARTM
EN
TAL
정형 리포팅
비정형 리포팅
OLAP / 드릴다운
CO
RPO
RATE
텍스트 분석
통계 분석
데이터 마이닝
최적화
시장의 목소리는 어떠한가?
이 결과가 나타난 이유는?
이 추세가 어떻게 이어질 것인가?
다음에 발생할 일은 무엇인가?
발생할 일에 대한 최선의 대안은?
시계열 예측
무슨 일이 발생했는가?
얼마나 많이, 자주, 어디에서 발생?
문제의 원인이 어디에 있는가? 결과 반응적 (REACTIVE)
DBMS DW Appliance, Hadoop
선제 대응적 (PROACTIVE)
Advanced Analytics 서버
새로운 구조 필요
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Data 분석 1세대 – Big Data 저장 Platform과 고급 분석 기능 연계
EMC
Greenplum
DCA
Teradata 700
appliance
Oracle
Exadata
DBMS Appliance / Hadoop
IBM ISAS
MPP Architecture (Multi-Node)
MPP
(Massively
Parallel
Processing)
Access
Interface / ETL
I N F O R M A T I O N M A N A G E M E N T
STATISTICS
DATA MINING
FORECASTING TEXT ANALYTICS
OPTIMIZATION
Analytics Functions
SMP Analytic Architecture (Single-Node)
SMP (Symmetric
Multi-Processing)
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Data 분석 2세대 – Analytic Platform 혁신
EMC²
Greenplum
DCA
Teradata 700
appliance
Oracle
Exadata
MPP Hardware (Multi-Node)
INFORMATIO N MANAGEMENT
STATISTICS
DATA MINING
FORECASTING TEXT ANALYTICS
OPTIMIZATION
Business Analytics Functions
Copyright © 2013, SAS Institute Inc. All rights reserved.
Analytic Platform 혁신 - SAS High-Performance Analytics
INFORMATIO N MANAGEMENT
STATISTICS
DATA MINING
FORECASTING TEXT ANALYTICS
OPTIMIZATION
Business Analytics Functions
SAS High-Performance Analytics
Copyright © 2013, SAS Institute Inc. All rights reserved.
Crawler
Data
Quality
Data
Integration
Social Data Service
내부 데이터
ODS
Event Streaming
외부 데이터
End User Analytics
EG+RPM
E-DW
A-DW
Packed-Model
Analytic
Sandbox
Big Data Farm
M2M 데이터
Text Analytics
Customer Link Analysis
Predictive Analytics
DataFlux@
ESP
Engine Visualization
Grid In-Database In-Memory
Visual
Analytics
FDC
ATM
CDR
Web Log
E-Miner
+
Text Analytics
+
Customer Link Analytics
Enterprise Model Manager
Rule & Model Data Management System Monitoring Cloud Computing
Visualization
Grid In-Database In-Memory
Visual
Analytics
SAS Big Data Analytics Platform
Copyright © 2013, SAS Institute Inc. All rights reserved.
Copyright © 2013, SAS Institute Inc. All rights reserved.
In-Memory Analytics로 10억건 데이터에 대해 로지스틱 회귀분석 실행
결과 : proc logistic (기존 20시간) proc hplogistic (50초)
32개 node의 DW Appliance (32 * 24 = 768 units of parallelism)
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Data 분석을 위한 실체적인 End-to-End 기능 제공
시계열 분석 • HPNLIN, HPCOUNTREG,
HPSEVERITY
• Mid-term: HPSIMILARITY
• Long Term: HPSIMULATE,
HPCOPULA, HPQLIM,
HPPANEL, HPMDC
최적화 • HPMO (Marketing
Optimization Solver)
• HPOPTGRAPH
(Graph-algorithms &
Network analysis)
텍스트 분석 • Integrate text into DM
processes: Pattern
Discovery, Predictive
Modeling
• HPDM nodes for Text: Parse
Node, Transform node
• HPDM procedures for Text:
HPTXTPARSE, HPSVD
데이터 가공 • HPDS2
• HPDMDB
• HPSAMPLE
데이터 탐색 • HPSUMMARY
• HPDMDB
• HPSAMPLE
• HPREDUCE
• HPIMPUTE*
• HPBIN*
변수 변환 • HPREDUCE
• HPIMPUTE
• HPBIN
• HPDS2
예측 모델링 • HPREG
• HPLOGISTIC
• HPNLIN
• HPNEURAL
• HPLMIXED
• HPFOREST
• HPSVM
• HPDECIDE
모델 선정, 테스트, 적용 • HPDS2
• HP4SCORE
• SAS Scoring Accelerator
• SAS Model Manager
SAS High-Performance Analytics - Procedures
HP Data Mining
Copyright © 2013, SAS Institute Inc. All rights reserved.
High-Performance Analytics 기술이 필요한 이유 #1
Softwa
re
Softwa
re
Platfor
m 데이터 획득, 전처리
데이터
분석
변수
선정 모델링
스코어링
기존 환경
분석 프로세스 (ex. 4 주)
Appliance,
Hadoop, CEP
데이터 획득,
전처리
Softwa
re
Platfor
m
데이터
분석
변수
선정 모델링
스코어링
분석 프로세스 (ex. 2 주)
데이터 획득,
전처리
• 데이터 분석 • 변수 선정 • 모델링 • 스코어링
SAS HPA
분석 프로세스 (ex. 0~3 일)
HPA Value :
Analytic Appliance로 Big Data 분석 싸이클을 획기적으로 단축
복잡해지고 세분화되는 비즈니스 문제에 빠르게 대응
분석가가 보다 가치 있는 비즈니스 인사이트 발굴에 집중
Copyright © 2013, SAS Institute Inc. All rights reserved.
High-Performance Analytics 기술이 필요한 이유 #2
샘플링 기반.. Big Data (col/row) 활용 예측 분석의 정확도 ↑
세분화되지 않은.. 더 많은 모델 생성
세부 단위 모델 분석의 깊이와 적용 범위 ↑
유통기한 없는.. Biz. 환경 변화에 빠르게 대응
(model life cycle 단축) 분석의 적시성 ↑
기존 품질 관리, 캠페인, Risk,
Fraud, 최적화 모델의 한계 HPA는 어떻게 해결하는가 ? HPA Value
Copyright © 2013, SAS Institute Inc. All rights reserved.
SAS High-Performance Analytics : In-Memory Analytics
Copyright © 2013, SAS Institute Inc. All rights reserved.
HPA 1.0 HPA 2.0
High-Performance Analytic Server의 진화
Copyright © 2013, SAS Institute Inc. All rights reserved.
Hadoop Cluster 기반 SAS Analytic Appliance
Server N Server 2 Server 1
SAS In-Memory Analytics
SAS High Performance Deployment MPI MPI
proc hplogistic data=MPPLib.MyTable; class A B C D ;
model y = a b c b*d x1-x100; output out=MPPlib.logout pred=p;
run;
Multiple Threads
Multiple Threads
Multiple Threads
SAS STAT Client SAS Enterprise Miner
HDFS Storage HDFS Storage HDFS Storage
SAS High-Performance
Analytics Plattform
Copyright © 2013, SAS Institute Inc. All rights reserved.
DB Appliance 기반 SAS Analytic Appliance
Server N Server 2 Server 1
EMC Greenplum- or Teradata
SAS In-Memory Analytics
SAS High Performance Deployment
SAS Embedded Process
SAS High Performance
Analytics Plattform
MPI MPI
proc hplogistic data=MPPLib.MyTable; class A B C D ;
model y = a b c b*d x1-x100; output out=MPPlib.logout pred=p;
run;
Multiple Threads
Multiple Threads
Multiple Threads
Database Storage
Database Server
Embedded Process
Database Storage
Database Server
Embedded Process
Database Storage
Database Server
Embedded Process
SAS STAT Client SAS Enterprise Miner
Analytic Appliance
Copyright © 2013, SAS Institute Inc. All rights reserved.
HPA 1.0 HPA 2.0
HPA 1.0
Fit
to
Appliance
HPA 2.0 (SAS 9.4)
Now Fit
to
Data Center As Well
데이터 중복, 동기화 문제 해결
보다 유연한 아키텍처
보다 많은 H/W Platform 지원
Copyright © 2013, SAS Institute Inc. All rights reserved.
SAS Analytic Appliance – Symmetric / Asymmetric 구조 비교
SAS Processes
Data Storage Processes
Root Workers
…. ….
….
….
….
Data Feeder
Data Feeder
Data Feeder
SAS HP CONTROL
SAS HP MATH
SAS HP MATH
SAS HP MATH
SQL /MR Process
SQL/MR Process
SQL/MR Process
SQL/MR Process
MPI MPI MPI
HPA 1.0 (Symmetric Mode)
SAS Processes
Data Storage Processes
Root Workers
SAS EP SAS EP SAS EP
SAS HP CONTROL
SAS HP MATH
SAS HP MATH
SQL /MR Process
SQL/MR Process
SQL/MR Process
SQL/MR Process
MPI MPI
병렬 전송
HPA 2.0 (Asymmetric Mode)
Copyright © 2013, SAS Institute Inc. All rights reserved.
SAS Analytic Appliance – Symmetric / Asymmetric 구조
SAS Processes
Data Storage Processes
Root Workers
SAS EP SAS EP SAS EP
SAS HP CONTROL
SAS HP MATH
SAS HP MATH
SQL /MR Process
SQL/MR Process
SQL/MR Process
SQL/MR Process
MPI MPI
병렬 전송
SAS Processes
Data Storage Processes
Root Workers
…. ….
….
….
….
Data Feeder
Data Feeder
Data Feeder
SAS HP CONTROL
SAS HP MATH
SAS HP MATH
SAS HP MATH
SQL /MR Process
SQL/MR Process
SQL/MR Process
SQL/MR Process
MPI MPI MPI
HPA 1.0 (Symmetric Mode) HPA 2.0 (Asymmetric Mode)
+ Oracle Exadata, Common Hadoop
EMC
Greenplum
DCA
Teradata
700
appliance
Oracle
Exadata
Hadoop HDFS, Greenplum, Teradata
EMC
Greenplum
DCA
Teradata
700
appliance
Blade
Server
Copyright © 2013, SAS Institute Inc. All rights reserved.
High-Performance Analytic Server
- 적용 사례
Copyright © 2013, SAS Institute Inc. All rights reserved.
SAS HPA : 산업별 Big Data Analytics 적용 사례
공공
탈세 적발
• 정교한 탈세 적발
• 부정 환급 적발
유통
재고 관리
• 매장, 상품 속성별 최적화
30시간 2시간
제조
Warranty Analysis
• 워런티, 콜센터
텍스트 데이터 분석
• 문제점 사전
해결을 통한 품질확보 및 고객만족
통신
캠페인 최적화
• 15% 향상된 캠페인 응답률
금융
리스크 관리
• 365배 빠른 리스크 값 산출
• 신속한 시장
변화 대응
가치
활용 사례
기업
산업
Copyright © 2013, SAS Institute Inc. All rights reserved.
CUSTOMER CASE STUDY
Business
Problem Analysis Before HPA Server After HPA Server
대출 연체
가능성 예측
• 10억건 데이터에
대한 회귀분석
11 ~ 20 시간 54 초 소요
리스크
익스포저 산출
• 회귀분석 167시간 시간 (1주) 84 초 소요
신규 오퍼링을
위한 고객
타겟팅
• 뉴럴 네트웍 • 5 시간 – 한 Model 수행
• 하루에 1 모델 처리
• 단일 알고리즘
• 뉴럴네트웍 트레이닝 7회
• 모델 리프트 :1.6%
• 3 minutes – 한 Model 수행
• 1 모델에 30분 소요
• 다양한 알고리즘 : Random Forest,
SVM, Logistic Regression, NN
• 뉴럴네트웍 트레이닝 5000회
• 모델 리프트 : 2.5%
Large Financial Services
Copyright © 2013, SAS Institute Inc. All rights reserved.
United Healthcare Group
BUSINESS ISSUE 전자 의료 기록(Electronic medical records :EMRs)이 데이터 폭증을 가져옴. 모든 비정형 텍스트 데이터 활용 (레코드, 임상 노트, 이메일, 처방 내용등) 어떻게 의료 서비스의 질을 높이고 비용을 줄일 것인가?
처방전을 쓰기 전에 그 내용이 환자에게 줄 부작용 파악 고객을 잃기 전에 그 고객의 불만을 이해 비용청구 금액 지불 전에 허위 청구여부 적발
SOLUTION SAS® High-Performance Analytics Server with Greenplum (HP Text Mining 포함) RESULTS 모델 프로세싱 시간이 4시간에서 10초로 단축 오분류 비율이 30% 에서 10%로 줄었으며, 분석 정확도 향상 (more than 10% lift) 발전 방향 : HPA로 최적화된 분석 싸이클로 전사에 다양한 분석 서비스 제공 (DAAS : Data Analytics as a Service)
Copyright © 2013, SAS Institute Inc. All rights reserved.
High-Performance Analytic Server
- Wrap Up
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Analytics를 설명하는 새로운 관점들..
DATA SIZE
결과
반응
적
선제
대응
적
분석
능력
BIG DATA 대용량 데이터
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Analytics를 설명하는 새로운 관점들..
DATA SIZE BIG DATA 대용량 데이터
IN-M
EM
OR
Y D
B
BIG ANALYTICS BIG DATA ANALYTICS
BI BIG DATA BI
Copyright © 2013, SAS Institute Inc. All rights reserved.
IN-M
EM
OR
Y A
NA
LY
TIC
SE
RV
ER
Big Analytics를 설명하는 새로운 관점들..
DATA SIZE BIG DATA 대용량 데이터
IN-M
EM
OR
Y D
B
BIG ANALYTICS BIG DATA ANALYTICS
BI BIG DATA BI
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Analytics를 설명하는 새로운 관점들..
DATA SIZE BIG DATA 대용량 데이터
BIG ANALYTICS BIG DATA ANALYTICS
BI BIG DATA BI
Visual Analytics
결과
반응
적
선제
대응
적
분석
능력
Copyright © 2013, SAS Institute Inc. All rights reserved.
Big Analytics를 설명하는 새로운 관점들..
DATA SIZE BIG DATA 대용량 데이터
BIG ANALYTICS BIG DATA ANALYTICS
BI BIG DATA BI
결과
반응
적
선제
대응
적
분석
능력
High-Performance
Analytics
Copyright © 2013, SAS Institute Inc. All rights reserved.
기존에 처리할 수 없었던 Big Data를 유용한 비즈니스
가치로 전환합니다.
세계 최고의 분석을 통해 정확한 통찰력을 제공합니다.
훨씬 빨라진 대응을 통해 비즈니스 운영 방식을
혁신시켜 줍니다.
미래 지향적이고 확장 가능한 분석 인프라로
진화시킵니다.
Big Data Analytics를 위한 기술 혁신, SAS® High-Performance Analytics
Copyright © 2013, SAS Institute Inc. All rights reserved.
See Your Big Results with
SAS® Visual Analytics