bridging the gap between data and analytics · 2017-04-13 · hadoop avro (.avro) o o parquet (cdh,...
TRANSCRIPT
Bridging the gap between data and analytics
최문규 이사, [email protected]
Sr. Solution Architect
April 2017
Paxata에대하여.
Customers & Partners
Fortune 1000 FocusFinancial Services, High Tech, CPG & Retail, Healthcare & Pharma, Business Services, Public Sector
30+ Referral, Re-seller, & Technology PartnersCloudera, Hortonworks, MapR, Tableau, Qlik, Microsoft, Amazon, Cisco, PwC, Carahsoft, In-Q-Tel
Product
• Enterprise Grade self service information platform tailored for the Business Consumer
• SaaS Model deployed on premise or in the cloud
Company & People
• Founded in 2012• HQ in Redwood City, CA and offices in Columbus OH, New
York NY, and Singapore• Distribution channels in Japan & South Korea (2016)
Recognition Investors
2
Raw Data와 Information의차이
InformationRaw Data
Complete
Clean
Contextual
Consumable
CRM
D&B
Financials
SocialMedia ERP
Machine Data
3
주요데이터문제로인해종종방해받는분석
• Inability to shape data
- 집계연산, 분석불가능한시각화, - -
- 가치전달부족
• Missing data
- 데이터세트통합불가, 표현불가
• Data quality issues
- 중복, 철자오류, 공백
- 데이터포멧불일치
4
오늘날, 원시데이터를정보로바꾸는것은쉽지않다!
Business Can’t Use IT ToolsIT Doesn’t Understand Data
5/20/16 Paxata Confidential 5
80% Of Effort Spent On Data Preparation
Completely Manual Coding / Scripting
IT-centric Technology
5
데이터준비는 8억 3500만명정보근로자의범위를해결해야한다.
460M General information workers• Wants to consume information without
restrictions • May use Google Docs, MS Office tools
100M Data analysts, power users• Master of VLookup and pivot, limited
programming skills• Drove need for a self-service, agile BI
200,000 Data scientists • Statistical modeling, programming and
data management skills• Most tools available for them
575,000 Data developers• Data modeling and declarative
programming skills• Excel, SQL, Access are primary tools
275M Business users• Basic Excel or equivalent,
no programming knowledge • Consumers of the self-service BI stack
Deep technical skills No technical skillsSource: Forrester Research, Inc., “Info Workers Will Erase The Boundary Between Enterprise and Consumer Technologies,” August 30, 2012
Data scientist
Data developer
Data analystBusiness
user
General information
worker
6
Self-Service Data Prep의필요성에대해
★데이터분석프로세스
Gartner
2018년까지대부분의회사가분석을위한데이터준비에 Self-service Data Prep툴을도입할것으로예상
IT에데이터요청
데이터문제발생
보고서공유
보고서작성
보고서작성
보고서공유
데이터ETL 개발
80% 이상• 데이터 탐색(Explore)
• 데이터 프로파일링(Profiling)
• 모델링(Modeling)
• 데이터 변환(Transformation)
• 데이터 정제(Cleansing)
• 중복제거(Deduplication)
현업담당자와재협의
Self-ServiceData Prep
지연 발생
보고서데이터취합, 수정, 가공에소요되는시간,
인력및비용의절감
7
Self-Service Data Preparation Platform의요구사항
스키마 & 알고리즘
• Information-centric model on
poly-structured data
• Adaptive, semantic, machine
learning based
분석가용으로구축, IT부서에서지원
• Freedom and flexibility with
collaboration
• Data governance, scale, efficiency
유연한배포
• Elastic public and private cloud
• Mixed workload management
• Multi-tenant
엔터프라이즈급통합플랫폼
• Single platform for integration,
quality, enrichment, collaboration
and governance
• In-memory, columnar, distributed
pipeline architecture
8
Paxata개요Paxata Enterprise Data Preparation 플랫폼
9
Paxata : Enterprise Self-Service Data Prep Platform
Paxata는 IT 및현업 사용자들이 데이터를 취합, 가공하기 위해 수행하는 수작업의 대부분을 줄일 수 있도록 도와주는
Enterprise Self-Service Data Prep 플랫폼입니다.
데이터수집/추가
병합
보강
정제/변환
검사/탐색
정형화
공유,협업거버넌스
배포
PaxataAnswerSetsTM
10
Semantic Catalog and Library
Consumer Experience for Information Exploration
Elastic Columnar Enterprise Information Management Engine
Ubiquitous Connectivity
Automation
Ad
min
istr
ati
on
Secu
rity
CollaborationIntegration Quality Enrichment Governance
Data LakeEnterprise
Local Cloud
Analytic Apps PredictiveAd Hoc Reporting
* Intelligent Enterprise Information Network
• 모든분석도구
• 모든데이터소스
• 모든비즈니스단위
• 모든사람
* Continues to get smarter and more valuable
• 정보기반의사결정에필요한데이터원본,
변환, 및결과의의미를학습
• 수요에따라필요한정보를예측
Data To Information, Clicks Not Code, Minutes Not Months11
Paxata : Value
Paxata : Key Technology
• No Script: Highly Flexible, Event-Driven, Point and Click Ux
• Multi-Tenant: Built from the ground up for diverse workloads
• Interactive at Scale: Parallel, Columnar Data Transformation Engine on Spark
• In-Built Intelligence: Automatic Join, Append, Normalization
• Elastic: can scale up and down with workload needs
출원 & 출원중인 10+ 특허
12
Paxata기능소개Paxata Enterprise Data Preparation 플랫폼
13
Paxata의주요기능및특징
14
다양한데이터소스에연결
Paxata는 Hadoop, SFDC, Excel, XML JSON, Avro, 로그파일, RDB 등형식에관계없이데이터를불러올수있습니다.
Supported File Format 가져오기 내보내기 호환성
구분자, 고정길이 텍스트(.csv, .tsv, .txt)
O O
Local, HDFS, sFTP, Amazon S3
Excel (xls, xlsm, xlsx) O
JSON (.json, .js) O O
XML (.xml) O O
Hadoop Avro (.avro) O O
Parquet (CDH, HDP, MapR) O O
BZip2 (.bz2) O
HDFSGzip (.gz) O
Deflate (.deflate) O
Snappy (.snappy) O
LZ4 (.lz4) O
Paxata에서 지원하는 Data Sources (Custom 커넥터 추가가능)
Platform 버전 호환성
DB2 10+ (Unix)
JDBC
MySQL 5.1
MS SQL 2012+
Netezza 7.x +
Oracle 11
Postgres 8.4
Hive CDH, HDP, MapR
Salesforce v36 (가져오기)
IBM Cloudant 최신 Cloudant서비스
Salesforce v36 (가져오기) Salesforce
IBMIBM Cloudant 최신 Cloudant서비스
< 전사데이터라이브러리 >
코딩없이다양한데이터소스에직접접근
15
뛰어난처리성능
기존하둡기반 Map Reduce(M/R) 작업은각단계별Disk I/O가불가피한반면, Paxata는분산 In-Memory
병렬처리엔진인 Spark 기반으로M/R 대비 10배 ~ 100배이상빠른성능을제공.
각 단계별Disk I/O 발생 10~100x 이상빠른성능
16
Paxata는기본적으로Apache Spark 기반으로동작하며, 추가적으로최적의컴파일/캐싱기법과RDD(Resilient
Distributed DataSet) 생성으로효율적인메모리사용을통해더욱빠른데이터처리성능을제공.
최적화된 Paxata Compiler를 통해 빠르고
효율적으로 데이터 처리
Optimizing Compiler (Patent)
Paxata의 On-disk 컬럼기반 캐싱 기법을 통해
빠르고 효율적으로 데이터 처리
Persistent Columnar Caching (Patent)
Paxata에서 데이터 Prep 작업시, 최소화된
RDD가 생성되도록 최적화
Paxata Specific RDDs (Patent)
집계연산에 대한 뛰어난 성능 제공
On-line Aggregation (Patent)
①② ③
④
⑤
⑥
자동조인추천 (Join)
머신러닝기반 IntelliFusion™ 기능을통해여러정형, 비정형소스데이터간의공통적인속성을빠르게찾아내어,
데이터의매칭비율에근거하여데이터조인키를자동으로탐지하고추천합니다.
Intellifusion™ 매칭 알고리즘
- Exact Match 두 개 값들의 모든 캐릭터가 정확하게 일치해야 매칭
- Automatic Match: 텍스트 값을 매칭함에 있어, 단어 순서, 대/소문자 등을
무시하고 말하는 발음을 기준으로 매칭
- Custom Match: 사용자가 직접 단어 순서, 케이스, 공백 등에 대한 옵션을
조정하여 매칭
병합 타입- 매칭되지 않는 Row 데이터에 대한 처리방법으로,
Left Lookup, Inner Lookup, Right Lookup, Full Outer Lookup
을 지원
1
2
Lookup 옵션A 데이터 B 데이터
매칭되는데이터의비율에근거하여가장높은비율의 Join 키를자동추천(사용자가직접조정 가능)
17
NLP (Natural Language Processing)
Cluster + Edit의 NLP 알고리즘은컬럼데이터를빠르게표준화하고, 불일치데이터를정제하는데유용합니다.
이를통해가장유사한값들을하나의클러스터로손쉽게묶어(Grouping) 줄수있습니다.
1
2
3
Metaphone- 영어 발음 기준으로 그룹핑합니다. 단어의 소리가 얼마나
유사하거나 다른지를 기반으로하기 때문에 "음성" 알고리즘으로
분류됩니다. 이 알고리즘은 수동으로 정보가 입력되어 철자가
잘못 입력되었거나, 서로 다른 이기종 시스템에서 데이터가
추가된 경우에 특히 유용합니다.
N-gram- N-gram 알고리즘은 검색 엔진에서 많이 사용되는 알고리즘.
문자들을 사용자가 입력한 숫자(n)개로분리한 후, 분리된
글자들의 개연성을 기반으로 비교합니다.
Fingerprint- 문장 및 단어의 순서, 대/소문자의 구분만 가능한 알고리즘.
보통 이름을 비교하는 기능에서 많이 볼 수 있습니다.
예)"Adèle Smith" , "SMITH, ADELE".
NLP 알고리즘 (기본제공)
Kormize (한자및한국어처리)1) 한자어 처리 : 한자음에대한 한글변환
2) 특수문자 및 괄호 포함 문자 제거
3) 형태소 단위 분리 및 정렬
: 문자기입순서나띄어쓰기에대해 Clustering 정확도향상을위한분리 및정렬처리
4
18
Custom 알고리즘적용을통한기능확장
고객이기보유하고있는알고리즘이나추가알고리즘을적용할수있습니다.
개발단계 (Java)1. ClusterAlgorithm 인터페이스를 상속받아 Custom
알고리즘 추가
2. *.jar로 컴파일하여 Pipeline Server 경로에 복사
3. CustomClusterAlgorithm.config 파일에 해당
알고리즘명과 Class path 정의
4. 클러스터+편집, 계산 컬럼에서 해당 알고리즘 활용
1
2< 기업명칭표준화 >
< 주소데이터표준화 >
Custom 알고리즘 활용 예1. 한글(기업명칭, 사용자 입력값 등) NLP :
Cluster + Edit 기능에 한글/한자 지원 추가
2. Log데이터 정제 :
이벤트 발생 데이터 정제 및 패턴 생성
3. 주소 표준화 :
지번주소 도로명주소 변환, 가구화 등
< 입력값표준화 >19
Spot 분석 (Ad-Hoc)
Filtergram과 Shape (Dedup, Group by, Transpose, Pivot, Depivot)을이용하여 Raw 데이터에대해즉시필터링
및 Shaping을 수행하여Spot 업무지원에용이.
Text 타입 Numeric 타입 Date 타입
상호연동Visual Interaction
상호연동Visual Interaction
20
ClickToPrep™
데이터 Prep이완료된AnswerSets™ 데이터를Export하여외부 BI 툴에서의연결및 URL 방식의ClickToPrep™
기능호출을이용해사용자가직접데이터 Prep 로직확인및수정을함으로써끊임없는정보활용이가능합니다.
Export to
• File
• HDFS
• Hive/Impala
Data Refresh
URL Filter 예
https://<Server>/#/view/Remocon?filtercoumn=Country&filtervalue=KR
ClickToPrep™• Project
• Step
• Filtering
21
거버넌스확보
Paxata의모든작업들은추적이가능하며, 이를통해언제든지작업을단계별재수행및작업순서변경이나
새로운데이터집합생성시에도재사용이가능합니다.
버전 관리- 프로젝트에서 진행한 모든 시간대별 작업 내용들에 대해
버전이 관리되며 각 버전별로 주석을 입력하여 쉽게 인식할
수 있고, 복원시킬 수 있습니다.
1
작업이력
버전관리
자동화
작업 이력- Steps Editor에서는 프로젝트의 단계를 확인 및 수정,
추가, 조정하고 삭제할 수 있습니다. Steps Editor의
step은 순서대로 나타나며 가장 최신 step일수록 상단에
위치하게 됩니다.
2
자동화- AnswerSets을 생성하기 위해 필요로 하는 여러가지 반복적인
작업들을 줄여주기 위해서 라이브러리 자동화와 프로젝트
자동화 기능을 제공합니다.
- 라이브러리 자동화는 라이브러리에 저장 되어있는 데이터를
설정한 스케쥴에 따라 최신의 데이터로 업데이트 합니다.
- 프로젝트 자동화는 설정한 스케쥴에 따라 해당 프로젝트의
처리 결과 데이터를 업데이트합니다.
3
22
데이터보안
Paxata Library의데이터별로권한을설정합니다.또한Export 로그를통해 Download History를확인할수
있습니다(Audit & Trail).
데이터에대한다양한권한관리제공
그룹대상권한추가
사용자대상권한추가
Custom 알고리즘적용예
데이터내보내기에대한History 조회기능제공
암호화 알고리즘 개발 및 적용 방식
1. ClusterAlgorithm 인터페이스를상속받아
Custom 알고리즘추가
2. *.jar로 컴파일후 Pipeline Server 경로에복사
3. CustomClusterAlgorithm.config 파일에해당
알고리즘명과 Class path 정의
4. 클러스터+편집, 계산컬럼에서해당
알고리즘활용
23
개인정보비식별화
개인을식별할수있는요소를전부또는일부삭제하거나대체하는등의방법을활용하여개인을알아볼수
없도록조치합니다.
처리기법 예시 세부기술
가명처리(Pseudonymization)
• 홍길동, 35세, 서울거주, 한국대재학→ 임꺽정, 30대, 서울거주, 국제대재학
①휴리스틱가명화②암호화③교환방법
총계처리(Aggregation)
• 임꺽정180cm, 홍길동170cm, 이콩쥐160cm, 김팥쥐 150cm→ 물리학과학생키합 : 660cm, 평균키165cm
④총계처리⑤부분총계⑥라운딩⑦재배열
데이터삭제(Data Reduction)
• 주민등록번호901206-1234567→ 90년대생, 남자• 개인과관련된날짜정보(합격일등)는연단위로처리
⑧식별자삭제⑨식별자부분삭제⑩레코드삭제⑪식별요소전부삭제
데이터범주화(Data Suppression)
• 홍길동, 35세→ 홍씨, 30~40세 ⑫감추기⑬랜덤라운딩⑭범위방법⑮제어라운딩
데이터마스킹(Data Masking)
• 홍길동, 35세, 서울거주, 한국대재학→ 홍◯◯, 35세, 서울거주, ◯◯대학재학
⑯임의잡음추가⑰공백과대체
식별자데이터 외부변수(항목값)
Lookup
Find+Replace
Custom Algorithm
① ⑧ ⑨ ⑪
②
③
Shaping
④ ⑤
Calculated Column
⑥ ⑫ ⑬ ⑭ ⑮ ⑯⑰
Split
⑦
⑩
Remove
[NIA] 개인정보 비식별 조치 가이드라인
24
공유및자동화
라이브러리와프로젝트단위로공유및스케쥴링(자동화) 기능을제공합니다.
자동화 (Automation)
데이터(라이브러리)공유
작업(프로젝트)공유
- 라이브러리자동화는라이브러리에저장되어있는데이터를
설정한스케쥴에따라최신의데이터로업데이트합니다.
- 프로젝트자동화는설정한스케쥴에따라해당프로젝트의
처리결과데이터를업데이트합니다.
25
모니터링
Spark History Web UI에서제공하는 Job Monitoring 페이지를통해각사용자별로 처리중인작업과수행시간
등을확인할수있으며작업 Kill을 수행합니다.
수행시간 Shuffle 사용용량UserID ProjectID Job Kill
26
코딩없이마우스클릭만으로작업가능
Paxata는코딩작업없이마우스클릭만으로대부분의기능수행이가능하여최종사용자가직접데이터Prep을
손쉽게처리할수있습니다.
Spark’s Scala API
1 Click
Filtergram
Load
Union
Join
…
27
Use Case Demo : 고객 360° 분석Paxata Enterprise Self-Service Data Prep플랫폼
28
Paxata외부기관평가Paxata Enterprise Data Preparation 플랫폼
29
외부기관평가 (Forrester, Q1 2017)
Forrester Wave™: Data Preparation Tools, Q1 ’17
30
50 Companies Leading the AI Revolution,
- A version of this article appears in the March 1, 2017 issue of Fortune with the headline "Betting on AI."
외부기관평가 (Fortune, Q1 2017)
31
Paxata’s Use & DifferentiationPaxata Enterprise Data Preparation 플랫폼
32
Paxata’s Use
33
Procurement
Strategy/
Planning
Finance
Operations
Risk
Internal
Audit
• Vendor consolidation• Contract negotiations• Supply chain optimization• ….
Procurement
• Expense management• Insider threats• Contingent workforce
access• ….
Internal Audit • Politically Exposed Persons compliance
• CCAR stress testing• Wealth and portfolio
management • Anti Money Laundering
Risk
• Infrastructure monitoring • Advanced threat
detection• Equipment tracking• ….
Operations
• FCC audit reporting• Financial consolidations• Chart of account
harmonization• Asset liability• Capital budgeting and
allocation
Finance
• Know Your Customer• Market penetration• Sales effectiveness by
channel• ….
Strategy/Planning
33
Paxata’s Customer
34
Industry Recognition Strong Investors
Leading PartnersCustomer Success Fortune 1000 focus
Top Fin Svcs
Top High-Tech Companies
Top CPG/Retailers
Top Business Service Companies
Healthcare
Info Svcs
Paxata’s Differentiation
Elastic Cloud
Algorithmic Intelligence
Business Consumer Experience
Distributed Computing
35
Summary
Elastic Cloud
Algorithmic Intelligence
Business Consumer Experience
Distributed Computing
Market-Creating Vision, Best in Class Product
Significant Customer ROI in Short Time Frames36
Thank you!최문규 이사, [email protected]