bridging the gap between data and analytics · 2017-04-13 · hadoop avro (.avro) o o parquet (cdh,...

Bridging the gap between data and analytics

최문규 이사, [email protected]

Sr. Solution Architect

April 2017

Paxata에대하여.

Customers & Partners

Fortune 1000 FocusFinancial Services, High Tech, CPG & Retail, Healthcare & Pharma, Business Services, Public Sector

30+ Referral, Re-seller, & Technology PartnersCloudera, Hortonworks, MapR, Tableau, Qlik, Microsoft, Amazon, Cisco, PwC, Carahsoft, In-Q-Tel

Product

• Enterprise Grade self service information platform tailored for the Business Consumer

• SaaS Model deployed on premise or in the cloud

Company & People

• Founded in 2012• HQ in Redwood City, CA and offices in Columbus OH, New

York NY, and Singapore• Distribution channels in Japan & South Korea (2016)

Recognition Investors

2

Raw Data와 Information의차이

InformationRaw Data

Complete

Clean

Contextual

Consumable

CRM

D&B

Financials

SocialMedia ERP

Machine Data

3

주요데이터문제로인해종종방해받는분석

• Inability to shape data

- 집계연산, 분석불가능한시각화, - -

- 가치전달부족

• Missing data

- 데이터세트통합불가, 표현불가

• Data quality issues

- 중복, 철자오류, 공백

- 데이터포멧불일치

4

오늘날, 원시데이터를정보로바꾸는것은쉽지않다!

Business Can’t Use IT ToolsIT Doesn’t Understand Data

5/20/16 Paxata Confidential 5

80% Of Effort Spent On Data Preparation

Completely Manual Coding / Scripting

IT-centric Technology

5

데이터준비는 8억 3500만명정보근로자의범위를해결해야한다.

460M General information workers• Wants to consume information without

restrictions • May use Google Docs, MS Office tools

100M Data analysts, power users• Master of VLookup and pivot, limited

programming skills• Drove need for a self-service, agile BI

200,000 Data scientists • Statistical modeling, programming and

data management skills• Most tools available for them

575,000 Data developers• Data modeling and declarative

programming skills• Excel, SQL, Access are primary tools

275M Business users• Basic Excel or equivalent,

no programming knowledge • Consumers of the self-service BI stack

Deep technical skills No technical skillsSource: Forrester Research, Inc., “Info Workers Will Erase The Boundary Between Enterprise and Consumer Technologies,” August 30, 2012

Data scientist

Data developer

Data analystBusiness

user

General information

worker

6

Self-Service Data Prep의필요성에대해

★데이터분석프로세스

Gartner

2018년까지대부분의회사가분석을위한데이터준비에 Self-service Data Prep툴을도입할것으로예상

IT에데이터요청

데이터문제발생

보고서공유

보고서작성

보고서작성

보고서공유

데이터ETL 개발

80% 이상• 데이터 탐색(Explore)

• 데이터 프로파일링(Profiling)

• 모델링(Modeling)

• 데이터 변환(Transformation)

• 데이터 정제(Cleansing)

• 중복제거(Deduplication)

현업담당자와재협의

Self-ServiceData Prep

지연 발생

보고서데이터취합, 수정, 가공에소요되는시간,

인력및비용의절감

7

Self-Service Data Preparation Platform의요구사항

스키마 & 알고리즘

• Information-centric model on

poly-structured data

• Adaptive, semantic, machine

learning based

분석가용으로구축, IT부서에서지원

• Freedom and flexibility with

collaboration

• Data governance, scale, efficiency

유연한배포

• Elastic public and private cloud

• Mixed workload management

• Multi-tenant

엔터프라이즈급통합플랫폼

• Single platform for integration,

quality, enrichment, collaboration

and governance

• In-memory, columnar, distributed

pipeline architecture

8

Paxata개요Paxata Enterprise Data Preparation 플랫폼

9

Paxata : Enterprise Self-Service Data Prep Platform

Paxata는 IT 및현업 사용자들이 데이터를 취합, 가공하기 위해 수행하는 수작업의 대부분을 줄일 수 있도록 도와주는

Enterprise Self-Service Data Prep 플랫폼입니다.

데이터수집/추가

병합

보강

정제/변환

검사/탐색

정형화

공유,협업거버넌스

배포

PaxataAnswerSetsTM

10

Semantic Catalog and Library

Consumer Experience for Information Exploration

Elastic Columnar Enterprise Information Management Engine

Ubiquitous Connectivity

Automation

Ad

min

istr

ati

on

Secu

rity

CollaborationIntegration Quality Enrichment Governance

Data LakeEnterprise

Local Cloud

Analytic Apps PredictiveAd Hoc Reporting

* Intelligent Enterprise Information Network

• 모든분석도구

• 모든데이터소스

• 모든비즈니스단위

• 모든사람

* Continues to get smarter and more valuable

• 정보기반의사결정에필요한데이터원본,

변환, 및결과의의미를학습

• 수요에따라필요한정보를예측

Data To Information, Clicks Not Code, Minutes Not Months11

Paxata : Value

Paxata : Key Technology

• No Script: Highly Flexible, Event-Driven, Point and Click Ux

• Multi-Tenant: Built from the ground up for diverse workloads

• Interactive at Scale: Parallel, Columnar Data Transformation Engine on Spark

• In-Built Intelligence: Automatic Join, Append, Normalization

• Elastic: can scale up and down with workload needs

출원 & 출원중인 10+ 특허

12

Paxata기능소개Paxata Enterprise Data Preparation 플랫폼

13

Paxata의주요기능및특징

14

다양한데이터소스에연결

Paxata는 Hadoop, SFDC, Excel, XML JSON, Avro, 로그파일, RDB 등형식에관계없이데이터를불러올수있습니다.

Supported File Format 가져오기 내보내기 호환성

구분자, 고정길이 텍스트(.csv, .tsv, .txt)

O O

Local, HDFS, sFTP, Amazon S3

Excel (xls, xlsm, xlsx) O

JSON (.json, .js) O O

XML (.xml) O O

Hadoop Avro (.avro) O O

Parquet (CDH, HDP, MapR) O O

BZip2 (.bz2) O

HDFSGzip (.gz) O

Deflate (.deflate) O

Snappy (.snappy) O

LZ4 (.lz4) O

Paxata에서 지원하는 Data Sources (Custom 커넥터 추가가능)

Platform 버전 호환성

DB2 10+ (Unix)

JDBC

MySQL 5.1

MS SQL 2012+

Netezza 7.x +

Oracle 11

Postgres 8.4

Hive CDH, HDP, MapR

Salesforce v36 (가져오기)

IBM Cloudant 최신 Cloudant서비스

Salesforce v36 (가져오기) Salesforce

IBMIBM Cloudant 최신 Cloudant서비스

< 전사데이터라이브러리 >

코딩없이다양한데이터소스에직접접근

15

뛰어난처리성능

기존하둡기반 Map Reduce(M/R) 작업은각단계별Disk I/O가불가피한반면, Paxata는분산 In-Memory

병렬처리엔진인 Spark 기반으로M/R 대비 10배 ~ 100배이상빠른성능을제공.

각 단계별Disk I/O 발생 10~100x 이상빠른성능

16

Paxata는기본적으로Apache Spark 기반으로동작하며, 추가적으로최적의컴파일/캐싱기법과RDD(Resilient

Distributed DataSet) 생성으로효율적인메모리사용을통해더욱빠른데이터처리성능을제공.

최적화된 Paxata Compiler를 통해 빠르고

효율적으로 데이터 처리

Optimizing Compiler (Patent)

Paxata의 On-disk 컬럼기반 캐싱 기법을 통해

빠르고 효율적으로 데이터 처리

Persistent Columnar Caching (Patent)

Paxata에서 데이터 Prep 작업시, 최소화된

RDD가 생성되도록 최적화

Paxata Specific RDDs (Patent)

집계연산에 대한 뛰어난 성능 제공

On-line Aggregation (Patent)

①② ③

④

⑤

⑥

자동조인추천 (Join)

머신러닝기반 IntelliFusion™ 기능을통해여러정형, 비정형소스데이터간의공통적인속성을빠르게찾아내어,

데이터의매칭비율에근거하여데이터조인키를자동으로탐지하고추천합니다.

Intellifusion™ 매칭 알고리즘

- Exact Match 두 개 값들의 모든 캐릭터가 정확하게 일치해야 매칭

- Automatic Match: 텍스트 값을 매칭함에 있어, 단어 순서, 대/소문자 등을

무시하고 말하는 발음을 기준으로 매칭

- Custom Match: 사용자가 직접 단어 순서, 케이스, 공백 등에 대한 옵션을

조정하여 매칭

병합 타입- 매칭되지 않는 Row 데이터에 대한 처리방법으로,

Left Lookup, Inner Lookup, Right Lookup, Full Outer Lookup

을 지원

1

2

Lookup 옵션A 데이터 B 데이터

매칭되는데이터의비율에근거하여가장높은비율의 Join 키를자동추천(사용자가직접조정 가능)

17

NLP (Natural Language Processing)

Cluster + Edit의 NLP 알고리즘은컬럼데이터를빠르게표준화하고, 불일치데이터를정제하는데유용합니다.

이를통해가장유사한값들을하나의클러스터로손쉽게묶어(Grouping) 줄수있습니다.

1

2

3

Metaphone- 영어 발음 기준으로 그룹핑합니다. 단어의 소리가 얼마나

유사하거나 다른지를 기반으로하기 때문에 "음성" 알고리즘으로

분류됩니다. 이 알고리즘은 수동으로 정보가 입력되어 철자가

잘못 입력되었거나, 서로 다른 이기종 시스템에서 데이터가

추가된 경우에 특히 유용합니다.

N-gram- N-gram 알고리즘은 검색 엔진에서 많이 사용되는 알고리즘.

문자들을 사용자가 입력한 숫자(n)개로분리한 후, 분리된

글자들의 개연성을 기반으로 비교합니다.

Fingerprint- 문장 및 단어의 순서, 대/소문자의 구분만 가능한 알고리즘.

보통 이름을 비교하는 기능에서 많이 볼 수 있습니다.

예)"Adèle Smith" , "SMITH, ADELE".

NLP 알고리즘 (기본제공)

Kormize (한자및한국어처리)1) 한자어 처리 : 한자음에대한 한글변환

2) 특수문자 및 괄호 포함 문자 제거

3) 형태소 단위 분리 및 정렬

: 문자기입순서나띄어쓰기에대해 Clustering 정확도향상을위한분리 및정렬처리

4

18

Custom 알고리즘적용을통한기능확장

고객이기보유하고있는알고리즘이나추가알고리즘을적용할수있습니다.

개발단계 (Java)1. ClusterAlgorithm 인터페이스를 상속받아 Custom

알고리즘 추가

2. *.jar로 컴파일하여 Pipeline Server 경로에 복사

3. CustomClusterAlgorithm.config 파일에 해당

알고리즘명과 Class path 정의

4. 클러스터+편집, 계산 컬럼에서 해당 알고리즘 활용

1

2< 기업명칭표준화 >

< 주소데이터표준화 >

Custom 알고리즘 활용 예1. 한글(기업명칭, 사용자 입력값 등) NLP :

Cluster + Edit 기능에 한글/한자 지원 추가

2. Log데이터 정제 :

이벤트 발생 데이터 정제 및 패턴 생성

3. 주소 표준화 :

지번주소 도로명주소 변환, 가구화 등

< 입력값표준화 >19

Spot 분석 (Ad-Hoc)

Filtergram과 Shape (Dedup, Group by, Transpose, Pivot, Depivot)을이용하여 Raw 데이터에대해즉시필터링

및 Shaping을 수행하여Spot 업무지원에용이.

Text 타입 Numeric 타입 Date 타입

상호연동Visual Interaction

상호연동Visual Interaction

20

ClickToPrep™

데이터 Prep이완료된AnswerSets™ 데이터를Export하여외부 BI 툴에서의연결및 URL 방식의ClickToPrep™

기능호출을이용해사용자가직접데이터 Prep 로직확인및수정을함으로써끊임없는정보활용이가능합니다.

Export to

• File

• HDFS

• Hive/Impala

Data Refresh

URL Filter 예

https://<Server>/#/view/Remocon?filtercoumn=Country&filtervalue=KR

ClickToPrep™• Project

• Step

• Filtering

21

거버넌스확보

Paxata의모든작업들은추적이가능하며, 이를통해언제든지작업을단계별재수행및작업순서변경이나

새로운데이터집합생성시에도재사용이가능합니다.

버전 관리- 프로젝트에서 진행한 모든 시간대별 작업 내용들에 대해

버전이 관리되며 각 버전별로 주석을 입력하여 쉽게 인식할

수 있고, 복원시킬 수 있습니다.

1

작업이력

버전관리

자동화

작업 이력- Steps Editor에서는 프로젝트의 단계를 확인 및 수정,

추가, 조정하고 삭제할 수 있습니다. Steps Editor의

step은 순서대로 나타나며 가장 최신 step일수록 상단에

위치하게 됩니다.

2

자동화- AnswerSets을 생성하기 위해 필요로 하는 여러가지 반복적인

작업들을 줄여주기 위해서 라이브러리 자동화와 프로젝트

자동화 기능을 제공합니다.

- 라이브러리 자동화는 라이브러리에 저장 되어있는 데이터를

설정한 스케쥴에 따라 최신의 데이터로 업데이트 합니다.

- 프로젝트 자동화는 설정한 스케쥴에 따라 해당 프로젝트의

처리 결과 데이터를 업데이트합니다.

3

22

데이터보안

Paxata Library의데이터별로권한을설정합니다.또한Export 로그를통해 Download History를확인할수

있습니다(Audit & Trail).

데이터에대한다양한권한관리제공

그룹대상권한추가

사용자대상권한추가

Custom 알고리즘적용예

데이터내보내기에대한History 조회기능제공

암호화 알고리즘 개발 및 적용 방식

1. ClusterAlgorithm 인터페이스를상속받아

Custom 알고리즘추가

2. *.jar로 컴파일후 Pipeline Server 경로에복사

3. CustomClusterAlgorithm.config 파일에해당

알고리즘명과 Class path 정의

4. 클러스터+편집, 계산컬럼에서해당

알고리즘활용

23

개인정보비식별화

개인을식별할수있는요소를전부또는일부삭제하거나대체하는등의방법을활용하여개인을알아볼수

없도록조치합니다.

처리기법 예시 세부기술

가명처리(Pseudonymization)

• 홍길동, 35세, 서울거주, 한국대재학→ 임꺽정, 30대, 서울거주, 국제대재학

①휴리스틱가명화②암호화③교환방법

총계처리(Aggregation)

• 임꺽정180cm, 홍길동170cm, 이콩쥐160cm, 김팥쥐 150cm→ 물리학과학생키합 : 660cm, 평균키165cm

④총계처리⑤부분총계⑥라운딩⑦재배열

데이터삭제(Data Reduction)

• 주민등록번호901206-1234567→ 90년대생, 남자• 개인과관련된날짜정보(합격일등)는연단위로처리

⑧식별자삭제⑨식별자부분삭제⑩레코드삭제⑪식별요소전부삭제

데이터범주화(Data Suppression)

• 홍길동, 35세→ 홍씨, 30~40세 ⑫감추기⑬랜덤라운딩⑭범위방법⑮제어라운딩

데이터마스킹(Data Masking)

• 홍길동, 35세, 서울거주, 한국대재학→ 홍◯◯, 35세, 서울거주, ◯◯대학재학

⑯임의잡음추가⑰공백과대체

식별자데이터 외부변수(항목값)

Lookup

Find+Replace

Custom Algorithm

① ⑧ ⑨ ⑪

②

③

Shaping

④ ⑤

Calculated Column

⑥ ⑫ ⑬ ⑭ ⑮ ⑯⑰

Split

⑦

⑩

Remove

[NIA] 개인정보 비식별 조치 가이드라인

24

공유및자동화

라이브러리와프로젝트단위로공유및스케쥴링(자동화) 기능을제공합니다.

자동화 (Automation)

데이터(라이브러리)공유

작업(프로젝트)공유

- 라이브러리자동화는라이브러리에저장되어있는데이터를

설정한스케쥴에따라최신의데이터로업데이트합니다.

- 프로젝트자동화는설정한스케쥴에따라해당프로젝트의

처리결과데이터를업데이트합니다.

25

모니터링

Spark History Web UI에서제공하는 Job Monitoring 페이지를통해각사용자별로 처리중인작업과수행시간

등을확인할수있으며작업 Kill을 수행합니다.

수행시간 Shuffle 사용용량UserID ProjectID Job Kill

26

코딩없이마우스클릭만으로작업가능

Paxata는코딩작업없이마우스클릭만으로대부분의기능수행이가능하여최종사용자가직접데이터Prep을

손쉽게처리할수있습니다.

Spark’s Scala API

1 Click

Filtergram

Load

Union

Join

…

27

Use Case Demo : 고객 360° 분석Paxata Enterprise Self-Service Data Prep플랫폼

28

Paxata외부기관평가Paxata Enterprise Data Preparation 플랫폼

29

외부기관평가 (Forrester, Q1 2017)

Forrester Wave™: Data Preparation Tools, Q1 ’17

30

50 Companies Leading the AI Revolution,

- A version of this article appears in the March 1, 2017 issue of Fortune with the headline "Betting on AI."

외부기관평가 (Fortune, Q1 2017)

31

Paxata’s Use & DifferentiationPaxata Enterprise Data Preparation 플랫폼

32

Paxata’s Use

33

Procurement

Strategy/

Planning

Finance

Operations

Risk

Internal

Audit

• Vendor consolidation• Contract negotiations• Supply chain optimization• ….

Procurement

• Expense management• Insider threats• Contingent workforce

access• ….

Internal Audit • Politically Exposed Persons compliance

• CCAR stress testing• Wealth and portfolio

management • Anti Money Laundering

Risk

• Infrastructure monitoring • Advanced threat

detection• Equipment tracking• ….

Operations

• FCC audit reporting• Financial consolidations• Chart of account

harmonization• Asset liability• Capital budgeting and

allocation

Finance

• Know Your Customer• Market penetration• Sales effectiveness by

channel• ….

Strategy/Planning

33

Paxata’s Customer

34

Industry Recognition Strong Investors

Leading PartnersCustomer Success Fortune 1000 focus

Top Fin Svcs

Top High-Tech Companies

Top CPG/Retailers

Top Business Service Companies

Healthcare

Info Svcs

Paxata’s Differentiation

Elastic Cloud

Algorithmic Intelligence

Business Consumer Experience

Distributed Computing

35

Summary

Elastic Cloud

Algorithmic Intelligence

Business Consumer Experience

Distributed Computing

Market-Creating Vision, Best in Class Product

Significant Customer ROI in Short Time Frames36

Thank you!최문규 이사, [email protected]

bridging the gap between data and analytics · 2017-04-13 · hadoop avro (.avro) o o parquet (cdh,...

Documents