real value using big data and next step군집, 분류, 연관성 등 데이터 분석가 마이닝...
Post on 05-Jan-2020
2 Views
Preview:
TRANSCRIPT
Real Value Using Big Data
And Next Step
㈜데이터스트림즈
(TEL) 82-2-3473-9077 (FAX) 82-2-3473-9084
www.datastreams.co.kr
비즈니스컨설팅본부 본부장 허은아 이사
© 2014 DataStreams Corp. All Rights Reserved.
※ Source: IDC
데이터 → 정보 → 지식 → 지혜
Data Information Knowledge Intelligence
1975~1989 1990~2004 2005~2020
High
Low
Production
reporting
and
statistics
OLAP,
query, and
data mining
BI suites and
analytic
applications
Decision
process
automation
Intelligent
process
automation
Static,
batch
reporting
Ad hoc
query and
OLAP
Data
warehousing
Templates
Data
models
ETL and
Data
quality
Collaboration
and
workflow
Dashboards
and
visualization
Scorecards
DW life-cycle
management
Alerting
Predictive
analysis
Process
awareness
Content
analysis
Event
monitoring
Data/Content
Users
Internal
developers
데이터베이스 기반 정보 활용의 진화 단계
1
© 2014 DataStreams Corp. All Rights Reserved.
ERP Systems
Web Logs etc
Call Centre Apps
Other Operational Apps
Operational Switches
Unstructured Data
File based information
Floods of Massive Data
Right Information on Right Time
Data Integration !!!
Machinery Legacy Systems
Sensors
Emails Social Data
데이터베이스 기반 정보 활용의 진화 단계
2
© 2014 DataStreams Corp. All Rights Reserved.
데이터 시대로의 진입
3
© 2014 DataStreams Corp. All Rights Reserved.
데이터의 관리 가치의 생성
예측
비정형 정형
결과
발생할 일에 대해 가장 최선의 대안은 무엇인가?
다음에 발생할 일은 무엇인가?
이 추세가 계속되면 어떻게 될 것인가?
이 결과가 나타난 이유는?
어떠한 행동이 필요한가?
문제의 원인이 어디에 있는가?
얼마나 많이, 자주, 어디에서 발생하는가?
무슨 일이 발생했는가?
최적화
예측
모델링
시계열
예측
통계
분석
경보
(ALERT)
OLAP
(검색,드릴
다운)
비정형
리포트
정형
리포트
데이터 활용의 새로운 가능성
4
© 2014 DataStreams Corp. All Rights Reserved.
IT 기술의 발전과 가격의 하락
5
© 2014 DataStreams Corp. All Rights Reserved.
처리할 데이터 량과 복잡도가 크므로 적시성을 위해 고성능 요구
비정형데이터 비중이 높다.
배치성 데이터 분석이 기본이나 즉시성 대응의 요구가 늘어나고 있다.
DBMS와 File의 데이터 구조차이 이용
균형있는 자원 사용
Main Memory
Disk I/O
상용
DBMS Free영역
시스템
어플리케이션
(TeraStream 사용)
파일영역 DB영역
I/O Channels
Processing Time
DBMS
File Processing
25만 건
7분 30초
Data Volume
기존 데이터 처리와 Big Data 처리의 차이점
6
© 2014 DataStreams Corp. All Rights Reserved.
출처 : TDWI 베스트 프랙티스 연구 보고서 SECOND QUARTER 2013
1. 빅데이터 분석 도입장벽(1/2)
귀 조직에 Hadoop 테크놀로지를 구현하는 데 있어서 가장 유력한 장애 요소는 무엇이라고 생각하십니까? (8개 이하로 선택하시오)
빅 데이터 분석을 다룰 수 있는 전문 인력과 스킬이 부족하다
비즈니스 재정 후원 부족
합당한 비즈니스 케이스의 부재
빅 데이터 분석 시스템 구축의 어려움
신기술 구현에 따른 비용 부담
관련 소프트웨어 툴의 부재와 낮은 완성도
프로젝트 착수에 필요한 정보 부족
종래의 사용자 정의 DW 아키텍쳐
메타데이터 관리 능력의 부재
최종 사용자들이 활용할 수 있도록 빅 데이터를 변환하는 데 어려움이 따른다
실시간으로 데이터를 처리하는 문제
API 선정 문제
높은 Hadoop 운영비에 따른 부담
핸드 코딩에 의한 개발 속도 저하
높은 수준의 언어 지원이 요구되는 소프트웨어 툴
대용량 데이터를 신속하게 그리고 수시로 로딩하는 문제
쿼리 처리 속도 개선 문제
빅 데이터의 확장성 문제
Hadoop 버전 간 호환성 문제
기타
응답자 256명을 대상으로 조사한 1,186개의 응답 결과에 기초함 (응답자 당 평균 4.6개)
62%
41%
40%
32%
30%
28%
27%
27%
25%
23%
22%
21%
17%
17%
16%
10%
9%
8%
3%
2%
빅데이터 분석의 평가
7
© 2014 DataStreams Corp. All Rights Reserved.
1. 빅데이터 분석 도입장벽(2/2)
빅데이터 분석의 평가
8
© 2014 DataStreams Corp. All Rights Reserved.
출처 : TDWI 베스트 프랙티스 연구보고서 SECOND QUARTER 2013
2. 빅데이터 분석(Hadoop) 활용 용도(1/2)
귀 조직의 분석 역량을 강화하는 데 HDFS가 도움이 된다고 생각하십니까?
귀 조직이 HDFS를 도입할 경우, 어떤 영역에 응용하는 것이 효과적이겠습니까? 해당 항목을 모두 선택하시오.
60% 예
모름 39%
아니오 1%
데이터 웨어하우스 보강. 특히 고급 분석 영역
웹, 머신, 센서, 소설, 기타 신종 데이터를 위한 라이브 아카이브
데이터 웨어하우징을 위한 Data Staging Area
비정형 분석을 위한 샌드박스와 기타의 데이터 관련 개발
컨텐츠, 문서, 레코드 관리를 위한 리포지토리
재래식 엔터프라이즈 데이터를 위한 라이브 아카이브
기타
78%
52%
41%
41%
35%
23%
3%
※ 응답자 수 : 236명
※ 응답자 263명을 대상으로 조사한 712개의 응답 결과에 기초함 (응답자 당 평균 2.7개)
빅데이터 분석의 평가
9
© 2014 DataStreams Corp. All Rights Reserved.
분석을 위한 빅 데이터 소스
2. 빅데이터 분석(Hadoop) 활용용도(2/2)
귀 조직이 Hadoop 테크놀로지를 구현하려 합니다. 어떤 비즈니스 프로세스와 데이터,
그리고 응용 분야가 최대의 수혜자가 될 것이라고 생각하십니까? (8개 이하로 선택하시오)
분석 : 데이터 마이닝, 통계, 고급 SQL
빅 데이터를 활용한 탐구적 분석
정보 탐구 및 디스커버리
데이터 웨어하우스 보강에 효과적
저비용 하드웨어 / 소프트웨어
데이터 시각화
전례 없이 많은 양의 데이터 확보
클릭스트림에 기초한 고객 행동 파악 / 이해
소비자 정서 분석 및 트렌딩
데이터 아카이빙
애플리케이션 또는 분석을 위한 데이터 변환
고도의 확장성
스키마-프리(Schema-Free) 데이터 스테이징
사기적발
머신 생성 데이터 (로봇, 센서, 각종 계량장치 등)
판매 및 시장 기회 파악
다양한 유형의 데이터 / 파일 지원
더 다양하고 정확한 비즈니스 인사이트 확보
빅 데이터의 활용도 및 ROI 개선
고객 이탈을 비롯한 고객 행동 파악
문제의 근본 원인 파악
고객층 세분화
시장 부문에 대한 트렌딩
비즈니스 변화에 대한 이해
리스크 평가의 정량화
기타
71%
68%
48%
33%
30%
26%
25%
24%
23%
22%
20%
20%
19%
19%
17%
17%
17%
17%
15%
13%
12%
12%
11%
11%
11%
9%
1%
빅데이터 분석의 평가
10
© 2014 DataStreams Corp. All Rights Reserved.
데이터
기술 인력 빅데이터
플랫폼
빅데이터 분석의 3요소
11
© 2014 DataStreams Corp. All Rights Reserved.
전통적인 컨설팅방법론에서 본 추진단계별 Big-3F 방법은 빅데이터 3요소를 기반과 서비스 모델을
최우선으로
도출하는 방법론입니다. Ⅵ. 추진계획 수립
1. FGI(Focus그룹 인터뷰)
3. 프로세스 분석
프로세스 맵 작성
요구사항 정의서 작성
2. 이해관계자 분석
결과분석
계획수립
대상선정 및 질의서작성
조사수행 (온라인/오프라인)
결과분석
4. 데이터 가치분석
1. 단계별
추진로드맵 수립
우선순위 도출
기대효과 도출
단기,중.장기
추진계획 수립
1. 이슈 리스트
및
개선과제 도출
2. 서비스
모델도출
모델개요 및 서비스 정의
모델구성 (인프라)
모델활용 시나리오
2. Value Chain 분석
(핵심/지원업무)
3. 내부 빅데이터분석
(공군보유 빅데이터)
4. 외부 빅데이터분석
(외부수집 빅데이터)
5. 기술 및
인프라 분석
1.빅데이터 환경분석
(국내·외 주요기술 및 동향)
3. 빅데이터 인프라도출
Ⅰ. 환경분석 Ⅱ. 현황분석 III. 서비스 모델 도출
빅데이터 컨설팅 방법론
12
© 2014 DataStreams Corp. All Rights Reserved.
SNS 데이터를 활용한 비즈니스 모델
한글 사용자 400만 계정이 생산하는 전체 한글 Twit을 수집한 후, KOSPI 50 종목과 관련된 Twit을
추출하고 이를 저장하여, 분석 엔진을 통하여 다양한 통계 및 분석 결과를 생성
수집영역 외부 Social data 수집 시스템 증권사
형태소 분석기
Main Keyword Extractor
랭킹 모듈
색인기(Indexer)
트위터 분석모듈
X
M
L
연동 통계 모듈
Twitter 데이터 배포기
수집키워드 관리(KOSPI 50)
관리
도구
SNS
수집기
SNS
수집기
SNS
수집기
SNS
수집기
SNS
수집기
원문 데이터 색인 데이터
원문 데이터 색인 데이터
한글 사용자
타임라인 수집
Daemon
Process
Job
Process
Job
Scheduler
배치 분석
파일
시스템
준 실시간
NoSQL
Database
외부 데이터 연동 모듈
13
© 2014 DataStreams Corp. All Rights Reserved.
빅데이터 기반 통합
검색 시스템
3
대기업 ERP 조사
역량 강화
2
맞춤형 조사정보
분석 시스템
1
Hadoop 기반의 전자증거 분석(1/2)
14
© 2014 DataStreams Corp. All Rights Reserved.
Hadoop 기반의 전자증거 분석(2/2)
15
© 2014 DataStreams Corp. All Rights Reserved.
통합 로그관리시스템
Filter
위험 평가
배치 작업
인덱싱 작업
기존 로그 DB 통합
관리
보안
차단
요청
정형데이터
제공
소셜 미디어
이상징후 탐지시스템
Big Data Platform
이상징후 패턴 고객별 성향 통계기반 신규패턴
보안시스템 탐지 이벤트
상관 분석
군집, 분류, 연관성 등 데이터
마이닝 분석 분석가
이상 징후 탐지를 위한 패턴 데이터셋 제공
데이터 마이닝 분석을 통한 다양한 분석 결과 제공
FDS
System
(시나리오 기반) 패턴 매칭
고객별 성향 매칭
보안정보 시스템정보 단말정보 금융거래
종합상황관제(24 X 365일)
실시간 예·경보
시스템 종합분석시스템
통합로그관리
시스템
DDOS탐지/분석시스템
통합관제시스템(ESM)
NameNode DataNode DataNode
기획/관리
영업/마케팅
리스크관리
추후 확장 가능
통합로그관리시스템 FDS시스템 및 Big Data 시스템 정보제공
Hadoop 기반의 실시간 이상금융거래 탐지
16
© 2014 DataStreams Corp. All Rights Reserved.
관심
• 학문적인 접근
• (외국사례 중심)
• 청와대 정보화자문단 (보고서)
• 대기업은 독자, 중견기업은
지켜보는 단계
시장주도
• 인프라 구축
• 소셜 운영 및 대응
플랫폼 • Hadoop, Open Source
2012 2013
• 창조경제, 데이터 융합
• 공공기관 사업화 발표(RFP)
• 사업성과에 대한 기대치만 높음
• 성과 미약 시 동반하락
• In-Memory, STORM
• SPLUNK 등 (비Hadoop시스템)
• 분석 시각화
• 데이터 가치 추출 (고객)
• 빅데이터
• 소셜의 진화(OS기능)
2014
다양한
국내외
플랫폼
환경(발전소, 댐) 산업(공장)
건설 (신도시) 데이터분석가
빅데이터 시장의 변화
17
© 2014 DataStreams Corp. All Rights Reserved.
미래 사회 특징 빅데이터의 역할과 가치
불확실성
리스크
스마트
융 합
• 현실세계 데이터 기반의 패턴분석, 미래전망 • 다양한 가능성 시나리오, 시뮬레이션 제공 • 다각적인 상황이 고려 된 통찰력과 유연성 확보
• 환경, 소셜 데이터 분석을 통한 이상 징후 감지 • 이슈의 빠른 분석을 통한 실시간 의사결정 지원 • 국가, 기업 경영 투명성 제고 및 비용 절감
• 상황인지, 인공지능 기반의 신규 서비스 창출 • 개인화, 지능화 기반 차세대 사업 모델 발굴 • 평판, 트렌드 분석을 통한 기업 경쟁력 확보
• 타분야간의 결합을 통한 새로운 지식의 발견 • 상관관계 이해를 통한 시행착오 최소화 • 방대한 데이터 활용을 통한 新융합 시장 창출
통찰력
대응력
경쟁력
창조력
데이터 활용의 가치
18
© 2014 DataStreams Corp. All Rights Reserved.
정형데이터 분석 솔루션과 Hadoop 생태계 비교
- 19 -
정형데이터 분석 솔루션 Hadoop 생태계 설 명
Nutch 인터넷 검색 엔진
ETL Tools
(TeraStream, Infosphere,
Infomatica)
Flume, scribe 수집 및 HDFS에 저장
Hiho , Sqoop RDBMS와 HDFS연계
Oozie Hadoop의 워크플로 스케줄러
Monitor 작업 및 HDFS 모니터링
Hive Hadoop 상위에 위치한 SQL기반 언어
Pig 데이터 흐름 기반의 스크립트 언어
Hadoop Map Reduce 분산 처리용 함수형 프로그램
HDFS Hadoop 분산 파일 시스템
Zookeeper, Avro 자원의 상태 관리 도구
Vertica, Greenplum, Sybase IQ HBASE 분산 컬럼 기반 DBMS
SPSS, SAS, Autonomy R / Mahout 향상된 UI 리포팅과 함께하는 BI툴
© 2014 DataStreams Corp. All Rights Reserved.
Legacy 시스템과 Hadoop 생태계 기술 구조와 비교 시 TCO 측면에서 Hadoop 생태계는 많은
비용적 장점을 가짐
C사
하이엔드 스토리지
15억
B사
하이엔드서버
20억
초기 인프라 구축 비용 및 TCO 비교
A사
병렬데이터베이스
(64 core)
57억
인터페이스 SW 5억 소프
트웨
어
하드
웨어
초기인프라 97억 유저블(Usable): 20TB
초기인프라 10억 유저블(Usable): 20TB
초기인프라 7억 유저블(Usable): 20TB
Mid-range
X86 서버(4대)
5억
국산전용솔루션 2억
스케일 아웃 구조 5년간 총 소유비용 12억
X86 서버(12대)
3억
N사
Hadoop 솔루션 7억
전자신문 12월 12일
스케일 업 구조 5년간 총 소유비용 175억
스케일 아웃 구조 5년간 총 소유비용 16억
빅데이터 분석 플랫폼 비용
20
© 2014 DataStreams Corp. All Rights Reserved.
Open Source Practical Choice : MPP/Appliance
Hadoop
NoSQL
Hbase(NoSQL)
Kasandra
Mongo DB
Teradata
Sybase
Exadata
Netizza
Vertica
Greenplum
Vectorwise, etc
• Not Always Cheap
• Reliability not
guaranteed
• Needs good
development skills
• Moderate Price
• High Reliability
• Easy to develop
• Expensive
• High Reliability
• Good Development
Environment
What is an optimal solutions In between
high-cost appliance & open sources :
?
빅데이터 분석 플랫폼 비용
21
© 2014 DataStreams Corp. All Rights Reserved.
Security Services
Infrastructure Services
Data Services
Applications Services
어플리케이션 개발 및
유지보수의 제반 기술 및
지원환경
사용자 인터페이스,
개발방법론, 개발언어,
통합개발환경(IDE),
모델링 및 설계, 형상관리 등
데이터의 저장, 접근, 공유,
보관 및 관리를 지원하기 위해
요구되는 제반 기술환경
DBMS, DW, DM, ETL,
Business Intelligence 등
각종 어플리케이션 및 IT 자원의
운영과 관리를 위한 물리적
기반환경과 기술요소
H/W 플랫폼, Operation
System, 스토리지, 저장장치 ,
서버 및 시스템 S/W,
Interface Gateway 등
IT 자원의 운영과 관리를
위한 제반 기술 및
지원도구
자산관리, 구성관리,
변경관리, 성능관리,
장애/문제관리, 전사적
아키텍처 관리 (EA) 등
IT시스템 통제관리 및 보안
관리에 관한 기술환경 및 적용
기술요소
인증 및 권한관리, 시스템
보한, 암호화, 침입탐지,
Audit, 방화벽 등
* IT 현황분석의 프레임워크를 적용하였음
System management Services
IT Infra Framework
데이터 기반
22
© 2014 DataStreams Corp. All Rights Reserved.
• H사는 부품의 공용화를 목표로 부품 데이터를 대상으로 표준화 및 거버넌스를
추진하여 1년 만에 자재 운영비용 절감의 단일 효과만으로 438억의 효과*(오픈
이후 1년)을 달성.
• 제품, 자재, 장비, 공정정보 체계 및 속성 표준화를 통해 Global 단일 View 확보로
전사 커뮤니케이션 개선.
• 장비 실물정보와 자산등록정보의 일치 및 시스템간 자동 연계로 자산관리 업무
효율성 제고
~2006/03
8만
300만
130만
40만
365만
56.2%
470만 Cleansing
57만
9%
Active
Inactive Inactive
Active
Active Part No.감소
시스템 오픈 (2006/03/06) 운영시점(2007/03)
Un-cleansed
표준화 기반의 데이터 활용 효과
23
© 2014 DataStreams Corp. All Rights Reserved.
정보시스템 운영에 따라 비즈니스의 경쟁력이 향상되어 기업의 생산성 향상에 큰 영향을 끼쳤다.
하지만 모든 기업이 정보시스템을 가지고 있는 지금 더 정확하고 예지력을 가진 정보의 생성은 다른
차별화를 가져다 준다. 이러한 경쟁력 있는 정보를 지속적으로 생성하고 이를 바탕으로 효율적인 의사
결정을 지원하는 “데이터 서비스”가 가능하기 위해서는 무엇을 해야 하는가?
[참고 문헌] Data Management International, “DMBOK(Data Management Body Of Knowledge)”, (http://www.dama.org)
Backup & Recovery*
Database Operation
Data Audit*
Data Quality
Data Security
Metadata Management
Master Data Management
Data Warehouse & BI
Contents Management
Data Integration*
Data Architecture
Data Governance
Discipline, Process,
Rule, Workflow
Data Lineage Monitoring
데이터 거버넌스 정의
24
© 2014 DataStreams Corp. All Rights Reserved.
해외 연구 기관 데이터 거버넌스 정의
Cohen(2006) 기업이 다루는 데이터의 양, 일관성, 유용성, 보안, 유효성에 관한 프로세스
Newman and Logan
(2006) 기업 자산으로서 정보를 관리,유지 활용하는데 필요한 의사 결정 권한, 프로세스,
표준, 정책, 기술,의 집합
Gartner (2010)
정보 거버넌스는 정보의 생성, 저장, 사용, 보존과 폐기 및 가치 평가에 관한 올바른
실행을 위한 의사결정 권한과 관리체계 보장을 구체화 한 것으로, 조직의 목표
실현을 가능하게 하는데 있어 정보의 효과적이고, 효율적인 사용을 보장하는
프로세스, 역할, 표준, 기준(척도)을 포함
DGI
(Data Governance
Institute)
데이터와 관련된 모든 업무를 위한 의사결정과 권한의 활동
Maria Villar and Teresa
Kushner (2008)
조직 전체의 자산으로서 데이터를 다루는 전사 차원의 종합적인 관리프로그램으로
기업의 목표 달성과 연관되어 있는 데이터를 관리하는데 핵심이 되는 정책, 표준,
프로세스, 조직, 기술 등의 집합
John Ladley and
Danette McGilvray 정보 자산의 효과적인 관리를 위해 정책, 절차, 조직체계, 역할과 책임, 세부규칙,
의사결정, 권한 등을 정의하고, 체계화하여 시행하는 것
데이터 거버넌스 정의 – 해외 사례
25
© 2014 DataStreams Corp. All Rights Reserved.
정보화 성숙에 따른 경쟁 환경 변화 : 정보활용을 통해 경쟁 우위 확보 시도
데이터 서비스 관점에서의 통합 운용성 필요
데이터를 변치 않는 정보의 자산으로 인식하고 관리의 필요성 인식
전사 데이터 관리 절차, 조직, 기술, 성과관리 등의 통제 기반의 절차 개발 필요
데이터 품질 유지를 위해 단품 솔루션 도입보다 프로세스 도입의 중요성 인식
데이터 거버넌스의 배경
26
© 2014 DataStreams Corp. All Rights Reserved.
상호 운용성 확보 데이터를 다루는 사람을 키우기
위해서는 데이터를 자주 보게
해야 하고 데이터를 만지는
것이 쉬워야 함
빅데이터의 성공은
인프라 투자를 결정하는
의사결정권자의 전폭적인 지지와
관심이 필요
쉬운 것부터, 욕심을 버리고,
지속적으로 할 수 있는 체계를 갖추는 것
일선의 적극적인 요구가
데이터분석 기술 발달에 기여
데이터 분석 전문가
27
© 2014 DataStreams Corp. All Rights Reserved.
Big Data란 용어가 단순히 인터넷에서 떠도는 소셜 데이터 뿐만이
아니라 각종 전자 디바이스나 시스템 혹은 전자화된 기계에서 발생
하는 모든 데이터를 이 범위에 넣고 있음
미래의 경쟁력으로 Big Data를 활용하기 위해서는 다양한 데이터
수집 채널, 데이터기반(Infrastructure) 구축, 비즈니스 영역을 커버
할 수 있는 전문 분석인력 확보등 데이터 활용 기반구축이 선행되어
야 함
이러한 파급 효과 때문에 국내에서도 이를 통해 가치와 고용을 창출
하려는 민간, 공공 분야의 노력이 있음
Big Data를 활용한 산업은 Cloud, Ubiquitous Network 등의 사업과
맞물려 또 다른 산업을 탄생시킬 것임
Summary
28
Q & A
top related