1-1. 빅데이터와 소개 - kmooc.krhyuk+hyubus3099k+2015_c1+type@asset+block/dm… · 선정해...

73
1-1. 빅데이터와 강좌 소개

Upload: others

Post on 08-Oct-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

1-1. 빅데이터와 강좌 소개

빅 데이터 시대 • 데이터가 급속한 속도로 늘어나고 있다!

– 전체 데이터의 90 %의 데이터가 최근 2년에 생산된 것 • "Bringing Big Data to the Enterprise," IBM, 2012

– 2020년의 데이터 생산은 2009년의 44배로 예상 • "A Comprehensive List of Big Data Statistics," Wikibon Blog,

1 August 2012 – 전세계 비즈니스 데이터의 양은 1.2년마다 2배로

• "eBay Study: How to Build Trust and Improve the Shopping Experience," KnowIT Information Systems, 8 May 2012

– 스마트폰, 소셜미디어, 사물인터넷 활용 증대

• 30억 기가바이트의 데이터가 매일 생산되지만, 이 중 0.5%만이 분석

• IDC Digital Universe Study, “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East,” Dec., 2012

빅 데이터 시대

40제타바이트(40조기가바이트)는 전 세계 해변의 모래알 수보다 약 57배

연평균 증가율 = 40 %

출처: https://www.atkearney.com

빅 데이터의 정의 및 특징 • 빅 데이터?

– 일반적인 DB SW로 관리하기 어려운 정도의 큰 규모의 데이터

• 현재로는 수십 테라에서 향후 페타, 엑사 바이트 정도 크기의 대용량 데이터를 의미

– 페타바이트(petabyte) = 1015 바이트 = 1백만 GB – 엑사바이트(exabyte) = 1018 바이트 = 10억 GB – 제타바이트(zettabyte) = 1021 바이트 = 1조 GB

» 미의회도서관 데이터(2011년 4월 기준, 235 테라바이트)의 4백만 배 크기

빅 데이터의 정의 및 특징 • 빅데이터는 의사결정 도와주기 위해서 비용효과적으로, 혁신적으로 정보 처리가 필요한 빠른 속도로 생성되는 다양한 형태의 대용량 정보 자산이다. – Big data is high-volume, high-velocity and high-

variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making

• Gartner IT Glossary - 거대한 크기(Volume) - 다양한 형태(Variety) 형식과 내용이 상이해 통일된 구조로 정리하기 어려운 비정형 데이터가 전 세계 데이터의 90% 이상을 차지

- 빠른 속도(Velocity) 데이터 생성 후 유통, 활용까지 소요되는 시간이 크게 단축

빅 데이터의 정의 및 특징

출처: http://www.rosebt.com/blog/data-veracity

빅 데이터의 활용 분야

출처: Entrue World 2012

구글의 독감예보 서비스

• 구글 검색 사이트에 사용자가 남긴 검색어의 빈도를 조사, 독감 환자의 분포 및 확산 정보 제공

Google 독감 트렌드 예상치 미국 질병 통제 센터 데이터

미국 독감 유행 수준

출처: https://www.google.org/

샌프란시스코의 범죄지도

• 과거 범죄 데이터 제공 및 분석 –과거 8년 범죄 데이터 분석 –효율적인 경찰 인력 배치 –단순한 통계 제공이 아닌 새로운 범죄 가능성 정보 제공

• 6개월간의 테스트 결과, 예측 정확도가 71% • 범죄가 예보된 10곳 중 7곳에서 실제 사건 발생

• 인디애나 대학교 요한 볼렌(Johan Hollen) 교수 – 매일 쏟아져 나오는 수백만건의 트윗 중 약 10%를 무작위로 선정해 분석, 이를 기반으로 수일 후의 주가 방향을 예측

– 트위터를 통한 다우존스 산업평균지수 전망 예측은 약 87%의 정확성을 가짐

– 실제로 영국의 더웬트개피탈이라는 헤지 펀드가 거래 시작

• Sentimental Analysis – Alex Davies

트위터를 통한 주가 예측 사례

출처: Bollen, J. et al., Twitter mood predicts the stock market,” Journal of Computational Science, Vol. 2, No. 1, 2011. 출처: http://alexdavies.net/media/

현실 마이닝(Reality Mining)

• MIT 미디어 랩의 Human Dynamics 연구실 – 소셜 뱃지 – 모바일 폰 사용에 기초한 사람들간의 상호작용 – 디지탈 footprint

출처: http://hd.media.mit.edu/

Daumsoft

출처: http://www.daumsoft.com/

코난테크날리지의 PulseK

출처: http://www.pulsek.com/

강의 소개

강의 교재

• 김종우, 김선태, 경영을 위한 데이터마이닝, 한경사, 2009.

• Linoff, G.S. and Berry, M. J.A., Data Mining Techniques For Marketing, Sales, and Customer Relationship Management (3nd ed.), Wiley, 2011.

강의 일정 계획 • 데이터마이닝 개요 • 의사결정나무 추론 • 인공신경망 • 장바구니 분석과 연관규칙 • 자동군집 탐색 • 사례기반추론 • 연결분석과 사회연결망분석 • 유전자 알고리즘 • 텍스트마이닝 • CRM과 데이터마이닝

분석적 CRM과 데이터마이닝 정의

1장. 데이터마이닝의 정의와 의의 • 서론 • 분석적인 고객 관계 관리와 데이터마이닝

• 데이터마이닝은 무엇인가?

교재 1장의 목차

• 분석적 고객 관계 관리 • 데이터마이닝은 무엇인가? • 데이터마이닝을 통해 수행할 수 있는 과업은 어떤 것들인가?

• 데이터마이닝에 대한 관심이 왜 최근 들어 높어지는가?

• 현재의 데이터마이닝 활용 • 정리

서론 • 서머빌의 와인가게 ‘와인통’과 미용사 이야기 • 충성도(loyalty) • 와인통의 댄(Dan) 과 스티브(Steve)

– 상품과 재고 – 고객의 취향과 가격대 학습 – 축적된 지식

• 과거에 소규모 업체 – 최근에는 대규모 업체

• 이 강의의 주제 – 고객의 데이터에서 고객에 대한 지식으로 바꿀 수 있는 분석적 기법

분석적 고객 관계 관리

• 고객관계관리(CRM) –포괄적 주제

• 고객 추적 소프트웨어, 홍보 관리 소프트웨어, 콜센터 소프트웨어, …

–고객관리관리시스템의 유형 • 운영 CRM(Operational CRM)

– 영업 자동화

• 협업 CRM(Collaborative CRM) – 콜센터 자동화

• 분석 CRM(Analytic CRM) – 고객 데이터 분석과 활용

분석적 고객 관계 관리

• 고객관계관리(CRM) –데이터마이닝은 분석 CRM의 도구

• 고객과의 학습 관계를 형성하는 능력을 향상시키고, 궁극적으로 업체의 고개관계관리를 도움

• 상품-중심 조직 -> 고객-중심 조직

분석적 고객 관계 관리

• 고객과의 학습 관계를 형성하기 위해서 기업은: – 고객이 무엇을 하고 있는지 감지한다(Notice)

• TPS

– 고객들이 시간이 지나면서 해온 일들을 기억한다(Remember)

• DW

– 기억한 내용으로부터 학습한다(Learn) • DM

– 고객을 더 수익성 있도록 하기 위해 학습한 지식을 활용한다(Act)

거래처리 시스템의 역할

• 이미 많은 기업들이 첫 단계(notice)의 대부분을 자동화 – ATM, 전화 교환기, 웹 서버, POS 스캐너, …

• TPS는 데이터마이닝의 원재료(raw material) 제공

• 거래 기록은 데이터마이닝을 사전에 염두에 두고 만들어지지 않음

• 고객들의 행동이 기업과 만나는 접점(touch point) – 기업의 눈과 귀

데이터 웨어하우스의 역할 • 학습(Learning)은 단순히 자료를 모으는 것으로 이루어지지 않는다

• 학습을 위해서는 다양한 정보원들에서 얻어진 데이터들이 한 곳에 모아(gathered together) 일관적이고 유용한 방식(consistent and useful)으로 정리해야 한다

• 데이터 웨어하우스 – 고객에게서 감지한 사항들을 기억(remember)

• DW는 시간에 따라 고객들의 행동을 추적

데이터마이닝의 역할 • DW는 기업의 기억(memory)를 제공 • 기억은 지능(intelligence)이 없다면 사용될 수 없다

• 데이터마이닝의 중심 개념은 과거의 데이터는 미래에 유용하게 쓰일 정보를 포함하고 있다는 것이다.

• 데이터마이닝의 목표 – 기록으로부터 고객 니즈, 취향, 기호의 규칙들을 찾아 빛을 보게 하는 것

• 고객이 보내는 신호는 시끄럽고 혼란스러운 경우가 많음 – noisy

고객관계관리 전략의 역할

• 데이터마이닝을 통해서 학습한 결과들이 행동으로 반영될 수 있도록 기업의 CRM 전략에 내재(embedded)되어야 함

• 데이터마이닝은 일종의 도구 –그것의 작동원리를 아는 것만으로는 충분하지 않고, 그것을 어떻게 활용해야 할 지 아는 것이 더 중요

데이터마이닝은 무엇인가

• 데이터마이닝 –좁은 관점에서, 도구(tools)와 기술(techniques)의 모임

–좀더 넓은 관점에서, 경영 활동들은 학습에 기초해야 한다는 태도(attitude)

–도구와 기술을 적용시키는 하나의 과정(process)과 방법론(methodology)

데이터마이닝은 무엇인가

• 데이터 마이닝의 정의 –대용량의 데이터로부터 –자동적이거나, 반자동적인 방법을 통해서 –이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 유용한 지식을 추출하는 일련의 과정들

데이터마이닝은 무엇인가

• Data mining is the process of discovering meaningful new co-relations, patterns, and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques

(Gartner Group, www.gartner.com)

데이터마이닝은 무엇인가

• Data mining is a knowledge discovery process of extracting previously unknown, actionable information from very large databases (META Group, www.metagroup.com)

데이터마이닝은 무엇인가

• 데이터마이닝 –다량의 데이터를 탐구(exploration)하고 분석(analysis)하여 의미있는 패턴이나 규칙을 찾아내는 일

• 데이터마이닝의 2종류 –방향성(directed)과 무방향성(undirected)

데이터마이닝은 무엇인가

• 방향성 데이터마이닝 –특정한 목표 필드를 설명하거나 분류

• 무방향성 데이터마이닝

–목표 필드나 사전에 정의된 클래스들의 집합을 사용하지 않고 규칙이나 유사성을 찾으려는 시도

데이터마이닝은 무엇인가

• 지식발견(knowledge discovery)

• KDD (Knowledge Discovery in Database)

• 지식 창조(knowledge creation)?

데이터마이닝으로 할 수 있는 것들

1장. 데이터마이닝의 정의와 의의 • 데이터마이닝을 통해 수행할 수 있는 과업은 어떤 것들인가?

데이터마이닝을 통해 수행할 수 있는 과업들

• 분류(Classification) • 추정(Estimation) • 예측(Prediction) • 유사성 집단화(Affinity Grouping) 또는 연관성 규칙(Association Rules)

• 군집화(Clustering) • 설명(Description)과 프로파일링(Profiling)

분류

• 분류, 구별, 등급

• 새로 나타난 대상(object, record)의 특징들(features)을 살펴보고, 사전에 정의된 분류(class) 집합에 할당

• 클래스들에 대한 사전에 명확한 정의가 존재하며, 미리 분류된 예들로 구성된 훈련 집합(predefined set of classes)을 가짐

분류

• 분류 작업의 특징 –클래스에 대한 사전에 명확한 정의가 존재 –미리 분류된 예들로 구성된 훈련 집합(training

set) • 분류 작업의 목적

–분류되는 않은 데이터에 적용되어 분류할 수 있도록 해주는 모형(model)을 만드는 것

분류

• 예 –신용 평가 대상자를 위험도에 따라 상중하로 분류

–웹 페이지에 표시될 콘텐츠의 종류를 결정 –어떠한 전화번호가 팩스 기계에 대응되는지 결정

–사기성 보험 청구를 판단 –자유롭게 기재된 텍스트 직업 설명으로부터 산업 코드와 직업 명칭을 배분

분류

• 의사결정나무 (6장) • 최근접 이웃 기술(Nearest neighbor

techniques) (8장) • 인공신경망(7장) • 연결분석(10장)

추정

• 분류는 이산형 출력 –예 또는 아니오 –상, 중, 하

• 추정은 연속형 값을 가지는 결과를 다룸

–소득, 신장, 신용카드 잔액

추정

• 추정은 분류 작업에도 자주 사용 –스키 부츠 회사

• 스키 타는 사람 분류 • 스키 선호 점수(0과 1사이 값)

–장점 • 50만명에 광고 제공 예산 • 분류 – 150만명이 skier로 분류

추정

• 예 –한 가정의 자녀의 수를 추정 –한 가정의 총 가계 수입을 추정 –한 고객의 평생 가치를 추정 –은행에서 잔액 이체 서비스 홍보에 반응할 확률을 추정

추정

• 회귀분석 모형(5장) • 인공신경망(7장) • 생존 분석(12장)

예측

• 미래 행위를 분류하거나 미래 값을 추정 • 입력변수와 출력 변수간의 순차적(temporal) 관계 고려

• 예 –신용카드 소지자가 잔액 이체 제안을 받아들이는 경우 이체할 잔액의 양을 예측

– 6개월 이내 이탈할 고객들을 예측 –전화 사용자가 3자 통화나 음성 메일과 같은 부가 서비스를 신청할지의 여부를 예측

예측

• 대부분의 데이터마이닝 기술들은 예측 작업에 활용 가능

• 기법의 선택 –입력 데이터의 특성 –예측하려는 값의 유형 –예측에 대한 설명력의 중요성

유사성 집단화 또는 연관성 규칙

• 어떤 일들이 함께 발생하는 지 판단 –쇼핑 카트

• 장바구니 분석 –상품 진열, 상품 패키징

• 데이터로부터 규칙 생성 –고양이 사료를 사는 사람들은 고양이 깔개를

P1의 확률로 같이 구매한다. –고양이 깔개를 사는 사람들은 고양이 사료를

P2의 확률로 같이 구매한다.

타겟의 연관성 분석 활용 사례 • 18살 여고생 딸에게 출산용품 할인 쿠폰을 보낸다면?

– 미국 미니애폴리스 대형 마트 타겟

• 쇼핑 습관을 바꾸는 전기 – 임신

• 여러 곳을 돌아다니지 않고 한 곳에서 쇼핑하려 함

• 타켓의 통계학자 앤드류 폴 – 여성 고객이 철분제와 향기 없는 로션을 사면 80% 확률로 6개월 뒤 출산

• 4년간 업계 평균 성장률의 2배가 넘는 매출 성장

군집화

• 이질적인 사람들의 모집단으로부터 다수의 동질적인 하위 집단 혹은 군집(cluster)들로 세분화하는 작업

• 사전에 정의된 클래스도, 사전에 분류된 예시도 없음

• 군집화에서는 레코드들은 상호 유사성(self-similarity)에 근거하여 함께 그룹화 –결과로 만들어진 군집들에 의미를 부여하는 것은 사용자의 몫

군집화

• 다른 형태의 데이터마이닝이나 모형화의 사전 작업으로 활용

• 자동 군집 탐지(11장), • 자기 조직화 지도(self organization map,

SOM) (7장)

프로파일링

• 고객, 상품, 업무 프로세스 등에 무슨 일들이 일어나는 지에 대한 이해(understanding)를 높이는 방법으로 데이터마이닝을 사용할 수 있음 – Description, Explanation

• 의사결정나무(6장), 연관성 규칙(9장), 군집화(11장)

정리

• 데이터마이닝은 분석적인 고객관계관리의 중요한 구성 요소

• 트랜잭션 처리시스템(TPS)에 의해 포착 • 데이터들은 수집되고, 정리되고, 요약되어 고객 데이터웨어하우스(DW)에 추가

• 데이터마이닝(DM) 도구들은 이러한 과거 레코드들에 적용되어 미래의 고객들에게 더 좋은 서비스를 제공할 수 있도록 고객들에 대한 학습을 지원

정리

• 데이터 마이닝 –대량의 데이터에서 유용한 패턴과 규칙들을 발견하는 과정

• 6가지 일반적인 데이터마이닝 작업 –분류, 추정, 예측, 유사성 집단화, 군집화, 프로파일링

데이터마이닝 선순환 프로세스

2장. 데이터마이닝의 선순화 • 기업 데이터마이닝의 사례 연구 • 선순환은 무엇인가? • 선순환의 맥락에서의 데이터마이닝

교재 2장의 목차

• 기업 데이터마이닝의 사례 연구 • 선순환은 무엇인가? • 선순환의 맥락에서의 데이터마이닝 • 이통통신 회사 사례 • 자동차 회사 사례 • 정리

서론 • 산업 혁명

– 동력은 ‘물’

• 데이터는 새로운 수력 – ‘데이터’는 기업의 핵심적인 경영 프로세스의 중심

–데이터마이닝은 이러한 수십억, 수조의 바이트들의 데이터 속에서 흥미로운 패턴을 발견할 것을 가능

–데이터-> 정보->행동->가치 –활용가능한(actionable)

서론

• 알고리즘들이 중요하기는 하지만 데이터마이닝은 단순히 강력한 기법이나 자료구조의 집합 이상의 것 –올바른(right) 데이터 적용 –장기간에 걸쳐 이루어지는 반복적인 학습 과정 –피동적인 조직에서 능동적인(proactive) 조직으로 변화

기업 데이터마이닝 사례 연구

• Bank of America –주택담보대출 부서에서 고객들을 유치하는 데 실패를 거듭

–국내소비자금융부서(National Consumer Assets Group, NCAG)는 이 문제를 데이터마이닝으로 접근하기로 결정

비즈니스 도전의 식별

• 주택담보대출에 대한 마케팅 개선 필요

• 기존에 활용하던 직관 –대학을 갈 자녀를 둔 고객들은 등록금을 대기 위하여 주택담보대출을 하기를 원한다

–수입이 많고 변동성이 큰 고객은 수입의 변동을 상쇄하기 위하여 주택담보대출을 하기를 원한다

데이터마이닝의 적용

• Hyperparallel의 데이터마이닝 컨설턴트와 함께 작업

• 충분한 데이터 – NCR/Teradata 병렬 컴퓨터와 대용량 관계형 데이터베이스 수백만 소매 고객 데이터

• 42개 시스템으로부터의 데이터가 정제되고 변환되고 정렬되어서 회사의 데이터 웨어하우스에 저장 – 1914년 레코드 포함 – 최근의 고객 레코드는 250개 필드 보유

데이터마이닝의 적용

• 의사결정나무 도구 –기존 은행 고객들이 주택담보대출 제안에 반응할 지의 여부를 분류할 규칙 제공

• 순차적인 패턴 발견 도구 –이러한 형태의 대출을 언제 원할 가능성이 높은지를 결정

데이터마이닝의 적용 • 군집화 도구

– 유사한 속성을 갖는 고객 군집을 자동적으로 생성 – 14 군집 생성

• 한 흥미로운 군집의 특성들:

– 고객의 39%가 개인 계좌와 사업자 계좌를 동시에 가짐 – 의사결정나무에 의해 주택담보대출에 응답할 가능성이 높은 고객으로 분류된 고객 중의 4분의 1 이상이 이 군집에 속함

-> 사람들이 새로운 사업을 시작할 때 주택담보대출을 사용할 수 있음

결과의 실행

• 기존의 시장 조사 설문 수정 – ‘사업을 시작한다면, 대출이 이용하시겠습니까?’ – 데이터마이닝을 통해 제기된 결과들을 재확인

• NCAG는 주택담보대출 마케팅의 홍보 문구와 홍보 대상을 변경

효과를 측정하기

• 새로운 홍보의 결과로 주택담보대출 홍보에 대한 응답률이 0.7%에서 7%로 상향

• Dave McDonald – 그룹 부회장 – 데이터마이닝의 의의는 은행의 소매 부문이 대중 마케팅 조직으로부터 학습 기관으로의 전환

– “우리는 마케팅 프로그램들을 지속적으로 실행하는 상태까지 갔으면 한다. 분기별 우편 발송만이 아니라 지속적인 기반의 프로그램들을 수행하는 것이다.”

– 데이터마이닝 선순환의 비전 • 데이터의 빠른 분석->새로운 프로그램 생성-> 실행과 평가-

>새로운 데이터 생성

선순환은 무엇인가

• 4단계 1. 경영의 문제를 포착한다. 2. 데이터마이닝을 통해 데이터를 행동 가능한 정보로 전환한다.

3. 정보에 따라 행동한다. 4. 결과를 측정한다.

선순환은 무엇인가

사업 기회의 발굴

• 분석적 노력의 낭비를 피하기 위해서는 결과에 따라서 행동하겠다는 의지(a willingness to act)가 필요

• 데이터마이닝을 통해서 얻어진 가치를 판단하기 위해서 수행된 행동들의 효과를 측정(measure)하는 것도 중요

데이터를 마이닝한다

• 데이터마이닝을 방해하는 함정들 –불량한 데이터 형식

• 우편번호가 포함되어 있지 않은 고객 주소 등 –혼란스러운 데이터 필드

• ‘배송 일자’라는 필드가 한 시스템에서 ‘예상 배송 일자’를 의미하고, 다른 시스템에서는 ‘실제 배송 일자’를 의미하는 경우 등

데이터를 마이닝한다

• 데이터마이닝을 방해하는 함정들 –법률적 제약

• 대출을 거절할 때에는 이에 상응하는 법적 근거의 제시가 의무화된 경우(‘우리가 사용한 인공신경망 결과에 따라서 대출이 불가능하다’는 식의 해명)

–조직적 요인 • 특정 운영 부서들이 추가적인 인센티브 없이는 운영 방식을 변경하기를 꺼려하는 경우 등

–적시성의 부족 • 행동에 옮기기에 결과 지나치게 늦게 나오는 경우 등

데이터는 결코 깨끗하지 않다

• 다양한 형태, 다양한 포맷, 다양한 시스템으로부터 데이터가 모임

• 적절한 데이터 원천을 찾아내고 그들을 집합시키는 것이 주요한 성공 요인

행동을 취하다

• 행동을 취하는 것은 데이터마이닝의 선순환의 궁극적인 목적

• 행동은 여러 가지 형태로 나타날 수 있음 –고객이나 잠재적 고객에게 우편, 이메일, 텔레마케팅을 통하여 메시지를 전달

–데이터마이닝을 통하여 다른 고객들에게 각기 다른 메시지를 발송

–고객 서비스의 우선순위를 부여 –재고 수준을 조정 – …

결과의 측정

• 중요성에도 불구하고 데이터마이닝의 선순환에서 이 단계는 간과되는 경향이 있음

• 어떻게 성과를 측정할지에 대한 고민을 시작하는 시점은 경영 문제를 포착하는 초기

• 일반적인 상황에서 기업들은 현재 노력의 성과를 측정하기보다는 다음 문제의 해결에 여념이 없는 경우가 많음

• 성공의 여부에 관계없이 모든 데이터마이닝의 시도들은 미래의 노력들에 활용될 여지가 있는 교훈들을 제공

선순환 맥락에서의 데이터마이닝

• 데이터마이닝 시스템은 이전의 결과들을 완전히 동일하게 반복하는 것을 추구하지 않는다

• 데이터마이닝은 창조적인 과정이다 • 데이터마이닝의 결과는 시간에 따라 변한다

• 데이터마이닝은 변화가 필요한 다른 업무 프로세스들에게 피드백을 제공한다

데이터마이닝은 전형적인 업무 운영 프로세스와 다름