data science in the cloud with microsoft azure · , 공간데이터분석, 이미지프로세싱,...

33

Upload: others

Post on 10-Feb-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 2: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 3: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 4: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 5: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

크림전쟁 당시 전선 및 후방에서 사망자 수를 비교하기 위해 만든 시각화 데이터

Page 6: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

야구를통계학적, 수학적으로분석해선수의재능을평가하는세이버매트릭스오클랜드가완벽한팀을만들수있었던것은데이터뿐만아니라분석해내는기술과통찰력

Page 7: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

넷플릭스는알았고아마존은몰랐다.이용자들의선호도를분석해서원하는드라마와원하는배우와감독, 원하는스토리를찾아냄

Page 8: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 9: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

앞으로 10년 후 세계 최대의 자원은 석유가아니라 데이터가 될 것

누가 좀 더 많은 데이터를 갖고 좀 더빠른 속도로 처리해 가치를 창출할수 있느냐가 경쟁력

Page 10: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 11: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 12: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 13: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

• Chief Actuary of Geospatial Analytics and Modeling(보험모델과지리공간데이터분석담당최고책임자• Chief Analytics & Algorithms Officer(데이터분석과알고리즘담당최고책임자)• Chief Credit & Analytics Officer(신용및데이터분석담당최고책임자)• Chief Research & Analytics Officer(연구및분석담당최고책임자)• Chief Scientist, Global Head of Analytics(데이터분석글로벌책임자겸최고과학자)• Chief Technology Officer, Enterprise Information Management & Analytics(기업정보관리및데이터분석)• Director – BI & Analytics(BI 및분석담당본부장)• Director – Fraud Analytics & R&D(R&D 및사기데이터분석담당본부장)• Director – Predict Analytics(예측분석담당본부장)• Director – Analytics and Creative Strategy(창의적전략및데이터분석담당본부장)• Director – Marketing Analytics (마케팅데이터분석담당본부장)• Director Digital Analytics(디지털데이터분석담당본부장)• Director Analytics Strategy(데이터분석전략담당본부장)• Director of Data Analytics and Advertising Platforms(데이터분석및광고플랫폼담당본부장)• Director of Digital Analytics and Customer Insight(디지털분석및고객인사이트담당본부장)• Director of Health Analytics(의료데이터분석담당본부장)• Director of Innovation, Big Data Analytics(혁신과빅데이터분석담당본부장)• Director of Risk Analytics and Policy(위험데이터분석및보험계약조건담당본부장)• Director of Science & Analytics for Enterprise Marketing Management(전사마케팅관리및데이터분석)• Director, Business Analytics & Decision Management Strategy(비즈니스데이터분석및의사결정관리)• Director, Customer Insights and Business Analytics(고객인사이트와비즈니스분석담당본부장)데이터과학어떻게기업을바꾸었을까?(이지스 퍼블리싱, 2014)

Page 14: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

Data Science

Page 15: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 16: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 17: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 18: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 19: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 20: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

https://azure.microsoft.com/ko-kr/services/cognitive-services/

Page 21: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

http://thegear.co.kr/14742

Page 22: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 23: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

http://jsksoft.tistory.com/12210

Page 24: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

https://www.youtube.com/watch?v=q-U7_dJmYqU

Page 25: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark
Page 26: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

데이터 사이언스 과정의 커리큘럼

데이터 사이언스 전문가를 위한 10개 강좌를 4개 유닛으로 분류하여

이론, 실습, 프로젝트를 수행하게 됩니다.

데이터 사이언티스트에게 반드시 필요한 역량이 무엇인지를 파악한 후,실무적이고 테크니컬한 레벨에서 주요 스킬을 학습하도록 하는 것이 본 과정의 목표입니다.

FUNDAMENTALS (3)

모든 강좌는 엔지니어 본인의 학습 속도와 페이스에 따라 학습할 수 있으며 (강좌 평균 학습기간은 3개월), 최종 캡스톤(capstone) 프로젝트는 약4주의 기간이 소요됩니다. 학습자는 본인의 학습 목적에 맞게 원하는 순서대로 강좌들을 학습할 수 있으며 (단계별 권장 프로세스 있음), 한 단계안에 여러 개의 강좌가 존재하는 멀티플 코스의 경우, 원하는 한 가지 강좌만을 이수합니다.

CORE DATA SCIENCE (4) APPLIED DATA SCIENCE (2) CAPSTONE PROJECT (1)

Data Science Orientation

Query Relational Data

Analyze and Visualize Data

Understand Statistics

Explore Data with Code

Understand Core Data Science Concepts

Understand Machine Learning

Use Code to Manipulate and Model Data

Applied Data Science

Final Project

MicrosoftProfessional Program Certificate in Data Science

Page 27: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

데이터 사이언스 과정의 커리큘럼

FUNDAMENTALS 유닛에서는 총 3개의 강좌를 이수하며

데이터 전문가에 필요한 역량을 탐색하고 데이터를 다루는 방법을학습합니다.

FUNDAMENTALS (3)

데이터사이언스오리엔테이션

관계형 데이터쿼리

데이터 분석및 시각화

Data Science Orientation

데이터 사이언티스트가 되기 위한 필요 역량이 무엇인지를 학습합니다. 데이터를활용하여 업무, 탐색하면서 다양한 시각화(visualization), 분석, 통계 테크닉을 사용합니다.

Querying Data with Transact-SQL

Azure SQL 및 SQL 서버 상에서 데이터를 쿼리하고 변경하는 것에서부터, T-SQL(트랜잭트 SQL)을 이용하여 프로그래밍하는 것까지, 필요한 주요 스킬을 학습합니다.

Analyzing and Visualizing Data with Excel

엑셀을 이용하여 이전에는 경험하지 못한 데이터를 분석하고 향상된 시각화 작업을수행하고 복잡한 비즈니스 로직을 분석합니다. 서로 다른 소스를 통해 데이터를 입수하여, 데이터 소스 간의 매쉬업을 생성하고, 분석을 위해 데이터를 준비하는 방법에 대해학습합니다.

Analyzing and Visualizing Data with Power BI

MS Power BI를 통해 데이터를 연결하고 시각화하는 방법을 배웁니다. Power BI 데스크탑을 통해 데이터 및 author report를 입수하고, Power BI 서비스에 리포트를배포합니다. 대시보드를 생성하여 웹과 모바일을 통해 비즈니스 사용자들에게공유합니다.

Page 28: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

데이터 사이언스 과정의 커리큘럼

CORE DATA SCIENCE 유닛에서는 총 4개의 강좌를 이수하며

데이터 사이언스의 주요 기능인 분석, 통계, 모델 설계 과정을 다룹니다.

통계의 이해

코드를활용하여데이터 탐색

주요 데이터사이언스 컨셉의이해

머신 러닝의 이해

CORE DATA SCIENCE (4) Essential Statistics for Data Analysis using Excel

엑셀을 이용하여 통계와 기초적인 확률에 대한 개념 이해를 탄탄히 함으로써 데이터분석과 데이터 사이언스에 대한 기초를 세웁니다.

Data Science Essentials

데이터 사이언스의 주요 개념과 수행에 사용할 테크닉을 학습합니다. 통계학적 분석, 데이터 클렌징, 트랜스포메이션, R과 파이썬, MS 애져 머신 러닝을 통한 데이터 시각화를다룹니다.

Introduction to R for Data Science

데이터 사이언스 전문 도구로 활용되고 있는 통계 프로그래밍 언어인 R을 학습합니다. R의 기본 구문과 변수, 기본 연산을 알아보고 벡터, 매트릭스, 데이터 프레임, 리스트 등의데이터 구조를 핸들링하는 방법을 학습합니다.

Introduction to Python for Data Science

파이썬의 기초와 간단한 산술 연산, 변수, 데이터 구조를 학습합니다. 파이썬의 기능과제어 흐름을 탐색하고, 실제 데이터를 이용하여 나만의 시각화 작업을 수행합니다.

Principles of Machine Learning

머신 러닝 모델을 설계하고 평가하고 최적화하는 것을 학습하면서 범주화, 회귀 분석, 클러스터링, 리코멘데이션을 다루게 됩니다.

Page 29: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

데이터 사이언스 과정의 커리큘럼

APPLIED DATA SCIENCE 유닛에서는 총 2개의 강좌를 이수하며

데이터 모델링에 필요한 코드 개발과 데이터 사이언스 응용기술을학습합니다.

Programming with R for Data Science

R의 데이터 구조, 구문을 이해하고 로컬 파일 뿐만 아니라 클라우드 환경의데이터베이스에 존재하는 데이터까지 데이터를 읽고 쓰는 방법, 데이터를 가지고업무하고, 요약하고, 목적에 맞게 변환하는 방법을 학습합니다.

Applied Machine Learning 흔히 예측가능한 문제를 해결하기 위해 머신러닝을 적용하는 방법을 학습하기 위해텍스트 분석, 공간 데이터 분석, 이미지 프로세싱, 시계열 예측 등을 이해합니다.

Implementing Predictive Solutions with Spark in HDInsight Microsoft Azure HDInsight의 Spark를 활용하여 예측 분석하고 머신러닝 솔루션을생성합니다. 데이터를 클렌즈하고 트랜스폼, 머신 러닝 모델 설계하고, 파이썬, 스칼라, Apache Spark R을 통해 실시간 머신러닝 솔루션을 생성하는 것을 학습합니다.

데이터 조작 및모델링을 위한코드 사용

응용 데이터사이언스

APPLIED DATA SCIENCE (2)

Developing Intelligent Applications

머신 러닝을 통해 스마트 어플리케이션을 개발하고 창의적이고 지능적인 방법으로유저들의 참여를 유도합니다.

Analyzing Big Data with Microsoft R Server

강력한 프로그래밍 언어인 R을 통해 대규모 데이터셋을 분석하기 위해 마이크로소프트 R 서버를 활용하는 방법을 학습합니다.

Programming with Python for Data Science

파이썬을 사용하여 효율적이면서 잘 알려진 마이닝 모델을 적용하여, 유용한 인텔리전스기능을 발굴하는 방법을 학습합니다. 데이터 시각화, 변수 중요도, 특징 선택, 데이터 차원축소, 클러스터링, 범주화 등을 이해합니다.

Page 30: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

데이터 사이언스 과정의 커리큘럼

CAPSTONE PROJECT 유닛에서는 최종 프로젝트에 참여하면서

실제 데이터를 이용하여 머신러닝 솔루션을 개발하고 테스트를거칩니다.

Microsoft Professional Capstone : Data Science

마이크로소프트 프로페셔널 프로그램(MPP) 데이터 사이언스 과정을 통해 습득한 지식과스킬을 보여주게 됩니다. 캡스톤 프로젝트를 통해 실생활의 데이터 사이언스 문제를해결하는 것입니다. 이 프로젝트는 도전과제를 수행하는 형태로 구성되어 데이터를탐색하고 머신러닝 솔루션을 개발하게 됩니다. 참여자가 직접 개발한 솔루션은점수화되어 참여자들의 등급이 산정됩니다. 반드시 데이터 사이언스 과정의 모든 강좌를완료한 이후 참여할 수 있습니다.

최종 프로젝트

MicrosoftProfessional Program Certificate in Data Science

CAPSTONE PROJECT (1)

학습자는 9개의 온라인 강좌를 완벽하게 학습하고 각 강좌 별 온라인 평가를 통과해야 합니다.또한 최종적으로 캡스톤 프로젝트에 참여함으로써 실생활의 문제를 해결할 수 있는 머신 러닝 솔루션을 스스로

개발해야 합니다.이러한 과정을 통해 실질적인 데이터 사이언스의 업무를 직접 경험하게 됩니다.

Tom White Tom White

Page 31: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

마이크로소프트의 우수한 교수진을 통한 역량 취득

우수한 MPP 교육 프로그램의 교수진을 통해 Data Scientist로서의역량을 습득합니다.

Graeme Malcom Gerry O'Brien Liberty J. Munson Authman Apatira Stephen Elston Cynthia Rudin

Senior Content Developer, Microsoft

Senior Content Developer, Microsoft

Principal Psychometrician and

Quality Lead, Microsoft

Lead Instructor, Coding Dojo

Managing Director Quantia Analytics, LLC

Associate Professor MIT and Duke

MPP 교육 프로그램의 교수진은 학계 전문가 뿐만 아니라 산업 분야의 전문가를 망라하고 있습니다.본인이 직접 개발한 프로그램을 강의하는 산업 전문가에서부터, 해당 기술의 기반 이론을 연구하는 학자까지,

특별하고 독특한 관점에서 MPP 강좌를 설계하고 개발합니다.

Microsoft ExcelPowerBI

Python R Azure Machine Learning HDInsight

Transact-SQLSparkReq

uire

dSk

ills

마이크로소프트의 우수한 교수진이 직접 개발한 체계적인 강좌를 통해, 데이터 사이언티스트가 갖추어야 할 8가지 역량을 습득하는 것을 목표로합니다. 학습자들은 파이썬, R, 애져 머신 러닝, HDInsight, 스파크, Power BI, 엑셀, T-SQL를 활용하여 데이터 분석, 시각화, 모델링, 솔루션개발을 직접 수행하게 됩니다.

산업 및 학계 전문가들로 구성된 MPP 교육 프로그램 교수진

Page 32: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark

PROGRAMMING WITH PYTHON

FOR DATA SCIENCE

PROGRAMMING WITH R FOR

DATA SCIENCE

APPLIED MACHINE LEARNING SCENARIOS

DEVELOPING INTELLIGENT

APPLICATIONS

IMPLEMENTING PREDICTIVE

MODELS WITH SPARK IN AZURE

HDINSIGHT

CORE DATASCIENCEFUNDAMENTALS APPLIED

DATA SCIENCE

ANALYZING & VISUALIZING DATA WITH POWER BI

QUERYING DATA WITH

TRANSACT-SQL

DATA SCIENCE ORIENTATION

ANALYZING AND VISUALIZING DATA WITH

EXCEL

PRINCIPLES OF MACHINE LEARNING

INTRODUCTION TO STATISTICS

INTRODUCTION TO R FOR DATA

SCIENCE

INTRODUCTION TO PYTHON FOR DATA SCIENCE

DATA SCIENCE ESSENTIALS

CORTANA COMPETITION

PROJECT

DEGREE

AzureMachine Learning HDInsight

DATA SCIENCE TRACK

Page 33: Data Science in the cloud with Microsoft Azure · , 공간데이터분석, 이미지프로세싱, 시계열예측등을이해합니다. Implementing Predictive Solutions with Spark