bigdate & r programming

15
Bigdata & Data Mininig & R … ?? Seongwan, Son - 요요요 -

Upload: seongwan-son

Post on 14-Jan-2017

72 views

Category:

Software


0 download

TRANSCRIPT

Bigdata & Data Mininig & R … ??

Seongwan, Son-요약본 -

Bigdata & R … ??

BigData 의특징

5 V (Volume, Variety, Velocity, Variability, Veracity)

- Volume ?? - Big Data = 많은데이터

- Variety ?? - 다양한데이터 = 계량화 , 구조화하기어려운데이터 (SNS, Youtube, google …서칭 ?)

- Velocity ?? - 많은양의데이터에서원하는결과를빨리뽑아내야한다 .

- Variability ?? - 데이터가변동이많다 !!

- Veracity ?? – 수집된데이터 , 분석한결과가정당하고원하는것이여야한다 .!!

생각해보면 BigData …용어그래도이해를하면될것같다 . 정말크고많고다양한데이터 !

Bigdata 사용사례• United Kingdom 사용사례

• National Institute for Health and Care Excellence(NICE), 영국보건기구에서처방된약들간의상관관계를통해서 앞으로의환자에게주어질약을제안하는프로젝트를했다 ..(2015년에 .. 하지만자료를못찾겠다 )

• 아래의그림은논문에서분석한빅데이터분석자료이다 .

* 출처는 Wikipedia 및 Survey on Big Data Using Data Mining 논문

<bigData 마이닝플랫폼 >

< 작업한데이터 >

Bigdata 사용사례• 스포츠분야에서도당연히사용된다 .

• 대표적인예로영화 MoneyBall 이있다 . (https://goo.gl/5Ghp0w)

• Moneyball 은스카우트의영입 1 순위의선수 , 인기많은선수를를 영입하지만실패에따른후통계 , 데이터중심으로선수를운영한다는

영화이다 .

• Mets ‘이사인 PAUL Depodesta’ 를모티브로된 Jonah Hill 은 다음과같은말을했다 .

“Subjectivity ruled the day in evaluating players,” he said. “We had a completely new set of metrics that bore no resemblance to anything you’d seen. We didn’t solve baseball. But we reduced the inefficiency of our decision making.”

• PAUL Depodesta 는 BigData 의중요한포인트 ! 를말했다 ..But we reduced the inefficiency of our decision making.

• “이말을쉽게의역하면 100% … 정확한데이터가아니라그럴거같다 라는데이터를뽑는것 !” 이라할수있다 .

Data Mininig• 그러면 Bigdata 를어떻게우리가사용할수있을까 ??

• 해답은 DataMinig 을활용하는것이다… .

• DataMinig 은대규모로저장된데이터안에서체계적이고 자동적 으로 통계적규칙이나 패턴 을찾아내는것

• 이것을 KDD(Knowledge Discovery in Databases) 로부르기도한다 .

• 그럼 Data Mining, KDD 의기법을살펴보자 .

* 출처는 Wikipedia

Data Mininig 을위한 Process• 기본 5 단계혹은간단히하여 3 단계로요약할수있다 .

• 여기서나오는 3 단계를살펴보면다음과같다 .

Selection

Pro-procsessing

Transformation

Data Mining

Interpretation/Evalution

simplified

Pro-procsessing

Data Mining

results validation.

Data Mininig 의 3단계란 ?• Pre-Selection(선별작업 ) 단계

• 데이터마이닝알고리즘이사용되기전에 , 작업되며대상이되는데이터들은 패턴들을포함할정도로충분한양 이어야한다 .Pre-Selection 을통해서불필요하거나 , 관련없는데이터는최종적으로제거가될것이다 .

• Data Mining 의작업순서단계

• Anomaly detection (Outlier/change/deviation detection) – 비정상데이터를기록

• Association rule learning (Dependency modeling) - 변수들간의관계 파악

• Clustering – 데이터의구조 , 그룹을발견 하는작업

• Classification – 새로운데이터에적용하기위한알려진구조를 일반화 시키는작업

• Regression – 가장작은에러를발생하는 데이터를모델링 하는작업

• Summarization – 시각화 , 일반화 , 데이터셋을 표현 하는요약 .

Data Mininig 의 3단계란 ?• Result validation( 결과검증 ) 단계

• 데이터마이닝을통해 좋은데이터가나오거나잘못된데이터가 나올수있다 .

• 이러한데이터마이닝특징때문에적절하지않은통계데이터방식을사용하거나수많은이론들을검토하고 , 조사하는경우가생기기도한다 .

• 이러한데이터마이닝에서가장흔한문제인 Overfitting 이라는것이발생할수있다 .

• Overfitting 이란 ? Over + fitting, 즉과도하게 (Over) 맞춘다 (fitting). 라는뜻이다 . 이것을흔히과적합 이라고도부른다 .

즉데이터마이닝하기위한자료들 (Testing Data Set) 에너무맞춰어져 있어 새로운데이터 에대해 잘못된결과를 도출하지못하는현상이다 . 이러한방법을해결하기위해 Artificail neural networks, Evergybased Model, Support

Vector Machine 등이있다 .

Data Mininig, KDD 기법• 보통 6 가지의기법 , 분류로나눈다 .

•분류 (Classification): 일정한집단 에대한 특정정의 를통해분류및구분을추론하는방법

•군집화 (Clustering): 구체적인특성 을공유하는군집 을찾는방법 . 군집화는미리정의된특성에대한정보를가지지않는다 는점에서분류와다르다 .

•연관성 (Association): 동시 에발생한 사건간의관계 를정의하는방법 .

• 연속성 (Sequencing): 특정기간동안 에발생하는 관계 를규명한다 . 기간의특성을제외하면연관성분석과유사하다 (예 : 슈퍼마켓과금융상품사용에대한반복방문 )

•예측 (Forecasting): 대용량데이터집합내의 패턴을기반으로미래를예측 하는방법 .

Data Mining Algorithm• 아래의그림순서대로요건에맞춰따라가면적합한방식이나온다 .

* 출처는사진에

Data Mining Algorithm• 좀더이해하기쉬운자료도첨부한다 .

* 출처는사진에

R 과 BigData 관계 ??• R 은수치분석 , 기계학습에적합한도구이다 . 또한사용하기에쉬우며다양한데이터집합 , 도구 , 소프트웨어패키지를제공한다 .

• 또한확장성이뛰어나며 , 다양한통계함수 , 그래픽기능을제공한다 . 더군다나무료이다 .

• …하지만 .

• 메모리관리 , 속도 , 보안과같은기능이부족하다 .

• 그러면 Matlab, SAS, SPSS, Excel 과의어떤 차이가있을까 ?

R 과 BigData 관계 ??

* 출처는 Brenocon(https://goo.gl/m9Z6P1)

• 특징으로는 R 은 OpenSource 이지만나머지는 Open Source 가아니다 .

• Matlab, Excel ,SAS 등은사용할려면비용이지불해야하는문제가발생한다 .

• SAS 등이멀티스레드를지원하는등다양한장점이있지만자세한설명은생략한다 .

Name Advantages Disadvantages Open source? Typical users

R Library support; visualization Steep learning curve Yes Finance;

Statistics

Matlab Elegant matrix support; visualization

Expensive; incomplete statistics support No Engineering

Excel Easy; visual; flexible Large datasets No Business

SAS Large datasets Expensive; outdated programming language No Business;

GovernmentStata Easy statistical analysis No ScienceSPSS Like Stata but more expensive and worse

R programming language• R 은 R Foundation for Statistical Computing 에서제공하는통계 , 그래픽을위한

소프트웨어개발툴이자 , 프로그래밍 언어이다 .

• R 소프트웨어는 C, Fortran, R 로작성되었고 , R, Python(RPy), Perl 등의언어를통해 사용가능하다 .

* 출처는 wikipedia.org

기본설명은여기까지 ..