data science a machine learning tour

43
CHAPITRE 0 MACHINE LEARNING OVERVIEW MATHS

Upload: franck-bardol

Post on 14-Apr-2017

277 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: Data science a machine learning tour

CHAPITRE 0 MACHINE LEARNING OVERVIEW MATHS

Page 2: Data science a machine learning tour

Copyright Franck Bardol 2016 2

CV

FranckBardol+33624309259

[email protected]

@bardolfranck

¡  ConsultantinMachineLearning

¡  Jury–organizerhackathons

¡  Trainerinmachinelearning

¡  co-organisermeetupParisMachineLearning

Page 3: Data science a machine learning tour

¡  Fondements

“We are living the age of information and entering the age of recommendation” The Long tail - Chris Anderson

Copyright Franck Bardol 2016 3

PARADOX OF CHOICE MORE IS LESS

Page 4: Data science a machine learning tour

¡  Fondements §  “The web is leaving the era of search and entering one of discovery” §  “Race to create a smart GOOGLE” – CNN –

Copyright Franck Bardol 2016 4

FROM SEARCH TO DISCOVERY

SEARCH

DISCOVERY

users

users

idea

idea

👧‍ 👨‍

👦

👩‍

👧‍ 👨‍

👦

👩‍

💡

🔮 ❤️‍

💡

🔮 ❤️‍

Page 5: Data science a machine learning tour

Copyright Franck Bardol 2016 5

FROM SEARCH TO DISCOVERY

“you may also like” “people

you may know”

“people to

follow”

reco in stealth mode

👧‍ 👨‍

👦

👩‍ 👩‍

👩‍

👮

Page 6: Data science a machine learning tour

80% watch

via RECO

¡  Quels sont les secteurs qui l’utilisent ?

§  Sites de streaming video §  Sites marchands §  Opérateur télécom §  Formation & MOOC

Copyright Franck Bardol 2016 6

FROM SEARCH TO DISCOVERY

CA +35%

click +40%

Page 7: Data science a machine learning tour

¡  Apprentissage Définition : Modification du comportement par l’expérience

¡ Machine learning

définition : Programmes executables qui :

ü apprennent les données ü s’adaptent aux données ü s’améliorent au cours du temps

Copyright Franck Bardol 2016 7

DATA-SCIENCE QU’EST-CE-QUE C’EST ?

Page 8: Data science a machine learning tour

¡ Apprendre ? comment ?

par l’exemple !!

les couleurs

Copyright Franck Bardol 2016 8

QU’EST-CE QUE C’EST ?

Page 9: Data science a machine learning tour

Copyright Franck Bardol 2016 9

QU’EST-CE QUE C’EST ?

Apprendre Généraliser

quoi ? un concept

quand ? sur nouvelles

données

comment ?par l’exemple

pourquoi ? généraliser

Page 10: Data science a machine learning tour

Copyright Franck Bardol 2016 10

COMMENT ÇA FONCTIONNE ?

Intuition Hypothèses

Connaissances Modèle /

programme Données

Données Détecteur schémas cachés

Modèle/programme

informatique traditionnelle

informatique data driven

X , Y f

X , Y f

f X Y

PRODUCTION

input decision predict

Page 11: Data science a machine learning tour

COMMENT ÇA FONCTIONNE ?

DESCRIPTEURS / FEATURES nb_appel duree_

min appel internation

age categorie_socio

type_ forfait

3 46 6 98 86 11

4 33 0 8 6 12

PREDICTION

reste_client

part

PREDICTION

part

reste_client

DESCRIPTEURS / FEATURES nb_ appel

duree_min

appel internation

age categorie_socia

type_ forfait

3 46 6 98 86 11

4 33 0 8 6 12

1 - TRAIN

2 - TEST

34 7 56 2 3 - PREDICT ? NOUVELLE DATA

BASE D’APPRENTISSAGE

BASE DE TEST

PREDICTION

? Copyright Franck Bardol 2016 11

Page 12: Data science a machine learning tour

GENERALIZATION VS. OVERFITTING MEMORIZING VS. LEARNING

généraliser

Apprendre Généraliser

données d’apprentissage

STRUCTURE

DETAILS & BRUITS

nouvelles données

Copyright Franck Bardol 2016 12

Page 13: Data science a machine learning tour

Supervisé = exemples étiquettés ü Régression

prédire des chiffres continus

ü Classification prédire des étiquettes / classes / label

Copyright Franck Bardol 2016 13

APPRENTISSAGE SUPERVISÉ

COMBIEN ?

EST-CE QUE ?

Page 14: Data science a machine learning tour

Supervisé = exemples étiquettés ü Régression

prédire des chiffres continus

ü Classification prédire des étiquettes / classes / label

Copyright Franck Bardol 2016 14

APPRENTISSAGE SUPERVISÉ

big / little ?

temperature pressure stock markets

petit moyen grand très grand ?

COMBIEN ?

EST-CE QUE ?

Page 15: Data science a machine learning tour

Non supervisé = pas d’étiquettes ü Clustering

trouver des familles naturelles

ü Moteur de recommandation Introduire de la sérendipité controllable

Copyright Franck Bardol 2016 15

APPRENTISSAGE NON SUPERVISÉ

RESUME ?

Page 16: Data science a machine learning tour

Non supervisé = exemples non étiquettés ü Clustering – anomaly detection – recommender system

§  Comprendre, explorer, simplifier les données, trouver des structures cachées invisibles à l’oeil

Copyright Franck Bardol 2016 16

APPRENTISSAGE NON SUPERVISÉ

CARTE TOPOLOGIQUE 300 variables économiques (PIB/hab, accès eau, ….)

ANOMALY DETECTION

RECOMMENDER SYSTEM

RESUME ?

Page 17: Data science a machine learning tour

Copyright Franck Bardol 2016 17

EXEMPLES

web log text

text langue ?

EEG

web log

who ?

epilepsy ?

bot?

gender ?

churn?

CRIME where ? when ?

predpol.com

deepinstinct.com

Malicious Code & Attacks ?

age?

click pub ?

Page 18: Data science a machine learning tour

¡  Règles écrites “à la main” èapproche peu performante ¡  Pas de règles / absence d’expertise humaine

§  bio informatique

¡  Trop de règles §  Difficulté à poser les règles, les expliquer… §  La solution évolue §  Reconnaissance artificielle (vision, parole, signes gestes …) §  Voiture autonome §  Ranking, Tracking, poursuite

§  routing computer networks §  pub temps réel

Copyright Franck Bardol 2016 18

C’EST EFFICACE QUAND ?

pedestrian detection

Page 19: Data science a machine learning tour

Automatic questions – answering Requirement : ü never seen these words before ü comprehension

ü time element (« before », « after », …) ü action (« go », « pick up », …)

Copyright Franck Bardol 2016 19

EXEMPLES

www.github.com/vinhkhuc/MemN2N-babi-python

Page 20: Data science a machine learning tour

Copyright Franck Bardol 2016 20

EXEMPLES

HEP@LHC-CERN

boson?

100 million events / sec

CA +30%

buy ?

hire?

sign ?

success ?

70% accuracy

Page 21: Data science a machine learning tour

Copyright Franck Bardol 2016 21

DATA

Scrapping = extract info from web sites

opendata.cern.ch data.gov data.gouv.fr www = thousand more

Open Data

Scrapping

Page 22: Data science a machine learning tour

Copyright Franck Bardol 2016 22

DATA, BECAUSE …

ACCURACY

DATA

Page 23: Data science a machine learning tour

Copyright Franck Bardol 2016 23

DATA, BECAUSE …

PERF

DATA

MORE DATA !

Page 24: Data science a machine learning tour

¡  Pourquoi ?

Copyright Franck Bardol 2016 24

BUT …. BE CAREFUL

Page 25: Data science a machine learning tour

¡  De quoi parle-t-on ?

Copyright Franck Bardol 2016 25

BEWARE OF THE DIMENSION

p features (descripteurs - variables explicatives)

DIMENSION = p

VOLUME DATA

n SAMPLES

Page 26: Data science a machine learning tour

¡  De quoi parle-t-on ?

Copyright Franck Bardol 2016 26

DIMENSION ?

DIMENSION

VOLUME

TECHNO BIG DATA

STATISTICS & MACHINE LEARNING ACP

ACC SOM

n SAMPLES

Page 27: Data science a machine learning tour

¡ é dimension du problème èRISQUE de … § é corrélation fallacieuses - spurious correlations – potentielles

Tendance aléatoire fortuite commune http://www.tylervigen.com/spurious-correlations

§ é combinaisons fallacieuses - spurious combinations – potentielles Combinaisons fallacieuses qui peuvent “prédire” un phénomène é exponentielle du nombre de combinaisons entre les colonnes

§ é données nécessaires pour l’apprentissage §  é exponentielle du nombre de lignes (samples) pour apprendre

convenablement §  Curse of dimensionality

§  En très grande dimension, les données se trouvent toutes à égales distance. §  Les méthode basées sur le voisinage (kNN…) échouent

Copyright Franck Bardol 2016 27

RÉDUCTION DIMENSION

DIMENSION

Page 28: Data science a machine learning tour

¡ é dimension du problème èRISQUE de … § é complexité de la solution

§  é complexité §  Kolmogoroff §  MDL : Minimum Description Length §  Occam Razor “l’explication la plus simple est toujours la meilleure”

§  nb : simple ≠ simpliste

§ ê pouvoir explicatif de la solution §  nb : pouvoir explicatif ≠ pouvoir prédictif

§ é sur-apprentissage – over fitting (par coeur vs. généralisation)

§ é difficulté de visualiser le problème (êintuition)

Copyright Franck Bardol 2016 28

RÉDUCTION DIMENSION

DIMENSION

Page 29: Data science a machine learning tour

¡ é dimension du problème èRISQUE de …

§  faire ECHOUER les méthodes statistiques et mathématiques Exemple inspiré de

Copyright Franck Bardol 2016 29

RÉDUCTION DIMENSION

DIMENSION

Page 30: Data science a machine learning tour

¡ é dimension du problème èRISQUE de …

§  faire ECHOUER les méthodes statistiques et mathématiques §  Exemple en bio-informatique - génomique : §  Quelques centaines de lignes (les patients - samples) vs. 100 millions de

descripteurs (les gènes extraits - features)

Copyright Franck Bardol 2016 30

RÉDUCTION DIMENSION

DIMENSION

contexte

Page 31: Data science a machine learning tour

¡ é dimension du problème èRISQUE de …

§  faire ECHOUER les méthodes statistiques et mathématiques

Copyright Franck Bardol 2016 31

RÉDUCTION DIMENSION

DIMENSION

problème !

Page 32: Data science a machine learning tour

¡  Pourquoi ê dimension du problème ? Vision d’ensemble donnée par 2 des plus grands spécialistes §  Interview de Michael Jordan

§  Interview de Vladimir Vapnik §  fichier “interview Vapnik”

Copyright Franck Bardol 2016 32

RÉDUCTION DIMENSION

Page 33: Data science a machine learning tour

Copyright Franck Bardol 2016 33

METHOD KEY SKILL = FAST PROTOTYPING

AVOID COMPLEXITY

NO

OK

NO

SIMPLEST SOLUTION

Page 34: Data science a machine learning tour

Copyright Franck Bardol 2016 34

COMPETE AGAINST OTHER DATA SCIENTIST

Key figures: •  400K data scientists •  2 million machine learning models Lessons learned from previous contest : •  Top methods

•  XgBoost models : for structured problems •  Deep Learning : for unstructured problems (sounds, visual, texts)

-  source : Anthony Goldbloom, CEO Kaggle – www.kaggle.com

Page 35: Data science a machine learning tour

Copyright Franck Bardol 2016 35

COMPETE AGAINST OTHER DATA SCIENTIST

www.datascience.net

www.challengedata.ens.fr

Page 36: Data science a machine learning tour

Copyright Franck Bardol 2016 36

DATA-SCIENCE + PYTHON = DREAM TEAM

Page 37: Data science a machine learning tour

¡  Python : langage de programmation ¡  Avantages :

§  Très vaste choix de librairies gratuites §  Courbe d’apprentissage faible §  Communauté d’utilisateurs actifs gigantesque §  Le langage favori des data-scientists §  Elimine la ré-écriture complète du code prototypé par data-scientist §  langage interprété – prototyping rapide (pas de compilation – link) §  lisibilité du code (via identation)

¡  Inconvénients : §  langage interprété (pas d’étape compilation – link) §  vitesse d’exécution

Copyright Franck Bardol 2016 37

DATA-SCIENCE AVEC PYTHON

Page 38: Data science a machine learning tour

Copyright Franck Bardol 2016 38

OPEN SOURCE TOOLS

vision langage

general purpose machine learning visualization

data management optimization …

package

thousand other tools

Page 39: Data science a machine learning tour

Copyright Franck Bardol 2016 39

API

portails API

www.mashape.com www.programmableweb.com www.mloss.org

thousand other tools

Page 40: Data science a machine learning tour

ULTRA FAST PROTOTYPING

#chargement des données �  1 import pandas as pd �  data = pd.read_csv(‘data_to_read.csv’) #chargement d’une librairie �  2 from sklearn import model #chargement d’un algorithme de prédiction �  3 clf = model.algo() #ENTRAINEMENT sur les données d’apprentissage �  4 clf.fit(data_train , out_train) #TEST sur les données non vues �  5 predict = clf.predict(data_test)

Copyright Franck Bardol 2016 40

Page 41: Data science a machine learning tour

 

Copyright Franck Bardol 2016 41

BIBLIO

ainews.posthaven.com/16-free-ebooks-on-machine-learning

Page 42: Data science a machine learning tour

 

Copyright Franck Bardol 2016 42

Internet ressources : MOOC (massive onLine open courses)

Udacity.com coursera.org Edx.org france-universite-numerique.fr moocs.epfl.ch ...

Page 43: Data science a machine learning tour

Copyright Franck Bardol 2016 43

 

•  duplique le savoir d’experts •  construit des programmes exécutables de décision •  augmente la boite à outils des analystes

Prediction

TAKE HOME

Machine Learning

Algo

Hidden Pattern Detector

Data TRAINING

PROD Data

Hidden Pattern Detector