du data mining à la data science
TRANSCRIPT
© Soft Computing – www.softcomputing.com
Du Data Mining à la Data Science : Comment passer du Data Mining traditionnel à la Data Science ?
24/09/2015
© 2
Du Data Mining à la Data Science
Séminaire le 24 septembre 2015
Comment passer du Data Mining traditionnel à la Data Science ? Quels bénéfices ? Quels impacts ? Quels R.O.I. ?
Modalités : Ce séminaire aura lieu dans les
locaux de Soft Computing.
Ou via notre site:
www.softcomputing.com
Soft Computing vous invite à un séminaire qui abordera les questions suivantes :
• Quels impacts sur le quotidien du Data Miner : quelles sont les techniques/outils à maitriser ?
• Quelles sont les possibilités et les nouvelles perspectives d'analyse offertes par le Big Data ?
• Quels sont les pièges à éviter ?
Agenda :
08h45 – 09h00 : Accueil des participants
09h00 – 11h00 : Séminaire
La donnée et son exploitation : quels enjeux pour les entreprises ?
Data Miner vs Data Scientist : quelles compétences, quelles
différences ?
Les nouvelles possibilités d'analyse et les méthodologies associées
pour quels cas d'utilisation ?
Les retours d'expériences, les compétences requises, délais et ROI.
A propos
Soft Computing est une entreprise de Services du Numérique spécialiste en Digital, Big Data, et CRM, réunissant près de 400 consultants, délivrant des
prestations de Conseil, de Technologie et de Marketing Services.
Soft Computing est coté sur NYSE Euronext Paris - Code ISIN : FR0000075517 - Symbole : SFT.
Cet événement est réservé aux clients et prospects Soft Computing. Pour tout autre profil, l'inscription sera soumise à validation.
Soft Computing |55 quai de Grenelle|75015 Paris|01 73 00 55 00 | www.softcomputing.com
© 3
Présentation des intervenants
Eric Fischmeister
Président
01 73 00 57 59
Hélène Hamon
Directrice adjointe du pôle
Marketing Services
01 73 00 55 88
Sylvain Bellier
Directeur du pôle Marketing Services
01 73 00 56 06
Eric Fischmeister
Président
01 73 00 57 59
© 4
SOMMAIRE Sommaire
1. Introduction
2. L’écosystème : Le décor et quoi de neuf ?
3. Data Miner vs Data Scientist : quelles compétences, quelles
différences ?
4. Les nouvelles possibilités d’analyses et les méthodologies
associées : quels cas d’utilisation ?
5. Les retours d’expériences : quelle démarche, le délai, les coûts ?
6. Conclusion
© 6
Compétences : un mix unique de compétences pointues
Digital
Marketing Data
Science
Project
Management Information
Technologies
Digital - Big Data - CRM
© 7
Mission : transformer la data en performance
Business
IT
Imaginer, bâtir et opérer
des programmes de conquête et de fidélisation cross-canaux, rentables et innovants
Concevoir, développer et déployer
des solutions Digitales, Big Data et CRM performantes, pragmatiques et adaptées
AMOA
© 8
Delivery : continuum de services et souplesse
Think Build Run
Délégation
d’expertise
Mode
Projet
Centre de
services
© 9
Programme relationnel
multi-devices et
remarketing.
Ecoute et analyse des
sentiments des clients
sur les réseaux sociaux.
Centre de services de
gestion des campagnes
marketing multicanal.
Data Management
Platform et marketing
multicanal temps réel.
Centre de services
datamining, campagnes
ciblées et reportings.
Gestion des opérations
marketing ciblées.
Data Management
Platform, CRM et
web analytics.
Conception de
l’architecture
décisionnelle hybride
big data –
datawarehouse.
Centre de services
gestion de campagnes
marketing et
connaissance clients.
Convergence des
pratiques et des outils
marketing on et offline.
Mise en place d’une
Data Management
Platform (DMP) et de
use cases marketing.
Déploiement d’une
plate-forme CRM multi-
marques multi-pays.
Personnalisation temps
réel des contenus et
valorisation d’audience.
Définition d’une
stratégie de Business
Intelligence.
Pilotage de la qualité
de l’expérience client.
Extraits de références 2014-2015
© 10
Experts reconnus
blog.softcomputing.com/
fr.slideshare.net/softcomputing
twitter.com/#!/SoftComputing
linkedin.com/company/soft-computing
facebook.com/softcomputing
softcomputing.com/fr/news/
Informer Ecrire Enseigner
© 11
SOMMAIRE Sommaire
1. Introduction
2. L’écosystème : Le décor et quoi de neuf ?
3. Data Miner vs Data Scientist : quelles compétences, quelles
différences ?
4. Les nouvelles possibilités d’analyses et les méthodologies
associées : quels cas d’utilisation ?
5. Les retours d’expériences : quelle démarche, le délai, les coûts ?
6. Conclusion
© 16
Notre vision sur les grands segments de marché
Expérimentation Industrialisation
Transport
Retail GSA
Retail GSS
Banque &
Assurance
Utilities
(yc Telco)
© 21
Enjeu # 3 : Optimisation et analyse de la contribution des
différents leviers d’acquisition et de fidélisation
© 23
Données :
Digitales CRM
Réponse # 1 : Une acceptation commune dans la démarche
R.O.I.
Connaissance
Productivité opérationnelle
Analyses ad’hoc
Vision produit Vision clients
Technologies
1
2
3
4
Modélisation Réconciliation
Externes
© 24
Réponse # 2 : Des REX sur un segment (sur) peuplé qui émergent
Xaas
Hardware
Projets Open Source Distributions
Données Analyse Visualisation Application
EMR Bigquery
Professionnal services (tec & biz)
© 25
Réponse # 3 : Baissent des coûts
5 nœuds
1 namenode, 20 cœurs, 192 Go ram
4 datanodes, 64 cœurs, 64 Gb ram, 10 To DD
© 27
Réponse # 5 : Des compétences qui crantent et qui (commencent)
à travailler ensemble
Marketing Datascience Programmation
© 29
SOMMAIRE Sommaire
1. Introduction
2. L’écosystème : Le décor et quoi de neuf ?
3. Data Miner vs Data Scientist : quelles compétences, quelles
différences ?
4. Les nouvelles possibilités d’analyses et les méthodologies
associées : quels cas d’utilisation ?
5. Les retours d’expériences : quelle démarche, le délai, les coûts ?
6. Conclusion
© 31
Les données analysées AVANT
Univers de données Format et stockage
Historique
Important sur les
données agrégées
Faible sur les
données unitaires
© 32
Les analyses
Segmentation RFM,
valeur…
Etude d’impact de
lancement d’offre,
programme de
fidélisation
Score d’appétence,
de rétention…
Géomarketing :
typologies de zone
d’implantation,
optimisation de
réseau de points de
vente…
Prévision des ventes,
des résiliations…
Mesure de dispositif
de marketing
relationnel
AVANT
© 33
Les méthodologies
Régression logistique
Modèle
ARIMA/SARIMA
Analyse des
correspondances
multiples
Analyse Factorielle
Analyse en
composantes
principales
…
AVANT
© 34
Les outils
Accès aux
données
Manipulation
de données Analytic Restitution
AVANT
© 35
L’organisation des projets AVANT
Marketing Data Miner
Définit le besoin
Exploite les résultats
et met en œuvre les
actions
Définit l’approche
méthodologique
Réalise les analyses
© 36
Les charges
Définition de la démarche
et des indicateurs
Extraction des données
Construction de la matrice
d’études Analyse/
Modélisation Présentation des résultats
2 jours 5 jours 10 jours 15 jours 10 jours
Exemple pour la mise en place d’une segmentation :
= 42 jours
+ aléa
AVANT
© 37
Les compétences attendues pour un
Datamininer
Maitrise des outils Maitrise des méthodes Sens Business
AVANT
© 40
Au démarrage du Big data
• Des données brutes /
non structurées
• Accès/manipulation de
données via Impala, Hive
© 42
Les données analysées 2015
Périmètre Format et stockage
Historique
Important sur les
données agrégées
Important sur les
données unitaires
© 43
Les nouvelles analyses
Analyse de parcours
omnicanal
Analyse de
sentiments
Moteur de
substitution
Analyses multi
fonctions : logistique,
client, yield…
Scores à la volée Moteur de
recommandations
2015
© 44
Les nouvelles méthodologies utilisées
Random Forest
Boosting Gradient
Machine
Textmining
Réseau Bayesien
ACP
avec rotation
Sequential Pattern
Analysis
2015
© 45
Les outils
Accès aux
données
Manipulation
de données Analytic Restitution
2015
© 46
L’organisation des projets 2015
Marketing
Data Science Programmation
Définit le besoin
Exploite
Explore
Transforme
Modélise
Nettoie
Optimise
Industrialise
© 47
Les charges
Exemple pour la mise en place d’une segmentation :
Définition de la démarche
et des indicateurs
Extraction des données
Construction de la matrice
d’études Analyse/
Modélisation Présentation des résultats
2 jours 3 jours 6 jours 8 jours 3 jours = 22 jours
2015
© 48
Les compétences attendues pour un Data
Scientist
Maitrise
des outils
Maitrise des
nouvelles méthodes
Sens
Business
GESTION DE PROJET
2015
© 49
SOMMAIRE Sommaire
1. Introduction
2. L’écosystème : Le décor et quoi de neuf ?
3. Data Miner vs Data Scientist : quelles compétences, quelles
différences ?
4. Les nouvelles possibilités d’analyses et les méthodologies
associées : quels cas d’utilisation ?
5. Les retours d’expériences : quelle démarche, le délai, les
coûts ?
6. Conclusion
© 50
Données :
Digitales CRM
Penser applications opérationnelles et débuter simple
R.O.I.
Connaissance
Productivité opérationnelle
Analyses ad’hoc
Vision produit Vision clients
Technologies
1
2
3
4
Modélisation Réconciliation
Externes
© 51
Une démarche itérative et cocréative
Une approche pour :
– Identifier vos enjeux et vos besoins et les décliner en plan d’expérimentation,
– Benchmarker, tester et valoriser la création de valeur
– Préparer une éventuelle industrialisation
Mettre en œuvre la
plateforme 2
Présentation, ajustement ,
validation de l’apport de valeur,
plans test 3
Représentants
métiers
Définition des cas
d’usages
Réaliser les cas d’usage
métiers et benchmark avt -
après
4
1
Représentants
métiers / SI
Recueil de l’existant et des
besoins métier et SI
Représentants
métiers
Recommandation et plans d’actions en
vu de l’industrialisation 5
2
Décile
Lif
t
© 53
Imaginer des plannings de réalisation à moins de 6 mois et
contributeurs associés
Run
Initialisation du centre de services
Conception et réalisation « large »
Maintenance
Monitoring applications
Administration
Gestion des projets de setup
Gestion du centre de services Program Management
Gestion des projets d’évolutions
Busi
ness
IT
G
est
ion d
e p
roje
t et
de s
erv
ices
Setup
Sprints algorithme sur le
« lab »
Mise en place
architecture
Définition du SLA
Conception et réalisation « fast »
Tests
Sprints d’amélioration algorithme sur le « lab »
Surveillance de la santé de l’algorithme « lab »
Infr
a
Hard & soft
Hébergement et monitoring
Data
exploration
M1 M2 M3 M4 M5
© 54
Anticiper hybride dans l’industrialisation Syst
èm
es
sourc
es
Syst
èm
es
bancair
es
de p
roducti
on
Exte
rnes
ETL Appliance
Entrepôt
Vision unique
du client
Datamarts
Sandbox
Entrepôt Hadoop
Usages
Reporting
Tableaux de
bord
Cubes OLAP
Statistique
(SAS...)
Systèmes
front-end
Base
métier
Données de référence
Synthèses transactions
Données externes
structurées
Données externes
peu structurées
Données
volumétrie importante
Réintégration données
après pré-traitement
Sa
s d
e
sé
cu
rité
Accès A
ccès
Acc
ès
Données externes
à la demande
Eléments de ciblage (dont scores)
Extractions Métiers (dont scores, segmentations...)
Base
métier
Base
métier
Base
métier
Base
métier
Base
métier
Web Services
Services temps réel
À destination des front-end
© 55
Combien ça coûte ?
X * 100 K€ / an
Batch
As a service
X * 1 M€ / an
Industrialisation
Temps réel
Datawahouse+big data
© 57
SOMMAIRE Sommaire
1. Introduction
2. L’écosystème : Le décor et quoi de neuf ?
3. Data Miner vs Data Scientist : quelles compétences, quelles
différences ?
4. Les nouvelles possibilités d’analyses et les méthodologies
associées : quels cas d’utilisation ?
5. Les retours d’expériences : quelle démarche, le délai, les coûts ?
6. Conclusion