la data n’a pas besoin d’être « big » pour générer de la valeur
DESCRIPTION
Les entreprises sont de plus en plus nombreuses à s’intéresser au big data : Beaucoup y voit le graal qui leur permettra de sortir de la crise. Oui mais voilà, les Big Data entrent dans des critères de volume, véracité, variété et de vélocité (4V) bien précis et tellement importants (voire même hors norme) qu’elles ne concernent finalement qu’une très faible partie des projets d’exploitation de données. Faut-il pour autant exclure les entreprises ou les projets dont les cas d’usage n’entrent pas dans ces critères ? Nous allons démontrer dans le cadre de cette session et sur la base d’exemples concrets comment les données, même en volume limité et aussi dispersées soient-elle, renferment un gisement de valeurs considérable pour l’entreprise : à condition de respecter certains fondamentaux et prérequis pour pouvoir les faire parler. Retour d’expérience avec Anne LAURENT, directrice du centre HPC@LR à Montpellier, centre de compétences dévolu au calcul intensif (High Performance Computing) Session présentée par le partenaire : Isiasoft. Speakers : Fabienne Amadori (Isiasoft), Anne Laurent (CNRS )TRANSCRIPT
La data n'a pas besoin d'être « big » pour générer de la valeur
Big Data,l’un des plus grands défis informatiques de la décennie
“Big data: The next frontier for innovation, competition, and productivity” (McKinsey Global Institute).
L’enjeu du Big Data,Transformer les données en savoir
Expérimentation
Théorie
Simulation
Données
http://research.microsoft.com/en-us/collaboration/fourthparadigm/
Les « autres » données,Un gisement de valeurs
“Information has become one of the most valuable assets that organizations have.” (Gartner)
Dans la suite de cette session…
Tour d’horizon
Approche, étapes clés, arbitrages et écueils à éviter
Tous concernés par le big data
Data mining
Business Intelligence
Big Data
Data Visualisation
Data Science
Réseaux de neurones
Machine learning
Arbre de décision
Régression linéaire
Régression logistique
c2
BI Reporting
Qu’est-il arrivé ? Quand? Combien ?
…
Analyse prédictive
Que va-t-il arriver ? Quel va être
l’impact ?
Optimisation
Quel est le meilleur choix ?
La meilleure action
Cognitif
Intuitif Evolutif
Data science, Data mining, Exploration de données,….
Quelle corrélation entre bières et couches pour bébé ?
Big data« Petite » analyse lexicale
3V+Valeur
3V : Volume, Variété, Vélocité
3V+Visualisation
3V+ Véracité
3V+ …
Le calcul intensif Un outil stratégique pour la science, l’industrie …
http://nirvacana.com/thoughts/becoming-a-data-scientist/
5. Text Mining / NLP
1. Fundamentals
4. Machine Learning
6. Visualization
9. Data Mining
8. Data Ingestion
10. Toolbox
7. BigData
3. Programming2. Statistics
Exploration des données…Retour d’expérience sur un projet
Collecter
Consolider et nettoyer les données
Explorer
Découvrir et analyser
Réinjecter la connaissance dans les process
Hétérogénéité technique
Hétérogénéité fonctionnelle
Hétérogénéité des déploiements
Véracité des données
Connaissance fonctionnelle….
Consolidation et nettoyage des données
Hétérogénéité technique
Bases de données Fichiers CSV, log… Progiciels
Web servicesRéseaux sociaux
Hétérogénéité fonctionnelle
Produit
R&D, prototypage
Design,Packaging, Marketing
ProductionMarketing,Distribution
SAV
Connaissance fonctionnelle
REGPZCV REGPATI REGUPP ... REGUCI REGGEN
56 20091213 0 4 0,256
33 20090615 1 4 0,358
… … … … … …
42 20081114 1 2 0,199
Validité des données
Consolidation et nettoyage des données
SAVR&D,
prototypage
Design,Packaging, Marketing
Production Marketing,Distribution
CharacteristicsFormulation Class
Produit Na+ K+ Cl- Claims
… … … … …
AER234 0,4087429 0,5980998 0,6190223 No
AAI254 0,3202395 0,598452 0,6179289 Yes
AAI256 0,3506248 0,60179 0,6969146 No
AAD472 0,3521515 0,6492974 0,5481292 No
… … … … …
Hétérogéniété des déploiements
SAV R&D, prototypage
Design,Packaging, Marketing
Production
Marketing,Distribution
2001
2010
20072010
2013
2006
2002Indicateurs qualité
Neural Network• MultiLayerPerceptron
Decision Tree• C4.5
Bayes Net
InfoGain
ChiSquared
Filtered
SymmetricalUncert
ReliefF
OneR
Ranking strategies Algorithms
De nombreuses stratégies, de nombreux algorithmes…..
Color
freshness & Smell
Surface Quality
Riboflavin
Choline
Folic acid
Claims
Réseau de Neurones
Algorithme génétiqueEntrainement des réseaux de neurones
Sélections des meilleurs
réseaux
Héritage par re-
combinaisonsMutation
Nouvelle génération
1ère
génération
Application spécifique développée en WPF
Axes d’améliorations identifiés
Bilan du projet
Freins levés
Démarche à moindre coût
Synergie entre monde de l’entreprise et la recherche
Enveloppe financière raisonnable
En synthèse
Démarche globale et impact sur l’organisation
Qualité des données
Compétences requises
Not so Big data : 3V + Vous…Une démarche sur mesure
Des questions ?
Vous avez d’autres questions ou vous souhaitez prolonger cet échange ISIASOFT Stand 6 bis (espace exposants) www.isiasoft.com