comment es permet d’organiser le flux de mégadonnées d’une … - dixit 2016.pdf ·...
TRANSCRIPT
![Page 1: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/1.jpg)
Comment ES permet d’organiser le flux de mégadonnées d’une cellule
de veille ?
17.06
Nicolas BOMBOURG – Findout [email protected]
@Nbombourg
![Page 2: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/2.jpg)
Que voyez-vous ?
2
![Page 3: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/3.jpg)
De nouvelles technologies au service de la veille
20/06/2016 3
• Analytics • Modeling • Learning Algorithm
• Big data infrastructure (Index, NoSQL…)
• Parallele Computing • Data Processing
• Market Research • Competitive intelligence • Economics
Market Intelligence
Data Science
IT Big Data
![Page 4: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/4.jpg)
Exemple d’utilisation d’ES Permettre aux Cellule de Veille d’identifier, annoter et partager
les statistiques et rapports publiés par les Sources Officielles
4
Filtre Contextualisation
Index
200M documents
Crawl
3M rapports 40M tableaux & graphs 300M séries Statistiques
250 K+ sources 2 M urls
![Page 5: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/5.jpg)
ES couvre 3 besoins 1. Construire des index
2. Classer des résultats
3. Assurer Performance, Stabilité, Disponibilité, et Scalabilité
5
![Page 6: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/6.jpg)
Quels sont nos challenges ? • Insertions et suppressions d’information en
continu
• Mises à jour régulières – Métadonnées recalculées tous les trimestres – Nouvelles métadonnées crées en permanence
• Formats hétérogènes – Rapports entiers vs Chapitres vs News – Tableaux Pdf vs Statistiques vs Datasets
6
![Page 7: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/7.jpg)
SOLUTION
7
![Page 8: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/8.jpg)
4 raisons de choisir ES 1. Pour la gestion du volume de données
2. Pour gagner en agilité au niveau de l’infrastructure
3. Pour la finesse du mapping et du requêtage
4. Pour ses avantages face à SolR
8
![Page 9: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/9.jpg)
IMPLEMENTATION
9
![Page 10: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/10.jpg)
2 phases d’intégration….. • Déploiement
– Difficulté : Compétences
• Croissance – Difficulté : Volume
10
…..4 étapes
![Page 11: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/11.jpg)
1er Définir les environnements
● Qu’est-ce qu’un environnement ?
● Quels sont les environnements autour d’ES ? ○ Cluster de développement ○ Cluster de Test ○ Cluster de recherche de nos outils et de nos clients
(Production)
⇒ Nous avons établis 3 environnement distincts
11
![Page 12: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/12.jpg)
2ème Affiner les algos de classement • Qu’est-ce que le ranking selon ES ?
• Que permet ES ? – Exposer le fonds documentaire – Diversifier les résultats – Faire découvrir les nouveautés
⇒ Nous avons monté un projet Search UX en interne
12
![Page 13: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/13.jpg)
3ème Mettre à jour les index • Qu’est-ce que les index selon ES ?
• Pourquoi faut-il les mettre à jour ? • Combien de temps faut-il pour mettre à jour un
index ? – Etudes de marché, 3M de rapports, 1TB, 3 jours – Datasets, 62M de documents, 260 GB, 1 jour
13
![Page 14: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/14.jpg)
4ème Mettre à jour les versions ● Comment fonctionne le versioning d’ES ?
● Pourquoi faut-il les mettre à jour ? - Améliorer les temps de réponses qui peuvent
s’allonger - Mieux comprendre les raisons d’un crash - Identifier plus facilement les requêtes fautives - Bénéficier du support le plus en pointe
⇒ Choisir à partir de l’ES 2.x pour éviter les incompatibilités avec les
versions 1.7 et précédentes
14
![Page 15: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/15.jpg)
Nos utilisateurs ne veulent que la dernière info, peu importe le format
• …nous devons relever 2 nouveaux challenges
1. Anticiper les changements sur la longue traine est difficile
2. Le nombre d’utilisateurs utilisant notre solution croit
- 20K visiteurs uniques / jour prévus en Septembre
15
![Page 17: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/17.jpg)
BONUS
17
![Page 18: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/18.jpg)
Vision
« Utiliser les technologies d’intelligence artificielle sur des mégadonnées permet de détecter mieux que jamais les signaux faibles d’un marché »
18
![Page 19: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/19.jpg)
De nouvelles compétences au service des veilleurs
19
Ingénieurs Statisticiens
Analystes
UX Designers
Taxonomistes
Gestionnaires données Economistes
![Page 20: Comment ES permet d’organiser le flux de mégadonnées d’une … - Dixit 2016.pdf · 2016-06-27 · Apache Solr • Utilisation Apache SolR • 1st Iphone Release Generalisation](https://reader034.vdocuments.mx/reader034/viewer/2022042214/5eb9f88d5fd37101c149d905/html5/thumbnails/20.jpg)
LctReportlinker• My SQL • Big data to the
masses
Apache Solr • Utilisation Apache
SolR • 1st Iphone Release
Generalisation ES • Version 1 ES disponible • Rise of Mobile Devices
1er test ES 0.20 • Creation ES Bv • Big Data Initiative
ES accélère • Montée en
puissance
2007 2008 2012 2013 2016
Changement de MySql vers ES