hadoop en 1461 leçons
TRANSCRIPT
HadoopHadoop
en 1461 leçonsen 1461 leçons
David MorelDavid Morel
1 / 22
Qui suis-je ?Qui suis-je ?
Dev chez Booking.com de 02/2007 à 11/2015
Frontend, Email marketing, Infra, Visitor personalization,puis Big Data (2011)
Il n'y a pas de problème, il n'y a que dessolutions
(beaucoup de solutions)
2 / 22
© Gareth Bogdanoff/flickr
L'effet recherchéL'effet recherché
3 / 22
© peasap/flickr
Le prix à payerLe prix à payer
4 / 22
©kunkelstein/flickr
Des data devenues vraimentDes data devenues vraimenttoo bigtoo bigAssez de scaffolding code !
Requêtes MySQL prenantplusieurs heures, voire jours !
Enough is enough !
5 / 22
Le prototypeLe prototypeVite fait, machines hétéroclites, jobs enHadoopStreaming. Mariage peu orthodoxe(Hadoop+Perl), mais des résultats encourageants, voiremagiques
6 / 22
Le premier Le premier vraivrai cluster clusterImport de tables de BDD (Sqoop) pour quelquesanalystes : permettre enfin les requêtes cross-DB
Manque de docs à l'époque. Plus le cas aujourd'hui :nombreux livres très utiles, voire obligatoires
Tout est à (ré)apprendre
7 / 22
Mise en productionMise en productionPassage rapide à deux clusters pour les tests deconfiguration, les upgrades et la redondance
Consultants Cloudera pour le bootstrap, utilisation deCM au début puis Puppet
8 / 22
Le dédale des optionsLe dédale des optionsC'est un cauchemar !
Aucune config standard adaptée
Théorie : les gros utilisateurs (early adopters) n'ont pasde temps pour la doc
Différent aujourd'hui ?
9 / 22
Nos premiers utilisateursNos premiers utilisateurs
Venant de MySQL, Hive était un choix évident
TRANSFORM est une killer feature10 / 22
Ce qu'ils nous apprennentCe qu'ils nous apprennentUne vélocité jamais atteinte, très favorable auxprocessus de développement itératifs
Un effort de formation très important :
mapreduce demande un paradigm shiftles utilisateurs voient une chose qui just works etcassent tout très facilement
11 / 22
La montée en chargeLa montée en chargeIngestion des events du site : millions, puis milliards deJSON par jour
Demande endémiquement sous-évaluée : croissance duvolume dans toutes les directions
Reprocess, big jointures : quelques indigestions
Prévisions d'espace disque et CPU : encore plusdifficiles sur un petit cluster
Les clusters sont de petits gros êtres fragiles
12 / 22
La minute de la haineLa minute de la haineLe jour où on a effacé toutes les partitions
Le jour où le FairScheduler est devenu fou
Le jour où le HistoryServer a fait tomber le cluster
Et les 1458 autres jours
De grands moments de solitude (surtout la nuit)
Chasser les bugs est so fun
13 / 22
Pourquoi tant de Pourquoi tant de hainehaine bugsbugsfun ?fun ?Parce que ce sont des systèmes jeunes !
Parce que ce sont des systèmes complexes (pas unsystème, mais un écosystème)
Parce que le développement est rapide, et laconcurrence féroce
Encore très loin de la stabilité et de la prévisibilité desSGBDR (même si c'est très différent)
14 / 22
Le cloud, pourquoi pas ?Le cloud, pourquoi pas ?Obstacles culturels et confidentialité
Le faire si l'on peut, surtout pour le démarrage : seconcentrer sur la valeur, pas sur la plomberie
Virtualisation in-house ? Now you have 2 problems
15 / 22
La division du tempsLa division du temps40 % troubleshoot infra, maintenance, évolution
40 % troubleshoot users, formation, assistance
40 % codage de scripts de monitoring, et facilitationd'accès pour les users
Demande un peu d'organisation :-)
16 / 22
Des solutions ?Des solutions ?Briques de bases (automatisation, profiling, grossesconfig comme Kerberos) à implémenter toujours trèstôt ; les systèmes distribués ne rendent pas les chosesplus simples
Peut-être une 2ème équipe déchargée du supportutilisateurs ?
Favoriser la diffusion de la connaissance, utiliser desoutils adaptés, type StackOverflow. Former desutilisateurs experts qui forment les autres
Classique, non ? Presque...17 / 22
La récompenseLa récompenseUn analyste: "Without you guys, I simply
couldn't do my job anymore"
Yeehaa! 18 / 22
Recette : réussir ses lasagnesRecette : réussir ses lasagnesà la big dataà la big dataUn investissement humain et matériel important, unR.O.I incertain
Le data-centrisme et la transdiciplinarité en préalable
Pourquoi ai-je besoin d'Hadoop ? Quelles alternatives ?
Comme toujours, la clé est dans la qualité de l'exécution
Workhorses, not show ponies ; faire bien une chose,plutôt que dix mal
19 / 22
Une promenade de santéUne promenade de santéAllez-y !
20 / 22
Une promenadeUne promenade
de santéde santéAllez-y !
(doucement, quand même)
21 / 22