usi 2013-next big data architecture
DESCRIPTION
TRANSCRIPT
www.usievents.com
24 & 25 Juin 2013LE RENDEZ-VOUS DES GEEKS & DES BOSSPOUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS
Prochaine Génération d’architectures Big Data
Olivier Mallassi
1
www.gopivotal.com
www.usievents.com 2
« Big Data »…Tout attribut qui défie les contraintes d’une capacité d’un système ou besoin métier.
Challenge nos savoir-faire.
www.usievents.com 3
Plus…
…de volume
…vite
…complexe : « predictive enterprise »…variée
et variable
…nous amène vers « plus… »
www.usievents.com 4
UNE IMPLEMENTATIONDE REFERENCE : Hadoop
www.usievents.com
UNE IMPLEMENTATIONDE REFERENCE : Hadoop
5
Nam
eN
od
e
Data
Nod
e
Data
Nod
e
Data
Nod
e
Data
Nod
e
File#2Block#1
File#2Block#2
File#2Block#3
Un système de fichier distribué : HDFS
Découpage des fichiers en « bloc ».Répartition des données sur plusieurs machines.Réplication des données pour assurer la tolérance à la panne.
File#2
File#2Block#1
File#2Block#2
File#2Block#3
www.usievents.com
UNE IMPLEMENTATIONDE REFERENCE : Hadoop
6Ta
skTr
acker
TaskTr
acker
TaskTr
acker
TaskTr
acker
File#2Block#1
File#2Block#2
File#2Block#3
Map Map MapReduce
Une couche de traitement: MapReduce
Distribution des traitements.Co-localisation traitements & données.
Job
Tracker
www.usievents.com 7
QUI POSE QUELQUESDEFIS
www.usievents.com
QUI POSE QUELQUESDEFIS
8
Manque de généricité : « MapReduce Only »
Structurant en termes de développement. Structurant en termes d’architecture (« scheduling »…).Ne convient pas à tous les types de traitements.
TaskTr
acker
TaskTr
acker
TaskTr
acker
TaskTr
acker
File#2Block#1
File#2Block#2
File#2Block#3
Map Map MapReduce
Job
Tracker
www.usievents.com 9
Une architecture qui ne répond pas aux nouveaux enjeux
Complexité d’intégration.Mode de traitement batch incompatible avec le « plus vite ».Architecture Master / Slave incompatible avec les problématiques
d’ingestion (Machine-2-Machine).
QUI POSE QUELQUESDEFIS
SI Opérationnel SI Décisionnel
Hadoop
DWH (MPP...)
Déchargement
Extraction / Enrichissement
App / RDBMS
App / RDBMS
App / RDBMS
App / RDBMS
www.usievents.com 10
THEORIEDE L’EVOLUTION
www.usievents.com
THEORIEDE L’EVOLUTION
11
#1. YARN ou l’ouverture vers d’autres types de traitements distribués
YA
RN
Ressou
rce M
an
ag
er
Nod
e M
gr
Nod
e M
gr
Nod
e M
gr
Nod
e M
gr
Map Map MapReduce
Nod
e M
gr
MR Application
Worker Master Worker
SQL SQL
MapReduce
Master/Worker
SQL
www.usievents.com
THEORIEDE L’EVOLUTION
12
#2. Faciliter et diversifier l’accès à la donnée…
www.usievents.com
THEORIEDE L’EVOLUTION
13
#2. …avec SQL
Facilite l’accès via « SQL Like »Génération traitement MR
www.usievents.com
THEORIEDE L’EVOLUTION
14
#2. …avec SQL
Améliore les performances de HiveEnrichit la compatibilité SQLPrivilégie la mémoire
www.usievents.com
THEORIEDE L’EVOLUTION
15
#2. …avec SQL
Architecture différente de MRCompatibilité avec SQLNouveau format de stockage, compressionPrivilégie la mémoire
www.usievents.com
THEORIEDE L’EVOLUTION
16
#2. …avec SQL
Le portage du « moteur SQL » de Greenplum MPPCompatibilité avec SQL« Moteur SQL » éprouvé : redistribution des données en cas de jointureStockage polymorphe : compression, « row / column oriented »
www.usievents.com
THEORIEDE L’EVOLUTION
17
AnalyticWorkloads
SQL Services
OperationalIntelligence
In-Memory Services
Stream Ingestion
HDFS
In memory / Streaming Services
Processing / transformationcalculation
MR / SQL services
GemFire
#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement
Collecte, traitements temps réel : « In Memory Data Grid ».
www.usievents.com
THEORIEDE L’EVOLUTION
18
AnalyticWorkloads
SQL Services
OperationalIntelligence
In-Memory Services
Stream Ingestion
In memory / Streaming Services
Processing / transformationcalculation
MR / SQL services
MR / Hive / HAWQ
insert into…. select from…
#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement
Analyse, Extraction, Machine Learning : MapReduce, SQL…
HDFS
www.usievents.com
THEORIEDE L’EVOLUTION
19
AnalyticWorkloads
SQL Services
OperationalIntelligence
In-Memory Services
Stream Ingestion
In memory / Streaming Services
Processing / transformationcalculation
MR / SQL services
HAWQ SQLFire
select lag() over(partition by…) from … where …
#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement
Restitution : SQL.
HDFS
www.usievents.com 20
Ouvrir vers d’autres types de traitements distribués avec YARNFaciliter et diversifier l’accès à la donnée avec SQLIntégrer différentes couches de traitements sur HDFS
Simplifie(ra) la « gestion technique » de la donnée.
Simplifie(ra) l’analyse et l’accès à cette donnée.
Facilite(ra) l’intégration à l’écosystème et l’existant.
Sera le socle technique aux nouveaux cas d’usage.