talend
DESCRIPTION
Présentation de l'ETL Talend Open Studio.TRANSCRIPT
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 1 / 25Auteur : Thibault Chassagnette – Pierre Antoine Schaeffer
Prez Flash :: Talend Open Studio
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 2 / 25
Sommaire
ContextePourquoi utiliser un ETL ?
Présentation ETLQu’est ce qu’un ETL ?
Talend Open Studio Présentation, Utilisation
Scénarios d’utilisationCharger, exporter, configurer
Retours d’expérienceAvantages, inconvénients
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 3 / 25
Contexte : intégration dans un SI
Projets au cœur d’un écosystème – Différents besoins = différentes applications– Architectures et technologies différentes
Besoin de communiquer avec les autres applications– Mise à jour de référentiels– Reprises de données
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 4 / 25
Comment communiquer ?
Directement entre deux applications
– Solution simple– Performances dégradées en cas d’appels trop nombreux– Création d’une dépendance entre les applications– Difficile à mettre en œuvre avec des progiciels
Application 2 (serveur)
Application 1 (client) HTTP, SOAP, TCP, etc.
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 5 / 25
Comment communiquer ? Via un bus de données
– Solution type EAI complexe à mettre en œuvre– Performances dégradées en cas d’appels trop nombreux– Pas de dépendances directes entre les applications– Difficile à mettre en œuvre avec des progiciels– Nécessite un connecteur pour chaque application
Application 2 Application 1 Application 3
Bus de données
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 6 / 25
Comment communiquer ?
Par duplication de données
– Fonctionne avec tous les logiciels (échange de fichier ou accès direct aux bases de données)
– Fonctionne avec de gros volumes de données– Les applications sont totalement indépendantes
Application 2 (destination)
Application 1 (source)
Extraction Chargement
Transformation
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 7 / 25
Sommaire
ContextePourquoi utiliser un ETL ?
Présentation ETLQu’est ce qu’un ETL ?
Talend Open Studio Présentation, Utilisation
Scénarios d’utilisationCharger, exporter, configurer
Retours d’expérienceAvantages, inconvénients
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 8 / 25
Définition
ETL : Extract, Transform, Load
Recouvre à la fois :– Le processus d’alimentation– Les outils permettant de mettre en œuvre ce processus
Utilisé principalement dans les domaines :– Du DataWareHousing – De la Business Intelligence
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 9 / 25
Utilisations possibles
Consolidation de données dans le S.I.– Exemple : la reconstruction quotidienne d’un DataWareHouse
Propagation de données entre bases– Exemple : l’alimentation des bases applicatives à partir des référentiels
Chargement ou export de données (fichiers)– Exemple : export du chiffre d’affaire de la journée
Reprise de données
Constitution de jeux de données de tests
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 10 / 25
Principe général d’utilisation
Le paramétrage se fait via une interface graphique– Un graphe décrit les traitements à réaliser– Un nœud reprend les données du nœud précédent
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 11 / 25
Fonctionnement en 3 étapes
La collecte des données (Extract)– Depuis une ou plusieurs applications
La préparation et la transformation (Transform)– Contrôle des données sources– Agrégation de plusieurs informations– Transformation des informations
Le chargement des données (Load)– Vers une ou plusieurs applications
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 12 / 25
Sources de données (entrée ou sortie)
Fichiers :– plats : taille fixe, séparateur– XML : utilisation d’une transformation XSLT– propriétaires : Excel
Bases de données :– Relationnelles : Oracle, Sybase, SQL Server, …– Multidimensionnelles
Progiciels :– ERP : SAP, Oracle, People Soft, …– BI : Business Objects, Cognos, …
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 13 / 25
Transformations Transformations sur une ligne
– Formatage, Copie de colonnes, Conversions, Application de fonctions
Transformations sur un ensemble de ligne– Agrégation, tri, pivot, échantillonage, tableaux croisés
Transformations sur plusieurs sources de données– Jointure, union, filtre conditionnel, multicast
Vérification de la qualité des données– Fuzzy matching, remplacement de valeurs, vérification d’intervalles
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 14 / 25
Sommaire
ContextePourquoi utiliser un ETL ?
Présentation ETLQu’est ce qu’un ETL ?
Talend Open Studio Présentation, Utilisation
Scénarios d’utilisationCharger, exporter, configurer
Retours d’expérienceAvantages, inconvénients
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 15 / 25
Talend : présentation générale
Open Source – Version gratuite : Talend Open Studio– Versions payantes (outils de supervision, ordonnancement, …)
Fonctionnement– Génération de code JAVA (ou Perl)– Création d’un jar à exécuter
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 16 / 25
Talend : les possibilités
Sources de données– Bases de données (Oracle, Postgre, MySQL, SQL Server, …)– Fichiers (CSV, XML, possibilité de définir un schéma ligne à ligne)– WebServices– Flux RSS, FTP, CVS, SVN, SSH, …
Transformations possibles– Filtre, tri, …– Ajout de code JAVA compilé puis exécuté par Talend
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 17 / 25
Talend : l’interface
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 18 / 25
Sommaire
ContextePourquoi utiliser un ETL ?
Présentation ETLQu’est ce qu’un ETL ?
Talend Open Studio Présentation, Utilisation
Scénarios d’utilisationCharger, exporter, configurer
Retours d’expérienceAvantages, inconvénients
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 19 / 25
Scénario : chargement de données
Chargement d’un fichier CSV
Log des lignes traitées
Envoi en base de données
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 20 / 25
Scénario : extraction de données
Chargement de données depuis une base
Agrégation de données
Filtre des données
Extraction CSV et XML
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 21 / 25
Scénario : configuration et exploitation
Configuration d’un job
Découpage en sous-job
Chargement d’un fichier normé
Transformations
Export dans une base
Envoi d’un mail
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 22 / 25
Sommaire
ContextePourquoi utiliser un ETL ?
Présentation ETLQu’est ce qu’un ETL ?
Talend Open Studio Présentation, Utilisation
Scénarios d’utilisationCharger, exporter, configurer
Retours d’expérienceAvantages, inconvénients
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 23 / 25
Avantages
Rapidité et facilité de développement
Performances d’exécution
Communauté active
Réactivité Talend
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 24 / 25
Inconvénients
Mauvaise gestion CVS
Pas de génération automatisée des exécutables (payant)
Attention aux évolutions des composants
Nécessite une machine « musclée »
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 25 / 25
Questions ?
Retrouvez nous sur le blog technique de Klee
http://blog.kleegroup.com/teknics
[email protected]@teKnics_Klee