talend

25
© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 1 / 25 Auteur : Thibault Chassagnette – Pierre Antoine Schaeffer Prez Flash :: Talend Open Studio

Upload: klee-group

Post on 13-Dec-2014

4.874 views

Category:

Technology


3 download

DESCRIPTION

Présentation de l'ETL Talend Open Studio.

TRANSCRIPT

Page 1: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 1 / 25Auteur : Thibault Chassagnette – Pierre Antoine Schaeffer

Prez Flash :: Talend Open Studio

Page 2: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 2 / 25

Sommaire

ContextePourquoi utiliser un ETL ?

Présentation ETLQu’est ce qu’un ETL ?

Talend Open Studio Présentation, Utilisation

Scénarios d’utilisationCharger, exporter, configurer

Retours d’expérienceAvantages, inconvénients

Page 3: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 3 / 25

Contexte : intégration dans un SI

Projets au cœur d’un écosystème – Différents besoins = différentes applications– Architectures et technologies différentes

Besoin de communiquer avec les autres applications– Mise à jour de référentiels– Reprises de données

Page 4: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 4 / 25

Comment communiquer ?

Directement entre deux applications

– Solution simple– Performances dégradées en cas d’appels trop nombreux– Création d’une dépendance entre les applications– Difficile à mettre en œuvre avec des progiciels

Application 2 (serveur)

Application 1 (client) HTTP, SOAP, TCP, etc.

Page 5: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 5 / 25

Comment communiquer ? Via un bus de données

– Solution type EAI complexe à mettre en œuvre– Performances dégradées en cas d’appels trop nombreux– Pas de dépendances directes entre les applications– Difficile à mettre en œuvre avec des progiciels– Nécessite un connecteur pour chaque application

Application 2 Application 1 Application 3

Bus de données

Page 6: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 6 / 25

Comment communiquer ?

Par duplication de données

– Fonctionne avec tous les logiciels (échange de fichier ou accès direct aux bases de données)

– Fonctionne avec de gros volumes de données– Les applications sont totalement indépendantes

Application 2 (destination)

Application 1 (source)

Extraction Chargement

Transformation

Page 7: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 7 / 25

Sommaire

ContextePourquoi utiliser un ETL ?

Présentation ETLQu’est ce qu’un ETL ?

Talend Open Studio Présentation, Utilisation

Scénarios d’utilisationCharger, exporter, configurer

Retours d’expérienceAvantages, inconvénients

Page 8: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 8 / 25

Définition

ETL : Extract, Transform, Load

Recouvre à la fois :– Le processus d’alimentation– Les outils permettant de mettre en œuvre ce processus

Utilisé principalement dans les domaines :– Du DataWareHousing – De la Business Intelligence

Page 9: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 9 / 25

Utilisations possibles

Consolidation de données dans le S.I.– Exemple : la reconstruction quotidienne d’un DataWareHouse

Propagation de données entre bases– Exemple : l’alimentation des bases applicatives à partir des référentiels

Chargement ou export de données (fichiers)– Exemple : export du chiffre d’affaire de la journée

Reprise de données

Constitution de jeux de données de tests

Page 10: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 10 / 25

Principe général d’utilisation

Le paramétrage se fait via une interface graphique– Un graphe décrit les traitements à réaliser– Un nœud reprend les données du nœud précédent

Page 11: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 11 / 25

Fonctionnement en 3 étapes

La collecte des données (Extract)– Depuis une ou plusieurs applications

La préparation et la transformation (Transform)– Contrôle des données sources– Agrégation de plusieurs informations– Transformation des informations

Le chargement des données (Load)– Vers une ou plusieurs applications

Page 12: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 12 / 25

Sources de données (entrée ou sortie)

Fichiers :– plats : taille fixe, séparateur– XML : utilisation d’une transformation XSLT– propriétaires : Excel

Bases de données :– Relationnelles : Oracle, Sybase, SQL Server, …– Multidimensionnelles

Progiciels :– ERP : SAP, Oracle, People Soft, …– BI : Business Objects, Cognos, …

Page 13: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 13 / 25

Transformations Transformations sur une ligne

– Formatage, Copie de colonnes, Conversions, Application de fonctions

Transformations sur un ensemble de ligne– Agrégation, tri, pivot, échantillonage, tableaux croisés

Transformations sur plusieurs sources de données– Jointure, union, filtre conditionnel, multicast

Vérification de la qualité des données– Fuzzy matching, remplacement de valeurs, vérification d’intervalles

Page 14: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 14 / 25

Sommaire

ContextePourquoi utiliser un ETL ?

Présentation ETLQu’est ce qu’un ETL ?

Talend Open Studio Présentation, Utilisation

Scénarios d’utilisationCharger, exporter, configurer

Retours d’expérienceAvantages, inconvénients

Page 15: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 15 / 25

Talend : présentation générale

Open Source – Version gratuite : Talend Open Studio– Versions payantes (outils de supervision, ordonnancement, …)

Fonctionnement– Génération de code JAVA (ou Perl)– Création d’un jar à exécuter

Page 16: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 16 / 25

Talend : les possibilités

Sources de données– Bases de données (Oracle, Postgre, MySQL, SQL Server, …)– Fichiers (CSV, XML, possibilité de définir un schéma ligne à ligne)– WebServices– Flux RSS, FTP, CVS, SVN, SSH, …

Transformations possibles– Filtre, tri, …– Ajout de code JAVA compilé puis exécuté par Talend

Page 17: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 17 / 25

Talend : l’interface

Page 18: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 18 / 25

Sommaire

ContextePourquoi utiliser un ETL ?

Présentation ETLQu’est ce qu’un ETL ?

Talend Open Studio Présentation, Utilisation

Scénarios d’utilisationCharger, exporter, configurer

Retours d’expérienceAvantages, inconvénients

Page 19: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 19 / 25

Scénario : chargement de données

Chargement d’un fichier CSV

Log des lignes traitées

Envoi en base de données

Page 20: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 20 / 25

Scénario : extraction de données

Chargement de données depuis une base

Agrégation de données

Filtre des données

Extraction CSV et XML

Page 21: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 21 / 25

Scénario : configuration et exploitation

Configuration d’un job

Découpage en sous-job

Chargement d’un fichier normé

Transformations

Export dans une base

Envoi d’un mail

Page 22: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 22 / 25

Sommaire

ContextePourquoi utiliser un ETL ?

Présentation ETLQu’est ce qu’un ETL ?

Talend Open Studio Présentation, Utilisation

Scénarios d’utilisationCharger, exporter, configurer

Retours d’expérienceAvantages, inconvénients

Page 23: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 23 / 25

Avantages

Rapidité et facilité de développement

Performances d’exécution

Communauté active

Réactivité Talend

Page 24: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 24 / 25

Inconvénients

Mauvaise gestion CVS

Pas de génération automatisée des exécutables (payant)

Attention aux évolutions des composants

Nécessite une machine « musclée »

Page 25: Talend

© Klee Group Prez Flash TALEND Pierre-Antoine Schaeffer / Thibault Chassagnette 25 / 25

Questions ?

Retrouvez nous sur le blog technique de Klee

http://blog.kleegroup.com/teknics

[email protected]@teKnics_Klee