talend open studio for data integration
DESCRIPTION
Presentazione delle caratteristiche di Talend Opend StudioTRANSCRIPT
Talend Open Studio for Data Integration
Corso di Data Mining
Alessandro Gonella
ETLExtract, Transform, Load
● Selezionare solo dati di interesse per il sistema
● Normalizzare i dati (eliminando i duplicati)
● Tradurre dati codificati
● Derivare nuovi dati calcolati
● Eseguire accoppiamenti (join) tra dati da differenti
tabelle
Termini ricorrenti
Repository - locazione di storage
Progetto - collezione strutturata di oggetti
Workspace - directory dove vengono salvate tutte le cartelle del progetto
Job - rappresentazione grafica di componenti connessi assieme
Termini ricorrenti (2)
Oggetto - unità di base in un progetto
Componente - connettore preconfigurato usato per realizzare una specifica operazione di data integration
GUI
Job Design
● Rappresentazione grafica
● Creazione di processi di gestione del dataflow
● Gestione delle sorgenti dati
● Gestione degli output
● Gestione dei componenti
Sorgenti di dati
Palette o Repository?
● Database○ Parametri di connessione, schema○ SQL Builder (Dati estrapolati)
● File delimitato (CSV)○ Percorso del file○ Struttura (caratteri separatori, header)
Connessioni
● Row
○ Main, lookup, filter, rejects, errorReject, output
● Iterate
○ Iterazione su files o righe database
● Trigger
○ Nessun dato
○ Creazione di dipendenze tra Jobs
Componente tMap
● Gestione di Input/Output multipli
● Operazioni di trasformazione, concatenazione,
filtraggio...
● Utilizza le connessioni in entrata per stabilire gli schemi
dei dati
Componente tMap (2)
Componente tMap (3)● Join
○ Explicit Join, Inner Join
● Filtri
● Variabili
● Editor delle espressioni
○ Expression Builder
● Output
○ Schema da connessioni
○ Schema in tMap
Output
● Repository
● Palette
● Debug
○ tLogRow