talend open studio for data integration

13
Talend Open Studio for Data Integration Corso di Data Mining Alessandro Gonella

Upload: alessandro-gonella

Post on 28-Jun-2015

918 views

Category:

Technology


3 download

DESCRIPTION

Presentazione delle caratteristiche di Talend Opend Studio

TRANSCRIPT

Page 1: Talend Open Studio for Data Integration

Talend Open Studio for Data Integration

Corso di Data Mining

Alessandro Gonella

Page 2: Talend Open Studio for Data Integration

ETLExtract, Transform, Load

● Selezionare solo dati di interesse per il sistema

● Normalizzare i dati (eliminando i duplicati)

● Tradurre dati codificati

● Derivare nuovi dati calcolati

● Eseguire accoppiamenti (join) tra dati da differenti

tabelle

Page 3: Talend Open Studio for Data Integration

Termini ricorrenti

Repository - locazione di storage

Progetto - collezione strutturata di oggetti

Workspace - directory dove vengono salvate tutte le cartelle del progetto

Job - rappresentazione grafica di componenti connessi assieme

Page 4: Talend Open Studio for Data Integration

Termini ricorrenti (2)

Oggetto - unità di base in un progetto

Componente - connettore preconfigurato usato per realizzare una specifica operazione di data integration

Page 5: Talend Open Studio for Data Integration

GUI

Page 6: Talend Open Studio for Data Integration

Job Design

● Rappresentazione grafica

● Creazione di processi di gestione del dataflow

● Gestione delle sorgenti dati

● Gestione degli output

● Gestione dei componenti

Page 7: Talend Open Studio for Data Integration

Sorgenti di dati

Palette o Repository?

● Database○ Parametri di connessione, schema○ SQL Builder (Dati estrapolati)

● File delimitato (CSV)○ Percorso del file○ Struttura (caratteri separatori, header)

Page 8: Talend Open Studio for Data Integration

Connessioni

● Row

○ Main, lookup, filter, rejects, errorReject, output

● Iterate

○ Iterazione su files o righe database

● Trigger

○ Nessun dato

○ Creazione di dipendenze tra Jobs

Page 9: Talend Open Studio for Data Integration

Componente tMap

● Gestione di Input/Output multipli

● Operazioni di trasformazione, concatenazione,

filtraggio...

● Utilizza le connessioni in entrata per stabilire gli schemi

dei dati

Page 10: Talend Open Studio for Data Integration

Componente tMap (2)

Page 11: Talend Open Studio for Data Integration

Componente tMap (3)● Join

○ Explicit Join, Inner Join

● Filtri

● Variabili

● Editor delle espressioni

○ Expression Builder

● Output

○ Schema da connessioni

○ Schema in tMap

Page 12: Talend Open Studio for Data Integration

Output

● Repository

● Palette

● Debug

○ tLogRow

Page 13: Talend Open Studio for Data Integration