informatica essential workshop day1
DESCRIPTION
Informatica workshop day one for PC ETL engineers.TRANSCRIPT
22.7.2010
1
Informatica PowerCenter 8 Essential workshop
Zagreb, 12. do 16. srpnja 2010
Agenda 1/5
•DWH/BI okruženje
•Uvod u Informatica integracijske koncepte
•IPC Arhitektura i korisničko sučelje
• Lab 1: Upotreba Designer i Workflow Manager alata
•Source Qualifier
• Lab 2-4: Upotreba Source Qualifier - Pass-Through Mapping,
Homogeneous Join i Two Pipeline Mapping
•Expression, Filter, Router transformacije
• LAB 5: Expression, Filter i Router
•Sažetak prvog dana
22.7.2010
2
Agenda 2/5
•Designer tehnike I
• Lab 6: Korisne tehnike - Designer 1/2
•Tehnike korištenja Join i shortcut objekata
• Lab 7: Upotreba Joiner transformacije
•Lookup objekt i reusable transformacije
• Lab 8: Upotreba Lookup transformacije
•Debugger
• LAB 9: Upoznavanje sa designer Debugger-om
•Sequence transformacija
• LAB 10: Upotreba Sequence gernerator transformacije
•Sažetak drugog dana
Agenda 3/5
•Designer tehnike II
• Lab 11: Korisne tehnike - Designer 2/2
•Lookup caching tehnike
• Lab 12: Persistent caching mehanizam
•Sorter, Aggregator
• Lab 13: Upotreba sorter i aggregator transformacije –
Laod Fact table
•Update strategy
• LAB 14: Upotreba Update strategija
•Sažetak trećeg dana
22.7.2010
3
Agenda 4/5
•Unconnected Lookup
• Lab 15: Upotreba unconnected lookup-a
•Parameteri i varijable
•Mappleti
• Lab 16: Upotreba Mappleta
•Workflow i workleti
• Lab 17: Upotreba workflowa i workleta
•Workshop – Samostalni zadatak
•Sažetak četvrtog dana
Agenda 5/5
•Mapping dizajn – best practice
•Workflow dizajn – best practice
•Najčešće pogreške u razvoju mappinga
•Verzioniranje i deployment mehanizmi
•Development smjernice, predlošci,
specifikacije i frameworks-i
•ETL dizajn pitanja i odgovori
•Tehnike testiranja
•Sažetak petog radnog dana i radionice
22.7.2010
4
UVOD – DWH/BI - osnove
Data warehouse: The conglomeration of an organization’s data warehouse staging and presentation areas, where operational data is specifically structured for query and analysis performance and ease-of-use. - Ralph Kimball
Business intelligence (BI):A generic term to describe leveraging the organization’s internal and external information assets for making better business decisions.- Ralph Kimball
UVOD – DWH/BI - osnove
Data Warehouse (skladište podataka)
glavni repozitorij organizacijskih povijesnih
podataka
kopija transakcijskih podataka optimiziranih za
potrebe izvještavanja i analize poslovanja, bilo da je riječ o internim ili eksternim podacima
Business Intelligence (poslovna inteligencija)
skup metodologija i softverskih alata koji
omogućavaju korištenje podataka iz skladišta
podataka i njihovo pretvaranje u informaciju potrebnu za donošenje poslovnih odluka
22.7.2010
5
UVOD – DWH/BI - osnove
UVOD – DWH/BI - osnove
22.7.2010
6
UVOD – DWH/BI - osnove
UVOD – DWH/BI - osnove
Dimenzijski model:
• Star schema
• Snowflake
22.7.2010
7
UVOD – DWH/BI - osnove
Dimenzijski model - Star shema
Predstavlja mjere dogaĎaja ili poslovnog procesa
• FACT tablice – sadrže mjere
• DIMENZIJE – definiraju kontekst i opisuju objekt
ili dogaĎaj
Cilj star sheme:
• Jednostavno korištenje
• Brži odziv podataka
UVOD – DWH/BI - osnove
Dimenzijski model – Dimenzijska tablica
Karakteristike:
• Definira hijerarhiju
• Denormalizacija – postavljanje svih atributa u
jednu tablicu -> dimenziju
Dimenzijski atributi:
• Report labele (npr. Naziv produkta, adresa
klijenta)
• By i WHERE ključne riječi
• Sadrži svoj jedinstveni ključ
(surrogate key)
22.7.2010
8
UVOD – DWH/BI - osnove
Dimenzijski model – Dimenzijska tablica
Termini:
• Conformed (npr. Date, product, customer)
• Mini dimenzija – brzo rastuća dimenzija
• Slow Changed Dimension SCD (povijest)
• Type 1 – ažuriranje
• Type 2 – novi zapis
• Type 3 – nova kolona
UVOD – DWH/BI - osnove
Dimenzijski model – Fact tablica
Karakteristike:
• Rješava “meny-to-meny” ovisnost izmeĎu
dimenzija
Facts:
• Mjere koje su rezultat nekog procesa
• Numeric (npr. zaliha, saldo računa, ... )
• Garanularnost: definira razinu detalja
• 1 granulacija = 1 Fact tabela
22.7.2010
9
UVOD – DWH/BI - osnove
UVOD – DWH/BI - osnove
Životni ciklus DWH/BI projekta
22.7.2010
10
UVOD – Informatica koncepti
•Data Integration
• Batch precesi
• Real-time procesi
UVOD – Informatica koncepti
•ETL – Extract –> transform -> Load
22.7.2010
11
UVOD – Informatica koncepti
Mapping:
• Logička prezentacije ETL procesa
• Extract: Čita podatke iz izvora (RDBMS, files,
MQ, ERP source,...)
• Transform: primjenjuje transformacijske
procese, sortiranje, grupiranje, računanje,..
• Zapisuje podatke u odredišnu lokaciju
(RDBMS,File, MQ,...)
UVOD – Informatica koncepti
Transformacije:
• Osnovna podjela:
• Aktivne
• Pasivne
22.7.2010
12
UVOD – Informatica koncepti
Transformacije:
• Source Qualifier (SQ)
• Expression (EXP)
• Filter (FIL)
• Sorter (SRT)
• Aggregator (AGG)
• Joiner (JNR)
• Lookup (LKP)
• Update strategy (UPD)
• Router (RTR)
UVOD – Informatica koncepti
Transformacije:
• Transaction control (TC)
• Union (UN)
• Java (JAV)
• Midstream XML parser
• Midstream XML generator
• User Defined Function (UDF)
• Procedures
• ... Source/target specific (SAP, TIBICO,...)
22.7.2010
13
UVOD – Informatica koncepti
Task:
• Session task
• Command task
• Email task
• Decision task
• Timer task
Koristi se u Workflow manageru alatu
UVOD – Informatica koncepti
Workflow:
• Logička definicija toka procesa, tijek
izvršavanja taskova prema definiranim
uvjetima
22.7.2010
14
UVOD – Informatica arhitektura
Logička shema arhitekture:
UVOD – Informatica arhitektura
Logička shema domene:
22.7.2010
15
UVOD – Informatica arhitektura
UVOD – Informatica arhitektura
Klijent aplikacije
• Administration:
• Repository Manager
• Administration console (Web konzola)
• Development:
• Designer
• Workflow Manager
• Workflow Monitor
22.7.2010
16
UVOD – Informatica arhitektura
Designer:
• Source analyzer
• Trager Designer
• Transformation developer
• Mapplet designer
• Mapping designer
UVOD – Informatica arhitektura
Workflow Manager:
• Kreiranje reusable tasks
• Kreiranje workleta
• Kreiranje workflowa
22.7.2010
17
Uobičaj tok razvoja
1. Import i kreiranje izvorišnih definicija (Designer)
2. Import i kreiranje odredišnih definicija (Designer)
3. Kreiranje mappinga (Designer)
4. Kreiranje sessiona (Workflow Manager)
5. Kreiranje workflowa (Workflow Manager)
6. Pokretanje workflowa (Workflow Manager)
7. Nadzor i analiza pokretanih workflowa (Workflow
Monitor)
8. Pregledavanje podataka (Designer)
LAB 1
Lab 1: Upotreba klijentskih alata
• Designer
• Workflow Manager
22.7.2010
18
Transformacije
Ports: Input, output, variable, return, master,
lookup, ...
Redoslijed izvršavanja potova:
1. Svi INPUTportovi
2. Varijable
3. OUTPUT portovi
Pipeline: logička putanja nekog porta
(data flow)
Upotrebljivost: reusable / non-reusable
Aktivnost: pasiv / active
Source Qualifier Transformacija
Tip: Aktivna komponenta
SQ -> Svrha:
• Dohvat podataka iz datoteka i RDBMS
sustava
• Konverzija izvorišnih tipova podataka i
Informatica datatype
• Generiranje SQL upita
• Homogeni join (unutar jednog RDBMS)
22.7.2010
19
Source Qualifier Transformacija
SQ -> Tipovi podataka i konverzija:
• Native tipovi podatka:
• Specifično za RDBMS tipove podataka
• Prikazuje se u source i target tabelama
unutar mappinga/mappleta
• INFA (transformation) tipovi podataka:
• PowerCenter interni tip-ovi podatka
• Prikazuju se unutar transformacija u
mappingu/mapletu
Source Qualifier Transformacija
SQ -> Primjeri native konverzija:
• Numeric -> Integer, decimal, float,...
• Numeric -> String
• Data/time -> Date, String
22.7.2010
20
Source Qualifier Transformacija
Source Qualifier Transformacija
Lab 2-4: Upotreba Source Qualifier
• Pass-Through Mapping,
• Homogeneous Join
• Two Pipeline Mapping
22.7.2010
21
Expression transformacija
Tip: Pasivna Komponenta
EXP-> Opis:
• Modificiranje portova jednog retka
• Dozvoljeno kreiranje dodatnih portova
• Definiranje varijabli
Expression transformacija
EXP-> Svrha: Modifikacija podataka koristeći
logičke i aritmetičke operatore:
• Manipulacija sa karakterima
• Konverzija tipova podataka
• Čišćenje podataka
• Kalkulacija
22.7.2010
22
Expression transformacija
Expression Editor
♦ Editor za unos logičkih izraza
♦ Functions tab – sadrži built-in f(x)
♦ Ports tab – sadrži sve definirane expression portove
♦ Variables tab – sadrži sve varijable
Expression transformacija
Expression Editor
22.7.2010
23
Expression transformacija
Variable portovi
• Ne mogu biti IN i OUT portovi
• Koriste se kao privremeni storage neke vrijednosti
• Vrijedi samo unutar jednog Expression objekta
• Expression varijabla port != Mapping varijabla
Validacija Expresiona
• Parsira trenutni izraz
• Kontrolira reference drugih (susjednih tansf.)
• Provjerava sintaksu
Expression transformacija
Primjer 1:
22.7.2010
24
Expression transformacija
Primjer 2:
Filter transformacija
Tip: Aktivna komponenta
FIL> Opis:
• Prima sve zapise
• UporeĎuje svaki zapis prema definiranom
uvjetu
• Na izlazu se prosljeĎuju zapisi koji
zadovoljavaju uvjet
22.7.2010
25
Filter transformacija
Router transformacija
Tip: Aktivna komponenta
RTR-> Opis:
• Svi portovi INPUT -> OUTPUT
• Potrebno specificirati grupe
• “Filter sa više uvjeta”
22.7.2010
26
Router transformacija
•Uvijek postoji samo jedna INPUT grupa
•Može imati jednu ili više OUTPUT grupa:
• Svaka OUT grupa ima svoj uvjet
• Svaki redak proĎe kroz sve grupe
• Jedan zapis može proći kroz više
grupa
•Nepovezane OUT grupe se ignoriraju
•Default grupa je samo jedna
• Obuhvaća sve zapise koji nisu
zadovoljili niti jedan uvjet
LAB 5
LAB 5: Upotreba:
• Expression, Lookup, Router transformacija
22.7.2010
27
Agenda 1/5
•DWH/BI okruženje
•Uvod u Informatica integracijske koncepte
•IPC Arhitektura i korisničko sučelje
• Lab 1: Upotreba Designer i Workflow Manager alata
•Source Qualifier
• Lab 2-4: Upotreba Source Qualifier - Pass-Through Mapping,
Homogeneous Join i Two Pipeline Mapping
•Expression, Filter, Router transformacije
• LAB 5: Expression, filter i Router
•Sažetak prvog dana
Agenda 2/5
•Designer tehnike I
• Lab 6: Korisne tehnike - Designer
•Tehnike korištenja Join i shortcut objekata
• Lab 7: Upotreba Joiner transformacije
•Lookup objekt i Reusable transformacije
• Lab 8: Upotreba Lookup transformacije
•Debugger
• LAB 9: Upoznavanje sa designer Debugger-om
•Sequence transformacija
• LAB 10: Upotreba Sequence gernerator transformacije
•Sažetak drugog dana