talend open studio dq

29
Talend Open Studio DQ Tutorial pro kurz 4IZ562 Ing. David Pejčoch KIZI / FIS VŠE Praha david @ pejcoch.com 2013-05-26

Upload: dpejcoch

Post on 21-Jun-2015

229 views

Category:

Education


7 download

DESCRIPTION

Tutorial for 4iz562 (Data Quality Management) course at UEP

TRANSCRIPT

Page 1: Talend Open Studio DQ

Talend Open Studio DQ

Tutorial pro kurz 4IZ562Ing. David Pejčoch

KIZI / FIS VŠE [email protected]

2013-05-26

Page 2: Talend Open Studio DQ

Příklady používají Common Data

Model pro vertikálu Insurance

publikovaný na www.dataquality.

cz/kbase/

Page 3: Talend Open Studio DQ

Instalace a spuštění

1. Stáhněte zip soubor z webu Talend.com (velikost cca 240 MB)2. Rozzipujte na disk3. Spusťte TOS_DQ-win32-x86.exe4. Při spuštění můžete přeskočit registraci kliknutím na „Register Later“

Page 4: Talend Open Studio DQ
Page 5: Talend Open Studio DQ

Sem se budou otevírat jednotlivé

záložky

Sem se budou ukládat jednotlivé analýzy

Knihovna jednotlivých komponent. Exchange složka představuje sdílené

komponenty v rámci komunity

Nadefinované datové zdroje

Page 6: Talend Open Studio DQ

Integrovaný help „for Dummies“

Help se zobrazuje v záložce v pravé části úvodního okna. Neumožňuje přímé spouštění wizardů, pouze odkazuje na jednotlivé kroky.

Page 7: Talend Open Studio DQ

Vytvoření připojení k databázi

Page 8: Talend Open Studio DQ

Připojení k MySQL

Vyplňte příslušný login, heslo, adresu serveru a název databáze.

Page 9: Talend Open Studio DQ
Page 10: Talend Open Studio DQ

Vytvoření nového validačního pravidla

Page 11: Talend Open Studio DQ
Page 12: Talend Open Studio DQ
Page 13: Talend Open Studio DQ
Page 14: Talend Open Studio DQ
Page 15: Talend Open Studio DQ

Validace pomocí regex

Page 16: Talend Open Studio DQ
Page 17: Talend Open Studio DQ
Page 18: Talend Open Studio DQ
Page 19: Talend Open Studio DQ
Page 20: Talend Open Studio DQ

Analýza frekvencí vzorů

Page 21: Talend Open Studio DQ
Page 22: Talend Open Studio DQ
Page 23: Talend Open Studio DQ

Dotaz nad tabulkou

Page 24: Talend Open Studio DQ
Page 25: Talend Open Studio DQ

Definice uloženého dotazu

Page 26: Talend Open Studio DQ
Page 27: Talend Open Studio DQ

Popis základních funkčních prvků

• Rules = pouze WHERE klauzule• Patterns = vzory pro validaci

– pomocí regulárních výrazů (nástroj obsahuje předpřipravené regulární výrazy v různých složkách podle domén)

– pomocí SQL LIKE klauzule specifické pro různá RDBMS• Source files = SQL příkazy, které lze spustit pomocí Data Expoloreru (v rámci

existujícího připojení na databázi)• Indicators = SQL příkazy s využitím sady předdefinovaných templatů

– Pattern Matching: počet záznamů, které vyhovují regulárnímu výrazu; počet záznamů, které vyhovují SQL LIKE klauzuli

– Pattern Finder = hledání četností vzorů– Soundex: tabulka četností Soundex hodnot– ...

Page 28: Talend Open Studio DQ

Popis funkcionalit v rámci DB Connection

• Na úrovni připojení: porovnání databází, overview analýza (počty tabulek, řádků, indexů v tabulkách)

• Na úrovni databáze: overview analýza• Na úrovni seznamu tabulek: porovnání tabulek• Na úrovni tabulek:

– analýza tabulky pomocí SQL rules, – column analysis (na základě výběru datového typu, vzoru, indikátoru, sloupců

a where podmínky provede analýzu s grafickým výstupem),– pattern frequency analysis (viz. předchozí, ale zkoumá četnosti vzorů; z

výsledků lze vidět záznamy odpovídající jednotlivým vzorům, generovat ze vzorů regulární výrazy)

– preview table (přehodí do módu s konzolí pro SQL)

Page 29: Talend Open Studio DQ

Popis funkcionalit v rámci DB Connection

• Na úrovni sloupce:– Analýza hodnot z množiny sloupců– Analýza korelace mezi sloupci– Analýza kategorií nominální proměnné– Pattern frequency analysis + další viz na úrovni tabulek