data vault vor- und nachteile

25
Data Vault Torsten Glunde

Upload: torsten-glunde

Post on 22-Jan-2018

853 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Data Vault

Torsten Glunde

Farbenlehre 3NF

Sale

Customer

Employee

ProductVendor

Store

Region

Sale LI

Business Key

Relation

Kontext(historisch)

Farbenlehre Star Schema

Sale

Customer

Employee

Product

Vendor

Store

RegionCustomer

Employee

Product

Vendor

Store

Region

Business Key

Relation

Kontext(historisch)

Farbenlehre Data Vault

Sale

Customer

Employee

Product

Vendor

Store

Region

Link

Link

Link

Business Key

Relation

Kontext(historisch)

Farbenlehre Data Vault

Sale

Customer

Employee

Product

Vendor

Store

Region

Link

Link

Link

Sat

Sat

Sat

Sat

Sat

Sat

Sat

Business Key

Relation

Kontext(historisch)

Farbenlehre Data Vault

Sale

Customer

Employee

Product

Vendor

Store

Region

Link

Link

Link

Sat

Sat

Sat

Sat

Sat

Sat

Sat

Business Key

Relation

Kontext(historisch)

3FolieFolieAWF Arbeitsgemeinschaft “Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner

Einleitung „Push“ und „Pull“

In OutBestand in der Fertigung

Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip)

Bestand in der FertigungIn Out

Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)

Lieferkette Push-Pull Point

Datenlieferungsprozess

I•Single Version of Facts

II•Multiple Versions of Truth

III

• Single Sources

IV

• All Data

MPP

Automatisierungdes DWH mit

DataVault

Enterprise Information ProductsReports

Predictive AnalyticsAdhoc-QueriesDWH Mart

Data LakeInput

ComplicatedSimple

ChaoticAnalytics, Innovations

Data ScienceData Mining

Machine Learning

Alle Daten

Complex

Manuelles ETLBereinigung

Geschäftsregeln

Datenmodell getriebene AutomationIntegration nach Business Key

(fachlich)Historisierung

Moderne DWH Architektur mit Data Vault

I

• Facts

II

• Context

III

• Shadow IT

IV

• Analytics, Research, Prototyping

Raw Vault“Single Version of

Facts”

Business Vault

Source StageReport

Mart“Multiple

Versions of Truth”

Steuerung durch fachlicheModellierung

Ladestrecken - Hub

SELECTDISTINCT

BKErstelle SK

Im Zielvorhanden

?Lookup

INSERT INTO Hub

StageRaw Vault

SELECTDISTINCT

BKWHERE NOT EXISTS IN Hub

Erstelle SKINSERT INTO

Hub

StageRaw Vault

SELECTDISTINCTBK, MD5

WHERE NOT EXISTS IN Hub

INSERT INTO Hub

StageRaw Vault

INSERT INTO HUBSELECT

DISTINCTBK, MD5

WHERE NOT EXISTS IN Hub

StageRaw Vault

Ja

Nein

Ladestrecken - Link

SELECTDISTINCT

Liste der BKs

Erstelle SK

Im Zielvorhanden

?Lookup

INSERT INTO Link

Stage

Raw Vault

Ja

Nein

Lookup SK 1

Lookup SK 2

Lookup SK n

?

?

?

Ladestrecken - Link

SELECTDISTINCT

List der BK

Erstelle SK

Im Zielvorhanden

?Lookup

INSERT INTO Link

Stage

Raw Vault

Ja

Nein

Erstelle SK pro BK

SELECTDISTINCT

List der BK,MD5WHERE NOT EXISTS IN Link Erstelle SK

INSERT INTO Link

StageRaw Vault

Ladestrecken - Satellite

SELECTDISTINCT

BK,Attribute

Erstelle SK

Im Zielvorhanden

?Lookup

INSERT INTO Sat

Stage

Raw Vault

Ja

Nein

Lookup SK

Änderung?

Nein

Ja

End-DatingOpen SatRecords

Raw Vault

Ladeabhängigkeiten

Hubs

Links

Satellites

MD5Alles

parallel ETL oder ELT?

MD5

• Message-digest Algorithm 128-bit (16-byte) oder 32 digit hexadecimal

• Ronald Rivest in 1991• RFC-1321• Collision durch Präparation der Eingabgedateien erzwingbar• Algorithmus zur Berechnung im Data-Vault muss eingehalten

werden!– NULL-Handling– Formate für Zahlen und Datum– Trennzeichen!

• Alternativen: http://en.wikipedia.org/wiki/List_of_hash_functions

Vielen Dank für Ihre Aufmerksamkeit!

Fragen?

tglundeTorsten Glundemailto:t.glunde(at)alligator-company.de

Weitere Netzwerke:

https://www.xing.com/profile/Torsten_Glunde

https://www.linkedin.com/pub/torsten-glunde/8/aba/97

Farbenlehre Data Vault

Sale

Customer

Employee

Product

Vendor

Store

Region

Link

Link

Link

Business Key

Relation

Kontext(historisch)

I

• Facts

II

• Context

III

• Shadow IT

IV

• Analytics, Research, Prototyping

Raw VaultBusiness

VaultSource Stage

Conceptional Data Model

Report

Mart

PDM

LDM

Sync

Sync

Data Flow

Stage Tables

Map 1:1 Map F(x) F(x) Map

Complexe GeschäftsregelnBereinigung, Historisierung und Integration – alles in einem Schritt

Traditionelle DWH Architektur

Staging(EDW)

“Single Version of the Truth”

Source Mart

3NF