preview of “01 introduction” - db.inf.uni-tuebingen.de · deÞnition eines data warehouse nach...
TRANSCRIPT
Data Warehouses
Sommersemester 2011
Melanie [email protected]
Lehrstuhl für Datenbanksysteme, Universität Tübingen
Kapitel 1Einführung
2
• Vorstellung
• Organisatorisches
• Data Warehouses
• Ausblick auf das Semester
Credit: Michael Marcolhttp://www.freedigitalphotos.net/images/view_photog.php?photogid=371
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Willkommen!
Aufgewachsen in Bayern & Lothringen
2000 - 2003Studium an der Berufsakademie StuttgartInformation Technology
2003 - 2007Wissenschaftliche Mitarbeiterin an der HU Berlin und am HPI PotsdamDatenqualität & Datenintegration
2007 Promotionsverteidigung
2008 - 2009Post-Doc am IBM Almaden Research Center, KalifornienDatenherkunft
seit 06/2009Wissenschaftliche Mitarbeiterin an der Uni Tübingen“Debugging” von Anfragen mit Nautilus
Zu meiner Person...
Melanie Herschel
Tel +49 7071 29-75481
Email melanie.herschel@uni - tuebingen.de
Web ht tp://www-db.informatik .uni - tuebingen.de/team/herschel
3
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Willkommen
... und jetzt sind Sie dran.
Master vs. Diplom?
Studiengang: Informatik, andere?
Vorwissen DBS1, DBS2,
andere DB-Vorlesungen?
Einheimisch oder zugezogen?
4
Welches Semester?
Ihre Motivation?
Kapitel 1Einführung
5
• Vorstellung
• Organisatorisches
• Data Warehouses
• Ausblick auf das Semester
Credit: Michael Marcolhttp://www.freedigitalphotos.net/images/view_photog.php?photogid=371
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Wann? Wo?
jeden Donnerstag, 10:15 - 11:45 Uhr Sand 13, A104
ca. jeden 2. Freitag, 10:15 - 11:45 Uhr Sand 13, A104Sand C118 am 10.6.
Termine & Vorlesungsmaterial
6
ÜbungWann? Wo?
ca. jeden 2. Freitag, 10:15 - 11:45 Uhr Sand 13, A104
Übungstermine: 5.5., 19.5., 3.6., 30.6., 21.7.
http://www-db.informatik.uni-tuebingen.de/teaching/ss11/dwHier werden die Folien und aktuelle News zur Vorlesung bereitgestellt.
Vorlesungstermine: 15.4., 21.4., 6.5., 12.5., 13.5., 20.5., 26.5., 27.5., 27.5., 9.6.,10.6., 24.6., 1.7., 7.7., 8.7., 14.7., 15.7.
Vorlesung
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
OrganisatorischesVoraussetzungen
Mindestvoraussetzung: Datenbanken I
• Relationenmodell
• ER-Modellierung
• SQL
Von Vorteil: Datenbanken II
• Anfrageübersetzung von Joins
• Grundzüge der Anfrageoptimierung
7
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
OrganisatorischesLeistungserfassung
Klausur / Prüfung
• Je nach Teilnehmerzahl am 22. Juli 2011
• Klausur
• 90 minütige Klausur, die um 10:15 Uhr beginnt
• Es sind keine Hilfsmittel erlaubt.
• Mündliche Prüfung: 30 Minuten, Termin nach Vereinbarung
Übung
• Die Übung besteht aus fünf Übungsblättern.
• Sie dürfen und sollten die Aufgaben in Zweier-Gruppen bearbeiten.
• Spätester Abgabetermin (nur schriftliche Abgabe!) ist jeweils der Tag vor dem Besprechungstermin, 13 Uhr
8
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Zu diesen Folien...
9
Code snippet
DefinitionQuizzies
Hier lohnt es sich, mitzuschreiben!
Beispiel
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
•Andreas Bauer und Holger Günzel.Data Warehouse Systeme. dpunkt Verlag.
•Wolfgang Lehner.Datenbanktechnologie für Data-Warehouse-Systeme
•Christian S. Jensen, Torben Bach Pedersen und Christian Thomsen. Multidimensional Databases andData Warehousing. Synthesis Lecture on Data Management, Morgan & Claypool.
•Jeweils Literaturhinweise in der Vorlesung
Literatur
10
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Fragen & Feedback
• Fragen bitte jederzeit!
• Während der Vorlesung
• Email, Telephon
• Feedback und Anregungen sind Willkommen!
• Folien
• Informationen im Web
• ...
• Sprechstunde nach Vereinbarung
11
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Lehrstuhl für Datenbansysteme, Uni Tübingen
12
Pathfinder
Ferry Nautilus
Habitat
Kapitel 1Einführung
13
• Vorstellung
• Organisatorisches
• Data Warehouses
• Ausblick auf das Semester
Credit: Michael Marcolhttp://www.freedigitalphotos.net/images/view_photog.php?photogid=371
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Data Warehouse Einsatzgebiete
• Risikomanagement bei Versicherungen
• Marktforschung bei WalMart und Co. über alle Filialen
• Konzernmonitoring von ERP-Prozessen in Pharma-Unternehmen
• Customer Relationship Management bei Amazon und Partnershops
• Weltweite Logistik bei DHL
• Analyse weltweit gewonnener wissenschaftlicher Daten
• ...
Wesentliche Eigenschaften
! Integration mehrerer Datenquellen, um eine globale Sicht zu erhalten.
!Analyse großer Datenmengen
14
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Definition eines Data Warehouse
• subject oriented: für bestimmte Entitätentypen zugeschnitten, z.B. Verkäufe, Produkte, Läden.
• integrated: die Daten im Data Warehouse stammen i.d.R. aus verschiedenen Quelldatenbanken, z.B., aus mehreren Verlagskatalogen, Lagerbeständen einzelner Lager, Einnahmen einzelner Läden, usw.
• time-variant: Data Warehouse zeigt die zeitliche Evolution der betrachteten Entitäten.
• non-volatile: Daten werden nicht gelöscht oder nachträglich geändert, Änderungen im Datenbestand sind allein auf das Laden neuer Daten zurückzuführen.
• support decision making: nur wichtige Daten für solche Entscheidungen speichern.
15
Definition eines Data Warehouse nach William H. Inmon
A data warehouse is a subject oriented, integrated, time variant, non-volatile collection of data in support of management’s decision making process.[Inmon92]
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Motivation für ein Data WarehouseAnwendungsfall
! Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen
! Daten werden oft aktualisiert
! Jede Bestellung einzeln
! Katalogupdates täglich
!Management benötigt Entscheidungshilfen (decision support)
! Komplexe Anfragen
Quelle: Ulf Leser, VL Data Warehouses16
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
BackupDurchsatzLoad-balancing
PortfolioUmsatzWerbung
Quelle: Ulf Leser, VL Data Warehouses
Zielkonflikt
SQL
17
Motivation für ein Data WarehouseAnwendungsfall - Bücher im Internet bestellen
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
OrderOrder_idbook_idamount
single_price
OrdersId
Day_idCustomer_idTotal_amt
DayIdday
month_id
MonthId
Monthyear_id
Yearid
year
Customerid
name
Bookid
Book_group_id
Bookgroupid
name
Quelle: Ulf Leser, VL Data Warehouses18
Motivation für ein Data WarehouseAnwendungsfall - Die Datenbank dazu
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Wie viele abgeschlossene Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen?
OrderOrder_idbook_idamount
single_price
OrdersId
Day_idCustomer_idTotal_amt
DayIdday
month_id
MonthId
Monthyear_id
Yearid
year
Customerid
name
Bookid
Book_group_id
Bookgroupid
name
Quelle: Ulf Leser, VL Data Warehouses19
Motivation für ein Data WarehouseAnwendungsfall - Fragen eines Marketingleiters
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
SQL Anfrage des Marketingleiters
SELECT! Y.year, BG.name, count(B.id)FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BGWHERE! M.year = Y.id and! M.id = D.month and! O.day_id = D.id and! OS.order_id = O.id and! B.id = O.book_id and! B.book_group_id = BG.id and! day < 24 and month = 12GROUP BY Y.year, PG.product_nameORDER BY Y.year
Quelle: Ulf Leser, VL Data Warehouses
6 Joins
Year: ! 10 Records Month: ! 120 Records Day: ! 3650 Records Orders:! 36.000.000 Order:! 72.000.000 Books: ! 200.000 Bookgroups:! 100
Problem! Schwierig zu optimieren (Join-Reihenfolge) Je nach Ausführungsplan riesige Zwischenergebnisse Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse
20
Motivation für ein Data WarehouseAnwendungsfall - Technisch
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Es gibt noch:
! Amazon.de
! Amazon.fr
! Amazon.it
! ...
Verteilte Ausführung
! Count über Union mehrerer gleicher Anfragen in unterschiedlichen Datenbanken?
Quelle: Ulf Leser, VL Data Warehouses21
Motivation für ein Data WarehouseAnwendungsfall - In Wahrheit...
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Quelle: Ulf Leser, VL Data Warehouses22
Motivation für ein Data WarehouseAnwendungsfall - In Wahrheit...
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Sichtdefinition
CREATE VIEW christmas AS
! SELECT ! Y.year, PG.name, count(B.id)FROM! ! DE.year Y, DE.month M, DE.day D, DE.order O, ... WHERE ! M.year = Y.id and...GROUP BY!Y.year, PG.product_nameORDER BY ! Y.year
UNION
! SELECT ! Y.year, PG.name, count(B.id)FROM!! EN.year Y, EN.month M, EN.day D, DE.order O, ...WHERE! M.year = Y.id and...
Verwendung der Sicht in einer SQL Anfrage
SELECT ! year, name, count(B.id)FROM! ! christmasGROUP BY! year, nameORDER BY! year!
Quelle: Ulf Leser, VL Data Warehouses23
Motivation für ein Data WarehouseAnwendungsfall - Technisch eine Sicht (View)
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Frage 1: Count über Union über verteilte Datenbanken?
! Heterogenitätsproblem
• Quellen werden Schemata verändern
• Länderspezifischer Eigenheiten (MWST, Versandkosten, Sonderaktionen, ...)
• Oftmals verborgene Änderungen in der Semantik der Daten
Frage 2: Berechnung riesiger Zwischenergebnisse bei jeder Anfrage?
! Datenmengenproblem
• Transport großer Datenmengen durchs Netz
• Historische Sicht -Datenmengen wachsen immer weiter
• Operative Systeme brauchen die historischen Daten nicht" Ziel: Frühes löschen (abgeschlossene Bestellungen)
• Manager brauchen viele der operativen Daten nicht" Ziel: Alles aufheben
Quelle: Ulf Leser, VL Data Warehouses24
Motivation für ein Data WarehouseAnwendungsfall - Probleme
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Quelle: Ulf Leser, VL Data Warehouses25
Zentrale Datenbank
Probleme:
! Zweigstellen schreiben übers Netz
! Lange Antwortzeiten im operativen Betrieb
! Datenmengenproblem bleibt
Motivation für ein Data WarehouseAnwendungsfall - Lösung Heterogenitätsproblem?
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Quelle: Ulf Leser, VL Data Warehouses26
Probleme:
! Schnelle lokale Anfragen
! Lange Antwortzeiten für strategische Anfragen
! Heterogenitätsproblem bleibt
UK FR DE
Motivation für ein Data WarehouseAnwendungsfall - Lösung Anfragezeit?
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
Quelle: Ulf Leser, VL Data Warehouses27
Probleme:
! Lokale Anfrage arbeiten auf riesigen Tabellen
! Verzögerung im operativen Betrieb
! Lange Antwortzeiten für strategische Anfragen
A AReplikation Replikation A
Motivation für ein Data WarehouseAnwendungsfall - Lösung Datenmengenproblem?
Datenintegration & Datenherkunft | WS2010/11 | Melanie Herschel | Universität Tübingen
! Redundante Datenhaltung
! Transformierte und Selektierte Daten
! Spezielle Modellierung
! Asynchrone Aktualisierung
Aufbau eines Data Warehouse
Quelle: Ulf Leser, VL Data Warehouses28
Motivation für ein Data WarehouseAnwendungsfall - Tatsächliche Lösung
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
AnwendertypInteraktionsdauer
und -typ AnfragestrukturBereich einer
AnfrageAnzahl gleichzeitiger
Zugriffe Anwenderzahl
Sachbearbeiter kurze Transaktionen (echtzeit bis wenige Sekunden)
Insert, Update, Delete
einfach strukturiert
wenige Datensätze (überwiegend Einzeltupelzugriffe)
sehr viele (Tausende) sehr viele
Manager, Controller, Analyst
Analyse-Anfragen (Minuten)
Lesen, periodisches Hinzufügen
komplex, jedoch überwiegend bestimmten Mustern folgend
viele Datensätze (überwiegend Bereichsanfragen)
wenige(Hunderte)
wenige, bis einige hundert
Operative Datenbanken vs. Data Warehouses Perspektive der Anwendung
29
OperativeDatenbank
Data Warehouse
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Operative Datenbanken vs. Data Warehouses Perspektive der Datenhaltung
30
OperativeDatenbank
Data Warehouse
Datenquellen SchemaentwurfEigenschaften des
Datenbestands DatenvolumenTypische
Antwortzeit Verfügbarkeit
zentraler Datenbestand
anfrageneutrale Datenmodellierung (3NF)
originärzeitaktuellautonomdynamisch
Megabyte - Gigabyte
ms - s Hochverfügbar(Ausfall kostet Millionen!)
mehrere unabhängige Datenquellen
analysebezogene Datenmodellierung
abgeleitet/konsolidierthistorisiertintegriertstabilteilweise (vor-)aggregiert
Gigabyte - Terabyte
s - min Ausfall ärgerlich, aber nicht kritisch
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Operative Datenbanken vs. Data Warehouses Technische Sicht
31
OperativeDatenbank
Data Warehouse
• ANSI-SPARC 3-Schichtenarchitektur
• Geeignet für Daten aus einer Datenquelle ! keine Heterogenität
• Data Warehouse integriert Daten aus mehreren Datenquellen.
• Datenquellen üblicherweise heterogen (im Schema, z.B.Name vs. Nachname, in den Daten, z.B. 06.1. vs. 01/06, ...)
• Architketur zur Integration verschiedener Datenquellen
• Details siehe Kapitel 2
Architektur
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Europe
North America
Operative Datenbanken vs. Data Warehouses Technische Sicht
32
OperativeDatenbank
Data Warehouse
• Vermeidung von Redundanz / Anomalien
• Schema in 3NF
• Schema unabhängig von der Art der Anfragen entworfen
• Modellierung von Dimensionen und Fakten, basierend auf geplante analytische Anfragen
• Redundanz möglich bzw. erwünscht
• Multidimensionales Modell (Star-Schema, Snowflake-Schema)
• Details siehe Kapitel 3
Schema
Produktgruppe
Region
Jahr
Asia
...
2002
2003
2004
2005
2006
2007
Books CDs DVDs ...
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Europe
North America
Operative Datenbanken vs. Data Warehouses Technische Sicht
33
OperativeDatenbank
Data Warehouse
• Transaktionale Anfragen
• Insert, Update, Delete, Select
• Anfragen über einzelne / wenige Tupel
• Anfrageoptimierung siehe VL Datenbanken II
• Analytische Anfragen
• Bulk-Insert und Select
• Typische Anfragetypen (drill down, slice, dice, ...)
• Spezialisierte Optimierungsverfahren
• Details siehe Kapitel 3 und 4
Anfragen
Produktgruppe
Region
Jahr
Asia
...
2002
2003
2004
2005
2006
2007
Books CDs DVDs ...
UPDATE OrderSET amount = amount + 1WHERE OrderID = 1 AND BookID = 204
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Extract-Transform-Load (ETL) Prozess
34
Datenübertragung in das Data Warehouse?
! Extrahiere relevante Daten aus den Quellen.
! Transformiere die extrahierten Daten in das Schema des Data Warehouse.
! Lade die transformierten Daten in das Data Warehouse.
! Siehe Kapitel 5 (Hauptfokus auf Datenqualität, die während der Transformationsphase gewährleistet wird).
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Data Warehouse Systeme und Tools
35
! Diverse Data Warehouse Lösungen auf dem Markt
! Siehe Kapitel 6
! Gastvortrag Dr. Jens Bleihoder, OPITZ Consulting GmbH
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Entwicklungsprozess eines Data Warhouse
36
! Integration mehrerer, oft autonomer Datenquellen erfordert folgende Maßnahmen:
! Einbindung / Mitwirkung der Fachabteilungen
! Durchsetzen eines Qualitätsanspruchs
! Gemeinsames Sprachverständnis
! Nachvollziehbarkeit
! Vom Produkt- zum Prozess-Gedanken
Kapitel 1Einführung
37
• Vorstellung
• Organisatorisches
• Data Warehouses
• Ausblick auf das Semester
Credit: Michael Marcolhttp://www.freedigitalphotos.net/images/view_photog.php?photogid=371
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Inhalte der Vorlesung
Einführung
• Definition Data Warehouse
• Motivation für ein Data Warehouse
• Unterschied zu einer operativen Datenbank
Architektur von Data Warehouse Systemen
• Bestandteile eines Data Warehouse Systems
• Konfigurationen
• Ermöglichung der Integration
Datenmodellierung
• Multidimensionale Modellierung (Dimensionen, Fakten, Datenwürfel)
• Umsetzung des Datenmodells (relationale Abbildung, Star-Schema, SQL Operatoren, ...)
38
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Inhalte der Vorlesung
Anfrageverarbeitung und Optimierung
• Indexstrukturen
• Optimierung von Star-Joins
• Materialisierte Sichten
• Partitionierung
Datenreinigung
• ETL und Datenreinigung
• Typische Datenfehler
• Beheben von Datenfehlern durch Data Scrubbing, Dublettenerkennung, Datenfusion
ETL-Werkzeuge und Anwendungsfälle39
Data Warehouses | SS 2011 | Melanie Herschel | Universität Tübingen
Fragen?
• Zum Inhalt der Vorlesung?
• Zur Leistungserfassung?
• Zum Ablauf?
• ...
40