datenqualitätsanalysen mit oracle alfred schlaucher, data warehouse architect, oracle
TRANSCRIPT
<Insert Picture Here>
Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle
Themen
• Stichwort: Data Quality
• Vorgehensmodell für Datenqualitätsanalysen
• Exemplarische Analysen Service GmbH
InformationManagementundDataWarehouse
Datenqualität? Was ist das?Unsere Daten sind doch sauber!
• Bis zu 20% der operativen Daten sind betroffen.• Unternehmen finanzieren schlechte Daten mit 30-
50% der IT-Ausgaben.• Über schlechte Daten redet man nicht, man arrangiert
sich.• Eine Umfrage unter 385 Dt. Finanz- und IT-
Spezialisten • < 50% IQ-Ziele bereits erreicht• 82 % glauben Finanzinformationen könnten für Planung und
Strategieentwicklung wesentlich besser genutzt werden • Schlechte Datenqualität zwingt bei den meisten Unternehmen
zu zusätzlichen Berichten und Analysen
Die Kosten der schlechten Daten
Versteckte Kosten durch schlechte Datenqualität
• Manuelles Nacharbeiten von Daten• Beschwerden -> Aufwand in Call Center• Erhöhte Projektkosten bei Einführung neuer Systeme
• Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten
• Verspätete Unternehmensberichte • Verlorene Kunden durch schlechten Support• Produktionsausfälle durch Störung in der
Supply Chain
Ohne Daten kein Business Daten sind der Treibstoff der Prozesse
Operative Prozesse
Information Chain
KundeKunden-betreuer
Logistik- system
Stamm- daten
Marketing
Buch-haltung
Lager Spedition
Kunde
BedarfAdresseKredit-daten
Angebot Bestand
Bestell-daten
KD-Daten
Kredit OK Order
Adresse
Werbung
Verkaufs-daten
Rechnung
Bezahlung Reklamation
Mahnung
Liefer-schein
Aspekte der Datenqualität
Brauchbarkeit der Daten!
Verfügbar (Access)
Aktuell
Korrekt
Vollständig
Redundanzfrei
Dokumentiert
Handhabbar
Nützlich (TCO)
Stimmig
Data Profiling
• Software – gestütztes Erkennen von Anomalien in Datenbeständen(The use of analytical techniques about data for the purpose of developing a thorough knowledge of its content, structure and quality)
• Interaktiver Analyse-Vorgang• Bestandteil von Oracle Warehouse Builder seit 2006
Beispiel: Datenqualitätsproblem
• 5 Millionen Privatkunden-Kontaktdaten• Davon 372112 unterschiedliche Berufe
Wie wertvoll ist diese Art der Information?Kann damit eine Segmentierung für eine
Marketingkampagne gesteuert werden?
• Datenmaterial lässt Rückschlüsse auf dieGeschäftsprozesse zu!
„Top Down“ und „Bottom Up Analysen“ ergänzen sich
• Top Down„Wir wissen und vermuten Dinge die nicht stimmen“
• Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten
• Bottom Up durch Data Profiling„Wir lassen uns überraschen, was da noch kommt“• Wir stöbern in den Daten und
• entdecken Auffälligkeiten• beginnen zu kombinieren • stellen Hypothesen auf• versuchen Zusammenhänge
zu beweisen
Vermutungen verifizieren
Neues entdecken
Data Profiling mit OWBMethoden
Feintuning zu
den Analyse-
methoden
Die
operativen
Daten
Proto-
kollierung
laufende
Analysen
Drill Down zu den operativen Daten
Vorgehensmodell für Datenqualitätsprojekte
Erheben der Grunddaten
Beschreibung der Geschäftsprozesse
Datenmodellprüfungen
Detailanalyse
GeschäftsfelderData Ownern / Daten-Interessenten / KonsumentenDQ-ErwartungenBekannte SchwachstellenKostenPrioritäten
ObjektmodellDatenflüsse und –schnittstellenBekannte Geschäftsregeln
VollständigkeitsbetrachtungBetrachtung der VerständlichkeitSchlüsselanalysen / BeziehungsanalysenAnalyse von HierarchienSuche nach Redundanzen (z. B. Normalisierung)Mengenanalyse / Stammdatenabgleiche
Überprüfen der GeschäftsregelnAnalyse der erkannten SchwachstellenVerifizieren der DQ Erwartungen
DieSERVICE GmbHFallbeispiel
SERVICE GmbH
• Vermittlung von Dienstleistungen für Endkunden rund um das Handwerk
• Handwerksleistung• Darlehen
• Großhandel für Baumärkte und Einzelhandel
• Haushaltswaren• Heimwerker• Gartenbedarf• KFZ-Zubehoer• Elektroartikel
•Bereich Internet-/ Versandhandel
• Computerteile
• Entstand aus Zusammenschluss mehrerer Vertriebsge- sellschaften
• Integration der Stammdaten „mit Hindernissen“
Die SERVICE GmbH
• Unterscheidung• Privatkunden• Firmenkunden
• Kundenkarte• Privatkunden
SERVICE GmbH
Erwartungen aus dem Unternehmen
Vertrieb
ControllingManagement
Marketing Buchhaltung
Vertrieb: wünscht leichtere AuswertungenWas sind wichtige Produkte?Was sind rentable Sparten?Hat sich der Servicebereich gelohnt?
Marketing: Absatzzahlen sind nicht aussagefähigWie viel Kunden gibt es?Lohnt die Kundekarte?Welche Segmentierung gibt es?
Buchhaltung: Es fehlen DatenWarum sind die Spediteursrechnungen so hoch?Sind alle Bestellungen korrekt bezahlt worden?Wie hoch sind die Versandkosten pro Lieferung?Was wurde storniert?
Controlling: Vergleichbarkeit fehlt Was kosten Produkte im Einkauf? Wie teuer wurden Produkte verkauft? Wie rentabel sind einzelne Produkte
Management: Kennzahlen fehlen Wie hoch sind die liquiden Mittel? Wie hoch sind die Außenstände?
Bekannte Schwachstellen
Kosten der DQ-Probleme
Analysemodell: Was wissen wir über den Prozess?
Service GmbH
Produkte
Kunden
verkauft
Lieferanten
Dienst-leistungen
Privat
Firmen
Kunden-karte
Lager
Handwerker
Spediteur
bestellt
beauftragt
liefert aus
holt ab
bietet an
beauftragt bietet an
beliefert
storniert
holtstornierteWare ab
liefert ab
Objektmodell: Welche Geschäftsobjekte sind an dem Prozess beteiligt?
Kunde
Lieferanten
Zahlung
Stornierung
Produkte
Privat-Kunde
Firmen-Kunde
Kunden-Karte
Artikel Service
LagerBestellung
Lieferung
Retouren
Dienst-leister
Partner
Spediteur
Beauf-tragung /
Order
Bewegungsdaten
Stamm-daten
Geschäftsprozess: Bestellungen
Kundendatenprüfen
Kreditlimitprüfen
Verfüg-barkeitprüfen
Dienstleist-ung be-
auftragen
MAX/MINMenge Spediteur
beauftragen
Liefersatzanlegen
Bestellsatzupdaten
Kunden-stamm
Produkte-stamm
Liefer-schein
Vertrag
Kunden-stamm
Status
Bestellunganlegen
offene Posten
BestellungBest_Pos
BestellungBest_Pos
Lieferung
Beschaffung
Bestellprozess
Datenflüsse / Schnittstellen
Kunden-stamm
Bestellung
Discount
ermittlung
Produkte-stamm
Verpackung
Mengen
Preise
Artikeldaten
Zahlung
Stornierung
Leistungen
Beträge
Leistungen
Beträge
Vollständigkeitsanalyse Wichtige Daten fehlen!
Kunde
Lieferanten
Zahlung
Stornierung
Produkte
Privat-Kunde
Firmen-Kunde
Kunden-Karte
Artikel Service
LagerBestellung
Lieferung
Retouren
Dienst-leister
Partner
Spediteur
Beauf-tragung /
Order
Bewegungsdaten
Stamm-daten
Liefernummer fehlt.Identifizierung nur über BestellnummerIdentifizierung nur
über BestellnummerKeine Untergliederung nach Positionen möglich.
Verständlichkeit des Datenmodells(z. B. Homonyme)
Kundenstatus:P: PrivatkundeF: FirmenkundeG: „guter“ KundeK: „kein“ Kunde
Produktstatus:1: Großhandelsware f. Baumärkte2: Produkte kaufbar über Internet3: Serviceleistung (Kredite und Handwerksleistung)
Kunden_Stamm
Produkte_Stamm
Schlüsselanalyse(Eindeutigkeit in den Stammdaten)
Doppelter Datensatz
Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt
Unterschiedliche Sätze, aberFeld wird nicht genutzt
Schlüsselanalyse(Eindeutigkeit in den Bewegungsdaten)
Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?)
Produkte_Stamm Artikel_Gruppe
Child Parent
Kardinalität Waisen
n:1
Hilfsmittel: Referential
Kunden_stamm
Lieferant
Zahlung
Stornierung
Produkte_stamm
LagerBestellung
Lieferung
Best_Position
Artikel_Gruppe
Artikel_Sparte
Artikelgruppennr
Artikelgruppennr
Beziehungsanalyse(Wer hängt an wem? Wer ist isoliert?)
Kunden_stamm
Zahlung
Bestellung
Best_Position
Kundennummer = 12
Bestellnummer = 30
Kundennummer = 12Bestellnummer = 30
Bestellnummer = 30
Kundennummer = 12
Kundennummer = 21
???
Kreisbeziehung(Irgendwann passen die Daten nicht mehr zusammen)
Analyse von Hierarchien
Produkte_Stamm
Artikel_Gruppe
Artikelsparte ARTIKELSPARTENNR1 , 2 ,3
ARTIKELSPARTENNR1,4,3ARTIKELGRUPPENNR1,2,3,4,5,6,11,10,9,8,7
ARTIKELGRUPPENNR100,1,6,2,5,4,7,3,10
Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE
Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE
Vergleich der Wertebereiche von referenzierenden Feldern
Position
Produkte
Gruppen
Sparten
Kunden-Stamm
Bestellung
Falsche Statuskennzeichnungvon Finanzprodukten
Orphans
Fehlerhafte Spartenkennzeichnungvon Gruppen
Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden.
Fehlerhafte Verschlüsselungvon Artikel- und Produkten
DoppelteProduktnummern
Fehlerhafte , nicht rechenbareEinzelpreisbezeichnung
Umsatz pro Sparte?Umsatz pro Gruppe?Umsatz pro Produkt?Werden korrekte
Rechnungen gestellt?Umsatz pro Kunde?Macht die Kundenkarte
Sinn?
Ergebnisse der Hierarchie- und Beziehungsanalyse
BI?
Suche nach redundanten Informationen(1. Normalform)
Kundenstatus:P: PrivatkundeF: FirmenkundeG: „guter“ KundeK: „kein“ Kunde
Kunden_Stamm
Folge:Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar.(Z. B. Abfragen über die Wirkung der Kundenkarte.
Hilfsmittel: Domainanalyse
Suche nach redundanten Informationen(2. Normalform)
Hilfsmittel: Beziehungsanalyse
Functional DependencyAbhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %
Suche nach redundanten Informationen(3. Normalform)
Hilfsmittel: Beziehungsanalyse
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %
Prüfung der aufgestellten Geschäftsregeln
Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit
Korrekt, muß 0 sein
Korrekt:Es kann nur einWert gepflegt sein.
Korrekt, muß 0 sein
Korrekt, das sind richtige Werte
Korrekt, muß 0 sein
Korrekt: Zusammen 100%(Alle Fälle erfasst)
Problem:kein Schlüsselfeldist gepflegt
Korrekt, das sind die richtigen Werte
Korrekt, muß 0 sein
Korrekt
Korrekt:Zusammen100%.(Alle Fälle erfasst)
Problem
Korrekt, muß 0 sein
Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit
StammdatenbetrachtungIn einigen Fällen fehlen die Einkaufpreise
?
Nicht normiertes DatenmaterialMit solchen Daten kann man nicht rechnen
Hilfsmittel: Pattern-Analyse