data mining & knowledge discovery · data mining was ist data mining? nach welchen mustern wird...

36
Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II

Upload: others

Post on 30-Aug-2019

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II

Page 2: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Was ist Data Mining?Sabine Queckbörner

Page 3: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

ÜbersichtData Mining

Was ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Was ist Data Mining?

Page 4: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Was ist Data Mining?Data Mining

BegriffsbestimmungAnalyse großer Datenmengen mit automatischen oder halbautomatischen Werkzeugen (Berry, Linoff)Methode zur Problemlösung um logische oder mathematische, zum Teil komplexe Beschreibungen von Mustern und Regelmäßigkeiten in Datensätzen zu entdecken (Decker, Focardy)

Page 5: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Was ist Data Mining?Data Mining

BegriffsbestimmungTeilschritt des KDD-Prozesses, der aus der Anwendung von Datenanalysealgorithmen besteht und zu einer Auflistung von Mustern, die aus Daten gewonnen wurden, führt (Fayyad, Piatetsky-Shapiro und Smyth)

⇒ Data Mining als Anwendung von Algorithmen auf Daten mit der Zielsetzung, Muster aus den Daten zu extrahieren.

Page 6: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Nach welchen Mustern wird gesuchtData Mining

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Page 7: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Nach welchen Mustern wird gesuchtData Mining

Ausprägungen

Regeln und AbhängigkeitenGruppen (Cluster)Verbindungsmuster (Link)Zeitliche Muster (Sequence)AbweichungenFormeln und Gesetzmäßigkeiten

Page 8: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Nach welchen Mustern wird gesuchtData Mining

� Nicht alle gefundenen Muster sind für den Benutzer interessant!

� Nicht alle für den Benutzer relevanten Muster werden gefunden!

Page 9: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Wie wird gesucht?Data Mining

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Page 10: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Wie wird gesucht?Data Mining

Möglichkeiten

Nach mehreren Mustern parallel suchenIn verschiedenen Abstraktionsebenen suchenNach verschiedenen Schwerpunkten

Page 11: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Wie wird gesucht?Data Mining

Methoden

Künstliche neuronale NetzeKohonen-NetzeLineare RegressionGenetische AlgorithmenCHAIDRegelbasierte Systeme

Page 12: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Der KDD-ProzessKDD

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Page 13: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Der KDD-ProzessKDD

Daten Wissen

Prozess zur Identifikation von Mustern

• Gültig

• Neuartig

• Potentiell nützlich

• Verständlich

Page 14: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Der KDD-ProzessKDD

Auswahl

ZieldatenDaten

Page 15: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Der KDD-ProzessKDD

Vorbereitete Daten

Integration Bereinigung

Zieldaten

Page 16: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Der KDD-ProzessKDD

Vorbereitete Daten

ReduktionProjektion

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Transformierte Daten

Page 17: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Der KDD-ProzessKDD

Data Mining

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Transformierte Daten

Muster

Page 18: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Der KDD-ProzessKDD

Interpretation

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Muster Wissen

Page 19: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Data Mining ⇔ KDDKDD

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Page 20: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

KDD

Alle Daten

Wissen

Auswahl

Zieldaten Muster

Data Mining

InterpretationIntegration

Bereinigung

Vorbereitete Daten

Reduktion Projektion

Transformierte Daten

� Data Mining ist ein Teilschritt des KDD-Prozesses

Data Mining ⇔ KDD

Page 21: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

OLAP-FunktionenOLAP

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Page 22: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

OLAP-FunktionenOLAP

Datenwürfel

n Dimensionen ⇔ n Attribute

Beispiel:3 Dimensionen:

⇒ Ort, Zeit, Produkt

Ort

Zeit

Produkt

Page 23: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

OLAP-FunktionenOLAP

Datenwürfel

n Dimensionen ⇔ n Attribute

Wertebereich kontinuierlich ⇔ diskret

Hierarchien ⇒ Abstraktionsebenen

Page 24: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

OLAP-FunktionenOLAP

Hierarchien Beispiel: Hierarchie auf Attribut „Zeit“

Januar 2003 Februar 2003 März 2003 Dezember 2003

1.Quartal 2003 4. Quartal 2003...

2003

Monat

Quartal

Jahr

...

Page 25: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

OLAP-FunktionenOLAP

OLAP-Funktionen

Roll-UpDrill-Down

Januar 2003 Februar 2003 März 2003

1.Quartal 2003

Roll-Up

Drill-Down

Page 26: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

OLAP-FunktionenOLAP

OLAP-Funktionen

Roll-UpDrill-Down

SliceZeit

Ort Produkt

Produkt = Radio

Zeit

Ort

Zeit

Ort Produkt

Ort = KL

Zeit

Produkt

Page 27: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

OLAP-FunktionenOLAP

OLAP-Funktionen

Roll-UpDrill-Down

SliceDice

Zeit

Ort Produkt

Ort = RLPZeit = 4.Quartal

Produkt = Rundfunkgeräte

Zeit

Ort Produkt

Page 28: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

OLAP-FunktionenOLAP

OLAP-Funktionen

Roll-UpDrill-Down

SliceDiceRotate (Pivote)

Page 29: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Data Mining ⇔ OLAPOLAP

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Page 30: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Data Mining ⇔ OLAPOLAP

Rennpferd ⇔ Arbeitspferd

OLAP = ArbeitspferdData Mining = Rennpferd

Page 31: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Data Mining ⇒ OLAPOLAP

Data Mining als Erweiterung des OLAP

Ergebnis sind Zusammenhänge und Muster in den Daten⇒

Ergebnis ist eine andere Darstellungsform der Daten�

Automatische Analyse(computergestützte Algorithmen)⇒

Benutzerinteraktive Analyse(aktive Auswertung der Daten)

Daten können vollkommen unbekannt sein⇒

Daten müssen bekannt sein(Benutzer wählt aus)

Ergebnis steht nicht fest, unbekannte Muster möglich⇒

Ergebnis steht fest (z.B. Bestätigung der Hypothese)

Kein Analyseziel notwendig (kann Hypothesen liefern)⇒

Analyseziel notwendig

(z.B. Hypothese)

Data Mining⇒OLAP

Page 32: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Data Mining ⇐ OLAPOLAP

OLAP Miningintegrierte, konsistente und gesäuberte Daten Anwendung von Data-Mining-AlgorithmenInteraktive Analyse und anschauliche Interpretation wie bei OLAP

OLAP-Mining-Funktionen (Auszug)Cubing then MiningMining then Cubing

Page 33: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Problemfelder des Data MiningProblemfelder

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Page 34: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Problemfelder des Data MiningProblemfelder

Speichergröße • Problem: Daten passen nicht vollständig in den Speicher

• Lösung: Algorithmen, die zum Beispiel in mehreren Durchgängen analysieren

Antwortzeit• Problem: schnellere Analysen gewünscht – kürzere

Antwortzeiten des Systems

• Lösung: parallele Analysetechniken

Vielfalt der Datentypen • Problem: neue Datentypen, Videos ...

BenutzerfreundlichkeitDatenschutz und Sicherheit

Page 35: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

ZusammenfassungWas ist Data Mining?

Data Mining Muster, Verfahren

KDD-ProzessData Mining als Teilschritt des KDD-Prozesses

OLAPDatenmodell, OLAP-Funktionen Data Mining als Erweiterung des OLAP

Problemfelder

Page 36: Data Mining & Knowledge Discovery · Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht? Wie wird gesucht? Knowledge Discovery in Databases (KDD) Der KDD-Prozess Gegenüberstellung

Vielen Dank