Optimale Histogramme Daniel Aigner aigner@mathematik.uni-marburg.de.

Download Optimale Histogramme Daniel Aigner aigner@mathematik.uni-marburg.de.

Post on 05-Apr-2015

102 views

Category:

Documents

0 download

TRANSCRIPT

  • Folie 1
  • Optimale Histogramme Daniel Aigner aigner@mathematik.uni-marburg.de
  • Folie 2
  • 1 Was sind Histogramme? (1) Daten von 1500 Befragten in 6 Balken Was, wenn man das Alter der Befragten in 6 Balken erfassen will? Grenzen einfach bei 15, 30, 45, 60, 75 ziehen?
  • Folie 3
  • 2 Was sind Histogramme? (2) Ein Histogramm fasst einen groen Datensatz zusammen und approximiert diesen. Dabei entstehen Ungenauigkeiten/Fehler. Die Anzahl der Container und die Wahl der Grenzen zwischen den Containern entscheiden ber die Gre des Fehlers. Optimale Histogramme berechnen bedeutet also, die Grenzen zwischen den Containern so aufzuteilen, dass der Fehler minimiert wird.
  • Folie 4
  • 3 Praktische Verwendung von Histogrammen (1) In der Informatik hauptschlich im Bereich der Datenbanken bzw. Anfragenverarbeitung. Kommt eine Anfrage wie Gebe diejenigen Produkte aus, die mehr als 10 kosten, kann mit Hilfe der Histogramme abgeschtzt werden, wie viele Datenstze die Anfrage erfllen. Betrifft eine Anfrage weniger als 10% der gesamten Daten ist es am sinnvollsten, ber eine Indexstruktur auf die Daten zuzugreifen. Werden mehr als 10% abgefragt ist es gnstiger, direkt auf die Datenbank zuzugreifen. 011010110
  • Folie 5
  • 4 Praktische Verwendung von Histogrammen (2) Dieses Verhltnis von den betroffenen Datenstzen zu den gesamten Daten heit die Selektivitt. Selektivitt = #Matches / #Datenbestnde Bei der Anfragenverarbeitung kommt der Typ der V-Optimalen Histogramme zum Einsatz. Erfahrungswerte haben gezeigt, dass fr den Einsatz in Datenbanksystemen besonders gute Abschtzungen liefern. In anderen Einsatzgebieten knnten andere Histogramme bessere Abschtzungen liefern.
  • Folie 6
  • 5 Weitere Eigenschaften von Histogrammen Schn wre es, zu einer Anfrage an ein Histogramm auch eine gute Fehlerschranke angeben zu knnen. Qualitts-Garantien die fr das gesamte Histogramm gelten sind evtl. wichtige Anhaltspunkte fr den Benutzer. Das Histogramm soll mglichst auf den spteren Einsatzzweck hin optimiert werden. (So wie V-Optimale Histogramme fr Datenbanksysteme) Dazu mssen die Informationen ber die sptere Arbeitslast in die Berechnung des Histogramms einflieen knnen.
  • Folie 7
  • 6 Bisherige Algorithmen (1) Es existieren bereits mehrere Algorithmen um Histogramme zu berechnen. Diese sind meistens sehr schnell, dafr aber nicht besonders genau, geschweige denn optimal, liefern also groe Fehler.
  • Folie 8
  • 7 Bisherige Algorithmen (2) MHIST : Eine Greedy Heuristik, die immer den Container mit dem hchsten Fehler aufteilt. MaxDiff : Hierbei werden neue Grenzen immer zwischen die zwei Werte gesetzt, die die grte Differenz aufweisen. EquiDepth : Bei dieser Heuristik wird die Zuteilung so gewhlt, dass die summierten Werte innerhalb eines Containers fr jeden Container mglichst gleich sind. EquiWidth : Die triviale Methode, bei der einfach immer gleich viele Elemente in einen Container kommen.
  • Folie 9
  • 8 Die zwei Anstze Grundstzlich zwei verschiedene Herangehensweisen, um ein optimales Histogramm zu berechnen: Bei einer festen Gre (Anzahl der Container) den Fehler minimieren: Space Bounded Histogram Bei gegebener Fehlerschranke die Anzahl der Container minimieren: Error Bounded Histogram Der zweite Ansatz wird auch als Duales Problem bezeichnet.
  • Folie 10
  • 9 Wichtige Definitionen (1) Ausgehend von einer Relation R mit einem Attribut X: Vektor V = die Menge aller Werte von X die in R auftreten, aufsteigend sortiert. Frequenz f(v) = Anzahl der Elemente t R mit t.X = v Frequenz-Vektor F = {f(v 1 ), f(v 2 ), f(v 3 ), , f(v N )} mit N = |V| = Anzahl der verschiedenen Werte von X Histogramm H: Stellt die Verteilung der Werte von X da. Durch Partitionierung des Frequenz-Vektors F in B disjunkte Intervalle, wobei B

Recommended

View more >