dichtebasiertes clustering - dbs.ifi.lmu.de · database systems group dichtebasiertes clustering...
TRANSCRIPT
![Page 1: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/1.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
GrundlagenIdee• Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte
dicht beieinander liegen
• getrennt durch Gebiete, in denen die Objekte weniger dicht liegen
Zentrale Annahmen
• für jedes Objekt eines Clusters überschreitet die lokale Punktdichteeinen gegebenen Grenzwert
• die Menge von Objekten, die den Cluster ausmacht, ist räumlichzusammenhängend
Knowledge Discovery in Databases I: Clustering 43
![Page 2: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/2.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Intuition(nach: [Kriegel, Kröger, Sander, Zimek 2011])
• Partitionierend: approximiere unterschiedliche Dichtefunktionen
• „parametrisch“
• Dichte-basiert: unabhängig von zugrundeliegender Dichtefunktion: selektiere Bereiche, die mit Mindest-Dichte verbunden sind
• „nicht-parametrisch“
Knowledge Discovery in Databases I: Clustering 44
![Page 3: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/3.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Intuitionhohes Dichte-Niveau: Cluster geringer Dichte gilt als Noise
Knowledge Discovery in Databases I: Clustering 45
![Page 4: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/4.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Intuitionmittleres Dichte-Niveau: Identifikation von drei Clustern, einige Punkte in den Ausläufern der Verteilungen werden zu Noise
Knowledge Discovery in Databases I: Clustering 46
![Page 5: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/5.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Intuitiongeringes Dichte-Niveau: zwei Cluster verschmelzen
Knowledge Discovery in Databases I: Clustering 47
![Page 6: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/6.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
IntuitionPartitionierend: OptimierungsproblemDichte-basiert: „natürliche“ Strukturen (oft: geographisch/
topographisch, oder biologisch)Beispiel: Höhenprofil (Vulkan Mt. Eden, Auckland)
Knowledge Discovery in Databases I: Clustering 48
![Page 7: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/7.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
IntuitionBeispiel: Iris-Arten – innerhalb
einer Art gewisse Bandbreite, aber keine Sprünge
Knowledge Discovery in Databases I: Clustering 49
![Page 8: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/8.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Idee zur effizienten Suche
MinPts = 4ε
Parameter ε ∈ ℜ und MinPts ∈ N spezifizieren Dichtegrenzwert
Knowledge Discovery in Databases I: Clustering 50
![Page 9: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/9.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
MinPts = 4ε
Parameter ε ∈ ℜ und MinPts ∈ N spezifizieren Dichtegrenzwert
• Kernpunkt
Idee zur effizienten Suche
Knowledge Discovery in Databases I: Clustering 51
![Page 10: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/10.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
MinPts = 4ε
• Kernpunkt
• Direkte Dichte-Erreichbarkeit
Parameter ε ∈ ℜ und MinPts ∈ N spezifizieren Dichtegrenzwert
Idee zur effizienten Suche
Knowledge Discovery in Databases I: Clustering 52
![Page 11: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/11.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
MinPts = 4ε
• Kernpunkt
• Direkte Dichte-Erreichbarkeit
• Dichte-Erreichbarkeit
Parameter ε ∈ ℜ und MinPts ∈ N spezifizieren Dichtegrenzwert
Idee zur effizienten Suche
Knowledge Discovery in Databases I: Clustering 53
![Page 12: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/12.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
MinPts = 4ε
• Kernpunkt
• Direkte Dichte-Erreichbarkeit
• Dichte-Erreichbarkeit
• Dichte-Verbundenheit
Parameter ε ∈ ℜ und MinPts ∈ N spezifizieren Dichtegrenzwert
Idee zur effizienten Suche
Knowledge Discovery in Databases I: Clustering 54
![Page 13: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/13.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Formalisierung [Ester, Kriegel, Sander & Xu 1996]
• Ein Objekt p ∈ DB heißt Kernobjekt, wenn gilt: |RQ(p,ε)| ≥ MinPtsRQ(p,ε) = {o ∈ DB | dist(p,o) <= ε}
• Ein Objekt q ∈ DB ist direkt dichte-erreichbarvon p ∈ DB bzgl. ε und MinPts, wenn gilt:q ∈ RQ(p,ε) und p ist ein Kernobjekt in DB.
• Ein Objekt p ist dichte-erreichbar von q,wenn es eine Kette von direkt erreichbarenObjekten von q nach p gibt.
• Zwei Objekte p und q sind dichte-verbunden,wenn sie beide von einem dritten Objekt oaus dichte-erreichbar sind.
pMinPts=4
op
q
p
qo
Knowledge Discovery in Databases I: Clustering 55
![Page 14: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/14.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Formalisierung
Ein (dichtebasierter) Cluster C bzgl. ε und MinPts ist eine nicht-leere Teilmenge von DB für die die folgenden Bedingungen erfüllt sind:
Maximalität: ∀p,q ∈ DB: wenn p ∈ C und q dichte-erreichbar von p ist, dann ist auch q ∈C.
Verbundenheit: ∀p,q ∈ C: p ist dichte-verbunden mit q.
Knowledge Discovery in Databases I: Clustering 56
![Page 15: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/15.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
FormalisierungDefinition Clustering
Ein dichtebasiertes Clustering CL der Menge DB bzgl. ε und MinPts isteine „vollständige“ Menge von dichtebasierten Clustern bzgl. ε undMinPts in DB.
Definition NoiseDie Menge NoiseCL („Rauschen“) ist definiert als die Menge aller Objekte aus DB, die nicht zu einem der dichtebasierten Cluster C∈CL gehören.
Grundlegende EigenschaftSei C ein dichtebasierter Cluster und sei p ∈ C ein Kernobjekt. Dann gilt:
C = {o ∈ DB | o dichte-erreichbar von p bzgl. ε und MinPts}.
=> ermöglicht effiziente Suche (WARUM?)
Achtung: Cluster enthält nicht notwendigerweise nur Kernpunkte
Knowledge Discovery in Databases I: Clustering 57
![Page 16: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/16.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Algorithmus DBSCAN
DBSCAN(Punktmenge DB, Real ε, Integer MinPts)// Zu Beginn sind alle Objekte unklassifiziert,
// o.ClId = UNKLASSIFIZIERT für alle o ∈ DB
ClusterId := nextId(NOISE);
for i from 1 to |DB| doObjekt := DB.get(i);
if Objekt.ClId = UNKLASSIFIZIERT thenif ExpandiereCluster(DB, Objekt, ClusterId, ε, MinPts) then ClusterId:=nextId(ClusterId);
Knowledge Discovery in Databases I: Clustering 58
![Page 17: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/17.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
ExpandiereCluster(DB, StartObjekt, ClusterId, ε, MinPts): Booleanseeds:= RQ(StartObjekt, ε);if |seeds| < MinPts then // StartObjekt ist kein KernobjektStartObjekt.ClId := NOISE;return false;
// sonst: StartObjekt ist ein Kernobjektforall o ∈ seeds do o.ClId := ClusterId;entferne StartObjekt aus seeds;while seeds ≠ Empty dowähle ein Objekt o aus der Menge seeds;Nachbarschaft := RQ(o, ε);if |Nachbarschaft| ≥ MinPts then // o ist ein Kernobjekt
for i from 1 to |Nachbarschaft| dop := Nachbarschaft.get(i);if p.ClId in {UNCLASSIFIED, NOISE} then
if p.ClId = UNCLASSIFIED thenfüge p zur Menge seeds hinzu;
p.ClId := ClusterId;entferne o aus der Menge seeds;
return true;
Knowledge Discovery in Databases I: Clustering 59
![Page 18: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/18.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Parameterbestimmung
Cluster: Dichte größer als die durch ε und MinPts spezifizierte „Grenzdichte“
Gesucht: der am wenigsten dichte Cluster in der Datenmenge
Heuristische Methode: betrachte die Distanzen zum k-nächsten Nachbarn.
Funktion k-Distanz: Distanz eines Objekts zu seinem k-nächsten Nachbarn
k-Distanz-Diagramm: die k-Distanzen aller Objekte absteigend sortiert
p
q
3-Distanz(p)
3-Distanz(q)
Knowledge Discovery in Databases I: Clustering 60
![Page 19: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/19.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Parameterbestimmung
Beispiel eines k-Distanz-Diagramms
Heuristische Methode
• Benutzer gibt einen Wert für k vor (Default ist k = 2*d - 1),MinPts := k+1.
• System berechnet das k-Distanz-Diagramm und zeigt das Diagramm an.• Der Benutzer wählt ein Objekt o im k-Distanz-Diagramm als Grenzobjekt
aus, ε := k-Distanz(o).
3-D
ista
nz
Objekte
Grenzobjekt o
erstes „Knie“
Knowledge Discovery in Databases I: Clustering 61
![Page 20: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/20.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Probleme der Parameterbestimmung
• hierarchische Cluster• stark unterschiedliche Dichte in verschiedenen Bereichen des Raumes• Cluster und Rauschen sind nicht gut getrennt
A
B
C
D
E
D’
F
G
B’ D1D2
G1
G2
G3 3-D
ista
nz
Objekte
A, B, C
B‘, D‘, F, G
B, D, E
D1, D2,G1, G2, G3
Knowledge Discovery in Databases I: Clustering 62
![Page 21: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/21.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Shared Nearest Neighbor (SNN) Clustering• DBSCAN
• Erkennt Cluster unterschiedlicher Form und Größe
• Hat Probleme bei Clustern mit unterschiedlicher Dichte
• Verbesserung: anderer Ähnlichkeitsbegriff• Ähnlichkeit zwischen zwei Objekten, wenn sie beide sehr nahe zu
einer Referenzmenge R sind
• Ähnlichkeit wird durch die Referenzmenge R “bestätigt”
• Ähnlichkeit z.B. durch die Anzahl gemeinsamer nächster Nachbarn definieren (d.h. R ist die Menge der nächsten Nachbarn)
• Shared Nearest Neighbor (SNN) Ähnlichkeit:• SNNk-similarity(p,q) = |NN(p, k) ∩ NN(q, k)|• NN(o, k) = Menge der k-nächsten Nachbarn von o
k = 6
SNN6-similarity( , ) = 4
SNN6-similarity( , ) = 0
Knowledge Discovery in Databases I: Clustering 63
![Page 22: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/22.jpg)
DATABASESYSTEMSGROUP
Studie: Stabilität von SNN [Houle, Kriegel, Kröger, Schubert, Zimek 2010]Experiment: Jedes Datenbankobjekt wird einmal als Anfrageobjekt verwendet, Nachbar-
schaftsranking: Area under curve (AUC) of the Receiver Operating Characteristic (ROC)
eine Anfrage (Nachbarn gleicher vs. anderer Cluster)
Dichtebasiertes Clustering
false positive
true
pos
itive
Area under Curve
Durchschnitt aller Anfragen
L2
Knowledge Discovery in Databases I: Clustering 64
![Page 23: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/23.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
SNN basierend auf Euklidischer Distanz, künstliche Datensätze, alle Attribute relevant, 20/40/80/160/320/640 Dimensionen
Knowledge Discovery in Databases I: Clustering 65
![Page 24: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/24.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Verteilungen Euklidischer DistanzM
ultip
le F
eatu
res
Mul
tiple
Fea
ture
s (p
ixel
onl
y)
Opt
ical
Dig
its
ALO
I
Knowledge Discovery in Databases I: Clustering 66
![Page 25: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/25.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Verteilungen SNN DistanzM
ultip
le F
eatu
res
Mul
tiple
Fea
ture
s (p
ixel
onl
y)
Opt
ical
Dig
its
ALO
I
Knowledge Discovery in Databases I: Clustering 67
![Page 26: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/26.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Ranking-Qualität
mehr Ergebnisse auf:
http://www.dbs.ifi.lmu.de/research/SNN/Knowledge Discovery in Databases I: Clustering 68
![Page 27: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/27.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Einfaches SNN-Clustering [Jarvis, Patrick 73]:
1.Berechnung der Ähnlichkeitsmatrix und des Ähnlichkeitsgraphen• für alle Objekt-Paare p,q∈DB: berechne SNNk-similarity(p,q)• SNNk-Ähnlichkeitsgraph:
– Knoten = Objekte
– Kante zwischen jedem Objektpaar p,q mit Gewicht SNNk-similarity(p,q)
• Keine Kanten mit Gewicht 0
2.Generiere Cluster• Lösche alle Kanten, deren Gewicht unterhalb eines Grenzwerts τ
liegen
• Cluster = verbundene Komponenten im resultierenden Graphen
⇒
Datensatz SNN Ähnlichkeitsgraph Generiere Cluster
⇒
Knowledge Discovery in Databases I: Clustering 69
![Page 28: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/28.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Problem:• Threshold τ schwer zu bestimmen• kleine Variationen führen zu stark unterschiedlichen Ergebnissen
Lösung [Ertöz, Steinbach, Kumar 03]• Kombiniere SNN-Ähnlichkeit mit dichtebasierten Konzepten• SNN-Dichte:
Anzahl der Punkte innerhalb eines spezifizierten Radius ε bzgl. SNN-Ähnlichkeit
SNNk-density(p,ε) = |{q | SNNk-similarity(p,q) ≥ ε}|
Bild aus:
[Ertöz, Steinbach, Kumar 03]
Knowledge Discovery in Databases I: Clustering 70
![Page 29: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/29.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
SNN-Dichte• Beispiel:
• 10 000 Daten (Bild (a))k = 50, ε = 20
• Bild (b): “Kernpunkte”alle Punkte mit SNN-Dichte ≥ 34
• Bild (c): “Randpunkte”alle Punkte mit SNN-Dichte ≥ 17
• Bild (d): “Rauschen”alle Punkte mit SNN-Dichte < 17
• Analogie zu DBSCAN: ε = 20, minPts = 34• Kernpunkt p: mehr als minPts Punkte haben 20 oder mehr der 50 nächsten
Nachbarn mit p gemeinsam
Bild aus: [Ertöz, Steinbach, Kumar 03]
Knowledge Discovery in Databases I: Clustering 71
![Page 30: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/30.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
SNN-Clustering Algorithmus [Ertöz, Steinbach, Kumar 03]
Eingabe: k, ε, minPts1. Berechne Ähnlichkeitsmatrix und –graph
(siehe einfaches SNN-Clustering)
2. Berechne die SNNk-Dichte für jeden Punkt bzgl. ε3. Bestimme Kernpunkte bzgl. minPts
(alle Punkte mit einer SNN-Dichte ≥ minPts)
4. Vereinige Kernpunkte p,q, wenn SNNk-similarity(p,q) ≥ ε5. Ordne Nicht-Kernpunkt p einem Cluster zu, wenn es einen
Kernpunkt q gibt, mit SNNk-similarity(q,p) ≥ ε6. Alle anderen Nicht-Kernpunkte sind Rauschen
DBSCAN mit SNN-Ähnlichkeit
Knowledge Discovery in Databases I: Clustering 72
![Page 31: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/31.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Diskussion• Unterschied zu DBSCAN
• DBSCAN mit Euklidischer Distanz: nur Cluster, die dichter sind als der Grenzwert (spezifiziert durch minPts und ε)
• SNN-Dichte eines Punktes p: Anzahl der Punkte, die mind. ε nächste Nachbarn mit p gemeinsam haben
• ⇒ unabhängig von der eigentlichen Dichte
• Parametrisierung• Wahl von k ist kritisch:
• Zu klein: auch relativ gleichverteilte Cluster werden wegen lokalen Variationen gesplittet ⇒ viele kleine Cluster
• Zu groß: wenige große, gut-separierte Cluster
• minPts, ε < k
Knowledge Discovery in Databases I: Clustering 73
![Page 32: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/32.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Generalisierung von DBSCAN [Sander, Ester, Kriegel & Xu 1998]
Grundidee für dichte-basierte Cluster :
Verallgemeinerte minimale KardinalitätMinWeight(NNPred(o))
Verallgemeinerte NachbarschaftNNPred(o) = {p | NPred(o, p)}
“Distanz ≤ ε” “| Nε | ≥ MinPts”
NPred(o,p)reflexiv, symmetrisch
für Paare von Objekten
MinWeight(N)beliebiges Prädikat fürMengen von Objekten
Verallgemeinerung
“NPred-Nachbarschaft hat mindestens das “Gewicht” MinWeight”
“ε-Nachbarschaft enthält mindestens MinPts Punkte”
Knowledge Discovery in Databases I: Clustering 74
![Page 33: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/33.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Beispiele
NPred
MinWeight
dist(p,q) ≤ ε
cardinality(. . .) ≥ MinPoints
intersect(p,q)
Summe der Flächen ≥
5 % der Gesamtfläche
Nachbarzelle und ähnliche Farbe
true
Knowledge Discovery in Databases I: Clustering 75
![Page 34: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/34.jpg)
DATABASESYSTEMSGROUP
Dichtebasiertes Clustering
Algorithmus GDBSCAN
•dasselbe algorithmische Schema wie DBSCAN
•anstelle einer RQ(o,ε)-Anfrage eine NNPred-Anfrage
•anstelle der Bedingung |RQ(o,ε)| ≥ MinPts das MinWeight-Prädikat auswerten
•Laufzeitkomplexität O(n log n) bei geeigneter Unterstützung der NNPred-Anfrage
•Beliebige Nachbarschaftsprädikate denkbar
Knowledge Discovery in Databases I: Clustering 76
![Page 35: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/35.jpg)
DATABASESYSTEMSGROUP
Dichte-basierte Verfahren
Knowledge Discovery in Databases I: Clustering
LiteraturL. Ertöz, M. Steinbach, V. Kumar: Finding Clusters of Different Sizes, Shapes, and Densities in Noisy,
High Dimensional Data. SDM 2003.
M. Ester, H.-P. Kriegel, J. Sander, X. Xu: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. KDD 1996: 226-231.
M. E. Houle, H.-P. Kriegel, P. Kröger, E. Schubert, A. Zimek: Can Shared-Neighbor Distances Defeat theCurse of Dimensionality? SSDBM 2010: 482-500.
R. A. Jarvis, E. A. Patrick: Clustering using a similarity measure based on shared near neighbors. IEEE Transactions on Computers 100(11) : 1025-1034 (1973).
H.-P. Kriegel, P. Kröger, J. Sander, A. Zimek: Density-based clustering. Wiley Interdisc. Rew.: Data Mining and Knowledge Discovery 1(3): 231-240 (2011).
J. Sander, M. Ester, H.-P. Kriegel, X. Xu: Density-Based Clustering in Spatial Databases: The AlgorithmGDBSCAN and Its Applications. Data Min. Knowl. Discov. 2(2): 169-194 (1998).
77
![Page 36: Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte](https://reader030.vdocuments.mx/reader030/viewer/2022040315/5e1f168b2aa5bc6ecf1879bc/html5/thumbnails/36.jpg)
DATABASESYSTEMSGROUP
Dichte-basierte Verfahren:Was haben Sie gelernt?
Knowledge Discovery in Databases I: Clustering
• Parametrisches vs. Nicht-Parametrisches Clustering
• Algorithmus DBSCAN: Intuition und Formalisierung
• Kernpunkte
• (direkt) dichte-erreichbar
• dichte-verbundene Menge
• Randpunkte
• Rauschpunkte
• Heuristiken zur Bestimmung geeigneter Dichte-Grenzwert-Parameter
• Shared-Neighbor Distanzen
• (dichte-basiertes) Clustering mit SNN
• Generalisierung von DBSCAN
78