Kohonennetze für Information Retrieval mit User Feedback
Georg Ruß
Otto-von-Guericke-Universität Magdeburg
E-mail: [email protected]
Gliederung
• Motivation der präsentierten Datenverarbeitungsmethode
• Kohonennetze / Self Organizing Maps (SOM)• Information Retrieval am Beispiel von Email-
Sammlungen• User Feedback• Zusammenfassung der Ergebnisse
Einleitung / Motivation
- großes Datenaufkommen in digitaler Form (Datenbanken, E-Mail-Sammlungen, Newsgroups, ...)
- zunehmende Unübersichtlichkeit
→ Methode zur Klassifikation und Filterung der Informationen notwendig
→ gewünschte Eigenschaften:
1. Verständlich 2. Fehlerfrei
3. Automatisch
→ Growing Self-Organizing Maps als Methode, die die gewünschten Eigenschaften aufweist
Self-Organizing Maps (1)
1. Verständlich- bilden hochdimensionalen Eingaberaum in zweidimensionale Karte ab- Ähnlichkeitsbeziehungen werden durch Nachbarschaften dargestellt - Anpassungen des Netzes durch Gewichtsänderungen
Self-Organizing Maps (2)
2. Fehlerfrei- Verfahren basiert auf Voronoi-Zerlegung→ „fehlerminimale“ Zerlegung des Eingaberaums in eine endliche Anzahl von Zuständigkeitsgebieten→ hexagonales Grid als Optimum zwischen lückenlos und fehlerminimal
Self-Organizing Maps (3)
3. Automatisch
- “self-organizing“ als Begriff
- modellhafte Nachbildung von neuronalen Strukturen
- Lernen als automatisierter Prozeß
- Paradigma des „unsupervised learning“
- einfache mathematische Vektor-Methoden
)(),( :Gewichte
),(),( :tÄhnlichkei
'
1
isss
m
k jkikji
wwicvwi:w
wwDDS
Information Retrieval (1)
Definition:
Information Retrieval ist ein Prozeß zur
1. Gewinnung,
2. Speicherung und
3. Pflege von Informationen.
- Visualisierung kommt noch hinzu
- im Folgenden an einem „Text-Mining“-Beispiel
Information Retrieval (2)
zu 1. Informationsgewinnung
- filtering (Entfernen von Stop-Words)
- stemming (Bilden der Wortstämme)
- indexing (Bildung von Gruppen von Wörtern, die in ähnlichem Kontext auftauchen, „buckets“)
- Erstellen von Kontextvektoren für jedes Wort
- Erstellen von charakteristischen n-dimensionalen Vektoren für jedes Dokument, sog. „fingerprints“
Information Retrieval (3)
Information Retrieval (4)
zu 2. Speicherung (mit Visualisierung)
- Worte, die in ähnlichem Kontext auftauchen, sind selbst ähnlich zueinander
→ ähnliche Worte werden in der Wortkarte („word category map“) benachbart sein
→ Aufbau der Wortkarte erfolgt sukzessive
Information Retrieval (5)
zu 2. Speicherung (mit Visualisierung)
- ähnliche Dokumente besitzen ähnliche Vektoren
→ ähnliche Dokumente werden in der Karte benachbart sein (bzw. im selben „bucket“)
→ Aufbau der Dokumentenkarte erfolgt sukzessive
→ zukünftige Veränderungen (z.B. neue „buzz words“) können durch ein erneutes Anlernen der Karte berücksichtigt werden
User Feedback
Problem:
- Dokumente könnten in mehrere Cluster der Karte gut passen
Lösung:
- Einbeziehung der oft guten Intuition des Nutzers
- z.B. Abfrage per Drag-and-Drop
- Anpassung des gewünschten Ähnlichkeitsmaßes
(d.h. Änderung von Prioritäten einzelner Features)
Ergebnisse / Nutzen (1)
Ergebnis: mehr Möglichkeiten einer Datenbankanfrage
- herkömmliche Suche nach Keyword
- visuelle Suche auf den erstellten Karten
i) auf der Wortkarte (Finden neuer Keywords)
ii) auf der Dokumentenkarte (Finden ähnlicher Dokumente)
- Content Based Search (Query by Example)
Ergebnisse / Nutzen (2)
Ablauf einer Suche:
1. Herkömmliche Keyword-Suche
2. Anzeige der Treffer auf der Wort- / Dokumentenkarte
Wortkarte:
3a. Inspizieren der Wortkarte zum Finden neuer Keywords
Dokumentenkarte:
3b. Inspizieren der Dokumentenkarte zum Finden weiterer relevanter Dokumente
Ergebnisse / Nutzen (3)
Content Based Search / Classification / Query by Example
a) e-mail als Vorlage für die Suche nach ähnlichen e-mails:
- Berechnung des Fingerprints
- Anzeige auf der Dokumentenkarte
- Ergebnis: ähnliche e-mails
b) Automatische Klassifikation von eingehenden e-mails:
- Berechnung des Fingerprints
- Einsortieren in die Dokumentenkarte, wobei die Buckets in diesem Fall „echte“ Mail-Ordner sein können
Zusammenfassung
Der Einsatz von Self-Organizing Maps innerhalb von Dokumentensammlungen bringt erhebliche Vorteile:
- automatisches Lernen sowie Visualisierung großer Dokumentsammlungen
- mehr Möglichkeiten zur Suche
- intuitive Verständlichkeit des Systems
- Möglichkeit zur Einbeziehung des Nutzers
- Flexibilität ohne großen Aufwand
- Prototypen: SOMAccess auf DUST-2 CD-ROM
Websom (http://websom.hut.fi)
Vielen Dank für Ihre Aufmerksamkeit !