dokumentenmodelle -...
TRANSCRIPT
![Page 1: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/1.jpg)
Institut für Informatik
Dokumentenmodelle
Gerhard Heyer, Patrick JähnichenUniversität Leipzig
heyer@informa [email protected]
![Page 2: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/2.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Ziel
• Retrieval von Information– Clustering von Wörtern anhand Bedeutung(Semantik)– Identifizierung von Synonymien und Polysemien– Themenzuordnung von Dokumenten– ...?
• Dimensionsreduktion– Trivial ist nur das Auszählen von Wörtern– Dimension hierbei: V (V aber oft sehr groß, oft >> 1000000)– Wie reduzierbar?
![Page 3: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/3.jpg)
Institut für Informatik
Grundlagen
![Page 4: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/4.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Aufbau von Textkorpora
• Korpus C enthält Menge von D Dokumenten• Jedes Dokument enthält Menge von Nd Wörtern• Gesamter Korpus enthält Vokabular von V voneinander
verschiedenen Wörtern• Länge des Korpus ist N
![Page 5: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/5.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Vektorraummodell
• Dokumente werden als Vektoren dargestellt– Jede Komponente im Vektor entspricht einem separaten Term– wenn dieser im Dokument vorkommt, ist der Vektor an dieser Stelle
von 0 verschieden– Die Dimension des Vektors ist V (Größe des Vokabulars)
– Möglichkeit der Nutzung von Vektoroperationen zum Vergleich vonDokumenten, z.B. Kosinusmaß
– Häufig werden statt reinen Termfrequenzen tf-idf Gewichte alsVektorkomponenten genutzt
![Page 6: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/6.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Tf-idf
• Zähle Auftreten von Termen in Dokument• Vergleiche Auftreten von Term in Dokument mit Logarithmus
von inversem Auftreten des Terms in anderen Dokumentendes Korpus
• Ergebnis: Term-Dokumentmatrix (∈ RVxD) mit tf-idf Werten derTerme des Vokabular
• Reduktion von Dokumenten(unbestimmter Größe) auf Listevon Werten fixer Länge
• Berechnung:
![Page 7: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/7.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Statistik
• Multinomiale Verteilung– Generalisierung der Binomialverteilung– Binomialverteilung ist Wahrscheinlichkeitsverteilung der Anzahl Erfolge
von n unbhänigen Bernoulli-Experimenten– Analogon der Bernoulli-Verteilung in mult. Verteilung ist die Kategoriale
Verteilung, hier resultiert jeder der n Versuche in genau einem von KAusgängen mit Wahrscheinlichkeiten p1, ..., pK und
– Zeigt ein Zufallsvariable Xi die Anzahl der Ausgänge mit Ergebnis i an,so folgt der Vektor X = (X1, ..., XK) einer Multinomialverteilung mitParameter n und p = (p1, ..., pK)
– Im Bereich der automatischen Sprachverarbeitung sprechen wir meistvon multinomialer Verteilung wenn wir eigentlich die KategorialeVerteilung meinen
![Page 8: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/8.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Statistik
• Bedingte Wahrscheinlichkeit– Wahrscheinlichkeit für eine Beobachtung x unter der Voraussetzung
dass Beobachtung y zuvor eingetreten ist heißt bedingeWahrscheinlichkeit
Sind x und y voneinander unabhängig, so gilt
Und damit
![Page 9: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/9.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Statistik
• Bayestheorem
• In Worten
![Page 10: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/10.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Bag-of-words assumption
• Reihenfolge der Wörter wird nicht berücksichtigt• Ein Dokument entspricht einem „Sack“ voller Wörter• Für jedes Wort wird Frequenz gespeichert• Annahme:
– Informationen über Art und Anzahl von Wörtern reicht aus umRückschlüsse auf die Struktur von Text zu ziehen
– Grundlage: Satz von de Finetti• Annahme der Austauschbarkeit:
• Austauschbare Zufallsvariablen folgen einer vermischten Verteilung(mixture distribution), meist unendlich
![Page 11: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/11.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Singulärwertzerlegung
• Ist die Darstellung einer Matrix als Produkt von drei speziellenMatrizen
• Singulärwerte sind spezifische Eigenschaft einer Matrix,vergleichbar mit Eigenwerten
• Singulärwertzerlegungenexistieren für jede Art vonMatrix
![Page 12: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/12.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Singulärwertzerlegung - Anwendungen
• Statistik– Hauptkomponentenanalyse (engl. Principal Component Analysis, PCA)
• Strukturierung von Datensätzen durch Näherung von vielen statistischenVariabeln durch geringe Zahl von Linearkombinationen (denHauptkomponenten)
– Heißt auch Karhunen-Loève-Transformation• Bildkompression
– Bild (Matrix aus Farbwerten) wird zerlegt– Nur stark von Null verschieden Singulärwerte werden berücksichtigt– Rekonstruktion des Bildes möglich– Weglassen kleiner Singulärwerte ist verlustbehaftete Modellreduktion
![Page 13: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/13.jpg)
Institut für Informatik
Latent Semantic Analysis - LSALatent Semantic Indexing - LSI
![Page 14: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/14.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA (Deerwester et. al.)
• Form der linearen Faktorisierung• Grundlage bildet eine Wort-Dokument Kookkurrenzmatrix• Diese wird per Singulärwertzerlegung in drei Matrizen zerlegt• Alle bis auf n höchste Singulärwerte werden 0 gesetzt• Ursprüngliche Matrix wird rekonstruiert (hat nun geringeren
Rang n)
![Page 15: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/15.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA Beispiel
![Page 16: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/16.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA Beispiel - Termfrequenzmatrix
![Page 17: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/17.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA Beispiel - Singulärwertzerlegung
![Page 18: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/18.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA Beispiel - rekonstruierte Matrix mit geringerem Rang
![Page 19: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/19.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA
• Vorteil:– Keine Eins/Null Entscheidungen mehr– Dimensionsreduktion auf n Dimensionen („semantische Kategorien“)
• Nachteil:– Verlustbehaftete Methode– Schlechtes zugrundeliegendes statistisches Model --> schlechte
Begründbarkeit• Gemeinsame Verteilung von Wörtern und Dokumenten folgt nicht Gauss
sondern Poissonverteilung– Kein Vorwissen über n– Polysemie
• Jedes Wort wird genau einer semantischen Bedeutung zugeordnet(gleicher Datenpunkt im semantischen Raum)
• D.h. Ergebnis ist Durchschnitt aller verschiedenen Bedeutungen einerWortes (als Vektor)
![Page 20: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/20.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA
• Geometrische Interpretation– Reduzierte Dimensionen spannen „semantischen Raum“– In Wortmatrix U
• Winkel zwischen Wortvektoren (Cosinus-Maß) entspricht ihrersemantischen Ähnlichkeit
• Möglichkeit semantisches Clustern– Ähnlich für Dokumentmatrix V
• Clustering von ähnlichen Dokumenten
![Page 21: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/21.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Latente Variablen
• Theoretische Konstrukte, abhängig von Modell• Sind nicht direkt messbar• Können ausgehend von messbaren Variablen (Observablen)
bestimmt werden (auch: Operationalisierung)• Beispiel: Intelligenzquotient
– Kann nicht direkt gemessen werden– Wird anhand von vielen Testergebniss (Fragen) bestimmt– Da latente Variablen nur theoretische Konstrukte sind, ist der IQ nur so
aussagekräftig, wie die Theorie plausibel (daher teils massive Kritik anIQ Messung)
![Page 22: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/22.jpg)
Institut für Informatik
probabilistic Latent SemanticIndexing - pLSI
![Page 23: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/23.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI (Hofmann)
• Stammt nicht aus linearer Algebra (wie LSI)• Geht von vermischten Verteilungen und einem Modell der
latenten Klassen aus• Basiert auf Aspect-Modell
– Ordnet jeder Beobachtung (Term) eine latenten Variable (Klasse) zu– Gemeinsame Wahrscheinlichkeit über Dokument und Terme wird
definiert
![Page 24: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/24.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Generiert Dokumente:– Auswählen eines Dokuments d mit Wkt. P(d)– Auswählen einer latenten Klasse z mit Wkt. P(z|d)– Generieren von Wort w mit Wkt. P(w|z)
• Übersetzung in Multivariates Modell
• Modell basiert auf zwei Annahmen von Unabhängigkeit– Beispieltupel (d,w) werden unabhängig generiert (Bag-of-words)– Bedingte Unabhängigkeit zwischen w und d, sind nur über latente
Klasse z gekoppelt
![Page 25: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/25.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Umstellen mit Hilfe des Bayestheorem
![Page 26: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/26.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Ähnlichkeit zu LSA– Definiere 3 Matrizen:
– Gemeinsames Wahrscheinlichkeitsmodell gegeben durch:
• Beobachtung– Äußere Produkte zwischen Zeilen von Û und V zeigen bedingte
Unabhängigkeit– K Faktoren entsprechen Mischkomponenten aus Aspect-Model– Mischanteile ersetzen Singulärwerte
![Page 27: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/27.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Unterschied zu LSA– Funktion zum Bestimmen der optimalen Annäherung bei LSA: L2- oder
Frobenius-Norm– Entspricht der Annahme eines Gauss-Rauschens auf den
Termanzahlen– pLSI nutzt Likelihood-Funktion zur expliziten Maximierung der
Vorhersagequalität des Modells• Dies entspricht der Minimierung der Kullback-Leibler Divergenz zwischen
tatsächlicher und approximierter Wahrscheinlichkeitsverteilung
![Page 28: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/28.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Geometrische Deutung– K klassenspezifische Multinomialverteilungen werden im M-1
dimensionalen Simplex über alle möglichen Multinomialverteilungendargestellt
– Bilden K-1 dimensionalen Subsimplex– P(w|d) gegeben durch konvexkombinierte P(w|z)
![Page 29: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/29.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Würdigung– Approximation in P ist für jedes Wort eine wohldefinierte
Wahrscheinlichkeitsverteilung– Faktoren haben klare probabilistische Bedeutung– LSA arbeitet nicht mit Wahrscheinlichkeiten, sogar negative Werte sind
möglich– Keine offensichtliche Interpretation der Richtung im semantischen
Raum von LSA, in pLSI ist Richtung interpretierbar als multinomialeWortverteilung
– Da probabilistisches Modell: Möglichkeiten der Modellselektion,Herausfinden von optimalem K (Anzahl der latenten Klassen)
![Page 30: Dokumentenmodelle - asv.informatik.uni-leipzig.deasv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf–wenn dieser im Dokument vorkommt, ist der Vektor](https://reader034.vdocuments.mx/reader034/viewer/2022052306/5cf4400e88c993f3308b4c10/html5/thumbnails/30.jpg)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Bildquellen
• Wikipedia, Singulärwertzerlegung• Deerwester, Dumais, Furnas, Landauer, Harshman: Indexing
by Latent Semantic Analysis, Journal of the American Societyfor Information Science, 1990
• Hofmann: Probabilistic Latent Semantic Indexing, Proceedingsof the Twenty-Second SIGIR, 1999