tanja eder slawische korpuslinguistik 515.005 prof. tosovic, ss 2006 lexikalische datenbanken...
TRANSCRIPT
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Lexikalische DatenbankenWordNet – RussNet
EuroWordNet und Global WordNet Association
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
WordNet
• Über WordNet• Verwandte Projekte• Datenbank Statistiken• Häufig gestellte Fragen
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Über WordNet• seit 1985 am Wahrnehmungswissenschaftlichen
Laboratorium der Princeton Universität entwickelter Wortschatz der englischen Sprache, unter der Leitung von Professor George A. Miller.
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Über WordNet
• WordNet besteht aus einer lexikalischen Datenbank
• ursprünglich entwickelt, um natürlichsprachliche Texte für den Computer verständlich zu machen
• Datenbank - frei durchsuchbar und kostenlos
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Über WordNet
• WordNet enthält nur englische Substantive, Verben, Adjektive und Adverben
• Keine Präpositionen, Partikel, Konjunktionen oder Pronomen wie of, an, the, and, about, because, etc.
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Über WordNet
• Die folgenden Personen in Princeton arbeiten an der ständigen Entwicklung von WordNet:
- Professor George A. Miller- Dr. Christiane Fellbaum - Randee Tengi u.a.
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Über WordNet• Developers Forum
Robert Oschler http://www.wordnetchat.com/phpBB2/• Literatur
Christine Fellbaum (Hrsg.): Wordnet: An Electronic Lexical Database, Bradford Book, 1998, ISBN 026206197X (englisch)
• Weblinkshttp://wordnet.princeton.edu/ - WordNet-Homepage http://www.globalwordnet.org/ - Global WordNet Association http://staff.science.uva.nl/~kamps/wordnet/ WordNet-Visualisierung von http://de.wikipedia.org/wiki/WordNet
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Verwandte Projekte
• Semantische Netzwerke • Web Interfaces (Schnittstellen) • Local Interfaces • Erweiterungen • Mappings
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Datenbank Statistiken
• http://wordnet.princeton.edu/man/wnstats.7WN
• Die Summe von allen einzigartigen Nomen, Verben, Adjektiven und Adverben beläuft sich auf 147.249
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Häufig gestellte Fragen
• http://wordnet.princeton.edu/faq
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
EuroWordNet
• Mehrsprachige Datenbank mit WordNets für mehrere europäische Sprachen
• Projektstart: März 1996• Projektende: Juni 1999
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
EuroWordNet
• Selbe Struktur wie Princeton WordNet• Synsets und semantische Beziehungen• einzigartiges spracheninternes System von
Lexika• alle WordNets sind mit einem inter-
sprachlichen Index verbunden (ILI)
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
EuroWordNet
• http://www.illc.uva.nl/EuroWordNet/• Über den Index sind die Sprachen
miteinander verbunden• Wechsel von Wörtern in einer Sprache zu
ähnlichen Wörtern in jeder anderen Sprache
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
EuroWordNet
• Das Design der Datenbank, die festgelegten Beziehungen und der inter-sprachliche Index wurden auf Eis gelegt
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
EuroWordNet
• Institutionen und Forschungsgruppen entwickeln ähnliche WordNets in anderen Sprachen (europäische und nicht-europäische), die die technischen Daten von EuroWordNet verwenden
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
EuroWordNet
• Entwicklung von WordNets für Schwedisch, Norwegisch, Dänisch, Griechisch, Portugisisch, Baskisch, Katalanisch, Rumänisch, Lithauisch, Russisch, Bulgarisch und Slowenisch
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
EuroWordNet
• Die Grundstruktur von EuroWordNet wird durch die Global WordNet Association weitergeführt
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Global WordNet Association
• freie und öffentliche Vereinigung, die auf EuroWordNet und Princeton WordNet aufgebaut ist
• Plattform für Diskussionen, zeigt die Verbindung von WordNets in allen Sprachen
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Global WordNet Association
• Ziel: weitere Entwicklung von WordNets ankurbeln und WordNets in allen Sprachen der Welt miteinander zu verbinden
• http://www.globalwordnet.org
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
RussNet
• Über RussNet о РуссНет• Ziel цель• Derzeitige Größe теку́щий объём
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
RussNet
• Projekt Neuigkeiten но́вости прое́кта
• Quellen исто́чники
• Methoden ме́тоды
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
RussNet
• Beziehungen отноше́ния
• Datenbankstrukturen структу́ра
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
RussNet
• Definitionen определе́ния
• Anwendungпракти́ческое примене́ние
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Über RussNet О РуссНет
• lexikalische, semantische Datenbank für die Russische Sprache
• Abteilung für angewandte und mathematische Linguistik - Philologische Fakultät - St. Petersburger Staatsuniversität
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Über RussNet О РуссНет
• Das Projekt startete 1999• 57 (bzw. 8) Linguisten
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Ziel Цель
• Entwicklung einer Quelle für allgemeine Zwecke, die das lexikalische System des Russischen als ganzes repräsentiert, das Basisvokabular des modernen Russisch enthält...
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
ZielЦель
• ...und semantische, semantisch-grammatische und semantisch-nachgeahmte Beziehungen zwischen den Wörtern enthält, die für das Russische relevant sind
http://www.phil.pu.ru/depts/12/RN/
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Derzeitige Größe Теку́щий объём
• Mehr als 5500 Synsets:- 1300 Nomen Synsets, - 1900 Verb Synsets, - 1100 Adjektiv Synsets, - 200 Adverb Synsets. - ~10-12000 Synsets sind für die letzte
Ausgabe vorbereitet
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Projekt NeuheitenНо́вости прое́кта
• 14 Dezember 2003Beispiel für Datengrundsätze
• 15 Oktober 2003Praktische Anwendung und Ergebnisse
• 13 Oktober 2003Änderung des Designs. Entstehen der russ.Seite
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Quellen Исто́чники
• Erklärende Wörterbücher• Häufigkeitslisten• Assoziationswörterbücher • Synonymwörterbücher • Thesauri • Künstlerische Texte • Publizistische Texte
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Methoden Ме́тоды
• Allgemeine Strategie • Sammeln von Grundkonzepten• Definitionsanalysen • Hergeleitete Analysen• Kontextanalysen
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Beziehungen Отноше́ния
• Beziehungen zwischen Synsets• Beziehungen zwischen Wörtern
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Datenbankstruktur Структу́ра
• Vererbte Konstruktionsgrundsätze• PoS files
Nomen VerbenAdjektiveAdverben
• Erklärungen
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Definitionen Определе́ния
• nicht nur für maschinelle Benutzung - auch für die menschliche Interaktion entwickelt
• zusätzliche Informationen, die dem Benutzer helfen Wortbedeutungen bzw. Definitionen schnell zu erkennen
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Anwendung Практи́ческое примене́ние
• RussNet als einsprachige Quelle• RussNet als mehrsprachige Quelle
• http://www.phil.pu.ru/depts/12/RN/applications_ru.shtml
Tanja Eder
Slawische Korpuslinguistik515.005
Prof. Tosovic, SS 2006
Danke für eure Aufmerksamkeit!Thank you for your attention!!
Спаси́бо за внима́ние!!!