eigennamenerkennung mit großen lexikalischen … · sie liebt _ jürgen klinsmann. syntaktische...

27
Eigennamenerkennung mit großen lexikalischen Ressourcen Jörg Didakowski BBAW

Upload: vuhanh

Post on 18-Sep-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Eigennamenerkennung mit großenlexikalischen Ressourcen

Jörg DidakowskiBBAW

Was sind Eigennamen?

Sprachliche Zeichen (Eigennamen)

das Bezeichnete (Named Entity)

Was sind Eigennamen?

Eigennamen bezeichnen ein Ding alsGanzes, ohne ihm bestimmte Eigenschaften

zuzuschreiben.

Sie identifizieren Objekte innerhalbgekennzeichneter Klassen.

Was sind Eigennamen?

● Organisationen● Personen● Orte● Produkte● Zeitangaben● Datumsangaben● Währungsangaben

Was sind Eigennamen?

● Organisationen● Personen● Orte● Produkte● Zeitangaben● Datumsangaben● Währungsangaben

Was sind Eigennamen?

● Organisationen● Personen● Orte● Produkte

Gattungsnamen oder Stoffnamen (Opel/Auto, Esso/Wasser)

● Zeitangaben● Datumsangaben● Währungsangaben

Offene Klasse

Eigennamen bilden eine Offene Klasse –täglich werden neue Namen erfunden

Jedes Wort des allgemeinsprachlichenLexikons kann zum Eigennamen gemacht

werden (Ihr Name war Dachziegel)

MorphosyntaktischeBesonderheiten

Eigennamen treten im Allgemeinen imSingular auf. Ausnahmen sind:

● Plural bei Familiennamen die Bachs Keine Umlautbildung (Bach/Bäche)

● Plural bei Ortsnamen Niederlande, Alpen nur im Plural

● Beim Quantifizieren beideDeutschlands, die drei Marias

MorphosyntaktischeBesonderheiten

Eigennamen können die Form einespossessiven Genitivs einnehmen:

● Evas Auto, Brandenburgs Seenartikellos

➢ Arturo Uis Aufstieg➢ Der Aufstieg des Artuo Ui➢ *Der Aufstieg des Arturo Uis

Syntaktische Besonderheiten

Eigennamen treten Allgemein ohne Artikel auf:

● Sie liebt _ Frankreich.● Sie liebt _ Berlin.● Sie liebt _ Jürgen Klinsmann.

Syntaktische Besonderheiten

Unter bestimmten Bedingungen kannsystematisch ein bestimmter Artikel nötigsein:● die Schweiz● der Rhein● das alte Berlin (Spezifische Kontextbedingungen).● Wenn ein Organisationsname einenAppelativum enthält: die (Sozialdemokratische ParteiDeutschland) SPD

Syntaktische Besonderheiten

Bestimmter Artikel bei Personennamen,regionale Unterschiede :● im Süddeutschen Sprachgebrauch bestehteine Tendenz des konnotationsfreienGebrauchs von Personennamen mit Artikel.● In anderen Regionen kann damit aufbesonders bekannte Personen oder auchvertraute Personen verwiesen werden.

Syntaktische Besonderheiten

Verwendung des unbestimmten Artikelsignalisiert ganz besondereInterpretationsbedingungen:

● Er ist ein Cäsar Appellativum

GraphematischeBesonderheiten

● Durchgehende Großschreibung amWortanfang (Schwarzes Meer, Kap der GutenHoffnung)

● das Schwarze Brett / das schwarze Brett

Homographie

● Eigennamen können mehreren Klassen zugeordnet werden: Ford Person (Gerhard Ford)

Firma (Ford Motors) Ort (Ford Michigan)

( Produktname (Automarke))● Homographie zwischen Eigennamen undAppelativen (Fischer, Hirsch)● Homographie zwischen Eigennamen undanderen Kategorien wegen Satzanfang (z.B.Als, Da, Kühn)

interne Evidenz

● Dr. Bonobo

● Ich GmbH

● „Michael Schumacher“ ->im Lexikon

● Nicht Homographer Personenname (Sabine)

● Nicht Homographer Ortsname (Wustermark)

externe Evidenz

Menschenbezeichner/Ortsbezeichner/Organisationsbezeichner als Apposition:

der Rennfahrer SchumacherSchumacher, der Rennfahrer

der Rennstall Sauberder Schweizer Sauber

Koreferenz

● Sichere Eigennamen (externe/interneEvidenz)● Unsichere Eigennamen (alleKategorieabfolgen für einen potentiellenEigennamen)● Stützen von unsicheren Eigennamen wegenbestehender Koreferenz mit einem sicherenEigennamen

Ressourcen

TAGH-Morphologie (gewichteter Transduktor)

lemmatisiert und zerlegt Wortformen

Erkennungsrate bei neuen Zeitungstexten:98,5% - 99,5%

Ressourcen● Nomenlexikon: 88.000 einfache undkomplexe Stämme

● Eigennamen: 160.000 geographische Eigennamen, 65.000 Vornamen, 240.000 Familiennamen

● Nomenthesaurus: 60.000 semantischklassifizierte Nomen

● usw.

Ressourcen

Listen von Mehrwortausdrücken

Ortsnamen (New York)VIP Namen (Harald Schmidt)

Das System(SynCoP)

● In C++ implementiert

● Basiert auf der Potsdam FSMlib

Grammatikcompiler

Eigennamenerkenner

Grammatik Morphologie

Eingabetexte(Plaintext)

HTML XML

XML-Spezifikation:●Ortsnamen

●Organisationsnamen●Personennamen

Wortlisten

MWE

Eigennamenerkenner

Eingabetexte(Plaintext)

Tokenisieren (Flex)Lookup in derMorphologie

Prüfen ob MWE

Anwendung der Grammatik

Umgewichten

Bester Pfad

Grammatikanwendung

Klammern und gewichten (Longest Match) vonallen sicheren Eigennamen

Klammern und gewichten (Longest Match) vonallen unsicheren Eigennamen

Umgewichten (sicher/unsicher)

Ermitteln der Besten Analyse(Beste Pfad Suche)

● 10000 Tokens die Sekunde

● An der Grammatik wird noch entwickelt Eine erschöpfende Evaluation wurdenoch nicht durchgeführt.

Ende