flaches parsing mit endlichen automaten referat und implementierung jutta jäger 24.06.2002

24
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Upload: godafrid-karmann

Post on 05-Apr-2015

107 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Flaches Parsing mit endlichen Automaten

Referat und Implementierung

Jutta Jäger

24.06.2002

Page 2: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Übersicht

EinführungEinführung Vorhandene Systeme/AnsätzeVorhandene Systeme/Ansätze ImplementierungImplementierung

Page 3: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Partielles oder Flaches Parsing

Anwendungsbereiche z.B. Information Anwendungsbereiche z.B. Information Retrieval oder Information ExtractionRetrieval oder Information Extraction

Implementierung durch endliche Automaten Implementierung durch endliche Automaten bzw. Reguläre Ausdrücke statt kontextfreier bzw. Reguläre Ausdrücke statt kontextfreier GrammatikenGrammatiken

Page 4: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Eigenschaften

Keine Baumstrukturen, sondern Keine Baumstrukturen, sondern inkrementelles Erkennen von Teilstruktureninkrementelles Erkennen von Teilstrukturen

Keine RekursionKeine Rekursion

Page 5: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Eigenschaften

RobustRobust SchnellSchnell Leichtes Entwerfen und Anpassen des Leichtes Entwerfen und Anpassen des

ParsersParsers Keine 100%ige AbdeckungKeine 100%ige Abdeckung

Page 6: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Reguläre Ausdrücke

SymboleSymbole aa KonkatenationKonkatenation abab VereinigungVereinigung a|ba|b SternbildungSternbildung a*a*

usw.usw.

Page 7: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Weitere Operatoren

Rechter und linker KontextRechter und linker Kontext A => L _ RA => L _ R

Left-to right, longest match mark up Left-to right, longest match mark up A @A @ B ... C B ... C

Perl: andere NotationPerl: andere Notation

Page 8: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Vorgehensweisen

TokenizierungTokenizierung POS-TaggingPOS-Tagging Mehrere einfache Finite State Transducer Mehrere einfache Finite State Transducer

werden aufeinander bezogenwerden aufeinander bezogen Von einfachen Strukturen (NPs oder Von einfachen Strukturen (NPs oder

NounGroups) zu syntaktischen Rollen (z.B. NounGroups) zu syntaktischen Rollen (z.B. Subjekt)Subjekt)

Page 9: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Abney – Finite State Cascades

Phrasen auf einem höheren Level werden Phrasen auf einem höheren Level werden durch Phrasen aus einem niedrigeren Level durch Phrasen aus einem niedrigeren Level zusammengesetztzusammengesetzt

Es werden keine Tags in den Text gesetzt, Es werden keine Tags in den Text gesetzt, sondern die erkannten Sequenzen des Inputs sondern die erkannten Sequenzen des Inputs werden durch ein Label ersetztwerden durch ein Label ersetzt

Page 10: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Philosophie

Easy-first parsingEasy-first parsing Islands of certaintyIslands of certainty Containment of ambiguityContainment of ambiguity

Page 11: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Grefenstette – Finite State Filters

Noun- und Verb-GroupsNoun- und Verb-Groups HeadNouns werden markiertHeadNouns werden markiert Syntaktische Funktionen werden Syntaktische Funktionen werden

herausgefiltertherausgefiltert

Page 12: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Implementierung fürs Deutsche

PerlPerl 2 Ansätze: 2 Ansätze:

Parsre.plParsre.pl Subj_filter.plSubj_filter.pl

Page 13: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Ansatz 1 (Parsre.pl)

Freier, nicht tokenisierter oder getaggter Freier, nicht tokenisierter oder getaggter TextText

NP-DetectorNP-Detector Reguläre Ausdrücke beschreiben einfache Reguläre Ausdrücke beschreiben einfache

NPsNPs Alles, was matcht, wird ausgegeben (Filter)Alles, was matcht, wird ausgegeben (Filter)

Page 14: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Reguläre Ausdrücke

Geschlossene Wortartenklassen aus dem Geschlossene Wortartenklassen aus dem Negra-Korpus => vorkompilierte PatternNegra-Korpus => vorkompilierte Pattern

z.B. z.B. $ART = qr/das|dem|den|der|des|die|einem|einen|einer|eines|eine|ein/;

Page 15: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Regulärer Ausdruck für NP

Vereinfacht:

($ART | $PPOSAT)? ($ADJE (\, | ([\n ] $KON)) ? )*$SUBST

Page 16: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Evaluierung

Ersten 100 Sätze aus Negra-KorpusErsten 100 Sätze aus Negra-Korpus Im Korpus getaggte NPs: Im Korpus getaggte NPs:

349349 Durch den regulären Ausdruck erkannte:Durch den regulären Ausdruck erkannte:

395395

Page 17: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Ansatz 2 – Mark up

Nutzen der POS-TagsNutzen der POS-Tags Regulärer Ausdruck für NPsRegulärer Ausdruck für NPs NP-Tags werden eingefügtNP-Tags werden eingefügt PP-Tags werden eingefügtPP-Tags werden eingefügt

Page 18: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Diskontinuität

Mit Mark-up kann man diskontinuierliche Mit Mark-up kann man diskontinuierliche Konstituenten (z.B. Prädikate) nicht Konstituenten (z.B. Prädikate) nicht erfassen, da Einfügen von Klammern oder erfassen, da Einfügen von Klammern oder Tags unmöglichTags unmöglich

Im Deutschen sind viele Prädikate Im Deutschen sind viele Prädikate diskontinuierlich, z.B. diskontinuierlich, z.B. Passivkonstruktionen, Perfekt, VerbzusatzPassivkonstruktionen, Perfekt, Verbzusatz

Lösung: Filter (?)Lösung: Filter (?)

Page 19: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Ansatz 2 – Filter (Subj_filter.pl)

Erste NP vor einem finiten VerbErste NP vor einem finiten Verb=> Subjekt=> Subjekt

ABER: Im Deutschen sind verschiedene ABER: Im Deutschen sind verschiedene Satzbaupläne möglich, z.B.Satzbaupläne möglich, z.B.

Adverb – finites Verb – NP (=SUBJ)Adverb – finites Verb – NP (=SUBJ)

Kongruenzprüfung nötigKongruenzprüfung nötig

Page 20: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Regulärer Ausdruck für Subjekt und PrädikatNP (=SUBJ) (NP|PP|ADV)* VVFIN (=PRÄD)NP (=SUBJ) (NP|PP|ADV)* VVFIN (=PRÄD)

ODERODER

NP (=SUBJ) (NP|PP|ADV)* VAFIN (=PRÄD) (NP|NP (=SUBJ) (NP|PP|ADV)* VAFIN (=PRÄD) (NP|PP|ADV)* (ADJD|VVPP) (=PRÄD)PP|ADV)* (ADJD|VVPP) (=PRÄD)

unvollständig, da Testcharakterunvollständig, da Testcharakter

Page 21: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Diskontinuität II

Perl bietet Möglichkeit, Teile einer RegEx Perl bietet Möglichkeit, Teile einer RegEx zu speichernzu speichern

Keine Möglichkeit, komplexe Keine Möglichkeit, komplexe Teilausdrücke zu negieren, etwa [^(ADJD|Teilausdrücke zu negieren, etwa [^(ADJD|VVPP) ], um auf diese Art Konstituenten zu VVPP) ], um auf diese Art Konstituenten zu „überspringen“, also: positive und fast „überspringen“, also: positive und fast zwangsläufig unvollständige Aufzählungzwangsläufig unvollständige Aufzählung

Page 22: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Evaluierung

NP/PP-ErkennungNP/PP-Erkennung im Negra-Korpus getaggte im Negra-Korpus getaggte

NPs und PPs 349NPs und PPs 349davon PPs 144davon PPs 144

durch die Transducer getaggte durch die Transducer getaggte NPs 321NPs 321davon PPs 120davon PPs 120

Page 23: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Resümee Verschachtelte Strukturen sind durch einen Verschachtelte Strukturen sind durch einen

Regulären Ausdruck nicht zu beschreibenRegulären Ausdruck nicht zu beschreibenz.B. eine PP z.B. eine PP innerhalbinnerhalb einer NP einer NP[NP die [PP vom Baum ] gefallene Katze][NP die [PP vom Baum ] gefallene Katze]

diskontinuierliche Konstituenten sind diskontinuierliche Konstituenten sind problematisch, Verben bzw. Prädikate sind problematisch, Verben bzw. Prädikate sind im Deutschen sehr häufig diskontinuierlichim Deutschen sehr häufig diskontinuierlich

Für das Herausfiltern von „Chunks“ sehr Für das Herausfiltern von „Chunks“ sehr geeignet, aber kein komplettes Parsengeeignet, aber kein komplettes Parsen

Page 24: Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Links & Literatur

Steven Abney, Partial Parsing via Finite State CascadesSteven Abney, Partial Parsing via Finite State Cascadeshttp://http://citeseerciteseer..njnj..necnec..comcom/abney96partial./abney96partial.htmlhtml

Gregory Grefenstette, Light Parsing as Finite State Gregory Grefenstette, Light Parsing as Finite State FilteringFilteringhttp://http://citeseerciteseer..njnj..necnec..comcom/grefenstette96light./grefenstette96light.html html

Negra-KorpusNegra-Korpushttp://http://wwwwww..colicoli.uni-sb.de/sfb378/.uni-sb.de/sfb378/negranegra--corpuscorpus//

Xerox-Seite Xerox-Seite http://www.xrce.xerox.com/competencies/content-http://www.xrce.xerox.com/competencies/content-analysis/fsCompiler/home.en.htmlanalysis/fsCompiler/home.en.html