extraktion von fachwortschatz aus texten - uni-heidelberg.de · pharmakokinetik 3426 h...

21
Extraktion von Fachwortschatz aus Texten Ulrich Heid Universit¨ aten Hildesheim und Stuttgart Heidelberg, 21. Januar 2011 Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 1 / 42

Upload: phamdan

Post on 18-Aug-2019

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Extraktion von Fachwortschatz aus Texten

Ulrich Heid

Universitaten Hildesheim und Stuttgart

Heidelberg, 21. Januar 2011

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 1 / 42

Page 2: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Rahmen der Forschungen

• Projekte:

– Kooperation mit dem Verlag C.H.Beck (Munchen), seit 2008:Rohmaterial fur juristische Fachworterbucher

– EU-Projekt TTC (2010-2012):Terminology Tools, Translation and Comparable Corpora

– Phase I von SFB-732, Projekt B3 (DFG, 2006-2010):Disambiguierung von Nominalisierungenbei der Extraktion aus Korpustext

• Mitarbeiter:

– Marion Weller (SFB, TTC)– Anita Gojun (TTC)– Fabienne Fritzinger (Verlagskooperation)– Nadine Siegmund (stud. Hilfskraft, TTC/Verlagskooperation)

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 2 / 42

Page 3: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Uberblick

• Fachwortschatzextraktion:Wozu? – Was?

• Ein Anwendungsprojekt: Extraktion aus Web-Daten:Szenarium – Werkzeuge – Stand der Ergebnisse

• Verfahren zur Termkandidaten-Extraktion

– fur Einwort-Termini– fur Mehrwort-Termini:

* Musterbasierte Suche* Suche auf syntaktisch annotiertem Text (DE)

• Morphologisch verwandte Termkandidaten

– Musterbasierte Suche– Einbezug von morphologischer Zerlegung

• Zusammenfassung

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 3 / 42

Page 4: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Extraktion von Fachwortschatz aus TextenMotivation – Anwendungen

• Fachwortschatz

– Relevant fur Ubersetzung und technische Redaktion– Relevant fur den Aufbau von Terminologiesammlungen– Auch nutzlich fur maschinelle/computergestutzte Ubersetzung

• Elektronisch verfugbarer Text als Eingabe –Prozessierung: mit linguistisch basierten und statistischen Methoden –Fachwortschatzkandidaten als Ergebnis:Input zu manueller Validierung⇒ semi-automatisches Verfahren

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 4 / 42

Page 5: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Extraktion von Fachwortschatz aus TextenWas soll extrahiert werden?

• Fachworter: einfach und komplex

– Einzelworter: Gesetz, Steuer, Einkommen– Komposita: Einkommensteuergesetz– Abgeleitete Worter: steuerlich, gesetzlich

• Wortverbindungen: Mehrwort-Terme, Kollokationen

– klarer MWT: Allgemeine Geschaftsbedingungen– Kollokation: zur Einkommensteuer veranlagen⇒ Grenze oft unklar (wie wichtig ist sie?)

• Relevante Kontexte, z.B. Definitionen:Saponine sind oberflachenaktive Substanzen und...

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 5 / 42

Page 6: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Ansatze zur Termkandidaten-ExtraktionUberblick

• Rein statistische Verfahren:

– Basis: Auftretenshaufigkeit von Wortern oder Wortkombinationen◦ Einzelworter: “Weirdness Ratio” (Ahmad et al. 1992)

Welche Worter sind im Fachtext proportional haufigerals in “gemeinsprachlichen” Texten?

◦ Mehrwortausdrucke: Assoziationsmaße:Welche Kombinationen sind haufiger als statistisch erwartet?

• Rein linguistische Verfahren:

– Basis: Morphologische Eigenschaften der Worter,Grammatische Muster von Wortkombinationen

◦ Suchmuster, z.B.: Nomen + Praposition + Nomen

• In der Regel: kombinierte Verfahren:

– linguistische Mustersuche– statistische Sortierung der Ergebnisse

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 6 / 42

Page 7: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Uberblick

• Fachwortschatzextraktion:Wozu? – Was?

• Ein Anwendungsprojekt: Extraktion aus Web-Daten:Szenarium – Werkzeuge – Stand der Ergebnisse

• Verfahren zur Termkandidaten-Extraktion

– fur Einwort-Termini– fur Mehrwort-Termini:

* Musterbasierte Suche* Suche auf syntaktisch annotiertem Text (DE)

• Morphologisch verwandte Termkandidaten

– Musterbasierte Suche– Einbezug von morphologischer Zerlegung

• Zusammenfassung

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 7 / 42

Page 8: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenDas EU-Projekt TTC: eine geplante Anwendung

Szenarium:

• Automatischer Teil:Termkandidaten-Extraktion

• Interaktiver Teil:Nutzung in derUbersetzungsarbeit term equivalence

candidates

(L2)

terms to be

translated

(L1)User

Optional additional

knowledge source

Extraction of

domain−relevant

multiword terms

Extraction of

domain−relevant

multiword terms

single word and single word and

context

data

context

data

context−based

lexical

Document Harvesting

Monolingual Terminologies

L1

terminology

L2

terminology

Terminology candidate

alignment strategies:

corpus mining

Documents in target

language L2

Documents in source

language L1

The Web

Dictionary

Bilingual

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 8 / 42

Page 9: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenSchritte – Bausteine

(1) Textsuche:z.B. durch Crawler

(2) MonolingualeTermkandidaten-Identifikation

(3) Term-Alignment:Suche nach Aquivalenten

Hier Schwerpunkt:Monolinguale Extraktion

term equivalence

candidates

(L2)

terms to be

translated

(L1)User

Optional additional

knowledge source

Extraction of

domain−relevant

multiword terms

Extraction of

domain−relevant

multiword terms

single word and single word and

context

data

context

data

context−based

lexical

Document Harvesting

Monolingual Terminologies

L1

terminology

L2

terminology

Terminology candidate

alignment strategies:

corpus mining

Documents in target

language L2

Documents in source

language L1

The Web

Dictionary

Bilingual

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 9 / 42

Page 10: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenDas Werkzeug Jaguar (Rogelio Nazar, 2008)

• Arbeitsumgebung im Internet: Terminologiesuche

• Komponenten:

– Webcrawler zum Suchen nach Texten– Ablage gefundener (relevanter?) Texte– Statistische Suche nach Termkandidaten:

* Einzelworter: “neue” (unseen) Worter, etc.* Mehrwortausdrucke: Assoziationsmaße

– Ausgabe in einer Art Konkordanz

• Neuerdings: einige linguistische Suchverfahren (experimentell)

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 10 / 42

Page 11: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenExperimente mit Jaguar (Sonja Meier, 05/2010)

• Zielsetzung: Windenergie (DE)Korpuserstellung – Terminologieextraktion

• Ergebnisse 05/2010:

– Textsuche fuhrt zu maßigen Ergebnissen: viele irrelevante Texte– Texte schwer nachverfolgbar (Quellen etc.)– Texte fur Benutzer nicht einsehbar– Termkandidaten nur statistisch begrundet:

Zum Teil maßige Qualitat

• Erganzungen 11/2010:

– Quellen/Texte sichtbar– Bessere Gebrauchstauglichkeit

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 11 / 42

Page 12: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenEntwicklung im EU-Projekt TTC: BABOUK

• Promotionsarbeit von Clement de Groc (Syllabs, Frankreich)

• Fokussierter Web Crawler:Extraktion von themenspezifischen Webseiten,z.B. Seiten zum Bereich “Windenergie”

• Ausgangspunkt: Schlusselworter (seed words) oder URLs

• Rekursives Durchsuchen des Webs

1 Eingabe von Suchanfragen in Suchmaschinen (z.B. Yahoo!)2 Kategorisierung der gefundenen URLs3 Identifikation von weiterfuhrenden Links4 Weiterverarbeitung von themenspezifischen URLs

• Stopkriterien:

– Keine relevanten Dokumente (URLs) mehr auffindbar– N relevante Dokumente (Benutzer entscheidet)– Suchtiefe d erreicht (Benutzer entscheidet: Anzahl Link-Schritte)

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 12 / 42

Page 13: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenBABOUK: Interface und Bedienung

• Erreichbar uber Fa. Syllabs, ParisBenutzeraccount muß dort beantragt werden

• Einloggen → Klicken: Add new job

• Eingabemaske mit Schlusselwortern wind AND (bzw. OR) energy

• Klicken: Submit → Startet den Such-”Job”

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 13 / 42

Page 14: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenBABOUK: Ergebnisse

• Tool erstellt Liste gefundener Links (max: 1000)

• Tool legt Archiv von Texten (html, txt) aus gefundenen Links an,wo moglich mit Metadaten: Autor, URL, Titel, ...

• E-Mail, wenn Job beendet ist

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 14 / 42

Page 15: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenBABOUK: Ergebnisse – Terminologierelevante Ergebnisdaten?

• Textebene: Beispielfall EN: wind + energy

– Viel aus Wikipedia (25% aller Satze)– Mitunter Texte von außerhalb der Domane:

IT: Webseite mit Tipps zum Steuern sparen– Manchmal domanenrelevante Texte aus unerwarteten Textsorten:

Werbung - Gesetze - Technik - Protest - Kinderbucher

• Termebene:

– Einzelworttermkandidaten: nach Okkurrenzzahlenpower, turbine, electricity, water, fuel, ...

– Mehrwortkandidaten:hot water, renewable energy, clean energy, natural gas,free encyclopedia, offshore wind (?)offshore wind farm, angle of attack, ...

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 15 / 42

Page 16: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Termkandidaten-Extraktion aus Web-DatenBABOUK: Ergebnisse – FR: energie + eolienne

• 987 gefundene Texte, mit 1,4 Millionen Wortern

– davon: 852 Texte aus Wikipedia: FR, CA, . . .– Anteil Wikipedia ist eher ungewohnlich hoch

• Termkandidaten (abnehmende Zahl Okkurrenzen):

– pays membre, bilan carbone, taxe carbone, moteur diesel, rapportcout-efficacite, grupe motopompe, pays signataire, . . .

– encyclopedie libre, parti quebecois, union europeenne,energie renouvelable, . . .

– point de vue, source d’energie, projet de loi, dioxyde de carbone,duree de vie, mise en place, vitesse de rotation

⇒ Filterung von trivialen Kandidaten notig!

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 16 / 42

Page 17: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Uberblick

• Fachwortschatzextraktion:Wozu? – Was?

• Ein Anwendungsprojekt: Extraktion aus Web-Daten:Szenarium – Werkzeuge – Stand der Ergebnisse

• Verfahren zur Termkandidaten-Extraktion

– fur Einwort-Termini– fur Mehrwort-Termini:

* Musterbasierte Suche* Suche auf syntaktisch annotiertem Text (DE)

• Morphologisch verwandte Termkandidaten

– Musterbasierte Suche– Einbezug von morphologischer Zerlegung

• Zusammenfassung

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 17 / 42

Page 18: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Monolinguale Extraktion: Relative HaufigkeitGrundidee und Berechnungsschritte: Einworttermini

Ein einfaches Verfahren (vgl. [Ahmad et al. 1992])Vergleich der (relativen) Haufigkeit im Fachtextmit der (relativen) Haufigkeit in Gemeinsprach-Corpus

• Idee:

– Journalismus bevorzugt kein spezielles Fachgebiet(Daten, z.B.: mehrere Jahrgange Zeitung)

– Fachtext: Fachausdrucke sind hier besonders haufig,relativ haufiger als im Zeitungstext

• Berechnung:

1 Bestimme die Große beider Corpora: NF , NG

2 Ermittle Haufigkeit jedes (Inhalts-)Wortes im Fachtext: fF (w)3 Ermittle seine Haufigkeit im Zeitungstext: fG (w)4 Errechne jeweils die relative Haufigkeit: rF =fF (w)/NF , etc.5 Vergleiche die relativen Haufigkeitswerte: rF /rG

• Ergebnis: textrelevante Termkandidaten

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 18 / 42

Page 19: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Monolinguale Extraktion: Relative HaufigkeitSchematische Darstellung: EMEA-Texte vs. Frankfurter Rundschau

Tagging

Comparisonrelevant

terms

ADJ NN VV

NNADJ VV

TaggingEMEA EMEA

FR FR

exclusivelyEMEA

primarilyEMEA

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 19 / 42

Page 20: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Monolinguale Extraktion: Relative HaufigkeitBeispielergebnisse

Termkandidaten f (abs.)Durchstechflasche 5638Injektionsstelle 3489Pharmakokinetik 3426Hamoglobinwert 3395Fertigspritze 3271Ribavirin 3234Gebrauchsinformation 2801Dosisanpassung 2580Epoetin 2302Hydrochlorothiazid 2128

Termkandidaten Weirdness f (abs.)Filmtablette 25522 6389Injektionslosung 19854 4970Packungsbeilage 14710 7365Niereninsuffizienz 14233 3563Verkehrstuchtigkeit 13558 3394Leberfunktion 8385 2099Hypoglykamie 8353 2091Toxizitat 7957 1992Einnehmen 7035 7045Hypotonie 6823 1708

Nur EMEA (nicht FR) EMEA und FR

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 20 / 42

Page 21: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Monolinguale Extraktion: FachwendungenFachphraseologie – Fachwendungen

“Eine Fachwendung ist das Ergebnis der syntaktischen Verbindungvon mindestens zwei fachsprachlichen Elementenzu einer Außerung fachsprachlichen Inhalts,deren innere Koharenz auf der begrifflichen Verknupfbarkeit beruht”

Arntz/Picht 1989: 34

Beispiele (juristische Fachwendungen):

• Nominalgruppen:

– N + PP: Vorsprung durch Rechtsbruch– Adj. + N: unsachliche Beeinflussung, unzulassige Diskriminierung

• Gruppen mit Verben:

– Verb + Objekt: Testament errichten, Anspruch geltend machen– Verb + Indirektes Objekt: einem Antrag stattgeben– Verb + PP etw. als Marke schutzen

Verfahren identisch fur Mehrwortterme und Kollokationen

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 21 / 42

Page 22: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Monolinguale Extraktion: FachwendungenBeispiele

• Kollokationen: lexikalisch-pragmatisch festgelegt:Testament errichten??Testament schreiben EN [to] write a will??Testament aufsetzen DK oprette et testamente??Testament machen IT fare {} testamento??Testament ausfertigen NL en testament verlijden

• Kontexte: weniger klar festgelegt, eher eine Frage der Frequenz:Hypothese: haufige Kombinationen sind typisch:Vertrag + ADV + erfullen Fritzinger/Heid/Siegmund 2009

Domane Haufiges ADJ % Belege

Insolvenzrecht vollstandig 51,16 %

Markenrecht ordnungsgemaß 33,65 %

Journalismus termingerecht 8,70 %

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 22 / 42

Page 23: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Monolinguale Extraktion: FachwendungenMogliche Ansatze zur Extraktion

• Rein statistisch: Kookkurrenz – Assoziationsmaße (AM)

– Adjazente Wortpaare oderWortpaare in einem “Fenster” WordSmith Tools

– Rekursiv: Paare und ihre haufigsten Kontextpartner:Aufbau großerer Sequenzen IdS: CCDB

• Symbolisch: Suche nach Mustern

– auf Basis Wortarten (flach)– auf Basis syntaktischer Analyse (tief)

• Kombiniert: symbolisch und statistisch

– Erst Assoziationsmaße (→ alle signifikanten Paare)dann Filter nach Wortarten Smadja 1993

– Erst grammatische Relationen (→ syntaktisch homogene Menge),dann Sortierung nach Assoziationsstarke

z.B. Heid 1998, Krenn 2000, Seretan 2008

CCDB: Kookkurrenzdatenbank des IdS: http://corpora.ids-mannheim.de/ccdb/

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 23 / 42

Page 24: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Musterbasierte Ansatze fur die romanischen SprachenEinfache Muster: Deutsch vs. Franzosisch (IT, ES, PT...)

German French possible extension

nouns nounscompounds noun+noun + adjectivenoun+noun:genitivenoun+prep+noun noun+prep+noun

noun von noun noun de noun + adjectivenoun a noun

adjectives adjectives+ adverb

adjective+noun noun+adjectiveverbs verbsverb+noun verb+noun + adjectiveverb+prep+noun verb+prep+noun

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 24 / 42

Page 25: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Musterbasierte Ansatze fur die romanischen SprachenMusterbasierte Extraktion: Beispiel (lemmatisierte Formen)

[pos = NOM] [pos = ADJA]

139 bilan previsionnel135 parc eolien99 energie renouvelable80 energie eolien46 systeme electrique44 production eolien29 consommation unitaire26 filiere eolien24 pouvoir public23 efficacite energetique23 puissance eolien21 chauffage electrique20 bilan energetique20 production thermique

[pos = NOM] [lem = de] [pos = NOM]

55 consommation de electricite52 moyen de production50 production de electricite42 prevision de consommation38 obligation de achat36 securite de approvisionnement30 facteur de charge29 groupe de production24 parc de production22 duree de defaillance22 tau|taux de croissance21 effet de serre21 economie de energie20 etude de impact

Basis: manuell erstelltes Korpus: 100.000 Worter: Windenergie

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 25 / 42

Page 26: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Musterbasierte Ansatze fur die romanischen SprachenVariation in Mehrworttermini: Beispiele

[pos = NOM] [lem = de] [pos = NOM]

55 consommation de electricite2 consommation final de electricite Adjektiv2 consommation interieur de electricite1 consommation brut de electricite1 consommation supplementaire de electricite1 consommation total de electricite1 consommation moyen de electricite1 consommation national de electricite

[pos = NOM] [pos = ADJ]

2 metal non ferreux 2 metal ferreux Negation1 origine non renouvelable 9 origine renouvelable1 source non renouvelable 3 source renouvelable

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 26 / 42

Page 27: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Ein Ansatz zur Extraktion von deutschen FachwendungenTiefe Analyse statt flacher Analyse

Dependenz-syntaktische Analyse mit FSPAR Schiehlen 2003

0 Die ART d | 2 SPEC1 zweite ADJA 2. | 2 ADJ2 Studie NN Studie Nom:F:Sg 3 NP:nom3 lieferte VVFIN liefern 3:Sg:Past:Ind* -1 TOP4 ahnliche ADJA ahnlich | 5 ADJ5 Ergebnisse NN Ergebnis Akk:N:P l 3 NP:akk6 . $. . | -1 TOP

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 27 / 42

Page 28: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Ein Ansatz zur Extraktion von deutschen FachwendungenDetaillierte linguistische Klassifikation der Mehrwort-Ausdrucke

Ziel: Finden von Kollokationskandidatenund detaillierte Beschreibung in einem Schritt

• Dependenzbasierte Extraktion (z.B. Verb-Objekt-Paare):

→ Klassifikation nach Wortklassen und grammatischen Funktionen

• Morphosyntaktische Merkmale im Analyseergebnis:

→ Klassifikation nach morphosyntaktischen Praferenzen,Determination, Numerus, Modifikatoren, ggf. Negation

→ Klassifikation nach Aktiv/Passiv, Wortstellung, usw.:durch Muster uber morphosyntaktisch annotiertes Material

Heid/Weller 2008

⇒ Einzelne Kollokationsinstanzen (Satze) werden identifiziertund mit form-orientierten linguistischen Merkmalen versehen

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 28 / 42

Page 29: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Ein Ansatz zur Extraktion von deutschen FachwendungenBeispielsatze mit linguistischen Merkmalen: ein Beispiel

n_lemma | Grundv_lemma | geltend machennumerus | Pldet_typ | nullaktiv_passiv | passivpass_auxil. | werdensatz_typ | v-2modifizierer | auch (ADV), PP:fur:Errichtung, PP:fur:Landmodalverben | konnenprapos. | nullbeleg | Solche Grunde konnen auch fur die Errichtung

| eines gemeinsamen Patentamtes fur die Lander| geltend gemacht werden

⇒ Ablage in einer relationalen Datenbank Heid/Weller 2008

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 29 / 42

Page 30: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Ein Ansatz zur Extraktion von deutschen FachwendungenKlassifikation nach Signifikanz und nach Morphosyntax

(1) Assoziationsstarke: Berechnung mit AssoziationsmaßenErmittlung auf Basis von Lemma-Kookkurrenz in der Datenbank⇒ Signifikanz: haufiger als erwartet?

Evert 2004

(2) Morphosyntaktische Praferenzen

– Ermittlungauf Basis der Merkmalswerte fur ein Merkmal, pro Lemma-Paar

– Beispielergebnisse:f | n_lemma | v_lemma | det_typ | num | aktiv_passiv

-------+----------+---------------+----------+-----+--------------

1387 | Rechnung | tragen | null | Sg | aktiv

262 | Rechnung | tragen | null | Sg | passiv

136 | Rechnung | tragen | null | Sg | passiv

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 30 / 42

Page 31: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Extraktion und Klassifikation im UberblickBesonderheiten gegenuber anderen Verfahren

(1) Nutzt geparste Texte: → hohere Prazision→ mehr Recall

Seretan (2008)

(2) Kombiniert Signifikanzanalyse → zwei Arten Evidenzmit morphosyntaktischen Merkmalen → vermutlich unabhangig

→ besserer Recall

(3) Sammelt morphosyntaktische → Input fur Fach-Merkmale auf lexikographie und NLP

(4) Extraktion und Klassifikation → Effizienzin einem Schritt

(5) Ablage der Ergebnisse: Datenbank → Flexibilitat

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 31 / 42

Page 32: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Extraktion und Klassifikation: Beispielergebnisse

Anspruch + ADJ

– geltend gemacht,

– zivilrechtlich, wettbewerbsrechtlich, markenrechtlich,

– [gegen x] gerichtet

Anspruch + NGenitiv

– des Urhebers, [...] des Arbeitnehmers,

– des Erfinders, des Berechtigten, des Patentinhabers, ...

N + AnspruchGenitiv

– Geltendmachung, Durchsetzung, Verjahrung, Verwirkung,

– Gegenstand, Wortlaut, [...]

V + AnspruchObjekt

– geltend machen, erheben, herleiten, ableiten,

– verwirken,

– durchsetzen, anerkennen, befriedigen

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 32 / 42

Page 33: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Extraktion und Klassifikation: BeispielergebnisseJuristische Fachphraseologie (Heid et al. 2008)

Gibt es großere Gruppen, z.B. Verb + Objekt-Kollokation plus Adverb?

Frage endgultigPunkt abschließend klarenRechtslage hochstrichterlich

Nomen | Verb | Adverb

-------------------------+----------+----------------------

8 Frage | klaren | abschliessend

4 Sachverhalt | klaren | ausreichend

4 Rechtslage | klaren | gerichtlich

4 Frage | klaren | endgultig

4 Frage | klaren | eindeutig

3 Frage | klaren | ausdrucklich

2 Widerspruch | klaren | sauber

2 Verletzungsfrage | klaren | rechtskraftig

2 Streitfrage | klaren | hochstrichterlich

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 33 / 42

Page 34: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Uberblick

• Fachwortschatzextraktion:Wozu? – Was?

• Ein Anwendungsprojekt: Extraktion aus Web-Daten:Szenarium – Werkzeuge – Stand der Ergebnisse

• Verfahren zur Termkandidaten-Extraktion

– fur Einwort-Termini– fur Mehrwort-Termini:

* Musterbasierte Suche* Suche auf syntaktisch annotiertem Text (DE)

• Morphologisch verwandte Termkandidaten

– Musterbasierte Suche– Einbezug von morphologischer Zerlegung

• Zusammenfassung

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 34 / 42

Page 35: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Morphologisch verwandte FachkollokationenGruppierungsverfahren fur das Deutsche

• Beispielfall: Klage + abweisen Fritzinger/Heid (2008)

– ”Varianten” in Texten:abgewiesene Klage, Abweisung der/von . . . Klage, Klageabweisung

– Welche ”Varianten” sind Terme, welche Kollokationen?⇒ Relevanz fur Ubersetzungsanwendung?

• Problem im DE: Komposita:Klage abweisen ↔ Klageabweisung

• Ziel: alle ”Varianten”gemeinsam erfassen:

– Welche Formen sind in Texten haufig?– In welchen Kontexten kommen sie vor?– Außerdem: mehr Evidenz fur statistische Weiterverarbeitung,

z.B. in TTC

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 35 / 42

Page 36: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Morphologisch verwandte TermkandidatenRegeln fur Zusammenhange

• Beispielfall (FR):consommation electricite

consommation d’ electricite noun nounconsommation electrique noun adjectiveelectricite consommee participle (adjective) noun

• Modellierung der Wortbildungszusammenhange:consommation → consommer → consommeelectricite → electrique

• Problem: neoklassische Relationaladjektive:vento ↔ energia eolicaeau ↔ hydro-

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 36 / 42

Page 37: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Morphologisch verwandte TermkandidatenBeispiele FR und ES

• Verb und Nominalisierung:FR ES

generer de l’energie generar energıageneration d’energie generacion de energıaenergie generee energıa generadaenergie generable energıa generable

• Alternative Relationaladjektive (FR/ES):eolienne maritime eolienne marine(503 google matches) (522 google matches)

→ gleichverteilt

energıa eolica marıtima energıa eolica marina(958 google matches) (41400 google matches)

→ Praferenz fur energıa eolica marina

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 37 / 42

Page 38: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Morphologische Gruppierung: morphologische AnalyseGrundlage ist Morphem-Zerlegungswerkzeug SMOR

Schmid/Heid/Fitschen (2004)

> Klage[Klage<+NN>]<Fem><Nom><Sg>[Klage<+NN>]<Fem><Gen><Sg> Part of Speech[Klage<+NN>]<Fem><Acc><Sg>[Klage<+NN>]<Fem><Dat><Sg>

> abweisen[ab<VPART>weisen<+V>]<1><Pl><Pres><Subj>[ab<VPART>weisen<+V>]<1><Pl><Pres><Ind>[ab<VPART>weisen<+V>]<3><Pl><Pres><Subj>[ab<VPART>weisen<+V>]<3><Pl><Pres><Ind>[ab<VPART>weisen<+V>]<Inf>

Mood

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 38 / 42

Page 39: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Morphologische Gruppierung: Zwischenergebnisse

<1><Pl><Pres><Subj><1><Pl><Pres><Ind><3><Pl><Pres><Subj><3><Pl><Pres><Ind><Inf>

ab<VPARt>weisen<+V>

ab<VPARt>weisen<+V>

ab<VPARt>weisen<+V>

ab<VPARt>weisen<+V>

ab<VPARt>weisen<+V>

<Fem><Gen><Sg><Fem><Akk><Sg><Fem><Dat><Sg>Klage<+NN>

Klage<+NN>

Klage<+NN>

<Fem><Nom><Sg>Klage<+NN>

Klage abweisen

Verb+Object

ung<SUFF><+NN><Fem><Nom><Sg>ung<SUFF><+NN><Fem><Gen><Sg>ung<SUFF><+NN><Fem><Acc><Sg>ung<SUFF><+NN><Fem><Dat><Sg>

ab<VPART>weisen<V>

ab<VPART>weisen<V>

ab<VPART>weisen<V>

ab<VPART>weisen<V>

<Fem><Nom><Sg>Klage<+NN>

<Fem><Gen><Sg><Fem><Akk><Sg><Fem><Dat><Sg>

Klage<+NN>

Klage<+NN>

Klage<+NN>

Abweisung der Klage

Noun+Genitive Noun

Klage<NN>ab<VPART>weisen<V>

ung<SUFF><+NN><Fem><Gen><Sg>Klage<NN>ab<VPART>weisen<V>

ung<SUFF><+NN><Fem><Akk><Sg>ung<SUFF><+NN><Fem><Dat><Sg>

Klage<NN>ab<VPART>weisen<V>

Klage<NN>ab<VPART>weisen<V>

ung<SUFF><+NN><Fem><Nom><Sg>

Klageabweisung

Compounds

ab<VPART>weisen<V><PPast><SUFF><+ADJ><Pos><Masc><Nom><Sg><PPast><SUFF><+ADJ><Pos><Neut><Nom><Sg><PPast><SUFF><+ADJ><Pos><Neut><Acc><Sg><PPast><SUFF><+ADJ><Pos><Fem><Nom><Sg><PPast><SUFF><+ADJ><Pos><Fem><Acc><Sg

ab<VPART>weisen<V>

ab<VPART>weisen<V>

ab<VPART>weisen<V>

ab<VPART>weisen<V>

<Fem><Nom><Sg>Klage<+NN>

<Fem><Gen><Sg><Fem><Akk><Sg><Fem><Dat><Sg>

Klage<+NN>

Klage<+NN>

Klage<+NN>

Adjective+Noun

abgewiesene Klage

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 39 / 42

Page 40: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Morphologische Gruppierung: Quantitative ErgebnisseUnterschiedliche Praferenzen: Beispiele

Patent+anmelden Urteil+anfechten Gesetz+auslegen

V+Nobj 1.56% 1.27% 9.17%ADJ+NN 2.21% 98.53% 0.20%NN+NNgen 1.56% 0.18% 44.34%Compounds 93.85% 0.02% 46.28%

Patent+erteilen Marke+registrieren Erfindung+anmelden

V+Nobj 26.01% 11.18% 26.12%ADJ+NN 31.17% 63.03% 47.36%NN+NNgen 42.83% 25.79% 26.53%Compounds 0% 0% 0%

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 40 / 42

Page 41: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Zusammenfassung

• Es wurde gezeigt:

– Motivation fur (semi-) automatische Termextraktion– Laufende Arbeiten fur Extraktion aus Web-Daten– Einfache Verfahren der Extraktion

* Einzelworter durch Frequenzanalyse* Mehrwortausdrucke durch Suchmuster* Kollokationen durch Suche in syntaktisch annotiertem Text

– Morphologische Gruppierung der Ergebnisse

• Laufende Arbeiten – offene Fragen

– Wieviel linguistisch-terminologische Klassifikation brauchen Ubersetzer?(MW-Term ↔ Kollokation)

– Wie findet man (nur) domanenrelevante Terme?– Welche Textsorten sind (zuverlassig) fachwortschatzrelevant?

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 41 / 42

Page 42: Extraktion von Fachwortschatz aus Texten - uni-heidelberg.de · Pharmakokinetik 3426 H amoglobinwert 3395 Fertigspritze 3271 Ribavirin 3234 Gebrauchsinformation 2801 Dosisanpassung

Nachste Schritte

• Web-Crawler: mehr relevante Ergebnisse(Projekt TTC: Syllabs, Paris)

• Extraktionstechniken:

– weitere Suchmuster: Große der Einheiten?– Kombination mit Valenzextraktion– Verbesserung der mophologischen Gruppierung:

Mehr Daten aus “kleinen” Korpora– Ausbau der Kollokationssuche fur die Gemeinsprache:

* Idiomatische Wendungen (mit Verben)* Variation nach Region, Textsorte, etc.

• Linguistische Eigenschaften der Termkandidaten

– Morphologische Struktur– Praferenzen unter morphologisch verwandten Termen/Kollokationen– Ggf. Kontrastivitat DE ↔ Romanische Sprachen

Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 42 / 42