sehr große korpora für große wörterbücher manfred pinkal kolloquium korpus-annotierung...
TRANSCRIPT
Sehr große Korpora für große Wörterbücher
Manfred Pinkal
Kolloquium Korpus-AnnotierungSaarbrücken, 15.2.02
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 2
Lexika
Bedeutungswörter-bücher für sprachtechnologische Anwendung
Wörterbücher
für sprachtechnologische Anwendung
Bedeutungswörter-bücher für menschliche Benutzer
Wörterbücher für menschliche Benutzer
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 3
Lexika
Bedeutungswörter-bücher für sprachtechnologische Anwendung
Wörterbücher
für sprachtechnologische Anwendung
Bedeutungswörter-bücher für menschliche Benutzer
Wörterbücher für menschliche Benutzer
Wahrig-Projekt I
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 4
Lexika
Bedeutungswörter-bücher für sprachtechnologische Anwendung
Wörterbücher
für sprachtechnologische Anwendung
Bedeutungswörter-bücher für menschliche Benutzer
Wahrig-Projekt II
Wörterbücher für menschliche Benutzer
Wahrig-Projekt I
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 5
Lexika
Bedeutungswörter-bücher für sprachtechnologische Anwendung
Leibniz-Projekt
Wörterbücher
für sprachtechnologische Anwendung
Bedeutungswörter-bücher für menschliche Benutzer
Wahrig-Projekt II
Wörterbücher für menschliche Benutzer
Wahrig-Projekt I
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 6
Das Wahrig Textkorpus digital
• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 7
Das Wahrig Textkorpus digital
• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000
• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 8
Das Wahrig Textkorpus digital
• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000
• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel• Neue Zürcher Zeitung• Der Standard
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 9
Das Wahrig Textkorpus digital
• Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000
• Berliner Zeitung• Süddeutsche Zeitung• Der Spiegel• Neue Zürcher Zeitung• Der Standard• Spektrum der Wissenschaft (ab 1993)• Brigitte (ab 1997)
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 10
Das WTD: Umfang
• 450 Mio. Textwörter
Verteilung auf Publikationsorgane
Süddeutsche Zeitung
34%
Berliner Zeitung23%
Spiegel5%
Neue Zürcher Zeitung
24%
Standard12%
Spektrum1%
Brigitte1%
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 11
Das WTD: Struktur
• XML-Format (CES/TEI)• Kodierung meta-linguistischer Header-Information
beim Dokument (z.Zt. 20 Tags)• Kodierung linguistischer Information beim Token
(später)• Markierung von Nicht-Texten („Schrottfilter“):
zwischen 1 und 10% des Umfangs ausgefiltert
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 12
Metalinguistische Information
• <abschnitt>
<ressort>Nachrichten</ressort>
<rubrik>SPORT AKTUELL</rubrik>
</abschnitt>
• <titel>
<dt>Neue Ideen, Kraftfahrzeuge optimal erscheinen zu lassen</dt>
<t>Wenn die Lichter angehen</t>
<ut>Bei Hecklichtern und Innenraumbeleuchtung werden Sicherheit und Komfort ausgebaut</ut>
</titel>
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 13
Schrott
• <p>Primärmarktkurse für Franken-Neuemissionen </p><p>Betrag Emissions-Rendite(inMio.) CouponZeichnungsfristLiberierungpreisGeldBrief(in%)Inlandschuldner12513/4Eurofima99/0410.5.9917.5.99100,900 2,000 1,8001,9430021/4KantonBern99/0730.4.9918.5.9999,800 1,350 1,1502,4420027/8KantonalbankAargau99/08 ... </p>
(NZZ 1999)
• <p>1. Bundesliga Herren: Alba Berlin - TuS Herten 115:94, Bayer Leverkusen - TVG Trier 91:69, Tally Oberelchingen - MTV Gießen 55:59, Hitachi Landshut - Steiner Bayreuth 80:89; Spitze: 1. Bayer Leverkusen 28:2 Pkt., 2. Alba Berlin 24:4, 3. Brandt Hagen 22:8, 4. TTL Bamberg 20:8.</p>
(Berliner Zeitung 1996)
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 14
Das WTD im Vergleich
Umfang Anz. Dokumenttypen
BNC 100 Mio. 4000
DWDS 150 Mio.(500 Mio.) 1500
IdS ? ?
WTD 450 Mio. 7
FR/WSJ 1
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 15
Linguistische Annotation I
• Wortart-Tagging (TnT, STTS)– Korrektheit ca. 96,5 %– Nach Training Korrektheit ca. 97,5 %
• Lemmatisierung, zweifach, auf der Basis von– Bertelsmann deutsche Rechtschreibung– Wahrig, Deutsches Wörterbuch– Korrektheit >96 %
• Harmonisierung der Rechtschreibung (Corrigo)
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 16
Lückensuche: SZ 5/99
• Ausgangsbasis: Liste nicht-lemmatisierter Tokens
Lemma gefunden
Kein Lemma
3,0 Mio. Textwörter
80% 20%
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 17
Automatische Auswahlverfahren I
• Ausfiltern von:
• Eigennamen (BLV- Eigennamenlisten): 0,5%• Eigennamen (Tagger): 16%• Fremdsprachiges Material (Tagger): 2%• Abkürzungen: 0,3%• Nichtwörtern (ßenseiter, schööön, www.festspiel-plus-
heimat.de ...): 4,6% (Wortfilter, reg. Ausdrücke)• „irrelevanten Wörtern“ (Straßennamen, Ortsableitungen,
Wörter mit vielen Bindestrichen ...): 22% (Wortfilter, reg. Ausdrücke)
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 18
Filterung
Ca. 450.000 Textwörter, 135.000 Wortformen, 90.000 gute Kandidaten
Fremdsprachl. Material
2%
schlechte Wörter22%
Abkürzungen0,3%
Nichtwörter4,6%
Eigenname (listenbasiert)
0,5%
Eigenname (Tagger)16%
Kandidaten54,6%
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 19
Automatische Auswahlverfahren I
• Weitere Reduktion durch Trunkierung:
Bsp:
[Abgeordnetensitzes, Abgeordnetensitzen, Abgeordnetensitze] > Abgeordnetensitz
[Abhörprotokoll, Abhörprotokollen, Abhörprotokolle] > Abhörprotokoll
[abbrannte, abbrannten] > abbrannten
• wortartspezifische Reduktion um ca.:
Nomen 16%, Verben 17%, Adjektive 56%
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 20
Stichprobe: 1000 Wörter Rohliste
?37%
im Wahrig6%
kein Eintrag32%
Neologismen4%
Lücken21%
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 21
Beispiele
• gute Kandidaten/Lücke:– Tierhaltung, Wahlhelfer, Wohngebiet, zerstörerisch
• gute Kandidaten/Neologismus– Datenautobahn, Docu-Soap,Kinderfreibetrag,
Solidaritätszuschlag, Abfallwirtschaft
• falsche Kandidaten:– wolfsburger, Xetra-Computerhandel, zweitgrößter,
Überraschungskonzert, ästhetisch-harmlos
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 22
Automatische Auswahlverfahren II
• Streuung über Jahrgänge und Titel:• positive Bewertung: z.B. Frequenzsteigung über mehrere
Jahrgänge hinweg (floppen: 2/5/5/13/27 über 5 Jahrgänge SZ)
• positive Bewertung: regional interessantes Vorkommen nur in einem Titel wie NZZ (auszonen)
• negative Bewertung: z.B. Vorkommen (fast) nur in einem Titel (Klausenerplatz: Gesamtfrequenz 79, davon 77 Berliner Zeitung)
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 23
Wahrig,Deutsche Rechtschreibung
• 5000 Neuaufnahmekandidaten:
80% mit Bewertungsverfahren ermittelt / 20% nach höchster Gesamtfrequenz
ca. 78% Substantive, 17%Adjektive, 5% Verben
• 570 schweiz./850 österr. Kandidaten
• Ca. 700 als Lemmata übernommen• 400 aus anderen Quellen (v.a. Sprachberatung)
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 24
schwächeln:Häufigkeit in Jahrgängen
Jahr Vorkommen
1996 41997 71998 251999 512000 81 0
10
20
30
40
50
60
70
80
90
in 1996 in 1997 in 1998 in 1999 in 2000
Vorkommen
Vorkommen
0
10
20
30
40
50
60
70
80
90
in 1996 in 1997 in 1998 in 1999 in 2000
Häufigkeit
Vorkommen
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 25
schwächeln:Häufigkeit in Ressorts
Gesamt Sport Andere
1996 4 3 11997 7 5 21998 25 15 101999 51 19 322000 81 31 50
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 2 3 4 5
Reihe2
Reihe1
0
10
20
30
40
50
60
70
80
90
1 2 3 4 5
Reihe2
Reihe1
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 26
Neue Verwendungen
• Tagger (ADJD) gegen Lemmatisierer (Verb)
zunehmend, überwiegend, genügend, vorwiegend, besorgt, begeistert, zwingend
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 27
Häufigkeit von Verbbelegen
stellen 166751 bestellen 12203setzen 117929 entsetzen 2330gehen 354262 entgehen 5400
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 28
Leichenschau
• Abelmoschus, Abendfalter, Abendländerin, Abenduniversität, abendwärts, Abendweite, Aberhundert, Aberraute, aberrieren, Abersaat, Abertausend, ABF, abfasen, abfasern, abfleischen, abfluchten
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 29
Signifikante Belege
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 30
Definitionen: Beispiele
• Unter Telematik versteht man technische Systeme, die die Verkehrsströme so intelligent verteilen und steuern sollen, dass auf der vorhandenen Verkehrsfläche mehr Autos flüssiger vorankommen.
• Unter Ligaschießen versteht man ein freies Schießen, bei dem sich mehrere Vereine für das Finalschießen qualifizieren.
• Unter Ökostrom versteht man Energie, die aus Wasser- und Windkraft, Biomasse oder Sonne erzeugt wird.
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 31
Definitionen: Mehr Beispiele
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 32
Morphologie: Wortschatzgruppierung
Minister
Bundesminister
Exminister
Kriegsminister
Kultusminister Kultusministerin
Premierminister
Reichsminister
Agrarminister
Arbeitsminister
Arbeitsministerin
Außenminister
Außenministerin
Bauminister
Bundesminister
Bundesministerin
Europaminister
Finanzminister
Gesundheitsministerin
Handelsminister
Innenminister
Justizminister
Kanzleramtsminister
Kultusminister
Kultusministerin
Landwirtschaftsminister
Olympiaminister
Premierminister
Sozialministerin
Staatskanzleiminister
Staatsminister
Tourismusminister
Umweltminister
Verkehrsminister
Verteidigungsminister
Wirtschaftsminister
Wohnungsbauminister
Bundesarbeitsminister
Bundesbildungsminister
Bundesfinanzminister
Bundeswirtschaftsminister
DDR-Staatssicherheitsmin.
Kultur-Staatsminister
SPD-Innenminister
US-Außenminister
US-Verteidigungsminister
15.2.02 Manfred Pinkal, Sehr große Korpora für große Wörterbücher 33
Lexika
Bedeutungswörter-bücher für sprachtechnologische Anwendung
Leibniz-Projekt
Wörterbücher
für sprachtechnologische Anwendung
Bedeutungswörter-bücher für menschliche Benutzer
Wahrig-Projekt II
Wörterbücher für menschliche Benutzer
Wahrig-Projekt I