korpuslinguistik - ids | ids

1

Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 1]

Ringvorlesung “Methoden”, HS 2009

Korpuslinguistik

Stefan Engelberg

(Institut für Deutsche Sprache & Universität Mannheim)‏


1 Textkorpora

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

Textkorpus: Ein Textkorpus ist eine Sammlung von sprachlichen Äußerungen, die als Grundlage empirischer linguistischer Untersuchungen dient.

(Im heutigen Gebrauch meist Textkorpus = elektronisches Textkorpus)

1.1 Was sind Textkorpora?

Elektronisches Textkorpus: Ein elektronisches Textkorpus ist ein Textkorpus als digitale Ressource, die mithilfe von Software (Korpusrecherchesoftware) auf sprachliche Muster hin untersucht werden kann.

2


Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006.

Typen von Korpora

Sprachmedium: Korpora geschriebener / gesprochener Sprache

Geltungsbereich: Referenzkorpora (für eine Sprache in ihrer Gesamtheit) / Spezialkorpora

Sprecherkompetenz: Lernerkorpora / Korpora zum Erstspracherwerb, …

Korpusaufbereitung: (grammatisch) annotierte vs. nicht-annotierteKorpora

Sprachstadium: historische Korpora / Korpora der Gegenwartssprache

Sprachenanzahl: einsprachige Korpora / Parallelkorpora, Vergleichskorpora

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Deutsches Referenzkorpus (Institut für Deutsche Sprache): fast 4.000 Mio. Textwörter; Zeitungen, Belletristik, Sachtexte, …, ab 1950

enthaltene Einzelkorpora (Ausschnitt)

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

3


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen

4.1 4.2

https://cosmas2.ids-mannheim.de/cosmas2-web

Konkordanz zu dem Lexem Zylinder


DWDS-Kernkorpus(Berlin-Brandenburgische Akademie): 100 Mio. Textwörter; Zeitungen, Belletristik, Fachtexte, gesprochene Sprache; Texte ab 1900

http://www.dwds.de

Kookkurrenzanalyse zu blond

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

4


Dortmunder CHAT-Korpus: Korpus aus 140.000 Chat-Beiträgen mit ca. 1 Mio. Textwörtern.

http://www.chatkorpus.tu-dortmund.de/

Korpuszusammensetzung (Ausschnitt)

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


TiGer-Korpus (Potsdam, Stuttgart, Saarbrücken); 0,9 Mio. Textwörter; Sätze mit grammatischen Struktur-beschreibungen (Treebank / Baumbank).

Aus: Noah Bubenhöfer: Einführung in die Korpuslinguistik, <http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=weitere_tiger.html>

Darstellung einer Satzstruktur im TiGer-Korpusunter TiGer-Search

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

5


FALKO (Humboldt-Univ. Berlin): fehlerannotiertes Lernerkorpus DaF.

http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko

Beispiel für Fehlerannotation

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


… und noch einige (zumindest in Teilen) frei verfügbare Korpora des Deutschen

Historisches Korpus am IDS: ca. 60 Mio. Textwörter (wachsend), Zeitungen, Bellestristik, Sachtexte, …, 17.-20. Jh.

ZEIT-Korpus (Berlin-Brandenburgische Akademie); 448 Mio. Textwörter; Texte aus der ZEIT seit 1946.

Archiv für Gesprochenes Deutsch (Institut für Deutsche Sprache); gesprochene Sprache ca. 8000 Interaktionen, Interviews, Monologe, Erzählungen, Beratungsgespräche, Diskussionen.

Schweizer Textkorpus (Universität Basel): 20 Mio. Textwörter, Zeitungsartikel, Werbung, Formulare, Anleitungen, Ratgeber, populäre Fachliteratur, Jugend- und Trivialliteratur, Belletristik etc.

Vgl. auch die Übersichten in: Lemnitzer, Lothar, and Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. / Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

6


1.2 Wo werden Textkorpora eingesetzt?

1 Textkorpora

Korpora werden bei verschiedenen sprachwissenschaftlichen Aufgaben verwendet:

Theoretische Linguistik: von der Überprüfung von Hypothesen bis zur automatischen Ermittlung grammatischer Regularitäten.

• Ermittlung von Wortstellungsregularitäten• Berechnung der Produktivität von Wortbildungsmorphemen• Überprüfung der formalen und inhaltlichen Varianz von „festen“ Wendungen• Untersuchung der Praxis der Getrennt- und Zusammenschreibung• Ermittlung der Valenzvarianz von Verben• …

Grammatikographie: korpusbasierte Erstellung von deskriptiven und Lernergrammatiken einer Sprache.

• Anführung von Korpusbelegen für grammatische Strukturen• Ermittlung der Häufigkeit und Verteilung von grammatischen Strukturen• …

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Lexikographie: korpusbasierte Erstellung von Wörterbüchern.

• Ermittlung von Worthäufigkeiten• Bestimmung von festen Wortverbindungen• Ermittlung typischer Verwendungskontexten• Sammlung authentischer Korpusbelege• Ermittlung von Neologismen, Archaismen und Wortgebrauchsverläufen• Einbindung von Korpora in elektronische Wörterbücher als Textressource• …

Computerlinguistik: Unterstützung computerlinguistischer Verfahren und Unterstützung der Korpuslinguistik durch computerlinguistische Verfahren.

• automatisches Textverstehen• Ressource für Information Retrieval• automatische Annotation• Named-entity-Erkennung• Regellernen auf Trainingskorpora• …

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

7


Scherer, Carmen (2006): Korpuslinguistik. Heidelberg: Winter, 2006.Lemnitzer, Lothar & Heike Zinsmeister (2006): Korpuslinguistik. Eine Einführung. Tübingen: Narr.

• Analyse von Lernerfehlern• Ermittlung gebrauchshäufiger Phänomene• authentische Belege für Sprachverwendung• Korpora im Klassenraum• …

Fremdsprachenunterricht: „Authentifizierung“ und Relevanzgesteuertheit von Lehrmaterialien.

Übersetzung: übersetzungswissenschaftliche Untersuchungen.

• Überprüfung von Übersetzungsstrategien in Parallelkorpora• Ermittlung von Übersetzungsäquivalenten • …

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


1.3 Warum benutzt man Textkorpora?

1 Textkorpora

Probleme mit Beispielen, die von Linguisten / Lexikographen / Lehrwerkproduzenten selbst erzeugt und/oder beurteilt werden:

Grund 1: Authentizität

Textkorpora spiegeln natürliche Sprache in einer natürlichen (nicht metasprachlichen) Äußerungssituation wider.

• Was in metasprachlichen Betrachtungen als unakzeptabel beurteilt wird, spiegelt nicht die tatsächlichen Gebrauchspräferenzen wider.

a) Ich war die Unterlagen am Durchsehen.

• Dialektale oder soziolektale Aspekte des eigenen Sprachgebrauchs werden oft nicht erkannt.

• Bei Beispielen, die die eigene Theorie stützen, ist der Linguist oft großzügig mit seinem Grammatikalitätsurteil.

b) Ich trink mir mal ein Bier.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

8


Grund 2: Varianz

Textkorpora dokumentieren die Varianz und Vielfalt sprachlicher Phänomene.

Grube: ... wer andern eine ~ gräbt, fällt selbst hinein (Sprichw.) …

Wahrig, Gerhard: Deutsches Wörterbuch. Gütersloh, München: Bertelsmann 1975.

https://cosmas2.ids-mannheim.de/cosmas2-web

a) Er, der normalerweise anderen eine Grube gräbt, wurde nun selbst voll erwischt. Bei der Moderation zur neuen SAT.1-Naturreihe "Weltgeschichte des Tierfilms" (Start im November) am Originalschauplatz in Zaire wurde Fritz Egner plötzlich von einem riesigen Gorilla-Mann attackiert.

b) Und Fairneß wird auf dem Fairway großgeschrieben. Wer andern ein Loch gräbt, fällt selbst hinein. Diese Warnung wiederholt Golflehrer Claes Fellbom, der auf dem Landestheatergrün Regie führt, oft.

c) Elfriede Jelinek würdigte einen bedeutenden Dichter, der von genau den Leuten angegriffen werde, die in 1000 Jahren von der deutschen Sprache nicht das verstehen würden, was Artmann im kleinen Finger habe. Gerhard Rühm ließ in einer Grußbotschaft wissen "Wer Artmann eine Grube gräbt, fällt selbst hinein".

d) Nun, die Ruhe vor dem Sturm gibt es ja in ihrer speziellen Form nur dann, wenn die entsprechend genommene Rache tatsächlich süß ist, im gleichen Moment der rollende Stein kein Moos ansetzt, die Blinde im Bett wirklich der Taube auf dem Dach vorgezogen wird und man anschließend einer anderen Person eine Grube gräbt, letztendlich jedoch selbst das Schwein ist!

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Grund 3: Maschinenlesbarkeit

Die Maschinenlesbarkeit ermöglicht eine Ausweitung und Ökonomisierung umfangreicher Datenanalysen.

<Online am 3.11.2009: http://www.ids-mannheim.de/kl/projekte/korpora/archiv.html#Umfang>

• Bearbeitung großer Textmengen in kurzer Zeit

• Vielfältige Such- und Analysemöglichkeiten

• Sortierung und Klassifikation großer Datenmengen

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

9


Grund 4: Berechenbarkeit

Die maschinelle Bearbeitung in Verknüpfung mit geeigneten Korpusanalyseverfahren erlaubt es, quantiative Verfahren der Datenerhebung auf einem großen Datenbestand durchzuführen.

• Lexikalische Frequenzanalysen• Zeitverlaufsanalysen des Sprachgebrauchs• Kookkurrenzanalysen• Produktivitätsberechnungen• Analysen regionaler Verteilung von Phänomenen• …

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


DSAv = Deutsches Spracharchiv des Instituts für Deutsche Sprache (Korpora gesprochener Sprache). <Online am 3.11.2009 http://dsav-wiss.ids-mannheim.de/DSAv/WFTOP100.HTM>.

Wortformen-typ

zugehörige Wortformen

prozentualer Anteil Beispiel 1: Wortfrequenzen

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

10


Beispiel 2: Zeitverlaufsgraphiken

Veränderungen in der Gebrauchs-häufigkeit des Wortes Frack von 1900-2000 (im DWDS-Kernkorpus)

<Online am 3.11.2009 http: www.dwds.de>. <Online am 3.11.2009 http: www.owid.de/Neologismen/index.html>.

Veränderungen in der Gebrauchshäufigkeit des Wortes Spam von 1990-2009 (im Deutschen Referenzkorpus)

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Beispiel 3: Kookkurrenzanalyse

Kookkurrenzanalyse: Feststellung von Vorkommenskorrelationen, insbesondere, ob ein Wort A mit einem Wort B häufiger zusammen vorkommt als es eine Zufallsverteilung von A und B erwarten ließe.

<Online am 3.11.2009 http: www.dwds.de>.

Kookkurrenzanalyse zu schwarz(im DWDS-Kernkorpus)

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

11


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen

4.1 4.2

Kookkurrenzanalyse zu abziehen

Stärke der Verbindung zwischen den beiden Wörtern (hier: 796)

Primäre Kookkurrenzpartnerzu abziehen (hier: Einkommen)

Sekundäre Kookkurrenzpartner zu abziehen + Einkommen (hier: steuer-pflichtigen, steuerbaren, versteuernden)

Typische syntagmatische Muster, in denen die Verbin-dungen vorkommen, z. B. vom Einkommen abziehen

Belica, Cyril (2008): Kookkurrenzdatenbank CCDB - V3.2. <http://corpora.ids-mann-heim.de/ccdb/>.


Grimm, Jacob & Wilhelm Grimm (1854). Deutsches Wörterbuch. Bd. 1.: A – Biermolke. Leipzig: Hirzel.Jespersen, Otto (1909-1949), A Modern English Grammar on Historical Principles. London: George. Johnson, Samuel (1755): A Dictionary of the English Language. 2 vol. London: Strahan.Meyer, Charles F. 2008. Pre-electronic corpora. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An

International Handbook. Teilband 1. Berlin, New York: de Gruyter, 1-14.

2 Highlights aus der Geschichte der Korpuslinguistik

• 4. Jh. v. Chr.: Vedisches Korpus als Grundlage der Sanskrit-Grammatik Pāņinis.

• spätes 16. Jh.: Erster Gebrauch von authentischen Belegen in Wörterbüchern (vgl. Meyer 2008).

• 1775: Popularisierung von authentischen Belegen durch Johnsons „Dictionaryof the English Language“ (150.000 angeführte Belege; Zusammensetzung des Korpus nicht bekannt).

• Mitte 19. Jahrhundert: Vorarbeiten zum Deutschen Wörterbuch; Sammlung von 600.000 Belegen.

• ab spätem 19. Jh.: Erste Auflage des Oxord English Dictionary (publ. 1928), basierend auf einer Sammlung von 4 Mio. Belegen (vgl. Meyer 2008).

2.1 Prä-elektronische Korpora

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

12


Fries, Charles Carpenter (1952), The Structure of English. New York: Harcourt Brace.Jespersen, Otto (1909-1949), A Modern English Grammar on Historical Principles. London: George. Quirk, Randolph (1974), The Linguist and the English Language. London: Edward Arnold.Thorndike, Edward L. and Lorge, Irving (1944): The Teacher's Word Book of 30,000 Words. Teachers

College, Columbia University, New York.

• frühes 20. Jh.: Jespersens korpusbasierte englische Grammatik: „With regard to my quotations, which I have collected during many years of both systematic and desultory reading, I think that they will be found in many ways more satisfactory than even the best made-up examples, for instance those in Sweet’s chapters on syntax.“

• 1930er Jahre: englischsprachiges Korpus (18 Mio. Textwörter) als Grundlage für Unterrichtsmaterialien (Thorndike & Lorge 1944).

• 1950er Jahre: Korpus von Transkriptionen gesprochener Äußerungen (0,25 Mio. Textwörter) als Grundlage einer Grammatik (Fries 1952).

• frühe 1960er Jahre: Erstellung eines bezüglich Textsorten und Medium (gesprochen, geschrieben) ausgewogenen Korpus als Grundlage des „Surveyof English Usage “ (1 Mio. Textwörter, ergänzt durch Erhebungen von Sprecherurteilen; vgl. Quirk 1974).

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Johansson, Stig 2008. Some aspects of the development of corpus linguistics in the 1970s and 1980s. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An International Handbook. Teilband 1. Berlin, New York: de Gruyter, 33-53.

Kupietz, Marc & Holger Keibel 2008. The German Reference Corpus (DeReKo) as a basis for empirical linguistic research. Working Papers in Corpus-based Linguistics and Language Education (Tokyo University of Foreign Studies) 3.

2.2 Elektronische Korpora

• 1961: Brown Corpus (1 Mio. Textwörter; geschriebenes amerikanisches Englisch, verschiedene Textsorten; vgl. Johansson 2008).

• 1967: Mannheimer Korpus I als Grundlage des Deutschen Referenzkorpus(IDS, 2,2 Mio. Textwörter; vgl. Kupietz & Keibel 2008).

• frühe 1970er: LIMAS-Korpus (gut 1 Mio. Textwörter; Bonn, Regensburg; geschriebenes Deutsch).

• 1970er: Lancaster-Oslo-Bergen-Corpus (1 Mio. Textwörter; geschriebenes britisches Englisch).

• 1970er: Wortart-Tagging des Brown-Korpus (vgl. Johansson 2008).


1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

13


Geyken, Alexander 2007. The DWDS corpus: A reference corpus for the German language of the 20th century In: C. Fellbaum (ed.), Idioms and Collocations: Corpus-based Linguistic and Lexicographic Studies (Research in Corpus and Discourse). London, New York: Continuum, 23-40.

Renouf, Antoinette 2007. Corpus Development 25 Years on: from Super-Corpus to Cyber-Corpus. In: R. Facchinetti (ed.), Corpus Linguistics 25 Years on. Amsterdam, New York: Rodopi, 27-49.

Sinclair, John (Hg.): Collins COBUILD English Language Dictionary. London, Glasgow: Collins, 1987.

• frühe 1980er: Birmingham-Korpus (20 Mio. Textwörter, geschrieben & gesprochen); führt im Rahmen des Collins-Cobuild-Projekts zum ersten strikt auf einem spezifischen elektronischen Korpus basierenden Wörterbuch (Sinclair 1987; vgl. Renouf 2007).

• 1991: das WWW als dynamisches, ungesteuertes, durchsuchbares Textrepositorium (seit den späten 1990ern für linguistische Zwecke genutzt).

• 2000: Deutsches Referenzkorpus (IDS; über 1.000 Mio. Textwörter; größtenteils Schirftsprache).

• 2003: DWDS-Kernkorpus (100 Mio. Textwörter; Wortarten-Tagging; verteilt über Textsorten und die 10 Dekaden des 20. Jhs.; vgl. Geyken 2007).

• 2010: Deutsches Referenzkorpus (IDS); über 4.000 Mio. Textwörter ?

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


• 13. Jh.: Indizes und Konkordanzen zur Bibel seit dem 13. Jahrhundert (Hugo von St. Charo, vgl. Meyer 2008).

• 18. Jh.: Hervorhebung des Nutzens von Konkordanzen für semantische Studien; sie werden genutzt „to compar[e] the several significations of thesame word“ (Cruden 1737); Ayscoughs Shakespeare-Index bezweckte ebenfalls „to point out the different meanings to which the words are applied“(vgl. Stubbs 2009).

• 1950er Jahre: elektronische KWICs zur Darstellung von Konkordanzen werden entwickelt (vgl. Stubbs 1990:18).

Ayscough, S. (1790): An Index to the Remarkable Passages and Words Made Use of by Shakespeare; Calculated to Point out the Different Meanings to Which the Words are Applied. Lodnon: Stockdale.

Cruden, A. (1737): A Complete Concordance to the Holy Scriptures. Londin: Tegg.Stubbs, Michael (2009): Technology and phraeology. With notes on the history of corpus linguistics. In: U.

Römer & R. Schulze (eds.). Exploring the Lexis-Grammar Interface. Amsterdam, Philadelphia: Benjamins, 15-31.

2.3 Korpusanalyseverfahren

Konkordanzen


1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

14


• 1890er Jahre: Große Erhebung zu Wortfrequenzen des Deutschen mit dem Ziel der Entwicklung einer verbesserten Kurzschrift (Korpus aus über 300 Büchern mit 11 Mio. Textwörtern; Frequenzwörterbuch; Kaeding 1897/1898, vgl. auch Aichele 2005).

• 1952: Gebrauch von korpusbasierten Frequenzinformationen bei der Grammatikschreibung (Fries 1952).

• 1975: erstes auf elektronischen Korpora basierendes Frequenzwörterbuch (Allén et al. 1975).

Aichele, Dieter: Quantitative Linguistik in Deutschland und Österreich. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, S. 16-23

Allén, Sture et al.: Nusvensk frekvensordbok. Stockholm: Almqvist & Wiksell.Kaeding, Friedrich Wilhelm (1897/1898Hrsg.): Häufigkeitswörterbuch der deutschen Sprache 1, 2.

Selbstverlag, Berlin-Steglitz 1897/98. (Teilreprint in: Grundlagenstudien aus Kybernetik und Geisteswissenschaft 4/ 1963. Beiheft)

Frequenzanalysen

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


• Ende der 1950er: an Auftretenswahrscheinlichkeiten geknüpftes Kollokationsverständnis: „You shall know a word by the company it keeps. […] The habitual collocations in which words […] appear are quite simply themere word accompaniment […]. The collocation of a word [… is …] mutualexpectancy. […] Collocations are actual words in habitual company.“ (Firth 1957: 11ff, vgl. Stubbs 2009).

• Um 1970: erste korpusbasierte Kollokationsstudien durch John Sinclair (veröffentlicht als Sinclair 2004).

• 1970er: Entwicklung von Maßen zur Berechnung des Kolloktionsverhaltensvon Wörtern (Allén et al. 1975).

• 1995: öffentlicher, internetbasierter Zugriff auf die Kookkurrenzanalyse des IDS.

Firth, J. R. (1957): A synopsis of linguistic theory 1930-1955. Transactions of the Philological Sociaty. Special Volume: Studies in Linguistic Analysis, 1-32.

Sinclair, John (2004): New evidence, new priorities, new attitudes. J. Sinclair (ed.): How to Use Corpora in Language Teaching. Amsterdam, Benjamins, 271-299.

Kookkurrenzen

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

15


3 Debatten um …

3.1 … Repräsentativität

Häufiger Wunsch:

»Das Textkorpus soll repräsentativ sein. Nur dann sind Generalisierungen von den Ergebnissen einer Korpusstudie auf die Sprache insgesamt möglich.«

Verbreitete Auffassung von Textkorpora (nach McEnery, Xiao & Tono 2006):

„[…] a corpus is a collection of (1) machine-readable (2) authentic texts(including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.“

McEnery, Tony, Richard Xiao & Yuko Tono (2006): Corpus-Based Language Studies. An Advanced Resource Book. Milton Park: Routledge.

Was ist Repräsentativität?

Eine Datenerhebung (z.B. eine Korpuszusammenstellung) ist repräsentativ, wenn sie Aussagen über die Grundgesamtheit zulässt.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Repräsentativität muss bestimmt werden

• hinsichtlich der Grundgesamtheit, über die Aussagen gemacht werden sollen.• hinsichtlich des Merkmals, für das die Datenerhebung repräsentativ sein soll.

Bildquelle: <Online am 3.11.2009: http://www.fhr.nrw.de/informationstechnik/rasys/index.php>

Beispiel: Ist diese Gruppe junger deutscher Mitglieder der Verfahrenspflegestelle RASYS (als Stichprobe) repräsentativ für die deutsche Bevölkerung hinsichtlich des Merkmals Geschlecht?

Verteilung des Merkmals in der Stichprobe: ♀♀♀♀/♂♂♂♂22,2/77,8Verteilung des Merkmals in der Grundgesamtheit: ♀♀♀♀/♂♂♂♂51,1/48,9

NEIN

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

16


Noch ein Beispiel: Ist die Verteilung von Korpustexten im DWDS-Kernkorpus repräsentativ für die Verteilung von Textsorten in „der deutschen Sprache“?

Verteilung von Textsortenmerkmalen im DWDS-Kernkorpus (der Stichprobe):

Schöne Literatur ca. 26%Journalistische Prosa ca. 27%Fachprosa ca. 22%Gebrauchstexte ca. 20%(Transkribierte) Texte gesprochener Sprache ca. 5%

???

Verteilung von Textsortenmerkmalen in der Grundgesamtheit:

A ca. ?%B ca. ?%… ca. ?%

DWDS-Kernkorpus:

• ein „nach Textsorten ausgewogenes Corpus des gesamten 20. Jahrhunderts “• 100 Millionen Textwörter (tokens) in 79.830 Dokumenten

<Online am 3.11.2009: http://www.dwds.de/textbasis/kerncorpus>

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Option 1: Das große, vielfältige Korpus (Kupietz & Keibel 2009)

• große Menge an Texten (plus Stratifizierungsstrategien)• keine spezifische (auf „Repräsentativität“ abzielende) Verteilung• Optionen für den Nutzer, eigene (seinen Vorstellungen von

„Repräsentativität“ entsprechende) Subkorpora daraus zusammenzustellen

Option 2: Das „ausbalancierte“ Korpus (McEnery, Xiao & Tono 2006)

• Texte möglichst vieler verschiedener Genres (Reportage, Kochrezept, Streitgespräch, Roman, …)

• innerhalb eines Genres Texte aus möglichst verschiedenen Quellen• Texte mit möglichst vielen verschiedenen Themen (Sport, Religion, Natur,

Kunst)• gesprochene und geschriebene Äußerungen• mediale Vielfalt (Bücher, Zeitschriften, Gespräche, Internettexte, …)

Kupietz, Marc & Holger Keibel (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Working Papers in Corpus-based Linguistics and Language Education, No. 3 (pp. 53-59). Tokyo: Tokyo University of Foreign Studies (TUFS). <Online am 3.11.2009: http://www.ids-mannheim.de/kl/projekte/korpora/>


Was tun?

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

17


3 Debatten um …

3.2 … Annotationen

Metadaten (Daten über Daten): Daten zum Korpustext (z. B. Autor, Entstehungsdatum, Titel, Publikationsort, …)

Annotationen: linguistische Beschreibungen von Ausdrücken in Korpora (z. B. Wortartmarkierungen an allen Wörtern)

Pro Annotationen

• (je nach Art der Annotation) Suche nach bestimmten lexikalischen Typen möglich

• (je nach Art der Annotation) Suche nach abstrakten syntaktischen Mustern möglich

• …

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Beispiel 1: Annotationen in einem historischen Korpus (GerManC)

Kodierter Korpustext (im XML-Format) aus GerManC(deutsches Zeitungskorpus 1650-1800)Annotationsbeispiel:<s> Satz </s>

<foreign> Fremdwort </foreign><rs> Name </rs>

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

18


• Abfrage: "üben #5 aus with $p=PTKVZ"

• Gesucht werden: alle Sätze, die eine Abfolge von üben plus Verbpartikel ausim Abstand von bis zu fünf Wörtern enthalten

• Beispielergebnis: ... übt er ein Wahlamt aus ...

Beispiel 2: Wortarten-annotation in den DWDS-Korpora

• Abfrage:"$p=ADJA $p=NN"

• Gesucht werden: alle Sätze, die ein attributives Adjektiv gefolgt von einem Nomen enthalten

• Beispielergebnis: … großes Haus …

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Aus: Noah Bubenhöfer: Einführung in die Korpuslinguistik. <Online am 3.11.2009, http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=weitere_tiger.html>

Meurers, W. Detmar & Stefan Müller (2009): Corpora and syntax. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An International Handbook. Teilband 2. Berlin, New York: Mouton de Gruyter, 920-933.

Beispiel 3: Annotationen in einer Baumbank (TiGer-Korpus)

• Abfrage: (#n:[cat"S"] > [pos"PTKVZ"]) & (#n > [pos"VVFIN"]) • Gesucht werden: alle Sätze, in denen ein S-Knoten ein finites Verb (VVFIN) und eine

Verbpartikel (PTKVZ) dominiert• Beispielergebnis: ... übt er ein Wahlamt aus ...

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

19


Kontra Annotationen:

• Die automatischen, halbautomatischen oder manuellen Annotationen sind oft fehlerhaft (= entsprechen nicht den Annotationsvorschriften).

• Die dem Annotationsschemata zugrundeliegenden linguistischen Annahmen sind selten unstrittig. [Was ist eine „Verbpartikel“?]

• Annotationsfehler oder Schwächen des Annotationssystems konzentrieren sich im Bereich schwieriger (und deswegen besonders untersuchungswürdiger) Phänomene.

• Die Annotation „verunreinigt“ die Daten: Die Theorie, die wir durch die empirische Analyse erst gewinnen wollen, ist bereits durch die in den Annotationen manifesten linguistischen Vorannahmen präjudiziert.

Meurers, W. Detmar & Stefan Müller (2009): Corpora and syntax. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An International Handbook. Teilband 2. Berlin, New York: Mouton de Gruyter, 920-933.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


3 Debatten um …

3.3 … Korpusgesteuertheit

Korpusbasierte Linguistik (corpus-basedlinguistics): Korpusdaten werden genutzt, um linguistische Theorien zu testen, zu widerlegen oder zu exemplifizieren.

Korpusgesteuerte Linguistik (corpus-drivenlinguistics): Linguistische Theorien werden unter Vermeidung theoretischer Vorannahmen unmittelbar aus den Daten gewonnen.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

20


Parameter zur Unterscheidung von Korpusbasiertheit und Korpusgestütztheit

Wissenschaftsmethodik

corpus-driven corpus-based

stark induktiv eher deduktiv

Korporagroß, unbalanciert, unannotiert

balanciert, annotiert

Forschungsfokussprachliche Muster unabhängig von Sprachebenen

spezifische Phänomene in Syntax, Semantik,

etc.

StatusKorpuslinguistik als Disziplin (bzw. Paradigmenwechsel)

Korpuslinguistik als Methode / empirisches

Verfahren


1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


3 Debatten um …

3.4 … Web als Korpus

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

21


Lüdeling, Anke, Stefan Evert & Marco Baroni 2007. Using Web Data for Linguistic Purposes. In: M. Hundt, N. Nesselhauf & C. Biewer (eds.). Corpus Linguistics and the Web. Amsterdam,. New York: Rodopi, 7-24.

Verhältnis Korpus - WWW

(A) Web als Korpus

(i) Verwendung einer Suchmaschine (z. B. Google, AltaVista)

(ii) Verwendung einer Web-als-Korpus-Analysesoftware (z. B. WebCorp, KWICFinder); basiert auf Suchmaschinen

(B) Web im Korpus

(i) Automatischer Download von WWW-Seiten mit anschließender Bereinigung und Aufbereitung der Daten und Überführung in ein Korpus-Textformat

(ii) Selektive, kriteriengeleitete Erstellung eines Korpus aus WWW-Seiten

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Pro WebAlsKorpus:

• Das WWW ist die größte und aktuellste Sammlung sprachlicher Äußerungen in elektronischer Form.

• Aufgrund der Größe des WWW finden sich auch für seltene Phänomene hinreichend viele Belege.

• Im WWW sind Textgenres, Sprachstile, Sprachvarianten und Themenbereiche vertreten, die in bestehenden Korpora kaum repräsentiert sind.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

22


KWICFinder: <http://www.kwicfinder.com/KWiCFinder.html>

Abfrage mithilfe von KWICFinder: Konkordanz zu abziehen auf der Basis von Webseiten, die im Titel das Word „Chat“ enthalten.

Ziel: Aufspüren von Wortverwendung, die lexikographisch schlecht erfasst sind.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen

4.1 4.2

23


a. Ich bin und bleibe stolzer Tokio Hotel Fan wer damit ein problem hat der soll abziehen.

b. Die Leute die mich kennen, wissen, daß ich eigentlich eine ganz Friedfertige und Versöhnliche bin. Aber was hier einige Leute abziehen ... echt therapiebedürftig!!!

c. Das Leben geht weiter und dein Schwarm wird nie erfahren, dass du ihn hier eingetragen hast. Andere Eltern haben auch hübsche Kinder, und du kannst bei uns so viele Schwärme eintragen, wie du möchtest. Ist das nicht toll - du musst keine Show abziehen, du riskierst keinen Korb, du trägst einfach nur deinen Schwarm ein und wartest ab!

d. Leider kannst so'n Scheiß ja nich wirklich abziehen weil der Scheiß überall in deine Unterlagen kommt...

e. Die Suppe mit Salz abschmecken, mit verquirltem Eigelb abziehen und die Spargelstückchen hineingeben.

f. ich finde auch den preis etwas niedrig und der ebayer hat auch nur 2 bewertungen,habe deshalb ihn gefragt,ob wir das geschäft über den treuhandservice abwickeln können.jetzt warte ich auf seine antwort.nicht das der mich abziehen will,nur weil vielleicht zu wenig für das board geboten wurde.nicht mein problem.

g. Soll der Lüfter kühle Luft da rein pusten (ich weis nicht ob sich die Luft dann staut), oder die heiße Luft abziehen?

h. Bieretiketten kann mein einfach von der Flasche abziehen.

Beispielsätze aus der Konkordanz

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Schütze, Carson T. 2009. Web searches should supplement judgments, not supplant them. Zeitschrift für Sprachwissenschaft 28(1): 151-156.

Kontra WebAlsKorpus:

• Quantitative Analysen im Web sind problematisch, weil die Zusammensetzung des Web nicht bekannt ist.

• Im Web ist oft eine große Anzahl von Duplikaten eines Dokuments vorhanden.

• Die ständige Veränderung des Webs macht eine Replizierbarkeit von Abfrageergebnissen schwierig.

• Einzelbelege als Evidenz für ein Phänomen sind problematisch; sie könnten von Nichtmuttersprachler sein, ein unbeabsichtigter Fehler einesMuttersprachlers sein, eine automatisch generierte Äußerung sein (Schütze 2009).

• Der Anteil an unbeabsichtigten Fehlern ist im Web besonders hoch. (Wie oft muss ein Phänomen im WWW belegt sein, um schließen zu können, dass es ein Phänomen des Deutschen ist?)

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

24


Google-Abfrage:

>brahcte<

8990 Treffer

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Schütze, Carson T. 2009. Web searches should supplement judgments, not supplant them. Zeitschrift für Sprachwissenschaft 28(1): 151-156.

Forderungen:

• Die Anführung von Einzelbelegen aus dem WWW als Evidenz für ein Phänomen muss immer mit muttersprachlichen Sprecherurteilen abgesichert werden (Schütze 2009).

• Quantitative Analysen im WWW (z.B. Google-Trefferangaben) sind zu heuristischen Zwecken nutzbar. Für argumentationsrelevante Daten greift man besser auf WebImKorpus-Korpora zurück.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

25


Das Problem mit der negativen Evidenz: Korpora liefern keine negative Evidenz. Aus dem Nichtvorkommen eines Phänomens in einem gegebenen Korpus kann nicht auf das Nichtvorkommen des Phänomens in der Sprache insgesamt geschlossen werden.

3 Debatten um …

3.5 … Evidenz

• Traditionell basieren linguistische Argumentationen stark auf dem Gegenüberstellen des „Grammatischen“ und des „Ungrammatischen“. Das wird durch Korpora nicht unterstützt.

• Korpora erlauben es dagegen, das Gebräuchliche vom Ungebräuchlichen zu unterscheiden.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Seltene Phänomene: Was bedeutet es , wenn Phänomene „relativ selten“ in Korpora vorkommen?

Das Problem mit der positiven Evidenz: Korpora liefern auch keine eindeutige positive Evidenz. Aus dem Vorkommen eines Phänomens im Korpus kann nicht ohne weitere Überprüfung auf das Vorkommen in der Sprache geschlossen werden.

Möglichkeit 1 (Fehler): Das seltene Auftreten eines Phänomens kann darauf zurückzuführen sein, dass es sich um einen Fehler handelt.

• Rechtschreibfehler• Versprecher• Druckfehler• unbemerkter Satzplanungsfehler• unbemerkter Wortauslassungsfehler

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

26


Möglichkeit 2 (Varietätenspezifik): Das seltene Auftreten eines Phänomens kann darauf zurückzuführen sein, dass das Genre / die Varietät / die mediale Variante, dem das Phänomen zuzuordnen ist, im Korpus nicht / kaum vertreten ist.

Die Wendung einen Krebs fangen ist fachsprachlich.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

a) Manuel Morbitzer dagegen hatte Pech. Er führte sicher bis kurz vor dem Ziel, fing dann jedoch einen kapitalen Krebs. "Einen Krebs fangen" nennt man es, wenn sich das Ruderblatt zu früh dreht und so statt aus dem Wasser herauszukommen schlagartig in die Tiefe gezogen wird. Morbitzer kenterte zwar nicht, musste sich so aber mit Platz zwei begnügen.

b) Der Hochschulsport setzt erstmals 17 sogenannte Trimmis ein, die es auch Anfängern ermöglichen, auf einem der länglichen Boote mit Rollsitz zu rudern, ohne bei einem Fehler ins Wasser zu fallen. Die Boote sind breiter als gewöhnlich und kentern nicht, wenn ein Ruderblatt unabsichtlich im Wasser abtaucht - auf RuderFachchinesichnennt man das "einen Krebs fangen".

Frequenz von Redewendungen im Deutschen Referenzkorpus:

einen „Bären aufbinden“ 175„auf Draht“ sein 611auf die „Pauke hauen“ 484einen „Krebs fangen“ 4


Möglichkeit 3 (Sprachwandel): Das seltene Auftreten eines Phänomens kann darauf zurückzuführen sein, dass ein aktueller Sprachwandelprozesses vorliegt (Aufkommen oder Verschwinden des Phänomens).

Vorkommen von Rektionsvarianten von trotz im DWDS-Kernkorpus:

trotz mit Genitiv (z.B. trotz des Geschreis): ca. 91% der Korpusbelegetrotz mit Dativ (z.B. trotz dem Geschrei): ca. 9% der Korpusbelege

Die Dativrektion bei trotz ist seit dem ersten Drittel des 20. Jhs. im Rückgang begriffen (s. Verlaufsgraphik).

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

„trotz dem“ „trotz des“

27


Möglichkeit 4 (Übergeneralisierung): Das seltene Auftreten eines Phänomens kann darauf zurückzuführen sein, dass eine (nicht ganz regelkonforme ?) Übergeneralisierung vorliegt.

Vorkommen von Rektionsvarianten von gemäß im DWDS-Kernkorpus:

gemäß mit Dativ (z.B. gemäß dem Prinzip): ca. 98% der Korpusbelegegemäß mit Genitiv (z.B. gemäß des Prinzips): ca. 2% der Korpusbelege

Vermutung: Anpassung durch Übergeneralisierung an eine als stilistisch „feiner“empfundene Genitivrektion. Ein Sprachwandelphänomen liegt nicht vor (s. Verlaufsgraphik).

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

„gemäß des“ „gemäß dem“


Möglichkeit 5 (?): Manche Konstruktionen „sind einfach selten“ (vielleicht aus stilistischen / kontextuellen / referentiellen Gründen).

Vorkommen von Konstruktionsvarianten von reden im Deutschen Referenzkorpus:

intransitiver Gebrauch von reden: ca. 99% der Korpusbelegeresultativ-reflexiver Gebrauch von reden: ca. 1% der Korpusbelege

reden intransitiv reden resultativ-reflexiv

a) … solange er redet …

b) … er weiß, wovon er redet …

c) … er redet nicht darüber …

d) … er redet sich um Kopf und Kragen …

e) … wenn er sich in Rage redet …

f) … er redet sich selbst stark …

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

28


4 Suche nach bestimmten sprachlichen Mustern

Precison: Anteil der Treffer einer Korpusabfrage, die dem gesuchten sprachlichen Phänomen entsprechen (= true positives), an allen Treffern der Abfrage (= true & false positives).

4.1 Precison & Recall

Suche nach Belegen für ein bestimmtes sprachliches Phänomen

Formulierung einer Suchabfrage im Rahmen der Syntax der verwendeten Suchabfragesprache

Überprüfung der Treffermenge nach den Kritierien „Precison“ & „Recall“

Recall: Anteil der Treffer einer Korpusabfrage, die dem gesuchten sprachlichen Phänomen entsprechen, an allen Belegen für das sprachliche Phänomen im Korpus.

&

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


1) Suche nach allen Belegen in Kafkas Kurzprosa, die ein Wort mit dem Morphem herz enthalten.

2) Suche nach allen Belegen in Kafkas Kurzprosa, die ein Wort mit dem Morphem lunge enthalten.

Abfrage: Korpusanalyseprogramm AntConc; Verwendung von regulären Ausdrücken.

Abfrage1:

Abfrage2:

*herz*

*lunge*

Beispiel:

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

29


Precision: 67% (31/46)

Recall: wahrsch. 100% (46/46)

*herz*

true positives: 31

false positives: 15

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Precision: 14% (8/57)

Recall: wahrsch. 100% (8/8)

*lunge*

true positives: 8

false positives: 49

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

30


4.2 Linearisierung hierarchischer Strukturen

Komplexe sprachliche Ausdrücke haben gewöhnlich eine hierarchische Struktur

Die Syntax von Suchabfrage-sprachen erlaubt (meist nur) die Suche nach linearen Mustern.

Operationalisierung des hierarchischen Musters als Ausdruckssequenz mit dem Ziel: hohe Precision & hoher Recall.

Beispiel: Für eine Untersuchung zur Valenz von Adjektiven soll korpusbasiert überprüft werden, ob Adjektive in attributiver, pränominaler Position ihr präpositionales Komplement links vom Adjektiv realisieren.

(1) das auf ihren Hund stolze Mädchen(2) dem auf seine Erfolge stolzen Sportler(3) den auf ihre Performance stolzen Tänzern


1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Gesucht werden also Strukturen wie:

Pauf/NPAkk

NPAkk

Det

das auf seinen Hund stolze Mädchen

PPauf

AP

NP

DP

A/PPauf N

Kasus- / Numerus- / Genus-Kongruenz

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

31


Problem: Das verwendete Korpus (Zeit-Korpus; www.dwds.de) …

• hat Wortarten-Tags• kat keine Kasus-Tags• hat keine Phrasenstrukturannotationen (ist also keine Treebank)

Behelfsoperationalisierung:

• Wortarten-Tags nutzen• Phrasenstruktur durch linearen Ausdruck „behelfsoperationalisieren“

Suchausdruck: "auf #4 $p=NN #0 stolz #0 $p=NN"

Abfolge ("") von auf (auf), gefolgt im Abstand von bis zu vier Wörtern (#4) von einem Substantiv ($p=NN), unmittelbar gefolgt (#0) von einer Flexionsform von stolz (stolz), unmittelbar gefolgt (#0) von einem Substantiv ($p=NN).

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Die ersten sechs Belege: "auf #4 $p=NN #0 stolz #0 $p=NN"

1954 -- Das Angeln gefällt auch Wolodja, und so gewinnt der Agent schnell das Vertrauen des schwatzhaften und *auf* seinen berühmten *Vater* *stolzen* *Knaben*.

1955 -- Hier stellt sich offenbar die Frage, ob wir lieber Sozialversicherte oder innerlich selbständige (und *auf* ihre *Errungenschaften* *stolze*) *Eigentümer* haben wollen.

1958 -- Er will damit sagen, daß selbst der *auf* die Exaktheit seiner *Disziplin* *stolze* *Naturwissenschaftler* heute nicht mehr um die Einsicht herumkommt, daß er es bei seinen Beobachtungen und Experimenten im strengen Sinne nicht mehr mit der Natur, sondern mit der der menschlichen Fragestellung ausgesetzten Natur" zu tun hat, daß also die vom Menschen beobachtete Natur nicht zu trennen ist von dem Standort des Beobachters und von den Apparaten und Methoden, die er dabei einsetzt.

1959 -- Nach langen Mühen fand der geplagte Beamte zwei Anwärter, die beide *auf* *Nachfrage* *stolz* *Kopien* ihrer Diplome von Kairos berühmter Lehr- und Pflegestätte des muselmanischen Glaubens einsandten.

1965 -- Viele *auf* ihre *Kultur* *stolze* *Musikfreunde* dürften es Kempff hoch anrechnen, daß er Liszt verfehlt.

1965 -- Immerhin durften wir feststellen und das konnte den Behörden ja nicht unangenehm sein, daß das chinesische Volk nicht nur unbestritten das an Menschen reichste und fleißigste, sondern heute das sauberste, zuchtvollste und wohl auch *auf* seine *Leistungen* *stolzeste* *Volk* ist.

+

+

+

–

+

+

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

32


Syntaktische Struktur des False Positive

PP

AdvPNP

die auf Nachfrage stolz Kopien einsandten

V'

S

NP V/NP

Person- / Numerus-Kongruenz

"auf #4 $p=NN #0 stolz #0 $p=NN"

V'

VP

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


4.3 Precision versus Recall

Problem 1: In den meisten Fällen können wir den Recall nicht prozentual bestimmen, weil wir nicht wissen, wieviele Belege für ein sprachliches Phänomen im Korpus sind.

Problem 2: In den meisten Fällen führt eine Erhöhung der Precision zu einer Minderung des Recall und eine Erhöhung des Recall zu einer Minderung der Precision.

Beispiel: Ermittlung geeigneter Suchabfragen durch Berechnung von Precision und Recall als Vorarbeit einer größeren Korpusstudie.


1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

33


„Verlaufsformen“im Deutschen

Sie ist am Essen.

Sie ist beim Essen.

Sie ist essen.

am-Progressiv

beim-Konstruktion

Absentiv

� Ich bekahm um viertel nach 10 ne SMS mit guten Morgen, ob ich gut geschlafen hätte etc. Ich rief Ihn dann an und er war am essen. [Online, 20.5.2009, <http://bfriends.brigitte.de/foren/uber-treue-und-luegen-in-der-liebe/105192-ich-hasse-ihn.html>]

� Doch am allertollsten war es, als wir Cristiano Ronaldo gesehen haben. Wir standen unten vorm «Plaza», als wir ihn plötzlich hinter der Scheibe entdeckt haben. Er war beim Essen, aber irgendwann hat er sich umgedreht und uns zugewinkt. Ganz lange. [Online, 20.5.2009, <http://www.kinderbuero-basel.ch/content/was_macht/lobby_oeffentlichkeitsarbeit/documents/eurokids2.pdf>]

� Er meinte er war essen, und habe die Printausgabe für morgen gelesen![Online, 20.5.2009, <http://forum.express.de/showthread.php?p=96120>]

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Planung

Aufgabe: 1) Es sollen so viele Verben wie möglich gefunden werden, die den am-

Progressiv (z. B., ist am Schreiben, war am Essen, wäre am Lesen), die beim-Konstruktion und/oder den Absentiv erlauben.

2) Es sollen möglichst viele Belege zu jedem einzelnen Verb ermittelt werden.

Vorgehen:

1) Ausprobieren verschiedener Abfragen (COSMAS II, „Deutsches Referenzkorpus“).

2) Ermittlung der Abfrage, die das beste Verhältnis von Precision zu Recallergibt.

3) Abschätzung des Aufwands für eine exhaustive Korpusrecherche.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

34


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen

4.1 4.2Stichprobe:wahre Positive: 60%falsche Positive: 40%

Suchausdruck, hier: &sein am A*en


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen


Suchausdruck, hier: &sein am E*en

35


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen


Suchausdruck, hier: &sein am S*en


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen


Suchausdruck, hier: &sein am V*en

36


A (35 Lexeme / 129 Treffern, 27 Lexeme pro 100 Positive)

abbauenabfahrenabflauenabklärenabklingenabkühlenabnehmenabrollenabrüstenabsterbenabtretenanalysierenanlaufenarbeiten aufarbeitenaufbrechenaufholenaufräumenaufsteigen

aufstockenausarbeitenausblutenausbreitenauseinander-fallen

ausgehenausklingenauslaufenauslotenausprobierenausrastenausräumenausscheidenausschneidenaussterbenausziehen…einblasen

Verblexemeim am-Progressiv

E (20 Lexeme aus 72 Treffern, 28 Lexeme pro 100 Positive)

einfahreneinkaufeneinreicheneinrichteneinschlafeneinstimmen entstehenerblühenerfrierenerhebenerlöschenerodierenerrichtenerstickenerwachenerzählenessenevaluierenexplodieren

S (22 Lexeme aus 493 Treffern, 5 Lexeme pro 100 Positive)

V (21 Lexeme aus 71 Treffern, 30 Lexeme pro 100 Positive)

…säenschaffenschimpfenschlagenschließenschmelzenschreibenschrumpfenschüttenschweißenschwindensetzensich-selbst-zersetzen

sichtensiechensiedensingen

sinkensitzenskatensondierensortieren…verblassenverblühenverblutenverdauenverdurstenverebbenverendenverfallenvergoldenverlierenverlöschenverlumpenverrosten

verrottenverschwimmenverschwindenversiegenversinkenverteilenverwelkenvorbereiten…

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen

4.1 4.2

Precision: ca 20%Recall: ca. 1300 von x

Das Netz enger knüpfen: Variante 1

Daneben bin ich am AusprobierenDie Grippewelle sei offensichtlich am Abklingen… da das spätromantische Oratorium am Aussterben war …

Suchausdruck, hier: am A*en

37


1 Definitionen

1.1 1.2 1.3

2 Begriffe

2.1 2.2 2.3

5 Fallstricke

5.1 5.2 5.3 5.4

3 Forschungsablauf

3.1 3.2 3.3

4 Datentypen

4.1 4.2

Precision: ca 50%Recall: ca. 900 von x

Das Netz enger knüpfen: Variante 2

Suchausdruck, hier: &sein /w5 (am A*en)

Techno war gerade am AufkommenNoch am Abklären sei sie, ob …… wenn man am Arbeiten oder unterwegs ist


Ergebnis

• Manuelle Bearbeitung ist sehr aufwändig. Darum wurde Option 3 ausgeschlossen (zu geringe Precision). Option 1 erbrachte quantitativ ungenügende Belege (zu geringer Recall). Darum wurde nach Option 2 verfahren.

• Wir schätzten, dass die Korpussuche plus manuelle Bearbeitung etwa ein bis zwei Personenmonate benötigen würde. (Das hat sich bestätigt.)

180090050%&sein /w5 (am A*en)

6500130020%am A*en

1307860%&sein am A*en

Treffer gesamt

Recall(absolut)

PrecisionSuchausdruck

Vergleich der Ergebnisse der verschiedenen Abfragen

müssen manuell bearbeitet werden

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

38


Der Versuch einer exhaustiven Ausschöpfung eines Korpus ist oft mit einem Dilemma konfrontiert.

Strategie „Enges Netz“

• Suche: nicht restriktiv• Absolute Anzahl wahrer

Positive (Recall): hoch• Anteil wahrer Positive

(Precision): niedrig• Repräsentativität der

Stichprobe: hoch• Arbeitsaufwand: hoch

Strategie „Weites Netz“

• Suche: sehr restriktiv• Absolute Anzahl wahrer

Positive (Recall): niedrig • Anteil wahrer Positive

(Precision): hoch• Repräsentativität der

Stichprobe: niedrig• Arbeitaufwand: gering

Das Dilemma: Eine tendenziell positive Korrelation zwischen der absoluten Menge wahrer Positive und dem Arbeitsaufwand bei der Durchsicht der Treffermenge.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3


Ein „Recall“-Problem:Ist das absolute Vorkommen eines sprachlichen Phänomens im Korpus nicht bekannt oder der Recall unter 100%, ist unklar, ob die Recall-Mengerepräsentativ für die Gesamtmenge.

&sein am A*enBeispiel:

Der Suchausdruck kann keine Verlaufsformen mit direktem Objekt finden.

Er ist seine Reise am Planen.

Sollte es solche Konstruktionen im Korpus geben, ist die Recall-Menge nicht repräsentativ für die Syntax des Progressivs in den Korpustexten.

1 Textkorpora

1.1 1.2 1.3

2 Geschichtliches

2.1 2.2 2.3

3 Debatten

3.1 3.2 3.3 3.4 3.5

4 Abfragen

4.1 4.2 4.3

korpuslinguistik - ids | ids

Documents