nationalkorpus des polnischen (narodowy korpus języka polskiego) marek Łaziński,...

30
Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego) www.nkjp.pl Marek Łaziński, [email protected] Wien 8.3.2011

Upload: emilie-achen

Post on 05-Apr-2015

113 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Nationalkorpus des Polnischen (Narodowy Korpus Języka

Polskiego)www.nkjp.pl

Marek Łaziński, [email protected] 8.3.2011

Page 2: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Vorgeschichte

Słownik frekwencyjny polszczyzny współczesnej – Kurcz et al. 1990

• Korpus, bestehend aus 500.000 Wörtern

• 100.000 Samples aus 5 Funktionalstilen

• morphologisch annotiert und disambiguiert

• Texte von 1963 bis 1967 (das Wörterbuch wurde 1990 veröffentlicht)

• Heute zugänglich unter: www.mimuw.edu.pl/polszczyzna/pl196x

Page 3: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Die 100 häufigsten polnischen LexemeFrequenzörterbuch des Polnischen (1963-67)w, i, być, się, na, nie, z, on, do, ten, to1, że, a, o, ja, który, mięć, jak, co, ale, tak, pan, od, po, móc, przez, taki, dla, tylko, za, ty, tysiąc, swój, jeden, bardzo, siebie, czy, rok, jeszcze, przy, wiedzieć, dwa, pierwszy, inny, mówić, nasz, sprawa, sam, my, wszystek, czas, chcieć, praca, zostać, powiedzieć, to2, tu, oraz, lata (rok), musieć, cały, bo, dzień, mój, więc, nowy, przed, drugi, jednak, pod, pani, nawet, jaki, też, można, no, nic, ludzie, każdy, dziewięćset, również, trzy, kraj, żeby, wszystko, miejsce, tam, człowiek, jakiś, nad, widzieć, coś, teraz, przecież, kiedy, może, wielki, życie, bez, polski

PWN Korpus des Polnischen 2001 (korpus.pwn.pl)w, i, się (siebie), być, z, na, nie, on, do, ten, to, że, a, który, o, mieć, jak1, po, ja, co, od, ale, za, móc, tak, przez, już, dla, swój, tylko, taki, czy, bardzo, wszystek (wszystko), sam1, rok (r.), człowiek (ludzie), jeden, inny, ty, mówić, czas, bo, my, chcieć, jeszcze, przed, też, wiedzieć, pan, lata (rok), jednak, przy, wielki, mój, zostać, nowy, dwa, pod, raz, pierwszy, nasz, oraz, lub, musieć, dzień, nawet, cały, praca, gdy, można, powiedzieć, polski, by, życie, więc, każdy, sprawa, jaki, jako, dobry, także, bez1, kiedy, tam, tu, polska, no, drugi, miejsce, nic, osoba, wiele, teraz, u, jakiś, świat, coś

Page 4: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Vorgänger und Teilkorpora des NKJP

• Korpus des Instituts für Informatik der AW / PAN (in Zusammenarbeit mit dem Institut der Polnischen Sprache PAN): 250 Mio. Wörter, detailliertes Suchprogramm, im Netz: www.korpus.pl

• Korpus PWN: 100 Mio., (40 Mio. Wörter im Netz: korpus.pwn.pl)

• Korpus PELCRA: 100 Mio. Wörter mit benutzerfreundlichem Suchprogramm, im Netz: korpus.ia.uni.lodz.pl

Page 5: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Grundvoraussetzungen zum NKJP

• Projekt des polnischen Hochschulministeriums (MNiSW) Nr R1700303

• Geplant für 1 Milliarde Wörter

• 300 Mio. Wörter im ausgewogenen Kernkorpus

• morphologisch annotiert und disambiguiert

• Übungskorpus aus 1 Mio. Wörtern, auch detailliert annotiert und disambiguiert nach syntaktischen Kategorien, Eigennamen und homonymen Wortbedeutungen.

• gebühren- und registrationsfrei.

Page 6: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Repräsentativität des Kernkorpus• Repräsentativität ist nicht mit Ausgewogenheit gleichzusetzen.

Das Korpus des Frequenzörterbuches war ideal ausgewogen – je 20% aus 5 Funktionalstilen, aber war nicht repräsentativ im Sinne der Sprachproduktion oder Sprachrezeption eines durchschnittlichen Polen.

• Voraussetzung der Repräsentativität des NKJP ist die Struktur der Leserschaft (Fragebogen des Leserschaftsinstituts)

• Vor allem Zeitungen und Periodika (50%), Belletristik (mit Schlüsseltexten aus der polnischen Literatur, wissenschaftliche und Sachbücher (29%))

• Andere Typen geschriebener Texte (11%): Gesetze, Gebrauchsanweisungen, Flugblätter, Websites und Blogs

• 10% der gesprochenen Sprache - darunter auch quasi-spoken und to-be-spoken (Parlamentsprotokolle)

Page 7: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Struktur des Kernkorpus• Bücher 29%

– Belletristik 16%

– narrative Sachbücher 5,5%

– wissenschaftliche und Handbücher 2%

– Ratgeber, Hobby, Interviews und andere Bücher 5,5%

• Presse 50%– Zeitungen 26%

– Zeitschriften (auch Fach- und Hobbyzeitschriften) 24%

• andere veröffentlichte Texte (Gesetze, Anweisungen, Werbung) 4%

• Webtexte (Blogs, Foren und Chats, Web-Sites) 7%

• gesprochene Texte 10% (Aufnahmen alltäglicher Gespräche – 1%, Reden, Interviews, Protokolle)

Page 8: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011
Page 9: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Andere slavische Korpora und ihre Struktur

Nationalkorpora• http://

www.tekstlab.uio.no/Bosnian/Corpus.html

• http://www.ibl.bas.bg/BGNC_bg.htm

• http://www.ucnk.ff.cuni.cz • http://www.hnk.ffzg.hr/

default.htm• http://www.nkjp.pl• http://www.ruscorpora.ru• http://korpus.juls.savba.sk/

index.sk.html• http://www.fidaplus.net

(Slowenisch)

Parallelkorpora und andere K.• http://www.uni-regensburg.de/

Fakultaeten/phil_Fak_IV/Slavistik/RPC (slavisches Paralelkorpus)

• http://ucnk.ff.cuni.cz/intercorp-info.php

• http://pelcra.ia.uni.lodz.pl

• http://www.korpus.pl

• http://korpus.pwn.pl

• http://monika.univ.gda.pl/~literat

• http://riznica.ihjj.hr

• http://www.ulif.org.ua/ulif/

Page 10: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Český Národní Korpus(ausgewogene Subkorpora)

• Textsorten in Syn 2000 (100 Mio. Wörter)– Presse 60%, Belletristik 25%, Sachbücher 15%

• Textsorten in Syn 2005 (100 Mio. Wörter)– Presse 33%, Belletristik 40%, Sachbücher 27%

• Zeitraum– Zeitungstexte nach 1990

– Buchautoren geboren nach 1880

Page 11: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Korpus des slovenischen FIDA Plus

• Textarten– Presse – 88%, Bücher (auch Übersetzungen)

9%, Rest (Internet) – 3%

• Inhalt– Belletristik – 3,5%, Rest – 96,5%

• Zeiträume– 1990-1999 – 30% (1979-1990 – 0,04%)

– 2000-2006 – 70%

Page 12: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Nacional’nyj Korpus Russkogo Jazyka (www.ruscorpora.ru)

• Belletristik 40%

• andere geschriebene Texte (Presse) 56%

• gesprochene Texte 4%

• Zeitraum: seit dem Ende des 18. Jh.

Page 13: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Korpus des DWDS (www.dwds.de)

• Belletristik (ca. 26%)

• journalistische Prosa (ca. 27%)

• Fachprosa (ca. 22%)

• Gebrauchstexte (ca. 20%)

• transkribierte Texte gesprochener Sprache (ca. 5%)

• Zeitraum: seit 1900

Page 14: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Textannotierung und Desambiguierung• Jeder Korpustext wird mit einem Header versetzt, der über Titel,

Verfasser, Erscheinungsjahr und anderes informiert.• Annotierung der Texteinheiten: (Co) mamy (do roboty)

– Lemmatische A. - Textwörter werden den Lemmata zugeschrieben, z.B. [lemma=mieć]

– Morphologische A. - den Wortformen werden Wortarten grammatische Kategorien zugeschieben, z.B. [lemma=mieć, pos=verb/fin pers=pri num=pl (temp=praes mod=ind)]

– Syntaktische, semantische Annotation (in Vorbereitung)

• Die Annotierung verläuft völlig automatisch, aber bevor man das Programm erstellt, muss ein großes Übungskorpus (1 Mio.) vor Hand unabhängig annotiert werden.

• Desambiguierungsvorgang basiert auf einigen geordneten Kontextregeln, z.B. bei der Wortform mamy: (zu mieć oder mama) reicht es zu prüfen, ob es im selben Satz ein anderes Prädikat gibt.

Page 15: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Textannotierung für das polnisch-russische Korpus

• <RUS>В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северо-восточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед| угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн| африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн} лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед| египет=S,муж,неод=вин,ед}.<RUS>

• <POL>W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim [wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f] leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3].</POL>

Page 16: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Bisherige Textsammlung im Netz

• 1,5 Miliarde Wörter– Über 2.000 Bücher, darunter: Barańczak, Białoszewski,

Brandys, Dąbrowska, Dygat, Głowacki, Iwaszkiewicz, Kapuściński, Lem, Miłosz, Mrożek, Myśliwski, Nałkowska, Sapkowski, Stasiuk, Szczypiorski, Tokarczuk, Rymkiewicz

– Über 400 Pressetitel aus verschiedenen Regionen Polens

• Zwei verschiedene Suchmaschinen– Ein detailiertes Suchprogramm Poliqarp

– Ein benutzerfreundliches Suchprogramm PELCRA

• Ausgewogenes Kernkorpus (300 Mio.) erscheint bald.

Page 17: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Suchwerkzeuge

• Poliqarp – Search Tool des IPI PAN, das mithilfe regulärer Ausdrücke nach beliebigen Realisierungen morphologischer Kategorien in unbegrenzten Zusammensetzungen sucht.

• PELCRA Search Tool basiert auf einer relationalen Datenbasis: es sucht nur nach Wortformen und Lexemen, zeigt Konkordanzen und Kollokationen, Stil- und Zeitdiagramme einzelner Wörter und Wortkombinationen.

Page 18: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Worauf ein Wörterbuch basieren kann?

• Andere Wörterbücher– Offen benutzt und verbessert

– Durch Plagiat oder Nachahmung

• Kentnisse und Sprachgefühl der Lexikographen (Introspektion)– Kann trügerisch sein

• Textquellen– Wörterbuchkartei nach einer manueller Exzerption

– Korpus

Page 19: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Textquellen polnischer Wörterbücher• Słownik języka polskiego von Samuel B. Linde 1807, das erste

wissenschaftliche Wörterbuch der polnischen Sprache, benutzte und zitierte über 850 literarische und Sachtexte seit dem 16. Jh., er hat daraus eine Kartei erstellt

• Słownik języka polskiego sog. warschauer (Karłowicz, Kryński, Niedźwiedzki 1900-1927) geben kein Textkorpus offenbar, aber das Wörterbuch selbst soll nach Autoren als Korpus dienen: „es soll objektives mit keiner Theorie ausgestattet Sprachinventar sein, Material, aus dem erst Sprachwissenschaftler Schlussfolgerungen ziehen werden”.

• być bezstronnym, nieuprzedzonym żadną teoryją gramatyczną lub purystyczną, ścisłym inwentarzem języka, dokładną i obszérną skarbnicą jego zasobów, […] materyjałem, z którego dopiéro językoznawcy spostrzeżenia swe i wnioski snuć będą (Karłowicz et al.)

Page 20: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Das Korpus als Wörterbuchbasis

• Nur ein Wörterbuchverlag hat sein eigenes Korpus gesammelt: PWN

• Heutzutage dient der NKJP mindestens einem grossen Wörterbuch – dem Grossen Polnischen Wörterbuch: www.wsj.pl.

• Auch andere Wörterbücher können mithilfe des NKJP bearbeitet werden.

Page 21: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Was dem NKJP noch fehlt

• ein ausgewogenes Kernkorpus (erscheint bald)

• Ein Werkzeug, das aus großen Textmengen morphologische und syntaktische Informationen extrahieren könnte – so wie etwa Word Sketch Engine (www.sketchengine.co.uk).

• Teilweise ersetzt es Kollokationssucher, Zeit- und Stildiagramme in PELCRA Tool

Page 22: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Textquellen polnischer Wörterbücher

• Słownik polszczyzny XVI wieku - 8 Mio. Kerteikarten

• Słownik języka polskiego von Doroszewski – 6 Mio. Karteikarten

• Słownik języka polskiego von Szymczak – 1 Mio. Karteikarten

Page 23: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Was kann man aus dem Korpus erfahren, was nicht im Wörterbuch

steht?

Page 24: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Suchbeispiele• Semantische Prosodie in Kollokationen von

ewidentny und oczywisty

• Zeit- und Stilverlaufe am Beispiel von oczywisty und ewidentny

• Lokale Orientierung der Gegenstände - Präpositionen zum Substantiv drzwi

• Potenzierung substantivischer Attribute in Genitivgefügen

• Perfektive Verben mit dem Präfix na- höchstens 2 Wörter von der Präposition na entfernt

• Die längste Konsonantenfolge

Page 25: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Semantische Prosodie:oczywisty - ewidentny

• Oczywisty: fakt, przyczyna, stwierdzenie, am häufigsten prädikativ benutzt: to jest oczywiste).

• Ewidentny: błąd ‘Fehler’‚ sprzeczność ‚Widerspruch‘, faul, naruszenie ‘Verstoß’‚ pomyłka ,Irrtum’, brak ‘Fehler’.

• Im Deutschen scheint sich evident von offensichtlich oder augenfällig nicht auf diese Weise evaluativ zu unterscheiden.

Page 26: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Lokale Orientierung der Präpositionen: przed drzwiami und za drzwiami

• NKJP: przed drzwiami 973, za drzwiami 2000

• DWDS: vor der Tür 1077, hinter der Tür 197

• Czy ma pan świadomość, że ci, którzy czekają za drzwiami, bardzo się boją?

‘Sind Sie sich dessen bewusst, dass die Leute vor der Tür große Angst (vor Ihnen) haben?’

• Za drzwi! ‘Da ist die Tür!’

Page 27: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Syntaktische Kombinierbarkeit

grammatischer Kategorien • Potenzierung substantivischer Attribute im Genitiv -

[pos=subst & case=gen]{9,}• Do przeprowadzania kontroli spełnienia obowiązku

zawarcia umowy ubezpieczenia OC posiadaczy pojazdów mechanicznych są obowiązane: a) Policja, b) organy celne ...‘Folgende Organe sind verpflichtet die Pflichterfüllung beim Abschluss des Versicherungsvertrags durch Besitzer mechanischer Fahrzeugen zu kontrollieren s…’ (Gesetz)

Page 28: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Aspekt im Korpus

• Perfektive Verben mit dem Präfix na- höchstens 2 Wörter von der Präposition na entfernt

• [pos=verb & pos!=ger & aspect=perf & orth="na.*"][]{,2}[orth=na]

• Napisać coś na papierze.

Page 29: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Phonetik im Korpus

• Die längste Konsonantenfolge (ohne Bigraphen)– [orth=".*[bcćdfghklłmnńśprstwzźż]{5,}.*" & orth!

=".*ch.*|.*cz.*|.*dż.*|.*dź.*|.*rz.*|.*sz.*"]

– bezwzględny

Page 30: Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)  Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Das Korpus ist für Sie da

www.nkjp.pl