Testování konzistence a úplnosti valenčního slovníku českých sloves
Markéta Lopatková, Zdeněk ŽabokrtskýCentrum komputační lingvistiky MFF UK, Prague
{lopatkova,zabokrtsky}@ckl.mff.cuni.cz
ITAT 2003 1
Motivation
‘traditional’ linguistics source of data for linguistic research verification of theoretical criteria set up
natural language processing lemmatization morphological tagging syntactic analysis word sense disambiguation ‘semantic analysis’ machine translation building other resources
language acquisition
ITAT 2003 2
Trocha teorie – co je valence?
„Valencí rozumíme v lingvistice schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury“ (Svozilová et al., Slovesa pro praxi)
teorie: Funkční generativnípopis (FGD) (Sgall et al., 1986) závislostně orientovaný stratifikační
rovina podkladové reprezentace
(‘tektogramatická rovina’) (Hajičová et al., 2000) teorie valence (esp. Panevová, 1994)
ITAT 2003 3
Trocha teorie – co je valence?
valenční rámec: syntakticko-sémantická struktura slovesných doplnění
(pro jednotlivé významy slovesa) slovesná doplnění:
aktanty (vnitřní doplnění) vs. volná doplnění Actor, Patient, Addressee, Origin, Effect např. časová, místní, způsobová
obligatorní vs. fakultativní kritéria:
syntaktická Actor a Patient
sémantická další aktanty (Addressee, Origin and Effect) volná doplnění
ITAT2003 4
Příklady
Matka.ACT předělala dětem.ADDR loutku.PAT z Kašpárka.ORIG na čerta.EFF. (Panevová)Rodiče.ACT čekají na dítě.PAT před školou.LOC.Petr.ACT Pavlovi.ADDR řekl o katastrofě.PAT.Děti.ACT přišli pozdě.TWHEN (domů, sem.DIR3).Venku.LOC prší.V Praze.LOC se sejdeme na Hlavním nádraží.LOC u pokladen.LOC. (Panevová)Jan.ACT oslovil Marii.PAT na ulici.LOC. Kniha.ACT vyšla. (Panevová)Chlapec.ACT vyrostl v muže.PAT. (Panevová)Z banálního nachlazení.PAT se vyvinulo závažné onemocnění.ACT.
ITAT 2003 5
Valenční slovník českých sloves – VALLEX
komplexní informace o slovesném lexému všechny významy slovesa (Lopatková, Žabokrtský, 2002) informace o jednotlivých valenčních rámcích
typicky odpovídají jednotlivým významům slovesa popsána pomocí glos a příkladů
informace specifikující členy valenčního rámce ‘funktor’ – vztah mezi slovesem a doplněním typ doplnění - obligatorní / fakultativní / typické povrchová forma
mluvit ... ACT(1;obl) ADDR(s+7;obl) PAT(o+6;opt)mluvila s ním o dětech vyměnit ... ACT(1;obl) ADDR(3;opt) PAT(4;obl) EFF(za+4;obl) ruské zajatce.PAT vyměnili za naše lidi.EFFvyměnila mu.ADDR marky.PAT za dolary.EFF
doplňující syntaktické informace
ITAT 2003 6
Valenční slovník českých sloves – VALLEX
doplňující syntaktické informace: reflexivita (in progress) reciprocita gramatická kontrola vid a vidové protějšky primární / posunuté / idiomatické užití syntacticko-sémantická třída (in progress) odkazy na Český EuroWordNet (in progress)
současný stav: 1 450 sloves s 3 860 valenčními rámci
t.j. 2,7 rámce na sloveso slovesa podle frekvence v ČNK a PDT pokrytí cca 85% na ‘běžícím textu’ v PDT
kromě slovesa být a modálních sloves
ITAT 2003 7
Proč testovat konzistenci a úplnost slovníku?
proč neexistence teorie čemu věnována pozornost
vyvinout metodologii evaluace slovníku, kvalifikovaný odhad množství chyb, mezianotátorské shody
ITAT 2003 9
Jaké nástroje lze použít?
vyhledávací rozhraní pro www podřetězec nebo regulární výraz nalezené rámce (resp. jejich atributy) rozložení hodnot vybraného atributu přes nalezené rámce,
rozložení funktorů, forem, forem přes funktory vyhledávání v dostupných elektronických zdrojích
SPP, SSJČ, SČFI, Czech EWN, ČNK XSH XML Editing Shell (P. Pajas)
dotazy přesahující možnosti grafického rozhraní
ITAT 2003 10
Jaké nástroje lze použít?
vyhledávací rozhraní pro www podřetězec nebo regulární výraz nalezené rámce (resp. jejich atributy) rozložení hodnot vybraného atributu přes nalezené rámce,
rozložení funktorů, forem, forem přes funktory vyhledávání v dostupných elektronických zdrojích
SPP, SSJČ, SČFI, Czech EWN, ČNK XSH XML Editing Shell (P. Pajas)
dotazy přesahující možnosti grafického rozhraní
ITAT 2003 13
Jaké nástroje lze použít?
vyhledávací rozhraní pro www podřetězec nebo regulární výraz nalezené rámce (resp. jejich atributy) rozložení hodnot vybraného atributu přes nalezené rámce,
rozložení funktorů, forem, forem přes funktory vyhledávání v dostupných elektronických zdrojích
SPP, SSJČ, SČFI, Czech EWN, ČNK XSH - XML Editing Shell (P. Pajas)
dotazy přesahující možnosti grafického rozhraní
ITAT 2003 15
Jak tedy zajistit konzistenci a úplnost?
odstranění čistě technických nedostatků prohřešky proti striktně formulované notaci
porovnání s jinými lexikografickými zdroji existence a konzistence zdrojů
ověřování na ČNK 60-100 výskytů lexému (náhodně vybráno) ověření vhodného rozčlenění rámců na významy ověřování úplnosti
testování konzistence uvnitř VALLEXu
ITAT 2003 16
K čemu valenční slovník?
reaching the consistency of assigning the valency structure (PDT-VALLEX)
automatic syntactic analysis (‘shallow parsing’) ‘tectogrammatical parser’
automatic system for creating an underlying representation of Czech sentences
source data for building the valency lexicon of nouns
CIL XVII, Prague, July 26, 2003 21
Jazykové zdroje
teoretické články (Panevová) The Manual for Tectogrammatical Tagging of the Prague Dependency Treebank
(Hajičová et al., 2000) seznamy slovesných doplnění užívané při anotaci PDT elektronický valenční slovník povrchových realizací BRIEF(FI MU Brno, Pala,
Ševeček, 1997) tištěné slovníky
Slovesa pro praxi (SPP, 1997), valenční specifikace 767 nejčastějších českých sloves
Slovník spisovného jazyka českého (SSJČ, 1964)Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978)Slovník českých synonym (SČS, 1994)Slovník české frazeologie a idiomatiky (SČFI, 1983)
Český národní korpus (ČNK) EuroWordNet, Czech WordNet
CIL XVII, Prague, July 26, 2003 22
References I. Hajičová, E. et al. (2000) A Manual for Tectogrammatical Tagging of the Prague
Dependency Treebank. UFAL/CKL Technical Report TR-2000-09. Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves.
UFAL/CKL Technical Report TR-2002-15. Lopatková, M., Žabokrtský, Z. (2002) Valency Dictionary of Czech Verbs. In: LREC 2002,
Proceedings, pp. 949-956. Lopatková, M. (2003) Valency in the Prague Dependency Treebank:
Building the Valency Lexicon. PBML 79. (in press) Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. Panevová, J. (1974-75) On Verbal Frames in Functional Generative Description. Part I,
PBML 22, pp. 3-40, Part II, PBML 23, pp. 17-52. Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff
(ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243.
Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština - univerzália a
specifika 2, Masarykova Univerzita, Brno, pp. 173-180. Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In:
Proceedings of MTT 2003, Paris. (in press) Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic
Aspects. Dordrecht: Reidel, Prague: Academia.
CIL XVII, Prague, July 26, 2003 23
References II.
Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno.
Panevová, J. (1974-75) On Verbal Frames in Functional Generative Description. Part I, PBML 22, pp. 3-40, Part II, PBML 23, pp. 17-52.
Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243.
Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14.
Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština - univerzália a specifika 2, Masarykova Univerzita, Brno, pp. 173-180.
Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press)
Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia.
CIL XVII, Prague, July 26, 2003 24