leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku

38
Leksikalna baza: Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku Polona Gantar [email protected] Konferenca projekta “Sporazumevanje v slovenskem jeziku” Slovarji, več kot le besede Slovarji, več kot le besede 6. februar 2009

Upload: giselle-barrera

Post on 13-Mar-2016

77 views

Category:

Documents


4 download

DESCRIPTION

Konferenca projekta “Sporazumevanje v slovenskem jeziku” Slovarji, več kot le besede 6. februar 2009. Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku. Polona Gantar [email protected]. Vsebina. Kaj je leksikalna podatkovna baza - jezikoslovno - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Leksikalna baza: Leksikalna baza: vse, kar ste vedno želeli vedeti

o jeziku

Polona [email protected]

Konferenca projekta “Sporazumevanje v slovenskem jeziku”Slovarji, več kot le besedeSlovarji, več kot le besede6. februar 2009

Page 2: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

VsebinaI. Kaj je leksikalna podatkovna baza

- jezikoslovno - v okviru projekta SSJ- v evropskem kontekstu

II. Zasnova leksikalne baze za slovenščino ● Pomenski opis LE ● Kolokacije in WSE- pomenski indikator- pomenska shema ● Frazeološke enote

● Skladenjski opis LE ● Zgledi - skladenjske strukture

III. IDM DPS: programska oprema za izdelavo leksikalne baze

Page 3: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Kaj je LPB?Leksikalna podatkovna baza* je organiziran opis besedišča (leksikona) določenega jezika v elektronski obliki.

Besedišče je zbir vseh leksikalnih enot (LE; leksemov) določenega jezika obsega “znanje”, ki ga potrebuje materni govorec določenega jezika, da se lahko v njem sporazumeva.

*GlossaryOfLinguisticTerms

Page 4: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Skupni imenovalec LB• inventar vseh* v jeziku znanih LE (vključno z

variantami)• kategorizacija LE (slovnična, druge ...)• morfološke, glasoslovne in skladenjske informacije• prikaz (ustrezne*/tipične) rabe LE • računalniška berljivost• pomen LE--------------------------------------------------------• pomenska razčlenitev LE • kulturološke in pragmatične oznake• pomenske povezave med LE• zgledi, ki ilustrirajo posamezni pomen

Page 5: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

LB v okviru projekta SSJhttp://www.slovenscina.eu

• Aktivnost: izdelava LB za slovenščino• Namen:

– leksikografske potrebe – računalniška obdelava naravnega jezika (RONJ)

• Obseg: – opis jedrnega dela slovenščine z vidika: pogostosti, izgovorjave,

pomenskih, skladenjskih, frazeoloških in drugih lastnosti besedišča

• Časovnica: junij 2008 – december 2008: pregled LB in sorodnih jezikovnotehnoloških projektov po evropskih jezikihjanuar 2009 – junij 2009: določitev postopkov za analizo korpusa s pomočjo specializirane programske opreme in določitev standardov za izdelavo posamezne LE v LB; izdelava navodil z vzorčnimi primeri za posamezno BV.

• Izdelava LB: A – K: julij 2010; L – P: julij 2011; R – Ž: julij 2012

Page 6: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Sodelavci• Simon Krek (Amebis; IJS)• mag. Mojca Šorli (Trojina)• mag. Petra Zaranšek (Trojina)• Olga Pobirk (Trojina)• Simon Šuster (Trojina)• Polonca Kocjančič (Amebis)• dr. Polona Gantar (ISJ ZRC SAZU)

Page 7: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Evropski okvir• Skupni evropski projekti

– GENELEX (1990-94)• LE PAROLE (1993-98)• SIMPLE (1998-2002)-----------------------------------------------

– ACQUILEX I, II (- 1995)– ILC- DELIS …

• Izpeljave po posameznih jezikih: elexico, CLIPS, CORNETTO, DAFLES, ALFALEX, STO,ADESSE, GRIAL, CEGLEX, SPRÅKBANKEN, PRALED … • LB, po katerih smo se zgledovali:

FrameNet, CPA

Page 8: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Zasnova LB za slovenščino• Relevantni podatki

– s podatki, vključenimi v LB, mora biti mogoče v čim krajšem času priti do konkretnih za jezikovno skupnost najbolj strateško pomembnih jezikovnih priročnikov;

– jedrno besedišče (osrednje : obrobno); – natančna pomenska členitev jedrnega

besedišča:– skladenjski in slovnični podatki, ki so

pomembni za slovarske in slovnične opise.

Page 9: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

…in kaj je bistveno?● Bistvo jezikovnega opisa v leksikalni bazi,

ki temelji na sodobnih leksikalnogramatičnih pristopih in korpusnih podatkih, je v tem, da pomenski opis LE ni strogo ločen od njenega skladenjskega opisa.

● LB za slovenščino želi biti vsestranska analiza osnovnega besedišča splošnega jezika in oblikovana kot mreža med seboj povezanih jezikovnih podatkov o leksikalnem potencialu slovenščine.

Page 10: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Vsebina in organizacija leksikalnih podatkov

Page 11: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Osnovne informacije o LE• osnovna oblika – lema

– povezave na:• leksikon• morfološka zbirka

• besedna vrsta• ? slovnične in pomenske kategorije

(prehodnost, dovršnost, števnost ...)• ? glasoslovni podatki• ? frekvenca

Page 12: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Pomenski opis LE – izhodišča

• Beleženje celotnega pomenskega inventarja?

• Pomen ali pomenske tendence?• Različni slovarji – različni pomeni!• Podrobna pomenska členitev!

Page 13: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

3-je slovarski vzori• New Oxford Dictionary of English (NODE;

1998)• osnovni/jedrni in odvisni pomeni

• Longman Dictionary of Contemporary English (LDOCE; 20034)

• pomenski indikatorji

• Macmillan English Dictionary for Advanced Learners (MED; 20072)

• „menu pomenov”

Page 14: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Pomenski indikator• pomenski indikator na kratko določi pomenski obseg ali

področje obravnavanega pomena, pri večpomenskih besedah pa vzpostavlja razliko med pomeni oz. podpomeni

pasti1 znižati se na lestvici1 znižati se na lestvici

1.1 o vrednosti (cena, tečaj, indeks, delnica) pade1.2 o temperaturi (temperatura) pade pod (ničlo, ledišče)1.3 o statusu pasti na (družbeno, socialno) dno; (ugled, status) pade komu

2 nastop stanja2 nastop stanja2.1 zgoditi se (odločitev) pade; (praznik) pade na (ponedeljek)2.2 znajti/nahajati se kje pasti med (razbojnike, razgrajače)2.3 kaj doleti koga (breme, stroški; skrb, nesreča) pade na (ramena, pleča, grbo) (koga/komu)

Page 15: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Pomenska shema – izhodiščaPomensko shemoPomensko shemo si predstavljamo kot opis

pomenskega scenarija, v katerem za vsak pomen obravnavane besede natančno opišemo:

– udeležence (število ter njihova pomenska vloga)

– okoliščine (način, namen, vzrok; pa tudi krajevne in časovne okoliščine), ki so za opis pomenskega scenarija določenega pomena ključne.

– pragmatične informacije (pozitivno, negativno

vrednotenje)

Page 16: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Pomenska shema: udeleženci in okoliščine

vzeti - ‘ukrasti’

KDO vzame KOMU KAJ (od kod)

človek/institucija človek/institucija predmet

storilec prizadeti lastnina/vrednost

Page 17: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Pomenska shema in teorija FrameNet

DA• Opis pomenskega

scenarija LE temelji na analizi velikega števila stavkov, ki vsebujejo LE.

• Udeleženci in okoliščine so v pomenski shemi jasno izpostavljeni.

NE• Opis pomenskega

scenarija ne temelji na vnaprej določenih pomenskih shemah.

• Poimenovanje udeležencev ni fiksirano; njihova pomenska vloga ni vnaprej predvidena.

• Opis pomenske sheme ni namenjen vzpostavljanju pomenskih razmerij med LE.

Page 18: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Pomenska shema in CPA• opis LE poteka od besede do besede

• FN po pomenskih okvirjih

• pozornost je namenjena pomenskemu opisu večpomenskih besed

• FN vzpostavlja pomenska razmerja med LE/okvirji

• pomenska shema se uresničuje prek skladenjskih struktur

Page 19: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Postopek oblikovanja pomenske sheme

• Ugotoviti mehanizme, po katerih smo govorci slovenščine sposobni razločevati med pomenom glagola stisniti v zgledih (a) od pomena glagola stisniti v zgledih (b).

• Pomen glagola v zgledih (a) ima nekatere skupne lastnosti, po katerih lahko ga lahko ločimo od pomena glagola v zgledih (b)

• Razlike med pomenoma v zgledih (a) in (b) želimo v pomenski shemi opisati na način, da dosežemo skupni imenovalec razumevanja posameznega pomena oz. skupni imenovalec razlikovanja med pomenoma.

Page 20: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Pomenska shema za stisniti - v zgledih (a)

Otipal je ženino roko in jo močno stisnil.Anja pa ni Marjana niti enkrat stisnila za ramena.Eleanor je zdravilna zelišča in pismo trdno stisnila

v dlan.Cezar z dlanjo stisne ročaj meča.

ČLOVEK stisne PREDMET ali DEL TELESA z DLANJO ali ROKO tako, da ga trdno

oprime

Page 21: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Pomenska shema za stisniti - v zgledih (b)

• Stisnite si limono, pomarančo, grenivko, melono, ananas itn.

• Iz grozdja so stisnili 70 litrov ledenega vina.• Naberemo sveže regratove korenine in iz njih s

centrifugo stisnemo sok.• Krompir olupite in še vročega stisnite skozi

stiskalnico za krompir.ČLOVEK stisne TEKOČINO ali SNOV iz

ČESA, kar vsebuje tekočino/snov, s pomočjo NAPRAVE ali ROK

Page 22: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Izraženi/neizraženi elementiZ VELIKIMI ČRKAMI zapisujemo skladenjsko in pomensko

obvezne elemente pomenske sheme, ki so lahko

(a) Izraženi znotraj stavka: Iz grozdja so na domači stiskalnici stisnili 70 litrovledenega vina. v sobesedilu: Jabolka je treba najprej umiti, razrezati in stisniti. Jabolčni sok nato pustimo stati.

(b) Neizraženi Stisnite si limono, pomarančo, grenivko, melono. (tekočina, sredstvo)

ČLOVEK stisne TEKOČINO ali SNOV iz ČESA, kar vsebuje tekočino/snov, s pomočjo NAPRAVE ali ROK

Page 23: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Skladenjski opis LE• Za potrebe RONJ; temu je v celoti prilagojen

zapis skladenjske informacije.• Elemente pomenske sheme, je mogoče izraziti

na različne slovnične načine (neskončno število pomenov je mogoče izraziti s končnim številom slovničnih kombinacij).

• Različni pomeni LE so pogostokrat povezani z določenimi skladenjskimi vzorci.

• Na kakšen način se na slovnični ravni uresničuje konkretni pomen, beležimo s skladenjskimi strukturami.

Page 24: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Skladenjske struktureZGLEDI (a)(1) Če boste igračo močno stisnili, boste sprostili potlačeni bes.(2) Če te bo postalo strah, me stisni za ramena in bova pristala.(3) Eleanor je zdravilna zelišča in pismo trdno stisnila v dlan.(4) Cezar z dlanjo stisne ročaj meča. ČLOVEK stisne PREDMET ali DEL TELESA z DLANJO ali ROKO

tako, da ga trdno oprime

(1) S/bz1+stisniti+S/bz4 [kdo] stisne [kaj4](2) S/bz1+stisniti+S/bz4 +za+S/bz4 [kdo] stisne [koga4] za [kaj4](3) S/bz1+stisniti+S/bz4 +v+S/bz4 [kdo] stisne [kaj4] v [kaj4](4) S/bz1+stisniti+S/bz4 +z/s+ S/bz6 [kdo] stisne [kaj4] z/s [čim6]

Page 25: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Združevanje skladenjskih struktur

(1) S/bz1+stisniti+S/bz4

(3) S/bz1+stisniti+S/bz4 +v+S/bz4

(4) S/bz1+stisniti+S/bz4 +z/s+ S/bz6

S/bz1+stisniti+S/bz4+(v+S/bz4/ z/s+ S/bz6)[kdo] stisne [kaj4](v [kaj4]/z/s [čim6])

Page 26: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Kolokacijski opis LE• Kolokacijo razumemo kot pogosto kombinacijo besed, v

kateri določena beseda (jedro) kaže očitno težnjo po sopojavljanju z drugo besedo (kolokatorjem), pri čemer je pogostost večja od naključne sopojavitve.

• Tipičnost (a) pasti pod (ničlo, vpliv, streli, mejo, kolo ...)(b) pasti na (pamet, tla, izpit, bojišče ...)

• Pomenska relevantnost(a) pasti pod (ničlo, minus, ledišče) (b) pasti na

(pamet, misel, um) pasti pod (streli, kroglami) pasti na (tla,

vozišče, pločnik) pasti pod vpliv pasti na (izpitu,

testu) pasti pod (mejo, raven, nivo) pasti na (bojišču, fronti) pasti pod (kolo, traktor)

Page 27: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Skladenjske strukture in kolokacije● POMENSKA SHEMA:

ČLOVEK stisne PREDMET ali DEL TELESA z DLANJO ali ROKO tako, da ga trdno oprime

● SKLADENJSKE STRUKTURE:

S/bz1+stisniti+S/bz4S/bz1+stisniti+S/bz4 +za+S/bz4S/bz1+stisniti+S/bz4 +v+S/bz4S/bz1+stisniti+S/bz4 +z/s+ S/bz6

Skladenjske strukture ali njihove dele, če so se pokazali kolokabilni, zapolnimo s konkretnimi leksikalnimi enotami.

● KOLOKACIJE

stisniti [roko, dlan; ročaj]stisniti [ ] za [roko, rame/ramena]stisniti [ ] v [roko, dlan, pest]stisniti [ ] z/s [prsti, dlanjo, roko]

Page 28: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Orodje za avtomatsko profiliranje besed – SkE: WS

• Avtomatično pridobivanje kolokacij s programskim orodjem SketchEngine

• Izdelava “besednih skic” (word sketches) – leksikalnih profilov za vsako posamezno besedo (lemo) v korpusu.

• Podatki o:– gramatičnih relacijah (dvo- in tročlenskih)– tipičnih kolokatorjih

Page 29: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku
Page 30: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Frazeologija• Frazeološke enote navajamo v

samostojnem razdelku LB• Za to obstajata vsaj 2 razloga

– Tehnični: delamo LB in ne slovar. Konkretni slovar lahko podatke iz LB organizira na ničin, ki najbolje ustreza njegovemu namenu.

– Vsebinski: FE dojemamo kot anomalne LE (samostojni pomen, zgradba in omejena pretvorbenost), zato je njihov pomen vedno v določeni meri, zlasti prek metafore, metonimije ipd., vezan, na katerega od osnovnih pomenov, stopnja te pomenske povezanosti pa je relativna in težko določljiva.

Page 31: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

FE: podatki• Osnovna oblika in variante

(a) stisne pri srcu/v želodcu koga(b) stisniti koga v kot/ob zid

• ? Tipične realizacije(biti) trn v petikdo je čigav trn v peti kdo je trn v čigavi petikdo je trn v peti koga kdo je komu trn v petikdo je trn v peti za koga kdo, trn v peti koga/komu, je ...

• Pomenska členitev/pomenski indikatorji(a) ‘občutiti nelagodje’(b) ‘onemogočiti; spraviti v brezizhoden položaj’

• Zgledi rabe

Page 32: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Zgledi• Od abstraktnega h konkretnemu:Indikator: objeti

PS: ČLOVEK stisne ČLOVEKA, ŽIVAL ali PREDMET k svojemu telesu

struktura: (a) S/bz1+stisniti+S/bz4+k/h+S/bz3struktura: (b) S/bz1+stisniti+S/bz4+v+S/bz4

kolokacija: (a) stisniti k (prsim, telesu, sebi) (b) stisniti v (naročje, objem)

zgled: (a) Strastno sem jo stisnil k prsim kot izgubljeno ljubico (b) Novopečene mamice so prvič stisnile v naročje 16 deklic in šest dečkov.

• Kaj zajemajo zgledi in kaj hočemo z njimi povedati?

• SkE – TBL in GDEX

Page 33: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku
Page 34: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku
Page 35: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

IDM DPS – sistem za izdelavo LB• Slovarski vmesnik (Entry Editor)• Prilagajanje strukture (DTD-ja) glede na

potrebe LB• Širjenje LB z vključevanjem novih podatkov• Spremljanje delovnega procesa (dodeljevanje

nalog, nadzor, uredniški posegi …)• Iskanje, urejanje in selekcioniranje podatkov• Vzdrževanje in aktualizacija

Page 36: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku
Page 37: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Povzetek• LB za slovenščino je namenjena izdelavi jezikovnih

priročnikov in za RONJ.

• Jezikovne podatke pridobivamo iz referenčnega korpusa (FidaPLUS) in jih v LB organiziramo v med seboj povezanih nivojih: pomenskem, skladenjskem, kolokacijskem.

• Posebej registriramo frazeologijo. Informacije potrjujemo z zgledi.

• Kolokacije in zglede pridobivamo s pomočjo SkE: WS, TL in GDX.

• Za izdelavo LB uporabljamo IDM DPS.

Page 38: Leksikalna baza:  vse, kar ste vedno želeli vedeti o jeziku

Hvala za pozornost!