korpus in glosar jezikovne tehnologije

Post on 19-Jan-2016

75 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE. Janja Sterle Živa Malovrh. UVOD. Predstavitev teme Izbira gradiva Zgraditev korpusa Označevanje besedil Obdelava s programom Wordsmith Izdelava glosarja. IZBIRA TEME. Predstavitev asist. Senje Pollak Področje je že določeno. IZBIRA GRADIVA. - PowerPoint PPT Presentation

TRANSCRIPT

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJEJanja SterleŽiva Malovrh

UVOD

•Predstavitev teme•Izbira gradiva•Zgraditev korpusa•Označevanje besedil•Obdelava s programom Wordsmith•Izdelava glosarja

IZBIRA TEME

•Predstavitev asist. Senje Pollak•Področje je že določeno

IZBIRA GRADIVA

•Izhodišče članki, doktorske disertacije in diplomske naloge v angleščini

•15 člankov, 4 magistrske naloge, 11 doktorskih disertacij

•Slovenščina: 43 člankov, 8 diplomskih nalog, 3 magistrske naloge, 6 doktorskih disertacij

•13 povzetkov in njihovih angleških prevodov•Zahvala asist. Senji Pollak za pomoč pri

zbiranju gradiva•Najbolj dolgotrajna faza projekta

TEŽAVE PRI PRIDOBIVANJU GRADIVA:Slovenščina•V knjižnici ni možna izposoja diplomskih

in magistrskih nalog in doktorskih disertacij

•Nekateri avtorji niso želeli prispevati svojih nalog – vprašanje avtorskih pravic

TEŽAVE PRI PRIDOBIVANJU GRADIVA:Angleščina•Pomanjkanje angleških člankov in nalog v

knjižnicah•Na internetu je veliko člankov in nalog

plačljivih – vprašanje kredibilnosti vzorca•Veliko nalog sicer vsebuje temo jezikovnih

tehnologij, vendar le kot delovno metodo na nekem drugem področju

OZNAČEVANJE BESEDIL• Primer:

<id_js n=''JT_2003_0001_0000_slv_Lart''/>id = identifikacijajs = Janja Sterlen = številkaJT = jezikovne tehnologijePR = prevajanjeRJ = računalniško jezikoslovjeKJ = korpusno jezikoslovje2003 = letnica izida besedila0001 = zaporedna številka besedila v korpusu0000 = specifična oznaka (po navodilih)Slv = slovenščina, Ang = angleščinaL = dolg, S = kratekart = članek, dip = diplomska nalogamag = magistrska naloga, dok = doktorat

DELO Z WORDSMITHOM 1. del

•Združitev najinih korpusov s korpusom asist. Senje Pollak

•Obdelava korpusa s funkcijo stoplist, wordlist, concordance in key words za izluščenje eno- in večbesednih terminov v angleščini

•Pri tem sva si razdelili delo na polovico (ena od A – K, druga od L – Z)

DELO Z WORDSMITHOM 2. del

•Iskanje prevodnih ustreznic najdenim angleškim terminom v slovenskem korpusu (uporaba programa Wordsmith)

•Strategije iskanja: „na slepo“, iskanje besedne zveze po jedrnih besedah, možnost angleškega imena v slovenskem korpusu s prevodom, iskanje prevodne različice po internetu

VELIKOST KORPUSA IN GLOSARJA•85,426 angleških, 25,309 slovenskih

pojavnic•Skupaj 110,735 pojavnic

•Glosar: 197 angleških terminov, 229 slovenskih terminov

IZDELAVA GLOSARJA•Izdelava excelove tabele in združitev obeh

delov•Razporeditev po abecednem vrstnem redu•Pojavitev nekaterih podvojenih elementov

(ko je npr. ena iskala „extraction“ in je našla „term extraction“, druga pa je iskala „term“ in našla „term extraction“) -> funkcija odstrani podvojitve

•Primeri več slovenskih prevodnih različic za en angleški termin (npr. „automatic term extraction“ = avtomatsko luščenje terminologije / samodejno luščenje izrazja)

ISKANJE DEFINICIJ

•Iskanje po korpusu (redko – malo definicij)•Iskanje po internetu (google, wikipedia –

presenetljivo veliko definicij)•Približno 80 % najdenih definicij•Pri nekaj angleških terminih se definicija

podvoji (npr. „POS tagging“ / „part-of-speech tagging“)

•Pri nekaterih je definicija odveč (npr. „speech recording“)

•Za nekatere ni bilo mogoče najti definicije

IZDELAVA GLOSARJA V MULTITERMU•Pretvorba excelove tabele s programom

Multiterm Convert•Uvoz datotek v Multiterm

ZAKLJUČEK

•Uporabna vrednost•Praktična uporaba znanj, pridobljenih pri

predmetu•Programi za obdelavo so bili včasih

nezanesljivi•Večje poznavanje korpusov in programov

za njihovo obdelavo

top related