gradnja novega korpusa slovenŠČine · 2014. 6. 27. · 3 posredno o večji vplivnosti govorijo...

12
Nataša Logar Berginc 1 in Simon Šuster 2 1 Univerza v Ljubljani, Fakulteta za družbene vede 2 Trojina, zavod za uporabno slovenistiko GRADNJA NOVEGA KORPUSA SLOVENŠČINE V prispevku je predstavljen začetni del gradnje novega referenčnega korpusa slovenščine. Ta bo nadgradnja korpusa FidaPLUS ter bo imel 100-milijonski del in do milijarde pojavnic obsegajoči ostali del. Prikazana in na kratko utemeljena je taksonomija korpusa z okvirnimi deleži različnih vrst besedil, našteta pa so tudi druga ključna načela, ki bodo usmerjala zbiranje. Zbiranje besedil na podlagi različnih podatkov, iz katerih je mogoče vsaj okvirno sklepati o recepciji in produkciji javno objavljenih slovenskih besedil, že poteka. Ključne besede: referenčni korpus, merila gradnje, taksonomija, FidaPLUS 1 Projekt Referenčni, enojezični, pisni in deloma dinamični korpus sodobne slovenščine, katerega del gradnje bomo predstavili v prispevku, nastaja v okviru projekta Sporazumevanje v slovenskem jeziku (v nadaljevanju SSJ). Projekt vodi Miro Romih (Amebis, d. o. o., Kamnik), njegov koordinator je Simon Krek (Amebis, Institut Jožef Stefan). Projekt delno financirata Evropska unija iz Evropskega socialnega sklada ter Ministrstvo za šolstvo in šport Republike Slovenije. Nosilna ustanova projekta je Amebis, v konzorciju pa sodelujejo še štirje partnerji: Institut Jožef Stefan (Odsek za tehnologije znanja), Univerza v Ljubljani (Fakulteta za družbene vede), Znanstvenoraziskovalni center SAZU (Inštitut za slovenski jezik Frana Ramovša) in Trojina, zavod za uporabno slovenistiko. Projekt poteka od junija 2008 in se bo zaključil junija 2013. Jezik in slovstvo, let. 54 (2009), št. 3–4 UDK 811.163.6’32

Upload: others

Post on 21-Mar-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

NatašaLogarBerginc1inSimonŠuster21 Univerza v Ljubljani, Fakulteta za družbene vede 2 Trojina, zavod za uporabno slovenistiko

GRADNJANOVEGAKORPUSASLOVENŠČINE

V prispevku je predstavljen začetni del gradnje novega referenčnega korpusa slovenščine. Ta bonadgradnja korpusaFidaPLUS ter bo imel 100-milijonski del in domilijarde pojavnic obsegajočiostali del. Prikazana in na kratko utemeljena je taksonomija korpusa z okvirnimi deleži različnihvrstbesedil,naštetapasotudidrugaključnanačela,kibodousmerjalazbiranje.Zbiranjebesedilnapodlagirazličnihpodatkov,izkaterihjemogočevsajokvirnosklepatiorecepcijiinprodukcijijavnoobjavljenihslovenskihbesedil,žepoteka.

Ključne besede: referenčnikorpus,merilagradnje,taksonomija,FidaPLUS

1 Projekt

Referenčni, enojezični, pisni indelomadinamičnikorpus sodobne slovenščine,katerega del gradnje bomo predstavili v prispevku, nastaja v okviru projektaSporazumevanje v slovenskem jeziku (v nadaljevanju SSJ). Projekt vodi MiroRomih(Amebis,d.o.o.,Kamnik),njegovkoordinatorjeSimonKrek(Amebis,Institut Jožef Stefan). Projekt delno financirata Evropska unija iz EvropskegasocialnegaskladaterMinistrstvozašolstvoinšportRepublikeSlovenije. Nosilna ustanovaprojektajeAmebis,vkonzorcijupasodelujejošeštirjepartnerji:InstitutJožefStefan (Odsekza tehnologije znanja),UniverzavLjubljani (Fakulteta zadružbenevede),ZnanstvenoraziskovalnicenterSAZU(InštitutzaslovenskijezikFranaRamovša) inTrojina, zavodzauporabno slovenistiko.Projektpotekaodjunija2008insebozaključiljunija2013.

Jezikinslovstvo,let.54(2009),št.3–4

UDK811.163.6’32

Page 2: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

58 NatašaLogarBergincinSimonŠuster

Korpus,kigabomovnadaljevanjuimenovalizdelovnimnaslovomKorpusSSJ,jeleedenodciljevprojekta–tisonamrečtrije:

1. referenčni korpus in leksikalna baza slovenskega jezika s slovničnimanalizatorjem,

2. jezikovne tehnologije kot del didaktičnih pristopov v vzgojno-izo-braževalnihprocesih,

3. pedagoškakorpusnaslovnicainslogovnipriročnik.

NakakšennačinjeKorpusSSJvpetvvsetricilje,prikazujenaslednjaslika:

Slika 1: Povezanost ciljev projekta SSJ (vir:<http://www.slovenscina.eu>).

Vzporednozzbiranjembesedil(pisno gradivo;gl.zgornjidelslike),kipotekaodzačetkaprojektainsebozaključilosredileta2012,potekapripravanovegavmes-nikazaspletnidostopdokorpusa,kiboprijazentudizamanjzahtevneuporabnike(pedagoški vmesnik),terpripravaročnooznačenegaoziromapreverjenegaučnegakorpusa s štirimi ravnmi označevanja (lema, oblikoslovne oznake, skladenjskarazčlenitev,prepoznavalastnihimen)inpripravabazepodatkovooblikoslovnihlastnostih sodobne slovenske leksike (označevalniki in razčlenjevalniki; večo temv prispevkuŠpeleArhar).KorpusSSJ je korpus pisnih besedil, imel pabo tudi govorni del v obsegumilijon besed (govorni korpus). Zgrajeni korpusbo temelj za bazo podatkov o skladenjskih, pomenskih, frazeoloških in drugihlastnostisodobneslovenskeleksike(gl.spodnjidelslike:leksikalna baza;večotemvprispevkuPoloneGantar)terzapodatke,napodlagikaterihbopripravljensodoben, poljuden in na realni rabi temelječ opis slovenskega jezikovnegasistema(pedagoška korpusna slovnica).Referenčnikorpusisotudiedenodvirovprepoznavanjapogostejšihpravopisnihindrugihtežavpripisanjurazličnihbesedilterpriprepoznavanjunormativnihteženjjezika,zatobodoizKorpusaSSJčrpanitudipodatkizaslogovni priročnik,kibonastalvzadnjifaziprojekta.1

1Večoprojektugl.naspletnistrani<http://www.slovenscina.eu>.

Page 3: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 59

2 Gradnja Korpusa SSJ

Ciljjezgraditinovjavnoinprostodostopnipisnikorpusvobsegudoenemilijardebesed,kiboizdelanpozgledukorpusovFIDA in FidaPLUSterzapisanvformatuXMLTEIP5.Njegovoopremljenost zoznakami jebilomogočeprepoznati žena podlagi zgoraj predstavljenih vzporednih projektnih aktivnosti: korpus bolematiziran, v celoti oblikoskladenjskooznačen, v določenemdelu skladenjskorazčlenjeninboimelorodjezaavtomatskoprepoznavolastnihimen.

2.1 Izhodišče gradnje: FIDA in FidaPLUS

KorpusSSJbonadgradnja referenčnegakorpusaslovenskega jezikaFidaPLUS (<http://www.fidaplus.net>),kijevobseguvečkot621milijonovbesednaspletuprostodostopenodleta2006inževključuje(oziromanadgrajuje)prvitakkorpuszaslovenščino,tj.vletih1997–2000nastalikorpusFIDA(<http://www.fida.net>).KersoosnovnipodatkiozgradbikorpusaFidaPLUSdostopninanjegovispletnistrani inker jebilkorpusžeobširnejepredstavljenvArhar inGorjanc (2007),navajamotuleosnovnepodatkeozgradbikorpusagledenazvrst(Tabela 1)intaksonomijo tegakorpusa(Tabela 2);vnadaljevanju,kjerobravnavamomerilagradnjekorpusa,sebomonamrečnaobojesklicevali.

Zvrst Število besed Delež v %umetnostnabesedila 21,568.943 3,47neumetnostnabesedila 598,871.741 96,41nipodatka 709.316 0,11

621,150.000

Umetnostna besedila Število besed Delež v %pesniškabesedila 366.215 1,70proznabesedila 20,178.021 93,55dramskabesedila 480.957 2,23nipodatka 543.750 2,52

21,568.943

Neumetnostna besedila Število besed Delež v %strokovna 62,064.156 10,36nestrokovna 536,314.560 89,55nipodatka 493.025 0,08

598,871.741

Tabela 1: Zgradba korpusa FidaPLUS glede na zvrst (virpodatkov:<http://www.fidaplus.net/>).

Page 4: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

60 NatašaLogarBergincinSimonŠuster

Ft.P – prenosnikFt.P.G–govorniFt.P.E–elektronskiFt.P.P–pisniFt.P.P.O–objavljenoFt.P.P.O.K–knjižnoFt.P.P.O.P–periodičnoFt.P.P.O.P.C–časopisnoFt.P.P.O.P.C.D–dnevnoFt.P.P.O.P.C.V–večkrattedenskoFt.P.P.O.P.C.T–tedenskoFt.P.P.O.P.R–revijalnoFt.P.P.O.P.R.T–tedenskoFt.P.P.O.P.R.S–štirinajstdnevnoFt.P.P.O.P.R.M–mesečnoFt.P.P.O.P.R.D–redkejekotnamesecFt.P.P.O.P.R.O–občasnoFt.P.P.N–neobjavljenoFt.P.P.N.J–javnoFt.P.P.N.I–internoFt.P.P.N.Z–zasebno

Ft.Z – zvrstFt.Z.U–umetnostnaFt.Z.U.P–pesniškaFt.Z.U.R–proznaFt.Z.U.D–dramskaFt.Z.N–neumetnostnaFt.Z.N.S–strokovnaFt.Z.N.S.H–humanističnaindružboslovnaFt.Z.N.S.N–naravoslovnaintehničnaFt.Z.N.N–nestrokovna

Ft.L – lektoriranoFt.L.D–daFt.L.N–ne

Tabela 2: Taksonomija korpusaFidaPLUS.

Page 5: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 61

2.2 Cilj gradnje: dvodelna sestava

KorpusSSJboimeldvadela:100-milijonskidelinostalidel.

a) 100-milijonski del korpusabonamenjenjeziko(slov)nimpoizvedovanjem,kiimajotežnjopomerodajnosti,kolikortaizhajaizvzorca(korpusa),kiimavnaprejpremišljeno inznano terutemeljenouravnoteženozgradbo.2Zatobodobesedilav 100-milijonskem delu korpusa pazljiveje tehnično očiščena (npr. televizijskisporedi,malioglasi,športnirezultatiipd.somotečizasplošnoleksikografskoizrabokorpusa in se jihobičajno iz korpusaodstrani, gl.Atkins inRundell 2008: 85),natančnejeboprinjemupoštevanataksonomija(gl.vnadaljevanjuTabelo 3,drugistolpec),priizborubesedilzatadelkorpusapabomotežilitudiknatančnejšemuupoštevanjupodatkovobesedilnirecepcijiinprodukciji.

b) V ostali del korpusavelikostidomilijardepojavnicbonačelomavključenovse,karbozbrano.Četudisinamrečzbiralcibesedilprizadevamodobitikarnajvečbesedilzavnaprejoblikovanekategorije,sezbranideležibesedilgledenazvrst,časizidaipd.leredkoujemajostistimi,določenimipredzbiranjem.Posledičnoje neizogibno, da ko vnaprej po obsegu določene kategorije zapolnimo, nekaj(lahkotudiveliko)besedilostanezunajkorpusa;ravnoobratnopalahkodoločenihbesedildobimovelikomanj,kotsmosiprvotnoželeli.Skorpusnojezikoslovnegavidikaješkodaopustitipridobljenabesedila,kisopotencialnivirkakovostnegajezikoslovnega opisa, zato smo se odločili, da pripravimo tudi »ostali«, večjidel korpusa z bolj ohlapnimi merili vključitve (gl. Tabelo 3, tretji stolpec).Merila za ta del korpusa izhajajo iz 100-milijonskega korpusa in so razširjenatako,daomogočajoprostejšezajemanjebesedil,nedabipritemkompromitiralireferenčnost ali reprezentativnost korpusa. V ta del korpusa se lahko večkratdodananovopridobljenogradivoinsenatanačinvsajvčasutrajanjaprojektaomogočinastajanjedinamičnegareferenčnegakorpusaslovenščine(spredhodnimopozorilomuporabnikomotem,kdajbodonadgradnjeprišlooziromadasejetožezgodilo,teropisomnanovovključenegagradiva).

2.3 Merila gradnje in taksonomija

Predzačetkomgradnjevsakegakorpusajetrebapremisliti lastnosti,kijihlahkopripišemo besedilom oziroma jih prepoznamo v besedilih in na podlagi katerihusmerjamozbiranjegradivateruravnotežujemokorpus.Napodlagivdomačiintujiliteraturipopisanihspoznanj(npr.Atkins,ClearinOstler1992;Gorjanc2002:32–33;Arhar2004;McEnery,XiaoinTono2006),napodlagiizkušenj,pridobljenihprigradnjikorpusovFIDA in FidaPLUS(npr.ArharinGorjanc2007;Gorjanc2005;Erjavec2003;ErjavecinKrek2008),ternapodlagipogovorovmedčlanispisnimkorpusompovezaneožjeprojektne skupine (poabecednemvrstnemredu:Špela

2Izraz»uravnoteženi«uporabljamosprevidnostjo.Atkins,Clear inOstler (1992:6, isto tudiBiber1993:256)soprepričani,dajemogočekonkretnikorpusoznačitizauravnoteženega–česploh–šelepoizgradnjiterpoanaliziinuporabisstranirazličnihuporabnikov.

Page 6: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

62 NatašaLogarBergincinSimonŠuster

Arhar, Polona Gantar, Vojko Gorjanc, Polonca Kocjančič, Simon Krek,MarkoStabej,MojcaŠorliinavtorjaprispevka),jebilapripravljenaspecifikacijanaslednjihnajpomembnejših lastnosti:besedilna zvrst/vrsta, področje/tema, dolžina besedil, ustroj dokumenta, avtorstvo, ciljna publika, branost, prenosnik, objavljenost/internost/zasebnost, čas izdaje/nastanka, prevedenost in lektoriranost.

Delutehlastnostibesedilježevčasupripravnazbiranjepripisanaokvirnakoličina,ki jo želimovključitivkorpus–povedanodrugače:nekatereod lastnostibesedilpostanejo kategorije korpusove taksonomije. Taksonomija je uporabniku korpusavidna v glavi korpusnih dokumentov in je hkrati temelj za razširjeno iskanje pokorpusu.Medtem ko je bila taksonomija korpusaFidaPLUS tridelna (prenosnik,zvrst,lektoriranost;gl.Tabelo 2)intudidaljenotranjedokajpodrobnočlenjena(prim.npr.periodično,ki je imelopodkategorijičasopisno in revijalno,znotrajdrugepanatošetedensko,štirinajstdnevno,mesečno,redkejekotnamesecinobčasno),smotaksonomijoKorpusaSSJpoenostavilivenodelnoinčlenjenodotretjepodravnine:

tisk knjižno leposlovje stvarnabesedila periodično časopis revija drugointernet

Slika 2: Taksonomija Korpusa SSJ.

Vnadaljevanjubomonakratkopredstavilirazloge,kisonasvodilikoblikovanjutake taksonomije – v skladu z dejstvom, da gre za nadgradnjo že obstoječegakorpusa, so ti razlogi podani primerjalno s FidoPLUS oziroma temeljijo napovratnihinformacijahvzveziznjo.

a) Tisk in internet

Tradicionalnemupisnemuprenosniku–tisku–sejevjavnihgovornihpoložajihvsaj v zadnjem desetletju kot vsakodnevni način prenosa sporočil pridružilše elektronski. V FidiPLUS je internetnega gradiva 1,24 %. V nastajajočemkorpusu smo se zaradi večje vplivnosti3 odločili ta delež povečati, ker pa gretudi v tehničnem in metodološkem smislu za prvi večji poskus pridobivanjabesedilssvetovnegaspletazareferenčnikorpusprinas,smoseomejilinastrani

3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji,spletnivir):deležgospodinjstev,kiuporabljajointernet,sejes43%vletu2004povzpelna58%vletu2008,pravtakosejepovečaldeleždnevnihuporabnikovinternetaz28%vletu2005na42%vletu2008.

Page 7: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 63

z informativnimi vsebinami, in sicer z dveh vidikov: zajeli bomo (a) besedilanovičarskihportalovin(b)predstavitvenestranipodjetijterdržavnih,pedagoških,raziskovalnih, kulturnih ipd. ustanov. Merilo izbire bo obiskanost (pri a) terobiskanostinuglednost/velikost/pomembnost(prib).

b) Knjižnost, periodičnost in drugo

VoblikiknjigeizdanabesedilasovFidoPLUSprineslaslabih9%pojavnic,skorajvsedrugoizhajaizpublicističneperiodike.Načinuizhajanja–enkrat(zmožnostjoponatisa):večkrat–smoposkusnopridružilišedelomaodprtoskupino»drugo«.Zanjobomozbiralipodnapisetujihfilmov,nadaljevankindokumentarnihoddaj(vključnospodnapisizaslušnoprizadete)terbesedila,kisovrazličnihoddajahbrana4– t. i. scenarije inpostprodukcijskeskripte.Kot rečeno,grezaposkusninabor,zakateregasebomogledenapridobljenogradivonaknadnoodločili,pokaterihmerilih,alisplohinkakogavključitivkorpus. b1) Leposlovje in stvarna besedila

Kot je razvidno vTabelah 1 in 2, je bila v korpusuFidaPLUS uporabljenadelitev na umetnostna in neumetnostna besedila. Prvih korpus vsebuje 3,5%(dalje jih taksonomijadelišenapesniška,prozna indramska,pričemers93,5%prevladujejoprozna).Določitev,aligrezaumetnostnabesedilaaline,jesamodejnomogočalepriknjižnemgradivu(pridnevnemčasopisju,kitudilahkovsebujebesedilaumetnostnezvrsti,zaradivečbesedilnostidokumentovtoskorajnimogoče(vsekakorpaničasovnosmiselno)),zatotidveskupinivnovienodelnitaksonomijiumeščamokotpodravninivkategorijoknjižno.Namestosicernatradicijislovenskezvrstnostitemelječegapoimenovanja»neumetnost-ni«,kiizražapravzapravto,česavtejskupinini(zizločitvijopublicistikepapostanehkrati tudipreširoko), smo seknjižnabesedila znefikcijskovsebinoodločilipoimenovati»stvarnaliteratura«(tudioznaka»strokovnabesedila«jenamrečzavajajoča),njejnasprotnoskupinopa»leposlovje«.Kersobilideležipesniških in dramskih besedil vFidiPLUS izrednomajhni in ker pridobitvevelikovečjegadeležanepričakujemo(čepravsijobomozaraditežnjepotem,dabikorpuszajemalčimboljraznovrstnoraboslovenščine,prizadevalidoseči),smonadaljnjodelitevleposlovnihbesedilopustili.

b2) Časopis in revija

DeležčasopisneinrevijalneperiodikejevkorpusuFidaPLUSdalečnajvečji–večkot85%.Tudinapodlagiodzivovstalnihuporabnikovtegakorpusa(sicerzaznanihpovsemnesistematično;anketnaraziskavaouporab(nost)iFidePLUSpotekaravnovčasupripravetegaprispevka)vsmislu,daje–čepravnajvplivnejši–novinarskijezik v korpusu količinsko preveč izpostavljen, bomo v 100-milijonskem deluKorpusaSSJdeležpublicistikezmanjšali,opuščamopatudidelitevnatedensko,4 Govornipodkorpusbonamrečvključevallespontanigovor.

Page 8: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

64 NatašaLogarBergincinSimonŠuster

štirinajstnevno ipd., ker je raziskave slovenskega poročevalstva kot stilotvornorelevantne(še)nisopotrdile,5zareferenčnikorpuspajegotovoprevečpodrobna.

TaksonomijaKorpusaSSJzokvirnimideležijetakonaslednja:

Taksonomija % za 100-milijonski del korpusa % za ostali del korpusa

tisk 80 50–90knjižno 35 15–35leposlovje 17 20–50stvarnabesedila 18 30–60periodično 40 20–40časopis 20 30–70 revija 20 30–70drugo 5 5–10internet 20 10–50novičarskiportali 8 30–70podjetjainustanove 12 30–70

Tabela 3: Predvideni deleži besedil v obeh delih Korpusa SSJ.

Prioblikovanjutaksonomijezdeležinasjevodilotudipravilo,kismogaposrednoženakazali:vključili smo lekategorije, zakatere jepričakovati,dabomozanjelahkopridobilitolikobesedil,daboobstojkategorijeupravičen(tj.dabodosegelvsaj5%v100-milijonskemdelukorpusa).Opustilismokategorije,kizahtevajovečnotranjegauravnoteževanjainveččasaprizbiranju,sajjezanjeboljsmiselnagradnjaspecializiranih korpusov (npr. korpus zasebnih besedil ali korpus nelektoriranihbesedil (zadnjih je v korpusu FidaPLUS 0,6 %, čeprav to vseeno pomeniimpresivnih3,800.000pojavnic)).Zaopustitevnekaterihpodravnin taksonomijesmoseodločilitudinapodlagipodatkovonačinihiskanjapokorpusuFidaPLUS.Analiza, opravljenavnovembru2008, jepokazala,da jebilokar93% izdelavkonkordancvFidiPLUSizvedenopriosnovnemiskanju,le7%zahtevpopridobit-vikonkordančnihnizovpajepotekalovrazširjenemiskanjuzizbirotaksonomskihkategorij,časanastankadelaaliizpisaCobiss.Vtehprimerihsonekateraiskanjaizrednoredka,takosobilenpr.podkategorijeprirevijalnihinčasopisnihbesedilihgledenapogostostizhajanjaizbranevmanjkotenemodstotkurazširjenihiskanj.Sicerpajebilvokvirurazširjenegaiskanjaprenosnikizbranv15%,časnastankadelav35%,zvrstv17%,lektoriranostv18%inizpisCobissv4%.Kljubnavidezmanjšiizbirnostivnaprejpripravljenihmožnostirazširjenegaiskanjazaradi

5Korošec(1976:106)znotrajpublicistikeizrecnoločilenavsakodnevnoizhajanjevezanoporočevalstvo–kajtivsakodnevnopisanjeopodobnihaliponavljajočihsesituacijahjenajpomembnejšiobjektivnistilotvornidejavnikčasopisnegaporočevalstva,kijeodjezikazahtevalprilagoditevnovivlogiinstemnastaneknovega,tj.poročevalskegastila.

Page 9: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 65

enodelneinpoenostavljenetaksonomijebouporabnikomnovegakorpusaševednoomogočena izdelava poljubnih podkorpusovna podlagi bibliografskih podatkovvglavikorpusnihdokumentov.Čepravsmopregledalistanjevtujihkorpusih(kipa jezelorazlično,prim.Tabelo 4),sobilideleživ taksonomijiKorpusaSSJvkončnifazisubjektivnaodločitevsestavljalcevkorpusa–zavedamopase,dabouporabnikomkorpusa trebadatimožnostprepoznanja tehsubjektivnihodločitevvsmislu,dajekorpussicerzaznamovansteoretičnimiprepričanjiinodločitvamisvojihsnovalcev,vendarmorabitiuporabnikomomogočeno,datozaznamovanostrazberejo inpresežejo (Stabej1998:98).UporabnikomKorpusaSSJbozatopoizgradnjidanonavoljodovoljpodatkovovsebinikorpusa,dabodolahkorezultatesvojihpoizvedbustreznovrednotiliininterpretirali.

Korpus6 Zvrst Delež v %Češčina:Češkinacionalnikorpus–SYN2005(100milijonov)

leposlovje 40strokovna besedila 27periodika 33

Češkinacionalnikorpus–SYN2000(100milijonov)

leposlovje 15stvarnabesedila 25periodika 60

Nemščina:Digitalnislovarnemškegajezika20.stoletja(DWDS)–Kerncorpus(100milijonov)

leposlovje 26periodika 27stvarna besedila 22uporabna besedila 20transkribirana govorjena besedila 5

Angleščina:Britanskinacionalnikorpus(BNC)(100milijonov)

knjižno 58periodično 30različno–objavljeno 6različno–neobjavljeno 4govorjeno–brano 2

Poljščina:KorpusPWN(100milijonov)

leposlovje 20stvarna besedila 21periodika 45,5govorjena besedila 4,5internetno 3,5besedilni drobiž 5,5

Irščina:NovikorpuszaIrsko(NCI)(255milijonov)

knjižno 50periodično 20internetno 25ostalo 5

Madžarščina:Madžarskinacionalnikorpus(187milijonov)

periodika 45leposlovje 20stvarna besedila 13uradni dokumenti 11zasebno 10

Tabela 4: Delež besedilnih zvrsti v sedmih tujih referenčnih korpusih.

6Spletnestranikorpusovgl.vseznamunakoncuprispevka.

Page 10: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

66 NatašaLogarBergincinSimonŠuster

Medlastnostmibesedil,kivtaksonomijinisovidne,bodopausmerjalezbiranjebesedil,jetrebaobkoncutetočkeomenitivsajše:

– pri zbiranju si bomo prizadevali pridobiti gradivo z različnih področijoziromarazličnihtém(aktualnidogodki,gospodarstvo,politika,vzgojainizobraževanje,narava,dom,ljudje,družina,moški,ženske,zdravje,hrana,posel,finance,športitd.);

– prigradivu,prikateremjeavtorstvomerljivoinznano,bomopozorninačimvečjorazpršenostoziromanato,dabizaradinaključjaalipopomotineprišlodoprekomernezastopanostilepeščiceavtorjev;

– pridobivali bomo tudi lokalno časopisje ter zamejsko in izseljenskogradivo;

– pričasunastanka/izdajebomoupoštevalidvenačeli:(a)gledenaprodukcijobomo besedilodajalce, ki so svoja besedila že prispevali v korpusFidaPLUS,prosilizadela,kisojihizdalipoletu2005,besedilodajalce,kipriFidiPLUSnisosodelovali,pazadela,kisojihizdalipoletu1995;(b)pridobivalibomotudistarejšegradivo(sicernovejšegadatumaizdaje),zakateregabododostopnipodatkiovisokirecepciji(npr.visokaizposojavknjižnicah);

– vkorpusbodovključenatudiprevedenadela.

2.4 Začetek gradnje: podatki za zbiranje besedil

Vslovenskemprostorujepodatke,izkaterihlahkookvirnosklepamoorecepcijibesedil,mogočedobitiizvečvirov.

PodatkiobralnihnavadahvzvezisčasopisiinrevijamisezbirajovokviruNacionalneraziskavebranosti.RaziskavoizvajadružbaValicon,d.o.o.,njennaročnikpajeSvetpristopnikov (sestavljajo ga skoraj vsi pomembni založniki tiskanihmedijev), kidelujepriSlovenskioglaševalskizbornici.Splošnipodatkiizraziskavesoobjavljenidvakratletnonaspletnistrani<http://www.nrb.info/podatki>.Drugivirpodatkovjeknjižničnaizposoja,kipove,katereknjigesobilevknjižnicah,vključenihvsistemCobiss,najboljizposojaneinnajvečkratrezerviraneterkaterislovenskiavtorjiinnjihovadelasonajboljizposojani(grezaavtorje,kisoupravičenidoknjižničneganadomestila). Podatki so na voljo na spletni strani <http://home.izum.si/cobiss/statistike_izposoj>.Enoodmerilzaizbirobesedilajelahkotudiknjižnanagrada.ZaleposlovjejevSlovenijimogočedobitivečnagrad,kotsokresnikzanajboljširomanleta,desetnicazamladinskoliteraturo,Jenkovanagradazapoezijoitd.Privključevanju besedil v korpus se bomooprli tudi na podatke o nakladi.Ti sicerneposrednonegovorijoobesedilnirecepciji,kljubtemupašteviloizdanihizvodovobičajnosledipotrebaminželjambralcev;šebolj toveljazapodatekoponatisuoziroma dopolnjeni izdaji. Pri spletnih straneh je najpomembnejši podatek oobiskanosti.Obstajavečmerjenjobiskanostispletnihstrani,mednjiminpr.MOSS(<http://www.soz.si/projekti_soz/moss_merjenje_obiskanosti_spletnih_strani>),Alexa (<http://www.alexa.com>) in projekt Raba interneta v Sloveniji (<http://

Page 11: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 67

www.ris.org>).Priizbiripredstavitvenihstranislovenskihpodjetijbomoizhajaliizlestvicnajuglednejših,največjihinnajuspešnejšihpodjetij,kijihpripravljačasopisFinance(<http://www.finance.si/>).Nadrugistranismovidikbesedilneprodukcijemeddrugimnpr.skušaliujetitako,dasmoizseznamaAgencijeRepublikeSlovenijezajavnopravneevidenceinstoritve(<http://www.ajpes.si>)izpisalipravneosebe,kiimajokotsvojodejavnostopredeljeno(tudi)izdajanjeknjig,ternatotaseznamzožilinatiste,kisovzadnjihtrehletihizdalivsajpetdel.Naštetimseznamomsmopridružili šenekatere–vses težnjopoobjektiviziranjunabora in izborabesedil.Seznamibodovčasugradnjekorpusapostajališekompleksnejši,nato,vkolikšnimeri bodo to na koncu tudi seznami v korpus vključenih besedil, pa bo sevedamočnovplivalapripravljenostbesedilodajalcev,dadelabrezplačnoodstopijo.

Na osnovi pripravljenih seznamov besedilodajalcev in besedil, ki jih želimopridobiti, v času pisanja tega prispevka že poteka »časovno in organizacijskonajzahtevnejši del projekta« (Arhar in Gorjanc 2007: 98): zbiranje besedil velektronskioblikiinpogodbenourejanjeavtorskopravnihrazmerij.

3 Sklep

Predstavljena merila, premisleki in odločitve so vodilo gradnje Korpusa SSJ,vendarjihjetrebarazumetidinamično–obgradnjikorpusasebodošespreminjaliindopolnjevali.Namentegaprispevkajezatotudipovabilobralcem,dassvojimipredlogiizboljšajonašaizhodišča,olajšajozbiranjealikakodrugačepripomorejokrelevantnostiinuporabnostikončnegaizdelka.

Literatura

Arhar, Špela, 2004: Gradnja specializiranega korpusa. Diplomsko delo. Ljubljana:Filozofskafakulteta.

Arhar,Špela, inGorjanc,Vojko,2007:KorpusFidaPLUS:novageneracija slovenskegareferenčnegakorpusa.Jezik in slovstvo52/2.95–110.

Atkins,Sue,Clear,Jeremy,inOstler,Nicholas,1992:Corpusdesigncriteria.Literary and linguistic computing7/1.1–16.

Atkins, Sue, in Michael Rundell, 2008: The Oxford Guide to Practical Lexicography. Oxford:OxfordUniversityPress.

Biber,Douglas,1993:Representativnessincorpusdesign.Literary and linguistic computing 8/4.243–257.

Erjavec,Tomaž,2003:Označevanjekorpusov.Jezik in slovstvo48/3–4.61–76.

Erjavec,Tomaž,inKrek,Simon,2008:OblikoskladenjskespecifikacijeinoznačenikorpusiJOS. Erjavec, Tomaž, in Žganec Gros, Jerneja (ur.): Zbornik 6. konference Jezikovne tehnologije.Ljubljana:InstitutJožefStefan.49–53.

Page 12: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

68 NatašaLogarBergincinSimonŠuster

Gorjanc, Vojko, 2002: Jezikoslovna načela gradnje računalniških besedilnih zbirk strokovnih jezikov. Doktorskadisertacija.Ljubljana:Filozofskafakulteta.

Gorjanc,Vojko,2005:Uvod v korpusno jezikoslovje.Domžale:Izolit.

Korpus slovenskega jezika FIDA(1997–2000):<http://www.fida.net>. (Dostop22.5.2009.)

Korošec, Tomo, 1976: Poglavja iz strukturne analize slovenskega časopisnega stila. Doktorska disertacija.Ljubljana:Filozofskafakulteta.

Korpus slovenskega jezika FidaPLUS(2007):<http://www.fidaplus.net>.(Dostop22.5.2009.)

McEnery,Tony,Xiao,RichardinTono,Yukio,2006:Corpus-based language studies: an advanced resource book.LondoninNewYork:Routledge.

Sporazumevanje v slovenskem jeziku(2008–2013):<http://www.slovenscina.eu>.(Dostop22.5.2009.)

Stabej,Marko, 1998: Besedilnovrstna sestava korpusa FIDA.Uporabno jezikoslovje 6.96–106.

Spletne strani

a)podatkovzazbiranjebesedil:AJPES:<http://www.ajpes.si>.(Dostop22.5.2009.)Alexa:<http://www.alexa.com>.(Dostop22.5.2009.)Cobiss – statistike izposoj gradiva:<http://home.izum.si/cobiss/statistike_izposoj>.(Dostop:22.5.2009.)Finance:<http://www.finance.si/>.(Dostop22.5.2009.)MOSS – merjenje obiskanosti spletnih strani:<http://www.soz.si/projekti_soz/moss_merjenje_obiskanosti_spletnih_strani>.(Dostop22.5.2009.)Nacionalna raziskava branosti:<http://www.nrb.info/podatki>.(Dostop22.5.2009.)RIS – raba interneta v Sloveniji:<http://www.ris.org>.(Dostop22.5.2009.)

b)tujihreferenčnihkorpusov:Britanski nacionalni korpus (BNC):<http://www.natcorp.ox.ac.uk/>. (Dostop22.5.2009.)Češki nacionalni korpus SYN2000 in SYN2005:<http://www.korpus.cz>. (Dostop22.5.2009.)Digitalni slovar nemškega jezika 20. stoletja (DWDS) – Kerncorpus:<http://www.dwds.de/>.(Dostop22.5.2009.)Madžarski nacionalni korpus:<http://www.nytud.hu>.(Dostop22.5.2009.)Novi korpus za Irsko (NCI):<http://www.focloir.ie/corpus/>,<http://www.lexmasterclass.com/corpus_ireland>.(Dostop22.5.2009.)Poljski korpus PWN:<http://korpus.pwn.pl/>.(Dostop22.5.2009.)