gradnja novega korpusa slovenŠČine · 2014. 6. 27. · 3 posredno o večji vplivnosti govorijo...
TRANSCRIPT
NatašaLogarBerginc1inSimonŠuster21 Univerza v Ljubljani, Fakulteta za družbene vede 2 Trojina, zavod za uporabno slovenistiko
GRADNJANOVEGAKORPUSASLOVENŠČINE
V prispevku je predstavljen začetni del gradnje novega referenčnega korpusa slovenščine. Ta bonadgradnja korpusaFidaPLUS ter bo imel 100-milijonski del in domilijarde pojavnic obsegajočiostali del. Prikazana in na kratko utemeljena je taksonomija korpusa z okvirnimi deleži različnihvrstbesedil,naštetapasotudidrugaključnanačela,kibodousmerjalazbiranje.Zbiranjebesedilnapodlagirazličnihpodatkov,izkaterihjemogočevsajokvirnosklepatiorecepcijiinprodukcijijavnoobjavljenihslovenskihbesedil,žepoteka.
Ključne besede: referenčnikorpus,merilagradnje,taksonomija,FidaPLUS
1 Projekt
Referenčni, enojezični, pisni indelomadinamičnikorpus sodobne slovenščine,katerega del gradnje bomo predstavili v prispevku, nastaja v okviru projektaSporazumevanje v slovenskem jeziku (v nadaljevanju SSJ). Projekt vodi MiroRomih(Amebis,d.o.o.,Kamnik),njegovkoordinatorjeSimonKrek(Amebis,Institut Jožef Stefan). Projekt delno financirata Evropska unija iz EvropskegasocialnegaskladaterMinistrstvozašolstvoinšportRepublikeSlovenije. Nosilna ustanovaprojektajeAmebis,vkonzorcijupasodelujejošeštirjepartnerji:InstitutJožefStefan (Odsekza tehnologije znanja),UniverzavLjubljani (Fakulteta zadružbenevede),ZnanstvenoraziskovalnicenterSAZU(InštitutzaslovenskijezikFranaRamovša) inTrojina, zavodzauporabno slovenistiko.Projektpotekaodjunija2008insebozaključiljunija2013.
Jezikinslovstvo,let.54(2009),št.3–4
UDK811.163.6’32
58 NatašaLogarBergincinSimonŠuster
Korpus,kigabomovnadaljevanjuimenovalizdelovnimnaslovomKorpusSSJ,jeleedenodciljevprojekta–tisonamrečtrije:
1. referenčni korpus in leksikalna baza slovenskega jezika s slovničnimanalizatorjem,
2. jezikovne tehnologije kot del didaktičnih pristopov v vzgojno-izo-braževalnihprocesih,
3. pedagoškakorpusnaslovnicainslogovnipriročnik.
NakakšennačinjeKorpusSSJvpetvvsetricilje,prikazujenaslednjaslika:
Slika 1: Povezanost ciljev projekta SSJ (vir:<http://www.slovenscina.eu>).
Vzporednozzbiranjembesedil(pisno gradivo;gl.zgornjidelslike),kipotekaodzačetkaprojektainsebozaključilosredileta2012,potekapripravanovegavmes-nikazaspletnidostopdokorpusa,kiboprijazentudizamanjzahtevneuporabnike(pedagoški vmesnik),terpripravaročnooznačenegaoziromapreverjenegaučnegakorpusa s štirimi ravnmi označevanja (lema, oblikoslovne oznake, skladenjskarazčlenitev,prepoznavalastnihimen)inpripravabazepodatkovooblikoslovnihlastnostih sodobne slovenske leksike (označevalniki in razčlenjevalniki; večo temv prispevkuŠpeleArhar).KorpusSSJ je korpus pisnih besedil, imel pabo tudi govorni del v obsegumilijon besed (govorni korpus). Zgrajeni korpusbo temelj za bazo podatkov o skladenjskih, pomenskih, frazeoloških in drugihlastnostisodobneslovenskeleksike(gl.spodnjidelslike:leksikalna baza;večotemvprispevkuPoloneGantar)terzapodatke,napodlagikaterihbopripravljensodoben, poljuden in na realni rabi temelječ opis slovenskega jezikovnegasistema(pedagoška korpusna slovnica).Referenčnikorpusisotudiedenodvirovprepoznavanjapogostejšihpravopisnihindrugihtežavpripisanjurazličnihbesedilterpriprepoznavanjunormativnihteženjjezika,zatobodoizKorpusaSSJčrpanitudipodatkizaslogovni priročnik,kibonastalvzadnjifaziprojekta.1
1Večoprojektugl.naspletnistrani<http://www.slovenscina.eu>.
Gradnjanovegakorpusaslovenščine 59
2 Gradnja Korpusa SSJ
Ciljjezgraditinovjavnoinprostodostopnipisnikorpusvobsegudoenemilijardebesed,kiboizdelanpozgledukorpusovFIDA in FidaPLUSterzapisanvformatuXMLTEIP5.Njegovoopremljenost zoznakami jebilomogočeprepoznati žena podlagi zgoraj predstavljenih vzporednih projektnih aktivnosti: korpus bolematiziran, v celoti oblikoskladenjskooznačen, v določenemdelu skladenjskorazčlenjeninboimelorodjezaavtomatskoprepoznavolastnihimen.
2.1 Izhodišče gradnje: FIDA in FidaPLUS
KorpusSSJbonadgradnja referenčnegakorpusaslovenskega jezikaFidaPLUS (<http://www.fidaplus.net>),kijevobseguvečkot621milijonovbesednaspletuprostodostopenodleta2006inževključuje(oziromanadgrajuje)prvitakkorpuszaslovenščino,tj.vletih1997–2000nastalikorpusFIDA(<http://www.fida.net>).KersoosnovnipodatkiozgradbikorpusaFidaPLUSdostopninanjegovispletnistrani inker jebilkorpusžeobširnejepredstavljenvArhar inGorjanc (2007),navajamotuleosnovnepodatkeozgradbikorpusagledenazvrst(Tabela 1)intaksonomijo tegakorpusa(Tabela 2);vnadaljevanju,kjerobravnavamomerilagradnjekorpusa,sebomonamrečnaobojesklicevali.
Zvrst Število besed Delež v %umetnostnabesedila 21,568.943 3,47neumetnostnabesedila 598,871.741 96,41nipodatka 709.316 0,11
621,150.000
Umetnostna besedila Število besed Delež v %pesniškabesedila 366.215 1,70proznabesedila 20,178.021 93,55dramskabesedila 480.957 2,23nipodatka 543.750 2,52
21,568.943
Neumetnostna besedila Število besed Delež v %strokovna 62,064.156 10,36nestrokovna 536,314.560 89,55nipodatka 493.025 0,08
598,871.741
Tabela 1: Zgradba korpusa FidaPLUS glede na zvrst (virpodatkov:<http://www.fidaplus.net/>).
60 NatašaLogarBergincinSimonŠuster
Ft.P – prenosnikFt.P.G–govorniFt.P.E–elektronskiFt.P.P–pisniFt.P.P.O–objavljenoFt.P.P.O.K–knjižnoFt.P.P.O.P–periodičnoFt.P.P.O.P.C–časopisnoFt.P.P.O.P.C.D–dnevnoFt.P.P.O.P.C.V–večkrattedenskoFt.P.P.O.P.C.T–tedenskoFt.P.P.O.P.R–revijalnoFt.P.P.O.P.R.T–tedenskoFt.P.P.O.P.R.S–štirinajstdnevnoFt.P.P.O.P.R.M–mesečnoFt.P.P.O.P.R.D–redkejekotnamesecFt.P.P.O.P.R.O–občasnoFt.P.P.N–neobjavljenoFt.P.P.N.J–javnoFt.P.P.N.I–internoFt.P.P.N.Z–zasebno
Ft.Z – zvrstFt.Z.U–umetnostnaFt.Z.U.P–pesniškaFt.Z.U.R–proznaFt.Z.U.D–dramskaFt.Z.N–neumetnostnaFt.Z.N.S–strokovnaFt.Z.N.S.H–humanističnaindružboslovnaFt.Z.N.S.N–naravoslovnaintehničnaFt.Z.N.N–nestrokovna
Ft.L – lektoriranoFt.L.D–daFt.L.N–ne
Tabela 2: Taksonomija korpusaFidaPLUS.
Gradnjanovegakorpusaslovenščine 61
2.2 Cilj gradnje: dvodelna sestava
KorpusSSJboimeldvadela:100-milijonskidelinostalidel.
a) 100-milijonski del korpusabonamenjenjeziko(slov)nimpoizvedovanjem,kiimajotežnjopomerodajnosti,kolikortaizhajaizvzorca(korpusa),kiimavnaprejpremišljeno inznano terutemeljenouravnoteženozgradbo.2Zatobodobesedilav 100-milijonskem delu korpusa pazljiveje tehnično očiščena (npr. televizijskisporedi,malioglasi,športnirezultatiipd.somotečizasplošnoleksikografskoizrabokorpusa in se jihobičajno iz korpusaodstrani, gl.Atkins inRundell 2008: 85),natančnejeboprinjemupoštevanataksonomija(gl.vnadaljevanjuTabelo 3,drugistolpec),priizborubesedilzatadelkorpusapabomotežilitudiknatančnejšemuupoštevanjupodatkovobesedilnirecepcijiinprodukciji.
b) V ostali del korpusavelikostidomilijardepojavnicbonačelomavključenovse,karbozbrano.Četudisinamrečzbiralcibesedilprizadevamodobitikarnajvečbesedilzavnaprejoblikovanekategorije,sezbranideležibesedilgledenazvrst,časizidaipd.leredkoujemajostistimi,določenimipredzbiranjem.Posledičnoje neizogibno, da ko vnaprej po obsegu določene kategorije zapolnimo, nekaj(lahkotudiveliko)besedilostanezunajkorpusa;ravnoobratnopalahkodoločenihbesedildobimovelikomanj,kotsmosiprvotnoželeli.Skorpusnojezikoslovnegavidikaješkodaopustitipridobljenabesedila,kisopotencialnivirkakovostnegajezikoslovnega opisa, zato smo se odločili, da pripravimo tudi »ostali«, večjidel korpusa z bolj ohlapnimi merili vključitve (gl. Tabelo 3, tretji stolpec).Merila za ta del korpusa izhajajo iz 100-milijonskega korpusa in so razširjenatako,daomogočajoprostejšezajemanjebesedil,nedabipritemkompromitiralireferenčnost ali reprezentativnost korpusa. V ta del korpusa se lahko večkratdodananovopridobljenogradivoinsenatanačinvsajvčasutrajanjaprojektaomogočinastajanjedinamičnegareferenčnegakorpusaslovenščine(spredhodnimopozorilomuporabnikomotem,kdajbodonadgradnjeprišlooziromadasejetožezgodilo,teropisomnanovovključenegagradiva).
2.3 Merila gradnje in taksonomija
Predzačetkomgradnjevsakegakorpusajetrebapremisliti lastnosti,kijihlahkopripišemo besedilom oziroma jih prepoznamo v besedilih in na podlagi katerihusmerjamozbiranjegradivateruravnotežujemokorpus.Napodlagivdomačiintujiliteraturipopisanihspoznanj(npr.Atkins,ClearinOstler1992;Gorjanc2002:32–33;Arhar2004;McEnery,XiaoinTono2006),napodlagiizkušenj,pridobljenihprigradnjikorpusovFIDA in FidaPLUS(npr.ArharinGorjanc2007;Gorjanc2005;Erjavec2003;ErjavecinKrek2008),ternapodlagipogovorovmedčlanispisnimkorpusompovezaneožjeprojektne skupine (poabecednemvrstnemredu:Špela
2Izraz»uravnoteženi«uporabljamosprevidnostjo.Atkins,Clear inOstler (1992:6, isto tudiBiber1993:256)soprepričani,dajemogočekonkretnikorpusoznačitizauravnoteženega–česploh–šelepoizgradnjiterpoanaliziinuporabisstranirazličnihuporabnikov.
62 NatašaLogarBergincinSimonŠuster
Arhar, Polona Gantar, Vojko Gorjanc, Polonca Kocjančič, Simon Krek,MarkoStabej,MojcaŠorliinavtorjaprispevka),jebilapripravljenaspecifikacijanaslednjihnajpomembnejših lastnosti:besedilna zvrst/vrsta, področje/tema, dolžina besedil, ustroj dokumenta, avtorstvo, ciljna publika, branost, prenosnik, objavljenost/internost/zasebnost, čas izdaje/nastanka, prevedenost in lektoriranost.
Delutehlastnostibesedilježevčasupripravnazbiranjepripisanaokvirnakoličina,ki jo želimovključitivkorpus–povedanodrugače:nekatereod lastnostibesedilpostanejo kategorije korpusove taksonomije. Taksonomija je uporabniku korpusavidna v glavi korpusnih dokumentov in je hkrati temelj za razširjeno iskanje pokorpusu.Medtem ko je bila taksonomija korpusaFidaPLUS tridelna (prenosnik,zvrst,lektoriranost;gl.Tabelo 2)intudidaljenotranjedokajpodrobnočlenjena(prim.npr.periodično,ki je imelopodkategorijičasopisno in revijalno,znotrajdrugepanatošetedensko,štirinajstdnevno,mesečno,redkejekotnamesecinobčasno),smotaksonomijoKorpusaSSJpoenostavilivenodelnoinčlenjenodotretjepodravnine:
tisk knjižno leposlovje stvarnabesedila periodično časopis revija drugointernet
Slika 2: Taksonomija Korpusa SSJ.
Vnadaljevanjubomonakratkopredstavilirazloge,kisonasvodilikoblikovanjutake taksonomije – v skladu z dejstvom, da gre za nadgradnjo že obstoječegakorpusa, so ti razlogi podani primerjalno s FidoPLUS oziroma temeljijo napovratnihinformacijahvzveziznjo.
a) Tisk in internet
Tradicionalnemupisnemuprenosniku–tisku–sejevjavnihgovornihpoložajihvsaj v zadnjem desetletju kot vsakodnevni način prenosa sporočil pridružilše elektronski. V FidiPLUS je internetnega gradiva 1,24 %. V nastajajočemkorpusu smo se zaradi večje vplivnosti3 odločili ta delež povečati, ker pa gretudi v tehničnem in metodološkem smislu za prvi večji poskus pridobivanjabesedilssvetovnegaspletazareferenčnikorpusprinas,smoseomejilinastrani
3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji,spletnivir):deležgospodinjstev,kiuporabljajointernet,sejes43%vletu2004povzpelna58%vletu2008,pravtakosejepovečaldeleždnevnihuporabnikovinternetaz28%vletu2005na42%vletu2008.
Gradnjanovegakorpusaslovenščine 63
z informativnimi vsebinami, in sicer z dveh vidikov: zajeli bomo (a) besedilanovičarskihportalovin(b)predstavitvenestranipodjetijterdržavnih,pedagoških,raziskovalnih, kulturnih ipd. ustanov. Merilo izbire bo obiskanost (pri a) terobiskanostinuglednost/velikost/pomembnost(prib).
b) Knjižnost, periodičnost in drugo
VoblikiknjigeizdanabesedilasovFidoPLUSprineslaslabih9%pojavnic,skorajvsedrugoizhajaizpublicističneperiodike.Načinuizhajanja–enkrat(zmožnostjoponatisa):večkrat–smoposkusnopridružilišedelomaodprtoskupino»drugo«.Zanjobomozbiralipodnapisetujihfilmov,nadaljevankindokumentarnihoddaj(vključnospodnapisizaslušnoprizadete)terbesedila,kisovrazličnihoddajahbrana4– t. i. scenarije inpostprodukcijskeskripte.Kot rečeno,grezaposkusninabor,zakateregasebomogledenapridobljenogradivonaknadnoodločili,pokaterihmerilih,alisplohinkakogavključitivkorpus. b1) Leposlovje in stvarna besedila
Kot je razvidno vTabelah 1 in 2, je bila v korpusuFidaPLUS uporabljenadelitev na umetnostna in neumetnostna besedila. Prvih korpus vsebuje 3,5%(dalje jih taksonomijadelišenapesniška,prozna indramska,pričemers93,5%prevladujejoprozna).Določitev,aligrezaumetnostnabesedilaaline,jesamodejnomogočalepriknjižnemgradivu(pridnevnemčasopisju,kitudilahkovsebujebesedilaumetnostnezvrsti,zaradivečbesedilnostidokumentovtoskorajnimogoče(vsekakorpaničasovnosmiselno)),zatotidveskupinivnovienodelnitaksonomijiumeščamokotpodravninivkategorijoknjižno.Namestosicernatradicijislovenskezvrstnostitemelječegapoimenovanja»neumetnost-ni«,kiizražapravzapravto,česavtejskupinini(zizločitvijopublicistikepapostanehkrati tudipreširoko), smo seknjižnabesedila znefikcijskovsebinoodločilipoimenovati»stvarnaliteratura«(tudioznaka»strokovnabesedila«jenamrečzavajajoča),njejnasprotnoskupinopa»leposlovje«.Kersobilideležipesniških in dramskih besedil vFidiPLUS izrednomajhni in ker pridobitvevelikovečjegadeležanepričakujemo(čepravsijobomozaraditežnjepotem,dabikorpuszajemalčimboljraznovrstnoraboslovenščine,prizadevalidoseči),smonadaljnjodelitevleposlovnihbesedilopustili.
b2) Časopis in revija
DeležčasopisneinrevijalneperiodikejevkorpusuFidaPLUSdalečnajvečji–večkot85%.Tudinapodlagiodzivovstalnihuporabnikovtegakorpusa(sicerzaznanihpovsemnesistematično;anketnaraziskavaouporab(nost)iFidePLUSpotekaravnovčasupripravetegaprispevka)vsmislu,daje–čepravnajvplivnejši–novinarskijezik v korpusu količinsko preveč izpostavljen, bomo v 100-milijonskem deluKorpusaSSJdeležpublicistikezmanjšali,opuščamopatudidelitevnatedensko,4 Govornipodkorpusbonamrečvključevallespontanigovor.
64 NatašaLogarBergincinSimonŠuster
štirinajstnevno ipd., ker je raziskave slovenskega poročevalstva kot stilotvornorelevantne(še)nisopotrdile,5zareferenčnikorpuspajegotovoprevečpodrobna.
TaksonomijaKorpusaSSJzokvirnimideležijetakonaslednja:
Taksonomija % za 100-milijonski del korpusa % za ostali del korpusa
tisk 80 50–90knjižno 35 15–35leposlovje 17 20–50stvarnabesedila 18 30–60periodično 40 20–40časopis 20 30–70 revija 20 30–70drugo 5 5–10internet 20 10–50novičarskiportali 8 30–70podjetjainustanove 12 30–70
Tabela 3: Predvideni deleži besedil v obeh delih Korpusa SSJ.
Prioblikovanjutaksonomijezdeležinasjevodilotudipravilo,kismogaposrednoženakazali:vključili smo lekategorije, zakatere jepričakovati,dabomozanjelahkopridobilitolikobesedil,daboobstojkategorijeupravičen(tj.dabodosegelvsaj5%v100-milijonskemdelukorpusa).Opustilismokategorije,kizahtevajovečnotranjegauravnoteževanjainveččasaprizbiranju,sajjezanjeboljsmiselnagradnjaspecializiranih korpusov (npr. korpus zasebnih besedil ali korpus nelektoriranihbesedil (zadnjih je v korpusu FidaPLUS 0,6 %, čeprav to vseeno pomeniimpresivnih3,800.000pojavnic)).Zaopustitevnekaterihpodravnin taksonomijesmoseodločilitudinapodlagipodatkovonačinihiskanjapokorpusuFidaPLUS.Analiza, opravljenavnovembru2008, jepokazala,da jebilokar93% izdelavkonkordancvFidiPLUSizvedenopriosnovnemiskanju,le7%zahtevpopridobit-vikonkordančnihnizovpajepotekalovrazširjenemiskanjuzizbirotaksonomskihkategorij,časanastankadelaaliizpisaCobiss.Vtehprimerihsonekateraiskanjaizrednoredka,takosobilenpr.podkategorijeprirevijalnihinčasopisnihbesedilihgledenapogostostizhajanjaizbranevmanjkotenemodstotkurazširjenihiskanj.Sicerpajebilvokvirurazširjenegaiskanjaprenosnikizbranv15%,časnastankadelav35%,zvrstv17%,lektoriranostv18%inizpisCobissv4%.Kljubnavidezmanjšiizbirnostivnaprejpripravljenihmožnostirazširjenegaiskanjazaradi
5Korošec(1976:106)znotrajpublicistikeizrecnoločilenavsakodnevnoizhajanjevezanoporočevalstvo–kajtivsakodnevnopisanjeopodobnihaliponavljajočihsesituacijahjenajpomembnejšiobjektivnistilotvornidejavnikčasopisnegaporočevalstva,kijeodjezikazahtevalprilagoditevnovivlogiinstemnastaneknovega,tj.poročevalskegastila.
Gradnjanovegakorpusaslovenščine 65
enodelneinpoenostavljenetaksonomijebouporabnikomnovegakorpusaševednoomogočena izdelava poljubnih podkorpusovna podlagi bibliografskih podatkovvglavikorpusnihdokumentov.Čepravsmopregledalistanjevtujihkorpusih(kipa jezelorazlično,prim.Tabelo 4),sobilideleživ taksonomijiKorpusaSSJvkončnifazisubjektivnaodločitevsestavljalcevkorpusa–zavedamopase,dabouporabnikomkorpusa trebadatimožnostprepoznanja tehsubjektivnihodločitevvsmislu,dajekorpussicerzaznamovansteoretičnimiprepričanjiinodločitvamisvojihsnovalcev,vendarmorabitiuporabnikomomogočeno,datozaznamovanostrazberejo inpresežejo (Stabej1998:98).UporabnikomKorpusaSSJbozatopoizgradnjidanonavoljodovoljpodatkovovsebinikorpusa,dabodolahkorezultatesvojihpoizvedbustreznovrednotiliininterpretirali.
Korpus6 Zvrst Delež v %Češčina:Češkinacionalnikorpus–SYN2005(100milijonov)
leposlovje 40strokovna besedila 27periodika 33
Češkinacionalnikorpus–SYN2000(100milijonov)
leposlovje 15stvarnabesedila 25periodika 60
Nemščina:Digitalnislovarnemškegajezika20.stoletja(DWDS)–Kerncorpus(100milijonov)
leposlovje 26periodika 27stvarna besedila 22uporabna besedila 20transkribirana govorjena besedila 5
Angleščina:Britanskinacionalnikorpus(BNC)(100milijonov)
knjižno 58periodično 30različno–objavljeno 6različno–neobjavljeno 4govorjeno–brano 2
Poljščina:KorpusPWN(100milijonov)
leposlovje 20stvarna besedila 21periodika 45,5govorjena besedila 4,5internetno 3,5besedilni drobiž 5,5
Irščina:NovikorpuszaIrsko(NCI)(255milijonov)
knjižno 50periodično 20internetno 25ostalo 5
Madžarščina:Madžarskinacionalnikorpus(187milijonov)
periodika 45leposlovje 20stvarna besedila 13uradni dokumenti 11zasebno 10
Tabela 4: Delež besedilnih zvrsti v sedmih tujih referenčnih korpusih.
6Spletnestranikorpusovgl.vseznamunakoncuprispevka.
66 NatašaLogarBergincinSimonŠuster
Medlastnostmibesedil,kivtaksonomijinisovidne,bodopausmerjalezbiranjebesedil,jetrebaobkoncutetočkeomenitivsajše:
– pri zbiranju si bomo prizadevali pridobiti gradivo z različnih področijoziromarazličnihtém(aktualnidogodki,gospodarstvo,politika,vzgojainizobraževanje,narava,dom,ljudje,družina,moški,ženske,zdravje,hrana,posel,finance,športitd.);
– prigradivu,prikateremjeavtorstvomerljivoinznano,bomopozorninačimvečjorazpršenostoziromanato,dabizaradinaključjaalipopomotineprišlodoprekomernezastopanostilepeščiceavtorjev;
– pridobivali bomo tudi lokalno časopisje ter zamejsko in izseljenskogradivo;
– pričasunastanka/izdajebomoupoštevalidvenačeli:(a)gledenaprodukcijobomo besedilodajalce, ki so svoja besedila že prispevali v korpusFidaPLUS,prosilizadela,kisojihizdalipoletu2005,besedilodajalce,kipriFidiPLUSnisosodelovali,pazadela,kisojihizdalipoletu1995;(b)pridobivalibomotudistarejšegradivo(sicernovejšegadatumaizdaje),zakateregabododostopnipodatkiovisokirecepciji(npr.visokaizposojavknjižnicah);
– vkorpusbodovključenatudiprevedenadela.
2.4 Začetek gradnje: podatki za zbiranje besedil
Vslovenskemprostorujepodatke,izkaterihlahkookvirnosklepamoorecepcijibesedil,mogočedobitiizvečvirov.
PodatkiobralnihnavadahvzvezisčasopisiinrevijamisezbirajovokviruNacionalneraziskavebranosti.RaziskavoizvajadružbaValicon,d.o.o.,njennaročnikpajeSvetpristopnikov (sestavljajo ga skoraj vsi pomembni založniki tiskanihmedijev), kidelujepriSlovenskioglaševalskizbornici.Splošnipodatkiizraziskavesoobjavljenidvakratletnonaspletnistrani<http://www.nrb.info/podatki>.Drugivirpodatkovjeknjižničnaizposoja,kipove,katereknjigesobilevknjižnicah,vključenihvsistemCobiss,najboljizposojaneinnajvečkratrezerviraneterkaterislovenskiavtorjiinnjihovadelasonajboljizposojani(grezaavtorje,kisoupravičenidoknjižničneganadomestila). Podatki so na voljo na spletni strani <http://home.izum.si/cobiss/statistike_izposoj>.Enoodmerilzaizbirobesedilajelahkotudiknjižnanagrada.ZaleposlovjejevSlovenijimogočedobitivečnagrad,kotsokresnikzanajboljširomanleta,desetnicazamladinskoliteraturo,Jenkovanagradazapoezijoitd.Privključevanju besedil v korpus se bomooprli tudi na podatke o nakladi.Ti sicerneposrednonegovorijoobesedilnirecepciji,kljubtemupašteviloizdanihizvodovobičajnosledipotrebaminželjambralcev;šebolj toveljazapodatekoponatisuoziroma dopolnjeni izdaji. Pri spletnih straneh je najpomembnejši podatek oobiskanosti.Obstajavečmerjenjobiskanostispletnihstrani,mednjiminpr.MOSS(<http://www.soz.si/projekti_soz/moss_merjenje_obiskanosti_spletnih_strani>),Alexa (<http://www.alexa.com>) in projekt Raba interneta v Sloveniji (<http://
Gradnjanovegakorpusaslovenščine 67
www.ris.org>).Priizbiripredstavitvenihstranislovenskihpodjetijbomoizhajaliizlestvicnajuglednejših,največjihinnajuspešnejšihpodjetij,kijihpripravljačasopisFinance(<http://www.finance.si/>).Nadrugistranismovidikbesedilneprodukcijemeddrugimnpr.skušaliujetitako,dasmoizseznamaAgencijeRepublikeSlovenijezajavnopravneevidenceinstoritve(<http://www.ajpes.si>)izpisalipravneosebe,kiimajokotsvojodejavnostopredeljeno(tudi)izdajanjeknjig,ternatotaseznamzožilinatiste,kisovzadnjihtrehletihizdalivsajpetdel.Naštetimseznamomsmopridružili šenekatere–vses težnjopoobjektiviziranjunabora in izborabesedil.Seznamibodovčasugradnjekorpusapostajališekompleksnejši,nato,vkolikšnimeri bodo to na koncu tudi seznami v korpus vključenih besedil, pa bo sevedamočnovplivalapripravljenostbesedilodajalcev,dadelabrezplačnoodstopijo.
Na osnovi pripravljenih seznamov besedilodajalcev in besedil, ki jih želimopridobiti, v času pisanja tega prispevka že poteka »časovno in organizacijskonajzahtevnejši del projekta« (Arhar in Gorjanc 2007: 98): zbiranje besedil velektronskioblikiinpogodbenourejanjeavtorskopravnihrazmerij.
3 Sklep
Predstavljena merila, premisleki in odločitve so vodilo gradnje Korpusa SSJ,vendarjihjetrebarazumetidinamično–obgradnjikorpusasebodošespreminjaliindopolnjevali.Namentegaprispevkajezatotudipovabilobralcem,dassvojimipredlogiizboljšajonašaizhodišča,olajšajozbiranjealikakodrugačepripomorejokrelevantnostiinuporabnostikončnegaizdelka.
Literatura
Arhar, Špela, 2004: Gradnja specializiranega korpusa. Diplomsko delo. Ljubljana:Filozofskafakulteta.
Arhar,Špela, inGorjanc,Vojko,2007:KorpusFidaPLUS:novageneracija slovenskegareferenčnegakorpusa.Jezik in slovstvo52/2.95–110.
Atkins,Sue,Clear,Jeremy,inOstler,Nicholas,1992:Corpusdesigncriteria.Literary and linguistic computing7/1.1–16.
Atkins, Sue, in Michael Rundell, 2008: The Oxford Guide to Practical Lexicography. Oxford:OxfordUniversityPress.
Biber,Douglas,1993:Representativnessincorpusdesign.Literary and linguistic computing 8/4.243–257.
Erjavec,Tomaž,2003:Označevanjekorpusov.Jezik in slovstvo48/3–4.61–76.
Erjavec,Tomaž,inKrek,Simon,2008:OblikoskladenjskespecifikacijeinoznačenikorpusiJOS. Erjavec, Tomaž, in Žganec Gros, Jerneja (ur.): Zbornik 6. konference Jezikovne tehnologije.Ljubljana:InstitutJožefStefan.49–53.
68 NatašaLogarBergincinSimonŠuster
Gorjanc, Vojko, 2002: Jezikoslovna načela gradnje računalniških besedilnih zbirk strokovnih jezikov. Doktorskadisertacija.Ljubljana:Filozofskafakulteta.
Gorjanc,Vojko,2005:Uvod v korpusno jezikoslovje.Domžale:Izolit.
Korpus slovenskega jezika FIDA(1997–2000):<http://www.fida.net>. (Dostop22.5.2009.)
Korošec, Tomo, 1976: Poglavja iz strukturne analize slovenskega časopisnega stila. Doktorska disertacija.Ljubljana:Filozofskafakulteta.
Korpus slovenskega jezika FidaPLUS(2007):<http://www.fidaplus.net>.(Dostop22.5.2009.)
McEnery,Tony,Xiao,RichardinTono,Yukio,2006:Corpus-based language studies: an advanced resource book.LondoninNewYork:Routledge.
Sporazumevanje v slovenskem jeziku(2008–2013):<http://www.slovenscina.eu>.(Dostop22.5.2009.)
Stabej,Marko, 1998: Besedilnovrstna sestava korpusa FIDA.Uporabno jezikoslovje 6.96–106.
Spletne strani
a)podatkovzazbiranjebesedil:AJPES:<http://www.ajpes.si>.(Dostop22.5.2009.)Alexa:<http://www.alexa.com>.(Dostop22.5.2009.)Cobiss – statistike izposoj gradiva:<http://home.izum.si/cobiss/statistike_izposoj>.(Dostop:22.5.2009.)Finance:<http://www.finance.si/>.(Dostop22.5.2009.)MOSS – merjenje obiskanosti spletnih strani:<http://www.soz.si/projekti_soz/moss_merjenje_obiskanosti_spletnih_strani>.(Dostop22.5.2009.)Nacionalna raziskava branosti:<http://www.nrb.info/podatki>.(Dostop22.5.2009.)RIS – raba interneta v Sloveniji:<http://www.ris.org>.(Dostop22.5.2009.)
b)tujihreferenčnihkorpusov:Britanski nacionalni korpus (BNC):<http://www.natcorp.ox.ac.uk/>. (Dostop22.5.2009.)Češki nacionalni korpus SYN2000 in SYN2005:<http://www.korpus.cz>. (Dostop22.5.2009.)Digitalni slovar nemškega jezika 20. stoletja (DWDS) – Kerncorpus:<http://www.dwds.de/>.(Dostop22.5.2009.)Madžarski nacionalni korpus:<http://www.nytud.hu>.(Dostop22.5.2009.)Novi korpus za Irsko (NCI):<http://www.focloir.ie/corpus/>,<http://www.lexmasterclass.com/corpus_ireland>.(Dostop22.5.2009.)Poljski korpus PWN:<http://korpus.pwn.pl/>.(Dostop22.5.2009.)