zajem, ohranjanje in dostop do spletnih · 2019. 10. 4. · upravljanje z robotom, • spletni...

25
ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH PUBLIKACIJ MED NAČELOM CELOVITOSTI IN STVARNIMI MOŽNOSTMI Janko Klasinc, mag. Zoran Krstulović | Kongres ZBDS 2019 | Maribor, 26. 9. 2019

Upload: others

Post on 18-Jan-2021

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH PUBLIKACIJ MED NAČELOM CELOVITOSTI IN

STVARNIMI MOŽNOSTMI

J a n ko K l a s i n c , m a g . Z o r a n K r s t u l o v i ć | K o n g r e s Z B D S 2 0 1 9 | M a r i b o r, 2 6 . 9 . 2 0 1 9

Page 2: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

- Zakon o obveznem izvodu publikacij (ZOIPub), 2006

- Zakon o spremembah in dopolnitvah Zakona o obveznem izvodu publikacij (ZOIPub-A), 2009

- Pravilnik o vrstah in izboru elektronskih publikacij za obvezni izvod, 2007

Zakon o obveznem izvodu publikacij (ZOIPub) (2006) je spletne publikacije opredelil kotpredmet obveznega izvoda, zapovedal njihovo zbiranje in ohranjanje ter določil načindostopnosti arhiva spletnih publikacij.

Page 3: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

PRAVILNIK

»Kot spletne publikacije … se obravnavajo publikacije ali deli publikacij, objavljeni na svetovnem spletu, ki obstajajo tudi v tiskani obliki …, poleg teh pa tudi nove vrste publikacij in podobnih objav ... «

spletna mesta organizacij, oseb in dogodkov, portali, spletno dostopne storitve ipd.)

NUK »kot obvezni izvod sprejema ali zajema spletne publikacije, za katere oceni, da so pomembne za slovensko kulturno dediščino«

Page 4: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

PRAVILNIK - MERILA

Splošni kriteriji:

- »klasične« opredelitve slovenike:

- spletna publikacija je, ali vsebuje,

- dela slovenskih avtorjev,

- dela v slovenskem jeziku ali

- dela o Sloveniji.

Posebni kriteriji:

- glede na vsebino, odgovornost, strukturo publikacije, domeno objave in format podatkov.

Page 5: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

PRAVILNIK - MERILA

Obvezno se zajamejo spletne strani, • »katerih vsebina je samostojna in celovita ter trajnejše intelektualne ali umetniške vrednosti«

oziroma,• »publikacije, ki jih objavljajo institucije ter strokovno, umetniško in družbeno priznani avtorji«.

Spletno mesto mora biti: • strukturirano, • vsebovati mora metapodatke, • pregleden razpored vsebin in podatkov, • imeti znano pogostnost obnavljanja, • zagotavljati zanesljive povezave na druge spletne publikacije.

Zajemajo se spletne publikacije, ki so:• izvorno objavljene v domeni .si, • tudi tiste objavljene v drugih domenah (.eu, .com, .net ipd.), če izpolnjujejo splošne kriterije za

zajem,• izdelane oziroma katerih vsebine so zapisane v razširjenih oziroma standardiziranih formatih.

Spletne publikacije za zajem morajo ustrezati vsaj enemu splošnemu in enemu posebnemu kriteriju.

Page 6: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

• NUK ne zajema spletnih publikacij v primeru, ko zaradi tehnične implementacije ali vrste formata datotek zapisa spletne strani ni mogoče zajeti.

• NUK odloča o globini avtomatskega zajemanja spletnih publikacij ter lahko omeji zajem datotek do določene velikosti.

• NUK določi pogostnost zajema spletne publikacije glede na:• velikost izbrane (pod)domene za zajem, • pogostnosti spreminjanja spletne publikacije, • zmožnosti orodja (robota) za zajem ter • dosegljivosti in stabilnosti (pod)domene.

Page 7: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

• NUK je dolžan zagotoviti trajno hranjenje spletnih publikacij ter skrbeti za varnost spletnega arhiva.

• S Pravilnikom je tudi določeno, da je arhiv obveznega izvoda spletnih publikacij praviloma javen in prosto dostopen.

Page 8: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

POSTOPEK ZAJEMA

• Posebna programska oprema za samodejni zajem (spletni robot ali pajek).

• Cilj zajema je zajeti in ohraniti vse notranje povezave med posameznimi stranmi in datotekami znotraj spletišča.

• Arhivirano spletno mesto: • naj bi bilo enako izvirniku v živem spletnem okolju, • omogočalo enake funkcionalnosti ter • zagotavljalo enako uporabniško izkušnjo.

Page 9: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

• spletni robot Heritrix, razvil ga je Internet Archive,

• Web Curator Tool, vmesnik za upravljanje z robotom,

• spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine.

Page 10: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

Možno je določiti:

• obseg zajema vsebin:• glede na globino in širino,

• zajeti le prvo stran spletnega mesta ali poseči globlje vse do najnižje ravni.

• širino zajema:• lahko poberemo spletne strani in pripadajoče

datoteke le na ciljni domeni ali

• zajem razširimo tudi na druge domene, ki pomembno prispevajo k vsebini spletnega mesta.

Page 11: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

Problemi:

identifikacija slovenike na spletu,

lokacij, na katerih se nahaja,

kriteriji za izbor izhajajo iz tradicionalnih konceptov, ki so se dobro obnesli pri publikacijah v fizični obliki,

praviloma ni mehanizmov bibliografske kontrole,

gradivo, ki ga prištevamo k sloveniki, se nenahaja zgolj v nacionalni domeni .si, je razpršeno po celotnem spletu.

Page 12: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

Dva pristopa k zajemanju spletnih mest: • selektivni zajem:

• izbrana spletna mesta,• reden zajem v določenih časovnih obdobjih,• čim bolj globok in popoln zajem,• tudi t. i. tematski zajemi spletnih mest na določeno tematiko oziroma

spletnih mest, ki pokrivajo določeni dogodek ali tematiko (npr. volitve, olimpijske igre).

• celostni zajem: • z velikega števila spletnih domen, običajno registriranih v sklopu

vrhnje nacionalne domene, • v ospredju je širina zajema,• zajemi pogosto izpustijo vsebino, ki se nahaja v globinah spletnih

mest.

Page 13: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

• posamezna spletna mesta zajemamo pogosteje,• frekvenca zajema je odvisna od pogostosti

spreminjanja in obsega spletnega mesta, • od zmogljivosti strojne opreme, • uporabniku arhiva spleta je na voljo več različic

posameznega spletnega mesta, arhiviranih v različnih časovnih presledkih.

Večina spletnih mest se zajema dvakrat

letno, manjši del pa štirikrat letno oziroma

enkrat mesečno. V nekaterih primerih

pokrivanja časovno omejenih dogodkov

(npr. volitev) je bil določen izbor spletnih

mest zajet tedensko ali celo dnevno.

Page 14: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

ZNAČILNOSTI SPLETNIH MEST

• kratka obstojnost, minljivost• pravočasna identifikacija in celostna shranitev je le teoretična, • praktične izkušnje - izguba vsebin, ki bi jih bilo treba ohraniti je neizogibna.

• izrazita heterogenost spletnih mest, sestavljena so iz številnih datotek najrazličnejših vrst

• dinamičnost • posebna težava so vsebine na družbenih omrežjih, pretočne video in zvočne

vsebine,• ne le dostop do vsebin (besedilnih, slikovnih, zvočnih ipd.), tudi

najrazličnejše oblike interakcije z uporabnikom.

• globoki splet• nedosegljiv za spletne iskalnike in druge vrste robotskih programov,• dostop samo ob predhodni prijavi.

• podatkovne baze• dosegljive prek namenskih iskalnikov,• za zagotavljanje dostopnosti v arhivu je potrebeno izdelati ustrezen vmesnik.

Page 15: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

ARHIVIRANJE SPLETNIH MEST

Arhiv spleta Narodne in univerzitetne

knjižnice vsebuje spletna mesta, ki so bila

zajeta in shranjena od leta 2008 dalje.

Trenutno je v arhivu shranjenih nekaj več

kot 1400 spletnih mest, ki se zajemajo

selektivno. Vsebinsko obsegajo večinoma

področja javne uprave, visokega šolstva,

znanosti in kulture, zajete pa so tudi

nekatere serijske publikacije v spletni

različici.

Page 16: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

SPLETNO MESTO ARHIVA SLOVENSKIH SPLETNIH PUBLIKACIJ

Iskalnik:

• iskanje po enoličnih krajevnikih vira (angl.

uniform resource locator, URL),

• po celotnih besedilih shranjenih spletnih mest.

Brskanje:

• brskanje po seznamu vsebinskih področij,

• tematskih zbirkah (arbitraža, volitve ...),

• abecednem seznamu naslovov spletnih mest, • tematskih kategorijah (teh je 12, kot so »družba«,

»humanistika«, »naravoslovje in tehnologija«, »šport in rekreacija«, »umetnost in kultura« itd.)

Page 17: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

V letu 2018:

• več kot 3400 zajemov,

• uspešnih približno 70 %.

Velikost arhiva (selektivni zajemi)

• približno 30 TB.

Zajemi celotne domene .si:

• na podlagi seznama registriranih domen, ki ga vzdržuje Arnes,

• domena se zajame vsaki dve leti,

• prvi zajem 2014-2015,

• zajetih 85.713 posameznih domen,

• več kot 55 milijonov različnih datotek,

• količina 2,8 TB;

• drugi zajem 2017

• trajanje skoraj 3000 ur (125 dni),

• zajetih 122.507 domen in poddomen,

• Količina 6,25 TB.

• Tretji zajem 2019 – v teku

Page 18: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine
Page 19: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine
Page 20: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

• posledica tehničnih in drugih lastnosti svetovnega spleta ter možnih pristopov k ohranjanju je, da so spletni arhivi v osnovi nepopolni.

• koncept »nacionalnih spletov«, ki se zgleduje po tradicionalnem pojmovanju enovite (založniške) produkcije publikacij določene države in je bil brez posebnih sprememb uporabljen za gradivo, ki se nahaja v popolnoma drugačnem okolju.

• predstava o spletnih arhivih kot verodostojnih odslikavah preteklega spleta je napačna.

Page 21: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

• kakšne vrste znanja proizvajajo spletni arhivi?

• kakšne vrednote in ideologije vključujejo?

• kakšne so njihove omejitve?

• ali so le koščki preteklega spleta, ki jih skušamo s pomočjo historičnih metod zlepiti skupaj?

• ali aktivni delovalci, ki neizogibno vključujejo določene vrednote, predsodke in politike?

Page 22: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

• obsežnost svetovnega spleta posledična obsežnost, pogosto tudi nepreglednost spletnih arhivov,

• dilema raziskovalcev pri konkretnih raziskavah na podlagi arhiviranih vsebin s spleta kakšen naj bo obseg podatkov, koliko je premalo in koliko je preveč,

• danes se spletni arhivi pri razvijanju svoje politike pridobivanja gradiva s spleta in oblikovanju načinov omogočanja dostopa vedno bolj obračajo k raziskovalcem,

• potencial za inovativne raziskovalne projekte in nove pristope k raziskovanju že dobro poznanih tematik,

• vzpostaviti trajna sodelovanja z raziskovalci in razvijati napredne iskalnike ter programska orodja za izvoz, analizo in organizacijo podatkov.

Page 23: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

Kako omiliti omejitve arhivov spleta?• vzpostaviti sodelovanje z raziskovalci pri izboru

spletnih mest za zajem,• čim bolj podrobno dokumentirati sam postopek

izbora gradiva za zajem, • opisati postopke odločanja spletnih arhivistov o

izboru gradiva, • zabeležiti nastavitve robota glede globine in širine

zajema in drugih modalitet.

• dnevniške datoteke, ki jih med zajemom ustvari robot, kot predmet raziskovanja.

Page 24: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

ZAKLJUČEK

• spletne arhive bo tudi v prihodnje zaznamovala določena pristranskost in nepopolnost,

• pristranskost in nepopolnost je treba prepoznati in o tem ozavestiti tudi uporabnike knjižničnih storitev,

• svetovni splet je izjemen vir znanja in informacij, prav tako arhivi spleta • zaradi specifičnih lastnosti svetovnega spleta, arhivi niso zgolj kopija

znanja, ki ga vsebuje splet, temveč novi viri znanja z lastnimiznačilnostmi.

Podobno kot nam analiza vsebine starih zasebnih in drugih knjižnic lahko veliko pove o duhu časa, v katerem so nastajale, ter o značilnostih in zanimanjih posameznikov, ki so jih gradili, nam tudi spletni arhivi govorijo o specifičnih političnih, ideoloških, geografskih, kulturnih in ekonomskih okoliščinah, v katerih nastajajo. S tem pa dodajajo novo plast potencialnih informacij in znanja, ki jih živi splet sam po sebi ne vsebuje.

Page 25: ZAJEM, OHRANJANJE IN DOSTOP DO SPLETNIH · 2019. 10. 4. · upravljanje z robotom, • spletni dostop do arhiviranih spletnih mest zagotavlja uporabniški vmesnik Wayback Machine

Hvala za pozornost!