webarchiv digitální knihovna českého webu
DESCRIPTION
WebArchiv digitální knihovna českého webu. Ludmila Celbová, Národní knihovna ČR Petr Žabička, Moravská zemská knihovna a Masarykov a Univerzit a v Brně. INFOS 2003. - PowerPoint PPT PresentationTRANSCRIPT
http://www.webarchiv.cz
WebArchivdigitální knihovna českého webu
Ludmila Celbová, Národní knihovna ČRPetr Žabička, Moravská zemská knihovna a
Masarykova Univerzita v Brně
INFOS 2003
http://www.webarchiv.cz
Registrace, ochrana a zpřístupnění domácích elektronických zdrojů
v síti Internet
pilotní projekt VaV (2000–2001)navazující projekt VISK3 (2002)
integrovaný projekt VISK8 (2003) ?
Zadavatel projektu: Ministerstvo kultury Ministerstvo kultury
ČRČR Nositel projektu:
Národní knihovna ČRNárodní knihovna ČR Spolupráce na řešení:
ÚVT MU, BrnoÚVT MU, Brno
http://www.webarchiv.cz
Elektronické zdroje – hledisko přístupu
offline distribuované na fyzickém, přenosném nosiči (např. CD-ROM) a čitelné pomocí počítače; mohou být následně zpřístupňovány v síti
onlineuložené pomocí digitální technologie
a šířené prostřednictvím digitální sítě, např. v síti Internet (dálkově přístupné)
http://www.webarchiv.cz
Elektronické zdroje publikované na Internetu z hlediska jejich akvizice
zahraniční – na základě licenční smlouvy
domácí – v souladu s kritérii výběru
ČNB
http://www.webarchiv.cz
Elektronické zdroje publikované na Internetu
z hlediska jejich vzniku
digitální
(vzniklé jako síťové = online
originál)
digitalizované
(vzniklé převodem z jiné formy
dokumentu do formy digitální = digitální kopie)
http://www.webarchiv.cz
Digitální knihovna = integrovaný systém
sbírka digitálních objektů digitalizované dokumenty digitální dokumentydigitální dokumenty
procesy a služby
(tvorba a organizace sbírek; věcná analýza, indexace, tvorba metadat; ochrana a správa)
zpřístupnění dokumentů
http://www.webarchiv.cz
Dálkově přístupné elektronické zdroje
nedílná součást národní kulturní produkce => národní kulturní dědictví
obrovské množství dokumentů různé kvality
nehmotné dokumenty dynamické povahy – nestálé
‼ Cíl:
Zajištění trvalého/dlouhodobéhopřístupu
http://www.webarchiv.cz
Způsob řešení
Aplikace zkušeností z podobných projektů
EVA - Acquisition and Archiving of Electronic Network Publications
Nordic Metadata I, II NEDLIB - Networked European Deposit
Library Nordic Web Archive Doporučení UNESCO a další
http://www.webarchiv.cz
Předmět řešení
získávání (co, jak; oprávnění – povinný výtisk?)
registrace (ČNB – bibliografická kontrola)
archivace (co, jak; oprávnění – autorský zákon?)
ochrana (trvalé uchování a zpřístupnění – souvislost s vývojem ICT)
zpřístupnění (technická i legislativní stránka)
http://www.webarchiv.cz
Kudy vede cesta?
Testování 2 metod:
shromažďování, registrace a archivace vybraných zdrojů podle stanovených kritérií pro účely ČNB (= intelektuální práce)
shromažďování a archivace domácích zdrojů z Internetu v relativní úplnosti pomocí speciálního indexačního programu (= automatizovaný proces, harvesting)
http://www.webarchiv.cz
Aspekty řešení
technické knihovnické
popis archivovaných zdrojů vs. automatická indexace (aplikace formátů typu MARC, resp. Dublin Core)
legislativní oprávnění akvizice (povinný
výtisk ?) autorská práva (archivace,
možnosti zpřístupňování veřejnosti)
http://www.webarchiv.cz
Legislativní otázky
povinný výtisk monografické publikace –
zákon č. 37/1995 Sb., o neperiodických publikacích
seriálové publikace – zákon č. 46/2000 Sb., o právech a povinnostech při vydávání periodického tisku a o změně některých dalších zákonů (tiskový zákon)
autorské právozákon č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon)
http://www.webarchiv.cz
Povinný výtisk pro online elektronické zdroje –
platné zákony
Norsko (1990)specifikován obecně – všechny druhy dokumentů včetně přístupných v síti
Dánsko (1998)vše bez ohledu na techniku publikování nebo typ nosiče
Jihoafrická republika (1998)jakýkoliv objekt, který je určen pro uložení nebo poskytování informací v textové, grafické, vizuální, sluchové nebo jiné srozumitelné podobě prostřednictvím jakéhokoliv média
http://www.webarchiv.cz
Povinný výtisk pro online elektronické zdroje –
platné zákony (pokrač.)
Slovensko (2000)zákon č. 182/2000 Z.z. – každý vydavatel periodické i neperiodické publikace v el. formě povinen poskytovat 1 kopii UK a SNK
Švédsko (1993); 2002 vládní nařízení – umožňuje Královské knihovně automatický sběr zdrojů z webu a lokální zpřístupnění
Velká Británie (2003)nový zákon právě projednáván v parlamentu – neknižní dokumenty vč. dokumentů přístupných přes internet
http://www.webarchiv.cz
Prozatímní řešení – smlouvy s vydavateli
doporučení CENL/FEP, IFLA/IPA praktická aplikace smluv s
vydavateli např. Austrálie, Nizozemí, Německo, Finsko aj.
Česká republika / WebArchiv – uzavírání smluv s vydavateli
http://www.webarchiv.cz
Zajištění trvalého/dlouhodobého
přístupu Tradiční role depozitních knihoven a
archivů Ale: výhodná je archivace na národní
úrovni Problémy:
trvanlivost a morální zastarávání médií
morální zastarávání formátů souborů Řešení:
migrace na nová média emulace nebo konverze
http://www.webarchiv.cz
Výsledky projektu
server www.webarchiv.cz:
Informace o projektu Odkazy na zdroje a zahraniční/
mezinárodní projekty Vyvinuté/lokalizované nástroje pro
podporu využívání metadat: generátor/extraktor metadat
Dublin Core generátor jednoznačného
identifikátoru dokumentu (URN) kalkulátor kontrolního součtu
dokumentu MD5 Nedlib Harvester
http://www.webarchiv.cz
Identifikátor URN/NBN
Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele.
NK zaručuje při jeho vydání jeho jednoznačnost
Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …)
Syntaxe: URN:NBN:cz-nkRRRRnnnn Variantně lze použít místo čísla kontrolní
součet dokumentu MD5:URN:NBN:cz-nka-3d516af8e71cc42f369b04efc51322d1
http://www.webarchiv.cz
Dublin Core metadata generator
Analýza existujícího dokumentu a extrakce metadat
Tvorba nebo úprava metadat Dublin Core
Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení
Podpora kvalifikátorů DC Možnost přidělení URN
http://www.webarchiv.cz
Nedlib Harvester (1/3)
Programový systém pro archivaci webových informačních zdrojů
Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů
Podporuje protokoly http 1.0, 1.1 a ftp Může procházet i dynamicky generované
stránky (URL s parametrem) V HTML souborech hledá odkazy na další
dokumenty Nepodporuje javascript, flash, … Navržen tak, aby nepřetěžoval jednotlivé
sklízené servery dodržuje pravidla v souboru robots.txt
http://www.webarchiv.cz
Nedlib Harvester (2/3)
Vývoj podporován především Finskou Národní knihovnou
Volně dostupný software Sám o sobě neřeší indexaci a zpřístupnění
archivu Archivované soubory ukládá v tar.gz balících
po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu
Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení
V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění
http://www.webarchiv.cz
Nedlib harvester (3/3)
http://www.webarchiv.cz
Doména .cz
Současné kolo sklízení probíhá s přestávkami již téměř 1 rok
doposud staženo 10 milionů unikátních dokumentů z cca 32.000 domén 2. úrovně
v současné době registrováno v doméně .cz cca 132.000 domén 2. úrovně
zatím ve 2 kolech sklizeno 350 GB (nekomprimovaných) dat
průměrná velikost souboru 17 kB
http://www.webarchiv.cz
Doména .cz - relativní četnost souborů v archivu podle typů
html dokumenty 58,2%
obrázky gif 14,2%
Ostatní 3,2%
obrázky jpg 24,4%
video soubory 0,1%
zvukové soubory 0,3%
jiné obrazové dokumenty 0,4%
applikace a data aplikací
1,1%
jiné textové dokumenty 1,4%
http://www.webarchiv.cz
Doména .cz - zastoupení hlavních typů souborů v archivu podle objemu dat
obrázky gif 3,2%
obrázky jpg 19,3%
jiné textové dokumenty 12,6%
zvukové soubory 9,5%
html dokumenty 28,4%
video soubory 6,4%
applikace a data aplikací 19,4%
jiné obrazové dokumenty 1,2%
http://www.webarchiv.cz
Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění
archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje,
zatím vyjma indexovacího enginu Internet Archive – výsledky do tří let projekt CUBE v rámci 6RP EU – zatím nejisté u nás – využití NWA toolsetu v kombinaci s
Convera RetrievalWare (podpora velkého množství formátů, fuzzy search)
studentský projekt na MFF UK (dokončení jaro 2003) může být využit přinejmenším pro zkušební provoz
http://www.webarchiv.cz
Spolupráce
Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace)
Účast na přípravě mezinárodního projektu v rámci 6. rámcového programu EU (CUBE)
V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. Jednotná informační brána), příprava spolupráce s MZK
Nutnost spolupráce s vydavateli
http://www.webarchiv.cz
Nordic Web Archive – časová osa
http://www.webarchiv.cz
Nordic Web Archive – časová osa
http://www.webarchiv.cz
Internet Archive – časová osa
http://www.webarchiv.cz
Děkujeme za pozornost
WebArchiv
http://www.webarchiv.cz
Ludmila Celbová
Petr Žabička
INFOS 2003