webarchiv – digitální knihovna českého webu
DESCRIPTION
WebArchiv – digitální knihovna českého webu. Petr Žabička Moravská zemská knihovna v Brně z abak @mzk.cz. Rufis 2002. Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002). Zadavatel projektu: - PowerPoint PPT PresentationTRANSCRIPT
http://webarchiv.nkp.cz
WebArchiv – digitální knihovna českého webu
Petr ŽabičkaMoravská zemská knihovna v Brně
Rufis 2002
http://webarchiv.nkp.cz
Registrace, ochrana a zpřístupnění domácích elektronických zdrojů
v síti Internet
Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002)
Zadavatel projektu: Ministerstvo kultury Ministerstvo kultury
ČRČR Nositel projektu:
Národní knihovna ČRNárodní knihovna ČR Spolupráce na řešení:
ÚVT MU, BrnoÚVT MU, Brno
http://webarchiv.nkp.cz
Vzdáleně přístupné elektronické zdroje
nedílná součást národní kulturní produkce => národní kulturní dědictví
obrovské množství publikací různé kvality
nehmotné dokumenty dynamické povahy – nestálé
http://webarchiv.nkp.cz
Zajištění trvalého/dlouhodobého
přístupu
role depozitních knihoven
význam archivace na národní úrovni
Problémy: trvanlivost a morální zastarávání médií
morální zastarávání formátů souborů
Řešení: migrace na nová média
emulace vs. konverze
http://webarchiv.nkp.cz
Další aspekty
knihovnické popis archivovaných zdrojů vs.
automatická indexace
legislativní oprávnění akvizice (povinný
výtisk ?) autorská práva možnosti zpřístupňování
http://webarchiv.nkp.cz
Výsledky projektu
server webarchiv.nkp.cz:
Informace o projektu Odkazy na zdroje a zahraniční/
mezinárodní projekty Vyvinuté/lokalizované nástroje pro
podporu využívání metadat generátor/extraktor metadat
Dublin Core generátor jednoznačného
identifikátoru dokumentu URN kalkulátor kontrolního součtu
dokumentu MD5 Nedlib Harvester
http://webarchiv.nkp.cz
Generátor URN (NBN)
Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele.
NK zaručuje při jeho vydání jeho jednoznačnost
Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …)
Syntaxe: URN:NBN:cz-nkRRRRnnnn Variantně lze použít místo čísla kontrolní
součet dokumentu MD5 Připravuje se přepracování systému
přidělování URN jako služby integrovatelné do webových publikačních systémů
http://webarchiv.nkp.cz
Dublin Core metadata generator
Analýza existujícího dokumentu a extrakce metadat
Tvorba nebo úprava metadat Dublin Core
Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení
Podpora kvalifikátorů DC Možnost přidělení URN
http://webarchiv.nkp.cz
Nedlib Harvester 1/2
Programový systém pro archivaci webových informačních zdrojů
Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů
Podporuje protokoly http a ftp Může procházet i dynamicky generované
stránky (URL s parametrem) V HTML souborech hledá odkazy na další
dokumenty Nepodporuje javascript, flash, … Navržen tak, aby nepřetěžoval jednotlivé
sklízené servery dodržuje pravidla v souboru robots.txt
http://webarchiv.nkp.cz
Nedlib Harvester (2/2)
Vývoj podporován především Finskou Národní knihovnou
Volně dostupný Sám o sobě neřeší indexaci a zpřístupnění
archivu Archivované soubory ukládá v tar.gz
balících po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu
Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení
V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění
http://webarchiv.nkp.cz
Sklizeň domény .cz (1/2)
probíhá s přestávkami (opravy chyb, povodně,…) od 23.4.2002
doposud staženo 10.4 milionu unikátních dokumentů z cca 32.000 domén 2. úrovně
v současné době registrováno v doméně .cz cca 120.900 domén 2. úrovně
zatím sklizeno 250 GB (nekomprimovaných) dat
průměrná velikost souboru 17 kB
http://webarchiv.nkp.cz
Sklizeň domény .cz (2/2)
kompresní poměr při ukládání průměrně 85%
denní přírůstek archivu cca 5,5 GB komprimovaných dat
průměrný datový tok pouze 640 kb/s rychlost sklízení není limitována
rychlostí připojení k Internetu, ale výpočetním výkonem serveru. (Nyní PC server / Linux)
http://webarchiv.nkp.cz
Relativní četnost souborů v archivu podle typů
html dokumenty 58,2%
obrázky gif 14,2%
Ostatní 3,2%
obrázky jpg 24,4%
video soubory 0,1%
zvukové soubory 0,3%
jiné obrazové dokumenty 0,4%
applikace a data aplikací
1,1%
jiné textové dokumenty 1,4%
http://webarchiv.nkp.cz
Zastoupení hlavních typů souborů v archivu podle objemu dat
obrázky gif 3,2%
obrázky jpg 19,3%
jiné textové dokumenty 12,6%
zvukové soubory 9,5%
html dokumenty 28,4%
video soubory 6,4%
applikace a data aplikací 19,4%
jiné obrazové dokumenty 1,2%
http://webarchiv.nkp.cz
Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění
archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje,
zatím vyjma indexovacího enginu (Lucene ?) pro projekt NWA zakoupena technologie norské
firmy Fast (prohledávač AllTheWeb) u nás – využití NWA toolsetu v kombinaci s
Convera RetrievalWare (podpora velkého množství formátů, fuzzy search)
studentský projekt na MFF UK (dokončení 1.pol. 2003) může být využit přinejmenším pro zkušební provoz (požadované funkce: vyhledávání pomocí URL, času, metadat i fulltextu)
http://webarchiv.nkp.cz
Spolupráce
Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace)
Účast na přípravě mezinárodního projektu "European Web Archive" v rámci 6. rámcového programu EU (podání "Expression of Interest")
V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. spolupráce s týmen JIB)
Nutnost spolupráce s vydavateli
http://webarchiv.nkp.cz
Nordic Web Archive – výsledky hledání
http://webarchiv.nkp.cz
Nordic Web Archive – časová osa
http://webarchiv.nkp.cz
Nordic Web Archive – časová osa
http://webarchiv.nkp.cz
Internet Archive – Wayback Machine
http://webarchiv.nkp.cz
Internet Archive – časová osa
http://webarchiv.nkp.cz
Internet Archive - VUT v roce 0 (1997)
http://webarchiv.nkp.cz
Internet Archive – VUT (téměř) aktuálně
http://webarchiv.nkp.cz
Internet archive – rozsah archivace www.vutbr.cz
http://webarchiv.nkp.cz
Děkuji za pozornost
WebArchivhttp://webarchiv.nkp.cz
Petr Žabička [email protected]
Rufis 2002 - 4. září 2002