webarchiv – digitální knihovna českého webu

25
http://webarchiv.nkp.cz WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně [email protected] Rufis 2002

Upload: celerina-andeana

Post on 03-Jan-2016

29 views

Category:

Documents


1 download

DESCRIPTION

WebArchiv – digitální knihovna českého webu. Petr Žabička Moravská zemská knihovna v Brně z abak @mzk.cz. Rufis 2002. Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002). Zadavatel projektu: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

WebArchiv – digitální knihovna českého webu

Petr ŽabičkaMoravská zemská knihovna v Brně

[email protected]

Rufis 2002

Page 2: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Registrace, ochrana a zpřístupnění domácích elektronických zdrojů

v síti Internet

Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002)

Zadavatel projektu: Ministerstvo kultury Ministerstvo kultury

ČRČR Nositel projektu:

Národní knihovna ČRNárodní knihovna ČR Spolupráce na řešení:

ÚVT MU, BrnoÚVT MU, Brno

Page 3: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Vzdáleně přístupné elektronické zdroje

nedílná součást národní kulturní produkce => národní kulturní dědictví

obrovské množství publikací různé kvality

nehmotné dokumenty dynamické povahy – nestálé

Page 4: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Zajištění trvalého/dlouhodobého

přístupu

role depozitních knihoven

význam archivace na národní úrovni

Problémy: trvanlivost a morální zastarávání médií

morální zastarávání formátů souborů

Řešení: migrace na nová média

emulace vs. konverze

Page 5: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Další aspekty

knihovnické popis archivovaných zdrojů vs.

automatická indexace

legislativní oprávnění akvizice (povinný

výtisk ?) autorská práva možnosti zpřístupňování

Page 6: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Výsledky projektu

server webarchiv.nkp.cz:

Informace o projektu Odkazy na zdroje a zahraniční/

mezinárodní projekty Vyvinuté/lokalizované nástroje pro

podporu využívání metadat generátor/extraktor metadat

Dublin Core generátor jednoznačného

identifikátoru dokumentu URN kalkulátor kontrolního součtu

dokumentu MD5 Nedlib Harvester

Page 7: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Generátor URN (NBN)

Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele.

NK zaručuje při jeho vydání jeho jednoznačnost

Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …)

Syntaxe: URN:NBN:cz-nkRRRRnnnn Variantně lze použít místo čísla kontrolní

součet dokumentu MD5 Připravuje se přepracování systému

přidělování URN jako služby integrovatelné do webových publikačních systémů

Page 8: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Dublin Core metadata generator

Analýza existujícího dokumentu a extrakce metadat

Tvorba nebo úprava metadat Dublin Core

Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení

Podpora kvalifikátorů DC Možnost přidělení URN

Page 9: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Nedlib Harvester 1/2

Programový systém pro archivaci webových informačních zdrojů

Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů

Podporuje protokoly http a ftp Může procházet i dynamicky generované

stránky (URL s parametrem) V HTML souborech hledá odkazy na další

dokumenty Nepodporuje javascript, flash, … Navržen tak, aby nepřetěžoval jednotlivé

sklízené servery dodržuje pravidla v souboru robots.txt

Page 10: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Nedlib Harvester (2/2)

Vývoj podporován především Finskou Národní knihovnou

Volně dostupný Sám o sobě neřeší indexaci a zpřístupnění

archivu Archivované soubory ukládá v tar.gz

balících po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu

Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení

V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění

Page 11: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Sklizeň domény .cz (1/2)

probíhá s přestávkami (opravy chyb, povodně,…) od 23.4.2002

doposud staženo 10.4 milionu unikátních dokumentů z cca 32.000 domén 2. úrovně

v současné době registrováno v doméně .cz cca 120.900 domén 2. úrovně

zatím sklizeno 250 GB (nekomprimovaných) dat

průměrná velikost souboru 17 kB

Page 12: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Sklizeň domény .cz (2/2)

kompresní poměr při ukládání průměrně 85%

denní přírůstek archivu cca 5,5 GB komprimovaných dat

průměrný datový tok pouze 640 kb/s rychlost sklízení není limitována

rychlostí připojení k Internetu, ale výpočetním výkonem serveru. (Nyní PC server / Linux)

Page 13: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Relativní četnost souborů v archivu podle typů

html dokumenty 58,2%

obrázky gif 14,2%

Ostatní 3,2%

obrázky jpg 24,4%

video soubory 0,1%

zvukové soubory 0,3%

jiné obrazové dokumenty 0,4%

applikace a data aplikací

1,1%

jiné textové dokumenty 1,4%

Page 14: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Zastoupení hlavních typů souborů v archivu podle objemu dat

obrázky gif 3,2%

obrázky jpg 19,3%

jiné textové dokumenty 12,6%

zvukové soubory 9,5%

html dokumenty 28,4%

video soubory 6,4%

applikace a data aplikací 19,4%

jiné obrazové dokumenty 1,2%

Page 15: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění

archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje,

zatím vyjma indexovacího enginu (Lucene ?) pro projekt NWA zakoupena technologie norské

firmy Fast (prohledávač AllTheWeb) u nás – využití NWA toolsetu v kombinaci s

Convera RetrievalWare (podpora velkého množství formátů, fuzzy search)

studentský projekt na MFF UK (dokončení 1.pol. 2003) může být využit přinejmenším pro zkušební provoz (požadované funkce: vyhledávání pomocí URL, času, metadat i fulltextu)

Page 16: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Spolupráce

Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace)

Účast na přípravě mezinárodního projektu "European Web Archive" v rámci 6. rámcového programu EU (podání "Expression of Interest")

V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. spolupráce s týmen JIB)

Nutnost spolupráce s vydavateli

Page 17: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Nordic Web Archive – výsledky hledání

Page 18: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Nordic Web Archive – časová osa

Page 19: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Nordic Web Archive – časová osa

Page 20: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Internet Archive – Wayback Machine

Page 21: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Internet Archive – časová osa

Page 22: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Internet Archive - VUT v roce 0 (1997)

Page 23: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Internet Archive – VUT (téměř) aktuálně

Page 24: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Internet archive – rozsah archivace www.vutbr.cz

Page 25: WebArchiv – digitální knihovna českého webu

http://webarchiv.nkp.cz

Děkuji za pozornost

WebArchivhttp://webarchiv.nkp.cz

Petr Žabička [email protected]

Rufis 2002 - 4. září 2002