webarchiv digitální knihovna českého webu

31
http://www.webarchiv.cz WebArchiv digitální knihovna českého webu Ludmila Celbová, Národní knihovna ČR Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně INFOS 2003

Upload: gisela-hutchinson

Post on 02-Jan-2016

42 views

Category:

Documents


0 download

DESCRIPTION

WebArchiv digitální knihovna českého webu. Ludmila Celbová, Národní knihovna ČR Petr Žabička, Moravská zemská knihovna a Masarykov a Univerzit a v Brně. INFOS 2003. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

WebArchivdigitální knihovna českého webu

Ludmila Celbová, Národní knihovna ČRPetr Žabička, Moravská zemská knihovna a

Masarykova Univerzita v Brně

INFOS 2003

Page 2: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Registrace, ochrana a zpřístupnění domácích elektronických zdrojů

v síti Internet

pilotní projekt VaV (2000–2001)navazující projekt VISK3 (2002)

integrovaný projekt VISK8 (2003) ?

Zadavatel projektu: Ministerstvo kultury Ministerstvo kultury

ČRČR Nositel projektu:

Národní knihovna ČRNárodní knihovna ČR Spolupráce na řešení:

ÚVT MU, BrnoÚVT MU, Brno

Page 3: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Elektronické zdroje – hledisko přístupu

offline distribuované na fyzickém, přenosném nosiči (např. CD-ROM) a čitelné pomocí počítače; mohou být následně zpřístupňovány v síti

onlineuložené pomocí digitální technologie

a šířené prostřednictvím digitální sítě, např. v síti Internet (dálkově přístupné)

Page 4: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Elektronické zdroje publikované na Internetu z hlediska jejich akvizice

zahraniční – na základě licenční smlouvy

domácí – v souladu s kritérii výběru

ČNB

Page 5: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Elektronické zdroje publikované na Internetu

z hlediska jejich vzniku

digitální

(vzniklé jako síťové = online

originál)

digitalizované

(vzniklé převodem z jiné formy

dokumentu do formy digitální = digitální kopie)

Page 6: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Digitální knihovna = integrovaný systém

sbírka digitálních objektů digitalizované dokumenty digitální dokumentydigitální dokumenty

procesy a služby

(tvorba a organizace sbírek; věcná analýza, indexace, tvorba metadat; ochrana a správa)

zpřístupnění dokumentů

Page 7: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Dálkově přístupné elektronické zdroje

nedílná součást národní kulturní produkce => národní kulturní dědictví

obrovské množství dokumentů různé kvality

nehmotné dokumenty dynamické povahy – nestálé

‼ Cíl:

Zajištění trvalého/dlouhodobéhopřístupu

Page 8: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Způsob řešení

Aplikace zkušeností z podobných projektů

EVA - Acquisition and Archiving of Electronic Network Publications

Nordic Metadata I, II NEDLIB - Networked European Deposit

Library Nordic Web Archive Doporučení UNESCO a další

Page 9: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Předmět řešení

získávání (co, jak; oprávnění – povinný výtisk?)

registrace (ČNB – bibliografická kontrola)

archivace (co, jak; oprávnění – autorský zákon?)

ochrana (trvalé uchování a zpřístupnění – souvislost s vývojem ICT)

zpřístupnění (technická i legislativní stránka)

Page 10: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Kudy vede cesta?

Testování 2 metod:

shromažďování, registrace a archivace vybraných zdrojů podle stanovených kritérií pro účely ČNB (= intelektuální práce)

shromažďování a archivace domácích zdrojů z Internetu v relativní úplnosti pomocí speciálního indexačního programu (= automatizovaný proces, harvesting)

Page 11: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Aspekty řešení

technické knihovnické

popis archivovaných zdrojů vs. automatická indexace (aplikace formátů typu MARC, resp. Dublin Core)

legislativní oprávnění akvizice (povinný

výtisk ?) autorská práva (archivace,

možnosti zpřístupňování veřejnosti)

Page 12: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Legislativní otázky

povinný výtisk monografické publikace –

zákon č. 37/1995 Sb., o neperiodických publikacích

seriálové publikace – zákon č. 46/2000 Sb., o právech a povinnostech při vydávání periodického tisku a o změně některých dalších zákonů (tiskový zákon)

autorské právozákon č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon)

Page 13: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Povinný výtisk pro online elektronické zdroje –

platné zákony

Norsko (1990)specifikován obecně – všechny druhy dokumentů včetně přístupných v síti

Dánsko (1998)vše bez ohledu na techniku publikování nebo typ nosiče

Jihoafrická republika (1998)jakýkoliv objekt, který je určen pro uložení nebo poskytování informací v textové, grafické, vizuální, sluchové nebo jiné srozumitelné podobě prostřednictvím jakéhokoliv média

Page 14: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Povinný výtisk pro online elektronické zdroje –

platné zákony (pokrač.)

Slovensko (2000)zákon č. 182/2000 Z.z. – každý vydavatel periodické i neperiodické publikace v el. formě povinen poskytovat 1 kopii UK a SNK

Švédsko (1993); 2002 vládní nařízení – umožňuje Královské knihovně automatický sběr zdrojů z webu a lokální zpřístupnění

Velká Británie (2003)nový zákon právě projednáván v parlamentu – neknižní dokumenty vč. dokumentů přístupných přes internet

Page 15: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Prozatímní řešení – smlouvy s vydavateli

doporučení CENL/FEP, IFLA/IPA praktická aplikace smluv s

vydavateli např. Austrálie, Nizozemí, Německo, Finsko aj.

Česká republika / WebArchiv – uzavírání smluv s vydavateli

Page 16: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Zajištění trvalého/dlouhodobého

přístupu Tradiční role depozitních knihoven a

archivů Ale: výhodná je archivace na národní

úrovni Problémy:

trvanlivost a morální zastarávání médií

morální zastarávání formátů souborů Řešení:

migrace na nová média emulace nebo konverze

Page 17: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Výsledky projektu

server www.webarchiv.cz:

Informace o projektu Odkazy na zdroje a zahraniční/

mezinárodní projekty Vyvinuté/lokalizované nástroje pro

podporu využívání metadat: generátor/extraktor metadat

Dublin Core generátor jednoznačného

identifikátoru dokumentu (URN) kalkulátor kontrolního součtu

dokumentu MD5 Nedlib Harvester

Page 18: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Identifikátor URN/NBN

Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele.

NK zaručuje při jeho vydání jeho jednoznačnost

Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …)

Syntaxe: URN:NBN:cz-nkRRRRnnnn Variantně lze použít místo čísla kontrolní

součet dokumentu MD5:URN:NBN:cz-nka-3d516af8e71cc42f369b04efc51322d1

Page 19: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Dublin Core metadata generator

Analýza existujícího dokumentu a extrakce metadat

Tvorba nebo úprava metadat Dublin Core

Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení

Podpora kvalifikátorů DC Možnost přidělení URN

Page 20: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Nedlib Harvester (1/3)

Programový systém pro archivaci webových informačních zdrojů

Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů

Podporuje protokoly http 1.0, 1.1 a ftp Může procházet i dynamicky generované

stránky (URL s parametrem) V HTML souborech hledá odkazy na další

dokumenty Nepodporuje javascript, flash, … Navržen tak, aby nepřetěžoval jednotlivé

sklízené servery dodržuje pravidla v souboru robots.txt

Page 21: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Nedlib Harvester (2/3)

Vývoj podporován především Finskou Národní knihovnou

Volně dostupný software Sám o sobě neřeší indexaci a zpřístupnění

archivu Archivované soubory ukládá v tar.gz balících

po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu

Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení

V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění

Page 22: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Nedlib harvester (3/3)

Page 23: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Doména .cz

Současné kolo sklízení probíhá s přestávkami již téměř 1 rok

doposud staženo 10 milionů unikátních dokumentů z cca 32.000 domén 2. úrovně

v současné době registrováno v doméně .cz cca 132.000 domén 2. úrovně

zatím ve 2 kolech sklizeno 350 GB (nekomprimovaných) dat

průměrná velikost souboru 17 kB

Page 24: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Doména .cz - relativní četnost souborů v archivu podle typů

html dokumenty 58,2%

obrázky gif 14,2%

Ostatní 3,2%

obrázky jpg 24,4%

video soubory 0,1%

zvukové soubory 0,3%

jiné obrazové dokumenty 0,4%

applikace a data aplikací

1,1%

jiné textové dokumenty 1,4%

Page 25: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Doména .cz - zastoupení hlavních typů souborů v archivu podle objemu dat

obrázky gif 3,2%

obrázky jpg 19,3%

jiné textové dokumenty 12,6%

zvukové soubory 9,5%

html dokumenty 28,4%

video soubory 6,4%

applikace a data aplikací 19,4%

jiné obrazové dokumenty 1,2%

Page 26: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění

archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje,

zatím vyjma indexovacího enginu Internet Archive – výsledky do tří let projekt CUBE v rámci 6RP EU – zatím nejisté u nás – využití NWA toolsetu v kombinaci s

Convera RetrievalWare (podpora velkého množství formátů, fuzzy search)

studentský projekt na MFF UK (dokončení jaro 2003) může být využit přinejmenším pro zkušební provoz

Page 27: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Spolupráce

Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace)

Účast na přípravě mezinárodního projektu v rámci 6. rámcového programu EU (CUBE)

V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. Jednotná informační brána), příprava spolupráce s MZK

Nutnost spolupráce s vydavateli

Page 28: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Nordic Web Archive – časová osa

Page 29: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Nordic Web Archive – časová osa

Page 30: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Internet Archive – časová osa

Page 31: WebArchiv digitální knihovna českého webu

http://www.webarchiv.cz

Děkujeme za pozornost

WebArchiv

http://www.webarchiv.cz

Ludmila Celbová

[email protected]

Petr Žabička

[email protected]

INFOS 2003