sophie derrot dépôt légal numérique bibliothèque...
TRANSCRIPT
Sophie DerrotDépôt légal numérique
Bibliothèque nationale de France
Mémoires numériquesPublics, ressources et bibliothèques en mutation
Journée d’étudeVendredi 10 octobre 2014
Une institution faite pour le temps long
Attachée aux supports des publications
Loi de 2006, inscrite dans le Code du patrimoine
Une obligation légale
Le périmètre concerné
Deux institutions dépositaires : la BnF et l’INA
S’applique aux « signes, signaux, écrits, sons ou messages de toute nature qui font l’objet d’une communication au public par voie électronique »
Des modifications fondamentales par rapport au dépôt légal traditionnel
Qui fait quoi à la BnF ?
120 bibliothécaires spécialistes dans les départements
Des ingénieurs et développeurs du département des Systèmes d'information
6 personnes dans le service du Dépôt légal numérique
Au niveau national
Bibliothèques de dépôt légal imprimeur en région
Associations
Chercheurs et laboratoires
Au niveau international :
Des bibliothèques nationales ou universitaires
D’autres institutions patrimoniales (TNA, INA)
Des fondations à but non lucratif (Internet Archive)
Des entreprises (Hanzo, OIA)
Des partenaires externes
Ça meurt vite, un site web ?
Oui !
Défaillances de support (machines, logiciels…)
Défaillances d’adressage (nom de domaine, architecture d’un site)
Démarche volontaire
70 robots de collecte
Qui parcourent le web à partir d’une liste d’adresses URL « graines »
et copient les éléments qu’ils trouvent et qui font partie du périmètre de la collecte.
Collecte des données
Les documents entrent par deux filières :
des échantillons annuels du domaine français depuis 2004 → la collecte large
des archives plus complètes et plus régulières d’un nombre limité de sites repérés par les bibliothécaires → les collectes ciblées
Les filières d’entrée des archives du web
Des collections qui reflètent les spécificités de l’internet…
… Mais qui se placent également dans la continuité des autres collections conservées
La richesse de l’archive
Le Dépôt légal concerne tous les formats de
publications qui sont mis en ligne : PDF
Vidéos
Fichiers audios
Images
Textes
Contenus flash
Et bien d’autres !
Ainsi que tous les types de documents
Une archive aux formatstrès divers
Les défis du web
La masse
Des contenus inaccessibles ou introuvables
Le trop-plein
Faut-il respecter le protocole robots.txt?
Des acquisitions rétrospectives de 1996 à 2005 auprès d’Internet Archive
Des collectes menées en interne depuis 2010
Historique de la constitution des archives
Les archives de l’internet représentent (janvier 2014)
21,2 milliards de fichiers,
soit 470 To de données.
Conservation des données
Les données sont stockées sur des disques durs pour
l’accès…
… et dans le Système d’archivage de la BnF
(SPAR) pour une conservation pérenne
Sur accréditation, selon les mêmes principes que ceux appliqués aux autres collections de dépôt légal
Dans toutes espaces de niveau Recherche (de tous les sites de la BnF)
Depuis septembre 2014, consultation ouverte aux BDLI
Une interface dédiée pour accéder aux collections sous leur forme d’origine
Consultation des collections
Les parcours guidés
Des chercheurs travaillent sur des corpus définis (élections, jeux olympiques, presse)
Des actions pédagogiques
Une mise en valeur comme objet patrimonial : l’exposition « La Presse à la Une » (2012)
Des modes de valorisation divers
Les archives et le chercheur
Citer l’archive comme source : le permalien
http://archivesinternet.bnf.fr/20120515123705/http://www.villeschinoises.com/site/index.php/tianditu-le-google-maps-chinois/
L’archive comme objet de recherche:
Data mining, Link mining
Encore des usages à explorer qui nécessitent souvent que le chercheur construise lui-même ses propres outils logiciels