el archivo de internet, bibliotecas que piensan en el futuro. mar pérez morillo
DESCRIPTION
Presentada en "FESABID, XII Jornada Española de Documentación". 26 de mayo de 2011. MálagaTRANSCRIPT
![Page 1: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/1.jpg)
El archivo de Internet, bibliotecas que piensan en el futuro
Mar Pérez MorilloJefe del Servicio de Coordinación Web, Biblioteca Nacional de España
![Page 2: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/2.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA2
Índice
– Contexto• Consideraciones generales
– Panorama internacional• IIPC• Biblioteca Nacional de Francia• Biblioteca Nacional de Austria• ISO TC 46/SC 8/WG 9
– La ley de Depósito Legal– El proyecto de la BNE
• Primeros pasos• Situación actual – Planes inmediatos• Perspectivas de futuro
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 3: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/3.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA3
Contexto
Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003)
– Volumen de los datos.
– Duración de la información en línea (44 días y 2 años).
– Internet constituye un invalorable espejo de la sociedad.
– La producción de información en el mundo en medios tradicionales disminuye año tras año frente a los objetos digitales que crecen sin cesar.
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 4: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/4.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA4
Contexto: consideraciones generales
– Tarea llena de retos
– Finales de los 90: Internet → fundamental en la difusión del conocimiento
– Los documentos en línea desaparecen de repente
– Falta de perspectiva histórica: valor impredecible
– La web no es un depósito de ejemplares
– Características de la web: grande, global, rápida, intangible, universal
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 5: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/5.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA5
Panorama Internacional: IIPC
– Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive
– Adquirir, preservar y hacer accesible la información en internet para el futuro
– Objetivos:• Posibilitar recolección, preservación y acceso a largo plazo
a contenidos de internet• Desarrollar herramientas comunes para crear archivos
internacionales• Defender iniciativas internacionales con este propósito• Apoyar a instituciones dedicadas a esta tarea
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 6: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/6.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA6
Panorama Internacional: IIPC
– Grupos de trabajo muy activos:• Recolección• Acceso• Preservación
– Proyectos de colaboración:• Facebook• Wikileaks• Terremoto y tsunami en Japón (Internet Archive - National Diet)• Olimpiadas 2012• Memento
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 7: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/7.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA7
Panorama Internacional
– BnF (Biblioteca Nacional de Francia) → desde 2002• Al amparo de su ley de DL• Sólo acceso para investigadores en sus instalaciones• Combinan recolección masiva y selectiva• Empezaron con Internet Archive y se independizaron
– Biblioteca Nacional de Austria• Empezaron haciendo sólo recolección selectiva y por
acontecimientos• En 2010 hicieron su primera recolección del dominio .at• Su política es combinar los tres modelos (selectiva, por
acontecimientos y masiva)– Ambas utilizan Netarchive Suite
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 8: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/8.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA8
Panorama Internacional: Iniciativas de archivado web
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 9: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/9.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA9
Panorama Internacional: ISO TC 46/SC 8/WG 9
El archivo de Internet, bibliotecas que piensan en el futuro
Estadísticas y aspectos de calidad en los archivos web
– Objetivo: elaborar un informe técnico– Definición de términos y elementos relativos a estos proyectos– Establecer aspectos cuantificables para medir la calidad– Repaso de distintos aspectos relacionados con este tipo de proyectos:
• Personal• Costes• Evaluación → establecimiento de indicadores de calidad• Tipos de proyectos según distintos criterios
– Estado actual de la cuestión
![Page 10: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/10.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA10
La Ley de Depósito Legal en España
El archivo de Internet, bibliotecas que piensan en el futuro
– Decreto del 57:• Preocupación por regular “las obras derivadas de los inventos
modernos”– Anteproyecto de ley de DL (2011)
• Publicaciones digitales → patrimonio a preservar• Acceso y consulta de publicaciones almacenadas• Publicaciones digitales →objeto de DL• Sitios web → incluidos en el DL• Centros de conservación → habilitados para rastrearlos y
conservarlos• Límites: propiedad intelectual y protección de datos
![Page 11: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/11.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA11
El proyecto de la BNE: Primeros pasos
El archivo de Internet, bibliotecas que piensan en el futuro
• Primer contrato con Internet Archive: 2009-2010
• Objetivo: recolectar, archivar y preservar el dominio .es
• Primeras recolecciones
4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010
• Después de cada recolección:
Deduplicación
Indización
Rastreo de parcheado
![Page 12: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/12.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA12
El proyecto de la BNE: Primeros pasos
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 13: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/13.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA13
El proyecto de la BNE: Situación actual
El archivo de Internet, bibliotecas que piensan en el futuro
• Resultados:
30 TB de información almacenada
Más de 875 millones de URL:
Más de 317 millones en la primera recolección
Cantidades menores en las tres siguientes complementarias
• Acceso a la colección
• Interfaz de consulta que necesita personalización
• Búsquedas:
Por URL
Por palabra a texto completo (necesita depuración)
![Page 14: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/14.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA14
El proyecto de la BNE: Situación actual
El archivo de Internet, bibliotecas que piensan en el futuro
• Informes
MIME (Multipurpose Internet Mail Extension)
Respuestas de servidores
Servidores
Exclusiones
• Análisis de la colección mediante calas:
Páginas recolectadas con éxito
Niveles de navegación que se han guardado
Porcentaje de webs guardadas que han desaparecido (casi un 3%)
Otros dominios capturados aparte de .es
Aproximación a porcentaje de temáticas
![Page 15: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/15.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA15
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
• Perspectivas de crecimiento 2011-2012
• Nuevo contrato con Internet Archive:
2 recolecciones masivas (2011), alternadas con
2 recolecciones selectivas (2011 y 2012):
Temáticas
Acontecimientos (Elecciones Generales 2012)
• Buscar colaboradores para las recolecciones selectivas
• Probablemente estaremos cerca de duplicar la colección actual
• Análisis de la colección muy de cerca durante los rastreos
• Pruebas de rastreo propias con NetarchiveSuite → podremos evaluar en algunos aspectos nuestra capacidad de autogestión
![Page 16: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/16.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA16
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 17: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/17.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA17
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 18: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/18.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA18
El proyecto de la BNE: Perspectivas de futuro
El archivo de Internet, bibliotecas que piensan en el futuro
• Acceso a la colección ¿en local o en remoto?
• Personalización de la interfaz
• Traslado de la colección:
Propuesta con varias alternativas por parte de IA
Habilitación de espacio físico
Recursos para el mantenimiento de la colección
• Recolectamos nosotros → adopción y desarrollo de un software
• Gestión de la colección:
Organización temática
Planificación de nuevas recolecciones
Inclusión de otros dominios españoles fuera del .es
• Colaboración con Comunidades Autónomas (??)
![Page 19: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/19.jpg)
BIBLIOTECA NACIONAL DE ESPAÑA19
Referencias de interés
– IIPC: www.netpreserve.org
– Proyecto Memento: http://www.mementoweb.org/
– Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives
– Internet Archive: www.archive.org
– Archivos de internet en la BnF: http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_internet.html
– Archivo web de la Biblioteca Nacional de Austria: http://www.onb.ac.at/ev/about/webarchive.htm
– Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html
– NetarchiveSuite: http://netarchive.dk/suite/Welcome
– “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-webs-past/0
El archivo de Internet, bibliotecas que piensan en el futuro
![Page 20: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo](https://reader034.vdocuments.mx/reader034/viewer/2022052623/55990f841a28ab002c8b46a5/html5/thumbnails/20.jpg)
Mar Pérez MorilloServicio de Coordinación Web
Pº de Recoletos, 20-22 28071 Madrid
EspañaT +34 915 807 800
www.bne.es
BIBLIOTECA NACIONAL DE ESPAÑA