larchivage pérenne du document numérique au cines mireille gay(cines) [email protected]...

28
L’archivage pérenne du document numérique au CINES Mireille Gay(CINES) [email protected] Formation STAR – 27 septembre 2013

Upload: charlemagne-brun

Post on 03-Apr-2015

105 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

L’archivage pérenne du document numérique au CINES

Mireille Gay(CINES)[email protected]

Formation STAR – 27 septembre 2013

Page 2: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Sommaire

I. Le CINES.

II. La problématique de l’archivage numérique pérenne

III. La plateforme d’archivage du CINES: PAC

La mission d’archivage au CINES Architecture; Principe de fonctionnement Implémentation des procédures d’assurance

qualités (techniques et organisationnelles) Les données archivées; Volumétrie

2Formation STAR, Paris – 27/09/2013

Page 3: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Le CINES

3

Centre Informatique National de l’Enseignement Supérieur

• Basé à Montpellier (Hérault, France)

• EPA créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) – créé en 1980

• Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) et de la DGESIP (Direction Générale pour l’Enseignement Supérieur et l’Insertion Professionnelle) du Ministère de l’Enseignement Supérieur et de la Recherche

• Missions :

– Calcul numérique intensif– Archivage pérenne de documents

électroniques– Activité transversale : hébergement

d'environnements informatiques

• Plus d’information : http://www.cines.fr/

Formation STAR, Paris – 27/09/2013

Page 4: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

La mission d’archivage du CINES

Depuis 2004, le CINES a une mission nationale d’archivage du patrimoine scientifique.

– Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat

– Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l’archivage pérenne de données numérisées dans le cadre du programme Persée

– Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne

Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d’une plate-forme et d’un service d’archivage numérique pérenne

L’équipe : 1 chef de projet, 8 ingénieurs, 1 archiviste, 2 techniciens (11 ETP)

4Formation STAR, Paris – 27/09/2013

Page 5: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Le service d’archivage pérenne du CINES

Objectifs : la mise en place d’une solution– Performante pour la conservation à moyen et long terme du patrimoine numérique

des établissements

– Economique et sécurisée

Contraintes– Besoin d’une solution générique, basée sur les normes du domaine ;

– Adoption de standards → facilite la démarche qualité pour la conservation ;

– Veille technologique et de migration.

Les données concernées sont :– Les données scientifiques – résultats d’observations ou de calcul

– Les données patrimoniales – pédagogiques, publications, etc.

– Les données administratives – archives intermédiaires

Dans le respect du contexte législatif archivistique français

5Formation STAR, Paris – 27/09/2013

Page 6: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Tous les projets d’archives à long terme partagent la même plateforme– Mutualisation de l’infrastructure matérielle d’archivage ;– Protocole de versement générique ;– Diminution des coûts de mise en place et d’exploitation.

→Le service d’archivage bénéficie des infrastructure et de l’équipe d’experts d’un Centre Informatique National 4 salles machine (820 m2), 1 salle 500m2 en construction Alimentation électrique (lignes 2,6 MW et 10MW) secourue

(groupe électrogène 1,5MW) Réseau RENATER (lien 10Gbits)

La Plateforme d’archivage pérenne au CINES – PAC v2.0– Capacité actuelle 40 To + 10 To en reserve– En exploitation depuis Mai 2008– Logiciel d’archivage (Arcsys (Infotel)

+développements spécifiques CINES)– Serveurs applicatifs et baie de stockage

SUN – Oracle– Librairie de bandes IBM (2 x 1Po)

PAC: Les infrastructures, supports et moyens de PAC

Formation STAR, Paris – 27/09/20136

Page 7: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Le contexte, la problématique et les constats

Qu’est-ce que l’archivage électronique pérenne ?

L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Dans son aspect physique comme dans son aspect intellectuel,

Sur le très long terme soit 30 ans et au-delà,

De manière à ce qu’il soit en permanence accessible et compréhensible.

7

Formation STAR, Paris – 27/09/2013

theron
Page 8: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Le contexte, la problématique et les constats

Formation STAR, Paris – 27/09/2013

8

Perte compréhensionet accessibilité ?

Temps

4 risques inéluctables :

– Connaissance perdue du contenu des fichiers ;

– Format de fichier inconnu ;

– Support physique détérioré ;

– Logiciel ou matériel de lecture disparu.

Archivage pérenne = Mise en place de procédures d’assurance qualité pour atténuer l’impact des risques lorsqu’ils se réalisent

Page 9: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Voici un document que j’ai créé en 1998…

De quoi s’agit-il déjà ? Est-ce bien ce qui est indiqué sur la disquette ?

La disquette est-elle toujours en bon état ?

Mon portable, acheté en 2006, n’a pas de lecteur de disquette…

J’ai créé ce document avec Claris Works. Comment retrouver ce logiciel ? Quel est le format du document ?

J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows XP ?

Ça marche ! Mais j’ai perdu toute ma mise en forme…

SUPPORT : VEILLE

+ MIGRATION

PHYSIQUEMETADONNEES DESCRIPTIVES +

IDENTIFICATION UNIQUE et PERENNE

ENVIRONNEMENT

MATERIEL : VEILLE

TECHNO et ANTICIPATION

ENVIRONNEMENT LOGICIEL :

privilégier les FORMATS DURABLES

+ MIGRATION LOGIQUE SYSTÈME

D’EXPLOITATION

INTEGRITE

AUTHENTICITE

9

Les défis, orientations et choix pour l’archivage au CINES

Page 10: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Les normes et standards utilisés

• OAIS - ISO 14721 : Reference model for an Open Archival Information System – Modèle purement conceptuel, ne fait aucune recommandation technique

• P2A Politique et pratiques d’archivage (sphère publique)– Recommandations en termes d’architecture, moyens, sécurité, etc.

• Standard d’échanges de données pour l’archivage électronique, versement, communication, élimination

• Normes internationales de description archivistique– ISAAR-CPF – Norme Internationale sur les notices d’autorité utilisées pour les

Archives relatives aux collectivités, aux personnes ou aux familles– ISAD-G – Norme générale et internationale de description archivistique

• Métadonnées descriptives de l’archive– DCMI – Dublin Core Metadata Initiative

• Identifiant unique et pérenne– Interne, séquentiel, basé sur le principe URI– Couplé à un identifiant persistant externe de type ARK

• Empreintes numériques– Hashing MD5, SHA-256, SHA-1

10Formation STAR, Paris – 27/09/2013

Page 11: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Le CINES a une démarche de certification pour valider, mettre en avant les procédures d’assurance qualité mises en œuvre :

Qualité organisationnelle: La certification

Formation STAR, Paris – 27/09/2013

11

– Plusieurs audits internes/externes depuis 2009 en collaboration avec le cabinet de consultants Ourouk

– Agrément du SIAF pour la conservation d’archives publiques intermédiaires (Arrêté du 14 décembre 2010)

– Accréditation Data Seal of Approval - attribuée aux centres de préservation numérique ayant mis en place des procédures d’assurance qualité afin de garantir l’accessibilité et l’intelligibilité des informations (15 Mars 2011) (16 critères)

– Test audit ISO 16363 pour la certification de systèmes d’archivage électronique dans le cadre du projet européen APARSEN (7 Juin 2011) dont le CINES est partenaire (48 critères)

→ Objectif de certification du service à l’horizon 2014.

Page 12: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

• Présentant une valeur patrimoniale scientifique ou technique

• De préférence des objets dits « primaires »– Documents originaux,– Bruts de scan, etc.

• Dans un format identifié et vérifiable :

Les types de documents à archiver de façon pérenne

– Format publié– Format largement utilisé (ou promis à l’être)– Format normalisé si possibleLes formats doivent respecter les spécifications de leur format

• Le système PAC est interfacé avec les outils Jhove, ImageMagick, DROID, ODF Validator, MPlayer pour– Identifier, Valider,

Caractériser le format des fichiers transférés

Type Format

Texte HTML, PDF, TXT, XML, ODT

Image GIF, JPEG, TIFF, PNG, SVG

Audio WAV, AIFF, AAC, VORBIS

Vidéo MJPEG2000, MPEG4, THEORA

12Formation STAR, Paris – 27/09/2013

Page 13: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Un outil en ligne pour valider les formats de fichier

• Outil en ligne permettant de valider les fichiers par rapport aux spécifications de leur format

• Les contrôles effectués sont les mêmes que ceux effectués lors d’un dépôt de document

• Intègre les mêmes outils (Jhove, Imagemagick, DROID, Mplayer) que la plateforme d’archivage PAC

• Permet une validation des fichiers avant dépôt de la part du producteur

http://facile.cines.fr/13

FACILE – validation du Format d’Archivage du CInes par anaLyse et Expertise

Formation STAR, Paris – 27/09/2013

Page 14: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Fonds ou Projet d’archives

PAC: Qualité des métadonnées : Les niveaux de MD dans PAC

PPDI.XML Document

BIR,Bibliothèque d’Informations de

Représentation

formats Spécifications des

formats des fichiers archivés. Les schémas

xsd, dtd …

ProjetPPDI , profil d‘archivage, convention, élimination

Métadonnees_métier.XML

SIP.XML / AIP.XML

Spécifications doc techniques

Page 15: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

La structure du document à archiver

Document à archiver composé de deux pièces :

1.La description de l’archive

– Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd)– 3 sections décrivant :

Le document dans son projet d’archives (DocDC)

Le document proprement dit (DocMeta)

Les fichiers du document (FichMeta)

2.Le dossier contenant les documents électroniques à archiver

– Répertoire « DEPOT »– Sous-arborescence autorisée– Tout fichier présent doit être décrit dans le fichier sip.xml

15Formation STAR, Paris – 27/09/2013

Page 16: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Les acteurs

Le producteur– Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé

des archives dans l’exercice de son activité.

Le service versant– Organisation qui transfère une archive à un service d’archives

Le service de contrôle– Personne physique ou morale qui effectue le contrôle scientifique, juridique et

technique des documents archivés, et éventuellement valide les demandes de communication d’archives

Le service d’archives– Organisation recevant le document à archiver transféré et chargée de la conserver

pour permettre à une communauté d’utilisateurs/un service demandeur d’y accéder et de l’utiliser

L’utilisateur– Toute personne ou système client en relation avec le service d’archives pour trouver

les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives.

16Formation STAR, Paris – 27/09/2013

Page 17: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Les échanges

Transfert d’archives– Transmission physique d’une archive ou d’un ensemble d’archives par un service

versant à un service d’archives

Modification d’archives– Modification des métadonnées et/ou du document pour en assurer la préservation

Elimination d’archives– Elimination des métadonnées et/ou du document à la demande du services

d’archives, du service versant ou du service de contrôle

Restitution d’archives– Transmission de documents par le service d’archives au service versant ou au

producteur afin de leur en restituer la garde

Communication d’archives– Transmission de copie de document à un utilisateur ayant l’autorisation du service

versant et /ou du service de contrôle

17Formation STAR, Paris – 27/09/2013

Page 18: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Le modèle fonctionnel OAIS

Formation STAR, Paris – 27/09/201318

SER

VIC

E V

ERSA

NT

UTILISA

TEUR

MANAGEMENT

Entrées et Contrôles Accès

Planification de la pérennisation

Stockage

Gestion de Données

AIP

SIP

DIP

AIP

Administration

Page 19: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

L’architecture logique de la plateforme PAC

PAC : Plateforme d’archivage du CINES

ServeurdeTransfert

ServeurdeStockage

Serveurd’Accès

Producteur Service Versant

Administrateur

Utilisateur

Service de Contrôle

19Formation STAR, Paris – 27/09/2013

Page 20: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Les principes de fonctionnement

Serveurs Fonctions

Transfert réception des SIP détection d’un nouveau transfertenvoi d’un accusé de réception

contrôle des SIP structure informatiqueconformité des métadonnées sip.xml par rapport au schéma sip.xsdcorrespondance entre la description sip.xml et les fichiers qui composent le documentcontrôle et validation du format des fichierscalcul de l’empreinte numérique de chaque fichier

création des AIP création de l’identifiant du document archivémise à jour des métadonnées : sip.xml > aip.xmltransfert de l’AIP au serveur de stockage

Stockage archivage des AIP copie multiple de l’AIP sur les différents médias ou supports envoi du certificat d’archivage

vérification périodique de l’intégrité des AIP archivés

migration technologique

fourniture d’états et de statistiques

Accès contrôle de l’authentification de l’utilisateur

consultation du catalogue des AIP archivés

communication d’une copie d’un document archivé20

Formation STAR, Paris – 27/09/2013

Page 21: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Les étapes du versement d’archives

PAC – Versement de document(s)

Se

rveu

r de

V

ers

emen

tS

erv

eur

de

Sto

cka

geS

erv

ice

V

ers

ant

Soumission

Document(s)Accusé de Réception

Contrôle de validité

techniqueValide ?

Notification de Rejet

NON

OUI

Archivage

Certificat d’archivage

21Formation STAR, Paris – 27/09/2013

Page 22: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

PAC: Qualité du stockage

22

La qualité du stockage garantit la conservation du train de bits composant les fichiers de données Copies multiples:

2 copies sur disques

1 réplication sur un site distant CC-IN2P3

2 copies sur bandes

Indépendance des supports de copies (mélange disques/bandes, localisation géographique)

Audit fréquent de l’intégrité des copies

• Au niveau matériel : vérification des contrôleurs de disques, contrôleurs réseau etc.

Migration physique.

• Au niveau logiciel : (Archeck module de supervision qui détecte les corruptions silencieuses,..)

Calcul des empreintes numériques par échantillonnage et comparaison avec l’empreinte initiale

Utilisation d’algorithme de hachage (MD5, SHA-256), etc.

Formation STAR, Paris – 27/09/2013

Page 23: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

La stratégie de préservation des documents

La stratégie de préservation des documents archivés repose sur la migration (pas d’émulation)

• Migration physique

– La technologie évolue: changement du support de stockage

Effectuée en tâche de fond par l’application d’archivage, pas d’arrêt de service, le service versant est informé

• Migration logique

– Conversion de formats

– Expertise et veille technologique pour la détection de l’obsolescence d’un format de fichier pris en charge sur la plateforme

– Identification d’un format offrant de meilleures garanties de pérennité

– Migration après accord des services versants concernés

– Pas de modification pour le service versant de l’identifiant unique attribué lors de l’archivage

– Conservation des versions 1 (initiale), n-1 et n d’un document migré 23

Formation STAR, Paris – 27/09/2013

Page 24: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

L’archivage au CINES en quelques dates…

2004 20082006 2010

• 1ères réflexions sur l’archivage numérique

• Prestation de conseil en AE (2005)

• Arrêté du 7 août 2006 (Thèses)

• 1ères thèses versées dans PAC_V1, une plateforme d’archivage « maison » (arrêté du 07/08/2006)

• Convention pour l’archivage du portail Persée (02/05/2007)

• Recadrage des activités du CINES (lettre du 12/02/2008)

• Mise en production de PAC_V2 (basée sur la solution Arcsys d’Infotel et un client spécifique)

« migration de plateforme »

• Archivage de HAL (Hyper Articles en Ligne), des données orales du CRDO (TGE-Adonis), de livres numérisés (Cujas, BIUS, BUPMC,BSG…)

• 2009 : 1er To archivé

• Agrément du SIAF (14/12/2010)

2013

• Archivage Cour des comptes, Inserm

• Accréditation DSA (2011)

• Certification ISO 16363 (en cours)

• 26 To archivés

Formation STAR, Paris – 27/09/2013

Page 25: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Les utilisateurs de PAC

2511/07/2012

Page 26: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Les thèses : Volumétrie

12/01/2012Formation STAR, Paris – 27/09/2013

26

Début septembre 19873 thèses déposées

Page 27: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

Les thèses : Répartition des versions de formats

Formation STAR, Paris – 27/09/2013

27

Version Nombre Pourcentage

PDF 1.2 157 0,6%

PDF 1.3 761 2,8%

PDF 1.4 14013 51,9%

PDF 1.5 3672 13,6%

PDF 1.6 2156 8,0%

PDF 1.7 208 0,8%

XML 1.0 106 0,4%

WAV 659 2,4%

TXT 106 0,4%

PNG 1.0 3001 11,1%

PNG 1.1 20 0,1%

AAC 1796 6,7%

MPEG-4 118 0,4%

JPEG NA 97 0,4%

JPEG 1.01 20 0,1%

JPEG 1.02 34 0,1%

GIF 89a 29 0,1%

FLAC 1 0,0%

TIFF 5.0 5 0,0%

TIFF 6.0 38 0,1%

Total 26997 100,0%

Page 28: Larchivage pérenne du document numérique au CINES Mireille Gay(CINES) mireille.gay@cines.fr Formation STAR – 27 septembre 2013 mireille.gay@cines.fr

29

Questions & Réponses

Plus d’information à l’adresse : http://www.cines.fr/spip.php?rubrique219

[email protected]

Formation STAR, Paris – 27/09/2013