presentasjon av implementasjonen av essarch i arkivverket · 2013-06-26 · presentasjon av...

Post on 08-Jul-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Presentasjon av implementasjonen av ESSArch i Arkivverket

Terje Pettersen-DahlSeksjon for Digitalt Depot

Riksarkivet

KDRS Samling, Trondheim, 12. juni 2013

2

Elmag, Elektronisk Magasin

• Prosjekt i Arkivverket med tanke på:● Teknisk løsning ved lagring av elektroniske arkiver,

både hardware og software.● Sette opp retningslinjer og behandlingsregler av

elektronisk mottatt materiale.● Sikkerhetsaspekter rundt elektronisk materiale.

• Egentlig bestående av flere prosjekter over flere år.

3

• DIAS prosjektet ble opprettet som en følge av Elmag 2 prosjektet.

• DIAS prosjektet kunne vært et Elmag-prosjekt i utgangspunktet, men ble skilt ut siden det også var eksterne aktører involvert.

Elmag, Elektronisk Magasin

4

Dias, Målformuleringer

• Utprøving og komplettering av den logiske arkivpakkemodellen foreslått gjennom Arkivverkets Elmag-prosjekt.

• Vurdering og valg av standarder for implementering av modellen.

• Spesifikasjon av strukturen gjennom XML-skjemaer for den definerte arkivpakkemodellen.

• Utforming av kravspesifikasjon til programvare for generering av arkivpakker m.m.

• Programutvikling av programvare for generering av arkivpakker m.m.

5Magasinstyringssystem (m/SAN el.)

DIP

SIP

AIP

AIC

(SIP)

(DIP)

Sto

rage

Admin

Access

Ingest

Adgang etc

Innlegging

Pakking

Innhenting

UthentingSøk

Magasinkontroll

Rapportering

Mottakskontroll

TestingStandardoperasjoner

5

Asta

Magasin

Dias-modell

6

Arkivpakker

• Standard arkivpakke (AIP).• Siden arkivpakker vil bli bevart i flere

generasjoner vil det også være behov for et overordnet nivå – en arkivkontainer (AIC).

• Ved enkle endringer av metadata, føltes det vel tungvint å endre en hel arkivpakke, derfor ble det også definert en arkivenhet (AIU).

7

Pakkestrukturer

• DIAS prosjektet definert en struktur for en arkivpakke (AIP).

• Arkivverket har deretter arbeidet med å definere en struktur for en innleveringspakke (SIP).

• Strukturen for en SIP er basert på strukturen for en AIP.

• Strukturen for en visningspakke (DIP) vil være spesialtilpasset behovene.

8

Arkivpakke AIPStruktur

En arkivpakke (AIP) kan deles opp i følgende hoveddeler• Informasjonsinnhold – Selve informasjonen som

skal bevares• Administrative metadata – Arkivskaper,

proveniens og annen kontekstuell informasjon• Tekniske metadata – Teknisk beskrivelse av

informasjonsinnholdet• Depotoperasjoner – Håndtering og

arbeidsoperasjoner depotet har utført på informasjonsinnholdet

9

Struktur i en arkivpakke AIP

AIP (<UUID>.tar)

dias-mets.xml (og dias-mets.xsd)

descriptive_metadata/

administrative_metadata/

repository_operations/

content/

dias-premis.xml

ead.xml

eac-cpf.xml

arkivuttrekk.xml

Testrapporter etc

Dokumentfiler og annet innhold

10

11

Arkivpakkemodell

• Alt bevares i sin opprinnelige form (SIP).• Ved tekniske endringer dannes en ny pakke (AIP) i

tillegg til den opprinnelige.• Operasjoner i depotet bevares og dokumenteres

som tillegg.• Ved senere vedlikehold (f.eks. konvertering av

formater) dannes alltid en ny pakke (AIP).• All informasjon fra pakkenivå ned til filnivå kan

verifiseres med sjekksummer.

12

Struktur i en innleveringspakke SIP

SIP (<UUID>.tar)

dias-mets.xml (og dias-mets.xsd)

descriptive_metadata/

administrative_metadata/

content/

dias-premis.xml

arkivuttrekk.xml

Dokumentfiler og annet innhold

info.xml

13

Forvaltningssystem

• Automatisert magasinforvalter● Legger arkivpakker inn i magasinet● Henter arkivpakker ut av magasinet● Genererer arkivpakker

• Automatisert kontrollør● Kontrollerer innholdets integritet● Har egne “lukkede” områder for materialet● Genererer rapporter

14

Dias, Skjemaer og standarder

• Pakkeinformasjon - METS• Bevaringsmetadata - PREMIS• Arkivbeskrivelse - EAD• Aktørbeskrivelse – EAC-CPF• Tekniske metadata – ADDML

• Muligens fler spesialiserte standarder knyttet til formater. F.eks. MIX for bilder.

15

• METS-standarden benyttes i to tilfeller.• Inne i pakkene (gjelder alle typer):

● Angivelse av pakkeinformasjon (pakkseddel).● Angivelse av sammenhenger mellom filer.● Angivelse av sjekksummer for alle filer.● Denne versjonen navngis som mets.xml, og vil ligge

på rotnivå i pakkene.• Utenfor pakkene (for overføring fra en aktør til

en annen):● Inneholder informasjon om overføringen.● Identifiserer TAR-filen (SIP).● Denne versjonen navngis som info.xml.

METS

16

PREMIS

• PREMIS-standarden benyttes kun inne i pakkene (for alle typer) som:

● Angivelse av bevaringsmetadata.● Angivelse av hendelser.● Angivelse av rettigheter.● Denne versjonen navngis som premis.xml.

17

ADDML

• ADDML-standarden benyttes kun inne i pakkene (for alle typer) som:

● Angivelse av teknisk strukturbeskrivelse.● Angivelse av utvalgte bevaringsmetadata (SIP).● Denne versjonen navngis som arkivuttrekk.xml.

• Depotet vil kopiere denne og benytte den videre:● For å legge på testkommandoer som skal utføres.

18

EAD og EAC-CPF

• EAD- og EAC-CPF-standardene benyttes kun inne i pakkene (valgfri i SIP) som:

● Angivelse av arkivbeskrivelse (EAD).● Angivelse av aktørbeskrivelse (EAC-CPF).● Filene navngis som ead.xml og eac.xml respektive.

• Normalt vil disse filene bli generert av Betty på grunnlag av informasjon lagt inn i ASTA.

● Gjeldende for Arkivverket.● Andre depoter kan ha andre løsninger.

19

info.xml

• Som tidligere nevnt en METS-fil.• Inneholder informasjon angående overføringen av

en SIP.• Er en kontrollmekanisme for å sikre en SIPs

integritet.• Vil ikke bli bevart i sin originale form hos depotet.

● Enkelte informasjoner kan bli bevart i andre filer.● Vil bli bevart i journalsystemet.

• Bør bli behandlet parallellt med SIP hos depotet av sikkerhetsmessige grunner.

20

Gjennomføring (Fase 1)(utviklingen av forvaltningssystem)

• Utarbeidet en enkel kravspesifikasjon med 29 punkter. Noen skulle oppfylles, andre var kjekt å ha.

• Utlysning av anbud – nasjonalt og EU - Mottok 2 tilbud.

• Valget falt på ES Solutions med sitt verktøy ESSArch.

• Dette var det eneste tilbudet som falt innenfor rammene.

• ESSArch grunnversjon godkjent 6. juni 2012, men ikke tatt i bruk.

21

Gjennomføring Fase 2

• Forbedring av Fase 1 på 5 punkter.

• Brukergrensesnitt til log.py.• Forbedring av DiffCheck.• Endring av struktur for SIP.• Endring av info.xml.• xxx.

22

Gjennomføring Fase 2

• Skulle vært igangsatt i sommer, men starter først i andre halvdel av oktober.

• Fase 2 levert i slutten av februar fra ES Solutions.

• Testet i testmiljø frem til 1. juni.• Lagt over til prodmiljø første uken i juni.• Testes i prodmiljø i juni.• Test av installasjonspakke i slutten av juni.• Produksjonsstart fra 1.juli.

23

Det Digitale Depotet

• Starter opp sammen med innføringen av det nye Digitale Depotet.

• Det Digitale Depotet inneholder følgende:● Teknisk infrastruktur● DSM (Digitalt sikringsmagasin)● Forvaltningssystem (ESSArch)● Rutiner for mottak og testing for hele

Arkivverket

24

25

26

Revidert oversikt

27

Teknisk løsningInnholdet i rød sone

• Den tekniske løsningen vil være i rød sone.• Rød sone vil inneholde

● En lagringsserver – det egentlige DSM● To taperoboter – som en del av DSM● En server med kontrollområde som vil være

områdekontrollens ene arbeidsområde.● En server med ESSArch og et temp-område for

pakking av AIPer – områdekontrollens andre arbeidsområde.

28

Teknisk løsningInnholdet i rosa sone

• Rosa sone vil inneholde● En server med testernes arbeidsområder.● En skjemaserver med standard skjemaene som

benyttes av ESSArch.• Mellom rosa og blå sone vil det være en brannmur.• Kun ESSArch vil ha tilgang til å gå gjennom

brannmuren.

29

Revidert oversikt

30

• Alle arkivversjoner skal innleveres til Riksarkivet.• Alle arkivversjoner skal pakkes med TAR.• En ny fil – info.xml – skal også innleveres.

● En slik Tar-fil vil bli kalt en SIP.• En ny fil – info-xml – skal også innleveres.• info.xml sendes til spesifikk e-post mottaker.• info.xml inneholder sjekksum for TAR-fil.• info.xml vil bli registrert i Ephorte.

Testing av fagsystemNye behandlingsrutiner

31

Enkel oversikt over arbeidsprosess

Kartlegging

Bevaring- og kassasjons-vedtak

Avtale om innlevering

Generering av arkivversjon

Pre mottak

Mottak

Testing

Lagring

Tilgjengeliggjøring

Vedlikehold

32

Vedtak og avtaler

• BETI-avdelingen og Statsarkivene gjør vedtak og inngår avtaler med arkivskapere som tidligere.

• Avtalene registreres i Ephorte med referansenummer og dato for avtalte innleveringer.

• Avtalene og datoene registreres også inn i Betty.

33

Pre mottak

• Tilsvarer førstehånds mottak.• I Arkivverket gjøres dette av Seksjon for

Elektronisk Arkivdanning (Elark).• Vil kjøre viruskontroll på egen dedikert PC, etter

at materialet først har ligget 3 uker i karantene.• Deretter en enkel visuell kontroll av at det ser ut

til at materialet er komplett.• Denne kontrollen medfører ikke åpning av noen

filer.• Se til at info.xml ligger på utvekslingsområdet

ioessarch.

34

Pre mottak

• Registrering av mottak i Ephorte (for SIP).• Registrering og innlegging av info.xml i Ephorte.• Registrering av mottak i Betty.• Registrere alle hendelser som er skjedd med

materialet i en hendelseslogg.● Dette gjøres ved hjelp av verktøyet ESSArch

Tools.• Overlevering av materialet til DD.

35

Mottak

• Manuell overføring av SIP fra pre mottak.• Kontrollere at info.xml og hendelseslogg ligger

korrekt på utvekslingsområdet ioessarch.• Hovedoppgave er å gjøre Check-in fra en dedikert

maskin til Områdekontrollen.• Må også registrere sine hendelser i

hendelsesloggen.• Denne oppgaven utføres av koordinator eller leder

i Seksjon for Digitalt Depot.

36

Arbeidsområde

• All testing vil bli foretatt mot tildelte arbeidsområder.

• Hver tester vil få sitt dedikerte arbeidsområde.• Testverktøyene vil være tilgjengelig for alle

testere.• Det vil ikke være mulighet for å kopiere materiale

ukontrollert ut av rosa sone.• Testing utføres av medarbeidere i Seksjon for

Digitalt Depot og utvalgte medarbeidere i noen Statsarkiv.

37

TestingGrunnprinsipper

• Avdekke alle avvik som skyldes feil eller mangler i uttrekksprosessen.

• Følge og oppfylle regelverket.• Konsekvenser for videre arbeid med materialet.

• Ingen endring av kvaliteten på materialet i forhold til hva som faktisk er hos arkivskaper!

38

TestingVerktøy

• Følgende verktøy benyttes til testing:● Proteus for testing av Noark 3-uttrekk.● ArkN4 for testing av Noark 4-uttrekk.● Arkade for testing av Noark 5-uttrekk.● Arkade for testing av uttrekk fra fagsystem.

• I tillegg kommer:● Arkadukt for å lage og ajourføre

strukturbeskrivelser for fagsystem.

39

Kommunikasjon mellom rød/rosa og blå soner

• Fra rød/rosa sone til blå sone:● Forespørsel om ASTA-informasjon med unik ID

(UUID).● Utlegging av testresultater.● Utlegging av rapporter – statistikk, årsrapporter,

sikkerhetsrapporter, osv.

40

• Fra blå sone til rød/rosa sone:● Innhenting av bearbeidede testrapporter.● Innhenting av ASTA-informasjon fra Betty.● Innhenting av info.xml og hendelseslogg.● Innhenting av nye versjoner av xml-skjemaer.● Innhenting av nye versjoner av testverktøy.

Kommunikasjon mellom rød/rosa og blå soner

41

• Betty vil motta informasjon om planlagte arkivversjon.

• Betty mottar informasjon om mottatt arkivversjon. Inklusive å oppdatere identifikasjon av arkivversjonen (UUID).

• ESSArch gjør en check-in av arkivversjonen.• ESSArch gjør en forespørsel om

ASTA-informasjon til Betty. (Eventuelt legger Betty denne informasjonen klar uten forespørsel.)

• ESSArch henter inn ASTA-informasjonen fra utvekslingsområdet (EAD og EAC-CPF).

ESSArch og Betty

42

Grunnprinsipper for behandling av materiale

• Sikkerhet – Sikkerhet - Sikkerhet.• Alle hendelser på materialet skal logges.• Ikke mulig å kopiere ut materiale uautorisert.• Ikke mulig å uforvarende endre materiale.• Alle endringer skal kunne dokumenteres for evt. å

kunne tilbakestilles.• Bruk av sjekksummer.• Områdekontrollen utfører sammenligninger for å

avdekke uregelmessigheter.

43

ESSArch - Verktøy• ESSArch Tools.

● Erstatter tidligere log.py.● Registrering av hendelser på materialet for

logging.● Oppretting av pakkestruktur (SIP).● Generering av pakke (SIP).● Generering av info.xml.

• ESSArch Preservation Platform.● Tidligere nevnt som ESSArch.● Forvaltningssystem ihht DIAS.

44

ET

Mappe-struktur

Arkiv-skaper

Leggerinn info imappe-struktur

ET

Generereren SIP oginfo.xml

Sone 1 - Arkivskaper

ET

Generererloggfil

Depot-medarbeider

Kontrollererog gjør

virussjekk

Sone 2 - Mottak

EPP

Innleggingav SIP i

ESSArch PP

Test-ansvarlig

Tester SIPgodkjenner

elleravviser

EPP

Lagrer SIPog AIP

Sone 3 – Digitalt depot

SIP

info.xml

SIP

Arbeidsflyt i ESSArch verdenen

45

ESSArch Tools

DEMO!

46

ESSArch Preservation Platform

KVASIDEMO!

47

EPP - Innlogging

48

EPP - Hovedbilde

49

EPP – Control Area

50

EPP – Checkin from reception

51

EPP – Checkout to work area

52

EPP – Checkout to work area

53

EPP – Checkout to work area

54

EPP – Checkin from work area

55

EPP – Checkin from work area

56

EPP – Checkin from work area

57

EPP – Checkin from work area

58

EPP - DiffCheck

59

EPP - DiffCheck

60

EPP - DiffCheck

61

EPP - Preservation

62

EPP - Preservation

63

EPP - Preservation

64

EPP - Preservation

65

EPP - Ingest

66

EPP – Ingest IPs

67

EPP – Ingest request

68

EPP – Ingest request

69

EPP – List of Ingest requests

70

EPP - Access

71

EPP – List of archived IPs

72

EPP – Access request

73

EPP - Administration

74

EPP - Reports

75

EPP – Delivery report

76

EPP – Events report

77

EPP – Events report

78

EPP - Management

79

EPP - Management

80

EPP – Management – Archive Policy

81

EPP – Management – Archive Policy

82

EPP – Management – Archive Policy

83

EPP – Management – IP Parameters

84

EPP – Management – IP Parameters

85

EPP – Management – IP Parameters

86

EPP – Management – IP Parameters

87

EPP – Management – Log events

88

EPP – Management – Parameters (core)

89

EPP – Management - Parameters

90

EPP – Management - Paths

91

EPP – Management – Worker processes

92

EPP – Management – XML schema

93

ESSArch Preservation Platform

• Mye testing gjenstår.

• En nedlastbar installasjonspakke skal være klar I løpet av juni 2013 – både for ESSArch Tools og for ESSArch Preservation Platform.

• Arkivverket planlegger ikke noen ny fase før høsten 2014/våren 2015.

• Dette gir åpning for andre – KDRS – å få implementert sine ønsker!

94

Spørsmål?

terje.dahl@arkivverket.no

Presentasjon av implementasjonen av ESSArch i Arkivverket

top related