oais-konforme anwendung von tools am beispiel der ... · pdf filedie konzeptuelle struktur der...

20
OAIS-konforme Anwendung von Tools am Beispiel der Archivierung von Datenbanken Zoltán Lux Ungarisches Nationalarchiv [email protected] http://www.mnl.gov.hu 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Upload: ngothien

Post on 15-Feb-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

OAIS-konforme Anwendung von Tools am Beispiel der Archivierung

von Datenbanken Zoltán Lux

Ungarisches Nationalarchiv [email protected] http://www.mnl.gov.hu

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 2: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Archivierung von Datenbanken Die Probleme

• Was ist der Kontext der Daten?

• SIARD Pakete -> AIP -> Digitales Magazin

• Suche nach relevante Daten.

• Wie sollen die Ergebnisse der Suche gezeigt werden.

Suche nach Lösung

• Digitale Archivierungsystem in Betrieb bei NAH

• E-ARK Projekt – Entwickelte oder weiterentwickelte Tools und Standarden

• Pilot Projekt(en) in E-ARK Projekt

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 3: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Über das E-ARK Projekt Das Ziel des Projektes

• Die Harmonisierung der derzeit fragmentierten Archiv Ansätze.

• Ausarbeten umfassende Methoden für die elektronische Archivierung von Dokumenten.

• Technische Lösungen für Ingest, Archivierung und Wiederverwendung.

• Synthetisierung bestehende nationale und internationale Best Practices durch Pilot Projekten.

http://www.eark-project.com/

(Január, 2014 – Január, 2017)

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 4: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Über das E-ARK Projekt. Partners

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Participant organisation name Country

University of Portsmouth Higher Education Corporation

Moved to the University of Brighton (int he end of 2015)

UK

AIT Austrian Institute of Technology GmbH Austria

Arhiv Republike Slovenije: Ministrstvo za izobraževanje, znanost in šport Slovenia

DLM Forum Foundation UK

Statens Arkiver: The Danish National Archives Denmark

Digital Preservation Coalition Ltd. UK

Universität zu Köln Germany

Instituto Superior Técnico Portugal

National Archives of Hungary Hungary

Rahvusarhiiv: The National Archives of Estonia Estonia

Arkivverket: National Archival Services of Norway Norway

ES Solutions Sweden

KEEP SOLUTIONS LDA Portugal

Magenta ApS Denmark

Agência para a Modernização Administrativa IP Portugal

Ministerio de Hacienda y Administraciones Pública Spain

Page 5: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Über das E-ARK Projekt Workpackages

• WP1 (Project Coordination)

• WP2 (Use Cases & Pilots)

• WP3 (Transfer of Records to Archives) - SIP

• WP4 (Archival Records Preservation) - AIP

• WP5 (Archival Records Access Services) - DIP

• WP6 (Archival Storage, Services and Integration) – Integrated Prototype

• WP7 (Evaluation & Assessment)

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 6: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Über das E-ARK Projekt Einige wichitige Ergebnisse des Projektes

• E-ARK IP, SIP, AIP, DIP, (SADIP) Specifikation

• SIARD 2.0 (-> SIARD-E)

• E-ARK Tools (Neue und weiterentwickelte Tools)

• Integrated Prototype (Big Data Infrastuktur)

• Lokale Implementationen

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 7: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Konzeptuelle Struktur der Informationspakete

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Common Specification, OAIS Information Packages’ specifications und Content Type Specifications • Die folgende 3-Schicht Abbildung zeigt die gemeinsame

Spezifikation als Grundlage, an deren Spitze die SADIP Erweiterungen eingebaut sind. Jedes enthält eine der vier Arten von Inhaltsprofilen.

Page 8: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Die konzeptuelle Struktur der E-ARK Informationspakete

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 9: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Vollständige Ordnerstruktur der E-ARK Informationspakete

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 10: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

DIP DIP-Datenmodell und physikalische Ordnerstruktur

• Definition Die E-ARK DIP hängt stark von der Art des Inhalts, der sie hält, ab. Der E-ARK DIP entspricht somit dem Inhaltstyp spezifischen Zugriffsszenarien, die mehrere Elemente wie beispielsweise die Software kombinieren kann, die zum Speichern und Zugreifen auf die Metadaten und die Daten eines IP verwendet wird.

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

DIP-Spezifikation für Inhaltsdatentypen und Rendering-Szenarien: • Einzelne Rekord, z.B. von ERMS (z. B. PDF, TIFF) • Datenbanken • GEO-Daten • Datasets für data mining (z.B. in OLAP Würfel)

Page 11: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

SIARD 2.0

Die Version 1.0 des SIARD-Format wurde 2007 von Enter AG für das Schweizerische Bundesarchiv entwickelt. Es wurde im Jahr 2013 als Standard eCH-0165 homogenisiert. Diese Version 2.0 basiert auf der Version 1.0 und definiert ein Format, das mit Version 1.0 abwärtskompatibel ist.

Version 2.0 wurde gemeinsam von den Schweizerischen Bundesarchiv , der Schweizerischen Koordinationsstelle für Dauerhafte Archivierung elektronischer Unterlagen (KOST) und das EU-Projekt E-ARK entwickelt.

(Und es ist schon im DPTK implementiert.)

Die wichtigsten Neuerungen sind:

• Aktualisieren von SQL: 1999 Unterstützung für SQL: 2008-Unterstützung.

• Unterstützung für alle SQL: 2008-Typen, insbesondere benutzerdefinierte Datentypen (UDT),

• Deutlichere Validierungsregeln für Datentypdefinitionen mit regulären Ausdrücken,

• Kleine Änderung der Definition, wenn zeigt Inline zum Speichern großer Objekte als Teil der XML Tabelle,

• Unterstützung für große Objekte außerhalb der SIARD Datei speichern mit "file:" URIs,

• Unterstützung für “deflate” als Compression Mechanismus.

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 12: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

E-ARK Tools Component Name Workflow Component of Developer

Catalogue ICA-AtoM 9. Access Stand-alone Third party

Celery

HBASE

HDFS

AIP2DIP AIP2DIPPil7 8. Storage-Access Integrated prototype AIT

Lily Lily 8. Storage-Access Integrated prototype AIT

Order form Order form 9. Access Stand-alone MAG

Order Management Tool OMT 9. Access Stand-alone MAG

Order.xml Order.xml 9. Access Stand-alone MAG

SolR 9. Access Integrated prototype AIT

RDBMS to SIARD 2 DBPTK 3. Pre-Ingest DBPTK KEEPS

ERMS to SMURF Export Module 3. Pre-Ingest Stand-alone MAG

SIP Creation tool RODA-In 4. Pre-ingest-Ingest RODA KEEPS

SIP Creation tool ETP 4. Pre-ingest-Ingest EPP ESS

SIP Creation tool UAM 4. Pre-ingest-Ingest Stand-alone

Database viewer Sofia 9. Access Stand-alone MAG

EDRMS viewer Alfresco 9. Access Stand-alone MAG

Geodata viewer QGIS 9. Access Stand-alone NAS

Geodata viewer Peripleo 9. Access Stand-alone NAS

OLAP viewer Oracle 9. Access Stand-alone Brighton

IP viewer IP viewer 2. All Stand-alone MAG

SIARD-RDBMS SIARD-DK 9. Access DBPTK MAG

SIARD-RDBMS SIARD1.0 9. Access DBPTK KEEPS

SIARD-RDBMS SIARD2.0 9. Access DBPTK KEEPS

Geodata Access format QGIS 9. Access Stand-alone NAS

Geodata Access format Peripleo 9. Access Stand-alone NAS

Geodata Access format QGIS 9. Access Stand-alone NAS

Moreq-Alfresco 9. Access Stand-alone MAG

SIARD-OLAP 9. Access Stand-alone Brighton

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Page 13: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Das Pilotprojekt bei NAH • Local System in Betrieb

– ScopeArchiv – SDB/Preservica – Oracle RDBMS, APEX, BI – SIPKA, BÜRKE – Standalone-Anwendungen

• E-ARK Infrastructure – Tools – Integrated Prototype (Big Data Infrastructure)

• Szenarien

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Scenario 1 SIP Creation and Ingest of old (not normalized) database in SIARD 2.0 format Scenario 2 SIP Creation and Ingest of unstructured files

Scenario 3 Extract SIARD Package from Preservica/E-ARK AIP (APEX/Oracle BI access)

Scenario 4 Search and present SIARD based information with E-ARK access tools (HADOOP based search and access with HIVE Presentation in local environment)

Scenario 5 Access information from unstructured files (Access PDF documents and image files with EAD metadata as Preservica/E-ARK DIP)

Page 14: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Das Pilotprojekt bei NAH

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

• Wie können wir die Lesbarkeit und Datenaufbewahrung gewaahrleisten im Fall von Datenbanken?

• Wie können wir die Verstaandlichkeit, Überschaubarkeit und Nutzbarkeit der Daten bewahren?

• Gibt es neue Möglichkeiten, Archivierung von Daten zu entdecken? Können wir komplexe Suchvorgänge oder Google-type Suche implementieren?

Page 15: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Das Pilotprojekt bei NAH Fragen zu untersuchen

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

• Wie kann die Geschäftslogik der Daten bewahrt/archiviert werden. • Wie kann die häufige geschäftliche Nutzung der Daten bewahrt werden. • Wie wissen noch nicht was die zukünftige Nutzer nach vielen Jahren suchen

möchten. • Wie sollen und mit welchen Tools die Daten in DIP an den Benutzer angezeigt

werden? • Dokumentation • Denormalisierung der Tabellen • Wenn soll der archivierende Datenbank denormalisiert werden?

– SIP -> AIP – AIP -> DIP

• Mit welchen Tools? • Kann es autumatisch geleistet werden? Bis welche Stufe? • OLAP Würfel

– Wie kann OLAP Würfel archiviert werden – Wie kann archivierte OLAP Würfel an den Benutzer angezeigt werden?

Page 16: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Das Pilotprojekt bei NAH

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

• Realtionale Datenbank

– Elektronische Registrierung Buch von Ungarische Staatsanwälte

• SIARD Format, 1.0, 2.0

– SIARD SUITE

– Database Preservation Toolkit (DPTK)

• SIP, AIP, DIP

Page 17: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Das Pilotprojekt bei NAH SIP/AIP

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

• SIARD Pakete

• Elev SIP Creator -> SDB

• XIP -> SDB

• RODAIn -> E-ARK SIP -> Integrated Prototype

• Integrated Prototype SIP Crataor -> E-ARK SIP - Integrated Prototype

Page 18: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Das Pilotprojekt bei NAH AIP/DIP

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

• Suche (SDB, Integrated Prototype)

• SIARD Pakete

• Erstellung der DIP Paket

– Selektion der relevante Daten

– Anonymisierung

– Rendering / Zeigen

Page 19: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

Das Pilotprojekt bei NAH DIP

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

• SIARD Pakete in SDB und in Integrated Prototype

• Metadatden in XML File

• SIARD Browser

• (oder) DPTK -> Oracle RDBMS – APEX Anwendung Software

• Vorgefertigte Reports

• Möglichkeit weitere Reporten zu definieren

– Oracle BI • Data Warehouse

• OLAP

Page 20: OAIS-konforme Anwendung von Tools am Beispiel der ... · PDF fileDie konzeptuelle Struktur der E-ARK ... Catalogue ICA-AtoM 9. Access Stand-alone ... (HADOOP based search and access

20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016

Vielen Dank für Ihre Aufmerksamkeit