die beispiele google docs und twitter archivieren aus ... · – metadaten (wobei die metadaten,...

21
Archivieren aus Cloud-basierten Systemen: Die Beispiele Google Docs und Twitter 23. Tagung des Arbeitskreises Archivierung von Unterlagen aus digitalen Systemen 12. und 13. März 2019, Nationalarchiv Prag Dr. Tobias Wildi, [email protected] 1

Upload: others

Post on 29-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Archivieren aus Cloud-basierten Systemen:Die Beispiele Google Docs und Twitter

23. Tagung des Arbeitskreises Archivierung von Unterlagen aus digitalen Systemen12. und 13. März 2019, Nationalarchiv Prag

Dr. Tobias Wildi, [email protected]

1

Page 2: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Problemstellung

Produktion und Ablage/Speicherung von Daten• geschieht zunehmend in cloudbasierten Systemen ohne direkten Zugriff auf

den Speicher

Archivierung• Ziel ist die applikationneutrale Nutzbarhaltung von Daten und Metadaten über

viele Generationen von Hardware und Software hinweg

Problemstellung• Überführung von Daten/Metadaten aus cloudbasierten Systemen in die

kontrollierte Umgebung “Archiv”

2

Page 3: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Produktion von Daten hat sich in Cloud-Anwendungen verschoben

• In der Schweiz sind bereits heute eine ganze Reihe von GEVER (elektronische Geschäftsverwaltung)-Systeme in Betrieb, die in der Cloud laufen oder zumindest über den Browser bedient werden. Auswahl:– Acta Nova (Rubicon) (On Premise)– BrainConnect (BrainConnect) (SaaS)– eGeKo (Ategra) (SaaS)– OneGov (4teamwork) (SaaS oder On Premise)

• Office/Mail-Applikationen wandern ebenfalls in die Cloud ab:– Microsoft Office 365– Google Apps

• Social Media ist komplett Cloud-basiert:– Twitter– Instagram– LinkedIn– Facebook

• Weitere Systeme entschliessen sich zu Strategien in Richtung Cloud:– Alma (Ex Libris)– MuseumPlus (Zetcom)

3

Page 4: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

• Preservation-System brauchen Zugriff auf den Datenstrom. Das ist heute nicht mehr sichergestellt. Die Daten befinden sich in “Walled Gardens” (von Mauern umgebenen Gärten).

• Was ist eine «Datei» in einem Cloud-basierten System?– Google Docs: Es gibt kein “Google Docs Format”. .gdoc, .gsheet: Enthalten

lediglich eine URL im JSON-Format– Social Media: Es gibt kein Dateiformat für “Posts”– Dateien sind in diesen Systemen nur noch Metaphern, aber keine Objekte mehr.

• Daten müssen für die Archivierung aus den “Walled Gardens” überführt in Preservation Systeme:– Verfügungshoheit und Kontrolle über Daten und Metadaten– Bestimmungsrecht über Daten- und Metadatenformate (Voraussetzung für Preservation

Planning und -Actions)– Verwaltung von Rechten, Authentifizierung von Benutzern– Nutzbarmachen der Daten und Metadaten über geeignete Schnittstellen

Die Herausforderungen verschieben sich

4

Page 5: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

5

Cloudbasierte Dienste verschwinden,Daten sind flüchtig

https://killedbygoogle.com/

Page 6: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Beispiel Google Docs

• Google REST API: Einschränkungen für den Datenexport• Welche Eigenschaften des Dokuments werden in die exportierte Datei

überführt?• Die exportierte Version wird im Preservation System trotz Unvollständigkeit zum

Original

6

Page 7: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

7

Page 8: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

8

Versionsgeschichte,Änderungsprotokoll

Page 9: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

9

Page 10: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

10

docxWord

Page 11: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

11

odtLibre Office

Page 12: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

12

Google Docs

• Erhalten bleiben– Informationswert– Bilder / Grafiken werden mitgeliefert– Überarbeitung, Änderungsvorschläge

• Informationsverlust– Entstehungsgeschichte– Seitenlayout, Seitengrösse– “Accessibility Info”: Tags für Screenreader etc. gehen je nach Dateiformat verloren.

Export nach PDF ist problematisch.• Mögliche Fehlerquellen

– Google-Schrifttypen, die auf Windows/OSX/Linux nicht vorinstalliert sind

Page 13: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Beispiel Twitter

• Twitter-API lässt ein Download zu– Ohne Authentifizierung der öffentlichen Tweets eines Users (Angabe der eigenen

Identität über einen Token).– Im JSON-Format

• Rückwärts können die letzten ca. 3200 Tweets heruntergeladen werden.• Über die Twitter-API ist möglich

– Benutzer-basierte Archivierung von Tweets– Event-basierte Archivierung von Tweets über Suche (API kostenpflichtig)

13https://developer.twitter.com/en/docs/tweets/timelines/api-reference/get-statuses-user_timeline.html

Page 14: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Automatisierte Twitter-Archivierung:http://ginger.docuteam.ch

- Die neuen Tweets von vorkonfigurierten Twitter-Handles werden täglich in eine lokale Datenbank geschrieben

- Periodisch (beispielsweise monatlich oder jährlich) werden die Tweets exportiert:

- Texte / Metadaten im CSV-Format- Bilder JPG oder GIF

- Der Ingest-Prozess docuteam feeder überwacht, ob solche Exporte vorliegen und startet entsprechend automatisiert den Ingest.

- Die für das Archiv verantwortliche Person erhält eine Benachrichtigung, wenn ein neuer Twitter-Ingest durchgeführt wurde (oder fehlgeschlagen ist)

14

Page 15: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

15

Page 16: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

16

Export:Tabelle + Bilder

• Post-Inhalt und Metadaten einer bestimmten Zeitperiode in einer Tabelle

• Bilder über relative Pfade verlinkt

Page 17: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Applikationsunabhängige Archivierung:Tabelle + Bilder

17

Page 18: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

18

Twitter-Archivierung

• Erhalten bleiben– Informationswert– Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern)– Bilder

• Informationsverlust– Look and Feel: Die Metapher “Social Media-Post” geht weitgehend verloren. Das

Layout von Twitter müsste über einen Webcrawler (Heritrix und/oder NetArchiveSuite) dokumentiert werden

– Gegenwärtig noch Videos: diese müssen einzeln von den jeweiligen Videoplattformen heruntergeladen werden

– Verhalten, Benutzeroberfläche von Twitter in App oder Browser

Page 19: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Schnittstellen verschwinden

Beispiel Instagram: API für Datenexport wird abgeschalten. Nicht einmal mehr die Daten des eigenen Kontos können exportiert werden.

19https://www.instagram.com/developer/

Page 20: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Fazit:Schnittstellen sind die neuen Dateiformate

• Schnittstellen sind oft sehr schnelllebig, schlecht dokumentiert und werden nicht versioniert.

• Ähnlich problematische Situation wie mit proprietären und unstabilen Dateiformaten bis in die frühen 2000er Jahre.

• Veränderungen finden laufend und oft ohne Ankündigung und ohne Versionierung statt bezüglich– Authentifizierungsmechanismen

– Protokoll

– Exportformate

– Metadaten, die exportiert werden können

– oder die Schnittstelle wird insgesamt mit sehr kurzer Vorwarnung stillgelegt (bsp. Google, Instagram)

• Fehlende oder ungenügende Schnittstellen und Exportmöglichketen bilden momentan die weit grössere Gefahren für Datenverlust wie proprietäre oder obsolete Dateiformate. Denn das Archiv hat keinen Zugriff mehr auf den Bitstream.

20

Page 21: Die Beispiele Google Docs und Twitter Archivieren aus ... · – Metadaten (wobei die Metadaten, die über die API übergeben werden, auch ändern) – Bilder • Informationsverlust

Schweiz:Bergungsort für digitale Kulturgüter

• Konzept dhlab Universität Basel (Peter Fornaro) und docuteam (Tobias Wildi) im Rahmen der EKKGS (Eidgenössische Komission für Kulturgüterschutz) 2018.

• Heute: Mikrofilmarchiv Heimiswil als wichtige Infrastruktur für die vertrauenswürdige, langfristige und kostentransparente Sicherung der Dokumentation von Kulturgut von nationaler Bedeutung

• Zukünftig: Der digitale Bergungsort stellt eine Kombination aus Prozess- und Schnittstellendefinitionen gepaart mit einer Speicherinfrastruktur dar. Die Ablieferungsprozesse und technischen Schnittstellen sind klar definiert, offengelegt und soweit möglich standardbasiert.

• Pilotprojekt 2019 unter Verantwortung dhlab Uni Basel• Enger Austausch mit dem Fachbereich “Schutz kritische Infrastrukturen”

des BABS (Bundesamts für Bevölkerungsschutz). Umsetzung des IT-Sicherheitsstandards für Cyberrisiken auf den Teilbereich Kulturgüter.

• Geplant ist eine nationale Konferenz zu diesem Thema im März 2020.

21