digitalisierte zeitungen und digital humanities - probleme und chancen

Digitalisierte Zeitungen & die Digital Humanities – Probleme und Chancen Europeana Newspapers Information Day 16. Oktober 2014, Wien, ÖNB Clemens Neudecker, Staatsbibliothek zu Berlin @cneudecker

Upload: cneudecker

Post on 25-Jun-2015




0 download


Europeana Newspapers Information Day, 16 October 2014, Vienna, Austria


Page 1: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

Digitalisierte Zeitungen &

die Digital Humanities –

Probleme und Chancen

Europeana Newspapers Information Day

16. Oktober 2014, Wien, ÖNB

Clemens Neudecker, Staatsbibliothek zu Berlin


Page 2: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 2

“Big data?”

Immer größere Mengen an digitalisierten Zeitungen stehen in digitaler Form für die Forschung bereit.

• Chronicling America: 8,148,101 Seiten

• Trove (Australien): 137,247,947 Zeitungsartikel

• ANNO: 13 Millionen Seiten

• Europeana Newspapers: • > 10 Millionen Seiten (Volltexte) • > 18 Millionen Seiten (Metadaten)

Page 3: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 3

Europeana Newspapers: Drei Portale

• Europeana Newspapers Content Browser:

• Europeana Portal:

• Zeitschriftendatenbank:

Page 4: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 4

Neu! Objektpräsentation direkt in der Europeana


Public domain

Neues Interface

für die Objektanzeige

Anzeige in der Digitalen


Page 5: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 5


Page 6: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 6

Nur die Spitze des Eisbergs

Quelle: Enumerate Report,

Page 7: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 7

Wieviel ist insgesamt schon digitalisiert?

Page 8: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 8

Digitalisierte Zeitungen

Quelle: European Newspapers Survey Report

Page 9: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 9

Mission impossible?

Page 10: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 10

Ein kleiner Vergleich…

Geschätzte Kosten für die Digitalisierung sämtlicher Objekte in Bibliotheken, Archiven und Museen:€100 Milliarden

Oder €10 Milliarden/Jahr für die nächsten 10 Jahre!

Das Gesamtbudget für die Entwicklung des „Joint Strike Fighter“ wird auf €40 Milliarden geschätzt. Für die Digitalisierung des Kulturerbes Europas würden ca. 40% der Entwicklungskosten des JSF benötigt.

Quelle: Nick Poole, Collections Trust,

Page 11: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 11


• Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen

• Keine ausreichenden Ressourcen für die vollständige Digitalisierung

• Fehler und Probleme bei der Digitalisierung, z.B.• Schlechte Qualität der OCR• Unvollständige oder fehlerhafte Metadaten• Unterschiedliche Lizenzmodelle• “Copyright Cliff of Death” (@wragge)• Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten)• Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities)

Page 12: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community

Wie also damit umgehen?

• Ist es überhaupt möglich auf dieser Datengrundlage eine repräsentative Aussagen z.B. durch ein „random sample“ zu treffen?



Page 13: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 13

Labs to the rescue?

Pieter Francois, Gewinner der British Library Labs competition 2013 hat sich genau diese Frage gestellt:

“How representative are the historical texts digital humanities scholars study of the overall body of ‘surviving’ texts that are held in the various library collections?”

Page 14: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 14

Was ist “gut genug”?

Digging into Data Project “Trading Consequences”

“Welche Auswirkungen haben OCR Fehler beim Text Mining einer großen Sammlungen von digitalisierten Beständen?”

Page 15: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 15

Statistik, Statistik, Statistik

10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet?

Page 16: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community

Vorbild Trove

API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse statistische Anwendungen & Präsentationsmöglichkeiten:


Trove newspapers word count app

Page 17: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community

Das „Hathi Trust Model“

Hathi Trust Digital Library/Research Center (Aggregator aller US Google-Partner) stellt für durch Copyright geschütze Materialien nur extrahierte „Features“ bereit wie z.B.:

• Wortfrequenz (pro Seite/Überschriften/Fußnoten)

• Anzahl Zeilen/Sätze

• Zeichenanzahl

Darüber hinaus gibt es auch die Möglichkeit über eine geschützte virtuelle Forschungsumgebung (HTRC Sandbox Portal) direkt auf den Servern des HTRC Algorithmen auf den Daten auszuführen.


Page 18: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community 18

Es gibt viel zu tun…packen wir es an!

Page 19: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

Danke für Ihre Aufmerksamkeit!
