europeana newspapers german infoday - struturelle metadata historische zeitungen

33
Strukturelle Metadaten für historische Zeitungen. Überlegungen zu einem Standardmodell Günter Mühlberger Universität Innsbruck Digitalisierung und elektronische Archivierung

Upload: europeana-newspapers

Post on 11-May-2015

109 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

Strukturelle Metadaten für historische Zeitungen.

Überlegungen zu einem Standardmodell

Günter Mühlberger

Universität Innsbruck

Digitalisierung und elektronische Archivierung

Page 2: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Agenda

• Historische Zeitungen – ein kleiner Streifzug• Warum strukturelle Metadaten?• Konzepte / Standardisierung• Umsetzung im Europeana Newspaper Projekt• Ausblick

2

Page 3: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Wiener Zeitung 1750

3

Page 4: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Insprug, 7. Julii / 29. Juli 1750

4

Page 5: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Lista deren Verstorbenen zu Wien, 1750

5

Page 6: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Wiener Zeitung, 22. Jänner 1800

6

Page 7: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Wiener Zeitung, 22. Jänner 1800

7

Page 8: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Wiener Zeitung, 1800

8

Page 9: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Grundriß der Handlungsgeschichte, 1799

9

Page 10: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Die Presse, 18. Juni 1870

10

Page 11: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Innsbrucker Nachrichten 4. Juni 1870

11

Page 12: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

1925

12

Page 13: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Arbeiterzeitung 2. Juni 1925

13

Page 14: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Beobachtungen

• Zeitung = Neuigkeiten• Lange Reihe von einzelnen Ereignissen

• Ordnung = Zeit und Ort• Bis heute erhalten!

• Grundprinzip = Wiederholung• Makrostruktur bleibt über lange Zeiträume erhalten• Sektionen: Ort des Geschehens als die älteste Überschrift

• Ausdifferenzierungen• Nicht alles lässt sich unter Zeit und Ort subsummieren: inhaltliche und andere Kriterien• Titel (erste Worte eines Artikels, Worte in Klammer, etc.)

• Untertitel, Übertitel, etc.

• Verfasser eines Beitrags• Originalbeitrag, Verfasser,...

• Announcen und Werbung• Unterhaltung / Literarische Beiträge• Meinung• Etc.

14

Page 15: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Warum strukturelle Metadaten?

• Volltextsuche• Treffsicherheit bei der Volltextsuche

• Typische Einheit für Volltextsuche ist derzeit die Ausgabe und Seite – kannpräzisiert werden

• Strukturelle Metadaten als Facetten für die Suche• Treffer in redaktionellem Inhalt hat andere Funktion als in einer Anzeige, Werbung,

etc.• Beispiel (Leonding)• Content Sections

• Crowd Sourcing• Beispiel der Australischen Nationalbibliothek ist bekannt• Was wäre, wenn Nutzer auch diverse strukturelle Metadaten korrigieren

könnten? Abgrenzung Werbung / Inhalt oder “Lista der Verstorbenen”, etc.

• Benutzer müssen angeleitet werden, bzw. die Klassifikation sollte zurVerfügung stehen

15

Page 16: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Wert struktureller Metadaten

• OCR Korrektur• Viele Elemente wiederholen sich und können mit vergleichsweise wenig

Mühe (automatisch) korrigiert werden, da sie ja grundsätzlich bekannt sind • Bsp. Wiederkehrende Überschriften, Orte in Pre-Überschriften• Bsp. Werbeeinschaltungen, die über Jahre hinweg gleich oder sehr ähnlich

sind• Bsp. Regionale Zeitung: OCR Korrektur von allgemeinen Meldungen, die sich

besser und genauer in anderen Zeitungen der Epoche finden, wird weniger Sinn machen, als z.B. die Korrektur der lokalen Nachrichten, die ausschließlich in dieser Zeitung zu finden sind

• Voraussetzung für Natural Language Processing (NLP)• Named Entities Recognition• Topic Mining• Summarization• Verfahren benötigen möglichst klar abgegrenzte inhaltliche Einheiten

16

Page 17: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Wert struktureller Metadaten

• Anreicherung durch Verlinkung mit externen, strukturierten Datenquellen

• Z.B. Buchanzeigen: Machen einen ganz wesentlichen Teil historischer Zeitungen aus – die genannten Titel lassen sich in modernen Bibliothekskatalogen identifizieren

• Detto Theateraufführungen, oder die Liste der Verstorbenen

• Detto Kolportageromane, Gedichte und ähnliches

• Event Detection and Linking• Viele der Content Unit beziehen sich auf Ereignisse, die an anderer Stelle

genauer beschrieben sind: Wikipedia Eintrag, Geschichtsbuch, etc.

• Zusammenführung von Zeitungsartikel mit standardisierter historischer Information

17

Page 18: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Vorschlag für drei einfache Begriffe

• Newspaper Content Units• Klassifikation

• Newspaper Content Sections• Newspaper Structural Elements

18

Page 19: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Newspaper Content Units

• Definition• Kriterium: Inhaltlich!

• In letzer Instanz entscheidet die inhaltliche Definition

• Eigenschaften• Inhaltlich klar abgegrenzte Einheit

• Bsp.: Goldenes Dachl und Maria-Hilf-Gnadenbild

• Definierter Inhalt• Als Abgrenzung gegen Sektionen

• Oftmals dezidierter Verfasser

• Oftmals im Layout abgegrenzt von anderen Einheiten

19

Page 20: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Newspaper Content Section

• Definition• Sind nicht so sehr inhaltliche Einheiten, sondern dienen der

Makro-Gliederung.

• Eigenschaften• Wiederholen sich innerhalb der Zeitung über längere Zeiträume

und tendenziell ad infinito

• Meist im Layout klar abgehoben

• Enthalten (mehrere) inhaltliche Einheiten (NCI) zu dem vorgegeben Thema (Ort, Schlagwort, Kategorie)

20

Page 21: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Newspaper Structural Elements

• Definition• Strukturelle Elemente werden durch ihre Funktion definiert – nicht

aber durch ihren Inhalt.

• Ihre Funktion liegt darin, dass sie dem Leser bei der Navigation, beim Verständnis, etc. helfen, die Zeitung (in Papierform) einfacher zu benutzen.

• Eigenschaften• Sind immer Teil einer Newspaper Content Section oder Items.

• Sie fügen dem Inhalt zusätzliche Funktionen hinzu• Bsp.: Titel: Früher gab es keine Titel von Artikeln, erst mit zunehmender

Größe der Seite, Mehrspaltigkeit, etc. war es nützlich dem Leser zu vermitteln wo die nächste inhaltliche Einheit beginnt und worüber sie handelt.

21

Page 22: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Daumenregeln

• Wenn man eine historische Zeitung oder einen Artikel in ein eBook konvertieren würde, dann

• wären Newspaper Content Sections “Schlagworte” “Kategorien” unter denen man den Inhalt finden würde

• bliebe der Text eines Newspaper Content Items unverändert,

• würde man Struktural Elements für die nähere Beschreibung (Metadaten) bzw. für das neue Layout nützen, jedoch immer verändern.

22

Page 23: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

NCU - Klassifikation

• Klassifikation• Wir haben ein unmittelbares Gefühl: Artikel, Wetterbericht,

Börsenbericht, Buchbesprechung, Werbung, Wohnungsverkauf, Mietgesuch, etc.

• These: 80% der NCUs lassen sich einfach zuordnen

• Kriterien• Was “bewirkt” ein NCU beim Leser?

• Bessere Informiertheit? Unterhaltung?...

23

Page 24: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Texttypen - Klassen

• Fünf Klassen• Information

• Anzeigen (classified advertisement) und Werbung

• Unterhaltung

• Meinung

• Metainformation

• Historischer Ausdifferenzierungsprozess

24

Page 25: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Information

• Information• Das wichtigste Konzept

• Neueste Nachrichten

• Der Leser sollte nachher “besser informiert” sein als vorher.

• Beispiele• Artikel, Hintergrundartikel, Kurzartikel, aber auch Wetterbericht,

Börsennotizen, etc.

25

Page 26: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Advertisement

• Anzeigen/Werbung• Im englischen Sprachraum “classified advertisement” und

“advertisement” zusammengefasst

• Historisch gesehen relativ bald entstanden

• Typischerweise Information, die nicht direkt aus der Redaktion kommt und für die der Verfasser zahlen muss

• Der Leser wird nicht nur informiert, sondern aufgefordert eine bestimmte Handlung zu setzen: Ein Produkt zu kaufen, eine Wohnung zu besichtigen, sich auf ein Stellenangebot zu melden, an einem Begräbnis teilzunehmen, etc.

26

Page 27: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Entertainment

• Unterhaltung• Eine Kategorie, die offenbar erst im Laufe des 19. Jahrunderts

Einzug in die Zeitung hält.

• Kolportageroman als das bekannteste Beispiel, starke Ausdifferenzierung.

• Der Leser soll emotional involviert werden, das bedeutet nicht unbedingt “oberflächliches Amusement” sondern kann eben auch die Liebesgeschichte, der Aphorismus, ein Gedicht sein

27

Page 28: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Opinion

• Meinung• Klare Abgrenzung Information – Meinung ist ein Dogma der

modernen Zeitung, allerdings historisch gesehen sehr spät erfolgt.

• Feuilleton als das bekannteste Beispiel aus dem 19. Jahrhundert

• Leser soll in seinen Werthaltungen gefordert werden. Zustimmung oder Ablehnung als die intendierten Verhaltensweisen

• Beispiele wären Kommentare, Leitartikel, aber auch Leserbriefe, etc.

28

Page 29: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Metainformation

• Metainformation• Kleine Kategorie, aber das Impressum oder die Richigstellung, etc.

können sonst eigentlich nicht subsummiert werden

• Wo spricht die Zeitung sozusagen über sich selbst?

29

Page 30: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Beispiel

30

Innsbrucker Nachrichten, 4 Juni 1870

Page 31: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Umsetzung in METS/ALTO

• ENMAP• Strukturelle Metadaten vs. deskriptive Metadaten

• Autor, Titel, Untertitel, Ort der Handlung, dazugehöriges Bild und Bildunterschrift, etc. sind “normale” bibliographische MD

• Sollten in METS DMD abgebildet werden, dort MODS als Schema

• Daumenregel: bibliographische MD sollten verläßlich sein (manuelleErfassung oder Korrektur)

• Sollten nur für NCU erstellt werden.

• Strukturelle Elemente• Logische StructMap in METS enthält NCUs und NCS als die wichtigsten

Gliederungselemente, diese sind verlinkt mit der DMD Section.

• Strukturelle Elemente finden sich in der StructMap gelistet.

31

Page 32: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Ausblick

• ENP interner Workshop in Innsbruck• Praxistest

• Probe, ob diese Kategorien auch für andere Länder und Sprachen verwendet werden können, bzw. wie robust die Definitionen etc. sind

• Geplant: Workshop zur automatisierten Erkennung struktureller Metadaten

• Ende 2014

• In Vorbereitung

• Veröffentlichung zum Thema

32

Page 33: Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

Vielen Dank für die Aufmerksamkeit!

lGünter Mühlberger <[email protected]>