ocr workshop - kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • medieval...

41
<philtag n="13"/> OCR Workshop 25.02.2016 Marco Dittrich, Felix Kirchner

Upload: others

Post on 31-Dec-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

<philtag n="13"/>

OCR Workshop

25.02.2016 Marco Dittrich, Felix Kirchner

Page 2: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Tagesordnung

13:40 Digitalisate 14:00 Glyphen 14:15 Glyph Miner 14:45 Pause 15:00 Aletheia 15:45 Franken+ 16:30 VietOCR

25.02.2016 Marco Dittrich, Felix Kirchner 2

Page 3: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

OCR Workflow

25.02.2016 Marco Dittrich, Felix Kirchner 3

Erzeugung der

Digitalisate

Bildvorver-arbeitung

Erfassung der Glyphen / Zeichen

OCR TrainingEvaluation OCR Erkennung

Page 4: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

OCR Workflow

25.02.2016 Marco Dittrich, Felix Kirchner 4

Erzeugung der

Digitalisate

Bildvorver-arbeitung

Erfassung der Glyphen / Zeichen

OCR TrainingEvaluation OCR Erkennung

Page 5: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Erstellung der Digitalisate

Anforderungen:– Scanauflösung: mind. 300 DPI– Ausgerichtete Aufnahme– Verzerrungsfreie Aufnahme:

• Kein Umbug im Buchfalz• Keine Wellen im Papier

25.02.2016 Marco Dittrich, Felix Kirchner 5

Page 6: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

OCR Workflow

25.02.2016 Marco Dittrich, Felix Kirchner 6

Erzeugung der

Digitalisate

Bildvorver-arbeitung

Erfassung der Glyphen / Zeichen

OCR TrainingEvaluation OCR Erkennung

Page 7: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Bildvorverarbeitung

25.02.2016 Marco Dittrich, Felix Kirchner 7

Problemstellung:– Automatische

Entzerrung und Rotation– Automatische

Binarisierung– Entfernung von

Bildstörungen– Segmentierung

komplexer Layouts– Beibehaltung der

Lesereihenfolge

Page 8: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Bildvorverarbeitung: Manuell

Bildbearbeitungsprogramme,z.B. IrfanView

– Vorteile: kostenlos, einfach zu bedienen, volle Kontrolle durch den Nutzer

– Nachteile: zeitaufwändig, keine Entzerrung und Rotation

25.02.2016 Marco Dittrich, Felix Kirchner 8

Page 9: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Bildvorverarbeitung: Automatisch #1Nicht-kommerziell, z.B. ScanTailor• Vorteile:

– OpenSource und Plattform-unabhängig– halbautomatische Entzerrung, Rotation

und Beschnitt– Binarisierung mit Entfernung von

Bildstörungen wie Flecken und Rauschen

25.02.2016 Marco Dittrich, Felix Kirchner 9

Page 10: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Bildvorverarbeitung: Automatisch #2

• Nachteile:– Automatik-Funktionen liefern teilweise

falsche Ergebnisse– Komplexere Layouts schwer erfassbar– Nachkontrolle durch den Nutzer

notwendig

25.02.2016 Marco Dittrich, Felix Kirchner 10

Page 11: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Bildvorverarbeitung: ScanTailor #1

25.02.2016 Marco Dittrich, Felix Kirchner 11

Page 12: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Bildvorverarbeitung: ScanTailor #2

25.02.2016 Marco Dittrich, Felix Kirchner 12

Page 13: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Bildvorverarbeitung:ScanTailor vs. Abbyy FineReader

25.02.2016 Marco Dittrich, Felix Kirchner 13

Page 14: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Segmentierung von Drucken

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 14

Christian ReulProf. Dr. Frank PuppeLehrstuhl für Künstliche Intelligenz und Angewandte Informatik

Page 15: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Motivation und Konzept

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 15

Einfache, schnelle Segmentierung ausgewählter Werke. Verschiedene Narrenschiff-Ausgaben. Der neue/praktische Schulmann.

Anwendung grundlegender Methoden aus der Bildverarbeitung.

Aufzeigen und Lösen/Umgehen der Probleme, die bei einem simplen Ansatz auftreten.

Tool zur einfachen Korrektur einer fehlerhaften Lösung.

Page 16: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Schematischer Ablauf

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 16

Page 17: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Vorverarbeitung und Bilddetektion

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 17

Zuschneiden und Ausrichten (Uni-Bibliothek).

(Temporäre) Skalierung auf einheitliche Größe.

Binärisierung nach Otsu. Bilddetektion und -

entfernung durch Konturfindung.

Binärdarstellung. Bild und Initiale entfernt.

Page 18: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Klassifikation von Textabschnitten

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 18

Verbundene Textregionen. Finale Segmentierung.

Verbinden von Regionen durch Schließen von Zwischenräumen.

Klassifikation anhand von Größe und Position.

Kategorien: Paragraph Überschrift Marginalie Seitennummer …

Page 19: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Beispielsegmentierungen

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 19

Narrenschiff GW5060, Lyon 1499. Der praktische Schulmann, 1932 - Heft 6.Narrenschiff GW5048, Straßburg 1494.

Page 20: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Tool zur manuellen Nachbearbeitung

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 20

Anzeigen des Bildes und der zugehörigen Segmentierung (PageXML).

Löschen, Hinzufügen und Ändern von Regionen.

Abspeichern der einzelnen Regionen und der zugehörigen PageXML-Datei.

Page 21: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Probleme und Lösungsansätze beider Segmentierung von Drucken I

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 21

Verunreinigungen der Ausgangsbilder. Allgemeingültige Lösung schwierig. Oft durch simple Nachbearbeitung

behebbar. Mit diesem Ansatz keine verlässliche

Bilddetektion möglich. Bisher lediglich Orientierung an der

äußeren Begrenzung des Bildes. Fehldetektionen können die

Segmentierung der gesamten Seite quasi unbrauchbar machen.

Page 22: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Probleme und Lösungsansätze beider Segmentierung von Drucken II

25.02.2016 Christian Reul, Prof. Dr. Frank Puppe 22

Beschränkte Generalisierbarkeit durch starke Parametrisierung. Nachteil: Manueller Aufwand.

→ Unterstützung denkbar durch: (Halb)automatische Parameteroptimierung durch iterativen Ansatz. Interaktive Festlegung (z. B. Konfiguration anhand von Beispielseite).

Vorteil: Individuell anpassbar.

Fazit: Sehr fordernde Aufgabe, obwohl für den Menschen trivial. Selbst ein simpler Ansatz kann gute Ergebnisse liefern. Qualität stark abhängig vom zu segmentierenden Werk. Universallösung mit simplen Methoden unmöglich.

Page 23: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

OCR Workflow

25.02.2016 Marco Dittrich, Felix Kirchner 23

Erzeugung der

Digitalisate

Bildvorver-arbeitung

Erfassung der Glyphen / Zeichen

OCR TrainingEvaluation OCR Erkennung

Page 24: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Glyphen #1

• Frühe Drucke beinhalten häufig eine Vielzahl an Sonderzeichen:– Ligaturen– spezielle Abkürzungen– Vokale mit Diakritika

25.02.2016 Marco Dittrich, Felix Kirchner 24

Page 25: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Glyphen #2• Die Sonderzeichen sollten für eine

1:1 Übertragung bei der OCR weitestgehend erhalten bleiben:– Kein Vorgreifen auf eine

wissenschaftliche Auswertung– Abkürzungen können kontextabhängig

sein– Ligaturen können Wortgrenzen

verdeutlichen

25.02.2016 Marco Dittrich, Felix Kirchner 25

Page 26: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Glyphen - MUFI

• Medieval Unicode Font Initiative (MUFI):– Internationales Projekt zur Kodierung

spezieller lateinischer Zeichen im Unicode Standard

– Verwendet die sog. Private Use Area des Unicode-Standards

25.02.2016 Marco Dittrich, Felix Kirchner 26

Page 27: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Glyphen - Typenrepertorium

• Typenrepertorium der Wiegendrucke:– beinhaltet die Typeninventare von ca.

2000 Offizinen (nicht vollständig)

25.02.2016 Marco Dittrich, Felix Kirchner 27

Page 28: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Glyphen - Typeninventar

• Ziel: Erfassung (möglichst) aller Schriftarten und Zeichen einer Offizin bzw. eines Druckers

• Beispiel: Bergmann von Olpe (Basel)– Type 1:109R, 2:180G, 3:77R, 4:220G,

5:109G

25.02.2016 Marco Dittrich, Felix Kirchner 28

Page 29: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Glyphen – Übertragbarkeit #1• Annahme: Wurde die OCR für alle

Typen eines Druckers trainiert, können alle Werke dieser Offizin per OCR verarbeitet werden.

• Beispiel: – 5 von 8 Typen der Offizin Bergmann

von Olpe können mit nur 2 Werken trainiert werden.

25.02.2016 Marco Dittrich, Felix Kirchner 29

Page 30: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Glyphen – Übertragbarkeit #2

25.02.2016 Marco Dittrich, Felix Kirchner 30

Page 31: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Glyph Miner• Ziel: Effiziente Erfassung von

Glypheninventaren (mit Beispielen)

• Entwickelt an der Uni Würzburghttps://github.com/benedikt-budig/glyph-miner

25.02.2016 Marco Dittrich, Felix Kirchner 31

Page 32: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Aletheia• Entwickelt von PRImA (Pattern

Recognition & Image Analysis Research Lab)

• University of Salford, Manchester• http://www.primaresearch.org/tools/Al

etheia

25.02.2016 Marco Dittrich, Felix Kirchner 32

Page 33: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Aletheia

• Ziel: PAGE-XML (2010)

25.02.2016 Marco Dittrich, Felix Kirchner 33

Page 34: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Aletheia

Lite Pro

• Binarisierung• Schmutzentfernung• Manuelle Zuweisung

• Binarisierung• Schmutzentfernung• Automatische Erkennung

(Regionen, Zeilen, Wörtern, Glyphen)

25.02.2016 Marco Dittrich, Felix Kirchner 34

http://www.primaresearch.org/tools/Aletheia/Editions

Page 35: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

OCR Workflow

25.02.2016 Marco Dittrich, Felix Kirchner 35

Erzeugung der

Digitalisate

Bildvorver-arbeitung

Erfassung der Glyphen / Zeichen

OCR TrainingEvaluation OCR Erkennung

Page 36: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

Franken+

25.02.2016 Marco Dittrich, Felix Kirchner 36

• Entwickelt vom eMOP (Early Modern OCR Project)

• Texas A&M University• http://emop.tamu.edu/outcomes/Fra

nken-Plus

Voraussetzungen:• .NET Framework• MySQL• Tesseract

Material:• PAGEXML• Ground Truth in

Textform

Page 37: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

25.02.2016 Marco Dittrich, Felix Kirchner 37

Arbeitsschritte Franken+

1. Font und Language erstellen2. Glyphen (PAGEXML) importieren3. Font bearbeiten4. Synthetischen Text erstellen5. Language trainieren

Page 38: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

OCR Workflow

25.02.2016 Marco Dittrich, Felix Kirchner 38

Erzeugung der

Digitalisate

Bildvorver-arbeitung

Erfassung der Glyphen / Zeichen

OCR TrainingEvaluation OCR Erkennung

Page 39: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

VietOCR

25.02.2016 Marco Dittrich, Felix Kirchner 39

Page 40: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

OCR Workflow

25.02.2016 Marco Dittrich, Felix Kirchner 40

Erzeugung der

Digitalisate

Bildvorver-arbeitung

Erfassung der Glyphen / Zeichen

OCR TrainingEvaluation OCR Erkennung

Page 41: OCR Workshop - Kallimachoskallimachos.de/kallimachos/images/kallimachos/6/65/... · • Medieval Unicode Font Initiative (MUFI): – Internationales Projekt zur Kodierung spezieller

TextEvaluation

25.02.2016 Marco Dittrich, Felix Kirchner 41