ocr renderfarmen und tei - opus 4 · ocr renderfarmen und tei christian mahnke sub göttingen ....
TRANSCRIPT
![Page 1: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/1.jpg)
OCR Renderfarmen und TEI
Christian Mahnke SUB Göttingen
![Page 2: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/2.jpg)
Inhalt
• Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem
• Umsetzung – Server – Formate – Präsentation
• Ausblick
![Page 3: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/3.jpg)
Grundlagen
![Page 4: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/4.jpg)
OCR für die Massendigitalisierung Bisherige Vorgehensweise
• Rohdaten in proprietären Formaten („Stapel“)
• Ergebnisse schwer integrierbar • Manuell via Desktopsoftware (wenig
Automatismen) • Oder: Integration als Programmbibliothek
(Prozessmanagement nicht integriert)
![Page 5: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/5.jpg)
OCR für die Massendigitalisierung Wirkliche Anforderungen
• Skalierbarkeit • Management des Prozesses in größeren
Einheiten • Integrierbarkeit in bestehende
Infrastruktur • Hoher Grad an Automatisierung • Massenverarbeitung
![Page 6: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/6.jpg)
Volltextkodierung
• XML basiert • Offenes Format • Hohe Flexibilität für verschiedenen
Anwendungsszenarien • Bestehende Vokabularien nutzen • Breite Community – hohes Potential für
Nachnutzung
![Page 7: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/7.jpg)
Integration in den Digitalisierungsworkflow
• Keine manuelle Interaktion im Regelfall • Kein Trainingsaufwand für Personal • Priorisierung (Echtzeit OCR für
Metadateneditor vs. OCR als Workflowschritt)
• Kapselung der Details der Orchestrierung (Servicekonzept)
• Steuerbar durch Software (API / Webservices)
![Page 8: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/8.jpg)
Umsetzung
![Page 9: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/9.jpg)
Server (Soft- und Hardware)
• Software – Abbyy Recognition Server 2.0 – Teilung zwischen Management- und
Processingknoten – Keine seitenbasierte Lizenzierung
• Hardware – Cluster aus Bladeservern – Derzeit 16 CPU Kerne
![Page 10: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/10.jpg)
Server (Kommunikation)
• WebDAV Schnittstelle – HTTP basiert (keine Probleme mit Firewalls) – Viele Implementierungen des Protokolls – Nutzbar als Netzlaufwerk
• Steuerung – XML Tickets (erzeugt durch
Programmbibliothek)
![Page 11: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/11.jpg)
Formate
• TEI basiert • Indexformat für einfache Indexierung • Zukünftig: Volltextformat für Nachnutzung
– Geeignet für Erweiterungen wie Annotationen
– Nutzbar für elektronische Editionen
![Page 12: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/12.jpg)
Produktion
• Derzeit: Rekursives abarbeiten von Verzeichnisbäumen
• Zukünftig: Prozesssteuerung als Teil von Goobi
• Indexierung beim Import in das DMS
![Page 13: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/13.jpg)
Präsentation
• Volltexte für die Suche und Wortkoordinaten für die Darstellung
• Index (Lucene) wird durch Typo3 (CMS) abgefragt
• Zukünftig: Darstellung in der Oberfläche • Beispiele
![Page 14: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/14.jpg)
Demo 1
![Page 15: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/15.jpg)
Demo 2
![Page 16: OCR Renderfarmen und TEI - OPUS 4 · OCR Renderfarmen und TEI Christian Mahnke SUB Göttingen . Inhalt • Grundlagen – OCR Server – Volltextkodierung – Integration in Workflowsystem](https://reader033.vdocuments.mx/reader033/viewer/2022042622/5fa5a07ccd404d61f3232be9/html5/thumbnails/16.jpg)
Ausblick
• Goobi – Anbindung des GBV OCR Clusters
• IMPACT – EU Projekt zur Verbesserung von Fraktur
OCR • TextGrid
– Integration von OCRopus