digitalisierungspraxis - pichler - abbyy

10
OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im Bibliotheksumfeld Bibliotheksumfeld Bibliotheksumfeld Bibliotheksumfeld Bibliotheksumfeld Bibliotheksumfeld Bibliotheksumfeld Bibliotheksumfeld Markus Pichler Markus Pichler Markus Pichler Markus Pichler Product Marketing Manager ABBYY Europe GmbH [email protected]

Upload: mdz-bsb

Post on 05-Dec-2014

1.393 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Digitalisierungspraxis - Pichler - Abbyy

OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software OCR Software –––––––– Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte Automatisierte

hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im hochskalierbare OCR im

BibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeldBibliotheksumfeld

Markus PichlerMarkus PichlerMarkus PichlerMarkus PichlerProduct Marketing Manager

ABBYY Europe GmbH

[email protected]

Page 2: Digitalisierungspraxis - Pichler - Abbyy

Die ABBYY Gruppe

ABBYY ABBYY ABBYY ABBYY –––– das Unternehmen:das Unternehmen:das Unternehmen:das Unternehmen:

• > 800 Mitarbeiter weltweit

• > 400 Entwickler in der Zentrale

• Gegründet 1989 in Moskau, Russland

FFFFüüüührender Anbieter von:hrender Anbieter von:hrender Anbieter von:hrender Anbieter von:

• Software für Texterkennung und Dokumentenkonvertierung(OCR, ICR, OBR und OMR)

• Data Capture zur Formular- sowie Freiformerkennung zur Verarbeitung geschäftskritischer Dokumente (Rechnungen, Lieferscheine, Anträge etc.)

• Übersetzungs- sowie Sprachensoftware (Wörterbücher und Übersetzungsservices)

Page 3: Digitalisierungspraxis - Pichler - Abbyy

Serverbasierte OCR und Dokumenten-

Konvertierung

Hochskalierbare und automatisierte OCR-

Umwandlung für Volltextsuche und -erschließung

Läuft als Service und kann von allen Abteilungen

genutzt werden

Unterstützung für die Erkennung von historischen

Schriften und Fraktur

Was macht ABBYY Recognition Server?

Page 4: Digitalisierungspraxis - Pichler - Abbyy

Automatische, zentralisierte Verarbeitung� Automatisierte Server Software Automatisierte Server Software Automatisierte Server Software Automatisierte Server Software für OCR

sowie zur PDF Umwandlung

� Konvertiert gescannte Dokumente, Bilder und PDF in Dateien, die editiert, indexiert sowie durchsucht werden können.

� Wandelt gescannte Dokumente oder Bilder in durchsuchbare PDFs

� Zentrale Verarbeitung Zentrale Verarbeitung Zentrale Verarbeitung Zentrale Verarbeitung als Service

� Management und zentrale Administration

� Hohe Skalierbarkeit für hochvolumige Dokumentenverarbeitung

� Unterstützt: zeitgeplante und automatische OCR sowie Verarbeitung im Hintergrund

Automatisierte und zentrale Verarbeitung

Scanning

Station

Indexing

Station

Page 5: Digitalisierungspraxis - Pichler - Abbyy

Herausforderungen historischer Dokumente

� BildqualitBildqualitBildqualitBildqualitäääätttt

� Gewelltes Papier, verschachtelte Layouts, gebogene Textzeilen liefern mangelhafte Bildqualität

� LayouterkennungLayouterkennungLayouterkennungLayouterkennung

� Historische Bücher/Dokumente haben oft eine andere Layoutstruktur

� Algorithmen für die Erkennung von modernen Layouts nicht anwendbar auf alten Dokumenten

� Verwendete TypographieVerwendete TypographieVerwendete TypographieVerwendete Typographie

� Verwendung alter Schriftarten mit minderer Qualität der Buchstaben

� Unvollständige Zeichen

Page 6: Digitalisierungspraxis - Pichler - Abbyy

Bildqualität verbessern

Ausrichtung (De-Skew) & Begradigung

OriginabildOriginabild

ABBYY Binarisierung

ABBYY Binarisierung

Fehlerhafte Binarisierung

Fehlerhafte Binarisierung

Adaptive Binarisierung

Abschneiden (Crop)

Page 7: Digitalisierungspraxis - Pichler - Abbyy

• Layouterkennung durch Dokumentenanalyse

• Identifizierung der Struktur des Dokumentes

• Erkennen von Textblöcken, Tabellen, und Bildern

• Erkennen von vertikalem Text in Tabellen

• OCR-fähig vs. Bild

• ADRTADRTADRTADRT (AAAAdaptive DDDDocument RRRRecognition TTTTechnology)

Tablelle

Textblöcke

LayouterkennungBild

Page 8: Digitalisierungspraxis - Pichler - Abbyy

• Ergebnisse der Layout Analyse • Textblöcke

• Bildblöcke

• Tabellenblöcke

• Absätze

• Textlinien

• Buchstaben

• Manueller Eingriff möglich• Manuelle Korrektur von

Blöcken

• Korrektur unsicher erkannter Zeichen und Wörter, mit Wörterbuch-Unterstützung (auch externe Wörterbücher)

• Erneute OCR Erkennung mit anderen Spracheinstellungen möglich

Verifizierung und Qualitätskontrolle

Page 9: Digitalisierungspraxis - Pichler - Abbyy

• BildvorverarbeitungBildvorverarbeitungBildvorverarbeitungBildvorverarbeitung• Adaptive Binarisierung

• Verbesserung der texturierten Hintergrunderkennung

• Verbesserungen der BildVerbesserungen der BildVerbesserungen der BildVerbesserungen der Bild---- sowie Texterkennungsowie Texterkennungsowie Texterkennungsowie Texterkennung• Verbesserte Erkennung von Gothic/Frakturschriften

• Anbindung externer Wörterbücher (individuelle manuell erstelle Wörterbücher)

• ADRT ADRT ADRT ADRT –––– Adaptive Document Recognition TechnologyAdaptive Document Recognition TechnologyAdaptive Document Recognition TechnologyAdaptive Document Recognition Technology• Erkennung von Inhaltsverzeichnissen

• Neue XML ExportformateNeue XML ExportformateNeue XML ExportformateNeue XML Exportformate• ALTO XML Support (Recognition Server 3.0. Release 8, Juli 2011)

• Unterstützung spezifischer Formate wie ePub zur Erzeugung elektronischer Bücher

ABBYY Optimierungen im IMPACT Projekt

Page 10: Digitalisierungspraxis - Pichler - Abbyy

Fragen?