Wikisource:OCR

Texterkennung, Optische Zeichenerkennung oder OCR (eng. Optical Character Recognition) beschreibt die automatische Erkennung von Texten in abgelichteten Dokumenten, welche als (Pixel)Bilder vorliegen.

Da alte deutschsprachige Texte oft in Fraktur-Schrift gedruckt wurden, ist die Auswahl dafür geeigneter OCR-Programme begrenzt. Abgesehen von einer ca. 100–200 Euro teuren Version von ABBYY Finereader können die kostenlosen Programme OCRopus, Kraken und Tesseract auch Fraktur erkennen.

OCR Software

Tesseract

Mit den richtigen Modellen für historische Schriften klappt die Texterkennung mit Tesseract meist besser als mit ABBYY Finereader.

Auch auf eigenem Rechner mit Windows (sowie MacOS oder Linux) kann relativ einfach Tesseract genutzt werden. Mehrseitige PDF-Dateien lassen sich mit pdftotif komfortabel in tiff-Dateien konvertieren. Eine Vorgehensweise für die anschließende Korrektur der typischen OCR-Fehler wird unter Benutzer:Joergens.mi/mwjed/macro beschrieben.

Kraken, eScriptorium

Mit der Transkriptionsplattform eScriptorium und der OCR-Software Kraken steht eine freie Softwarelösung zur Verfügung, die nach entsprechendem Training alle Arten von Druckschriften und Handschriften erkennen kann. Für Fraktur lassen sich damit Zeichenerkennungsraten von über 99 % erreichen. Die Webapplikation eScriptorium kann auch lokal auf dem eigenen Rechner installiert werden.

PERO OCR

Gute Ergebnisse bei Layout- und Texterkennung liefert auch die freie Software PERO OCR der Universität Brünn, die ebenfalls Druck- und Handschriften erkennt.

Siehe auch

Weblinks

Installation von tesseract und gImageReader (Anleitung für Windows)
Toolbox: Texterkennung mit Tesseract OCR
Frequently asked questions – Which models can be used for historic European texts?
Projekt OCR-BW der UB Mannheim mit deutschsprachiger Information zu eScriptorium
PERO OCR Demo Web Application