Wikisource:OCR

aus Wikisource, der freien Quellensammlung
Zur Navigation springen Zur Suche springen
Scan-Buttons unter „Hilfsmittel zum Korrekturlesen“ (Ws ocr.png)

Texterkennung, Optische Zeichenerkennung oder OCR (eng. Optical Character Recognition) beschreibt die automatische Erkennung von Texten in abgelichteten Dokumenten, welche als (Pixel)Bilder vorliegen.

Da alte deutschsprachige Texte oft in Fraktur-Schrift gedruckt wurden, ist die Auswahl dafür geeigneter OCR-Programme begrenzt. Abgesehen von einer ca. 100–200 Euro teuren Version von ABBYY Finereader können die kostenlosen Programme OCRopus und Tesseract auch Fraktur erkennen, mit Tesseract meist sogar besser als mit ABBYY.

Auch auf eigenem Rechner mit Windows (sowie MacOS oder Linux) kann relativ einfach Tesseract genutzt werden. Mehrseitige PDF-Dateien lassen sich mit pdftotif komfortabel in tiff-Dateien konvertieren. Eine Vorgehensweise für die anschließende Korrektur der typischen OCR-Fehler wird unter Benutzer:Joergens.mi/mwjed/macro beschrieben.

Mit eScriptorium und der OCR-Software Kraken steht auch eine freie Softwarelösung zur Verfügung, die nach entsprechendem Training alle Arten von Druckschriften und Handschriften erkennen kann. Für Fraktur lassen sich damit Zeichenerkennungsraten von über 99 % erreichen. Die Webapplikation eScriptorium lässt sich auch lokal auf dem eigenen Rechner installieren.

Gute Ergebnisse bei Layout- und Texterkennung liefert die ebenfalls freie Software PERO OCR, die ebenfalls Druck- und Handschriften unterstützt.

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]