Wikisource:OCR
Texterkennung, Optische Zeichenerkennung oder OCR (eng. Optical Character Recognition) beschreibt die automatische Erkennung von Texten in abgelichteten Dokumenten, welche als (Pixel)Bilder vorliegen.
Da alte deutschsprachige Texte oft in Fraktur-Schrift gedruckt wurden, ist die Auswahl dafür geeigneter OCR-Programme begrenzt. Abgesehen von einer ca. 100–200 Euro teuren Version von ABBYY Finereader können die kostenlosen Programme OCRopus und Tesseract auch Fraktur erkennen, mit Tesseract meist sogar besser als mit ABBYY.
Auch auf eigenem Rechner mit Windows (sowie MacOS oder Linux) kann relativ einfach Tesseract genutzt werden. Mehrseitige PDF-Dateien lassen sich mit pdftotif komfortabel in tiff-Dateien konvertieren. Eine Vorgehensweise für die anschließende Korrektur der typischen OCR-Fehler wird unter Benutzer:Joergens.mi/mwjed/macro beschrieben.
Mit eScriptorium und der OCR-Software Kraken steht auch eine freie Softwarelösung zur Verfügung, die nach entsprechendem Training alle Arten von Druckschriften und Handschriften erkennen kann. Für Fraktur lassen sich damit Zeichenerkennungsraten von über 99 % erreichen. Die Webapplikation eScriptorium lässt sich auch lokal auf dem eigenen Rechner installieren.
Gute Ergebnisse bei Layout- und Texterkennung liefert die ebenfalls freie Software PERO OCR, die ebenfalls Druck- und Handschriften unterstützt.
Siehe auch[Bearbeiten]
Weblinks[Bearbeiten]
- Installation von tesseract und gImageReader (Anleitung für Windows)
- Toolbox: Texterkennung mit Tesseract OCR
- Frequently asked questions – Which models can be used for historic European texts?
- Projekt OCR-BW der UB Mannheim mit deutschsprachiger Information zu eScriptorium
- PERO OCR Demo Web Application