Wikisource:OCR

aus Wikisource, der freien Quellensammlung
Zur Navigation springen Zur Suche springen
Scan-Buttons unter „Hilfsmittel zum Korrekturlesen“ (Ws ocr.png)

Texterkennung, Optische Zeichenerkennung oder OCR (eng. Optical Character Recognition) beschreibt die automatische Erkennung von Texten in abgelichteten Dokumenten, welche als (Pixel)Bilder vorliegen.

Da alte deutschsprachige Texte oft in Fraktur-Schrift gedruckt wurden, ist die Auswahl dafür geeigneter OCR-Programme begrenzt. Abgesehen von einer ca. 1000 Euro teuren Version von Abbyy können die kostenlosen Programme OCRopus und Tesseract auch Fraktur erkennen.

Auch auf eigenem Rechner mit Windows (sowie MacOS oder Linux) kann relativ einfach Tesseract genutzt werden. Mehrseitige PDF-Dateien lassen sich mit pdftotif komfortabel in tiff-Dateien konvertieren. Eine Vorgehensweise für die anschließende Korrektur der typischen OCR-Fehler wird unter Benutzer:Joergens.mi/mwjed/macro beschrieben.

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]