Wikisource:OCR

aus Wikisource, der freien Quellensammlung
Wechseln zu: Navigation, Suche

Texterkennung, Optische Zeichenerkennung oder OCR (eng. Optical Character Recognition) beschreibt die automatische Erkennung von Texten in abgelichteten Dokumenten, welche als (Pixel)Bilder vorliegen.

Da alte deutschsprachige Texte oft in Fraktur-Schrift gedruckt wurden, ist die Auswahl dafür geeigneter OCR-Programme begrenzt. Abgesehen von einer ca. 1000 Euro teuren Version von Abbyy kann das kostenlose Programm Tesseract auch Fraktur erkennen. Wikisource-Benutzer konnten Tesseract-Texterkennung nutzen, bis diese Funktion im Februar 2011 auf dem Toolserver ausfiel. Eine Reparatur ist vorgesehen (Reinstall Tesseract OCR).

Auch auf eigenem Rechner mit Windows (sowie MacOS oder Linux) kann Tesseract relativ einfach genutzt werden, siehe Texterkennung mit Tesseract (Windows). Eine Vorgehensweise für die anschließende Korrektur der typischen OCR-Fehler wird unter Benutzer:Joergens.mi/mwjed/macro beschrieben.

[Bearbeiten] Siehe auch

Persönliche Werkzeuge
Namensräume

Varianten
Aktionen
Navigation
Mitmachen
Drucken/exportieren
Werkzeuge