Wikisource Diskussion:OCR

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikisource, der freien Quellensammlung

Tesseract[Bearbeiten]

Die Empfehlung von Tesseract halte ich für fragwürdig. Mit pdftotif habe ich zwanzig Seiten einer recht brauchbaren Vorlage mit 300 dpi Auflösung als tif konvertiert und anschließend mit der Option -l deu-frak texterkannt; wenn man das so nennen kann. Das Ergebnis ist mäßig. Die Software kann nur schlecht Wortzwischenräume erkennen. Darunter leidet natürlich der Rest der Erkennung. --LoKiLeCh (Diskussion) 21:57, 16. Jun. 2014 (CEST)[Beantworten]

Mit Tesseract 5 und den Frakturmodellen der Universitätsbibliothek Mannheim funktioniert die Erkennung auch für historische Schriften wie Fraktur ziemlich gut. Stefan Weil (Diskussion) 06:33, 14. Feb. 2022 (CET)[Beantworten]

OCR Beispiel eScriptorium[Bearbeiten]

Ein Beispiel für OCR eines Buches aus dem 16. Jahrhundert demonstriert, welche OCR-Qualität mit eScriptorium / Kraken erreicht werden kann. Das Ergebnis kann im DFG-Viewer betrachtet werden. --Stefan Weil (Diskussion) 11:30, 11. Mär. 2023 (CET)[Beantworten]