Wikisource Diskussion:OCR

Tesseract

Letzter Kommentar: vor 2 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Die Empfehlung von Tesseract halte ich für fragwürdig. Mit pdftotif habe ich zwanzig Seiten einer recht brauchbaren Vorlage mit 300 dpi Auflösung als tif konvertiert und anschließend mit der Option -l deu-frak texterkannt; wenn man das so nennen kann. Das Ergebnis ist mäßig. Die Software kann nur schlecht Wortzwischenräume erkennen. Darunter leidet natürlich der Rest der Erkennung. --LoKiLeCh (Diskussion) 21:57, 16. Jun. 2014 (CEST)Beantworten

Mit Tesseract 5 und den Frakturmodellen der Universitätsbibliothek Mannheim funktioniert die Erkennung auch für historische Schriften wie Fraktur ziemlich gut. Stefan Weil (Diskussion) 06:33, 14. Feb. 2022 (CET)Beantworten

OCR Beispiel eScriptorium

Letzter Kommentar: vor 1 Jahr1 Kommentar1 Person ist an der Diskussion beteiligt

Ein Beispiel für OCR eines Buches aus dem 16. Jahrhundert demonstriert, welche OCR-Qualität mit eScriptorium / Kraken erreicht werden kann. Das Ergebnis kann im DFG-Viewer betrachtet werden. --Stefan Weil (Diskussion) 11:30, 11. Mär. 2023 (CET)Beantworten