Zum Inhalt springen

Wikisource Diskussion:OCR

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
Abschnitt hinzufügen
aus Wikisource, der freien Quellensammlung
Letzter Kommentar: vor 1 Jahr von Stefan Weil in Abschnitt OCR Beispiel eScriptorium

Tesseract

[Bearbeiten]

Die Empfehlung von Tesseract halte ich für fragwürdig. Mit pdftotif habe ich zwanzig Seiten einer recht brauchbaren Vorlage mit 300 dpi Auflösung als tif konvertiert und anschließend mit der Option -l deu-frak texterkannt; wenn man das so nennen kann. Das Ergebnis ist mäßig. Die Software kann nur schlecht Wortzwischenräume erkennen. Darunter leidet natürlich der Rest der Erkennung. --LoKiLeCh (Diskussion) 21:57, 16. Jun. 2014 (CEST)Beantworten

Mit Tesseract 5 und den Frakturmodellen der Universitätsbibliothek Mannheim funktioniert die Erkennung auch für historische Schriften wie Fraktur ziemlich gut. Stefan Weil (Diskussion) 06:33, 14. Feb. 2022 (CET)Beantworten

OCR Beispiel eScriptorium

[Bearbeiten]

Ein Beispiel für OCR eines Buches aus dem 16. Jahrhundert demonstriert, welche OCR-Qualität mit eScriptorium / Kraken erreicht werden kann. Das Ergebnis kann im DFG-Viewer betrachtet werden. --Stefan Weil (Diskussion) 11:30, 11. Mär. 2023 (CET)Beantworten