Hilfe:Tesseract-Texterkennung

aus Wikisource, der freien Quellensammlung
Wechseln zu: Navigation, Suche

Tesseract-Texterkennung für Windows[Bearbeiten]

Tesseract 3[Bearbeiten]

Tesseract 3 verarbeitet verschiedene Bildformate wie tif, multipage tif, jpg, gif und png. Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehrspaltigem Layout gute Ergebnisse.

Aus der Liste code.google.com die tesseract-ocr-setup-3.02-02.exe (ausführbares Programm) und die gezipte Sprachdatei Deutsch-Fraktur deu-frak.traineddata.gz herunterladen und entpacken. Zum entpacken ist ein ZIP-Programm erforderlich z. B. 7-zip.de. Bei Bedarf können auch weitere Sprachdateien hinzugefügt werden.

tesseract-ocr-setup-3.02-02.exe installieren (Einstellungen müssen nicht geändert werden).

Die Sprachdatei am besten gleich in den Ordner Programme/Tesseract-OCR/tessdata entpacken lassen oder die deu-frak.traineddata dahin kopieren oder verschieben.

Die Scans (Bilddateien), die mit Tesseract verarbeitet werden sollen, müssen sich nicht – wie im Eingabebeispiel 1 und 2 – im Ordner Programme/Tesseract-OCR befinden (siehe Eingabe Beispiel 3).

Dann die Kommandozeile aufrufen: Win+r oder Start -> Ausführen: cmd eingeben -> OK.

Zum Tesseract-OCR-Verzeichnis wechseln. Beispiel (auf Groß- oder Kleinschreibung muss nicht geachtet werden):

cd C:\
cd Programme
cd Tesseract-OCR

oder kurz:
cd c:\programme\tesseract-ocr

Eingabe Beispiel 1: Scans im .tif Format mit Fraktur-Text im Tesseract Verzeichnis Programme/Tesseract-OCR:

for %i in (*.tif) do tesseract.exe "%i" "%i" -l deu-frak

(es werden alle tif-Dateien im Ordner Tesseract-OCR bearbeitet)

bei .jpg oder .png Format den Befehl entsprechend ändern. Bei anderen Sprachen ist deu-frak durch das entsprechende Kürzel zu ersetzen: Deutsch=deu, English=eng usw. (dazu muss die deutsche Sprachdatei deu.traineddata.gz heruntergeladen und ebenso wie oben Fraktur installiert werden. Englisch ist schon bei der Standardinstallation von Tesseract enthalten)

Eingabe Beispiel 2: Scans im .png Format mit deutschem Antiqua-Text:

for %i in (*.png) do tesseract.exe "%i" "%i" -l deu

Das Programm arbeitet nun alle Scans im Stapel ab und erzeugt für jede Bilddatei eine Textdatei. Die einzelnen Textdateien können mit:

copy /b *.txt Gesamttext.txt

zusammengefügt werden.

Eingabe Beispiel 3: Scans im .jpg Format in anderen Verzeichnissen:

for %i in (E:\Ordner\Ordner\*.jpg) do tesseract.exe "%i" "%i" -l deu-frak

entsprechend wird die Gesamttextdatei mit dem Befehl

copy /b E:\Ordner\Ordner\*.txt E:\Ordner\Ordner\Gesamttext.txt

zusammengefügt.

Fehlerquellen: Dateinamen sollten keine Leerzeichen enthalten, diese sind durch einen Unterstrich _ zu ersetzen.

Weitere Fehlerquelle: Wenn das Programm einfach durchläuft, ohne überhaupt OCR durchzuführen, findet man die Fehlerquelle in der Regel in der dann von Tesseract angelegten Datei tesseract.log. (Eine dort eventuell auftauchende Fehlermeldung „Unable to load unicharset file ...“ bedeutet einfach nur, dass man statt Tesseract 3 versehentlich Tesseract 2 ausgeführt hat, möglicherweise aufgrund einer Parallelinstallation von FreeOCR, in dem Tesseract 2 enthalten ist.)

Weitere Informationen (englisch) code.google.com und (deutsch) Fraktur-OCR mit Tesseract finanzer.org

Graphische Oberflächen[Bearbeiten]

Bildschirmfoto von gImageReader

Für das Kommandozeilenprogramm tesseract existieren mehrere graphische Benutzeroberflächen.

gImageReader[Bearbeiten]

gImageReader ist einfach zu bedienen und für Windows und Linux erhältlich.

Siehe auch[Bearbeiten]