Hilfe:Tesseract-Texterkennung

aus Wikisource, der freien Quellensammlung
Wechseln zu: Navigation, Suche

Tesseract-Texterkennung für Windows[Bearbeiten]

Tesseract 3[Bearbeiten]

Tesseract 3 verarbeitet verschiedene Bildformate wie tif, multipage tif, jpg, gif und png. Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehrspaltigem Layout gute Ergebnisse.

Aus der Liste code.google.com die tesseract-ocr-setup-3.02-02.exe (ausführbares Programm) und die gezipte Sprachdatei Deutsch-Fraktur deu-frak.traineddata.gz herunterladen und entpacken. Zum entpacken ist ein ZIP-Programm erforderlich z. B. 7-zip.de. Bei Bedarf können auch weitere Sprachdateien hinzugefügt werden.

tesseract-ocr-setup-3.02-02.exe installieren (Einstellungen müssen nicht geändert werden).

Die Sprachdatei am besten gleich in den Ordner Programme/Tesseract-OCR/tessdata entpacken lassen oder die deu-frak.traineddata dahin kopieren oder verschieben.

Die Scans (Bilddateien), die mit Tesseract verarbeitet werden sollen, müssen sich nicht – wie im Eingabebeispiel 1 und 2 – im Ordner Programme/Tesseract-OCR befinden (siehe Eingabe Beispiel 3).

Dann die Kommandozeile aufrufen: Win+r oder Start -> Ausführen: cmd eingeben -> OK.

Zum Tesseract-OCR-Verzeichnis wechseln. Beispiel (auf Groß- oder Kleinschreibung muss nicht geachtet werden):

cd C:\
cd Programme
cd Tesseract-OCR

oder kurz:
cd c:\programme\tesseract-ocr

Eingabe Beispiel 1: Scans im .tif Format mit Fraktur-Text im Tesseract Verzeichnis Programme/Tesseract-OCR:

for %i in (*.tif) do tesseract.exe "%i" "%i" -l deu-frak

(es werden alle tif-Dateien im Ordner Tesseract-OCR bearbeitet)

bei .jpg oder .png Format den Befehl entsprechend ändern. Bei anderen Sprachen ist deu-frak durch das entsprechende Kürzel zu ersetzen: Deutsch=deu, English=eng usw. (dazu muss die deutsche Sprachdatei deu.traineddata.gz heruntergeladen und ebenso wie oben Fraktur installiert werden. Englisch ist schon bei der Standardinstallation von Tesseract enthalten)

Eingabe Beispiel 2: Scans im .png Format mit deutschem Antiqua-Text:

for %i in (*.png) do tesseract.exe "%i" "%i" -l deu

Das Programm arbeitet nun alle Scans im Stapel ab und erzeugt für jede Bilddatei eine Textdatei. Die einzelnen Textdateien können mit:

copy /b *.txt Gesamttext.txt

zusammengefügt werden.

Eingabe Beispiel 3: Scans im .jpg Format in anderen Verzeichnissen:

for %i in (E:\Ordner\Ordner\*.jpg) do tesseract.exe "%i" "%i" -l deu-frak

entsprechend wird die Gesamttextdatei mit dem Befehl

copy /b E:\Ordner\Ordner\*.txt E:\Ordner\Ordner\Gesamttext.txt

zusammengefügt.

Fehlerquellen: Dateinamen sollten keine Leerzeichen enthalten, diese sind durch einen Unterstrich _ zu ersetzen.

Weitere Fehlerquelle: Wenn das Programm einfach durchläuft, ohne überhaupt OCR durchzuführen, findet man die Fehlerquelle in der Regel in der dann von Tesseract angelegten Datei tesseract.log. (Eine dort eventuell auftauchende Fehlermeldung „Unable to load unicharset file ...“ bedeutet einfach nur, dass man statt Tesseract 3 versehentlich Tesseract 2 ausgeführt hat, möglicherweise aufgrund einer Parallelinstallation von FreeOCR, in dem Tesseract 2 enthalten ist.)

Weitere Informationen (englisch) code.google.com und (deutsch) Fraktur-OCR mit Tesseract finanzer.org

FreeOCR 3[Bearbeiten]

FreeOCR 3 (paperfile.net, zeitweise nicht erreichbar) ist ein einfach zu bedienendes Texterkennungs-Programm mit graphischer Oberfläche auf tesseract 2 Basis. Verarbeitet werden die meisten Bildformate, wie jpg, tif, png, gif, etc. Die Seiten müssen einzeln geladen werden, Stapelverarbeitung ist nicht möglich.

FreeOCR verwendet die tesseract 2 Sprachdateien code.google.com, für Fraktur wird die ZIP Datei tesseract-2.01.deu-f.tar.gz benötigt.

FreeOCR zeigt nur Sprachdateien mit 3 Buchstaben im OCR-Language Menü an (eng. fra. deu.), die Fraktur-Sprachdateien haben aber 5 Zeichen vor dem Punkt im Dateinamen (deu-f.), deshalb erscheint Fraktur, ohne eine kleine Anpassung der Dateinamen, nicht im Sprach-Menü. Nach dem Entpacken müssen die Dateien also zunächst umbenannt werden.

Die Originaldateinamen: deu-f.DangAmbigs, deu-f.freq-dawg, usw. zu def.DangAmbigs, def.freq-dawg usw. umbenennen. Sind die 8 Dateien umbenannt, öffnet man FreeOCR, wählt Settings/Open Language Folder und kopiert oder verschiebt sie in das erscheinende Fenster. Beim nächsten Start des Programms ist dann def (für Deutsch Fraktur) im OCR-Language Menü (rechts oben) auswählbar. Weitere Sprachen werden ebenso hinzugefügt.

FreeOCR ist besonders für Frakturtext mit längeren Antiqua Abschnitten geeignet.

Aktuelle Version: FreeOCR v 4.2, verwendet Tesseract v 3.01 (nicht getestet)

Siehe auch[Bearbeiten]