Hilfe:Tesseract-Texterkennung

aus Wikisource, der freien Quellensammlung

Tesseract-Texterkennung für Windows[Bearbeiten]

Tesseract 4 und neuer[Bearbeiten]

Seit Version 4 hat sich die Texterkennung von Tesseract wesentlich verbessert, da sie inzwischen standardmäßig ein neuronales Netzwerk verwendet. Es werden auch viel mehr Sprachen und Schriften unterstützt. Deshalb sollten nur noch neuere Tesseract-Versionen zum Einsatz kommen. Offiziell unterstützt wird Tesseract 4.1 und Tesseract 5, wobei letzteres die empfohlene Version ist.

Installationsprogramme gibt es für alle gängigen Plattformen [1], speziell für Windows beispielsweise von der Universitätsbibliothek Mannheim [2].

Für historische Texte einschließlich Fraktur liefern die von der Universitätsbibliothek Mannheim trainierten Modelle oft deutlich bessere Ergebnisse als die Standardmodelle frk [3] und script/Fraktur [4].

Tesseract 3[Bearbeiten]

Tesseract 3 verarbeitet verschiedene Bildformate wie tif, multipage tif, jpg, gif und png. Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehrspaltigem Layout gute Ergebnisse.

Aus der Liste code.google.com die tesseract-ocr-setup-3.02-02.exe (ausführbares Programm) und die gezippte Sprachdatei Deutsch-Fraktur deu-frak.traineddata.gz herunterladen und entpacken. Zum entpacken ist ein ZIP-Programm erforderlich z. B. 7-zip.de. Bei Bedarf können auch weitere Sprachdateien hinzugefügt werden.

tesseract-ocr-setup-3.02-02.exe installieren (Einstellungen müssen nicht geändert werden).

Die Sprachdatei am besten gleich in den Ordner Programme/Tesseract-OCR/tessdata entpacken lassen oder die deu-frak.traineddata dahin kopieren oder verschieben.

Die Scans (Bilddateien), die mit Tesseract verarbeitet werden sollen, müssen sich nicht – wie im Eingabebeispiel 1 und 2 – im Ordner Programme/Tesseract-OCR befinden (siehe Eingabe Beispiel 3).

Dann die Kommandozeile aufrufen: Win+r oder Start -> Ausführen: cmd eingeben -> OK.

Zum Tesseract-OCR-Verzeichnis wechseln. Beispiel (auf Groß- oder Kleinschreibung muss nicht geachtet werden):

cd C:\
cd Programme
cd Tesseract-OCR

oder kurz:
cd c:\programme\tesseract-ocr

Eingabe Beispiel 1: Scans im .tif Format mit Fraktur-Text im Tesseract Verzeichnis Programme/Tesseract-OCR:

for %i in (*.tif) do tesseract.exe "%i" "%i" -l deu-frak

(es werden alle tif-Dateien im Ordner Tesseract-OCR bearbeitet)

bei .jpg oder .png Format den Befehl entsprechend ändern. Bei anderen Sprachen ist deu-frak durch das entsprechende Kürzel zu ersetzen: Deutsch=deu, English=eng usw. (dazu muss die deutsche Sprachdatei deu.traineddata.gz heruntergeladen und ebenso wie oben Fraktur installiert werden. Englisch ist schon bei der Standardinstallation von Tesseract enthalten)

Eingabe Beispiel 2: Scans im .png Format mit deutschem Antiqua-Text:

for %i in (*.png) do tesseract.exe "%i" "%i" -l deu

Das Programm arbeitet nun alle Scans im Stapel ab und erzeugt für jede Bilddatei eine Textdatei. Die einzelnen Textdateien können mit:

copy /b *.txt Gesamttext.txt

zusammengefügt werden.

Eingabe Beispiel 3: Scans im .jpg Format in anderen Verzeichnissen:

for %i in (E:\Ordner\Ordner\*.jpg) do tesseract.exe "%i" "%i" -l deu-frak

entsprechend wird die Gesamttextdatei mit dem Befehl

copy /b E:\Ordner\Ordner\*.txt E:\Ordner\Ordner\Gesamttext.txt

zusammengefügt.

Fehlerquellen: Dateinamen sollten keine Leerzeichen enthalten, diese sind durch einen Unterstrich _ zu ersetzen.

Weitere Fehlerquelle: Wenn das Programm einfach durchläuft, ohne überhaupt OCR durchzuführen, findet man die Fehlerquelle in der Regel in der dann von Tesseract angelegten Datei tesseract.log. (Eine dort eventuell auftauchende Fehlermeldung „Unable to load unicharset file ...“ bedeutet einfach nur, dass man statt Tesseract 3 versehentlich Tesseract 2 ausgeführt hat, möglicherweise aufgrund einer Parallelinstallation von FreeOCR, in dem Tesseract 2 enthalten ist.)

Weitere Informationen (englisch) code.google.com und (deutsch) Fraktur-OCR mit Tesseract finanzer.org

Graphische Oberflächen[Bearbeiten]

Bildschirmfoto von gImageReader

Für das Kommandozeilenprogramm tesseract existieren mehrere graphische Benutzeroberflächen.

gImageReader[Bearbeiten]

gImageReader ist einfach zu bedienen und für Windows und Linux erhältlich.

Siehe auch[Bearbeiten]