Hilfe:Scannen von Büchern

aus Wikisource, der freien Quellensammlung
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Hier sollen ein paar Hilfen zum Scannen von Büchern gegeben werden.

Voraussetzungen[Bearbeiten]

  • Ein Flachbettscanner mit mindestens 300 dpi physikalischer Auflösung für reine Texte.
  • Werden Bilder mitgescannt, sollten es mindestens 600 dpi physikalischer Auflösung sein.
Bei den heute erhältlichen Geräten sind 1200 dpi in der preiswerten Klasse üblich.
Der Unterschied zwischen der physikalischer Auflösung und der oftmals zu Werbezwecken angegebenen maximalen Auflösung ist relativ einfach:
  • Die physikalische Auflösung gibt die Anzahl der nebeneinader angeordneten Sensoren an. Bei 300 dpi sind das 300 Photodetektoren auf 2,54 cm. also ca 2500 auf der Breite eines Din A4 (21*30cm 8.3*12inch) Blattes.
  • Bei maximaler Auflösung werden von der Software zwischen 2 vorhandenen Punkten weitere Punkte durch Mittelung errechnet, wodurch sich "Auflösungen" wie 9600 oder 19200 dpi ergeben.
Beide Angaben sind normalerweise auf der Verpackung zu finden. Nur die physikalische/optische, also die kleinere der beiden Zahlen, ist wirklich interessant.
  • Es ist empfehlenswert, einen Scanner zu nehmen, der an mindestens einer langen Seite einen sehr schmalen Rand zwischen Sensor und Gerätekante hat, dann kann man DIN A4 Bücher scannen ohne sie ganz aufzuklappen, sofern im inneren Falz nichts steht.
  • Es sollte ausreichend Festplattenplatz vorhanden sein.
Ein Blatt DIN A4 hat bei einer Auflösung von
  • 300dpi ca 9.000.000 Pixel somit im Rohformat ca 26 MB.
  • 600dpi vervierfacht sich die Menge als ca 100 MB.
Durch verlustfreie und verlustbehaftete Kompressionsverfahren lässt sich dies aber wieder deutlich reduzieren.
Ein typischer Buchscan DIN A4 nur mit Text in Graustufen (256) kommt als .jpg-Datei auf ca 500 bis 700 KB
Ein typischer Farbscan einer Seite liegt bei ca 2,5 MB
Für ein Buch mit 100 Seiten sind so 50 bis 250 MB nötig

Ablauf[Bearbeiten]

  • Wenn wegen Besonderheiten des Buches (farbige Illustrationen) kein Farbscan nötig ist, so ist ein Graustufenscan mit 256 Stufen mehr als ausreichend.
  • Die ersten Seiten eines Buches sollte man mehrmals mit unterschiedlichen Einstellungen scannen, um einen kantenscharfen kontrastreichen Scan zu erreichen. Diese Einstellungen ändern sich auch mit der Farbe/Färbung des Papiers.
  • Wenn man für ein Buch diese Werte hat, sollte man sich diese merken, sie funktionieren meist auch für andere Bücher vergleichbarer Färbung.
  • Einband vorne und hinten und der Buchrücken sollten auf jeden Fall als Farbscan gemacht werden.
  • Es werden immer alle Seiten des Buches gescannt. Oftmals sind auf den leeren Blättern noch Eintragungen oder Texte. Gerade diese machen so ein Buch noch interessanter.
  • Die Seiten werden immer vorsichtig so auf die saubere Glasoberfläche gelegt, das sie so plan wie möglich - ohne das Buch zu beschädigen - aufliegen.
  • Es wird immer die ganze Seite gescannt. Die Ränder haben oftmals Anmerkungen, die sehr interessant sind.
  • Es ist leichter, eine Seite durch das Scanprogramm um 180° oder 90° drehen zu lassen, als sich dabei die Finger zu verbiegen, die Vorlage zu drehen.
  • Die einzelnen Scans sollten immer mit der gleichen Auflösung und in sauberer Ausrichtung gemacht werden, das nachträgliche Gerade-Drehen per Software führt zu deutlichen Qualitätsverlusten. Drehungen um 90, 180, 270 Grad haben dieses Problem nicht, da hier nur Punkte umsortiert werden. Die nachfolgende OCR-SW dankt es einem.
  • Es empfiehlt sich, eine Anlagekante für dieses spezielle Buch auf den Scanner mit Tesa-band zu kleben. Den Klebestreifen natürlich auf die Umrandung und nicht auf das Glas kleben. Z.b kann eine 8mm x 8mm x 45 cm vierkantige Holzleiste gute Dienste leisten. Auf dieser kann man eine Anlegeposition für den Buchdeckel markieren.
  • Bei einem Scan sollten evt. um die Buchseite noch schmale Ränder (meist schwarz) stehenbleiben, damit klar erkenntlich ist, dass die Seite vollständig ist.
  • Bei Scannern, bei denen man in der SW festlegen kann welcher Auschnitt gescannt werden soll, lohnt es sich das Feld etwas größer zu wählen. Bei dickeren Büchern werden die Seiten zur Mitte des Buches durch das Aufblättern scheinbar länger.
  • Es ist oftmals sinnvoll, nicht die eingebaute Anlagekante des Scanners zu benutzen. Einige Scanner scannen nicht bis in die Ecken. An einer kurzen und einer langen Seite fehlen dann oftmals Flächen.
  • Es genügt meist die Kompression für JPG so zu wählen, dass die abgelegten DIN A4 Scans ca. 500 - 700 KB groß sind. Bei PaintShopPro X ist dies die Einstellung 35%, jede Software hat da ihr eigenes Verhalten. Analoges gilt für Farbscans.
  • Nach dem Ablegen des Bildes sollte man einen Scan kontrollieren, ob die Anzeige bei 100% Vergrößerung einwandfrei ist.
  • Die gescannten Seiten sollten nach Seitennummern mit führenden Nullen und einem sinnvollen Namen auf der Festplatte abgelegt werden. (siehe Hilfe:Laden von Büchern nach Commons)

Kameras[Bearbeiten]

Alte Bücher dürfen häufig nicht mehr auf einem Flachbettscanner gescannt werden, weil die Buchbindung durch das Anpressen Schaden erleidet. Da hilft nur Abfotografieren. Die meisten Bibliotheken erlauben diese Methode.

Voraussetzung ist eine einigermaßen hochauflösende Kamera, gutes Licht und wenn möglich ein Kopierstativ, so dass die Aufnahmen immer senkrecht erfolgen und der Abstand immer gleich bleibt. Bei Belichtungszeiten von mehr als 1/100 ist ein Stativ unabdingbar. Und diese Belichtungszeiten sind ggf. selbst am Fenster schnell erreicht. Direkte Sonneneinstrahlung ist zu vermeiden, diffuses Licht ist unabdingbar.

Das Licht muss von oben oder unten auf die Seite fallen, nicht von der Seite, weil die Wölbung beim Aufschlagen des Buches in der Mitte sonst Schatten auf den Text wirft.

Eine Glasscheibe aufzulegen, empfiehlt sich wegen der Spiegelung nicht. Es gibt entspiegeltes Glas, das aber recht teuer ist. Die Vorteile sind normalerweise gering, denn man darf es auch nicht anpressen.

Die Folge des normalen Abfotografierens ist, dass die Bilder relativ starke Helligkeitsunterschiede aufweisen, die man so mit dem Auge gar nicht bemerkt, die Kamera aber doch. Jede kleine Welle im Papier erscheint auf dem Foto als dunkler Streifen. Also die Seite möglichst glatt streichen. Bei direkter Sonne werden die Helligkeitsunterschiede extrem stark, so dass entweder die hellen Stellen verschwinden, oder die dunkleren Stellen schwarz werden.

Die Bilder müssen dann nachbearbeitet werden: In SW transformieren und den Kontrast erhöhen. Durch Vergrößern am Bildschirm kann man erkennen, ob die Qualität in Ordnung ist. Beim ersten Hochladen z.B. in Photoshop sehen sie alle unscharf aus - nicht irritieren lassen. Bei der Vergrößerung sieht man dann, ob die Schrift lesbar ist.

Bei dicken Büchern werden die Zeilen in der Mitte des Buches krumm oder gestaucht. Das lässt sich nicht vermeiden. Gute OCR-Software kommt damit zurecht. Aber die alten Bücher können damit ohnehin nicht eingelesen werden, da sie in gebrochenen Schriften gesetzt sind, mit der die übliche OCR-Software nicht zurecht kommt. Für das Korrekturlesen einer Abschrift an Hand der Bilder genügt es, dass der Text eindeutig lesbar ist.