Wikisource:Google Book Search

aus Wikisource, der freien Quellensammlung
(Weitergeleitet von Gbs)
Wechseln zu: Navigation, Suche
Kürzel: WS:GBS
Kürzel: WS:GOOGLE

Google Book Search (GBS oder Google BS, ursprünglich Google Print) ist ein Angebot der Suchmaschinen-Firma Google Inc., das sowohl gemeinfreie als auch urheberrechtlich geschützte Bücher online kostenfrei bereitstellt.

http://books.google.com

GBS besteht aus einem Verlagsprogramm, bei dem Google Bücher von Verlagen mit deren Einverständnis scannt oder als PDF erhält, und einem (vor allem aus urheberrechtlichen Gründen umstrittenen) Bibliotheks-Projekt, bei dem von jüngeren geschützten Werken nur Ausrisse angezeigt werden.

Nähere Informationen siehe allgemein Wikipedia-Artikel zu Google Book Search

Anwendung für Wikisource[Bearbeiten]

Für das Hochladen von gescannten Seiten aus GBS auf Wikimedia Commons und die Abschrift von Texten auf Wikisource gelten grundsätzlich die jeweiligen Regeln zur Beachtung des Urheberrechts.

Es hat eine genaue Prüfung vor der Übernahme jeden Textes voranzugehen. Fragen können auf Wikisource:Skriptorium gestellt werden.

Vor allem bei Ausgaben älterer gemeinfreier Autoren muss untersucht werden, ob die konkrete Textgestalt urheberrechtlich geschützt ist.

Auffinden von Büchern[Bearbeiten]

Googles Suchfunktion kann nur als höchst mangelhaft bezeichnet werden, da man nicht selten vorhandene Bücher mit Suchabfragen nicht findet, obwohl man sie finden müsste. Das ist insbesondere bei mehrbändigen Werken der Fall.

Beispiel: Die Datenbank http://pdbooks.zuhause.org weist zahlreiche Bände von Riedels Codex diplomaticus Brandenburgensis nach, die 2006 auch über die Suchfunktion gefunden werden konnten. 2007 fand man aber zeitweilig nur noch drei Bände (die anderen waren jedoch ebenfalls noch präsent, nur nicht über eine normale Suche nach Metadaten auffindbar).[1] Liste der Bände nun im Autorenartikel Adolph Friedrich Johann Riedel.

Daher ist es wichtig, von Google unabhängige Listen oder Datenbanken mit Nachweisen aus GBS zu pflegen (siehe etwa Autorinnen, Zeitschriften oder in der Wikipedia w:Bibliothek des Litterarischen Vereins in Stuttgart).

Siehe auch: http://archiv.twoday.net/stories/837865/

Zum Angebot der Bibliothek der UMich siehe unten.

Von Googles Partnerbibliotheken verlinken bislang in den eigenen Katalogen auf die Google-Digitalisate:

Darüber hinaus sind einige tausend Titel katalogisiert im Katalog der Indiana University:

Über ein Google-API können Bibliotheken in ihren Katalogen die Existenz von Büchern bei Google Books samt Angabe der Zugriffsmöglichkeiten anzeigen, wenn die Bücher über bestimmte standardisierte Kennziffern (z.B. ISBN) erreichbar sind. Davon macht beispielsweise der Google-Partner University of California Gebrauch (siehe OPAC Melvyl). Daher ist ein Teil des Gesamtbestandes von Google Books auch im Worldcat auffindbar. Allerdings gibt es noch keine Möglichkeit einer entsprechenden Filterung.

Suchtipps[Bearbeiten]

Die Suche lässt sich schon bei Eingabe des Suchbegriffes auf bestimmte Kriterien einschränken. Möglich ist die Suche nach:

  • Titel (intitle:Suchbegriff)
  • Autor (inauthor:Suchbegriff)
  • Verlag (inpublisher:Suchbegriff)
  • Erscheinungsdatum (date:1800-1900), inzwischen nur noch in Verbindung mit einer anderen Suche
  • ISBN (isbn:0060930314)

Siehe dazu auch Google Buchsuche: Erweiterte Buchsuche

Bei der Suche nach Zeitschriftenartikeln empfiehlt sich die Nutzung der Einschränkung nach Erscheinungsdatum, siehe http://archiv.twoday.net/stories/6141832/

Manchmal bekommt man mit einer kleinen Änderung der Suchabfrage eine komplett andere Auswahl. Etwa trotz inauthor: nach einem Stichwort suchen. Bei Doppelvornamen einen weglassen etc.

Mängel der Scans und der OCR[Bearbeiten]

Nicht selten sind gescannte Seiten unbrauchbar

Sehr häufig sind Seiten schlecht gescannt oder fehlen ganz. Manchmal kann man in GBS ein zweites Exemplar der betreffenden Auflage finden, mit dem man Lücken schließen kann.

Bei der Volltextsuche berücksichtigt Google nicht alle Treffer in einem Buch [2]. Liegt ein Buch in den MBooks von UMich vor, ist dort anders als bei Google eine komplette Liste der gefundenen Seiten abrufbar.

OCR[Bearbeiten]

Die Schrifterkennung (OCR) war bei deutschsprachigen Texten eher mäßig, bei Frakturschriften völlig unbrauchbar (Beispiel). Anfang 2008 konnte allerdings festgestellt werden, dass vereinzelt auch eine durchaus brauchbare Fraktur-OCR eingesetzt wird. Bei Exemplaren, die nach Mitte 2008 gescannt sind, ist sie unterdessen oft sogar sehr gut. Den Text kann man sich auf der Seite Read this book in der Ansicht Plain text anzeigen lassen, wo sich dann der Text von fünf Seiten (oft durchsetzt mit Bild-Schnipseln nicht erkannter Passagen) herauskopieren lässt.

Seit Herbst 2009 bietet GBS bei einigen Büchern auch eine EPUB-Datei zum Herunterladen an, was die Textgewinnung noch einfacher macht: die epub-Datei entpacken (mit Zip oder Winrar oder Stuffit o.ä.), was zu einem Ordner mit mehreren Ordnern und Dateien führt. In dem Ordner OEPBS liegen durchnummerierte Dateien wie Content-009.xml, die den Text enthalten. Einfach in einem Browser öffnen und den Text herauskopieren.

In neuerer Zeit (2011) splittet Google die epub-Dateien in Dutzende bis Hunderte "Content"-Subdateien, was den OCR-Ernte-Aufwand erheblich steigern würde. Book-Reader-Programme wie "Calibre" (Mac) können allerdings epub-Dateien umstandslos in PDFs umwandeln, von denen aus die OCR händisch (seitenweise) oder als Text-Import (gesamt) geerntet werden kann (was sogar den Vorteil hat, dass die nichterkannten Seiten als Bilddatei integriert sind).

Mängel der Metadaten[Bearbeiten]

Sehr häufig sind die bibliographischen Angaben zu den Büchern falsch oder lückenhaft. Da bei Zeitschriften und mehrbändigen Werken irreführende Angaben zu Beginn des Projekts die Regel waren, bedarf es bei Büchern, die nur in Auszugsform präsentiert werden, einer gewissen Findigkeit, um den Band zu ermitteln (Tipps dazu: http://archiv.twoday.net/stories/4128885/).

"Weitere Ausgaben" auffinden[Bearbeiten]

In der URL ist &as_pt=ALLTYPES anzuhängen, wenn man die Anzeige "weiterer Ausgaben" wünscht, siehe SKR.

Umgehen von Googles Digital Rights Management[Bearbeiten]

Während bei von Google als Public Domain gekennzeichneten Titeln die Seiten einzeln heruntergeladen werden können und oft auch ein PDF-Download zur Verfügung steht, sind die mit "Eingeschränkte Vorschau" gekennzeichneten Titel des Verlags-Programms gegen Abspeichern und Ausdrucken wenigstens oberflächlich gesichert.

Die entsprechende Grafik ist aber durch Kenntnis der Darstellung von Seiten in Browsern ohne weiteres separat aufrufbar. Da die Umgehung vergleichsweise trivial ist, wird man bezweifeln dürfen, ob dieses Digital Rights Management als wirksame technische Maßnahme nach § 95a UrhG anzusprechen ist. Ist sie nicht wirksam, kann der urheberrechtliche Inhalt etwa zum Zweck der Privatkopie rechtmäßig abgespeichert werden.

Bei reinen Nachdrucken gemeinfreier Werke, die von Google als geschützt betrachtet werden, kommt die Anwendung der urheberrechtlichen Vorschriften nicht in Betracht. Daher ist es in jedem Fall legal, bei solchen Reprints die - etwa durch wiederholte Suchvorgänge - auffindbaren Seiten abzuspeichern und anderweitig zu veröffentlichen.

Beispiel: Das Buch von Julius Wellhausen Prolegomena zur ältesten Geschichte des Islams ist bei Google nur teilweise zugänglich, es handelt sich aber lediglich um einen Faksimilenachdruck der gemeinfreien Erstausgabe.

Für den Browser Firefox wird das Abspeichern einer Beispielseite erläutert:

  • Mit rechter Maustaste "Seiteninformationen anzeigen" aufrufen
  • Unter dem Reiter "Medien" ist auch die Grafik aufgelistet, die das geschützte Bild darstellt
  • Mit der rechten Maustaste kann die Adresse der Grafik kopiert werden

Gbs speichern chrome.jpg In Chrome wählt man im Menü der rechten Maustaste "Element untersuchen". Die Grafiken sind unter "Ressources" aufgelistet.

Alternativ kann die Adresse der Grafik auch dem Quelltext der Seite entnommen werden.

Mit unter http://antimachine.wordpress.com/2008/12/24/how-to-download-books-from-google-books/ beschriebenen Firefox-Erweiterungen kann man alle Seiten eines Buchs herunterladen. Ebenso mit http://www.gbooksdownloader.com/.

Die gleiche DRM-Technik liegt auch der Amazon-Präsentation von Buchinhalten und dem Libreka-Angebot des deutschen Buchhandels zugrunde[3].

Das Kopieren von gemeinfreien Inhalten aus Google Books ist bei deaktiviertem Java-Script mit rechter Maustaste möglich.

Zusätzliche Informationen der Trefferliste bzw. den Schnipseln entlocken[Bearbeiten]

Einen Trick dazu stellt vor: http://archiv.twoday.net/stories/5818683/.

Googles Nutzungsrichtlinien[Bearbeiten]

Nach deutschem Recht ist GBS wohl eine geschützte (einfache) Datenbank nach § 87a UrhG. Public-Domain-Bücher dürfen aber ohne weiteres dem Angebot entnommen und anderweitig ins Internet eingestellt werden. Jedem als PDF heruntergeladenen Digitalisat stellt Google nicht Nutzungsbedingungen voran, wie es Bibliotheken tun, sondern Nutzungsrichtlinien. Hierin wird gebeten, "diese Dateien nur für persönliche, nichtkommerzielle Zwecke [zu] verwenden". Es wird aber keineswegs ein Verbot ausgesprochen. Eine Stellungnahme Googles stellt dies nochmals ausdrücklich klar:

"We have gotten this question in the past. The front matter of our PDF books is not a EULA [end user license agreement]. We make some requests, but we are not trying to legally bind users to those requests. We've spent (and will continue to spend) a lot of time and money on Book Search, and we hope users will respect that effort and not use these files in ways that make it harder for us to justify that expense (for example, by setting up the ACME Public Domain PDF Download service that charges users a buck a book and includes malware in the download). Rather than using the front matter to convey legal restrictions, we are attempting to use it to convey what we hope to be the proper netiquette for the use of these files."

Die Ausführungen auf der Vorsatzseite des PDFs haben also keinen rechtlich bindenden Charakter.

Herunterladen von ganzen Werken[Bearbeiten]

Obwohl auf der (Ende 2007 eingestellten) Book People Mailing List diskutiert, existiert keine zentrale Koordinationsstelle für das Scrapen der gemeinfreien Bücher. Es sollte im Idealfall ein Buch nur einmal komplett heruntergeladen werden. Die Scans sollten dann auf einer unabhängigen Webseite zur Verfügung gestellt werden.

Die Arbeit der Distributed Proofreaders des Project Gutenberg wird auf einer Seite des dortigen Projektwikis koordiniert: http://www.pgdp.net/wiki/Google_Book_Search_Coordination#By_keichwa (deutschsprachige Bücher)

Beispiel: Der Wozzeck-Text wurde aus einer Büchner-Ausgabe von 1879 erstellt, die zwischenzeitlich von GBS nicht mehr als Volltext angeboten wurde. Hat jemand die Scans ganz oder teilweise heruntergeladen, können diese anderweitig zugänglich gemacht und zum Erstellen weiterer Texte verwendet werden.

Immer wieder musste festgestellt werden, dass Google-Digitalisate aus dem Bestand verschwinden.

Nutzung eines US-Proxys[Bearbeiten]

Kürzel: WS:GBSUS
Beispiel eines Webdienstes als US-Proxy, Eingabefeld markiert

GBS definiert das Urheberrecht sehr restriktiv und blockiert den Zugang zu Büchern nach 1873 (Stand: 2014), aber auch häufig den Zugang zu früheren (insbesondere, wenn diese schlecht gescannt oder neu digitalisiert sind) für Nicht-US-Nutzer. Dies betrifft natürlich auch - mutmaßlich weltweit - gemeinfreie Bücher, deren Autoren länger als 70 Jahre tot sind. Detailliertere Informationen zu diesem Thema bietet immer wieder: http://archiv.twoday.net/search?q=us-proxy

Sehr häufig ist es nicht nachvollziehbar, aus welchen Gründen Google von Büchern nur Ausschnitte zeigt. Bei Zeitschriften stellt man oft fest, dass einzelne Jahrgänge gesperrt sind.

Während US-Publikationen für US-Bürger oft bis 1922 einsehbar sind, gilt für ausländische Publikationen in der Regel ca. 1910 als Grenze. Auch mit Proxy kommt man nicht an die Inhalte dieser Bücher heran.

US-Proxy bedeutet, dass man Google vortäuscht, man greife aus den USA auf sein Angebot zu. Dies kann man auf verschiedene Weise bewerkstelligen:

  • Am einfachsten: indem man einen sogenannten Web-Anonymizer (üblicherweise in der Kostenlos-Version mit Werbung gepflastert) verwendet, der auf freie US-Proxys zugreift. Vorschläge siehe unten
  • Indem man einen freien Proxy aus den USA in seinem Browser installiert (empfohlen für erfahrene Nutzer, freie Proxys ändern sich rasch). Listen unterschiedlicher Aktualität findet man über Suchmaschinen unter "Proxy-Listen" oder "proxy list". Programme wie "Charon Rhino" sollen das Auffinden geeigneter Proxys automatisch erledigen können. Der US-Proxy und der meist hinter einem Doppelpunkt stehende Port müssen dann im Browser unter "Verbindungseinstellungen" o.ä. eingetragen werden. Für Firefox existiert das Tool http://www.erweiterungen.de/detail/SwitchProxy_Tool/, mit dem man zwischen Proxys wechseln kann.
  • Indem man das Add-on (für Chrome bzw. Firefox) Stealthy nutzt. Download ist problemlos möglich. Man muss aber darauf achten, dass man die Voreinstellung Used for access services than are only allowed from the U.S. (e.g. Pandora). jedes Mal neu einstellt.
  • Indem man das Firefox-Add-on Protected Search (GoogleSharing) nutzt, das auf Google-Seiten eingeschaltet Browsen und Suchen als US-Bürger ermöglicht (teilweise auch Download möglich) - zuverlässig, wenn man darauf achtet, nur google.COM und nicht google.DE aufzurufen. Das Add-on Protected Search von www.abine.com bietet Ersatz für das ursprünglich von Moxie Marlinspike entwickelte Add-on GoogleSharing. Beide Versionen nutzen den Proxy http://proxy.googlesharing.net/. Als Variante ist auch http://gs.netsend.nl/ möglich. Die letzte GS-Version 0.22 ist ohne Tricks nicht mehr kompatibel zu den neueren Firefox-Versionen gewesen.
  • Indem man unter Windows das kostenlose portable Anti-Zensur-Werkzeug UltraSurf der UltraReach Internet Corp. U.S.A verwendet, das über US-Server anonymisiert. Funktioniert mit dem Internet Explorer und Chrome. Für Firefox gibt es dazu auf der Download-Seite ein Add-on, das wie bei Google Sharing in der Statusleiste komfortables Ein-/Ausschalten erlaubt. Vorteil ist, dass der US-Proxy nicht auf Google-Seiten beschränkt ist, sondern auch für HathiTrust und andere Seiten verwendet werden kann, die eine US-IP-Adresse benötigen. Der Nachteil dagegen ist, dass kein Download ganzer Bücher möglich ist. Startet zwar korrekt, bricht aber wie fast alle Proxys regelmässig nach wenigen Megabyte ab, wohl um nicht zum illegalen Filesharing missbraucht zu werden.
  • Indem man eine andere Webanwendung nutzt, die als US-Proxy funktioniert (z.B. http://babelfish.altavista.com), wobei sich diese Möglichkeit nicht für systematische Recherchen oder Download eignet

Eine kostenfreie (aber nicht werbefreie) VPN-Verbindung kann mit Hotspot Shield erstellt werden http://www.chip.de/downloads/Hotspot-Shield_30200785.html

Der von Google angebotene PDF-Download funktioniert bei Proxy-Benutzung häufig nicht bzw. ist nur begrenzt nutzbar, da freie Proxys meist den kontinuierlichen Datenstrom begrenzen und daher der Download nach einer bestimmten Datenmenge abgebrochen wird. Mit Hilfe eines Download-Managers, der den Download vor Erreichen dieses Limits abbricht und nach einiger Zeit wieder aufnimmt, lässt sich dieses Problem umgehen.

Die Suche innerhalb eines Buches funktioniert häufig gar nicht, sonst oft nur auf der Übersichtsseite (das ist die Seite, die angezeigt wird, wenn man in der Adresse nur die ID angibt).

Ein Screencast, der die Benutzung eines Anonymizers erklärt: http://screenr.com/3a0

Liste aktueller Web-Anonymizer[Bearbeiten]

Die Anbieter stellen ihre Dienste oft nach einer Zeit ein oder beschränken den Datenverkehr. Jede URL ist daher nur als vorläufig zu betrachten und die Liste sollte bei Änderungen bereinigt oder ergänzt werden. Eine Sammlung solcher Dienste finden sich bei Seiten wie proxyliste oder proxy4free. Folgende Eigenschaften sollte ein Dienst haben: a) rasch aufrufbar, b) eine US-Adresse, c) keine oder nur moderate Werbemaßnahmen (die durch 1-2 mal klicken beseitigt werden kann), d) URL-freundlich (d.h. Links mit Buch-ID lassen sich direkt in der Hauptseite eingeben), e) die Bilder der Google-Books anzeigen und f) akzeptable download-Quoten (die meist von Tageszeit und Verkehrsaufkommen abhängig sind) erfüllen, g) die URL soll möglichst nicht nur codiert zu sehen sein, damit ihr z. B. die Google Buch-ID zur Verlinkung entnommen werden kann, weil sie sonst nirgends in den Metadaten genannt wird. (Alternative für einzelne Bücher: Buch downloaden und den Link mit der Buch-ID am Ende der Google-Hinweisseite entnehmen. Die ID wird erst sichtbar, wenn man mit Maus auf den books.google.com - Link geht)

  • Dienste mit allen Eigenschaften:

Zitieren von Büchern[Bearbeiten]

In Wikisource ist die kürzestmögliche Google-Adresse anzugeben (Buch-ID und Seiten-Codierung), Suchbegriffe sind wegzulassen.

Hat man eine Adresse in der Form
http:// books.google.com/books?ie=UTF-8&vid=OCLC00252279&id=QXXX48OyGjcC&pg=PA1&lpg=PA1&dq=quellen_hansen
kann man diese durch Behalten der ID und der Seitenzahl (in arabischen Ziffern) zusammenkürzen auf:

http:// books.google.com/books?id=QXXX48OyGjcC&pg=PA1

Es ist davon auszugehen, dass die von Google vergebene Buch-ID dauerhaft sein wird.[4]

Innerhalb von Wikisource kann die Vorlage GBS zum Verlinken eingesetzt werden (siehe Anleitung).

Beispiel: {{GBS|QXXX48OyGjcC|US}}

Die OCLC-Kennziffer kann bei der Suche nach anderen Ausgaben mit dem Operator editions eingesetzt werden:

http:// books.google.com/books?q=editions:OCLC00252279

Siehe hierzu auch: http://archiv.twoday.net/stories/706566279/

Verlinken von einzelnen Seiten[Bearbeiten]

In der Internetadresse ist grundsätzlich der Wert nach pg= für die Navigation in den Büchern zuständig. Ein konsistenter Umgang von Google mit den verschiedenen Seiten-Zählungen innerhalb eines Buchs ist nicht auszumachen. Die arabische Hauptzählung wird mit pg=PA1 (für die Seite 1), pg=PA177 (für die Seite 177) usw. angegeben (es begegnet aber auch PP, PT usw. statt PA). Bei weiteren Zählungen wird ein RA mit Ordnungszahl vorangestellt, z.B.

  • pg=RA4-PA177

A in PA steht für eine Zählung in arabischen Ziffern. PR steht für Zählung in römischen Ziffern. Auch diese kann mit RA kombiniert werden, z.B.

  • pg=RA1-PR9 (für eine Seite IX)

Bei der Eingabe in das von Google vorgegebene Feld Seite ist zu beachten, dass meist nur die Hauptzählung auf diese Weise erreicht wird. Römische Ziffern sind in Kleinbuchstaben einzugeben (also ix für IX).

Mehrere Zählungen innerhalb eines Buches können auch durch die falsche Erkennung von Seitenzahlen oder Scanfehler (doppelte oder fehlende Seiten) durch Google entstehen. Es werden dann durch Voranstellen von RA1-, RA2- usw. weitere Zählungsblöcke eingerichtet, wobei die als PA in der Adresse sowie im Feld Seite sichtbare Seitenzahl durchaus mit der richtigen Seitenzahl übereinstimmen kann.

Ändert sich beim Weiterblättern die Adressenzeile nicht, kann im Basis-HTML-Modus (rechts unten wählbar) mit der rechten Maustaste das Öffnen der Folgeseite mit korrekter Zählung (pg=) in der URL erzwungen werden, wenn man auf den Navigationspfeil nach rechts klickt.

Zitieren von Seiten mit der Vorlage GBS:

Es ist beim Zitieren von Seiten die kürzestmögliche Form zu wählen, also ID und Seitenzahl.

Sofern man eine Internetadresse wie

  • http:// books.google.com/books?id=9Q8FAAAAMAAJ &pg=PA207#PPA89-IA2,M1

vorfindet, muss man diese erst kürzen. Auf den ersten Blick könnte man annehmen, es handle sich um

  • http:// books.google.com/books?id=9Q8FAAAAMAAJ&pg=PA207

Das ist aber unzutreffend. Die Seite PA207 verweist auf eine frühere Suche, hat also keine Relevanz. Nach der Raute # steht ein P, das man ebenso zu entfernen hat, wie den Schluss ",M1". Dann ergibt sich:

  • http:// books.google.com/books?id=9Q8FAAAAMAAJ&pg=PA89-IA2

2012 führte Google einen alternativen Parameter jtp für die Seitenzählung ein. jtp=846 ist gleichbedeutend mit pg=PA846, jtp=iv ist gleichbedeutend mit pg=PR 4 (römische Zählung).

Das Angebot der Bibliothek der University of Michigan[Bearbeiten]

Als erster Bibliothekspartner hatte die UMich ein eigenes Angebot der von Google gelieferten Scans aufgezogen. Allerdings ist das Rechte-Management hinsichtlich deutscher Titel meist das gleiche wie bei Google, Nicht-US-Bürger sehen auch hier in der Regel nur Bücher, die vor der oben angegebenen Grenze erschienen sind. Es gibt allerdings auch Bände, die in Michigan, nicht aber bei Google im Volltext zugänglich sind.

Gerade bei mehrbändigen Werken ist der OPAC der UMich-Bibliothek bei der Recherche vielfach hilfreicher als die Google-Suche: http://mirlyn.lib.umich.edu/. Die Google-Digitalisate kann man mit der Eingabe Includes both image files and keyword searchable text im Keyword-Feld der Advanced Search ausfiltern.

Der UMich-OPAC bietet auch Zeit- und Sprachfilter.

HathiTrust[Bearbeiten]

2013 wurde das Erscheinungsbild von HathiTrust verändert. Um mit US-Proxy die Seiten nach wie vor einsehen zu können, muss man den markierten Button auswählen.
Kürzel: WS:HT
Kürzel: WS:Hathi

Die Google-Digitalisate von Michigan und weiterer US-Bibliotheken (sowie von Madrid) lagern auf dem kooperativen Server HathiTrust (URL:hathitrust.org), dessen Metadatensuche oft besser als die der Google Buch-Suche ist.

HathiTrust folgt in der Regel, aber nicht ausnahmslos Googles Rechte-Management für US-Bürger, was im Einzelfall bedeuten kann, dass in HathiTrust Bücher für Europäer noch zugänglich sind, zu denen Google den Zugang verwehrt.

Wichtiger ist freilich die 2010 getroffene Entscheidung von HathiTrust, in der Regel die vor 1922 erschienenen Bücher und Zeitschriften für US-Bürger freizugeben, auch wenn Google dies nicht tut. Daher empfiehlt sich für die ab ca. 1910 erschienenen europäischen Bücher und Zeitschriften in HathiTrust die Nutzung eines US-Proxy. Nachteilig ist, dass nur einzelne Seiten als Download zur Verfügung stehen. Von Google digitalisierte Public-Domain-Bände können als Ganzes (als PDFs) nur von Angehörigen der Mitgliedsinstitutionen mit deren Login heruntergeladen werden.

2013 wurde das Erscheinungsbild von HathiTrust verändert. Um mit US-Proxy die Seiten nach wie vor einsehen zu können, muss man den auf dem Bild markierten Button auswählen.

HathiTrust PDF-Download[Bearbeiten]

Zum PDF-Download ganzer Bände gemeinfreier Werke (soweit sie von Google digitalisiert wurden) benötigt man seit 2010 ein Konto bei einer der HathiTrust-Partner-Bibliotheken, um sich authentifizieren zu können. Ein University of Michigan Friend account genügt leider nicht.

Dies war eigentlich recht einfach. Man gibt als URL ein: http://babel.hathitrust.org/cgi/imgsrv/pdf?id= und die ID (gewöhnlich etwas wie: mdp.39015009712970). (Die gesamt URL sähe dann beispielsweise so aus http://babel.hathitrust.org/cgi/imgsrv/pdf?id=mdp.39015009712970). Wenn es sich um Bücher handelt, die nur für US-Bürger freigeschaltet sind, so gebe man die Adresse einem Web-Anonymizer mit hinreichender download-Kapazität. Derzeit ist die Funktion allerdings deaktiviert (es wird nur die erste Seite ausgegeben). Dies hängt damit zusammen, dass nur die Angehörigen der Partnerinstitutionen von HathiTrust Zugriff auf diese Möglichkeit haben sollen.

Die Seite Hathi Trust uploadbare Bestände verzeichnet diejenigen Bücher, die von Nutzern gesichert werden konnten und bei Bedarf bei Commons oder IA hochgeladen werden können.

Alternative 1: HathiHelper[Bearbeiten]

Ohne Bibliotheks-Konto bietet der sogenannte „HathiHelper“ eine Möglichkeit zum halb-automatisierten Download ganzer Bände, welche auf der HathiTrust-Programmierschnittstelle aufsetzt (Entwickler finden die offizielle Dokumentation der HathiTrust Data API hier).

Diese Methode wurde schon 2009 im Internet-Forum ScienceMadness beschrieben und funktioniert immer noch einwandfrei. Mit der unterschiedlichen „Moving Wall“ von Google und HathiTrust hat sie wieder an Bedeutung gewonnen.

Der „HathiHelper“ ist ein Python-Skript des Foren-Superadministrator Polverone, das die Scans wie ggf. OCR-Texte seitenweise sammelt und auf dem lokalen Rechner abspeichert. Die englische Anleitung beschränkt sich auf Microsoft Windows und Unix-Derivate (Linux). Apple’s Betriebssystem Mac OS X hat einen Python-Interpreter bereits vorinstalliert, so dass das Skript Plattform-übergreifend einsetzbar ist. Dank der Bebilderung ist die Bedienung des Kommandozeilen-Werkzeugs auch unter Windows weitestgehend selbsterklärend. Das Skript für die Version 3.0 funktioniert übrigens auch mit der aktuellen Version 3.1.2.

Unter Windows werden die Proxy-Einstellungen des Internet Explorers benutzt. Der US-Proxy darf also in diesem Falle nicht allein im Firefox-Browser eingetragen sein, sofern dieser als Standard-Browser dient. Unter Linux werden automatisch die HTTP Proxy-Umgebungsvariable ausgewertet und der ggf. aktivierte US-Proxy verwendet.

Alternative 2: HathiDownloadHelper[Bearbeiten]

Eine weitere Möglichkeit stellt das Programm „Hathi Download Helper“ dar. Es handelt sich hierbei um eine mittels Qt entwickelte Web-Anwendung und bietet dem Benutzer eine Bedieneroberfläche. Ähnlich wie beim HathiHelper werden die Scans und ggf. OCR-Texte seitenweise heruntergeladen, auf dem lokalen Rechner abgespeichert und zu einer einzelnen pdf Datei zusammengefasst.

Die Original-Scans liegen als Rastergrafik-Dateien bei Schwarz-Weiß-Bildern im Tagged Image File Format (TIFF) vor – in der Regel mit „Fax Group 4“-Komprimierung, bei Graustufen- oder Farbbildern im JPEG- (JPG) bzw. besser JPEG 2000-Format (JP2) für eine verlustärmere Komprimierung. Die OCR-Texte sind UTF-8-kodiert und beinhalten keinerlei Format-Informationen. Der „HathiHelper“ kopiert die Originaldateien eins zu eins. Um daraus wieder Portable Document Format-Dateien (PDF) zu machen, die dank der Vektorgrafik-fähigen Seitenbeschreibungssprache verlustfrei mit der jeweils höchstmöglichen Auflösung auf unterschiedlichen Bildschirmen oder Druckern ausgegeben werden können, bedarf es zusätzlicher Werkzeuge. Der HathiTrust Image Server selbst verwendet ImageMagick für seine PDF-Seiten-Export-Funktion (1-page PDF view for printing).

Zum Download der als gemeinfrei eingestuften Bücher (vor 1874 erschienen) geht man folgendermaßen vor:

  1. Gewünschtes Buch / Band im Browserfenster aufrufen oder einen Link z.B bei wikisource kopieren, dann weiter mit (3.)
  2. Wenn das Buch / der Band im Browser angezeigt wird, den HathiDownloadHelper starten
  3. Adresszeile aus dem Browserfenster kopieren => Dadurch wird sie automatisch ins HathiDownloadHelper-Fenster geladen, oder manuell mit Copy-paste in das Feld „Book URL“ einfügen
  4. Rechts "Get Book Info" betätigen, damit die Metadaten aus HathiTrust geladen werden
  5. Im Mittelfenster unter "Download Pages as" die Option "images" wählen. Die standardmäßig vorgegebene Vergrößerung mit 200% (192 dpi) reicht im Normalfall gut aus, sonst größere Option wählen. Um (nur) einen schnellen Überblick über ein Buch/Werk zu erhalten (Verlag, Autoren, Inhaltsverzeichnis, beigebundene Ausgaben und dergleichen mehr) reichen oft auch 50% oder 75% Auflösung. Die OCR Text Daten kann man abwählen. Die Wahl dieser Optionen beschleunigen den Download fühlbar und reichen für einen schnellen Überblick meist aus.
  6. Rechts "start download" betätigen => Der Download des Buches Seite für Seite beginnt
  7. Nach dem Download fügt der Helper automatisch die Seiten wieder zu einer PDF zusammen

Anmerkungen:

  1. Es empfiehlt sich, nicht das vorgegebene "normale" Downloadverzeichnis zu übernehmen, sondern einen Extraordner für alle HT-Downloads anzulegen, das bleibt übersichtlicher
  2. Der HathiDownloadHelper fügt im ausgewählten Verzeichnis bis zu 3 Unterordner (images, ocr, pdf) ein, in denen er die Dateien für jede einzelne Seite permanent ablegt
  3. Wenn man die Option „create pdf book after download“ abwählt, kann man die heruntergeladenen Bilddateien bearbeiten (z. B Formate ändern, Bildgröße verändern, unten oder oben im Bild etwas abschneiden, was stört, auch per batch für viele Bilddateien gleichzeitig). Sofern die Bilddateien nach der Bearbeitung im für dieses Buch gewählten „image“-Verzeichnis des Hathi Download Helpers liegen, kann man mit den „PDF merge und conversion“ Optionen anschließend fortfahren.
  4. Es empfiehlt sich daher, nach erfolgtem Wiederzusammensetzen der einzelnen Seiten zur PDF des Buches die Unterordner wieder zu löschen (es sei denn, ihr wollt Grafiken aus dem Buch bearbeiten, das macht sich besser an der jpg- oder png-Datei, die im Unterordner "images" zu finden ist)

Mit dem „HathiHelper“ einmal gesammelt, brauchen die sonst für Nicht-US-Bürger unzugänglichen Digitalisate nur noch in ein Repositorium ohne derartige Beschränkungen hochgeladen zu werden (siehe etwa Wikisource:Internet Archive).

Alternative 3: Download mit kostenfreiem Web-Anonymizer[Bearbeiten]

Bücher mit Erscheinungsdatum zwischen 1873 und 1923 sind nur von einem US-Rechner aufzurufen. Das "normale" Tricksen mit anonymous proxy von hide.me etc. funktioniert nicht. Eine Möglichkeit die System ohne Bezahlung, also mit einem kostenfreien Proxy, zu umgehen, ist das Einloggen über FlyVPN (Download: flyvpn.com). Anleitung:

  1. Rufe das gewünschte Buch schon in einem Browserfenster auf (so wirst du erstmal nichts sehen, siehe Punkt 4)
  2. Führe die flyvpn.exe-Datei aus, ruf parallel in einem separaten Browserfenster http://www.flyvpn.com/de/freetrial auf und gib die aktuellen Login-Daten wie dort angezeigt ein
  3. Wähle einen der im nächsten Fenster ausgewählten Server und betätige oben rechts "Connect"
  4. Nachdem die Verbindung hergestellt ist, betätige die "Neu laden"-Funktion des Browserfensters, in dem das gewünschte Buch aufgerufen ist.
  5. Wenn das Buch nunmehr angezeigt wird, starte den HathiDownloadHelper und setze fort wie oben unter "HathiDownloadHelper" beschrieben fort
  6. Du kannst nunmehr 20 Minuten herunterladen, das reicht im Normalfall für ein Buch völlig aus. Sollte es ausnahmsweise bei Serverüberlastung oder vielen Seiten, die ein Buch hat, nicht ausreichen, brich den Download schnell nach den 20 Minuten ab ("Cancel Download"), da sonst nur noch schwarze, leere Seiten geladen werden.

Wichtig:

  1. Wähle wie oben beschrieben die Option "Download pages as IMAGES" gewählt hast, denn nur da lädt eine Seite nach der anderen sofort, bei Download pages as PDF ist seitens Hathitrust ein Limit von 10 Seiten pro 5 Minuten eingebaut
  2. Mit Windows Vista kann, wenn einmal die 20 Minuten nicht für den Download des gesamten Buches ausreichen, der Download nach 5 Minuten wiederaufgenommen werden. Dazu ist es aber wichtig, dass ihr dasselbe Verzeichnis als Zielordner für den Download auswählt wie beim ersten (Teil)Download.
  3. Vor Wiederaufnahme des Downloads im Unterordner "images" und "ocr" die letzten Seiten prüfen und die leeren Dateien löschen (Hintergrund: Der DownloadHelper lädt auch nach Unterbrechnung der Verbindung über flyvpn weiter, allerdings zeigt der Hathitrust-Server die einzelnen Seiten nicht mehr an, da jeder Aufruf einer Seite als neue Verbindung gilt und wenn die nicht von einem US-Rechner aus erfolgt, zeigt der Server nichts an.) Nur so setzt der Download an der richtigen Seite wieder ein.
  4. Bei Windows 7 scheint die Wiederaufnahme eines Downloads nicht möglich. Auch wenn man wie unter 2) und 3) beschrieben verfährt, fängt der Download immer wieder von vorn an.
  5. Pro Tag sind maximal 3 kostenlose Verbindungen über flyvpn à 20 Minuten, jeweils mit mindestens 5 Minuten Zwangspause zwischendurch, möglich.

Partnerbibliotheken[Bearbeiten]

Welche Partner sich am Google-Bibliotheks-Projekt beteiligen und spezifische Suchmöglichkeiten nach Digitalisaten aus diesen Bibliotheken sind auf eigenen Unterseiten dokumentiert.

Neben HathiTrust bieten Gent, München, Oxford, Den Haag und Wien die von Google gelieferten Scans in eigenen Angeboten an. Um die Proxy-Problematik zu umgehen, lohnen die auch über die Europeana auffindbaren Oxforder Digitalisate einen Blick.

Eine übergreifende Volltextsuche hat davon nur realisiert Austrian Books Online (Wien).

Gespiegelte Google-Digitalisate im Internet Archive[Bearbeiten]

Im Internet Archive sind im großen Umfang Google-Digitalisate - auch solche, die nur mit US-Proxy nutzbar sind - gespiegelt. Siehe dazu ausführlich: Wikisource:Internet Archive.

Nachweise von Google-Digitalisaten[Bearbeiten]

Abgesehen von den Angeboten der Partnerbibliotheken und abgesehen von Wikisource gibt es einige Linklisten und Datenbanken, die in nennenswertem Umfang Google-Digitalisate verlinken. Eine gewiss sehr lückenhafte Liste:

Entfernen des Wasserzeichens „Digitized by Google“[Bearbeiten]

Dies geht im PDF mit Adobe Acrobat Pro (Writer, nicht Reader) einfach: im Menü unter „Erweitert/Schwärzung/Zum Schwärzen markieren“ wählen, das erste Wasserzeichen markieren und das auf der Folgeseite ebenfalls, „Schwärzungen anwenden“, speichern und sämtliche Wasserzeichen im pdf verschwinden.

Mit Freier Software/von Hand kann im Bytestrom der PDF-Datei ein in jeder Seite auftauchender Parameter eliminiert werden - beispielsweise mit Suchen&Ersetzen in einem Hex-Editor wie GHex oder mit dem Kommandozeilenwerkzeug sed - und anschließend mit dem Kommandozeilenwerkzeug qpdf (oder möglicherweise auch pdftk) die resultierende Datei repariert werden. Alternativ kann auch mit dem PDF-Editor PDFedit auf jeder Seite einzeln per Auswahlwerkzeug das entsprechende Graphikelement markiert und dann entfernt werden. Mit diesem Werkzeug kann auch der Name des erwähnten Parameters ausfindig gemacht werden.

Nachweise[Bearbeiten]

  1. http://archiv.twoday.net/stories/1317388/
  2. http://archiv.twoday.net/stories/3154979/
  3. Siehe die Darstellung von M. Schindler http://blog.outer-court.com/archive/2007-02-13-n40.html
  4. U. a. Aussage einer Google-Booksearch-Mitarbeiterin auf der Frankfurter Buchmesse 2006, dass die ID Kern der Datenbankstruktur ist und nicht verändert werden wird.

Weblinks[Bearbeiten]