Wikisource:Google Book Search

aus Wikisource, der freien Quellensammlung
Zur Navigation springen Zur Suche springen
Kürzel: WS:GBS
Kürzel: WS:GOOGLE

Google Book Search (GBS oder Google BS, ursprünglich Google Print) ist ein Angebot der Suchmaschinen-Firma Google Inc., das gemeinfreie als auch urheberrechtlich geschützte Bücher, diese aber nur in Auszügen - online kostenfrei bereitstellt.

http://books.google.com

GBS besteht aus einem Verlagsprogramm, bei dem Google Bücher von Verlagen mit deren Einverständnis scannt oder als PDF erhält, und einem (vor allem aus urheberrechtlichen Gründen umstrittenen) Bibliotheks-Projekt, bei dem von jüngeren geschützten Werken nur Ausrisse angezeigt werden.

Nähere Informationen siehe allgemein Wikipedia-Artikel zu Google Book Search

Anwendung für Wikisource[Bearbeiten]

Für das Hochladen von gescannten Seiten aus GBS auf Wikimedia Commons und die Abschrift von Texten auf Wikisource gelten grundsätzlich die jeweiligen Regeln zur Beachtung des Urheberrechts.

Es hat eine genaue Prüfung vor der Übernahme jeden Textes voranzugehen. Fragen können auf Wikisource:Skriptorium gestellt werden.

Vor allem bei Ausgaben älterer gemeinfreier Autoren muss untersucht werden, ob die konkrete Textgestalt urheberrechtlich geschützt ist.

Auffinden von Büchern[Bearbeiten]

Googles Suchfunktion kann nur als höchst mangelhaft bezeichnet werden, da man nicht selten vorhandene Bücher mit Suchabfragen nicht findet, obwohl man sie finden müsste. Das ist insbesondere bei mehrbändigen Werken der Fall.

Beispiel: Die Datenbank http://pdbooks.zuhause.org weist zahlreiche Bände von Riedels Codex diplomaticus Brandenburgensis nach, die 2006 auch über die Suchfunktion gefunden werden konnten. 2007 fand man aber zeitweilig nur noch drei Bände (die anderen waren jedoch ebenfalls noch präsent, nur nicht über eine normale Suche nach Metadaten auffindbar).[1] Liste der Bände nun im Autorenartikel Adolph Friedrich Johann Riedel.

Daher ist es wichtig, von Google unabhängige Listen oder Datenbanken mit Nachweisen aus GBS zu pflegen (siehe etwa Autorinnen, Zeitschriften oder in der Wikipedia w:Bibliothek des Litterarischen Vereins in Stuttgart).

Siehe auch: http://archiv.twoday.net/stories/837865/

Zum Angebot der Bibliothek der UMich siehe unten.

Von Googles Partnerbibliotheken verlinken bislang in den eigenen Katalogen auf die Google-Digitalisate:

Darüber hinaus sind einige tausend Titel katalogisiert im Katalog der Indiana University:

Über ein Google-API können Bibliotheken in ihren Katalogen die Existenz von Büchern bei Google Books samt Angabe der Zugriffsmöglichkeiten anzeigen, wenn die Bücher über bestimmte standardisierte Kennziffern (z.B. ISBN) erreichbar sind. Davon macht beispielsweise der Google-Partner University of California Gebrauch (siehe OPAC Melvyl). Daher ist ein Teil des Gesamtbestandes von Google Books auch im Worldcat auffindbar. Allerdings gibt es noch keine Möglichkeit einer entsprechenden Filterung.

Suchtipps[Bearbeiten]

Die Suche lässt sich schon bei Eingabe des Suchbegriffes auf bestimmte Kriterien einschränken. Möglich ist die Suche nach:

  • Titel (intitle:Suchbegriff)
  • Autor (inauthor:Suchbegriff)
  • Verlag (inpublisher:Suchbegriff)
  • Erscheinungsdatum (date:1800-1900), inzwischen nur noch in Verbindung mit einer anderen Suche
  • ISBN (isbn:0060930314)

Siehe dazu auch Google Buchsuche: Erweiterte Buchsuche

Manchmal bekommt man mit einer kleinen Änderung der Suchabfrage eine komplett andere Auswahl. Etwa trotz inauthor: nach einem Stichwort suchen. Bei Doppelvornamen einen weglassen etc.

Mängel der Scans und der OCR[Bearbeiten]

Nicht selten sind gescannte Seiten unbrauchbar

Sehr häufig sind Seiten schlecht gescannt oder fehlen ganz. Manchmal kann man in GBS ein zweites Exemplar der betreffenden Auflage finden, mit dem man Lücken schließen kann.

Bei der Volltextsuche berücksichtigt Google nicht alle Treffer in einem Buch [2]. Liegt ein Buch in den MBooks von UMich vor, ist dort anders als bei Google eine komplette Liste der gefundenen Seiten abrufbar.

OCR[Bearbeiten]

Die Schrifterkennung (OCR) war bei deutschsprachigen Texten eher mäßig, bei Frakturschriften völlig unbrauchbar (Beispiel). Anfang 2008 konnte allerdings festgestellt werden, dass vereinzelt auch eine durchaus brauchbare Fraktur-OCR eingesetzt wird. Bei Exemplaren, die nach Mitte 2008 gescannt sind, ist sie unterdessen oft sogar sehr gut. Den Text kann man sich auf der Seite Read this book in der Ansicht Plain text anzeigen lassen, wo sich dann der Text von fünf Seiten (oft durchsetzt mit Bild-Schnipseln nicht erkannter, teilweise aber auch erkannter Passagen) herauskopieren lässt. Seit 2017 ist festzustellen, dass Google bei den PDF-Dateien den erkannten Text mitliefert, so dass die heruntergeladene Datei durchsucht und ggf. der komplette Text herauskopiert werden kann.

Seit Herbst 2009 bietet GBS bei einigen Büchern auch eine EPUB-Datei zum Herunterladen an, was die Textgewinnung noch einfacher macht: die epub-Datei entpacken (mit Zip oder Winrar oder Stuffit o.ä.), was zu einem Ordner mit mehreren Ordnern und Dateien führt. In dem Ordner OEPBS liegen durchnummerierte Dateien wie Content-009.xml, die den Text enthalten. Einfach in einem Browser öffnen und den Text herauskopieren.

In neuerer Zeit (2011) splittet Google die epub-Dateien in Dutzende bis Hunderte "Content"-Subdateien, was den OCR-Ernte-Aufwand erheblich steigern würde. Book-Reader-Programme wie "Calibre" (Mac) können allerdings epub-Dateien umstandslos in PDFs umwandeln, von denen aus die OCR händisch (seitenweise) oder als Text-Import (gesamt) geerntet werden kann (was sogar den Vorteil hat, dass die nichterkannten Seiten als Bilddatei integriert sind).

Mängel der Metadaten[Bearbeiten]

Sehr häufig sind die bibliographischen Angaben zu den Büchern falsch oder lückenhaft. Da bei Zeitschriften und mehrbändigen Werken irreführende Angaben zu Beginn des Projekts die Regel waren, bedarf es bei Büchern, die nur in Auszugsform präsentiert werden, einer gewissen Findigkeit, um den Band zu ermitteln (Tipps dazu: http://archiv.twoday.net/stories/4128885/).

"Weitere Ausgaben" auffinden[Bearbeiten]

In der URL ist &as_pt=ALLTYPES anzuhängen, wenn man die Anzeige "weiterer Ausgaben" wünscht, siehe SKR.

Umgehen von Googles Digital Rights Management[Bearbeiten]

Während bei von Google als Public Domain gekennzeichneten Titeln die Seiten einzeln heruntergeladen werden können und oft auch ein PDF-Download zur Verfügung steht, sind die mit "Eingeschränkte Vorschau" gekennzeichneten Titel des Verlags-Programms gegen Abspeichern und Ausdrucken wenigstens oberflächlich gesichert.

Die entsprechende Grafik ist aber durch Kenntnis der Darstellung von Seiten in Browsern ohne weiteres separat aufrufbar. Da die Umgehung vergleichsweise trivial ist, wird man bezweifeln dürfen, ob dieses Digital Rights Management als wirksame technische Maßnahme nach § 95a UrhG anzusprechen ist. Ist sie nicht wirksam, kann der urheberrechtliche Inhalt etwa zum Zweck der Privatkopie rechtmäßig abgespeichert werden.

Bei reinen Nachdrucken gemeinfreier Werke, die von Google als geschützt betrachtet werden, kommt die Anwendung der urheberrechtlichen Vorschriften nicht in Betracht. Daher ist es in jedem Fall legal, bei solchen Reprints die - etwa durch wiederholte Suchvorgänge - auffindbaren Seiten abzuspeichern und anderweitig zu veröffentlichen.

Beispiel: Das Buch von Julius Wellhausen Prolegomena zur ältesten Geschichte des Islams ist bei Google nur teilweise zugänglich, es handelt sich aber lediglich um einen Faksimilenachdruck der gemeinfreien Erstausgabe.

Für den Browser Firefox wird das Abspeichern einer Beispielseite erläutert:

  • Mit rechter Maustaste "Seiteninformationen anzeigen" aufrufen
  • Unter dem Reiter "Medien" ist auch die Grafik aufgelistet, die das geschützte Bild darstellt
  • Mit der rechten Maustaste kann die Adresse der Grafik kopiert werden

Etwas einfacher funktioniert der Weg über das Menü Ansicht | Webseiten-Stil | Kein Stil, der die Bilder kopierbar anzeigt.

In Chrome wählt man im Menü der rechten Maustaste "Untersuchen". Die Grafiken sind unter "Sources" aufgelistet. Siehe auch https://archivalia.hypotheses.org/62915.

Abspeichern in Chrome

Alternativ kann die Adresse der Grafik auch dem Quelltext der Seite entnommen werden.

Mit unter http://antimachine.wordpress.com/2008/12/24/how-to-download-books-from-google-books/ beschriebenen Firefox-Erweiterungen kann man alle Seiten eines Buchs herunterladen. Ebenso mit http://www.gbooksdownloader.com/.

Die gleiche DRM-Technik liegt auch der Amazon-Präsentation von Buchinhalten und dem (nicht mehr vorhandenen) Libreka-Angebot des deutschen Buchhandels zugrunde[3].

Das Kopieren von gemeinfreien Inhalten aus Google Books ist bei deaktiviertem Java-Script mit rechter Maustaste möglich.

Einsehen vermeintlich nicht sichtbarer Seiten[Bearbeiten]

Nicht selten kann man in teilweise angezeigten Büchern beim Blättern nicht angezeigte Seiten einsehen, wenn man in der URL ihre Seitencodierung angibt (siehe unten).

Zusätzliche Informationen der Trefferliste bzw. den Schnipseln entlocken[Bearbeiten]

Einen Trick dazu ("Growing Snippets") stellt vor: https://archivalia.hypotheses.org/134211 (2021).

Googles Nutzungsrichtlinien[Bearbeiten]

Nach deutschem Recht ist GBS wohl eine geschützte (einfache) Datenbank nach § 87a UrhG. Public-Domain-Bücher dürfen aber ohne weiteres dem Angebot entnommen und anderweitig ins Internet eingestellt werden. Jedem als PDF heruntergeladenen Digitalisat stellt Google nicht Nutzungsbedingungen voran, wie es Bibliotheken tun, sondern Nutzungsrichtlinien. Hierin wird gebeten, "diese Dateien nur für persönliche, nichtkommerzielle Zwecke [zu] verwenden". Es wird aber keineswegs ein Verbot ausgesprochen. Eine Stellungnahme Googles stellt dies nochmals ausdrücklich klar:

"We have gotten this question in the past. The front matter of our PDF books is not a EULA [end user license agreement]. We make some requests, but we are not trying to legally bind users to those requests. We've spent (and will continue to spend) a lot of time and money on Book Search, and we hope users will respect that effort and not use these files in ways that make it harder for us to justify that expense (for example, by setting up the ACME Public Domain PDF Download service that charges users a buck a book and includes malware in the download). Rather than using the front matter to convey legal restrictions, we are attempting to use it to convey what we hope to be the proper netiquette for the use of these files."

Die Ausführungen auf der Vorsatzseite des PDFs haben also keinen rechtlich bindenden Charakter.

Herunterladen von ganzen Werken[Bearbeiten]

Obwohl auf der (Ende 2007 eingestellten) Book People Mailing List diskutiert, existiert keine zentrale Koordinationsstelle für das Scrapen der gemeinfreien Bücher. Es sollte im Idealfall ein Buch nur einmal komplett heruntergeladen werden. Die Scans sollten dann auf einer unabhängigen Webseite zur Verfügung gestellt werden.

Die Arbeit der Distributed Proofreaders des Project Gutenberg wird auf einer Seite des dortigen Projektwikis koordiniert: http://www.pgdp.net/wiki/Google_Book_Search_Coordination#By_keichwa (deutschsprachige Bücher)

Beispiel: Der Wozzeck-Text wurde aus einer Büchner-Ausgabe von 1879 erstellt, die zwischenzeitlich von GBS nicht mehr als Volltext angeboten wurde. Hat jemand die Scans ganz oder teilweise heruntergeladen, können diese anderweitig zugänglich gemacht und zum Erstellen weiterer Texte verwendet werden.

Immer wieder musste festgestellt werden, dass Google-Digitalisate aus dem Bestand verschwinden.

Nutzung eines US-Proxys[Bearbeiten]

Kürzel: WS:GBSUS
Beispiel eines Webdienstes als US-Proxy, Eingabefeld markiert

GBS definiert das Urheberrecht sehr restriktiv und blockiert den Zugang zu Büchern nach 1886 (Stand: 2022), aber auch häufig den Zugang zu früheren (insbesondere, wenn diese schlecht gescannt oder neu digitalisiert sind) für Nicht-US-Nutzer. Dies betrifft natürlich auch - mutmaßlich weltweit - gemeinfreie Bücher, deren Autoren länger als 70 Jahre tot sind.

Sehr häufig ist es nicht nachvollziehbar, aus welchen Gründen Google von Büchern nur Ausschnitte zeigt. Bei Zeitschriften stellt man oft fest, dass einzelne Jahrgänge gesperrt sind.

Während US-Publikationen für US-Bürger oft bis 1922/1924 (Stand: 2020) einsehbar sind, gilt für ausländische Publikationen in der Regel ca. 1910 als Grenze. Auch mit Proxy kommt man nicht an die Inhalte dieser Bücher heran.

US-Proxy bedeutet, dass man Google vortäuscht, man greife aus den USA auf sein Angebot zu. Dies kann man auf verschiedene Weise bewerkstelligen:

  • Am einfachsten: indem man einen sogenannten Web-Anonymizer (üblicherweise in der Kostenlos-Version mit Werbung gepflastert) verwendet, der auf freie US-Proxys zugreift. Vorschläge siehe unten
  • Indem man einen freien Proxy aus den USA in seinem Browser installiert (empfohlen für erfahrene Nutzer, freie Proxys ändern sich rasch). Listen unterschiedlicher Aktualität findet man über Suchmaschinen unter "Proxy-Listen" oder "proxy list". Programme wie "Charon Rhino" sollen das Auffinden geeigneter Proxys automatisch erledigen können. Der US-Proxy und der meist hinter einem Doppelpunkt stehende Port müssen dann im Browser unter "Verbindungseinstellungen" o.ä. eingetragen werden. Für Firefox existiert das Tool http://www.erweiterungen.de/detail/SwitchProxy_Tool/, mit dem man zwischen Proxys wechseln kann.
  • Indem man das Add-on (für Chrome bzw. Firefox) Stealthy nutzt. Download ist problemlos möglich. Man muss aber darauf achten, dass man die Voreinstellung Used for access services than are only allowed from the U.S. (e.g. Pandora). jedes Mal neu einstellt.
  • Indem man das Add-on Zenmate nutzt.
  • Indem man einen eigenen virtuellen Server in den USA mietet und darauf je nach Konfigurationmöglichkeiten entweder einen Software-Proxy oder besser Squid installiert. Squid muss so eingestellt sein, dass es nicht den Standard-Port verwendet und der Ziel-Adresse keine Auskunft darüber gibt, dass es zwischengeschaltet ist. Es gibt im Internet Möglichkeiten zu prüfen, ob die verwendete IP-Adresse erkennbar einen Proxy verwendet. Wenn alles richtig konfiguriert ist, gibt es die im folgenden beschriebenen Einschränkungen der Nutzung nicht.

Der von Google angebotene PDF-Download funktioniert bei Proxy-Benutzung häufig nicht bzw. ist nur begrenzt nutzbar, da freie Proxys meist den kontinuierlichen Datenstrom begrenzen und daher der Download nach einer bestimmten Datenmenge abgebrochen wird. Mit Hilfe eines Download-Managers, der den Download vor Erreichen dieses Limits abbricht und nach einiger Zeit wieder aufnimmt, lässt sich dieses Problem umgehen.

Die Suche innerhalb eines Buches funktioniert häufig gar nicht, sonst oft nur auf der Übersichtsseite (das ist die Seite, die angezeigt wird, wenn man in der Adresse nur die ID angibt).

Tutorial auf YouTube (deutsch, 2013): https://www.youtube.com/watch?v=d3xPHI_z7fA

Ein Screencast, der die Benutzung eines Anonymizers erklärt: http://screenr.com/3a0

Liste aktueller Web-Anonymizer[Bearbeiten]

Die Anbieter stellen ihre Dienste oft nach einer Zeit ein oder beschränken den Datenverkehr. Jede URL ist daher nur als vorläufig zu betrachten und die Liste sollte bei Änderungen bereinigt oder ergänzt werden. Eine Sammlung solcher Dienste finden sich bei Seiten wie proxyliste oder proxy4free. Folgende Eigenschaften sollte ein Dienst haben: a) rasch aufrufbar, b) eine US-Adresse, c) keine oder nur moderate Werbemaßnahmen (die durch 1-2 mal klicken beseitigt werden kann), d) URL-freundlich (d.h. Links mit Buch-ID lassen sich direkt in der Hauptseite eingeben), e) die Bilder der Google-Books anzeigen und f) akzeptable download-Quoten (die meist von Tageszeit und Verkehrsaufkommen abhängig sind) erfüllen, g) die URL soll möglichst nicht nur codiert zu sehen sein, damit ihr z. B. die Google Buch-ID zur Verlinkung entnommen werden kann, weil sie sonst nirgends in den Metadaten genannt wird. (Alternative für einzelne Bücher: Buch downloaden und den Link mit der Buch-ID am Ende der Google-Hinweisseite entnehmen. Die ID wird erst sichtbar, wenn man mit Maus auf den books.google.com - Link geht)

Zitieren von Büchern[Bearbeiten]

In Wikisource ist die kürzestmögliche Google-Adresse anzugeben (Buch-ID und Seiten-Codierung), Suchbegriffe sind wegzulassen.

Hat man eine Adresse in der Form
http:// books.google.com/books?ie=UTF-8&vid=OCLC00252279&id=QXXX48OyGjcC&pg=PA1&lpg=PA1&dq=quellen_hansen
kann man diese durch Behalten der ID und der Seitenzahl (in arabischen Ziffern) zusammenkürzen auf:

http:// books.google.com/books?id=QXXX48OyGjcC&pg=PA1

Es ist davon auszugehen, dass die von Google vergebene Buch-ID dauerhaft sein wird.[4]

Innerhalb von Wikisource soll die Vorlage GBS zum Verlinken eingesetzt werden (siehe Anleitung).

Beispiel: {{GBS|QXXX48OyGjcC|US}}

Die OCLC-Kennziffer kann bei der Suche nach anderen Ausgaben mit dem Operator editions eingesetzt werden:

http:// books.google.com/books?q=editions:OCLC00252279

Siehe hierzu auch: https://archivalia.hypotheses.org/5023

Verlinken von einzelnen Seiten[Bearbeiten]

In der Internetadresse ist grundsätzlich der Wert nach pg= für die Navigation in den Büchern zuständig. Ein konsistenter Umgang von Google mit den verschiedenen Seiten-Zählungen innerhalb eines Buchs ist nicht auszumachen. Die arabische Hauptzählung wird mit pg=PA1 (für die Seite 1), pg=PA177 (für die Seite 177) usw. angegeben (es begegnet aber auch PP, PT usw. statt PA). Bei weiteren Zählungen wird ein RA mit Ordnungszahl vorangestellt, z.B.

  • pg=RA4-PA177

A in PA steht für eine Zählung in arabischen Ziffern. PR steht für Zählung in römischen Ziffern. Auch diese kann mit RA kombiniert werden, z.B.

  • pg=RA1-PR9 (für eine Seite IX)

Bei der Eingabe in das von Google vorgegebene Feld Seite ist zu beachten, dass meist nur die Hauptzählung auf diese Weise erreicht wird. Römische Ziffern sind in Kleinbuchstaben einzugeben (also ix für IX).

Mehrere Zählungen innerhalb eines Buches können auch durch die falsche Erkennung von Seitenzahlen oder Scanfehler (doppelte oder fehlende Seiten) durch Google entstehen. Es werden dann durch Voranstellen von RA1-, RA2- usw. weitere Zählungsblöcke eingerichtet, wobei die als PA in der Adresse sowie im Feld Seite sichtbare Seitenzahl durchaus mit der richtigen Seitenzahl übereinstimmen kann.

Zitieren von Seiten mit der Vorlage GBS:

Es ist beim Zitieren von Seiten die kürzestmögliche Form zu wählen, also ID und Seitenzahl.

Sofern man eine Internetadresse wie

  • http:// books.google.com/books?id=9Q8FAAAAMAAJ &pg=PA207#PPA89-IA2,M1

vorfindet, muss man diese erst kürzen. Auf den ersten Blick könnte man annehmen, es handle sich um

  • http:// books.google.com/books?id=9Q8FAAAAMAAJ&pg=PA207

Das ist aber unzutreffend. Die Seite PA207 verweist auf eine frühere Suche, hat also keine Relevanz. Nach der Raute # steht ein P, das man ebenso zu entfernen hat, wie den Schluss ",M1". Dann ergibt sich:

  • http:// books.google.com/books?id=9Q8FAAAAMAAJ&pg=PA89-IA2

2012 führte Google einen alternativen Parameter jtp für die Seitenzählung ein. jtp=846 ist gleichbedeutend mit pg=PA846, jtp=iv ist gleichbedeutend mit pg=PR 4 (römische Zählung).

Die Seitencodierungen sind nicht dauerhaft. Es kommt gar nicht so selten vor, dass Google die Zählung ändert.

Das Angebot der Bibliothek der University of Michigan[Bearbeiten]

Als erster Bibliothekspartner hatte die UMich ein eigenes Angebot der von Google gelieferten Scans aufgezogen. Allerdings ist das Rechte-Management hinsichtlich deutscher Titel meist das gleiche wie bei Google, Nicht-US-Bürger sehen auch hier in der Regel nur Bücher, die vor der oben angegebenen Grenze erschienen sind. Es gibt allerdings auch Bände, die in Michigan, nicht aber bei Google im Volltext zugänglich sind.

Gerade bei mehrbändigen Werken ist der OPAC der UMich-Bibliothek bei der Recherche vielfach hilfreicher als die Google-Suche: http://mirlyn.lib.umich.edu/. Die Google-Digitalisate kann man mit der Eingabe Includes both image files and keyword searchable text im Keyword-Feld der Advanced Search ausfiltern.

Der UMich-OPAC bietet auch Zeit- und Sprachfilter.

HathiTrust[Bearbeiten]

Kürzel: WS:HT
Kürzel: WS:Hathi
Markiert sind im Screenshot des US-Webproxys die bei den üblichen Webproxys gegebenen Möglichkeiten, den E-Text einer Seite aufzurufen (Markierung rechts) und das Abrufen des Faksimiles im Einzelseiten-PDF (links). Die Seite an sich lädt nicht.

Die Google-Digitalisate von Michigan und weiterer US-Bibliotheken (sowie von Madrid) lagern auf dem kooperativen Server HathiTrust (URL:hathitrust.org), dessen Metadatensuche oft besser als die der Google Buch-Suche ist.

HathiTrust folgt in der Regel, aber nicht ausnahmslos Googles Rechte-Management für US-Bürger, was im Einzelfall bedeuten kann, dass in HathiTrust Bücher für Europäer noch zugänglich sind, zu denen Google den Zugang verwehrt.

Wichtiger ist freilich die 2010 getroffene Entscheidung von HathiTrust, in der Regel die vor 1922 erschienenen Bücher und Zeitschriften für US-Bürger freizugeben, auch wenn Google dies nicht tut. Daher empfiehlt sich für die ab ca. 1910 erschienenen europäischen Bücher und Zeitschriften in HathiTrust die Nutzung eines US-Proxy. Nachteilig ist, dass nur einzelne Seiten als Download zur Verfügung stehen. Von Google digitalisierte Public-Domain-Bände können als Ganzes (als PDFs) nur von Angehörigen der Mitgliedsinstitutionen mit deren Login heruntergeladen werden.

Seit September 2015 ist der Zugriff via Proxy nur noch sehr beschränkt möglich. Erreichbar sind mit den gängigen Webproxys nur noch der E-Text und das PDF der Einzelseite sowie Direktlinks zu den Bilddateien (Beispiel, aufzurufen mit Proxy).

HathiTrust PDF-Download[Bearbeiten]

Zum PDF-Download ganzer Bände gemeinfreier Werke (soweit sie von Google digitalisiert wurden) benötigt man seit 2010 ein Konto bei einer der HathiTrust-Partner-Bibliotheken, um sich authentifizieren zu können. Ein University of Michigan Friend account genügt leider nicht.

Dies war eigentlich recht einfach. Man gibt als URL ein: http://babel.hathitrust.org/cgi/imgsrv/pdf?id= und die ID (gewöhnlich etwas wie: mdp.39015009712970). (Die gesamt URL sähe dann beispielsweise so aus http://babel.hathitrust.org/cgi/imgsrv/pdf?id=mdp.39015009712970). Wenn es sich um Bücher handelt, die nur für US-Bürger freigeschaltet sind, so gebe man die Adresse einem Web-Anonymizer mit hinreichender download-Kapazität. Derzeit ist die Funktion allerdings deaktiviert (es wird nur die erste Seite ausgegeben). Dies hängt damit zusammen, dass nur die Angehörigen der Partnerinstitutionen von HathiTrust Zugriff auf diese Möglichkeit haben sollen.

Die Seite Hathi Trust uploadbare Bestände verzeichnet diejenigen Bücher, die von Nutzern gesichert werden konnten und bei Bedarf bei Commons oder IA hochgeladen werden können.

Alternative 1: HathiHelper[Bearbeiten]

Ohne Bibliotheks-Konto bietet der sogenannte „HathiHelper“ eine Möglichkeit zum halb-automatisierten Download ganzer Bände, welche auf der HathiTrust-Programmierschnittstelle aufsetzt (Entwickler finden die offizielle Dokumentation der HathiTrust Data API hier).

Diese Methode wurde schon 2009 im Internet-Forum ScienceMadness beschrieben und funktioniert immer noch einwandfrei. Mit der unterschiedlichen „Moving Wall“ von Google und HathiTrust hat sie wieder an Bedeutung gewonnen.

Der „HathiHelper“ ist ein Python-Skript des Foren-Superadministrator Polverone, das die Scans wie ggf. OCR-Texte seitenweise sammelt und auf dem lokalen Rechner abspeichert. Die englische Anleitung beschränkt sich auf Microsoft Windows und Unix-Derivate (Linux). Apple’s Betriebssystem Mac OS X hat einen Python-Interpreter bereits vorinstalliert, so dass das Skript Plattform-übergreifend einsetzbar ist. Dank der Bebilderung ist die Bedienung des Kommandozeilen-Werkzeugs auch unter Windows weitestgehend selbsterklärend. Das Skript für die Version 3.0 funktioniert übrigens auch mit der aktuellen Version 3.1.2.

Unter Windows werden die Proxy-Einstellungen des Internet Explorers benutzt. Der US-Proxy darf also in diesem Falle nicht allein im Firefox-Browser eingetragen sein, sofern dieser als Standard-Browser dient. Unter Linux werden automatisch die HTTP Proxy-Umgebungsvariable ausgewertet und der ggf. aktivierte US-Proxy verwendet.

Alternative 2: HathiDownloadHelper[Bearbeiten]

Eine weitere Möglichkeit stellt das Programm „Hathi Download Helper“ dar. Es handelt sich hierbei um eine mittels Qt entwickelte Web-Anwendung und bietet dem Benutzer eine Bedieneroberfläche. Ähnlich wie beim HathiHelper werden die Scans und ggf. OCR-Texte seitenweise heruntergeladen, auf dem lokalen Rechner abgespeichert und zu einer einzelnen pdf Datei zusammengefasst. Durch die Umstellung auf das https-Protokoll durch hathitrust.org im Mai 2016 war die Anwendung zeitweise nicht mehr funktionsfähig. Ab Version 1.1.1 ist das Herunterladen aber wieder möglich. Derzeit (04/2022) ist die Version 1.2.2 aktuell. Mit dieser lassen sich die PDF immer noch sehr gut herunterladen. Manchmal hakt die Verbindung ein wenig, aber mit ein wenig Geduld klappt es schon.

Partnerbibliotheken[Bearbeiten]

Welche Partner sich am Google-Bibliotheks-Projekt beteiligen und spezifische Suchmöglichkeiten nach Digitalisaten aus diesen Bibliotheken sind auf eigenen Unterseiten dokumentiert.

Neben HathiTrust bieten Gent, München, Oxford, Den Haag und Wien die von Google gelieferten Scans in eigenen Angeboten an. Um die Proxy-Problematik zu umgehen, lohnen die auch über die Europeana auffindbaren Oxforder Digitalisate einen Blick.

Eine übergreifende Volltextsuche haben davon nur realisiert Austrian Books Online (Wien) und Delpher (Den Haag). In Auswahl bietet Volltextergebnisse der Münchner OPAC an.

Gespiegelte Google-Digitalisate im Internet Archive[Bearbeiten]

Im Internet Archive sind im großen Umfang Google-Digitalisate - auch solche, die nur mit US-Proxy nutzbar sind - gespiegelt. Siehe dazu ausführlich: Wikisource:Internet Archive.

Nachweise von Google-Digitalisaten[Bearbeiten]

Abgesehen von den Angeboten der Partnerbibliotheken und abgesehen von Wikisource gibt es einige Linklisten und Datenbanken, die in nennenswertem Umfang Google-Digitalisate verlinken. Eine gewiss sehr lückenhafte Liste:

Entfernen des Wasserzeichens „Digitized by Google“[Bearbeiten]

Dies geht im PDF mit Adobe Acrobat Pro (Writer, nicht Reader) einfach: im Menü unter „Erweitert/Schwärzung/Zum Schwärzen markieren“ wählen, das erste Wasserzeichen markieren und das auf der Folgeseite ebenfalls, „Schwärzungen anwenden“, speichern und sämtliche Wasserzeichen im pdf verschwinden.

Mit Freier Software/von Hand kann im Bytestrom der PDF-Datei ein in jeder Seite auftauchender Parameter eliminiert werden - beispielsweise mit Suchen&Ersetzen in einem Hex-Editor wie GHex oder mit dem Kommandozeilenwerkzeug sed - und anschließend mit dem Kommandozeilenwerkzeug qpdf (oder möglicherweise auch pdftk) die resultierende Datei repariert werden. Alternativ kann auch mit dem PDF-Editor PDFedit auf jeder Seite einzeln per Auswahlwerkzeug das entsprechende Graphikelement markiert und dann entfernt werden. Mit diesem Werkzeug kann auch der Name des erwähnten Parameters ausfindig gemacht werden. Diese Methode wird auch vom Hathi Download Helper (ab Version 1.1.9) verwendet, um die Wasserzeichen wahlweise in einem PDF aus- oder wieder einzublenden.

Nachweise[Bearbeiten]

  1. http://archiv.twoday.net/stories/1317388/
  2. http://archiv.twoday.net/stories/3154979/
  3. Siehe die Darstellung von M. Schindler http://blog.outer-court.com/archive/2007-02-13-n40.html
  4. U. a. Aussage einer Google-Booksearch-Mitarbeiterin auf der Frankfurter Buchmesse 2006, dass die ID Kern der Datenbankstruktur ist und nicht verändert werden wird.

Weblinks[Bearbeiten]