Wikisource:Google Book Search
aus Wikisource, der freien Quellensammlung
Google Book Search (GBS oder Google BS, ursprünglich Google Print) ist ein Angebot der Suchmaschinen-Firma Google Inc., das sowohl gemeinfreie als auch urheberrechtlich geschützte Bücher online kostenfrei bereitstellt.
GBS besteht aus einem Verlags-Programm, bei dem Google Bücher von Verlagen mit deren Einverständnis scannt oder als PDF erhält, und einem (vor allem aus urheberrechtlichen Gründen umstrittenen) Bibliotheks-Projekt, bei dem von jüngeren geschützten Werken nur Ausrisse angezeigt werden.
Nähere Informationen siehe allgemein Wikipedia-Artikel zu Google Book Search
[Bearbeiten] Anwendung für Wikisource
Für das Hochladen von gescannten Seiten aus GBS auf Wikimedia Commons und die Abschrift von Texten auf Wikisource gelten grundsätzlich die jeweiligen Regeln zur Beachtung des Urheberrechts.
Es hat eine genaue Prüfung vor der Übernahme jeden Textes voranzugehen. Fragen können auf Wikisource:Skriptorium gestellt werden.
Vor allem bei Ausgaben älterer gemeinfreier Autoren muss untersucht werden, ob die konkrete Textgestalt urheberrechtlich geschützt ist.
[Bearbeiten] Auffinden von Büchern
Googles Suchfunktion kann nur als höchst mangelhaft bezeichnet werden, da man nicht selten vorhandene Bücher mit Suchabfragen nicht findet, obwohl man sie finden müsste. Das ist insbesondere bei mehrbändigen Werken der Fall.
Beispiel: Die Datenbank http://pdbooks.zuhause.org weist zahlreiche Bände von Riedels Codex diplomaticus Brandenburgensis nach, die 2006 auch über die Suchfunktion gefunden werden konnte. 2007 fand man aber zeitweilig nur noch drei Bände (die anderen waren jedoch ebenfalls noch präsent, nur nicht über eine normale Suche nach Metadaten auffindbar) [1]. Liste der Bände nun im Autorenartikel Adolph Friedrich Johann Riedel.
Daher ist es wichtig, von Google unabhängige Listen oder Datenbanken mit Nachweisen aus GBS zu pflegen (siehe etwa Autorinnen, Zeitschriften oder in der Wikipedia w:Bibliothek des Litterarischen Vereins in Stuttgart).
Siehe auch: http://archiv.twoday.net/stories/837865/
Zum Angebot der Bibliothek der UMich siehe unten.
Von Googles Partnerbibliotheken verlinken bislang in den eigenen Katalogen auf die Google-Digitalisate:
- Harvard http://hollis.harvard.edu/ (hilfreich bei Zeitschriften und mehrbändigen Werken)
- New York Public Library http://catnyp.nypl.org/ (noch keine Zeitschriften und mehrbändigen Werke)
Darüber hinaus sind einige tausend Titel katalogisiert im Katalog der Indiana University:
Über eine Google-API können Bibliotheken in ihren Katalogen die Existenz von Büchern bei Google Books samt Angabe der Zugriffsmöglichkeiten anzeigen, wenn die Bücher über bestimmte standardisierte Kennziffern (z.B. ISBN) erreichbar sind. Davon macht beispielsweise der Google-Partner University of California Gebrauch (siehe OPAC Melvyl). Daher ist ein Teil des Gesamtbestandes von Google Books auch im Worldcat auffindbar. Allerdings gibt es noch keine Möglichkeit einer entsprechenden Filterung.
[Bearbeiten] Suchtipps
Die Suche lässt sich schon bei Eingabe des Suchbegriffes auf bestimmte Kriterien einschränken. Möglich sind die Suche nach:
- Titel (intitle:Suchbegriff)
- Autor (inauthor:Suchbegriff)
- Verlag (inpublisher:Suchbegriff)
- Erscheinungsdatum (date:1800-1900)
- ISBN (isbn:0060930314)
Siehe dazu auch Google Buchsuche: Erweiterte Buchsuche
[Bearbeiten] Mängel der Scans und der OCR
Sehr häufig sind Seiten schlecht gescannt oder fehlen ganz. Manchmal kann man in GBS ein zweites Exemplar der betreffenden Auflage finden, mit dem man Lücken schließen kann.
Die Schrifterkennung (OCR) war bei deutschprachigen Texten eher mäßig, bei Frakturschriften völlig unbrauchbar (Beispiel). Anfang 2008 konnte allerdings festgestellt werden, dass vereinzelt auch eine durchaus brauchbare Fraktur-OCR eingesetzt wird.
Bei der Volltextsuche berücksichtigt Google nicht alle Treffer in einem Buch [2]. Liegt ein Buch in den MBooks von UMich vor, ist dort anders als bei Google eine komplette Liste der gefundenen Seiten abrufbar.
[Bearbeiten] Mängel der Metadaten
Sehr häufig sind die bibliographischen Angaben zu den Büchern falsch oder lückenhaft. Da bei Zeitschriften und mehrbändigen Werken irreführende Angaben zu Beginn des Projekts die Regel waren, bedarf es bei Büchern, die nur in Auszugsform präsentiert werden, einer gewissen Findigkeit, um den Band zu ermitteln (Tipps dazu: http://archiv.twoday.net/stories/4128885/).
[Bearbeiten] Umgehen von Googles Digital Rights Management
Während bei von Google als Public Domain gekennzeichneten Titeln die Seiten einzeln heruntergeladen werden können und oft auch ein PDF-Download zur Verfügung steht, sind die mit "Eingeschränkte Vorschau" gekennzeichneten Titel des Verlags-Programms gegen Abspeichern und Ausdrucken wenigstens oberflächlich gesichert.
Die entsprechende Grafik ist aber durch Kenntnis der Darstellung von Seiten in Browsern ohne weiteres separat aufrufbar. Da die Umgehung vergleichsweise trivial ist, wird man bezweifeln dürfen, ob dieses Digital Rights Management als wirksame technische Maßnahme nach § 95a UrhG anzusprechen ist. Ist sie nicht wirksam, kann der urheberrechtliche Inhalt etwa zum Zweck der Privatkopie rechtmäßig abgespeichert werden.
Bei reinen Nachdrucken gemeinfreier Werke, die von Google als geschützt betrachtet werden, kommt die Anwendung der urheberrechtlichen Vorschriften nicht in Betracht. Daher ist es in jedem Fall legal, bei solchen Reprints die - etwa durch wiederholte Suchvorgänge - auffindbaren Seiten abzuspeichern und anderweitig zu veröffentlichen.
Beispiel: Das Buch von Julius Wellhausen Prolegomena zur ältesten Geschichte des Islams ist bei Google nur teilweise zugänglich, es handelt sich aber lediglich um einen Faksimilenachdruck der gemeinfreien Erstausgabe.
Für den Browser Firefox wird das Abspeichern einer Beispielseite erläutert:
- Mit rechter Maustaste "Seiteninformationen anzeigen" aufrufen
- Unter dem Reiter "Medien" ist auch die Grafik aufgelistet, die das geschützte Bild darstellt
- Mit rechter Maustaste kann die Adresse der Grafik kopiert werden
Alternativ kann die Adresse der Grafik auch dem Quelltext der Seite entnommen werden.
Mit unter http://antimachine.wordpress.com/2008/12/24/how-to-download-books-from-google-books/ beschriebenen Firefox-Erweiterungen kann man alle Seiten eines Buchs herunterladen.
Die gleiche DRM-Technik liegt auch der Amazon-Präsentation von Buchinhalten und dem Libreka-Angebot des deutschen Buchhandels zugrunde[3].
Mitunter ist es hilfreich, beim Kopieren von Inhalten aus Google Books Java-Script zu deaktivieren.
Gute Ergebnisse erzielt man auch mit der Wahl des Basis-HTML-Modus (rechts unten). Mit ihm kann man erfolgreich mit der rechten Maustaste Seiten abspeichern, sofern das Buch in Vollständiger Ansicht vorliegt.
[Bearbeiten] Zusätzliche Informationen der Trefferliste bzw. den Schnipseln entlocken
Einen Trick dazu stellt vor: http://archiv.twoday.net/stories/5818683/.
[Bearbeiten] Googles Nutzungsbedingungen
Nach deutschem Recht ist GBS wohl eine geschützte (einfache) Datenbank nach den §§ 87a UrhG. Public-Domain-Bücher dürfen aber ohne weiteres dem Angebot entnommen und anderweitig ins Internet eingestellt werden. Über die Auslegung der Nutzungsbedingungen informiert eine Stellungnahme Googles:
"We have gotten this question in the past. The front matter of our PDF books is not a EULA [end user license agreement]. We make some requests, but we are not trying to legally bind users to those requests. We've spent (and will continue to spend) a lot of time and money on Book Search, and we hope users will respect that effort and not use these files in ways that make it harder for us to justify that expense (for example, by setting up the ACME Public Domain PDF Download service that charges users a buck a book and includes malware in the download). Rather than using the front matter to convey legal restrictions, we are attempting to use it to convey what we hope to be the proper netiquette for the use of these files."
Die Ausführungen auf der Vorsatzseite des PDFs haben also keinen rechtlich bindenden Charakter.
[Bearbeiten] Herunterladen von ganzen Werken
Obwohl auf der (Ende 2007 eingestellten) Book People Mailing List diskutiert, existiert keine zentrale Koordinationsstelle für das Scrapen der gemeinfreien Bücher. Es sollte im Idealfall ein Buch nur einmal komplett heruntergeladen werden. Die Scans sollten dann auf einer unabhängigen Webseite zur Verfügung gestellt werden.
Die Arbeit der Distributed Proofreaders des Project Gutenberg wird auf einer Seite des dortigen Projektwikis koordiniert: http://www.pgdp.net/wiki/Google_Book_Search_Coordination#By_keichwa (deutschsprachige Bücher)
Beispiel: Der Wozzeck-Text wurde aus einer Büchner-Ausgabe von 1879 erstellt, die zwischenzeitlich von GBS nicht mehr als Volltext angeboten wurde. Hat jemand die Scans ganz oder teilweise heruntergeladen, können diese anderweitig zugänglich gemacht und zum Erstellen weiterer Texte verwendet werden.
Immer wieder musste festgestellt werden, dass Google-Digitalisate aus dem Bestand verschwinden.
[Bearbeiten] Nutzung eines US-Proxys
GBS definiert das Urheberrecht sehr restriktiv und blockiert den Zugang zu Büchern nach 1868 (Stand: 2009, aber auch häufig den Zugang zu früheren, insbesondere, wenn diese schlecht gescannt sind) für Nicht-US-Nutzer. Dies betrifft natürlich auch - mutmaßlich weltweit - gemeinfreie Bücher, deren Autoren länger als 70 Jahre tot sind.
Sehr häufig ist es nicht nachvollziehbar, aus welchen Gründen Google von Büchern nur Ausschnitte zeigt. Bei Zeitschriften stellt man oft fest, dass einzelne Jahrgänge gesperrt sind.
Während US-Publikationen für US-Bürger oft bis 1922 einsehbar sind, gilt für ausländische Publikationen ca. 1910 als Grenze. Auch mit Proxy kommt man nicht an die Inhalte dieser Bücher heran.
US-Proxy bedeutet, dass man Google vortäuscht, man greife aus den USA auf sein Angebot zu. Dies kann man auf verschiedene Weise bewerkstelligen:
- indem man einen freien Proxy aus den USA in seinem Browser installiert (empfohlen für erfahrene Nutzer, freie Proxys ändern sich rasch). Listen unterschiedlicher Aktualität findet man über Suchmaschinen unter "Proxy-Listen" oder "proxy list". Programme wie "Charon Rhino" sollen das Auffinden geeigneter Proxies automatisch erledigen können. Der US-Proxy und der meist hinter einem Doppelpunkt stehende Port müssen dann im Browser unter "Verbindungseinstellungen" o.ä. eingetragen werden. Für Firefox existiert das Tool http://www.erweiterungen.de/detail/SwitchProxy_Tool/, mit dem man zwischen Proxys wechseln kann.
- indem man einen sogenannten Web-Anonymizer verwendet, der auf freie US-Proxys zugreift. Liste siehe unten
- indem man eine andere Webanwendung nutzt, die als US-Proxy funktioniert (z.B. http://babelfish.altavista.com oder http://translate.google.com)
- indem man ein virtuelles privates Netzwerk (VPN) mit einem in den USA stehenden Server aufbaut.
Erfahrungsgemäß eignet sich die dritte Möglichkeit nicht für systematische Recherchen oder Downloads. Meistens kann man nur wenige Seiten damit betrachten.
Der von Google angebotene PDF-Download funktioniert bei Proxy-Benutzung häufig nicht bzw. ist nur begrenzt nutzbar, da freie Proxys meist den kontinuierlichen Datenstrom begrenzen und daher der Download nach einer bestimmten Datenmenge abgebrochen wird. Mit Hilfe eines Download-Managers, der den Download vor Erreichen dieses Limits abbricht und nach einiger Zeit wieder aufnimmt, lässt sich dieses Problem umgehen.
Sieht man keine digitalisierten Seiten, kann man unten auf der Übersichtsseite den "HTML-Modus" aktivieren. Die Suche innerhalb eines Buches funktioniert oft nur auf der Übersichtsseite (das ist die Seite, die angezeigt wird, wenn man in der Adresse nur die ID angibt) bzw. man wird von der Seitensuche auf diese Seite umgeleitet, wo dann die Suchergebnisse stehen.
[Bearbeiten] Liste aktueller Web-Anonymizer
Die Anbieter stellen ihre Dienste oft nach einer Zeit ein oder beschränken den Datenverkehr. Jede URL ist daher nur als vorläufig zu betrachten und die Liste sollte bei Änderungen bereinigt oder ergänzt werden. Eine Sammlung solcher Dienste finden sich bei Seiten wie proxyliste. Folgende Eigenschaften sollte ein Dienst haben: a) rasch aufrufbar, b) eine US-Adresse, c) keine oder nur moderate Werbemaßnahmen (die durch 1-2 mal klicken beseitigt werden kann), d) URL-freundlich (d.h. Links mit Buch-ID lassen sich direkt in der Hauptseite eingeben), e) die Bilder der Google-Books anzeigen und f) akzeptable download-Quoten (die meist von Tageszeit und Verkehrsaufkommen abhängig sind) erfüllen.
- Dienste mit allen Eigenschaften und ohne Werbung (bitte die download-Kapazitäten nachtragen):
- ohne Werbung
- http://unblockandsurf.com bis 20MB
- http://www.webreveal.com <1MB
- http://freehotproxy.com <1MB
- http://www.alertsurf.com <1MB
- mit moderater Werbung
- http://www.fireproxy.com kein download
- http://pagerankings.org >12MB
- http://surfnfree.com
- http://vtunnel.com
[Bearbeiten] Zitieren von Büchern
In Wikisource ist die kürzestmögliche Google-Adresse anzugeben (Buch-ID und Seiten-Codierung), Suchbegriffe sind wegzulassen.
Hat man eine Adresse in der Form
http:// books.google.com/books?ie=UTF-8&vid=OCLC00252279&id=QXXX48OyGjcC&pg=PA1&lpg=PA1&dq=quellen_hansen
kann man diese durch Behalten der ID und der Seitenzahl (in arabischen Ziffern) zusammenkürzen auf:
http:// books.google.com/books?&id=QXXX48OyGjcC&pg=PA1
Es ist davon auszugehen, dass die von Google vergebene Buch-ID dauerhaft sein wird.[4]
Innerhalb von Wikisource kann die Vorlage GBS zum Verlinken eingesetzt werden (siehe Anleitung).
Beispiel: {{GBS|QXXX48OyGjcC|US}}
Die OCLC-Kennziffer kann neuerdings bei der Suche nach anderen Ausgaben mit dem Operator editions eingesetzt werden:
http:// books.google.com/books?q=editions:OCLC00252279
[Bearbeiten] Verlinken von einzelnen Seiten
In der Internetadresse ist grundsätzlich der Wert nach pg= für die Navigation in den Büchern zuständig. Ein konsistenter Umgang von Google mit den verschiedenen Seiten-Zählungen innerhalb eines Buchs ist nicht auszumachen. Die arabische Hauptzählung wird mit pg=PA1 (für die Seite 1), pg=PA177 (für die Seite 177) usw. angegeben (es begegnet aber auch PP, PT usw. statt PA). Bei weiteren Zählungen wird ein RA mit Ordnungszahl vorangestellt, z.B.
- pg=RA4-PA177
A in PA steht für eine Zählung in arabischen Ziffern. PR steht für Zählung in römischen Ziffern. Auch diese kann mit RA kombiniert werden, z.B.
- pg=RA1-PR9 (für eine Seite IX)
Bei der Eingabe in das von Google vorgegebene Feld Seite ist zu beachten, dass meist nur die Hauptzählung auf diese Weise erreicht wird. Römische Ziffern sind in Kleinbuchstaben einzugeben (also ix für IX).
Mehrere Zählungen innerhalb eines Buches können auch durch die falsche Erkennung von Seitenzahlen oder Scanfehler (doppelte oder fehlende Seiten) durch Google entstehen. Es werden dann durch Voranstellen von RA1-, RA2- usw. weitere Zählungsblöcke eingerichtet, wobei die als PA in der Adresse sowie im Feld Seite sichtbare Seitenzahl durchaus mit der richtigen Seitenzahl übereinstimmen kann.
Ändert sich beim Weiterblättern die Adressenzeile nicht, kann im Basis-HTML-Modus (rechts unten wählbar) mit der rechten Maustaste das Öffnen der Folgeseite mit korrekter Zählung (pg=) in der URL erzwungen werden, wenn man auf den Navigationspfeil nach rechts klickt.
Zitieren von Seiten mit der Vorlage GBS:
- {{GBS|nTwFAAAAQAAJ|US|PA253}} - Google-USA*
Es ist beim Zitieren von Seiten die kürzestmögliche Form zu wählen, also ID und Seitenzahl.
Sofern man eine Internetadresse wie
- http:// books.google.com/books?id=9Q8FAAAAMAAJ &pg=PA207#PPA89-IA2,M1
vorfindet, muss man diese erst kürzen. Auf den ersten Blick könnte man annehmen, es handle sich um
- http:// books.google.com/books?id=9Q8FAAAAMAAJ&pg=PA207
Das ist aber unzutreffend. Die Seite PA207 verweist auf eine frühere Suche, hat also keine Relevanz. Nach der Raute # steht ein P, das man ebenso zu entfernen hat, wie den Schluss ",M1". Dann ergibt sich:
- http:// books.google.com/books?id=9Q8FAAAAMAAJ&pg=PA89-IA2
[Bearbeiten] Das Angebot der Bibliothek der University of Michigan
Als bisher einziger Bibliothekspartner hat die UMich ein eigenes Angebot der von Google gelieferten Scans aufgezogen. Allerdings ist das Rechte-Management hinsichtlich deutscher Titel meist das gleiche wie bei Google, Nicht-US-Bürger sehen auch hier in der Regel nur Bücher, die vor 1865 erschienen sind. Es gibt allerdings Bände, die in Michigan, nicht aber bei Google im Volltext zugänglich sind.
Es ist zu beachten, dass die UMich erheblich hinterher hinkt, was die Einstellung von bei Google einsehbaren Bänden anbetrifft.
Gerade bei mehrbändigen Werken ist der OPAC der UMich-Bibliothek bei der Recherche vielfach hilfreicher als die Google-Suche: http://mirlyn.lib.umich.edu/. Die Google-Digitalisate kann man mit der Eingabe Includes both image files and keyword searchable text im Keyword-Feld der Advanced Search ausfiltern.
Der UMich-OPAC bietet auch Zeit- und Sprachfilter.
Selbstverständlich findet man in Michigan nur Werke, die auch dort digitalisiert wurden, nicht solche, die in einer anderen Partnerbibliothek von Google gescannt wurden.
Durch die schlechte OCR ist das Angebot der UMich, auch den erkannten OCR-Text bereitzustellen, bei deutschsprachigen Texten wenig attraktiv. Beispiel:
"Der Unterzeichnete ist seitens der stdtischen Verwaltung beauftragt worden, die im Besitz der Stadt Aachen befindlichen mehrern hundert Exemplare der 1688 von dem Arzt und Brunneninspektor Franz Blondel herausgegebenen Schrift ber die Aachener und Burtscheider Thermen (der Titel lautet wrtlich: Thermarum Aquisgranensium, et Porcetanarum eluci- datio, & thaumaturgia. Sive admirabilis earumdem natura, & admirabiliores sanationes; quas producunt in usibus balneationis, potationis. Opera Francisci Blondel, senioris, medici polyatri, et primi hujus thermo-potationis promotoris, ac super-intendentis. Editio tertia, sinceiissima, prioribus auctior, et emen- datior. Sumptibus authoris. Aquisgrani, typis Joannis Henrici Clemens, urbis typographi jurati. 1688) zum Preise von l Mark das Stck zu ver- ussern und bei Abnahme von 10 Stck ein Freiexemplar zu gewhren." (Aus einem mit US-Proxy benutzten Band der Heimatzeitschrift Aus Aachen Vorzeit http://hdl.handle.net/2027/mdp.39015026607690).
Die Umlaute sind bei der Konvertierung in Michigan verschwunden, denn Google selbst hat am Anfang dieser Stelle den korrekten Text. Allerdings ist die OCR-Qualität des zitierten Beispiels eher überdurchschnittlich, vielfach ist auch bei Antiqua-Schriften die OCR nahezu wertlos.
Seit Juli 2007 stellt im übrigen auch Google selbst den OCR-Text bei Public-Domain-Büchern bereit.
Seit Dezember 2007 sind die "MBooks" auch via OAIster recherchierbar.
[Bearbeiten] HathiTrust
Die Google-Digitalisate von Michigan und weiterer US-Bibliotheken lagern auf dem kooperativen Server HathiTrust, dessen Metadatensuche (Catalog Search) oft besser als die Googles ist:
Die experimentelle HathiTrust-Volltextsuche findet sich unter:
HathiTrust folgt im allgemeinen, aber nicht immer Googles Rechte-Management, was im Einzelfall bedeuten kann, dass in HathiTrust Bücher für Europäer sichtbar sind, zu denen Google keinen Zugang gewährt.
[Bearbeiten] Liste der Partnerbibliotheken
http://books.google.com/googlebooks/partners.html
Als einzige deutsche Bibliothek ist die Bayerische Staatsbibliothek vertreten (Neuzugang 2007).
Zum eigenen Angebot von Google-Digitalisaten auf dem Server der Bayerischen Staatsbibliothek, das auch Bücher enthält, die bei Google noch nicht sichtbar sind, siehe http://archiv.twoday.net/stories/5802944/.
[Bearbeiten] Gespiegelte Google-Digitalisate im Internet Archive
Im Internet Archive sind im großen Umfang Google-Digitalisate - auch solche, die nur mit US-Proxy nutzbar sind - gespiegelt. Siehe dazu ausführlich: Wikisource:Internet Archive.
[Bearbeiten] Nachweise
- ↑ http://archiv.twoday.net/stories/1317388/
- ↑ http://archiv.twoday.net/stories/3154979/
- ↑ Siehe die Darstellung von M. Schindler http://blog.outer-court.com/archive/2007-02-13-n40.html
- ↑ U. a. Aussage einer Google-Booksearch-Mitarbeiterin auf der Frankfurter Buchmesse 2006, dass die ID Kern der Datenbankstruktur ist und nicht verändert werden wird.