Wikisource Diskussion:Google Book Search
Abschnitt hinzufügenAllgemeines
[Bearbeiten]Da Bücher bei Google wieder verschwinden und niemand weiß, wann und in welcher Form sie wieder auftauchen, wäre es da nicht sinnvoll, dort die wichtigsten Werke rauszusuchen, die es woanders nicht im Netz gibt, und die schnell und unauffällig (also nicht bzw. nicht offensichtlich automatisch) zu kopieren? Ich habe beim Wozzeck noch Glück gehabt. Hätte ich ihn 2 Tage später übertragen, hätte ich wohl nur noch ein Fragment des Fragments bieten können. --Jofi 22:55, 24. Feb 2006 (UTC)
Ich denke, das wäre sehr sinnvoll. Bisher kenne ich http://steinbeck.ucs.indiana.edu/novels/author.html (engl.sprachige Fiktion, teilweise als ZIP) und die von den Distributed Proofreadern heruntergeladenen Titel (am unteren Rand von http://homepage.ntlworld.com/jenjonliz/jon/tia/google.html). Siehe auch http://zuhause.org/dp/gfound1.html (Liste von 16.670 Titel) und den Beitrag:
obstacles are thrown up even on the public-domain books, in the form of sign-in requirements, captchas, and so on. although it's unclear why, i think it _might_ be because people are scraping google's scan-sets indiscriminately; even worse, they're doing it in an uncoordinated manner, and not pooling their scrapings, which means each book is being scraped far more times than would be "necessary". there's no need to scrape a scan-set more than once. having obtained it, it can be uploaded to another site, freely available to anyone else who might want it later. (scans of a public-domain book are also public domain, thanks to the atypically sensible bridgeman v corel ruling.) i have asked some of the scrapers -- specifically those from distributed proofreaders, at http://www.pgdp.net -- to modify their practices so as not to piss off google (whose robots.txt file bans auto-harvesting the scans), but they've been non-responsive (when not antagonistic). so if google keeps throwing up obstacles, or makes them more strict in the future, i know who _i_ will be blaming. -bowerbird (aus Google-Cache) --FrobenChristoph 23:30, 24. Feb 2006 (UTC)
Wenn schon die Gutenberger nicht reagieren, dürfte eine Koordination schwierig werden. Da die die Scans nicht online stellen, dürfte es sinnvoller sein, wenn sie erstmal von hier aus runtergeladen werden und auf die Commons kommen. Dann könnte man den Leuten dort dringend empfehlen, die Commons als Quelle zu nutzen. Aber ich kenne mich in der Proofreader-Szene nicht aus und habe auch noch keine Möglichkeit, einfach aber unauffällig zu scrapen. Grundsätzlich sollte das möglich sein, indem man wechselnde Proxies, unterschiedliche größere Zeitabstände, eine zufällige Reihenfolge und verschiedene w:User Agents nimmt. --Jofi 00:10, 25. Feb 2006 (UTC)
Für solche Probleme ist eigentlich WP-Benutzer APPER der gegebene Ansprechpartner --FrobenChristoph 00:27, 25. Feb 2006 (UTC)
Ist es überhaupt zulässig solche Scans von Google zu nutzen, die mit dem Hinweis "Digitalisiert von Google" versehen sind? --141.70.124.98 00:35, 25. Feb 2006 (UTC)
- Klar, wieso nicht. Google erlangt kein eigenes Schutzrecht durch das Scannen und solange wir nicht massenweise scrapen verletzen wir auch nicht das europäische Datenbankschutzrecht. Wie wärs, wenn du als Fortbildung mal den Artikel Bildrechte in der Wikipedia liest? --FrobenChristoph 01:12, 25. Feb 2006 (UTC)
- Du brauchst mich nich so von der Seite anmachen. Wollte einfach nur wissen was los ist, damit nicht das Geschrei losgeht wenn ich n 700-Seiten-Buch auf die Commons lade was ich von Google gezogen habe. --141.70.124.98 01:31, 25. Feb 2006 (UTC)
- Im Einzelfall stimmt das wohl. Wenn man aber anfängt, die komplette Sammlung an Büchern zu kopieren, wird es IMO schon kritisch, siehe Bildrechte Unterpunkt Datenbanken in Wikipedia.
Es war nur ein Vorschlag. Zu dem Bild: leider kein absoluter Einzelfall. Anhand des Originals nachscannen, manchmal kriegt man von Bibliotheken unter der Hand einen solchen Scan für lau, wenn es sich um wenige Seiten dreht. Ist das Bild definitiv aus GBS, dann könnte man das Bild evtl. in den Artikel auf de WP einbinden. --FrobenChristoph 21:16, 26. Feb 2006 (UTC)
- Danke für die Zusammenfassung im Skriptorium. Das ist doch schön. Ja. Ist definitiv aus GBS. --141.70.124.98 19:37, 27. Feb 2006 (UTC)
- Ich dachte, die würden alles automatisch scannen, mit diesen Geräten, die die Seiten selbständig umblättern. Aber es scheint dort auch keine Qualitätskontrolle zu geben. Es kommen öfter Seiten vor die fehlerhaft sind. Ich habe dort auch mal ein Buch gesehen, bei dem nur die ersten Seiten ordentlich gescannt waren, der Rest war unleserlicher Müll. Ist blöd, wenn man so ein Buch in Volltext übertragen will und erst spät merkt, dass es nicht vollständig ist. --Jofi 23:14, 3. Mär 2006 (UTC)
Ein kleiner Einblick (vor allem in die Geheimhaltung) von September 2007:
- Andrew Norman Wilson: Workers Leaving the Googleplex, 2011
--91.32.75.36 11:48, 7. Mai 2011 (CEST)
Automatischer Download
[Bearbeiten]Hallo. Das automatische Downloaden wird größtenteils durch die Blockierungsmaßnahmen seitens Google eingeschränkt, wann genau das passiert und wie lange die Sperre dauert, ist mir (noch) nicht bekannt. Für mich wäre für Tests mal interessant, welche Bücher wirklich für die Wikisource interessant sind (also eine Liste wichtiger Bücher, auf die zugegriffen werden kann). Derzeit teste ich mit dem Staat-lexikon oder Encyklopädie der Staatswissenschaften aber die Qualität scheint mir vollkommen unbrauchbar (umgeblätterte Seiten, größtenteils auch so unleserlich). Seiten kommen doppelt vor, teilweise fehlen sie an der entsprechenden Stelle und tauchen später auf... also dieses konkrete Buch ist völlig unnütz als Gesamtdownload. Falls ihr Werke kennt, die eine bessere Qualität haben: meldet euch, dann kann ich testen. --APPER 01:04, 1. Mär 2006 (UTC)
- Bericht 1: die insgesamt 930 Seiten des Staatslexikons konnte ich ohne Unterbrechung laden - hat 25 Minuten gedauert. Bei meinen letzten Tests vor ein paar Monaten war nach 200-300 Seiten Schluss gewesen... werde mal weiter nach interessanten Büchern suchen. --APPER 01:23, 1. Mär 2006 (UTC)
- Derzeit scheinen die Downloads wirklich gut zu funktionieren, hab jetzt "London im Jahre 1851: Ein praktisches Handbuch für Reisende nach England" runtergeladen ([1]), 297 Seiten. Wenn das wirklich klappen sollte stellt sich folgende Frage: Sollen alle Bücher gescannt nach Wikibooks hochgeladen werden, unabhängig von der Qualität? Jede Seite einzeln? Ich sehe nicht wirklich den Nutzen... aber bei mir auf der Platte sind die Bücher sicher ebenso wenig sinnvoll ;). --APPER 01:47, 1. Mär 2006 (UTC)
- Nach 105 Seiten vom nächsten Buch hat mich die Sperre ereilt... Diese Sperre kann nur in Browsern mit Cookies umgangen werden: Dort kann man ein Sicherheitswort aus einem Bild ablesen und in ein Textfeld eingeben, das ganze wird dann per Cookie gemerkt... automatisieren lässt sich das vermutlich nicht. 1300-1500 Seiten lassen sich anscheinend bis zur Sperre laden - die Frage ist nun, wie lange die Sperre gilt, eine Umgehung scheint mir schwerlich möglich... --APPER 02:05, 1. Mär 2006 (UTC)
- Danke für deine Tests --FrobenChristoph 02:15, 1. Mär 2006 (UTC)
Ich persönlich wäre an einem hierzulande noch unfreien Buch interessiert (nur mit US-Proxy zugänglich Hansen http://books.google.com/books?&id=QXXX48OyGjcC) --Histo 02:13, 1. Mär 2006 (UTC)
- Das ist erstmal nachrangig, Histo. --FrobenChristoph 02:27, 1. Mär 2006 (UTC)
Was mich mehr interessieren würde ist, ob man mit (zeitlich und auf verschiedene Nutzer verteiltem) Scrapen nicht optimale Ergebnisse erzielen könnte. Jeder hat ein Programm laufen, das im Hintergrund aktiv ist und nach dem Zufallsprinzip zeitlich verteilt Seiten aus einer Buchliste abarbeitet, sich aber in nichts von einem normalen Leser, der ein PD-Buch durchblättert unterscheidet. Die Seiten werden dann auf einem Server zusammengeführt bzw. ggf. nach Commons hochgeladen (evtl. unter Entfernung des Google-Vermerks) --FrobenChristoph 02:27, 1. Mär 2006 (UTC)
- Das Problem ist, dass ich das ganze als PHP-Script geschrieben habe, es also nicht jeder einfach so ausführen kann, sondern einen php-interpreter braucht... auch das Fortsetzen innerhalb eines Buchs (nach Sperrung) bedarf Handarbeit.
- Es wäre glaube ich sinnvoll, eine Liste deutschsprachiger, zugänglicher Bücher zu erstellen (soooviele sind das vermutlich gar nicht, dank der 1864-Sperre) und diese dann von ein paar Nutzern mit PHP-Interpreter laden zu lassen. Die Sperre dauert nicht sonderlich lang, zumindest geht es schon wieder, nach nichtmal 3 Stunden.
- Auf dieser Seite steht: "Es sollte möglichst ein Buch nur einmal komplett heruntergeladen werden. Die Scans sollten dann auf einer unabhängigen Webseite zur Verfügung gestellt werden." - genau diese Meinung teile ich, ich möchte aber nicht meinen privaten Speicherplatz dafür verwenden, es aber auch nicht auf irgendwelchen Free-Space packen, wo ich ständig schauen muss, obs nicht gelöscht wurde... es wäre aber sicher ziemlich praktisch, wenn es einen Server gäbe, wo man die Dinge gepackt zur Verfügung stellen kann (und parallel am besten auch einzeln anschauen kann).
- Da ich keinen US-Proxy zur Verfügung habe und mein Script mit proxys sowieso nicht umgehen kann, siehts für geschützte Werke derzeit schlecht aus. --APPER 04:40, 1. Mär 2006 (UTC)
Zu der Entscheidung des Hochlades. Ich würde sagen ja, hier direkt auf WS bzw. auf Commons hochladen. Allerdings nur dann, wenn die Qualität ausreichend ist. Damit man nicht vergisst dass die Bilder bereits da sind, sollte eine Projektseite angelegt werden. Die Digitalisierung kann man ja später durchführen. Gruß --Finanzer 13:04, 1. Mär 2006 (UTC)
Das mit dem Proxy verstehe ich nicht. Man muss doch nur einen der vielen freien US-Proxys im Browser einstellen. --FrobenChristoph 17:20, 1. Mär 2006 (UTC)
- Genau. Da wäre auch die Frage, ob APPER ausgesperrt wurde, weil unter seiner IP zuviel Datenvolumen angefallen ist, oder weil dort aufgefallen ist, dass in einer relativ kurzen Zeitspanne alle Seiten eines Buches aufgerufen wurden. Ich beabsichtige, nochmal zu gucken, ob ich ein Script bauen kann, dass unauffällig ist. Das unauffällige Scrapen dauert aber auf jeden Fall länger als das offensichtliche. Und wenn die merken und reagieren, wenn von einem Buch innerhalb von x Stunden y Prozent geladen wurden und dann die restlichen Seiten sperren, dauert es natürlich besonders lang. Es wäre auch gut, wenn jemand unter den hunderten deutschsprachigen Büchern dort die interessantesten heraussuchen würde und die dann zu gegebener Zeit auflisten könnte. --Jofi 23:32, 3. Mär 2006 (UTC)
Ich denke man kann z.B. alle Bände des Stuttgarter lit(t)erarischen Vereins (inpublisher:verein oder [2]) unbesehen scrapen, auch wenn oft die quali mist ist --FrobenChristoph 04:01, 4. Mär 2006 (UTC)
Erklärung zu den Proxys: mein Script nutzt keinen Browser, sondern läuft ohne Browser und fordert die Seiten direkt an, weshalb Proxy-Einstellungen im Browser nix nützen, das müsste ins Script eingebaut werden. Zur Sperre: Ich denke, dass die Anzahl der Seitenabrufe protokolliert wird und bei Überschreiten von XYZ Anfragen eine ABC-lange Sperre verhängt wird. Ich lade jetzt einfach mal einiges vom litterarischen verein. --APPER 17:05, 4. Mär 2006 (UTC)
Automatischer Upload
[Bearbeiten]Zum automatischen Upload nach commons kann man das Java-Programm commonist verwenden. pywikipediabot ist möglicherweise auch brauchbar. --Keichwa 04:17, 31. Mär 2006 (UTC)
Vorhandene Bücher
[Bearbeiten]Bevor klar ist, wie genau die Scans zugänglich gemacht werden (ich persönlich halte nicht viel davon, zigtausend Seiten in ein Wiki zu laden, in dem sie relativ schlecht betrachtet werden können), will ich jedoch Doppel-Downloads vermeiden, weshalb hier eine Liste der Bücher geführt werden soll, die schon jemand geladen hat und die sozusagen bei dieser Person "angefordert" werden können.
- Eduard Friedrich Eversmann: Reise von Orenburg nach Buchara (APPER)
- C. B. Lorck: London im Jahre 1851: Ein praktisches Handbuch für Reisende nach England (APPER)
- Carl von Rotteck, Karl Theodor Welcker: Staatslexikon oder Encyklopädie der Staatswissenschaften; 8. Band (APPER)
- C. Rümpler: Weimarisches Jahrbuch für deutsche Sprache, Litteratur und Kunst; II. Band (APPER)
- C. Rümpler: Weimarisches Jahrbuch für deutsche Sprache, Litteratur und Kunst; III. Band (APPER)
- C. Rümpler: Weimarisches Jahrbuch für deutsche Sprache, Litteratur und Kunst; 6. Band (APPER)
- Konrad Stolles thüringisch-erfurtische Chronik (APPER)
- Mitteldeutsche Gedichte (APPER)
- Paul Flemings lateinische Gedichte (APPER)
- Endres Tuchers Baumeisterbuch der Stadt Nürnberg (1464-1475) (APPER)
- Des Grafen Wolrad von Waldeck Tagebuch während des Reichstages zu Augsburg 1548 (APPER)
- Franz Stark: Dietrichs erste Ausfahrt (APPER)
- Ludolphi, rectoris Ecclesiæ parochialis in suchem (APPER)
- Dies gibt es wohl auch hier: http://www-gdz.sub.uni-goettingen.de/cgi-bin/digbib.cgi?PPN503475548 und in bestimmt besserer Qualität. Das deutsche Vorwort könnte ein einstellen hier rechtfertigen.--Keichwa 01:21, 24. Jun 2006 (UTC)
- Hugo von Langenstein: Martina (APPER)
- Hans Jakob Christoph von Grimmelshausen: Der abenteuerliche Simplicissimus und andere Schriften... (APPER)
- Die Bücher können ja dann auch in Volltext übertragen werden und bei Wikisource bereitgestellt werden. Wenn man bei den Bildseiten "vorherige Seite"-, "nächste Seite"-Links hinzufügt, können sie prinzipiell genauso gut betrachtet werden wie bei GBS. Auf jeden Fall danke für die Arbeit. --Jofi 22:15, 4. Mär 2006 (UTC)
- Vermutlich muss man es irgendwie so machen, aber ich halte das nicht für den idealen Weg, wird aber nix anderes übrig bleiben. --APPER 01:31, 5. Mär 2006 (UTC)
Wie kommt man automatisch an die einzelnen Bilder? Die haben jeweils einen Parameter "sig". Lässt sich der dekodieren oder braucht man die HTML-Seite um den Link zu extrahieren? --Jofi 23:15, 15. Mär 2006 (UTC)
- Man muss natürlich schon die einzelnen HTML-Seiten laden, aber man muss sie nicht im Browser darstellen sondern kann sofort die Bild-URL und die URL für die nächste Seite extrahieren. --APPER 14:54, 28. Mär 2006 (UTC)
Ich habe mal die "Bibliothek des Literarischen Vereins in Stuttgart" mit Google Booksearch abgeglichen (allerdings kommen da stündlich andere Resultate raus, also alles noch "BETA"): w:de:Benutzer:AndreasPraefcke/BLVS. Vielleicht ist da das ein oder andere interessante für WS dabei. --AndreasPraefcke 23:06, 4. Okt 2006 (CEST)
UMich
[Bearbeiten]Von der projektseite:
- Gerade bei mehrbändigen Werken ist der OPAC der UMich-Bibliothek bei der Recherche vielfach hilfreicher als die Google-Suche: http://mirlyn.lib.umich.edu/.
In der mehrzahl mag das zutreffen, im einzelnen muss man aber immer alle recherche-instrumente bemühen. Von Westermann's Jahrbuch sind zumindest vol. 1-3 verfügbar, bei UMich werden aber nur vol.1 und 2 als online-digitalisat nachgewiesen (keine ahnung, ob das nur ein temporärer link ist...):
- http://books.google.com/books?id=nTuMXpUj6e4C - vol.1 1857
- http://books.google.com/books?id=CO13nlM13IkC - vol.2 1857
- http://books.google.com/books?id=HXXTZnUBYYQC - vol.3 1857/58
Bislang habe ich nicht geprüft, ob die PDFs komplett sind. --Keichwa 07:30, 23. Mär. 2007 (CET)
Gute OCR-Texte bei Google
[Bearbeiten]- Wilhelm Drumann, Historisch-antiquarische Untersuchungen über Aegypten (1823): Google
- ders., Geschichte Bonifacius des Achten (1852): Google
- ders., Die Arbeiter und Communisten in Griechenland und Rom (1860): Google
- Carl Streckfuß, Gedichte (1804): Google
- Johann Heinrich Voß (Übersetzer), Werke Vergils in drei Bänden (1822): Band 1 Google, Band 2 Google, Band 3 Google
Jonathan Groß 09:10, 17. Jul. 2007 (CEST)
Ich halte nichts davon, wahllos OCR-Texte einzustellen, nur weil die OCR brauchbar ist. Angesichts des knappen Personalstands ist vor Inangriffnahme ganzer Bücher eine Diskussion im Skriptorium erforderlich. --FrobenChristoph 20:44, 17. Jul. 2007 (CEST)
- Zitat: Ich habe begonnen, gute Google-OCRs zu sammeln. Ergänzungen oder Nachprüfungen [...] sind herzlich willkommen!
- Carl Streckfuß, Gedichte Vielleicht ausser, dass die Seiten 32,33,36,37 ... - dann habe ich aufgehört weiter nachzusehen - fehlen.
- Gute OCR-Texte bei Google? Ganz abgesehen von den fehlenden Seiten ist die Vorlage alles andere als optimal. Also wenn man schon so was als Beispiel einstellt, sollte man doch vorher ein wenig überprüfen. Sorry. --Peter m 21:18, 17. Jul. 2007 (CEST)
- Zitat: Ich habe begonnen, gute Google-OCRs zu sammeln. Ergänzungen oder Nachprüfungen [...] sind herzlich willkommen!
- Sicherlich ist es nicht optimal, wenn bei den Google-Scans einige Seiten fehlen - Das ist schon klar. Nur bei einem Gedichtband fällt dies nicht so ins Gewicht ... meine Güte, dann wird halt zwischendrin ein Gedicht mal ausgelassen ... wo ist das Problem? Gab es nicht mal den Leitspruch "Es ist völlig ok auch einzelne Gedichte eines Autors auf Wikisource zu stellen."?
- Außerdem ging es hier ja um "gute OCR-Texte bei Google" und nicht um "vollständige Digitalisate". Die Auflistung sollte doch nur verdeutlichem, dass die OCR von Google auch anständige Formen haben kann und dass man mit dieser arbeiten kann. Es war nicht ein Aufruf sich sofort auf die Werke zu stürzen und sie ohne Diskussion blindlings abzutippen. Wie gesagt, es sollte nur illustrieren, dass die OCR teilweise gute Qualität hat (was im übrigen bei Streckfuß der Fall ist)
- Zu "die Vorlage alles andere als optimal": Was meinst du mit "Vorlage" genau?
- -- mfg DivineDanteRay 21:56, 17. Jul. 2007 (CEST)
- (BK:) Um ehrlich zu sagen: Die OCR der Historisch-antiquarischen Untersuchungen über Aegypten würde ich nicht unter „gut“ einordnen. Sie ist nahezu unlesbar angesichts der vielen Fehler, und die auszubessern ist fast so aufwändig, wie den Text selbst abzuschreiben. Ich würde soweit gehen, einen solchen Text wirklich nicht mehr als unkorrigiert durchgehen zu lasse, sondern als unvollständig. Das würde bedeuten, dass der Einsteller, nachdem er die Fehler verbessert hat, den Text in diesem Fall nicht auf korrigiert setzen sollte, sondern auf unkorrigiert. Ich würde es nicht so sehen wie Histo, das bei allen OCR-Texten so zu machen. Aber in solchen Fällen schon. Die Werke Vergils sind auch an der Grenze, aber gerade noch akzeptabel. -- Timo Müller Diskussion 22:02, 17. Jul. 2007 (CEST)
- Vorlage zur Bearbeitung, geeignet für OCR.
- Ich habe mir nachdem hier die Diskussion über OCR und Google entstand, mir mal die OCRs von Google näher angesehen. Meine Meinung dazu: sie sind nicht besonders gut geeignet, Aufwand zu sparen oder als 1. Person bei einer Korrektur durchzugehen. Was nicht heissen soll, dass OCR an sich nicht dazu geeignet sind. Nur sind die Ergebnisse bei Google OCRs inkonsistent, wenn ich OCRs mache, dann weiss ich, wo das Programm seine Tücken hat und achte natürlich bei der Schnellkorrektur des Rohtextes darauf, bei Google OCRs geht das nicht - zumindest meine Erfahrung.
- Dass das zufällig ein Gedichtband war, naja - man mag deine Argumentation hier gelten lassen, aber das ist nun doch ziemlich egal. Ich mache mir auch nicht die Mühe und schaue alles andere durch, das war nicht meine Absicht, Carl Streckfuß interessiert mich gerade zufällig und da bin ich drübergestolpert.
Beispiel aus dem OCR: S o n. ig. IVTich zu erlösen aus des Krieges Grauen, Den ich geführt mit deiner Augen Pracht, Hab' ich schon oft mein Herz dir dargebracht, Doch du •willst nicht so tief hernieder schauen. Und hoffen auf diefs Herz noch andre Frauen, So ist ihr Hoffen schwach , getäuscht, verlacht; Ich will es n icht was Unlust dir gemacht , Wie sollt1 ich dem in meinem Busen trauen. Wenn ich» verstofse, und wenn Hilfe nicht In deiner Brust der arme Flüchtling liu- det, Wenn jeder Weg dem Irrenden verschwindet, . Wenn e* die Schranken der Natur durchbr icht, Dann wird uns beyde harte Schuld beschweren, Doch de in e Schuld wird seine Liebe meh ren.
--62.68.185.153 22:15, 17. Jul. 2007 (CEST) Sorry --Peter m 22:16, 17. Jul. 2007 (CEST)
- Du sprichst von "Schnellkorrektur des Rohtextes". Ja, eben das sollte es ja bei der google-ocr nicht sein. Es geht nicht darum des schnell einfach irgendwie zu korrigieren... denn dann hat man den Qualitätsverlust, den Froben befürchtet hat. Nein, es geht darum, dass man den Rohtext erstmal auf ein ordentliches Layout bringt, und dann eine ernsthafte Erstkorrektur drübermacht (so wie bei jedem anderen Text auch).
- Was das Beispiel angeht. Ob du's glaubst oder nicht, damit kann man anständig und ohne viel Aufwand arbeiten. Es geht auf jeden Fall schneller dies auf eine ordentliche Form zu bringen, als den ganzen Text abzutippen. -- DivineDanteRay 22:24, 17. Jul. 2007 (CEST)
- Für mich bedeutet eine Schnellkorrektur eines Rohtextes, dass ich ihn so aufberreite, dass er besser für eine Korrektur geeignet ist.
- Es geht nicht darum des schnell einfach irgendwie zu korrigieren... [...] Ob du's glaubst oder nicht, damit kann man anständig und ohne viel Aufwand arbeiten. Da ich das ganze nicht erst seit gestern mache, weiss ich wovon ich rede - du sicher auch - deswegen denke ich, dass wir ein wenig aneinandervorbei reden.
- Sämmtliche OCRs, die ich verwende, mache ich selbst und verlasse mich nicht auf irgendwelche OCRs von Google zum Beispiel, es gibt viele Gründe, u. a. auch, dass es einem nach der 200sten Seite vielleicht nicht auffällt, dass ein ganzer (kleiner) Absatz vom OCR-Programm übersehen wurde, auch wenn man natürlich mit der Vorlage abgleicht! --Peter m 22:33, 17. Jul. 2007 (CEST)
- Zur Brauchbarkeit der Drumann-OCRs: In diesem unveränderten Google-OCR-Un-Zustand schätze ich den Text als unkorrigiert ein. Dann bearbeite ich ihn (da Google immer die gleichen Fehler macht, geht das mühelos) und setzte den Bearbeitungsstand auf "korrigiert". Das geht natürlich nicht bei den griechischen Seiten... Jonathan Groß 08:42, 18. Jul. 2007 (CEST)
- Ein sehr schönes Beispiel, nachvollziehbar, das du bietest, JonathanGroß. Das bedeutet also, dass du dir typische immer wiederkehrende Fehler bei GoogleOCRs ermittelst, die dann vielleicht über search/replace - nicht automatisiert -, ersetzt, da du ja sonst Gegenfiand und Abficht gleich korrigiert haben müsstest. Nur liest du bei dieser Art der Korrektur nicht - siehe: einem ändern Zwecke sticht einem sofort ins Auge, wenn man drüberliest auch nur oberflächlich. Auch vernachlässigt man dabei die Überprüfung mit der Vorlage - bist du sicher, dass da nicht was fehlt?
- Wie dem auch sei, das bedeutet für mich Vorkorrektur eines Rohtextes zur Vorbereitung zur Korrektur und hat absolut nichts mit Korrekturlesen zu tun, also für mich 100% unkorrigiert.
- Wenn das der Vorschlag ist , so zu korrigieren, wäre es echt sinnvoll, den neuen Passus sofort wieder abzuändern, da das zu einer Verschlechterung führt.
- Für mich stand bei der ganzen Diskussion nur Folgendes zur Debatte: Der Einsteller und Erstkorrektor sind gleich, korrigiert und setzt auf Stand korrigiert. Nicht aber, sucht sich die typischen OCR-Fehler, verbessert sie und setzt auf korrigiert. --Peter m 10:41, 18. Jul. 2007 (CEST)
- OK, in diesem Fall hast Du mich überzeugt. Das wäre in der Tat ein untragbarer Qualitätsverlust. Aber ich werde trotzdem mal die häufigen Google-OCR-Fehler zusammentragen. Jonathan Groß 19:19, 18. Jul. 2007 (CEST)
Zur Suchproblemen: Bei Buch- bzw. Zeitschriftenserien habe ich seit einiger Zeit Schwierigkeiten: Wenn ich weitere Editionen anklicke wird mir die erste Ergebnisseite angezeigt, ich kann aber nicht zur 2. oder weiteren Ergebnisseiten blättern, auch wenn wenn diese unten angezeigt werden. Ist das bei Euch genauso? Vor einigen Wochen ging das noch. -- 10:35, 25. Sep. 2007 (CEST)
- Ja, dasselbe Problem hab ich auch. Ich halte es für einen Anzeigefehler auf der Suchseite. Jonathan Groß 11:35, 25. Sep. 2007 (CEST)
Materialien zur Google-URL
[Bearbeiten]- id= Identitätsnummer
- printsec=frontcover führt immer auf die Titelseite (oder was Google dafür hält), =titlepage ebenfalls, =toc auf die erste Seite des Inhaltsverzeichnisses, =index Index
- dq= Suchanfrage
- as_brr= 0 alle Bücher, 1 Vollständige Ansicht, 3 eingeschränkte Vorschau
- ei unbekannt (Variante von sig?)
- hl=de Sprachversion
- output=html Basic HTML mode
- http://books.google.com/books?id=W4IDAAAAYAAJ&pg=PA593-IA4
- http://books.google.com/books?id=fuk5AAAAMAAJ&pg=RA1-PA3-IA14
Mit IA werden nicht paginierte Zwischenseiten bezeichnet.
Ein modernes Volltextbuch.
lpg= letzte besuchte Seite
Buch mit eingeschränkter Vorschau.
vq= Suchwort bei der Suche im Buch
vq und dq können weggekürzt werden, dann verschwinden die Hervorhebungen --FrobenChristoph 06:20, 18. Nov. 2007 (CET)
- Gute Arbeit, Danke :) --Xarax (Rechtsschreibfählermäldeställe) 02:36, 17. Dez. 2007 (CET)
Siehe nun auch http://code.google.com/apis/books/static-links.html --FrobenChristoph 23:37, 14. Mär. 2008 (CET)
Runterladen einzelner Seiten
[Bearbeiten]Hallo, kann mir irgendjemand erklären, wie ich einzelne Seiten von einem Digitalisat von Google Books auf die Festplatte speichern kann? Früher konnte man noch auf die Seite klicken und diese dann mit "Speichern unter ..." als Bilddatei auf der Festplatte ablegen. Aber das klappt irgendwie nicht mehr. (Und das ganze PDF will ich nicht runterladen, weil 126 MB für sechs interessante Seiten doch etwas zu viel ist.) -- Gruß DivineDanteRay 19:36, 22. Dez. 2007 (CET)
- Das geht am einfachsten, wenn du javascript ausschaltest, dann geht zumindest im ff speicher unter... --Xarax (Rechtsschreibfählermäldeställe) 19:38, 22. Dez. 2007 (CET)
- Vielen Dank, jetzt gehts :) -- DivineDanteRay 19:42, 22. Dez. 2007 (CET)
Wird nicht auf der Seite selbst empfohlen, auf Basic HTML-Code umzuschalten? Gute Ergebnisse erzielt man auch mit der Wahl des Basis-HTML-Modus (rechts unten). Mit ihm kann man erfolgreich mit der rechten Maustaste Seiten abspeichern. Das steht da, wo mans erwarten sollte --FrobenChristoph 21:04, 22. Dez. 2007 (CET)
- Ich hab unter dem Unterpunkt "Herunterladen von Werken" gesucht, und nicht unter dem Titel "Umgehen von Googles Digital Rights Management". -- DivineDanteRay 21:23, 22. Dez. 2007 (CET)
Kann mir jemand sagen, ob das herunterladen einzelner Seiten immer noch funktioniert? Ich habe sowohl mit dem Greasemonkey-Skript, dass den Text extrahieren soll, als auch mit dem speichern der komplette Seite keine Texte/Bilder der betrachteten Seite vorliegen. Wenn es noch irgendwie funktionieren sollte - bitte sagt mir wie! Danke. -- Wini242 11:48, 25. Jan. 2008 (CET)
- Am einfachsten gehts mit Umschalten in den Basis-HTML-Modus, dann auf das Bild mit rechter Maustaste klicken und Grafik speichern unter. Grad probiert (FF und IE 7) und es geht. -- Paulis 12:04, 25. Jan. 2008 (CET)
- Hmmm. Bei der Seite http://books.google.de/books?pg=PA37&dq=stpo&sig=nOc6msmSbKtmY7Uq4QyuOlaMuMc&id=7ejBfC2HCacC&output=html erhalte ich aber z.B. bei Rechtsklick/"Grafik speichern unter..." nur das dämliche Pixel http://books.google.de/images/cleardot.gif . Irgendwelche andere Vorschläge? -- Wini242 12:19, 25. Jan. 2008 (CET)
- ja stimmt, ging bei mir auch nicht. Dann eben im FF unter EXTRAS -> Seiteninformation -> Medien -> richtige Adresse suchen und dann speichern unter... es geht ;) -- Paulis 12:27, 25. Jan. 2008 (CET)
- KLASSE TIP! - das hats beim FireFox-Browser gebracht!!! Die Grafik wurde als angtebliche Hintergrundgrafik eingebunden und die PNG-Datei kriegte die (natürlich falsche) Dateiendung *.html. Unter Seiteninformation -> Medien ließ sich die PNG-Datei bei mir dann problemlos abspeichern. --Jumbo
Hängt vom Typ des Buchs ab. Bei gemeinfreien Büchern (Vollansicht) funktioniert die Rechtsklick-Methode. --FrobenChristoph 12:54, 25. Jan. 2008 (CET)
Für Safari-Benutzer: - In den Einstellungen unter Advanced (letzter Reiter) die Einstellung "Show Develop Menü" aktivieren (ganz unten) - Auf die Seite des Buchs navigieren. Im Menü unter "Develop" den "Web-Inspector" aktivieren (Alt + Cmd + I) - Unter "Ressources" (2. Reiter) kann das "Tracking" aktiviert werden - Einmal das Buch durchscrollen - Nun sind im Web Inspector alle Seiten zu sehen und durch ein rechtsklick einfach und schnell zu speichern - hunderte Seiten in wenigen Minuten Viel Erfolg, --Smelliw 22:11, 26. Sep. 2010 (CEST)
to do Neuigkeiten
[Bearbeiten]Neuigkeiten: Mal abwarten und nachtragen, auch bei Internet Archive: http://archiv.twoday.net/stories/5297707/ und Benutzer:Mentelin/IA-DE-Titel/ Mentelin --84.57.255.147 17:42, 4. Nov. 2008 (CET)
uralte Bücher auf Google Books unfrei
[Bearbeiten]- >Kopie aus dem Skriptorium<
Ich bin gerade auf ein Buch von 1742 gestoßen, dass bei Google Books dennoch nicht einsehbar ist. Kommt sowas öfter vor? Das sollte doch klar gemeinfrei sein. Gibt es irgendeine Möglichkeit, da nachzuhelfen? --141.41.96.105 02:15, 10. Mär. 2009 (CET)
AW:Hallo, ein Link wäre hilfreich gewesen, damit man nicht die ganze Latte runterbeten muss. Aber egal, solche Fragen scheinen ja viele Leute umzutreiben: Ja, es kommt öfters vor, dass auch alte Titel vor 1868 nicht zugänglich sind. Prinzipiell ist bei Google alles in allen Varianten möglich und viele Gründe dafür erschließen sich auch langjährigen Beobachtern nicht. Google danach zu fragen ist sinnlos. Für ihre Geheimniskrämerei nehmen sie gerne wildeste Spekulationen und Kaskaden von Benutzerzorn in Kauf. Selbst schuld.
Varianten:
- Zunächst gibt es Titel, von denen liegen nur die Metadaten, ein sog. Katalogisat vor, die wohl den Bibliothekskatalogen entnommen wurden, aber kein Scan /OCR davon erstellt wurde.
- Falls du Treffer in der OCR gehabt hast, oder ein Titelbild-Tumbnail sichtbar ist, dann ist das Buch irgendwie auch als Scan vorhanden und kann gelegentlich AUCH unabhängig vom tatsächlichen Alter gesperrt sein innerhalb und außerhalb der USA, kann mal für beide Regionen freigegeben werden, mal auch nur für die USA, was der Zugang über Proxy erfordert.
- Manchmal werden Titel gesperrt oder ganz herausgenommen, die von Users als fehlerhaft/unlesbar gemeldet werden, die können irgendwann auch wieder auftauchen.
- Manchmal handelt es sich auch um Reprints oder Mikrofiche, die meist aus Rücksicht gegenüber des Verlages oder automatisch wg. des modernen Publikationsdatums gesperrt bleiben. Häufig findet man aber, etwa aus der gleichen Reihe, sowohl gesperrte wie zugängliche Titel, die sich auch noch munter abwechseln können, mal taucht ein gesperrter auf und dann ein freier Titel wieder unter usw. Ärgerliches Beispiel dafür siehe Anmerkungen zu dieser Zeitschrift Zeitschriften (Musik)#A
Maßnahmen:
- 1.) Titel über einen Proxy, wie z.B. http://www.proxyleech.com/ oder http://www.atproxy.net auf aufrufen, aber mit http://books.google.com , nicht .google.de Bleibt er gesperrt, dann schauen, ob es beim Internetarchiv http://www.archive.org/details/texts gespiegelt wurde (Kann dann der Fall sein, wenn es zumindest auf US früher einmal zugänglich gewesen war. Da auch gezielte Suche über die Google-Buch-ID möglich. Die ID ist der Sting nach dem Zeichen: = Beispiel: http://books.google.com/books?id=tmwAAAAAMAAJ )
- 2.) Schauen ob er bei der Herkunftsbibliothek, z.B. etwa Michigan, einsehbar ist. (Bei späteren Titeln, 1868+ dort auch nur mit Proxy)
- 3.) Bei oaister.org schauen, ob er woanders digitalisiert wurde. (Schließt auch Michigan-Titel ein)
- 4.) Wenn das alles nichts bringt, hilft nur, sich den Link zu merken und gelegentlich probieren, ob a.) genau dieser Scan doch einmal auftaucht oder öfter nach den Titelstichworten suchen, ob b.) nicht ein anderer Scan des gleichen Titels auftaucht. Letzteres gilt natürlich auch für die anderen Suchmöglichkeiten.
- 5.) Für ganz wichtige Sachen bietet sich die Einsicht/Fernleihe in der nächstgelegenen UB oder die kostenpflichtige „Digitalisierung on demand“ auch „ebook on demand“ an, etwa bei den UBs Göttingen, Dresden oder der BSB München. Dazu muss aber der Titel jedoch in deren OPACs verzeichnet sein. Fremde Titel beschaffen sie nicht. Je nach Umfang kann das schon mal 30-40 Euro kosten.
So ungefähr gehen die Leute hier vor, wenn ganz bestimmte Titel gesucht werden. Oft gibt es im Detail Änderungen. Viele Tipps finden sich hier auf diversen Hilfeseiten WS:GBS, Wikisource:Quellen, Wikisource:Bibliographieren, Kategorie:Wikisource:Kooperation und in älteren Skriptoriumsbeiträgen.
Noch ein Link zum Stöbern: Aktuell beträgt die Anzahl deutschsprachiger Titel beim Internetarchiv insgesamt 116.000, darunter 88.000 Google-Scans. Bei den Google-Scans ist die PDF nicht direkt über den üblichen Link ereichbar (der führt nur wieder zu Google), sondern in der Dateienliste unter „Allfiles:HTTP“ zu finden und ohne Proxy abzuspeichen. Die an gleicher Stelle angebotene OCR (.dvju.txt) ist KEINE Übernahme der jetzt relativ guten Google-OCR sondern eine schlechte und bei Fraktur unbrauchbare Neuerstellung von Archiv.org selbst. --88.67.126.119 13:13, 10. Mär. 2009 (CET)
- ein Link wäre hilfreich gewesen, damit man nicht die ganze Latte runterbeten muss Ein Glück hab ich den nicht gesagt, denn sonst hättest du nicht diese ganzen hilfreichen Informationen aufgeschrieben ;-) War wirklich hilfreich und informativ.
- Da keine Suchtreffer innerhalb des Buchs angezeigt werden und nicht einmal eine Bibliothek genannt wird, nehme ich an, dass in diesem Fall tatsächlich bloß die Metadaten vorliegen. Wusste ich bisher auch nicht, dachte Google hat unter Google Books nur Bücher, die auch tatsächlich digitalisiert sind. --141.41.96.105 07:09, 11. Mär. 2009 (CET)
gigapedia
[Bearbeiten]Vielleicht ist das hier schon bekannt. Aber bei gigapedia.org befinden sich ettliche texte PD aber auch unfreie als pdf, djvu oder html. Womöglich wäre das nützlich gerade bei fehlendem OCR. --Helohe 18:31, 18. Jan. 2010 (CET)
- Da vermutlich nicht das Wiki um eine Fernsehsendung gemeit ist, wird es sich um http://library.nu/ handeln: 2010-12-19: Welcome new users and ex-gigapedia users! gigapedia.com has moved to our new home here at library.nu, Feel free to browse the featured list (below) or register on the site in order to search and view the 420,000+ entries available and much more... -- Matthead 19:55, 1. Mär. 2011 (CET)
full PDF von Hathitrust
[Bearbeiten]Der Download der "full PDF" einiger Digitalisate ist dennoch möglich. Die Möglichkeit wird bei Einigen Einträgen regulär auf der entsprechenden Katalogseite angeboten. z.B. http://hdl.handle.net/2027/uc2.ark:/13960/t43r16g4g (Abruf mit US-Proxy - im Werkzeugkasten links)
Suche nach "full PDF" liefert derzeit 425 Ergebnisse. http://www.google.de/search?&q=site%3Ahttp%3A%2F%2Fbabel.hathitrust.org+%22full+PDF%22&aq=f&aqi=&aql
googlesharing
[Bearbeiten]...indem man unter das Firefox-Addon http://www.googlesharing.net nutzt...
Leider funktioniert googlesharing unter firefox 4.0 nicht mehr. Wer kennt die Lösung? --Sanblatt 12:22, 24. Mär. 2011 (CET)
hidemyass.com proxies
[Bearbeiten]http://www.hidemyass.com/ und deren gesponserte Proxies, wäre vielleicht gut diese einmal zu testen und Erfahrungsberichte zu sammeln, hab selbst nur ein paar getestet (vor allem für HT, GBS geht ja besser über googlesharing). Siehe auch http://www.hidemyass.com/proxy/ ganz unten links.
- http://www.hidemyass.com/ – funktioniert nicht mehr als US-Proxy, ich bekomme immer eine deutsche IP
- http://www.anon.me/ – zahlreiche IPs; der erste Seitenaufbau sehr langsam; bei manueller Eingabe einer neuen Adresse über die Adresszeile ändert sich die genutzte IP, dadurch wieder langsamer Seitenaufbau (nervig wenn man bspw. für Zs-Aufsätze die gewünschte Seite manuell aufruft)
- http://www.unblocked.org – Texas USA, sehr fix
Positiv ist auch, dass der Seitenkopf beim Nutzen des Proxies immer gleich aussieht (wie hidemyass). --enomil 13:20, 16. Apr. 2011 (CEST)
Anmerkung zu Googlesharing
[Bearbeiten]Der Text dazu ist etwas überholt. Inzwischen kann man Bücher in deutscher Sprache bis etwa 1915 (1917?)bei books.google.com herunterladen. Das Herunterladen ist immer möglich, wenn man wie folgt vorgeht: Man klickt links auf Preview available. Alle Bücher, die den Vermerk "Read" tragen, kann man herunterladen (hat bei mir bisher jedenfalls immer funktioniert). Bei books.google.de verschwinden häufig antiquarische Bücher. Nämlich immer dann, wenn so ein alter Schinken neu aufgelegt wird. Bei books.google.com sind die alten Bücher weiter verfügbar. --Caedmon12 (Diskussion) 17:02, 3. Jul. 2012 (CEST)
- Was bedeutet denn: "Die letzte GS-Version 0.22 ist ohne Tricks nicht mehr kompatibel zu den neueren Firefox-Versionen gewesen." Welche Tricks gibt es denn für FF18? --Konrad Stein (Diskussion) 14:17, 9. Jan. 2013 (CET)
Einschränkung des Veröffentlichungsdatums in Firefox
[Bearbeiten]Früher war in Google Books, in IE und in FF, die Möglichkeit zur Einschränkung des Veröffentlichungsdatums in einer Spalte links von den Suchergebnissen und es hat funktioniert.
Seit einiger Zeit ist im IE diese Funktion in einer Leiste unterhalb des Feldes für die Suche, funktioniert.
Im Firefox kann man weiterhin einige Sachen in einer Spalte links von den Suchergebnissen einstellen, aber die Einschränkung des Veröffentlichungsdatums ist jetzt in der "Erweiterten Suche", Eingaben dort haben jedoch keinen Einfluß auf das Suchergebnis.
Kann das jemand bestätigen?
(Windows Vista und 7, FF 3.6.28, NoScript 2.0.9.8) 178.191.244.161 00:27, 9. Jan. 2013 (CET)
- Bei mir funktioniert das mit FF wie du für IE beschrieben hast. Vielleicht spendierst du deinem FF mal ein kleines Update, die aktuelle Version ist FF 18. --9xl (Diskussion) 09:41, 9. Jan. 2013 (CET)
- Der Umstieg auf neuere Versionen (FF 18.0) hat das Problem behoben. Mit der neuen FF-Version ist die Situation so:
- Wenn JavaScript aktiviert ist, ist das Verhalten gleich wie es oben beim IE beschrieben ist.
- Wenn JavaScript testweise deaktiviert ist, ist das Verhalten gleich wie es oben für die alte FF-Version beschrieben ist. 91.113.92.228 01:12, 12. Jan. 2013 (CET)
- Der Umstieg auf neuere Versionen (FF 18.0) hat das Problem behoben. Mit der neuen FF-Version ist die Situation so:
Seitengröße
[Bearbeiten]weiß jemand, wie der Parameter für die Seitengröße lautet ... ich hatte ihn, habe ihn aber vergessen ;-( Ra-raisch (Diskussion) 23:01, 9. Mär. 2018 (CET) achja ich habs wieder gefunden: &w=1280 sind 1280px Breite. 91.4.192.77 13:30, 10. Mär. 2018 (CET)
Vollansicht für Snippets-Vorschau?
[Bearbeiten]Man kann durch die Volltextsuche einzelne Snippets einer Buchseite abrufen. Manchmal ist das sogar ausreichend, um einen Buchabschnitt aus Snippets zusammenzupuzzlen. Aber das funktioniert leider nicht immer. Gibt es eine Möglichkeit, durch einen Trick eine Buchseite vollständig anzuzeigen? --88.70.243.191 15:02, 22. Jan. 2022 (CET)
- Meines Wissens nicht. Siehe aber https://archivalia.hypotheses.org/134211 (wie auch nebenan verlinkt). --Jonas kork (Diskussion) 16:19, 22. Jan. 2022 (CET)