Wikisource:Skriptorium/Archiv/2014/August

Diese Seite ist ein Archiv abgeschlossener Diskussionen. Ihr Inhalt sollte daher nicht mehr verändert werden. Benutze bitte die aktuelle Diskussionsseite.

Um einen Abschnitt dieser Seite zu verlinken, klicke im Inhaltsverzeichnis auf den Abschnitt und kopiere dann Seitenname und Abschnittsüberschrift aus der URL-Zeile deines Browsers (Beispiel: [[Wikisource:Skriptorium/Archiv/2014/August#Abschnittsüberschrift]]).

Am deutschen Wesen ....

Ein Beispiel deutschen Dünkels des 19. Jahrhunderts, der sich im 20. noch in gesteigertem Umfang fortgesetzt haben soll, findet Ihr unter Die Osseten.

Ich fände es im Übrigen gar nicht so schlecht, wenn wir solche und besser noch adrettere Beispiele aus Eurer Arbeit zum Besten gäbet. Es könnte uns nur gut tun, auf diese Weise animiert zu werden, über den eigenen Tellerrand zu blicken und zu erfahren, was parallel zu unseren eigenen Arbeiten im Werden ist, was lohnt, davon Notiz zu nehmen. --Pfaerrich (Diskussion) 13:06, 19. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: --Pfaerrich (Diskussion) 17:03, 5. Sep. 2014 (CEST)[Beantworten]

Fraktur-OCR of Swedish cookbooks

I recently found a lot scans of Swedish cookbooks from the 18th century and 19th century. They're all naturally written in fraktur style. Is there anyone here who knows about OCR-processing of fraktur? There doesn't seem to be any tools for this purpose at Swedish Wikisource. Is there anyone here who can help out?

Peter Isotalo (Diskussion) 19:49, 17. Aug. 2014 (CEST)[Beantworten]

See Hilfe:Tesseract-Texterkennung and swe-frak.traineddata.gz --Jowinix 13:59, 18. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 09:40, 8. Sep. 2014 (CEST)[Beantworten]

Korrukturlesebutton fehlt wieder

Könnte jemand den Button zum Korrekturlesen von ADB-Artikeln wieder "anschalten"? --Hvs50 (Diskussion) 15:35, 21. Aug. 2014 (CEST)[Beantworten]

Bei ist er da, mit allen fünf Browsern, angemeldet (https) oder nicht (http). --9xl (Diskussion) 16:46, 21. Aug. 2014 (CEST)[Beantworten]

Na dann habe ich keine Ahnung, wovon der Bug abhängig ist ... Hsv50, siehe auch Wikisource:Technikwerkstatt#Reiter_Korrekturlesen_in_PR1 und Diskussion:Paulys_Realencyclopädie_der_classischen_Altertumswissenschaft#Interiml.C3.B6sung_f.C3.BCr_Korrekturlesen. --S8w4 (Diskussion) 08:32, 22. Aug. 2014 (CEST)[Beantworten]

Ja, das ist schon rätselhaft wie alle diese kleinen Problemchen kommen und verschwinden. --9xl (Diskussion) 09:43, 22. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 09:39, 8. Sep. 2014 (CEST)[Beantworten]

Benutzer:Rotlink Vandalismus

Würde Bitte jemand diesen Benutzer auch hier sperren?, vorläufig auf unbestimmte Zeit. Er hat bei der RE massenweise funktionierende Wikilivres-Links auf diesen obskuren illegalen Webarchivierer umgebogen und genau wegen solcher Sachen wurde er auf WP gesperrt. Es wurden zwar paar wenige andere echt tote Links umgebogen, aber das besorgen wir künftig lieber selbst, auf ein Archiv unserer Wahl. Bei soviel Uneinsichtigkeit sollte der Benutzer nicht einfach im nächsten WM-Projekt damit weitermachen dürfen. --Rumpelsteig (Diskussion) 16:13, 23. Aug. 2014 (CEST) Des weiteren hat er Links zur Kongressbibliothek umgebogen obwohl diese nur zur Wartungszwecken über das Wochenende down ist. So als warte er nur auf solche Gelegenheiten. Sieht gerade so aus als würde er vom Betreiber dafür bezahlt. --Rumpelsteig (Diskussion) 16:34, 23. Aug. 2014 (CEST)[Beantworten]

Der ist mir auch gerade aufgefallen, ok gesperrt.

Würdest du Rotlink bitte ein paar passende Worte auf seine Disku schreiben, die ist weiterhin offen. Wenn er sich äußert, können wir ja darüber reden. --9xl (Diskussion) 16:54, 23. Aug. 2014 (CEST)[Beantworten]

Der ist übrigens auf sehr vielen Wikis aktiv und auf einigen, de, en, ja, zh gesperrt. Hat über 150.000 edits in knapp zwei Jahren, siehe toollabs. --9xl (Diskussion) 17:02, 23. Aug. 2014 (CEST)[Beantworten]

Danke fürs sperren. Ja, ich habe es jetzt auch gesehen, ihm scheint wohl öfters der Bot aus dem Ruder zu laufen. Angesichts seiner bisherigen Aktivitäten auf WS können wir getrost darauf verzichten, auch wenn er uns dabei mal einen echten toten Link aufzeigt. Aber diese Rasenmäher-Methode geht gar nicht, er sollte sich ein anderes Hobby suchen. Wird er entsperrt, macht er weiter und wir räumen wieder hinterher, denn besonders kommunikativ ist er nicht.--Rumpelsteig (Diskussion) 17:38, 23. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 09:38, 8. Sep. 2014 (CEST)[Beantworten]

Vorlage:Personendaten

In der Vorlage:Personendaten wurden Änderungen zur Verbesserung der Sortierung in den Kategorien vorgenommen. Das betrifft alle Kategorien, Kategorie:Autoren, Kategorie:Person sowie die Wartungskategorien wie Kategorie:Person ohne Geburtsdatum usw. und auch Kategorien außerhalb der Vorlage. Nach kurzer Kontrolle scheint alles wunschgemäß zu funktionieren. Wenn aber irgendwelche Probleme damit auftauchen sollten, bitte hier beschweren.

Bei dieser Gelegenheit möchte ich alle Autoren-Autoren bitten, nicht die Personendaten aus bestehenden Artikeln zu kopieren (diese enthalten zum Teil vorsintflutliches Zeug), sondern die Kopiervorlage der Personendatenvorlage zu verwenden. --9xl (Diskussion) 13:33, 18. Aug. 2014 (CEST)[Beantworten]

Danke für eure Verbesserungen. --Koffeeinist (Diskussion) 18:02, 18. Aug. 2014 (CEST)[Beantworten]

Ich danke auch, aber die im WS-Hauptmenü links unter "Mitmachen" verlinkte Vorlage:Neuer Artikel enthält unter "Autor" noch eine alte Kopiervorlage und die anderen Listenvorlagen dort müsste man auch mal überprüfen. Als echter Mitmacher vom Lande benutzte ich diese fleißig, treu-doof wie ich nun mal bin, wunderte mich aber langsam doch, warum da immer noch "PND" drin steht während andere Seitenneuersteller ganz andere Varianten hatten. --Rumpelsteig (Diskussion) 13:43, 20. Aug. 2014 (CEST)[Beantworten]

Hallo, nachdem ich mich kürzlich mit der Sortierung bei der Vorlage Personendaten auseinandersetzte, habe ich mal versucht einige generelle und spezielle Hinweise für die Sortierung in den Kategorien bei WS zu entwerfen. Bitte schaut es Euch bei Gelegenheit an und gebt mir Rückmeldungen dazu, würde mich freuden. Viele Grüße --Mapmarks (Diskussion) 02:02, 21. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 09:19, 15. Sep. 2014 (CEST)[Beantworten]

Letter petitioning WMF to reverse recent decisions

The Wikimedia Foundation recently created a new feature, "superprotect" status. The purpose is to prevent pages from being edited by elected administrators -- but permitting WMF staff to edit them. It has been put to use in only one case: to protect the deployment of the Media Viewer software on German Wikipedia, in defiance of a clear decision of that community to disable the feature by default, unless users decide to enable it.

If you oppose these actions, please add your name to this letter. If you know non-Wikimedians who support our vision for the free sharing of knowledge, and would like to add their names to the list, please ask them to sign an identical version of the letter on change.org.

-- JurgenNL (talk) 19:35, 21. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 08:54, 3. Okt. 2014 (CEST)[Beantworten]

Verlinkung zur ULB Halle

Habe gerade festgestellt, dass scheinbar die Verlinkung via ULB Halle nicht mehr (richtig) funktioniert. Bei dem Versuch der Verlinkung auf z.B. diesen Artikel erscheint unter Nutzung der Vorlage ein Error. Ist mir jedoch bei verschiedenen Verlinkungen auf ULB Halle immer wieder aufgefallen. --Bodhi-Baum (Diskussion) 19:57, 31. Aug. 2014 (CEST)[Beantworten]

Wenn ich eine existierende URN eingebe http://nbn-resolving.de/urn:nbn:de:gbv:3:5-8179 , dann funktioniert das, auch mit der Vorlage ULB Halle. --9xl (Diskussion) 11:46, 1. Sep. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 08:55, 1. Dez. 2014 (CET)[Beantworten]

Process ideas for software development

’’My apologies for writing in English.’’

Hello,

I am notifying you that a brainstorming session has been started on Meta to help the Wikimedia Foundation increase and better affect community participation in software development across all wiki projects. Basically, how can you be more involved in helping to create features on Wikimedia projects? We are inviting all interested users to voice their ideas on how communities can be more involved and informed in the product development process at the Wikimedia Foundation. It would be very appreciated if you could translate this message to help inform your local communities as well.

I and the rest of my team welcome you to participate. We hope to see you on Meta.

Kind regards, -- Rdicerb (WMF) talk 00:15, 22. Aug. 2014 (CEST)[Beantworten]

--This message was sent using MassMessage. Was there an error? Report it!

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 09:44, 9. Dez. 2014 (CET)[Beantworten]

Neue Suchmaschine: Keine Linkvorlageninhalte wie Google-IDs etc. mehr auffindbar !

Jetzt stehen die Listenpfleger total im Dunkeln, so kann man hier nicht arbeiten. Die Verwendung von aus gutem Grund notwendigen Vorlagen darf nicht dazu führen, dass deren Inhalte so einfach aus dem Index weggeputzt werden. Sogar im Internet Archive kann ich nach Google-IDs suchen, was auch immens wichtig ist. Gibt es noch Hoffnung oder oder sind wir zu unbedeutend, um eine Änderung zu erreichen? --Rumpelsteig (Diskussion) 16:46, 20. Aug. 2014 (CEST)[Beantworten]

Weiß nicht ob ich Dich richtig verstanden habe. Wenn ich „GBS“ in die Suche eingebe, erhalte ich durchaus Ergebnisse, ebenso wenn ich z. B. den ID „F546AAAAcAAJ“ eingebe, wird dieser aufgelistet und hervorgehoben. --Mapmarks (Diskussion) 01:47, 21. Aug. 2014 (CEST)[Beantworten]

Ich habe die ersten 10 IDs in Emanuel Geibel probiert, es wurde keiner gefunden. --9xl (Diskussion) 10:19, 21. Aug. 2014 (CEST)[Beantworten]

Habe ich bei mir wiederholt = alle 10 gefunden. Browserproblem? --Hvs50 (Diskussion) 11:22, 21. Aug. 2014 (CEST)[Beantworten]

Ich habe es mit fünf Browsern (unter Windows7, Vector skin) probiert, das Ergebnis ist immer gleich: "F546AAAAcAAJ" wird gefunden, "avE_AAAAIAAJ", "HnsHAAAAQAAJ", "zxY-AAAAIAAJ", "og4XAAAAYAAJ", … nicht. --9xl (Diskussion) 14:41, 21. Aug. 2014 (CEST)[Beantworten]

Mit insource: sollte es funktionieren. Dabei aber wirklich die komplette Google-ID angeben: insource:F546AAAAcAAJ oder auch insource:|F546AAAAcAAJ funktioniert (bei mir), insource:F546AAAAcAA aber nicht. --WaldiWuff (Diskussion) 15:39, 22. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 09:31, 11. Dez. 2014 (CET)[Beantworten]

Treffen in Wikimania

Hallo! Letzte Woche in Wikimania London hat ein kleines international Treffen stattgefunden, leider ist kein de-ws Benutzer/in gekommen. Eine kurze Zusammenfassung auf Englisch findet ihr hier. Ist auch dieses Jahr ein ws-de Treffen geplant? Und möchte jemand dieses Jahr eine Deutsche version von der WS Wettbewerb organisieren?

Übrigens, in Commons habe ich gesehen diese anscheinend wiedederholte Kategorien: c:Category:DjVu files in German und c:Category:De Wikisource book djvu. Kann ich beide zusammenführen? Danke und Grüße. --Micru (Diskussion) 11:43, 17. Aug. 2014 (CEST)[Beantworten]

Das Zusammenführen der Kategorien ist sinnvoll, da hat sicher niemand was dagegen. Die Kategorie De Wikisource book djvu sollte dabei bestehen bleiben.
- Ich hab es manuel gemacht, damit es keine Fehler auftritt. Jetzt ist es so wie bei anderen Sprachen: DjVu files by language. Die Kategorie De Wikisource book djvu habe ich momentan leer gelassen.
Ein ws-Treffen wird meiner Kenntnis nach derzeit aktuell nicht geplant, war aber wohl angedacht.
- Super!
Ein WS-Wettbewerb läuft bei uns stets und ständig, siehe Korrekturen des Monats. Für weitere Initiativen ist hier jede Menge Platz, es muss sich nur jemand finden, der das in die Hand nimmt. Grüße zurück. --A. Wagner (Diskussion) 22:36, 17. Aug. 2014 (CEST)[Beantworten]
- Es wäre so etwas ähnlich aber mit Werbung nach aussen als Schwerpunkt geplant (so wie "Wiki Loves Monuments"). Letztes Jahr hat es sehr gut funktioniert (it-ws hat 4k Seiten in eine Woche überprüft). Wenn ihr Interesse habt, könnte man beim WMDE fragen, ob es Unterstützung dafür geben würde.--Micru (Diskussion) 11:40, 21. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: 9xl (Diskussion) 09:13, 20. Jan. 2015 (CET)[Beantworten]

BUB (Book Uploader Bot) für Google nach IA

und anderen Varianten. Link: http://tools.wmflabs.org/bub/index

Vorteile:

Bestechend einfach und schnell. (Ausnahme: angebliche erkannte Dubletten, siehe unten) Einhändig zu benutzen, man kann nebenbei noch ein, zwei fette Dampfnudeln mit Weinsauce essen.

Kein Internet Archive Account notwendig, für den man bekanntlich eine Zweit(Müll)- oder Wegwerf-Emailadresse braucht, weil diese in den Metadaten ohne Spamschutz verzeichnet wird.

Anonym. Kein Wikimedia-Login erforderlich. Lediglich der Wikimedia-Server erhält die eigene IP

Nichts muss getippt, kopiert oder sonst wie angegeben werden außer der blanken Google Buch-ID, wahlweise auch der ganzen URL.

Die eigene Email-Adresse muss nur angegeben werden, wenn man über die erfolgreiche Einstellung benachrichtigt werden möchte, was man sich meiner Meinung völlig sparen kann aus folgendem Grund:

Die ID des Internet Archive Uploads lässt sich ganz einfach aus der Google-ID ableiten, man muss sie sich nicht eigens merken, Hauptsache man die Google-IDs seiner Uploads noch zur Hand. Beispiel {{IA|bub_gb_KuY-AAAAYAAJ}} = {{GBS|KuY-AAAAYAAJ|US}} gleich Internet Archive = Google-USA * Man muss also weder abwarten bis der Link online im Verlaufsprotokoll erscheint, noch braucht man eine Mail dazu. Der Link zum IA funktioniert in der Regel nach wenigen Minuten, bis dieses aber alle Derivate fertig hat und online gelesen werden kann, können je nach Auslastung einige Stunden vergehen. In der IA-Suche erscheint der Titel jedoch nicht sofort, da der Index nicht so schnell aktualisiert wird)

Der Bot holt nicht die PDF, die Google zum Download anbietet (welche leider seit dem "Bücherklau" des IA-Users "tpb" für das IA durch Capcha-Abfrage geschützt ist)

Unterstützt auch einige andere Quellen (Bibliotheken) als nur Google und soll auch dahingehend (auf Wunsch?) ausgebaut werden können.

Offenbar gibt es durch den direkten Download der Bilddateien keine Probleme mit Buchillustrationen im IA-Online-Reader, wie es beim Download der Google-PDF häufig der Fall ist oder war, wo Abb. im Buch in einem anderen Grafikformat vorliegen und Online im IA-Reader fehlen, aber in der PDF weiter enthalten sind und im lokalen PDF-Viewer angezeigt werden. Wenn ich damit richtig liege, dann wäre ein Neu-Upload wichtiger, bei uns verlinkter illustrierter Werke zu überlegen, wenn es keine Alternativ-Digitalisate gibt.

Nachteile:

Die Metadaten der Titel werden von Goggle übernommen und sind deshalb genauso grottig (insbesondere bei Zeitschr., Reihen und versch. Aufl.) wie schon bei der halben Million Titel, die seinerzeit der Superuser "tpb" botmäßig eingestellt hat.

Da die Titel unter dem Account des Bots eingestellt werden, kann man die Metadaten nicht nachträglich verbessern, außer sie ggf. nebst Schlagwörtern und anderen Hinweisen ins Kommentarfeld zu kopieren, welches jeder eingeloggte Benutzer überall nutzen kann und dessen Inhalt auch in der normalen Suche berücksichtigt wird.

Der Bot prüft zunächst das Internet Archive auf Doubletten (und zeigt sie als maskierte Kurzlinks an), was eigentlich eine gute Idee wäre. Aber weil die Suche nicht etwa nach eindeutigen Stings wie der Googgle-ID, sondern nach (wie ich glaube ausschließlich – Script) gleich lautenden Titelzeilen aller IA-Bücher läuft, muss man bei Zeitschr., Reihen und versch. Aufl. häufig den Uploadwunsch erst mit einem nervigen, schlecht lesbaren Capcha bestätigen. Falls der Bot bei seinen Admin-Massenuploads (siehe unten) ebenfalls so prüft und die angeblichen Doubletten nicht vom Admin nach gearbeitet werden, was ziemlich aufwändig, genau genommen überhaupt nicht zu leisten wäre (Blick ins Buch, ggf. auch Zwischentitel, nachsehen in OPACs etc.) dann würden dabei unzählige Titel einfach unter den Tisch fallen. (z. B. alle restlichen Titel einer Reihe oder häufige Titel wie "Gedichte") Der User "tpb" verzichtete damals auf eine solche Doublettenprüfung (und das ganz sicher mit dem Segen des IA, zu deren höchsten Reihen/Umfeld dieser auch anderweitig tätige Netzaktivist zuzurechnen war und leider auch nicht mehr lebt R.I.P.), bestenfalls fing er Doppeluploads mit identischer Google-ID ab. Der Botbtreiber sollte zumindest für das Uploadziel IA (soll ja auch für Commons entwickelt worden sein) darauf verzichten oder auf die Google-ID einschränken, oder eine einfache Ein-Klick-Bestätigung statt Capcha einbauen. Mir geht jedenfalls diese Abfrage so auf den Senkel, dass ich echt einen Horror kriege, wenn ich an unsere Zeitschriftenlisten denke.

Der Bot-Betreiber macht (selbst?) auch scheinbar wahllos Massenuploads, der Zugang erfordert jedenfalls ein Admin-Login. Aktuell wird eine Liste von rund 45.000 Titel abgearbeitet Liste der IDs – Lange Ladezeit!(welche wahrscheinlich auch ständig wieder nachgefüllt wird), wobei einzelne Useruploads offenbar Vorrang haben, sonst würde es viele Monate dauern, bis man an der Reihe wäre. Den Bot gibt es erst ab Frühjahr, im jetzigem Funktionsumfang erst seit wenigen Wochen und schafft so etwa ca. 40 Titel pro Stunde Aktueller Stand der IA-Uploads, neuste zuerst, davon deutschsprachig, unter den letzten 100 viele von mir (bei manueller Bot-Nutzung dauert es natürlich wesentlich länger). Die Geschwindigkeit gibt der Toolserver (wie der alte, lahmt auch er gerne mal oder fällt gleich ganz aus und bringt eine Errorseite) für Download und PDF-Erstellung und das IA für Upload und Derivateerstellung vor.

So sehr ich in Sachen Bücherdigitalisate alles unterstütze, was die Abhängigkeit von einer Privatfirma vermindern kann, scheint mir der Massenupload zu 90% oder gar mehr nur Eulen nach Athen zu tragen, da erstens die allermeisten Titel nicht nur schon bei Goggle, sondern parallel dazu auch bei fast allen Partnerbibliotheken wie z. B. MDZ, Hathi usw. völlig frei zugänglich sind. Eine sinnvollere Vorgehensweise, z. B. zunächst einmal nur die Proxytitel ab 1874 zu nehmen wäre wünschenswert. Darüber hinaus besteht das Risiko, dass Google künftig den Download der einzelnen Seiten erfolgreich erschwert oder verhindert, etwa durch Kacheln, Zerhacken, ekelige Scripte usw., wie es eben schon beim PDF via Captcha der Fall ist, bevor die wirklich schlecht zugänglichen Proxy-Titel in nennenswertem Umfang gesichert werden können. An andere Gefahren, wie die eines vorzeitigen Ablebens des Bots (Druck von Google auf Wikimedia mit der Rankingkeule etc.) mag ich da noch gar nicht denken.

Die im Library-Auswahlmenü versprochene Unterstützung von Hathi als Quelle scheint ausgerechnet bei Google-Scan von Hathi unmöglich. Ein anderers Tool, der Hathi-Download-Helper kann das aber. (Fehlermeldung: Oh snap! This book is Google-digitized. Hathitrust does not allow download of Google-books through their servers. But dont worry, you may search for this book on Google-books and enter that ID/URL, with Google-Books as selected library.) Abgesehen davon, dass mir in all den Jahren nie Buch bei Hathi aufgefallen ist, welches nicht von Google gescannt wurde, wäre gerade mir diese Möglichkeit für die WS-Listen sehr wichtig, da viele bei Hathi unter Proxy, ja sogar einige ohne Proxy einsehbaren Titel (z. B. Titel bis 1923, moderne Reprints gemeinfreier Werke, wo bei Google alleine das Druckjahr und nicht Gemeinfreiheit an sich maßgebend ist, oder bei Hathi auf Anfrage durch Nachweis der Gemeinfreiheit freigeschaltete Titel) welche bei Google ganz gesperrt oder überhaupt nicht vorhanden sind, so dass auf normalem Wege überhaupt keine PDF zu erhalten ist, weder von Hathi (außer über umständliche Umwege mit dem Hathi-Download-Helper) noch von Google. Hier wäre so ein Bot sinnvoll, der die Funktionenen des Hathi-Download-Helper mit den bereits vorhandenen verbindet. Ich alleine hätte mindestens 1500 Titel auf meiner Wunschliste. Es ist jene Liste, mit der ich einst den Hathi-Download-Helper gefüttert habe, aber zur Nachbearbeitung der Bilddateien (PDF-Erstellung und Upload) noch immer nicht gekommen bin und deren unterschiedliche Bildformate (TIFF für Textseiten und JPEG für Abbildungen bzw. was Google eben als solche erkannt hat) Probleme mit dem IA-Online-Reader machen.

Ich wäre dankbar, wenn andere den Bot mal testen würden und vielleicht auch helfen könnten, weiteres an Hintergründen, Technik Quelltexte), Ausbaupläne in Erfahrung bringen bzw. meine Angaben dazu korrigieren oder eine kleine Anleitung nebst Beschreibung auf unseren Hilfeseiten entwerfen helfen oder auch direkten Kontakt mit dem Entwickler/Betreiber (User aus Neu-Delhi) zwecks Dank, aber auch zur Diskussion der genannten Vorschläge bzw. Kritikpunkte aufnehmen könnten. Möglicherweise, wie mir eben erst dämmert, kann aber auch jemand anders der Python versteht, zum Beispiel aus WP/WS-de eine Variante des Bots mit für uns geänderten Spezifikation auf dem Toolserver installieren, dann bräuchte man dem Entwickler nicht zu sehr auf die Pelle rücken.

Weiter wäre interessant zu wissen, ob und wie Leute mithelfen möchten, systematisch (gelegentlich darf und soll natürlich auch jeder) unser Listen mit Google-US-Titel abzuarbeiten ohne dass man sich in die Quere kommt oder die Zeit mit Doppelsichtungen zu vergeuden. (Seitenmarkierung etc.) --Rumpelsteig (Diskussion) 15:06, 20. Aug. 2014 (CEST)[Beantworten]

Also das sind ja mal echte Neuigkeiten. Zunächst einmal vielen Dank für die umfängliche Berichterstattung. Ich habs noch nicht ganz verdaut/begriffen (z.B. „Der Bot holt nicht die PDF, die Google zum Download anbietet“, sondern?), kann daher noch nichts qualifiziertes dazu sagen, gebe Dir aber schon darin Recht, dass Bücher nach 1878 Vorfahrt haben sollten. Gerne arbeite ich auch systematisch mit. Vielleicht sollte es dazu aber eine eigene Projektseite geben. Viele Grüße --Konrad Stein (Diskussion) 18:30, 20. Aug. 2014 (CEST)[Beantworten]

Ja, der Text ist so lang, dass ichs schon selber nicht mehr finde, deshalb suche ich ja auch Leute, dies aufn Punkt bringen können. Der Bot holt die Bilder aus dem Google-Online-Reader, die man sich auch selbst einzeln abspeichern kann, wenn man die altbekannten Tricks wie Rechtsklickverhinderung, Überlagerung usw. abstellt, was ja fast jeder im Browser per Einstellung oder Add-on schon für anderen Gelegenheiten, z.B. für Karten, PD-Bilder gemacht hat. Es gibt aber noch ein anderes Tool, ein kleines eigenständiges Programm, welches ich schon ein paar Tage früher entdeckt hatte und ebenfalls hier vorstellen wollte bzw. noch will, welches auch alle Bilddateien, also Seiten eines Google-Buches in höchster Auflösung holt und als eigenes PDF abspeichert. Die hat den Vorteil, dass die Qualität des daraus erstellten PDFs viel höher ist als bei der PDF, mit der Google und im Downloadbereich abspeist. Offenbar machten sie eine Schrumpfkur mit ihren PDFs. Mir ist schon lange aufgefallen, dass die Dateigröße der Google-PDFs, mit gleichen IDs wohlgemerkt, welche ich vor Jahren abgespeichert habe, viel größer war als heute. Vielen Dank natürlich auch für dein Interesse, du machst ja in diesem Bereich seit Jahren schon mehr als jeder andere. Mit systematisch abarbeiten meine ich vor allem, dass jeder seine Listen oder die Listen seines Interesses checkt, so nebenbei den Bot füttert und es irgendwie vermerkt, wenn man ganz durch ist mit einer Seite --Rumpelsteig (Diskussion) 19:34, 20. Aug. 2014 (CEST)[Beantworten]

Übrigens, was für digitale Bibliotheken gibt es auf Deutsch? Wenn ihr wollt, konnte man ein paar als standard Option in BUB festlegen. Für Katalanisch haben wir die BNC/MDC angefordert, und das macht viel einfacher Dateien zu importieren.--Micru (Diskussion) 11:48, 21. Aug. 2014 (CEST)[Beantworten]

Hallo Micru, Danke der Nachfrage. Wir haben hauptsächlich die Bayerische Staatsbibliothek (Bspl.: MDZ München), die mit Google kooperiert. Allerdings sind deren angebotene PDF sehr groß bei gleichzeitiger schlechter Auflösung. Die einzubinden wäre also nur sinnvoll, wenn man hohe Auflösungen herunterladen kann und die gut komprimiert zusammenbindet. --Konrad Stein (Diskussion) 17:51, 23. Aug. 2014 (CEST)[Beantworten]

Die Illustrirte Zeitung scheint als Pdf-Download beim MDZ eine etwa doppelt so hohe Auflösung zu haben, wie das, was bei Google angezeigt wird. Hier auch mal der Vergleich von zwei einzelnen Seiten: MDZ vs. Google.--Sinuhe20 (Diskussion) 19:43, 9. Sep. 2014 (CEST)[Beantworten]

@Sinuhe20: Ja, deren PDFs sind deutlich größer. Man kann, falls dies überhaupt Sinn macht, eine MDZ-PDF manuell mit dem Uploader in das IA schaffen. Im Kartenreiter statt Google-Books Manual-Wildcards nehmen und dort statt images PDF-Link auswählen, den Link (muss beim MDZ vorher manuell erzeugt werden und wird auch nicht ewig zum Download vorgehalten) und die Metadaten eingeben. Allerdings hat das IA Probleme mit (insgesamt) sehr großen PDFs, etwa Jahresbänden von Zeitungen. Bei Versuchen mit PDFs von anderen Bibs konnten teils keine Derivate erzeugt werden und hängen ewig in der Mache (Queue), womit auch kein Onlinelesen, Seitenverlinken möglich ist. Der einzige Grund vom frei zugänglichen MDZ direkt Titel ins IA zu laden, wären dauerhafte Verlinkungen auf einzelne Seiten, etwa bei Zeitschrifteninhaltslisten. Das MDZ bietet noch immer keine persistente URL auf Seiten, weshalb es bei unserer Vorlage dafür auch keinen Parameter gibt. Gewöhnlich reicht aber auch die Google-Kopie dazu, die, wenn man Google auch keine Dauerhaftigkeit zuschreiben will (ich selbst halte zumindest alles, was über die blanke ID hinaus verlinkt wird, Seitenzahl, Worthervorhebung etc. für hoch riskant), einfacher in das IA zu schaffen wäre. Das MDZ hat beim Google-Scan-Programm sehr wenig, wovon nicht auch eine Kopie bei Google proxyfrei zu sehen ist. --Rumpelsteig (Diskussion) 21:21, 9. Sep. 2014 (CEST)[Beantworten]

Bei ein paar hundert Testläufen habe ich die Erfahrung gemacht, dass der Bot sehr schnell reagiert und bearbeitet und dass sich viele Prozesse (mehr als zwanzig) gleichzeitig (in verschiedenen Tabs/Fenstern) betreiben lassen. Man scheint auch bei den Captchas von den dämlichen Zweiwortentstellungen auf die recht praktischen Hausnummern umgestellt zu haben, zumindest lief das heute so. Also insgesamt schon eine sehr große Hilfe. Folgende Verbesserungsvorschläge hätte ich (mit großer Schnittmenge zu Rumpelsteig):

Möglichkeit Listen abarbeiten zu lassen (statt je einzelne IDs). Wenn schon nicht unbegrenzt, so doch in größeren Quantitäten. Zumindest für WP/WS-User mit aktivem Account.
email-Nachrichten nur auf Nachfrage (Default: deaktiviert).
keine Bestätigungsroutine bei "ähnliche Bände bereits vorhanden" um Zeitschriftenjahrgänge/Buchreihen ungehindert uploaden zu können. Besser ein Abgleich der Google-ID statt des Titels.
Freigabe der IA-Metadaten-Bearbeitung des Bot-Accounts für WM/WP/WS-User.
Übernahme der Google-OCR statt eine eigene OCR zu erstellen (die bei IA immer fraktur- und sonderzeichenbehindert (Deutsch) ist). Wenn man die Einzelscans abgreifen kann, warum nicht auch die OCR?
Was vergessen? Mal sehen. Viele Grüße --Konrad Stein (Diskussion) 17:51, 23. Aug. 2014 (CEST)[Beantworten]

Ein bisschen wird die Freude über das handliche Werkzeug dadurch getrübt, dass keineswegs die bekannten GBS-PDFs gespiegelt werden, sondern dass die PDFs aus Scanmaterial neu erstellt werden (so scheint es jedenfalls). Die Resultate ähneln den PDFs, wie man sie aus Toronto kennt: alles zwar lesbar, aber, je höher man vergrößert, desto unschärfer. Statt gestochene Schwarz-Weiß-Resultate eher ein Grau-in-Grau-Schleier. Zudem eine deutlich schlechtere Auflösung bei gleicher Dateigröße. Offensichtlich sind da ganz andere Kompressionswerkzeuge im Spiel. Schade. Und die OCR ist gleichbleibend schlecht. --Konrad Stein (Diskussion) 15:25, 9. Sep. 2014 (CEST)[Beantworten]

Also, ich habe mal dem Mass-Uploader eine Liste mit gut 300 Links gegeben: Aetas Kantiana. Wenn es das sauber abarbeitet ist das Geschäft schnell verrichtet. Da ich mit grep arbeite, kann ich eine Seite wie diese in weniger als einer Minute bearbeiten. Wie gehst Du vor? Falls es für Dich erheblich komplizierter ist, kann ich auch zügig eine Liste von Themenseiten abarbeiten. Vorausgesetzt, der Mass-Uploader spielt mit – was sich aber rasch zeigen sollte. Momentan ist der mass-uploader-queue knapp 12.000 IDs lang (die übrigens alphabetisch sortiert sind, von T-Z zu diesem Zeitpunkt); meine waren (nach einer halben Stunde) nicht dabei, im IA waren sie aber auch (noch) nicht. Mal sehen. Bis später, Dein --Konrad Stein (Diskussion) 13:39, 7. Sep. 2014 (CEST)[Beantworten]

Danke, das sind ja schöne Neuigkeiten. Mail müsste jetzt gehen, falls noch nötig, ist aber keine Realnamenadresse sondern eine Unteradresse für Wikipedia. Grep habe ich nicht, aber es gibt ähnliches für win/dos. Am meisten interessiert mich, wie mit angeblichen Dubletten umgegangen wird bzw. ob die Prüfung, ggf. auf Wunsch, ausgesetzt wird. Irgendwie könnten wir eigentlich eine Liste ALLER GBS-US Links auf WS brauchen (Die Weblinksuche auf WS unterscheidet aber nicht zwischen Google und Google-USA, aber weil USA in der Vorlage steht, müsste man diese irgendwie anders filtern können) und so ein Abgleichsautomat wie bei BUB eingebaut, dann hätten wir wenigstens alle IDs, die sicher keine Dubletten sind für den Mass-Upload. LG --Rumpelsteig (Diskussion) 14:45, 7. Sep. 2014 (CEST)[Beantworten]

@Rumpelsteig: Falls so gemeint, hier die US der Autoren von heute. Du könntest bei Bedarf spaßeshalber mal nachsehn obs so einigermaßen hinhaut. Wenns passt, könnten noch Listen oder Themen dazukommen. – Paulis 21:28, 7. Sep. 2014 (CEST)[Beantworten]

Vieeeelen Dank, Paulis! 8515 Titel alleine bei den Autoren. Damit kann ich zumindest selber mal den Abgleichsautomaten spielen oder wir reichen die Liste einfach ganz frech ungekürzt dem Bot weiter, allerdings gibts dann Massen an Dubletten, falls er diese nicht überspringt. Ich weiß nicht ob wir das im ersteren Falle dem IA antun können, die kommen vielleicht kaum mit dem Nachkauf von Platten hinterher. Ich melde mich gerne, wenn ich andere Themen brauche. Hast du das mit dem Catscan hingekriegt? Ich hatte vor lauter uppen noch kein Nerv mich umzuschauen und Catscan ist eh nicht mein bester Freund. Liebe Grüße, dein ergebenster --Rumpelsteig (Diskussion) 22:33, 7. Sep. 2014 (CEST)[Beantworten]

CatScan listet mir die Autorenseiten und die werden über Spezial:Exportieren als XML-Datei gespeichert. Suchen, finden und ersetzen macht Notepad++. Das geht bestimmt eleganter, aber immerhin ;-) – Paulis 22:45, 7. Sep. 2014 (CEST)[Beantworten]

Liebe Mitstreiter, Hallo Konrad Stein, Hallo Paulis, nach durchrungenen Nächten unter Beteiligung aller multiplen Persönlichkeiten durchrangen wir uns uns ja endlich zur Durchreichung unserer ungekürzten Wünsche an den Heinzelmann. Es ist soweit! (Es saugt und schiebt der Heinzelmann.....) Bisher sind ca. 1700 der 8500 GBS-Proxy-Titel von deiner Liste, Paulis, eingestellt, der Rest dürfte so in ca. einer Woche fertig sein. Ich hatte es selbst lange nicht bemerkt und war ziemlich überrascht, denn ich wähnte zunächst viele fleißige Helfer am Werk. Es sind diese Kraut- und Rüben Titel, welche die letzten Tage quer Beet scheinbar ohne sinnvollen Zusammenhang dort auftauchen. Man erkennt sie in der Liste deutschsprachiger Neuzugänge an den IDs der alphabetisch abgearbeiteten Liste, eben ist AY.... durch. Es macht also derzeit für eventuelle Mithelfer keinen Sinn, irgendwelche Titel, die auf unseren Autorenseiten verlinkt sind, manuell per BUB-Uploader hochzuladen. Deine Liste, Paulis ist, wer weiß warum, auch nicht in der Mass-Upload Queue zu sehen, dort läuft weiterhin diese Liste italienischer Titel, welche ursprünglich ca. 50.000 Titel hatte und jetzt auf unter 10.000 geschrumpft ist. Das Verlinken der neuen IA-Backups auf den Autorenseiten macht natürlich auch erst Sinn, wenn die Liste ganz durch ist, weil auf einer einzigen Seite IDs unterschiedlichster Anfangszeichen vorkommen. Man könnte sich nun Gedanken machen, wie wir dies sinnvoll und zügig fortführen wollen, bevor das SEK mit 20 Mann im Flur steht und mir die Dampfnudel aus dem Gesicht fällt. --Rumpelsteig (Diskussion) 18:32, 9. Sep. 2014 (CEST)[Beantworten]

Bleibt für mich die Sinnfrage: Was bringt das Quergeschiebe von Dateien von GBS, GBS-US, HT, HT-US zu IA? Die Dateien bleiben im amerikanischen Raum und damit der amerikanischen Jurisdiktion unterworfen. Sollte es Änderungen oder politische Motivationen geben etc, dann betrifft das ja wohl auch das IA. Einzig sinnvoll erschiene es daher, die Dateien in den europäischen Raum zu verschieben --De-ZD (Diskussion) 13:50, 7. Feb. 2015 (CET)[Beantworten]

Stand der Dinge

Bester Rumpelsteig, bitte lass uns doch kurz den Stand der Dinge wissen. Ich hatte verstanden, dass Du gerade die Liste aller GBS-US-pdfs der Autorenseiten abarbeitest. Ist dem so? Gibt es neue Beobachtungen? Was siehst Du als nächste Schritte? Viele Grüße von Deinem --Konrad Stein (Diskussion) 10:23, 15. Sep. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: Koffeeinist (Diskussion) 16:45, 7. Jun. 2015 (CEST)[Beantworten]

Hauptseite "Wikisource Aktuell"

Hallo! Mir ist aufgefallen, dass in diesem Kästchen auf der wikisource-Hauptseite beide vorgestellten Werke gar nicht in der wikisource sind. Wir haben so ur viel Lesenswertes, könnten wir nicht dort zB die 2 letzten fertigen größeren Projekte reingeben, anstatt externe scans ohne wikisource-transkription zu verlinken? Vielleicht gibt es wichtige Gründe warum es so ist wie es jetzt ist, vielleicht kann mich ja wer erleuchten :-)

--Andylee • ^{Heute schon gelobt?} 17:01, 2. Aug. 2014 (CEST)[Beantworten]

Lieber Andylee, in erster Näherung würde ich sagen, dass bei WS edierte Texte unter "Kürzlich hinzugefügte Quellen" angezeigt werden (und neue Themenseiten unter "Kürzlich hinzugefügte Übersichtsseiten" – beides ließe sich vielleicht mal umbenennen). Zudem erschöpft sich WS ja nicht in der Bereitstellung von Texten sondern nimmt auch die Erschließung von Zeitschriften (wie in diesem Fall) oder die Bibliographie von Themenbereichen in die Hand – als digitale Bibliothekare gleichsam.
Die Kästen lassen sich sicher anders gruppieren, zusammenfassen, etc. – daran wird gerade gearbeitet.
Insgesamt enthält "Wikisource Aktuell" überwiegend Statistik, denn Aktualitäten fallen hier nur wenige an. Vielleicht ist die Rubrik auch entbehrlich. Viele Grüße von --Konrad Stein (Diskussion) 18:19, 2. Aug. 2014 (CEST)[Beantworten]

Danke für die schnelle Antwort. Die Statistik verstehe ich, das ist ja auch was Aktuelles. Die Idee der digitalen BiblothekarInnen finde ich nett, aber wenn der Titel der Box Wikisource aktuell ist und der Inhalt nur am Rande wikisource... egal, ich freue mich darauf, irgendwann mal das Ergebnis der angekündigten Neuordnung zu sehen :-) --Andylee • ^{Heute schon gelobt?} 00:34, 3. Aug. 2014 (CEST)[Beantworten]

Lieber Konrad, Wikisource ist eine Sammlung von Quellentexten, … lese ich auf unserer Hauptseite und bei Über Wikisource. Über die von dir oben konstatierte Erweiterung des Projektziels konnte ich auf die Schnelle nichts finden. --9xl (Diskussion) 09:11, 3. Aug. 2014 (CEST)[Beantworten]

Nun, jede Themen- und Autorenseite widerspricht diesem Diktum. Wäre vielleicht auch renovierungsbedürftig. Viele Grüße --Konrad Stein (Diskussion) 22:02, 3. Aug. 2014 (CEST)[Beantworten]

9xl, ich sehe da wirklich keinen Widerspruch. Denn ob die Quellen hier gesammelt werden oder ob wir verstreute und schwer zugängliche Digitalisate an einer Stellen übersichtlich verlinken und mit weiteren Informationen anreichern, beides führt im Effekt zu einer Quellensammlung. Aber es stimmt schon, die beiden Zeitschriften müssen nicht unbedingt unter Aktuelles stehen, wir haben Zeitschriften sonst immer bei den Themenseiten aufgelistet. --Koffeeinist (Diskussion) 23:31, 3. Aug. 2014 (CEST)[Beantworten]

Widerspruch ist vielleicht ein bisschen dick, aber Text ist nicht gleich Digitalisat. --9xl (Diskussion) 10:02, 4. Aug. 2014 (CEST)[Beantworten]

Ich habe leider die Übersicht verloren: wo wird die Überarbeitung der Hauptseite gerade verhandelt? Ich würde mich an den Überlegungen auch aktiv beteiligen. --Konrad Stein (Diskussion) 09:44, 4. Aug. 2014 (CEST)[Beantworten]

#Begrüßungsbox auf der Hauptseite und Benutzer:Koffeeinist/Hauptseite. --9xl (Diskussion) 10:02, 4. Aug. 2014 (CEST)[Beantworten]

Hallo, ich würde es gut finden, wenn unter dieser Rubrik größere abgeschlossene Projekte präsentiert werden. Wenn vollständige Digitalisatsammlungen zur Verfügung stehen und verlinkt wurden oder größere Werke inhaltlich erschlossen (wie z.B. die Musikzeitschriften), fände ich das auch sehr informativ.--Sinuhe20 (Diskussion) 09:48, 4. Aug. 2014 (CEST)[Beantworten]

@Konrad: Sehr gern. Den aktuellen Diskussionsstand findest du weiter oben in der Skriptoriumsdiskussion. Es muss im Prinzip folgendes geschehen. Wir hatten uns darauf geeinigt, nach und nach einige größere Themenseiten anzulegen. Geschichte lege ich gerade an, das wird noch etwas dauern, dann aber sehr nützlich sein. Auf meiner Unterseite findet sich die Begrüßungsbox, die gekürzt werden soll. Ein bissl Abwechslung kann mit der Vorlage Überraschungsbild reingebracht werden (muss die importiert werden?). Wenn das getan ist, sollten wir uns noch über die Neuverteilung der anderen Boxen (Platzierung, kürzen, rauswerfen) einigen. Der bisher erreichte Konsens geht zum Kürzen. --Koffeeinist (Diskussion) 10:44, 4. Aug. 2014 (CEST)[Beantworten]

Meine Güte! Ich kann ja einiges ertragen, aber bitte nehmt Abstand das Überraschungbild des Tages auf unserer Hauptseite anzuzeigen, das passt doch gar nicht zu unserem Profil c:User:Überraschungsbilder/Archiv. – Paulis 12:20, 4. Aug. 2014 (CEST)[Beantworten]

Wieso, Findste die Mieze nich süß? --9xl (Diskussion) 13:01, 4. Aug. 2014 (CEST)[Beantworten]

Man könnte ja einen kleinen Pool an Bildern (Bücherregale, Buchrücken etc.) anlegen, die in gewissen Abständen rotieren. Einige schöne gibt es doch schon. --Konrad Stein (Diskussion) 13:53, 4. Aug. 2014 (CEST)[Beantworten]

Ich hätte eher so an schöne Illustrationen aus Büchern und Zeitschriften gedacht… --Sinuhe20 (Diskussion) 08:38, 5. Aug. 2014 (CEST)[Beantworten]

Archivierung dieses Abschnittes wurde gewünscht von: Konrad Stein (Diskussion) 00:55, 23. Sep. 2015 (CEST)[Beantworten]