Benutzer Diskussion:Itu

Hallo Itu!

Herzlich willkommen bei Wikisource. Es freut mich, dass Du zu uns gestoßen bist. Ein paar Worte über dich auf deiner Benutzerseite sind gern gesehen. Insbesondere würde es uns freuen zu erfahren, wie du von uns erfahren hast.

Zur Einführung in das Projekt gibt es die Seite Wikisource:FAQ. Solltest Du Fragen haben, benutze einfach das Wikisource:Skriptorium oder komm in den Chat #wikisource-de. Um Hilfe zu bekommen, einfach links in der Suche Hilfe eintippen. Du kannst dich aber auch direkt an einen Benutzer wenden – die meisten und ich helfen gerne.

Wenn du etwas ausprobieren willst, dann ist die „Spielwiese“ der richtige Platz.

Neulingen empfehlen wir, sich zunächst bei den Wikisource:Korrekturen des Monats zu beteiligen, um unsere Arbeitsweise kennen zu lernen.

Für das Einstellen längerer Texte (über 50 Seiten) gilt eine besondere Regelung:

Wikisource Diskussion:Projekte#Regel für neue Projekte

Bitte keine Texte ohne eine zuverlässige Textgrundlage (diese ist als Quelle zu nennen) und nur nachweislich gemeinfreie Texte einstellen!

Scans (oder Digitalfotos) der Quellen sind notwendig (bitte auf Wikimedia Commons hochladen).

Und nun viel Spaß bei Wikisource!

Liebe Grüße, Paulis 21:37, 19. Nov. 2010 (CET)Beantworten

Don't speak German? Post {{User de-0}} on your user page or put de-0 into your Babel box.

Hoi. bin zwar in der WP genug beschäftigt, aber immer für die Schwesterprojekte offen. --Itu 21:48, 19. Nov. 2010 (CET)Beantworten

Ablage xyz

Letzter Kommentar: vor 13 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Wikisource:OCR + Benutzer:Beate/OCR
thema wetterfrosch : Die_Hausthiere_als_Wetterpropheten

Lesehilfe für die Frakturschrift

Download Transkript google: Oben ~rechts(mitte) 'Nur Text' -> 'EPUP' enthält Transkript ('ascii') -> mit okular lesen, ?Konvertieren nach plaintext? --Itu 20:49, 20. Nov. 2011 (CET)Beantworten

WS:Google_Book_Search
- WS:Google_Book_Search#Herunterladen_von_ganzen_Werken

[1] Eine Satire, laut Einsteller von Münchener Illustrirte Zeitung 1911 Kopie

Valentin Hegmann

Letzter Kommentar: vor 13 Jahren3 Kommentare3 Personen sind an der Diskussion beteiligt

Hallo Itu, ich tue ja ungern Leute von der Arbeit abhalten, wo wir doch genug davon haben;) aber es ist hier nicht üblich, vom Hauptnamensraum auf Benutzerseiten zu verlinken. Ebenfalls legen wir auf WS keine OCR-Lager an, besonders wenn diese ohnehin schon als Epub bei Gurgle liegt und nach Commons muss ein Werk, das bereits auf 2 Servern liegt, eigentlich auch nur, wenn es hier transkribiert wird. Lass dich mal von Jowinix beraten, den kennst du ja schon. Nix für ungut.. --94.218.179.210 06:39, 6. Aug. 2011 (CEST)Beantworten

Na genau der hat mir das so gesagt, dass ich das in meinen BN-namensraum ablegen soll. Stehe in ständigen Kontakt mit ihm.

Über den Link kann man vielleicht streiten, aber er ist immerhin als permalink gemacht, so dass bei einer Verschiebung nichts geändert werden müsste. Na gut ist dafür vielleicht egal, aber,hm. Die Lösung wäre dann halt dass das Epubs auch in den Artikelraum geht...

Was das PDF selbst betrifft würde ich vehemment dafür argumentieren alles was gemeinfrei ist auch auf commons zu sichern, denn google und andere können das jederzeit in der Versenkung verschwinden lassen oder irgendwelche lustigen Restriktionen einführen wie sie wollen. Ich betrachte demzufolge alles erst dann als 'befreit' wenn es auf commons gesichert ist. Andererseits ist eine Transkribierung nur eine Frage der Zeit, auch wenn es zuerst nur per OCR ist und damit evt. noch merklich fehlerbehaftet. --Itu 11:10, 6. Aug. 2011 (CEST)Beantworten

So kann das aber nicht gemeint gewesen sein. Versteh mich bitte nicht falsch, was den freien Zugang zu gemeinfreien Sachen angeht, bin ich ganz deiner Meinung, einige Sätze könnten direkt von mir stammen. Aber alleine das MDZ hat bereits 500.000 Titel und bis 2014 kommen nochmal so viele dazu, die meisten davon werden bei Guugsu gespiegelt. Letzterem muss man nicht trauen, auch wenn sie ständig versichern, dass alles frei und kostenlos bleibt. Aber wenn wir auch dem MDZ nicht trauen könnten, was die dauerhafte Zugänglichkeit angeht, dann könnten wir eh einpacken.

Dagegen gäbe es aber massig Bücher zu sichern, die z. B. bei Google und Hathi-Trust nur über Proxy zugänglich sind, wie man auf unseren zahlreichen Listen sehen kann und hier würde es wirklich Sinn machen, das sind genau die Restriktionen, die wir nicht gebrauchen können und gegen die wir wirklich etwas sinnvolles tun könnten. Bei Hathi kommt noch erschwerend dazu, dass sich dort die Seiten nur einzeln abspeichern lassen. Alleine dafür könnten wir ein paar huntert Leute brauchen und deshalb sollten wir die Zeit und Ressourcen nicht mit den sichereren, leicht zugänglichen Sachen verschwenden. Was die OCR, bzw. das Epub angeht: Wo der Zugang zu den Scans sicher sind, kann daraus auch immer eine OCR erstellt werden, dazu braucht man im Notfall Google nicht unbedingt.

Dann würde ich Commons auch nicht unbedingt als das Nonplusultra für diese Zwecke betrachten. Insbesondere bei späteren Büchern wie anderen Medien ist man dort oft noch päpstlicher als der Papst, sprich die Bibliotheken, wo das Buch/Bild etc. herkommt und grundsätzlich ist dort auch nur sicher ist, was gerade die Mehrheitsmeinung duldet. Uns wurde auch schon Zeugs gelöscht. Dazu kommt, dass Titel auf Commons nicht über Bibliothekskataloge wie Worldcat usw. gefunden werden. Dafür ist das Internet-Archive viel geeigneter, das ja auch eine Million Google-Bücher gespiegelt hat (darunter etwa 180.000 deutsche, viele davon bei Google nur über Proxy erreichbar)

Ums mal anders auszudrücken: Ich, der seit Jahren mitverfolgt, wo überall auf der Welt neue Digitalisate erscheinen, habe dagegen Null Ahnung, was eigentlich alles auf Commons liegt, es sei denn, ich sehe gerade in einer Liste auf WS einen Link. Von einem systematischen Überblick kann keine Rede sein. Im Grunde werden auf Commons nur die Bücher geladen, die auf WS transkribiert werden, um die Einzelseiten einzubinden. Darüber hinaus werden auch gelegentlich Titel die über Proxy oder sonst schwer zugänglich sind, nach Commons geladen, aber schon viel seltener, eigentlich nur, wenn diese nicht schon im Internet-Archive gespiegelt sind und der Uploader irgendwie keine Lust hat, dies dort nachzuholen oder einfach mit Commons besser zurecht kommt, aber niemand würde sich die Mühe machen, damit bei sicheren Titel anzufangen.

OCR: Auf Wikisource wollen wir deshalb keine OCR-Halden, weil gerade wir ja dafür stehen, dass wir im Gegensatz zu Gutenberg.de Texte in besonders hoher Qualität mit beigegeben Scans wiedergeben möchten und würden uns diese Konzept mit der Spiegelung fremder Texte oder gar nur OCR, ich nenns mal zumüllen. WS ist kein Archiv für alle möglichen Texte, da gibt es geeignetere Stellen. Die Wikipedia ist ja auch nicht einfach nur ein Archiv aller möglichen Texte die irgendwie unter CC-Lizenz freigegeben werden, sondern man nimmt dort auch nur die Teile, die in das dortige Konzept passen. In unseren Richtlinien steht daher auch eindeutig, dass wir kein Spiegel für alle möglichen gemeinfreien Texte sind, die anderswo im Internet verfügbar sind.

Es gibt hier nur dann OCR-Lager, wenn diese für bestehende Grossprojekte wie der ADB oder anderer Nachschlagewerke gebraucht wird um leichter neue Artikel anzulegen, nicht aber für einzelne Monographien, die überhaupt noch nicht in der Planung stehen. Da muss man schon in den sauren Apfel beissen und sich Partner für ein neues WS-Projekt suchen, wo der Text richtig eingestellt und korrigiert wird. Jeder von uns hat 1000 ähnliche Wünsche. Wir haben in der Regel auch nichts dagegen, wenn auf Benutzerseiten irgendwie unfertige Texte rumliegen, aber nicht als Ersatz oder zur systematischen Bereitstellung von Texten, die wir ansonsten hier nicht sehen möchten.

Der Benutzerraum kann zur Vorbereitung und Unterstützung der eigentlichen Arbeit hier genutzt werden. Wenn dir z. B. dieser Text besonders am Herzen liegt, dann könntest du durchaus die OCR auf der Benutzerseite noch weiter verbessern und anschließend als txt-file in IA stellen. Auf eine wirklich verbesserte Version könnte man in der Autorenseite auch mal verlinken, obwohl wir eigentlich kaum auf E-texte verlinken, aber ansonsten weisen wir neben dem Google-Link nicht noch gesondert auf die OCR dort hin (die übrigens bald auch beim MDZ zu haben ist), gleich ob sie nur so hinterlegt ist oder nochmals gesondert als Epub angeboten wird. --94.217.98.198 19:34, 6. Aug. 2011 (CEST)Beantworten