Wikisource:Internet Archive

aus Wikisource, der freien Quellensammlung

Wechseln zu: Navigation, Suche
Kürzel: WS:IA
Kürzel: WS:Archive
Internet Archive in San Francisco

Internet Archive englisch für Internet-Archiv (WS-Kürzel: WS:IA oder WS:Archive) auch archive.org oder IA genannt, ist ein gemeinnütziges Projekt zur Langzeitarchivierung digitaler Daten. Es wurde 1996 von Brewster Kahle in San Francisco gegründet und ist Mitglied der Open Content Alliance. Das Archiv ist vom Bundesstaat Kalifornien seit Anfang Mai 2007 offiziell als Bibliothek anerkannt.

  • Für Wikisource ist besonders der Bereich Texts interessant, der Bücher digitalisiert, die nach Ablaufen des Copyrights oder aus anderen Gründen gemeinfrei geworden sind, und sie in verschiedenen Dateiformaten, darunter DjVu und PDF zum Download zur Verfügung stellt. Von einigen Uploads von Privatpersonen abgesehen, wird auch immer ein Standard-OCR-Text (dvju.txt) mit angeboten, dessen Qualität jedoch eher schlecht und bei Frakturschriften völlig unbrauchbar ist. Es können auch Privatpersonen Beiträge in das Internet Archiv einstellen. Neben dem Textarchiv gibt es ein umfangreiches Audio- und Videoarchiv, das zum Beispiel für gesprochene Texte oder Filme von Veranstaltungen in Frage kommen könnte.
  • Der Anteil deutschsprachiger Texte auf archive.org wächst beständig. Diese Seite soll praktische Informationen für Wikisource-Mitarbeiter und andere Interessierte zur Veröffentlichung gemeinfreier Bücher auf archive.org bieten. Neben Wikimedia Commons bietet sich das IA auch als Alternative für Texte an, die auf Grund der Überlastung der Wikisource-Mitarbeiter vorläufig nicht transkribiert bzw. deren OCR korrigiert werden kann. Das gleiche gilt auch für wichtige Google-Bücher, entweder weil sie nur über einen Proxy zugänglich sind oder um das Risiko zu vermeiden, dass sie bei Google wieder verschwinden, was häufiger vorkommt.


Inhaltsverzeichnis

[Bearbeiten] Übersicht Textangebot

Texts ist die Hauptseite dieser Sparte mit Anzahl der Gesamttitel, die dem Suchmaschinenergebnis meist leicht hinterher hinkt (Stand 15. November 2009: 1,760,478 Titel) und RSS-Feed für Neueingänge sowie ganz weit unten das Text Archive Forum, ebenfalls mit RSS.

Deutschsprachige Titel, Sortierung nach neu eingestellte Titel zuerst:

  • Gesamtliste einschließlich Google-Kopien (Stand 15. November 2009: 164,113 Titel) Sucheinschränkung: "language:ger OR language:German" Die Google-Kopien darunter sind bereits in der Übersicht vom Uploader tpb gekennzeichnet. Das Kürzel tpb ist auch zum aus- oder einschließen der Google-Kopien geeignet.

Alle Titel, Sortierung nach neu eingestellte Titel zuerst:

[Bearbeiten] Anwendung für Wikisource

[Bearbeiten] Verlinkung von WS zum Internet-Archiv

(Baustelle) Es sind Änderungen der WS-Vorlage für Google-Bücher im Zusammenhang mit deren IA-Kopien geplant. Für normale IA-Links siehe zunächst Vorlage Diskussion:IA und Vorlage Diskussion:IA2 Neu ist die Möglichkeit, beim Verlinken bestimmte Seiten anzusteuern, ähnlich wie von Google bekannt. Wie man diese verlinkt, ist bei der Vorlage IA detailliert erklärt.

[Bearbeiten] Auffinden von Google-Books-Kopien im IA

Das IA archiviert bereits von sehr vielen Google-Titeln Kopien der PDF-Dateien, darunter auch die vor weniger als 140 Jahren (=1868 für 2009) ausserhalb der USA erschienenen Titel, deren Vollansicht für Europäer nur sehr umständlich über einen US-Proxyserver möglich ist (siehe WS:GOOGLE). Die Kopien im IA sind dagegen immer weltweit frei zugänglich.

Es kann in der Suche im Bereich Texte nach der Google-Buch-ID gesucht werden. Allerdings unterschiedet das IA nicht Groß- und Kleinbuchstaben: sHQLAAAAQAAJ und shQLAAAAQAAJ sind z.B. zwei verschiedene Google-Digitalisate.

[Bearbeiten] Herunterladen der Google-Books-PDF im IA

Bild 1: Hauptansicht Google-Kopie
Bild 2: Dateienliste Google-Kopie

Im Gegensatz zu den Titeln anderer IA-Beiträger sind die Google-PDF-Kopien jedoch nicht direkt in der Dateien-Box in der Hauptansicht (Bild 1) verlinkt, sondern nur über die Dateienliste »All Files: HTTP« (Bild 2) erreichbar.

Der „PDF on Google.com“-Link in der Dateienliste leitet auf das (gegebenenfalls nur mit US-Proxy herunterladbare) Google-PDF weiter!

[Bearbeiten] Vom Internet-Archiv zu Wikisource

Für das Hochladen von gescannten Seiten aus dem IA auf Wikimedia Commons und die Abschrift von Texten auf Wikisource gelten grundsätzlich die jeweiligen Regeln zur Beachtung des Urheberrechts.

Es hat eine genaue Prüfung vor der Übernahme jeden Textes voranzugehen. Fragen können auf Wikisource:Skriptorium gestellt werden.

Vor allem bei Ausgaben älterer gemeinfreier Autoren muss untersucht werden, ob die konkrete Textgestalt urheberrechtlich geschützt ist.

[Bearbeiten] Hochladen ins Internet-Archiv

Das Hochladen ins Internet-Archiv funktioniert nur nach Anmeldung, dafür wird die Angabe einer E-Mail-Adresse benötigt. Es empfiehlt sich, eine Adresse nur für diesen Zweck einzurichten, es sei denn man bekommt gern Post ;-). Die E-Mail-Adresse wird Bestandteil der Metadaten und läßt sich nachträglich auch nicht mehr löschen.

Die Dateien können in beliebigem Format, im Stück bis 500 MB hochgeladen werden. Nach Eingabe des Titels, Autors, Beschreibung und der Schlagworte kann der Upload mit share my file(s) gestartet werden. Die Dateien sind meist nach ungefähr 24 Stunden öffentlich erreichbar, nachdem OCR und andere Formate generiert wurden.

Das Internet Archive eignet sich aufgrund des US-Standorts zum Hochladen von deutschen Büchern, die nach deutschem Recht noch geschützt und daher auf Wikimedia Commons nicht zulässig, aber in den USA Public Domain sind (vor 1923 erschienen).

[Bearbeiten] Auffinden von Büchern

Bücher und Volltexte sind oft über die Google-Websuche auffindbar.

Über die OAI-Schnittstelle werden Meta-Daten bereitgestellt.

Zu nennen ist auch die ebenfalls vom Internet Archive betriebene Open Library:

Leider sind hier die Titel des Internet Archive nicht komplett vorhanden.

Es wird aber eine Volltextsuche in den Büchern des Internet Archive angeboten:

[Bearbeiten] Online lesen

Im Modus „Read Online“ lassen sich Bücher vergleichsweise unkompliziert aufschlagen und durchblättern. Jede einzelne Seite kann verlinkt werden, so dass sich Literaturverweise (insbesondere auf Lexika) von Wikisource-Themenseiten direkt nachschlagen lassen (am Fall Sekundärliteratur zu Wasielewski einmal exemplarisch durchgeführt).

[Bearbeiten] Mängel der Scans und der OCR

Bei Büchern, die nicht aus der Google Book Search stammen, sind selten Seiten schlecht gescannt oder fehlen ganz, die Qualität ist in aller Regel sehr viel besser als bei Google Book Search. Partner des Internet Archive scannen jedoch ebenfalls wie Google keine ausklappbaren Falttafeln.

Die Schrifterkennung (OCR) ist bei deutschprachigen Texten kaum brauchbar, bei Frakturschriften unbrauchbar. Die (mittlerweile oft gute) OCR der Google Book Search wird nicht übernommen.

[Bearbeiten] Mängel der Metadaten

Häufig sind die bibliographischen Angaben zu den Büchern falsch oder lückenhaft.

[Bearbeiten] Weblinks

Englisch:

Deutsch:

Persönliche Werkzeuge