Zum Inhalt springen

Wikisource:RE-Werkstatt/Konzept

aus Wikisource, der freien Quellensammlung
Realencyclopädie der classischen Altertumswissenschaft
[[Bild:|220px|Realencyclopädie der classischen Altertumswissenschaft]]
Konzept und strategische Ideen
Bilder und Medien bei Commons
[[q:{{{WIKIQUOTE}}}|Zitate bei Wikiquote]]
Eintrag in der GND: {{{GND}}}
Weitere Angebote

Projektbeschreibung

[Bearbeiten]

Benutzer:Pfaerrich hat mehrere Male angestoßen, dass wir eine Handreichung für die RE-Mitarbeit brauchen. Also eine Anleitung, in der einsteigerfreundlich, vollständig und verständlich beschrieben ist, wie man RE-Artikel bei Wikisource einstellt.

Vorab einige Gedanken, wie die Digitalisierung der RE idealerweise aussehen würde, und dann ist ein Plan zu formulieren. Als notwendige Vorstufe eines solchen Plans hat Benutzer:Jonathan Groß diese Zustandsbeschreibung des Projekts fabriziert. Eine Beschreibung des Ist-Zustandes mit einigen Überlegungen zum Soll-Zustand.

  1. Scans sind vorhanden und an verschiedenen Stellen abgelegt: (1) Wikimedia Commons (beschränkt auf Freie Inhalte, also nur Scans gemeinfreier Artikel), (2) Internet Archive (ganze Bände vor 1923) und (3) WikiLivres (Auszüge weiterer Bände). Die Qualität der Scans schwankt, manche haben wir selbst fabriziert, andere von woanders her gezogen. Unter Altertumswissenschaftlern zirkuliert seit Jahren eine Sammlung von PDFs aller Bände (monochrome Scans, geringe Auflösung, nicht gut OCR-lesbar). Ideal wären natürlich hochaufgelöste, unverzerrte Scans in Graustufen und farbige Scans der zweifarbigen (schwarz-rot-weiß) Karten. Es gibt auch auf Wikisource eine Übersicht über die online verfügbaren Scans.
  2. Bei Wikisource werden nur gemeinfreie Artikel transkribiert. Das sind Artikel von AutorInnen, die vor mehr als 70 Jahren gestorben sind; dazu kommen Artikel, deren Schöpfungshöhe zu gering ist, als dass sie urheberrechtlichen Schutz genießen könnten (das sind vor allem bloße Verweisungen und Ein-Satz-Artikel). Für nicht gemeinfreie Artikel und Artikelteile (etwa bei verschiedenen Autoren eines Artikels) gibt es Platzhalter.
  3. Die transkribierten Artikel werden in einem Wiki (Wikisource) eingestellt, bearbeitet und untereinander verlinkt. Jedes Stichwort erhält eine eigene Textseite mit dem (annotierten) Volltext, einem Verweis auf den/die entsprechenden Scan(s) und folgenden Daten: Bandnummer, Spaltenzahlen (Beginn und Ende), Vorgängerartikel, Nachfolgerartikel, Lemma des Artikels, Umschrift des Lemmas zur Sortierung, Korrekturstand, Wikipedia-Artikel (wenn vorhanden), Wikisource-Themenseite (wenn vorhanden).
  4. Die Transkription erfolgt mit proprietärer OCR-Software und anschließender Korrektur nach dem Vier-Augen-Prinzip. Dem entsprechen die Bearbeitungsstände "Unkorrigiert", "Korrigiert" und "Fertig" in unserem Projekt Wikisource.
  5. Die Textauszeichnung folgt dem Original: Fettschrift der Lemmata, Kursivschrift, gesperrte Schrift (Autorennamen, Verweise auf andere Artikel) werden mit MediaWiki-Syntax wiedergegeben. Das schließt auch Formatvorlagen ein, die XML-Syntax enthalten. Besondere Probleme bereiten (1) Zeichen, die in Unicode nicht enthalten sind bzw nicht darstellbar sind; (2) Tabellen und genealogische Übersichten, die sich mit der MediaWiki-Syntax nur umständlich wiedergeben lassen.
  6. Neben der Durchsuchbarkeit der so entstandenen Volltexte nutzen wir die Möglichkeiten des Hypertextes, indem wir (1) Verweise auf andere Artikel mit Hyperlinks unterlegen, (2) die Gliederung längerer Artikel durch Inhaltsverzeichnisse und Anker veranschaulichen, (3) eventuelle Druckfehler korrigieren und in Anmerkungen dokumentieren. Manche machen sich sogar die Mühe, Abkürzungen im Text aufzulösen und auf externe Datenbanken (z.B. Corpus Inscriptionum Latinarum) zu verweisen.
  7. Die RE-Autoren stehen mit Nachnamen, in späten Bänden auch mit vollem Namen unter dem Artikel in eckigen Klammern []. Die Identifikation dieser Autoren kann im Einzelnen sehr schwierig sein. Im Generalregister der RE (1980) gibt es ein Autorenverzeichnis, das von einem engagierten Gymnasiallehrer in den Sommerferien erstellt wurde und infolgedessen nicht ganz fehlerfrei ist. Auf dieser Grundlage und mithilfe anderer Zeugnisse haben wir bei Wikisource ein Autorenverzeichnis erstellt, das wir sukzessive überprüfen und perfektionieren. Das Verzeichnis enthält in alphabetischer Anordnung die Namen der 1110 Autoren, die wir bisher identifiziert haben, mit Angabe des vollen Namens, der Lebensdaten und der Bände, an denen die Person mitgearbeitet hat. Die gemeinfreien Autoren sind in diesem Verzeichnis durch Fettschrift hervorgehoben. Wenn vorhanden, werden die Wikisource-Autorenseiten und die biografischen Wikipedia-Artikel dieser Personen in der Liste verlinkt. Wasserstand: Zwei Drittel der Autoren haben Wikipedia-Artikel, zu etwa 10% haben wir noch keine oder nur unvollständige biografische Daten. Die Identifikation ist teilweise auf der Diskussionsseite der Liste dokumentiert, teilweise lief sie über E-Mails und Privatgespräche.
  8. Die systematische Erfassung der RE-Artikel erfolgt auf zwei Arten: Erstens sammeln wir den bereits transkribierten Bestand in verschiedenen Kategorien (nach Bandnummer, Korrekturstand und Autoren), zweitens pflegen wir bzw. pflegt einer von uns namens Benutzer:S8w4 ein Register, in dem die Artikel alphabetisch, nach Bandnummern und nach Autoren gelistet sind. Die Listen geben die Lemmata der Artikel (in lateinischer Umschrift) an, ihre Bandnummer, Spaltenzahl(en) und Autoren. Das Register pflegt S8w4 in einer Datenbank-Datei, aus der er jeweils verschiedene Auszüge bei Wikisource einstellt.
  9. Dieses Register nutzen wir auf Wikisource bisher vor allem dazu, Verweise auf noch nicht transkribierte Artikel zu setzen. Wenn ein Artikel noch nicht transkribiert ist, verweisen wir auf die entsprechende Stelle im Register. Das Register selbst ist noch nicht ganz fehlerfrei und müsste deswegen mal gründlich durchgesehen werden (anhand der Originalbände). Das ist aufwendig und langwierig. Aber weil das offizielle Register auf CD-ROM ohnehin ins neue Jahrtausend übertragen werden müsste, sollte man bei dieser Gelegenheit Nägel mit Köpfen machen und das Register überprüfen sowie um zweierlei ergänzen: (1) Klassifikation der Lemmata (Personenname [real/fiktiv?], Ortsname, literarisches Dokument, Rechtsnorm, Amt, Tierart, Pflanzensorte, Material, Körperschaft etc.) und (2) vollständige Erfassung (und Identifikation) der Autoren, denn bei Artikeln mit mehreren Verfassern nennt das CD-ROM-Register nur jeweils einen.

Diese Beschreibung könnte man im Einzelnen ausführlicher gestalten, präzisieren und berichtigen. Ich bin gespannt auf euren Input, vor allem bei Benutzer:Flugs, Benutzer:Batchheizer und Benutzer:Tolanor. Um wieder auf den Ausgangspunkt zurückzukommen, die Forderung einer RE-Handreichung: Man könnte aus der obigen Beschreibung ein handlungsbezogene Anleitung erstellen.

Informatik 2020

[Bearbeiten]

Die Informatik führt nur wenige Korrekturen aus. Meistens sind es Kleinkorrekturen, die vor allem die Lexikon-Systematik betreffen (Vorgänger, Nachfolger, doppelte oder falsch gesetzte Vorlagen). Diese kleinen Missgeschicke finde ich aber keineswegs dadurch, dass ich minutiös euren Editierungen hinterher steige (Hand aufs Herz, dazu fehlt mir die Zeit). Ich behelfe mich dabei meines Botes, der sich THEbotIT Benutzer:THEbotIT nennt. Dieser erledigt für die deutsche Wikisource so allerhand Kleinigkeiten, aber vor allem kümmert er sich darum, die RE "sauber" zu halten. Der Quellcode dazu findet sich unter [1]. Ich würde mich sehr freuen, weitere Ideen dort einzuarbeiten, oder noch besser zusammen daran zu programmieren (ist Python, das sich im Wikikontext immer ganz gut bewährt). Vielleicht noch ein kurzer Überflug was der Bot jeden Tag tut:

  • er schaut sich neu erstellte Lemma an und fügt diese in die Register [2] ein, falls er das nicht kann landen diese Lemma in der Kategorie:RE:Nicht ins Register einsortierbar.
  • er schaut auch ob ein Artikel vielleicht aus versehen nicht als Verweis deklariert wurde
  • er korrigiert die Formatierung eines Artikels
  • er findet Links in den Lemma zu Artikeln, die wahrscheinlich niemals existent waren: RE:Wartung:Tote Links
  • das gleiche macht er auch für die Wikipedia, RE:Wartung:Tote Links nach Wikipedia ... kurz er macht momentan schon so einiges.

Dieses Ding ist gebaut, um Programmierfähigkeiten zu trainieren, daher ist die Applikation etwas über-kompliziert. Hat aber den Vorteil, dass modular und recht schnell neue Aufgaben gelöst werden können. Kurz, es braucht Ideen, wie die RE mit mehr Checks noch konsistenter wird, z. B. mit Methoden schreiben, wie man RE Seiten in Algorithmen einliest. Daher müssen wir zusammen arbeiten und nach Input für die Verbesserung des Bots suchen. Benutzer:THE IT.

Tour d'horizon

[Bearbeiten]

Eine Tour d'horizon durch den Code zeigt, was alles hinter Wikisource und RE: steckt (vgl. Service / WS_RE / printer und scanner). Der scanner läuft täglich. Nützlich ist der petscan von Wikipedia. Die Diskussion zeigt folgende Ideen:

  1. Das Register modernisieren mit zwei bis drei Elementen:
    • aktive Links zu allen Scan, ev. mit der Generalformel http://elexikon.ch/?Typ=RE&Text=ScanName.tif. Dabei gilt für ScanName.tif = "Band"+mit-führenden-Nullen("Anfang"+ganzzahl(("Seite"-"Offset")/4)+".tif" Der ScanName ist abhängig von Seite und Band, jeder Band hat passende Stammdaten. Beispiel für die erste Seite im ersten Band: http://elexikon.ch/?Typ=RE&Text=P_010010.tif mit Band="P_01", Anfang=11, Seite=1 und Offset=3, denn es gilt: 11 + abrunden((1-3)/4) = 10, mit vorlaufenden Nullen also 0010. Die Stammdaten "Anfang" und "Offset" im Original können pro Band abgelesen werden.
    • Anfangstexte (automatisch), welche in WikiData hinterlegt werden könnten
    • Kurztexte (manuell)
    • nur notfalls mit einem Release und Reload
  2. In der {{REDaten|Box}} die kritischen Variablen dokumentieren und die beabsichtigten Wirkungen festhalten z. B. für VERWEIS=ON
  3. Eine Kategorie geändert: Heute bzw. in den letzten x Tagen braucht es nicht, denn der passende Link aus petscan ist ...
  4. Mitarbeiter im RE:-Projekt charakterisieren, z. B. via Versionsgeschichte
  5. Responsive Design.

Ideen 2021

[Bearbeiten]

Eine über Jahre entwickelte EXCEL-Datei, die „RE_Liste_zerlegt“ ergänzt die Register, es ist DAS zentrale Arbeitsmittel:

  • Überblick zu rund 90'700 Pauly Einträgen
  • Alphabetisch gegliedert
  • Prägnante Kurztexte
  • geeignet, um die richtigen Verweise zu finden {{RE siehe|Ziel|Text}}.

Es lohnt sich, diese Datei weiter zu pflegen und auch auszubauen:

  • Jedes Lemma mit dem Register vergleichen bzw. „prüfen und pflegen“
  • Inhaltlich mit geeigneten {{REDaten|...}} ergänzen
  • Sortierung verbessern etc.

Technische Hinweise:

  • Die Datei ist als *.xls zu gross (20 MB)
  • Die Spalten sind nicht mehr konsequent organisiert
  • Im Anfang fehlen einige Lemmata, am Schluss sind provisorische.

Praktisch für Quervergleiche ist eine alles umfassende Liste, aus praktischen Gründen werden es mehrere sein. Über alle Lemmata sollen alle Metadaten gefiltert werden (z. B. nach Band/Seite, Schöpfungshöhe, Grösse). Dazu gehören also

  • die Angaben aus dem Register (98'000) bei fehlenden Lemmata
  • {{REDaten}} zu den exisiterenden Lemmata (40'000)
  • Anfangstext, Grösse und Datum der letzten Bearbeitung
  • Link zum lokalen SCAN des Lemmas.

Zudem ist jedes RE:Lemma systematisch auf formale Gültigkeit zu püfen. Verdächtig sind beispielsweise spezielle Klammern wie { } [[ oder ]]. Auch veraltete und vergessene Vorlagen, sind beim regelmässigen Frühjahresputz zu pflegen ({{Scanfehler}}). Nun habe ich also Ideen für 2021:

  • a) Textdatei(en) mit allen Lemmata
  • b) Umfassende EXCEL-Listen zum Projekt Pauly.

Dazu braucht es

  • ein Meinungsbild und Anforderungen
  • Optimierungen im historischen EXCEL
  • einen Startschuss für das Update.

Im Abschnitt Download ist die Umsetzung zu diesem Plan. Benutzer:ELexikon.