Wikisource:DTA-Werkstatt/Automatisierung

Erstellung der Seiten

Zerteilung in eine XML pro Seite

Hierfür gibt es von der DTA ein Skript, um das Gesammt-XML-Dokument eines Bandes zu einer XML Datei pro Seite zu zerteilen. Es wäre auch möglich den gesammten Band zu parsen, aber das wäre dann um einiges aufwendiger und auch sehr viel spezieller.

Parsen

für das Einlesen der XML-Files in eine Objektstruktur wird die xml-minidom Implementierung aus Python benutzt, danach steht eine komplette Seite als Objektbaum bereit.
Dieser Objektbaum (bestehend aus Tag-Knoten und den Inhalt enthaltenden Text-Knoten) wird dann hierachisch durchlaufen. Für den bibliographischen Teil halten sich die Anzahl der möglichen Textauszeichnungen in engen Grenzen (Lemma, Textauszeichnungen, Schriften). Daraus lassen sich sehr klare Vorschriften (Algorithmen) ableiten, diese Knoten zu interpretieren.
Als Ergebnis dieses Schritts werden zwei Dinge entstehen:
- sämtlichste Einzelseiten mit mit dem FKraus-Bot aus fertig gesetzt werden, aber in eine Wartungskategorie gesetzt werden um eventuelle WS-Nacharbeiten händisch durchzuführen (Links im Text, Bearbeitung von Fehlstellen ....)
  - der Text wird auch schon in Sektionen nach Lemmata eingeteilt sein.
- eine Tabelle, die sämtlichste Lemmata enthält mit den dazugehörigen Seiten.

Weitere Aktionen auf den Einzelseiten

Nach der Erstellung werden weitere automatische Schritte hier ausgeführt:

I-J Problematik
Auflösung der Bindestriche über Seitengrenzen hinaus
...

Händischer Zwischenschritt

die Korrekte Schreibung der Lemmata für WS kann durch kein Skript dieser Welt erledigt werden. Daher werden hier der vorher erstellten Tabelle folgende Informationen hinzugefügt:

gewünschtes Lemma für den Brümmer-Artikel
eventuelle Autorseite auf WS und WP (ich verspreche nix, aber ich kann versuchen, diese aus dem aktuellsten Lemma-Dumbs rauszupullen)
autobiographisch ja/nein (wird auch schon vorausgefüllt sein)
GND (halbautomatisch vielleicht machbar)
Sortierungstitel (Vorschläge bei einfachen Namen (nur ein Vorname wereen automatisch ausgefüllt))
ID im Brümmernachlass (halbautomatisch machbar)
...
Häckchenbox, wenn ein Autor vollständig kontrolliert eingestellt ist.

Erstellung der Artikel

Die Sektionen der einzelnen Seiten werden der Liste (vorheriger Schritt) nach zusammengefügt. Die Infoboxen werden automatisch aus der vorherigen Tabelle heraus gefüllt.

Zusatzarbeit

Diese ist wirklich als eine solche zu betrachten. Im Nachhinein können sämtlichste Artikel (bzw. die Seiten) aus zusätzliche Eigenschaften nachkorrigiert werden. Hierzu wird eine Anleitung zur Nachkorrektur (analog zur ADB) erstellt werden.

...