Wikisource Diskussion:DTA-Werkstatt/Automatisierung

Vor-Bearbeitung des Gesamt-XML

ein Gesamt-XML aus allen 8 Bänden habe ich schon. Dort bereits das lang-s eliminiert und Worttrennung (zur nächsten Zeile, nicht über Seitengrenzen) entfernt.
hier sollte auch die J-I-Bereinigung stattfinden, oder?. Vor der Seitenaufteilung, nehme ich an. Könnte ich machen und dann das Gesamt-XML hier lokal hochladen (oder irgendwohin schicken). --Konrad Stein (Diskussion) 00:36, 11. Nov. 2014 (CET)Beantworten

Ich habe eigentlich das Ziel die XML Dateien vom Grund auf zu Bearbeiten, damit hier eine nachhaltige Funktionsbasis entsteht. Die Entfernung der unnötigen Tags und alle Ergänzungen, die sich auf den ganzen Text beziehen, sollten aber auf dem Gesamt-XML machbar sein, dass sollte das Teilungsskript der dta nicht weiter stören. Es ist aber auch nicht weiter dramatisch, wenn man die Funktionalität einmal hat, diese einfach auf je eine Seite anzuwenden. Input von dir brauche ich vor allem in Bezug auf was wie ersetzt werden soll. Aber dazu folgen ab Montag auch noch ein paar weitere Entwürfe (hab dann 2 Wochen nahezu Freizeit). --THE IT (Diskussion) 08:31, 11. Nov. 2014 (CET)Beantworten

Habe mal die „J.“-Fälle angesehen, die sich auf etwa 230 Formen reduzieren lässt und gemäß des Kontextes umgeformt (wenn „Jgnaz“ Albrecht „J. Brecht“ als Pseudonym wählt, wird es wohl „I. Berg“ heißen müssen. Kontextfreie Initialien (Verlag „J. A. Ruprecht“) blieben unberücksichtig, diese zu recherchieren wäre außerordentlich aufwendig.

Bei den J Fällen wird es auf viel händische Arbeit hinaus laufen. Dein Entwurf von J[^aáeéioóuäöü.’ ]\w+ sollte da ein guter Startpunkt sein, auch wenn da vielleicht die Autoren dann noch von ausgeklammert werden. Oder wir sagen doch, dass hier alles händisch gemacht werden soll, denn ein kritischer Begutachter wird an dieser Stelle wohl mehr bewirken, als ein starrer Algorithmus, der im Zweifel auch in der Lage ist Fehlentscheidungen zu treffen. --THE IT (Diskussion) 08:31, 11. Nov. 2014 (CET)Beantworten

Habe zudem die joergens-Fehlerliste abgearbeitet und knapp 2 Dutzend gefunden.

Was ist das genau?--THE IT (Diskussion) 08:31, 11. Nov. 2014 (CET)Beantworten

Es müssten auch noch alle 3500 <supplied>-Stellen kontrolliert werden, da hier noch eine Menge Böcke stecken. --Konrad Stein (Diskussion) 07:14, 11. Nov. 2014 (CET)Beantworten

Diese würde ich als solche erstmal abbilden, damit der geneigte Kontrolleur diese dann im Einzelfall begutachten kann.--THE IT (Diskussion) 08:31, 11. Nov. 2014 (CET)Beantworten

Vorschlag:

Bis Montag ist ja noch ein bisschen hin. Bis dahin könnte ich die J-Liste abarbeiten, mache ich halbautomatisch, grep-gestützt.
Vielleicht schaffe ich auch die <supplied>-Stellen. Dann wären zwei größere Baustellen beseitigt.
Würde Dir das dann schicken (sind etwa 24MB), damit Dein Skript was zu fressen hat.
Ab Montag sehen wir uns dann genauer an, was bleibt, was wegfällt, was wie umgewandelt wird, Sonderprobleme etc.
Ich habe bislang die Fehler mit dem Zeichen "%" markiert, weil es sonst im XML nicht vorkommt - reagiert Dein Skript allergisch darauf? Wir müssen ja unsere Fehlerverbesserungen dokumentieren, sowohl auf unseren Seiten, als auch beim DTA - das sind wir denen schuldig - und dazu das Gefundene ja ersteinmal wiederfinden.
Wenn wir gute Einzelseiten-Text haben, wird die Befüllung der Textbox kniffelig, da müssen wir uns noch ein Vorgehen ausdenken. Wollte Rumpelsteig nicht Hand anlegen? Was wir sehr gut gebrauchen könnten, wäre eine Tabelle mit vier Spalten: FB-Name, WS-Name, WP-Name, GND oder auch sogar End-Name (= Lemmaansatz.). Habe noch keine Idee, wie man da vorhandenes Material zusammenbringt, oder ob alle 12.000 Einträge händisch versorgt werden müssen. Eine Liste mit FB-Name habe ich schon angelegt. Sie könnte auch Grundlage für die Vorheriger-Nächster-Spalten sein. Die Textbox ließe sich notfalls durch eine Kombination EXCEL-WORD-Serienbrieffunktion erstellen (also tabellenbasiert), geht aber sicher auch anders.

--Konrad Stein (Diskussion) 15:02, 11. Nov. 2014 (CET)Beantworten

Das ist ja gerade mein Punkt ich würde gerne mit den Dateien die wir von der DTA bekommen von Grund auf arbeiten, damit die Algorithmen dann auch für spätere Werke gelten. Die Ersetzung der J´s (die die dta ja so nicht durchführt) würde dabei jetzt noch nicht alzu sehr stören. Die Markierung der Fehler (welcher Art ist hier eigentlich gemeint?) stört das dann schon eher. Ich würde daher eher um ein wenig Geduld bitten damit der automatische Teil vor dem Manuellen abgearbeitet werden kann. --THE IT (Diskussion) 23:58, 11. Nov. 2014 (CET)Beantworten