Benutzer Diskussion:Mfchris84

aus Wikisource, der freien Quellensammlung
Zur Navigation springen Zur Suche springen
Sonnenblume

Hallo Mfchris84!

Herzlich willkommen bei Wikisource. Es freut mich, dass Du zu uns gestoßen bist. Ein paar Worte über dich auf deiner Benutzerseite sind gern gesehen. Insbesondere würde es uns freuen zu erfahren, wie du von uns erfahren hast.

Zur Einführung in das Projekt gibt es die Seite Wikisource:FAQ.

Solltest Du weitere Fragen haben, benutze einfach das Wikisource:Skriptorium oder komm in den Chat #wikisource-de. Um Hilfe zu bekommen, einfach in der Suche Hilfe: eintippen. Du kannst dich aber auch direkt an einen Benutzer wenden – die meisten und ich helfen gerne.

Wenn du etwas ausprobieren willst, dann ist die „Spielwiese“ der richtige Platz.

Neulingen empfehlen wir, sich zunächst bei den Wikisource:Korrekturen des Monats zu beteiligen, um unsere Arbeitsweise kennen zu lernen.

Um die Qualität unserer Transkriptionen zu gewährleisten, wird jeder Text von mindestens zwei Mitarbeitern korrekturgelesen. Das bedeutet, dass niemand ein Projekt alleine fertig stellen kann. Die Anlage des Projekts, OCR, Formatierung usw. bindet zusätzlich die Arbeitskraft der Community. Für das Einstellen längerer Texte (über 50 Seiten) gilt daher eine besondere Regelung. Damit kein Missverständnis entsteht, sollte jedes größere Projekt über 50 Seiten vor Projektbeginn in der Projektbörse vorgestellt werden.

Bitte keine Texte ohne eine zuverlässige Textgrundlage (diese ist als Quelle zu nennen) und nur nachweislich gemeinfreie Texte einstellen!

Scans (oder Digitalfotos) der Quellen sind notwendig (bitte nach Wikimedia Commons hochladen).

Für das Anlegen und die Gestaltung von Autoren- und Themenseiten gibt es eine Richtlinienseite: WS:LIT

Und nun viel Spaß bei Wikisource!

Liebe Grüße ChristianSW (Diskussion) 17:09, 2. Feb. 2019 (CET)Antworten[Beantworten]

Don't speak German? Post {{User de-0}} on your user page or put de-0 into your Babel box.

w.wiki/7bx[Bearbeiten]

Hallo Mfchris84. Ich bin weit davon entfernt, wikidata und seine Möglichkeiten begriffen zu haben. Ich habe in den letzten Tagen aber versucht * Artikel-Items, deren Autoren-Statements auf Begriffsklärungsseiten verweisen zu reparieren. Dazu habe ich "Links auf diese BKL" verwendet und diese korrigiert. Allerdings sehe ich nur ganz wenig Frucht meiner Bemühungen. Ich konnte lediglich einen Treffer abbauen. Wird wikidata dynamisch aus wikisource gefüttert oder gibt's da nur gelegentliche Abzüge. Freundliche Grüsse. --Maasikaru (Diskussion) 16:25, 22. Nov. 2019 (CET)Antworten[Beantworten]

Vielen Dank lieber @Maasikaru: für deine Arbeit an der Liste mit den Autoren auf BKL! Wir (@Jeb: haben das schon freudig entdeckt! Bei den BKL ist in der Tat manuelle Arbeit gefragt, letztlich sind es auch nicht gar so viele Items die hier zu bereinigen sind (angesichts von mittlerweile über 12.000 Items). Für vieles andere (wie zB die Grundanlage der Items mit einem halbwegs schönen bibliographischen Datenmodell) passiert hier (ein Werkstattbericht) einiges mit Hilfe von Skripten und Tools zur automatischen Anlage. Die Sache mit den Seitenzahlen-Splitting bei Artikeln über mehrere Hefte werde ich auch automatisiert einiges versuchen. Und dann fallen immer noch viele Themen der Datenbereinigung auf (einige ist ja auch auf der Diskussionsseite gelistet). Freundliche Grüße --Mfchris84 (Diskussion) 16:40, 22. Nov. 2019 (CET)Antworten[Beantworten]
Sorry für Quengeln. Wann sehe ich dann in den Ergebnissen der Abfrage, dass ich die Fälle abgearbeitet habe? --Maasikaru (Diskussion) 16:44, 22. Nov. 2019 (CET)Antworten[Beantworten]
... und Tee trinken. Dauert manchmal etwas länger bis der neue Stand im Wikidata Query zu sehen ist. ;-) Aber in jedem Fall, Dank! --Jeb (Diskussion) 17:15, 22. Nov. 2019 (CET)Antworten[Beantworten]
Kein Problem - ich hab die Query auf der Diskussions-Seite noch um die WikisourcePage ergänzt, dann ist's einfacher heraus zu arbeiten. Was mir (stichprobenhaft) aufgefallen ist, du hast bei den Seiten glaub' ich durchwegs bereits die korrekten Autorenlinks in die Textbox zu setzen, jetzt muss halt noch auf Wikidata im Autorenitem das korrekte Item eingesetzt werden. Danke für deine Arbeit! --Mfchris84 (Diskussion) 21:03, 22. Nov. 2019 (CET)Antworten[Beantworten]
ich sitz, glaub', wirklich auf der Leitung. Braucht das auf Wikidata im Autorenitem das korrekte Item eingesetzt werden Handarbeit oder gibt es einen Mechanismus, der die WS-Änderung in wikidata nachführt? --Maasikaru (Diskussion) 21:40, 22. Nov. 2019 (CET)Antworten[Beantworten]
für diese Korrekturen gibt es keinen Mechanismus - das muss manuell nachgezogen werden. Mein Skript ist aktuell nur für den Einsatz ausgelegt, neue Artikel, die noch kein wikidata-Item haben, in Wikidata mit den entsprechenden Infos aus der Textbox anzulegen. --Mfchris84 (Diskussion) 21:44, 22. Nov. 2019 (CET)Antworten[Beantworten]
Dann war mein "Quengeln" natürlich unangezeigt. Könntest Du bitte prüfen, ob das, was ich hier gemacht habe, das richtige Vorgehen ist. Danke. --Maasikaru (Diskussion) 09:39, 23. Nov. 2019 (CET)Antworten[Beantworten]
@Maasikaru: das ist so uns o kein "Quengeln" - wir lernen hier alle und beständig voneinander - darum geht es auch hier! Der Edit auf Wikidata passt natürlich! Im vorhergehenden Statement gab es dann noch zwei Qualifier: Einen für die Schreibweise wie der Autor im Artikel genannt ist (könnte ja zB auch als "A. Müller" notiert gewesen sein) und eine Reihenfolge der Autorennennung (was bei Artikeln mit einem Autor nicht not ist, aber das macht mein Skript halt automatisch). Wenn du bspw. beim bestehenden Statement auf "Editieren" klickst, könntest du dann die bestehenden Qualifier und Referenzen belassen (wobei die Referenz dann auch aktualisiert werden müsste, weil sie auf die Wikisource-Seite im Zustand des Parsens verweist, und somit auf die dort noch ungültige Autorenverlinkung) und nur den Wert im Autorenfeld selbst korrigieren. Vielen Dank für deine Edits!
apropos "wir lernen hier alle voneinander" - ich bin bspw. überhaupt nicht mit den Editionsweisen vertraut und habe auf der Diskussionsseite zwei Abschnitte wegen - in meiner Anschauung - Dubletten angelegt, vlt. kannst du mir hier sagen, ob das so korrekt ist oder ob hier und wenn ja wie Handlungsbedarf besteht. Danke! --Mfchris84 (Diskussion) 14:52, 23. Nov. 2019 (CET)Antworten[Beantworten]

Bei mehrteiligen Artikeln und Artikelfolgen wirst Du auf einigen Wildwuchs stossen. Auch ich habe manchmal vorgefundenes stehen lassen oder eine schnelle Lösung gesucht, in der Hoffnung, dass dem Lektorat irgendwannmal eine redaktionelle Nachbearbeitung folgt. Darum kann ich Dir nicht sagen, "wie es gehört". Willst Du nicht für wikidata-Zwecke den vollen Artikel nehmen und Stücke ignorieren? A propos Wildwuchs. Die "Katalogisierung" in den Infoboxen folgt keinesfalls bibliothekarischen Reinheitsgeboten. "stated as" wird dann schnell zu "stated as ... by ws-author" statt "stated as ... by Gartenlaube" ... Du tust m.E. gut daran auch ein Skript zu entwerfen, mit dem Du wikidata-Einträge teilweise oder ganz aus veränderten ws-Artikeln überschreiben kannst ... And now to something different. Bitte nochmals schauen. Ich weiss nur bedingt, was ich tue: d:Q19233192. Danke. --Maasikaru (Diskussion) 20:49, 23. Nov. 2019 (CET)Antworten[Beantworten]

@Maasikaru: danke für die Hinweis bzgl. Artikelstrukturierungen - beim Eishandel ist aber in der Tat so, dass hier ein und der selbe Artikel mit zwei Lemmata vorliegt. Ich bin halt in Wikisource noch etwas unbedarft und will nicht gleich mit einem Artikel-Löschantrag reinfahren.
Dein Edit auf Wikidata ist perfekt - und das ist auch ein geniales Beispiel für die Sinnhaftigkeit der "stated as" Qualifierangabe - da hier ja die Autorin unter Pseudonym veröffentlicht hat.
Und ja, ich hab' mir auch heute - es sind jetzt übrigens seit heute erstmals alle WikisourcePages der Kategorie (bzw. Unterkategorie) "Gartenlaube Artikel" mit einem bibliographischen Item versehen - gedacht, dass das Skript eine Adaption braucht um regelmäßig auf Änderungen der Textbox ausschau hält, da ja sicher an einigen Orten es noch zu Veränderungen kommt bzw. kommen kann.
Während die Doppelkorrektur (in ws und wd) für die 10-20 Artikel der BKL-Link-Entfernung noch in Ordnung geht, möchte ich sie z.B. für die 855 Artikel ohne Seitenangaben in der Infobox (CWt) nicht vornehmen. Hier würde ich mir wünschen, dass Du den Titel des Aufsatzes als link nach ws gestaltest. Dann kann ich da gelegentlich (sukzessive!) drangehen. Und dann wäre eine Kopplung sinnvoll, die die Änderungen nach wd saugt. Ansonsten finde ich diese Instrumente ganz toll. Danke dafür. freundliche Grüsse. --Maasikaru (Diskussion) 11:18, 27. Nov. 2019 (CET)Antworten[Beantworten]
@Maasikaru: vielen Dank für deine Korrekturen bzgl. BKL-Links! Und bin voll bei dir, bei den Items mit fehlender Seitenzahl ist es nicht einzufordern eine Doppelkorrektur absolvieren zu müssen. Das ist nicht Sinn der Sache. Ich werde auf jedenfall mein Skript um eine Update-/Vergleichsroutine ergänzen. --Mfchris84 (Diskussion) 11:21, 27. Nov. 2019 (CET)Antworten[Beantworten]

Danke[Bearbeiten]

Danke für die netten Worte! Das Safranbuch ist wirklich witzig, wenn du gestattest, mache ich die Zweitkorrektur weiter. Ich kann jeden Tag ein paar Seiten lesen. Und bald bin ich reich durch Safrananbau! ;-)

@Fräulein von Scuderi: - von 'gestatten' kann ja gar nicht die Rede sein! ;-) Ich freue mich, wenn das Buch fertig bearbeitet wird und bin dir sehr dankbar bzw. zu Dank verpflichtet - falls du Projekte einstellst, möchte ich mich dann gerne mit Korrekturen revanchieren! LG Mfchris84 (Diskussion) 07:16, 5. Feb. 2021 (CET)Antworten[Beantworten]
Hab mich total festgelesen, das Safranbuch ist wirklich interessant - der Dank liegt ganz bei mir, dass du so eine spannende Quelle aufgetrieben hast! Ich bin ganz neu dabei und schrecke darum eher vor dem Reinstellen neuer Quellen zurück, aber danke für das Angebot mit dem Korrekturlesen!--Fräulein von Scuderi (Diskussion) 10:46, 5. Feb. 2021 (CET)Antworten[Beantworten]
Hallo mfchris84, bin beim Korrekturlesen des Saffranbuches auf ein Problem gestoßen, bei S. 78 und 79 ist die Formatierung nicht richtig (Spalten der Abrechnung) und ich weiß nicht genau, wie ich das lösen kann. Kanst du mal drüber schauen, bitte? Auf S. 77 ist alles richtig gewesen mit den Spalten. LG--Fräulein von Scuderi (Diskussion) 12:03, 10. Feb. 2021 (CET)Antworten[Beantworten]
@Fräulein von Scuderi: - danke nochmal für deine tolle Korrekturarbeit!! Mit den langen Tabellen ist das etwas schwierig. Die Tabelle im 19. Kapitel 3. § bei der du gerade bist, ist ja wenn man es als Fließtext betrachtet eine Tabelle, die über drei Seiten (77–79) läuft. Im zusammengefügten Text erscheint sie daher auch als durchgehende Tabelle mit nur einem Tabellenkopf: Praktischer Unterricht den niederösterreicher Saffran zu bauen#3._§._17, die Seiten 78 und 79 ergeben aber dann in der jeweiligen Seitenansicht keinen validen wikitext - weil Beginn und/oder Ende der Tabelle fehlen. Solche langen Tabellen gibt es dann leider noch des eine oder andere Mal im Text. D.h. entweder vergleichst du mit der Tabelle im Gesamttext und suchst dann die jeweiligen Stellen im Quelltext oder du kopierst zB den Seitenquelltext auf deine Benutzerseite und machst daraus eine Tabelle mit den fehlenden Wikitext-Elementen. Ich glaub, da gibt's leider keine bessere Lösung - oder erzähle ich hier was falsches? @A. Wagner: --Mfchris84 (Diskussion) 16:31, 10. Feb. 2021 (CET)Antworten[Beantworten]
Alles Bestens, siehe Seite:Album_der_Sächsischen_Industrie_Band_1.pdf/388. Man kann mit etwas Aufwand auch eine Tabelle pro Seite gestalten, aber das muss nicht sein. Beispiel: Seite:Beschreibung_des_Oberamts_Kuenzelsau_I_052.jpg. Grüße von --A. Wagner (Diskussion) 19:39, 10. Feb. 2021 (CET)Antworten[Beantworten]
Danke euch beiden für die Erklärungen! Jetzt habe ich es auch geblickt: Das "komische" Aussehen ist nur in der Einzelseitenansicht, wenn man den Fließtext liest, sieht es normal aus (also wie eine durchgehende Tabelle). Dann suche ich beim Korrekturlesen einfach das Richtige heraus und beachte die Angaben für die Tabelle gar nicht. --Fräulein von Scuderi (Diskussion) 20:12, 10. Feb. 2021 (CET)Antworten[Beantworten]
Zur Tabelle S. 77-79: Hab mich mal eingemischt und die Tabellensyntax außerhalb der Section-Tags plaziert. Das zusätzliche Break-Tag (<br clear="all" />) ist nötig, weil die Seitenzahlen-Anzeige im Artikel (Vorlage:SeitePR) die Tabellensyntax vom Zeilenanfang verdrängt. --Mapmarks (Diskussion) 21:57, 10. Feb. 2021 (CET)Antworten[Beantworten]
@Mapmarks:, danke das mit den sections ist eine raffinierte Idee! Vielen Dank! --Mfchris84 (Diskussion) 22:34, 10. Feb. 2021 (CET)Antworten[Beantworten]

Berühmte Krapfen-Recepte und die Heirath durch Krapfen[Bearbeiten]

Hallo Mfchris84, bitte lade die Scans auf Commons und lege einen Index dazu an, siehe Wikisource:Projektaufbau mit mehrseitigen Dateien#Schnelleinstieg. Danach von der Indexseite aus die Seiten neu erstellen. Die jetzt im Text eingebundenen Seiten

funktionieren nicht zum Korrekturlesen und werde ich daher demnächst löschen. --Mapmarks (Diskussion) 04:41, 7. Feb. 2021 (CET)Antworten[Beantworten]

@Mapmarks: - danke für den Hinweis - ich war mir beim Einstellen unsicher, ob auch bei nur drei Seiten die Vorgehensweise für mehrseitige Projekte die Richtige und nicht 'oversized' ist. Habe den Index und die Seiten angelegt. Auf die oben angeführte Seiten habe ich jeweils die löschen-Vorlage eingebaut. LG --Mfchris84 (Diskussion) 13:48, 7. Feb. 2021 (CET)Antworten[Beantworten]
Danke, das ging schnell :) --Mapmarks (Diskussion) 19:05, 7. Feb. 2021 (CET)Antworten[Beantworten]

Bei Verschiebungen auch die Links anpassen[Bearbeiten]

Hallo Mfchris84, bitte bei Verschiebungen auch die Links auf die alte Seite anpassen, wie z. B. hier. Danke, --Arnd 09:51, 17. Feb. 2021 (CET)Antworten[Beantworten]

Schweizerdeutsch[Bearbeiten]

Hallo Mfchris84, wir haben hier keine Kategorie:Schweizerdeutsch. Kannst Du diese bitte inkl. Einordnung in den Kategorienbaum anlegen? Danke. (Ich versteh das nicht, haben wir denn keine derartigen Texte, nach zig Jahren WS?) Grüße --A. Wagner (Diskussion) 18:38, 20. Nov. 2021 (CET)Antworten[Beantworten]

Lieber @A. Wagner:, ist angelegt. Ab welchen Anteil an Sprache/Dialekt würdest du eigentlich eine Kategorie vergeben? Die letzten beiden Verse der Luzerner Osterspiele sind bspw. in w:Brabantisch verfasst. Hierfür eine Kategorie Kategorie:Niederländische Dialekte? Oder ist das dann doch zuviel des guten? Ich werd einmal ein bisserl stöbern, ob sich noch schwyzerdütsches im Bestand schon finden lässt. --Mfchris84 (Diskussion) 19:05, 20. Nov. 2021 (CET)Antworten[Beantworten]
Lieber Mfchris68, vielen Dank, das ging ja cito! Bei den Luzerner Osterspielen habe ich vielleicht gefehlt, in dem ich die Kat: Frühneuhochdeutsch hinzugefügt habe. Bitte schau Dir das nochmals an. Wegen dem Brabantisch: Kann man machen, wenn die Kat zutrifft, warum nicht. Vielleicht hilft das ja einem suchendem Wissenschaftler und gibt den entscheidenden Hinweis :) --A. Wagner (Diskussion) 19:20, 20. Nov. 2021 (CET)Antworten[Beantworten]

Datenlaube[Bearbeiten]

Hallo Chris, vielen Dank nochmal für den Volltextkorpus der Gartenlaube. Ich konnte schon mal etwas hinschauen schauen und frage mich jetzt wie ich die Text am besten erschließen könnte. In den JSON ist der plaintext nach gescannten Heftseiten drin, also beispielsweise Seite:Die Gartenlaube (1853) 005.jpg Nun würde ich natürlich gerne die Daten mit den Hintergrundinformationen ansehen, wie sie https://de.wikisource.org/wiki/Der_Deutsche_in_Amerika hier hinterlegt sind. Also den gesamten Text zu einem Titel/Kapitel "Der Deutsche in Amerika". Ist es möglich die Daten so zu ziehen, dass man ein Format wie https://de.wikisource.org/wiki/Die_Gartenlaube_(1853) hat? Pro Jahrgang mit Heft / Titel / Seiten / Autor. lg --WissensDürster (Diskussion) 14:51, 2. Feb. 2022 (CET)Antworten[Beantworten]

Hallo @WissensDürster:, ich verstehe deine Anfrage und klar, das wäre natürlich ergänzend zur reinen seitenweisen Darstellung des Volltextes eine gute Ergänzung je Artikel-Einheit den Volltext ausgewiesen zu bekommen. Dazu müsste aber der Volltextparser wesentlich verändert werden. Über Wikidata ist es ein leichtes alle Artikel aufzurufen; der Parser muss dann auf der WS-Seite die Vorlage zur Seiteneinbettung auslesen und den entsprechenden Textteil der Zielseite auslesen (oft sind es ja nur Teile einer Seite, die zu einem Artikel gehören). Eine solche Abfrage hätte auch den Vorteil, dass wir in Wikidata die Eigenschaft "document scans on Commons" für jeden Artikel ausfüllen könnten. Und vice versa die Seitenscans in Commons mit mehr Struktur (SDC) versehen könnten.
Allein die Zeit! :-) Die "einfache" Erstellung des Volltextes, wir er gegenwärtig in zenodo liegt, hat schon - mit allen Korrekturen, die dann doch nötig sind - sicher einen ganzen Arbeitstag verschlungen; die Umstellung auf artikelweise Abfrage, sicher nicht viel weniger (oder auch mehr). Kurzfristig schaffe ich das leider nicht. Das Skript ist ja öffentlich einsehbar, falls sich jemand - wie sieht es mit deinen Programmierkenntnissen aus? - dafür begeistert, ich würd mich freuen. Die notwendigen Techniken (SPARQL-Query, Vorlagen-Auslesen) sind in den vorliegenden Datenlaube-Skripten alle eingesetzt und somit "nachlesbar". :-) LG Mfchris84 (Diskussion) 22:51, 2. Feb. 2022 (CET)Antworten[Beantworten]
Vielen dank schon mal für das ausführliche Feedback. Ich bin im Bereich Data Science/Analysis unterwegs, aber mache nur wenig mit Datenbanken. Ich könnte mir vorstellen als Workaround einen Scraper schreiben, der alle Links auf einer Seite wie Die Gartenlaube (1853) klickt, öffnet und den main body Text speichert. Aber ein nativer Zugäng wäre sicher besser. Ich werde mich so gut es geht in SPARQL einarbeiten. Mal sehen, wie weit ich komme. lg --WissensDürster (Diskussion) 13:01, 3. Feb. 2022 (CET)Antworten[Beantworten]
Der beste Zugang zum Text der jeweiligen Wikiseiten ist über die MediaWiki-API gegeben. Natürlich ginge auch das Web-Scraping über die gerenderten Artikel-Seiten in Wikisource. Die verschiedenen notwendigen API-Calls sind aus dem oben verlinkten Skript eigentlich auslesbar. LG Mfchris84 (Diskussion) 14:49, 3. Feb. 2022 (CET)Antworten[Beantworten]
Kannst du mir einen Tipp geben, wo ich am besten anfange zu lernen? Ich kann in deinem Skript kein SPARQL erkennen. Ich habe mir SPARQL Query von Wikidata angesehen. Ein Minimalbeispiel wie Katze kann ich noch nachvollziehen. Ich sehe, du hast alles in Python geschrieben (ich nutze R). lg --WissensDürster (Diskussion) 16:06, 5. Feb. 2022 (CET)Antworten[Beantworten]

Für den Textparser habe ich auch kein SPARQL verwendet, sondern ausschließlich die MediawikiAPI um Kategorien und deren beinhalteten Seiten auszulesen. Um SPARQL zu lernen, empfehle ich dir die vielen Beispielseiten auf wikidata.org. Gerne aber auch mal dienstags beim "datenlaubeJam" Bin jetzt aber eine Woche offline. LG Mfchris84 (Diskussion) 16:28, 5. Feb. 2022 (CET)Antworten[Beantworten]

Hallo Chris, ich bin's nochmal. Ich habe jetzt vollständige Tabellen wie Die Gartenlaube (1853) aller Jahrgänge mit den Heft und Seiten Informationen. Wenn ich zumindest den Titel oder etwas anderes gemeinsames in dem plain text hätte, könnte ich die Daten verbinden. Wie du schon schreibst (https://diedatenlaube.github.io/Get_Gartenlaube_SeitenText.html) verliert 'mwparserfromhell' alles was in Vorlagen steckt, also unter anderem den Titel. Wie könnte ich sonst an Elemente des Quelltext https://de.wikisource.org/w/index.php?title=Seite:Die_Gartenlaube_(1853)_001.jpg&action=edit kommen? Vielleicht hast du doch noch den Ansatz einer Idee :) lg --WissensDürster (Diskussion) 17:30, 11. Apr. 2022 (CEST)Antworten[Beantworten]
Lieber @WissensDürster: sorry, dass ich nicht auf deine Anfrage bislang respondiert habe. Die Zeit läuft mir davon. :-) Ich verstehe dein Anliegen, allerdings wird das keine ganz einfache Angelegenheit, vor allem wird das ohne Programmierung nicht funktionieren, d.h. nur mittels MediaWiki-API allein, werden wir das in der Form nicht schaffen. Leider habe ich gegenwärtig nicht die Ressourcen dieses Projekt umzusetzen, frühestens wohl in einigen Monaten, aber vielleicht findet sich ja jemand anderer, interessierter der mit den folgenden Überlegungen näher ans Ziel kommt:
  1. Ausgehend von einer Liste aller Artikel der Gartenlaube - hier würde sich am besten die entsprechende Wikidata-Abfrage anbieten, denn dann bekommst du auch gleich strukturiert alle Metadaten (Titel, Autor, Heftnr, Jahrgang, Seite) und den Wikisource-Link zur Artikelseite.
  2. Mittels MediaWiki-API die einzelne Artikelseite einlesen.
  3. Auf der Artikelseite befindet sich aber wie du ja weisst kein Text sondern nur die Vorlagen. Hier setzt die Programmierung ein - den in Schritt 2 geparsten Artikeltext auslesen und entsprechend der Einbettungsvorlage auf die jeweilige Textseite gehen.
  4. Von der Textseite kann der entsprechende Text geholt werden und für den Artikel "gespeichert" werden.
  5. Zu beachten ist, dass in Schritt 3 in vielen Fällen nicht der gesamte Text der verwiesenen Seite ausgelesen werden kann, sondern oft nur Teile - in <section> unterteilt, hier muss der Seitenquelltext also entsprechend der Section-Parameter der Einbettungsvorlage gezielt geparst werden.
Somit sollte es aber möglich sein, deinen Wunsch zu erfüllen; nicht einfach den gesamten Textkorpus wie von mir quick'n'dirty zusammengebastelt, sondern Textkorpus nach Artikeleinheit zu finden. --Mfchris84 (Diskussion) 21:52, 28. Apr. 2022 (CEST)Antworten[Beantworten]