Wikisource Diskussion:DTA-Werkstatt

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikisource, der freien Quellensammlung

Unterseiten[Bearbeiten]

Vorspiel im Skriptorium[Bearbeiten]

Brauchbar für WS/WP?: Franz Brümmers "Lexikon der deutschen Dichter und Prosaisten vom Beginn des 19. Jahrhunderts bis zur Gegenwart" im DTA vervolltextet[Bearbeiten]

Wie schon mit A. Wagner diskutiert (und hier im Folgenden zitiert) mit vielen Grüßen aus dem DTA von --Newdta (Diskussion) 16:43, 8. Okt. 2014 (CEST):[Beantworten]

"[...] möchte ich anregen, dass WP (und WS) mit Franz Brümmers vorzüglichem Lexikon der deutschen Dichter und Prosaisten vom Beginn des 19. Jahrhunderts bis zur Gegenwart (6. Aufl. 8 Bde., Reclam: Leipzig, 1913) arbeitet, dass wir im DTA jetzt vervolltextet haben, siehe: Werke von Franz Brümmer im DTA. Die Artikel können sehr gern genutzt werden, um daraus fehlende Einträge zu Schriftstellerinnen und Schriftstellern des 19. Jhs. zu machen. Der biographische Teil ist jeweils getaggt als <div type="index" n="1">[...]</div> und wäre v.a. für WP-Artikel zu gebrauchen, der bibliographische Teil ist als <div type="bibliography" n="2">[...]</div> getaggt und v.a. für WS-Bibliographien interessant. Anhand dieser divs lässt es sich sehr gut vorseparieren. Ihr könnt aber gern auch die komplette Textbasis nach WS übernehmen (Text (TEI-XML-, HTML-, TCF-, E-Book-Fassung): CC BY-NC 3.0). Viele Grüße! --Newdta (Diskussion) 14:55, 8. Okt. 2014 (CEST)[Beantworten]
[...] Der Brümmer ist natürlich außerordentlich wertvoll für WS, hier könnten ja die Texte zu den Autoren in eigenen Seiten angelegt werden. Etwas problematisch ist die wissenschaftliche Transkription bei Euch, die wir so nicht mit übernehmen werden können (Stichpunkte langes S, vorlagengenauer Zeilenumbruch). Viele Grüße A. Wagner (Diskussion) 15:51, 8. Okt. 2014 (CEST)[Beantworten]
[...] Zum Brümmer: siehe bei jedem Band die sog. 'Lesefassung', damit dann auch die Optionen mit/ohne langen s usw. sowie mit/ohne Zeilenumbrüche. Z.B. Bd. 1 ohne Sonderzeichen und ohne Zeilenumbrüche. Viele Grüße --Newdta (Diskussion) 15:57, 8. Okt. 2014 (CEST) [...][Beantworten]
[...] Der Brümmer in lesbarer Version sieht gut aus, das ist eher was für unsere Zeitgenossen! Ein Hinweis im Skriptorium wäre da angebracht. A. Wagner (Diskussion) 16:24, 8. Okt. 2014 (CEST)"[Beantworten]
Hallo Newdta, auf Grund deiner Nachfrage, welche ich in den letzten Änderungen sah, möchte ich nun doch etwas dazu schreiben. Zunächst möchte ich herzlich Danken für die Bearbeitung überhaupt wie auch für das Angebot, ggf. auch die ganze Textbasis für WS zu übernehmen. Ich habe mir damals sofort, schon bei deinem Verlinken noch kurz vor deinem Hinweis bei A. Wagner den Brümmer beim DTA genau angesehen (einschließlich eurer Editionsrichtlinien) und wollte auch darüber diskutieren, aber weil eben sonst keine Reaktion kam, habe ich es letztlich gelassen, auch weil es bei derzeitigen Personalsituation schon richtig weh tut, solche Projekte überhaupt noch anzusprechen. Vor ein paar Jahren, als man noch mit Elan an der ADB arbeitete, wäre wohl heftiger Jubel ausgebrochen, ist doch der "Brümmer" die logische Fortsetzung der ADB mit vielen neuen Biographien, welche wir auf unseren Autorenseiten gut gebrauchen können. Ich habe mir stets gewünscht, dass wir eines Tages einmal daran gehen können.
Nun ist der Volltext vorhanden, aber nach unseren Editionsrichtlinien sind wir leider überhaupt nicht kompatibel mit den Texten des DTA. Trotz dreier Varianten, Originalzeichen, normierte Zeichen und die CAB-Version mit automatisch erstellter normalisierter Orthographie (Für die Mitleser: Einstellbar über die Buttons über dem E-Text rechts neben "nächste Seite >>") können wir keinen Text des DTA ohne Eingriffe in denselben übernehmen und das bedeutet, dass wir den Text am Ende wieder nur wie eine gute OCR behandeln können, also zweifach korrekturlesen müssen und wir haben z. B. bei der ADB schon lange nur noch 1-2 Leute dafür. Darüber hinaus ist die Situation auf WS heute so, dass selbst wenn wir den Text 1:1 ohne Eingriffe übernehmen könnten, für ein Projekt mit ca. 3750 S. in wohl mehr als doppelt so vielen Einzelartikel wahrscheinlich nicht genügend Leute zu finden sind, die das Gerüst dafür auf WS analog zur ADB mit allem drum und dran einschließlich der Einrichtung einer Lemma-Redaktion erstellen. Gerade für arbeitssparende Maßnahmen wie z. B. die Bot-gestützte Erstellung der Artikel fehlen uns heute die Leute, die wir bei der ADB damals noch hatten.
Man könnte noch darüber reden, wie wir jenseits einer Komplettübernahme das Angebot nutzen können, etwa mit einer Linkvorlage. Der Brümmer ist ja schon vielfach, aber bei weitem noch nicht überall wo es nötig wäre verlinkt. Allerdings ist die beim DTA voreingestellte Textversion für "Normalbürger" ähnlich der Fraktur auch etwas abschreckend und die Einstellmöglichkeiten erschließen sich ihm auch nicht sofort. Das sind eben die Unterschiede zwischen wissenschaftlichen und publikumsorientieren Angeboten. Wenn das DTA eine breitere Wahrnehmung erreichen möchte, was nur zu Wünschen wäre, dann wären vielleicht weitere Optionen und/oder optische Anpassungen nötig. Ob es dafür dann auch die Mittel hat oder erhält, ist eine andere Frage. --Rumpelsteig (Diskussion) 18:25, 24. Okt. 2014 (CEST)[Beantworten]
Möchte dem Benutzer Rumpelsteig für seinen ausführlichen Beitrag danken. Ich sehe das auch so, dass es derzeit keine Notwendigkeit gäbe, das Werk zu uns als Projekt rüberzuspiegeln. Aber ich denke doch, das man Links zu unseren Autorenseiten setzen kann, siehe Richard Voß. Auch wenn die Transkription gewöhnungsbedürftig ist, so ist doch Wissensgewinn vorhanden. Grüße --A. Wagner (Diskussion) 19:21, 24. Okt. 2014 (CEST)[Beantworten]
<quetsch>Hallo A. Wagner, Danke für deine Rückmeldung. Sei mir nicht böse, ich will ja nicht jedes Wort auf die Goldwaage legen, aber "keine Notwendigkeit" hätte der Brümmer nicht mehr oder weniger als die ADB, nur halt ich ihn derzeit nicht für machbar. Um Missverständnissen vorzubeugen: Ich hätte ihn liebend gerne auf WS gesehen und bin dem DTA unendlich dankbar für die Auswahl dieses Werkes, gerade weil wir selbst die Leute dafür nicht mehr haben. "Spiegeln" würde ich das dann auch nicht nennen, das klingt mir viel zu lässig. Denn zum einen ist der Aufwand nur wenig geringer als ohne die Textvorlage des DTA und zum anderen hätte der Brümmer bei uns wieder ganz andere Aufgaben und eine andere Gestalt als beim DTA. Bei der ADB hat man sich damals, als die Nachricht über die geplante Volltextversion der BSB kam, aus denselben guten Gründen für ein Weitermachen ausgesprochen, die auch für den Brümmer gelten würden, z. B. einen Mehrwert durch ein brauchbares Register und interne Verlinkungen zu schaffen, sowie Linkvorlagen für WS und WP etc. Das alles wäre weit mehr als man sich gemeinhin unter "spiegeln" so vorstellt.--Rumpelsteig (Diskussion) 16:24, 26. Okt. 2014 (CET)[Beantworten]
Dem ist nichts hinzuzufügen. Es wäre jetzt schön, wenn sich jemand dranmachen würde, den Brümmer bezüglich unserer Autorenseiten zu verlinken, denn es wäre sonst schade um die wertvollen, oftmals zeitgenössischen Informationen. Grüße--A. Wagner (Diskussion) 17:09, 26. Okt. 2014 (CET)[Beantworten]
Mit der Vorlage:DTA lassen sich übrigens auch einzelne Seiten verlinken.
Jetzt die Frage eines in diesen Dingen Unwissenden, die „CAB-Ansicht (normalisierte Schreibweise)“, die soweitichsehe per Javascript eingeblendet werden kann, lässt sie sich auch durch eine Vorlage aufrufen? Quasi als default? Ich fürchte Nein, dennoch Neugierig, --Konrad Stein (Diskussion) 14:16, 26. Okt. 2014 (CET)[Beantworten]
Schau mal weiter oben, da hat Newdta eine Html-Ansicht ohne Sonderzeichen und Umbrüche angegeben.--Sinuhe20 (Diskussion) 14:36, 26. Okt. 2014 (CET)[Beantworten]
Hab mal ein bisschen im Quelltext rumgestöbert: die CAB-Ansicht einer Seite bekommt man über die URL
http://www.deutschestextarchiv.de/book/cab/<book>/<page>
also z.B. http://www.deutschestextarchiv.de/book/cab/boerne_paris01_1832/122 allerdings ist diese Ansicht irgendwie nicht sehr nutzerfreundlich.--Sinuhe20 (Diskussion) 19:19, 26. Okt. 2014 (CET)[Beantworten]
Unter http://www.deutschestextarchiv.de/doku/software#cab ist beschrieben, welche weitreichenden Eingriffe die CAB-Version bedeuten kann. Ein Beispiel dort: „gläuben“ wird als Variante des Verbs „glauben“ automatisch dadurch ersetzt und diese Datenbank ist zudem noch "work in progress" und die Automatisierung nicht fehlerfrei. Aber das kann Newdta sicher besser erklären. Verlinken wir auf die CAB-Version, könnten meiner Ansicht nach unbedarfte Nachnutzer, darunter vielleicht auch etwas unerfahrene WP-Autoren möglicherweise eine deutlich über eine "normale" Normalisierung hinausgehende Version als Zitat übernehmen, wenn sie eben nicht mit der Arbeitsweise des DTA vertraut sind. Nun werden zwar diese Änderungen in der Seitenansicht durch Farbbalken mit hinterlegtem Originaltext kenntlich gemacht, aber wer sich nicht die Zeit nimmt, deren Bedeutung anzusehen übernimmt vielleicht mehr Änderungen als er sonst vertreten hätte. Ich wäre dafür, in einer Linkvorlage die Textversion mit "normierten Zeichen" voreinstellen, wo z. B. das lange S umgewandelt ist. Der Link mit den Parametern dazu ist im Javascript verborgen. --Rumpelsteig (Diskussion) 17:10, 26. Okt. 2014 (CET)[Beantworten]
<quetsch>Nach dem zu urteilen, was ihr sucht, lieber die Normansicht benutzen, z.B. http://www.deutschestextarchiv.de/book/view/bruemmer_lexikon08_1913?p=100;v=norm. Hier sind (einige) Zeichen normiert, z. B. das lange s umgewandelt, aber keine automatisierte Abbildung von historischer Schreibweise auf die moderne Entsprechung vorgenommen (letzteres ist, wofür CAB steht).</quetsch>
Wenn ich die Diskussion hier richtig verstehe, ist das hier vorliegende Hauptproblem, dass es an Mitarbeitern mangelt. Der Wille das Werk hier ähnlich der ADB zugänglich zu machen also durchaus da ist. Stutzig machte mich der Absatz oben, wo gemeint war, dass es vor allem an Leuten mangelt, die dieses Vorhaben durch Bots ein wenig stützen würden. Ich habe mir die Seiten des ersten Bandes mal ein wenig überflogen und ohne mich jetzt sehr aus dem Fenster lehnen zu wollen, denke ich, dass die Übernahme (zumindest des rein lexikalischen Teiles) für ein gutes Pythonprogramm kein großes Problem darstellen sollte. Vielleicht sollte man unter der Seite Wikisource:Spezialisten gesucht auch mal eine Technikrubrik aufmachen. Ich habe gerade begonnen mich in die Programmierung von Bots ein wenig einzuarbeiten, daher könnte ich mir das als Ziel für einen mögliches Botprogramm durchaus vorstellen. Falls also der Wunsch besteht den Brümmer hier als neue Quelle für Autorenartikel zu gebrauchen würde ich mich jetzt ganz weit aus dem Fenster lehnen und anbieten die nöthige technische Hilfe dafür zu bieten. Gerade, wenn ich mir die TEI-XML-Dateien ansehen, sehe ich da nämlich was worüber sich Skripte so richtig freuen. Das Hauptproblem (mal abgesehen, von dem Einleitungsgeraffel eines jeden Bandes) ist die Übernahme nach den unsrigen WS:ER. Hier ist aber auch die Durchforstung durch ein gutes Skript das letzte der Hindernisse (vor Allem, wenn es sich um sowas sehr Strukturiertes, wie ein Lexikon handelt). Der Unterschied zur ADB ist auch, dass hier ja schon eine akribisch erstellte digitale Version zur Verfügung steht. Wenn sich also jemand der mehr Ahnung davon hat, wie die dta-Grundlage abgeändert werden muss sich mit mir zusammentut, hätten wir hier etwas, was in sehr überschaubarer Zeit von 2 Leute zu machen ist. --THE IT (Diskussion) 19:41, 26. Okt. 2014 (CET)[Beantworten]
Edit: Was dabei abfallen würde wären Skripte, die im Anschluss so weiter entwickelt werden könnten, dass auch andere dta-Werke nach WS übernommen werden können ... nur so am Rande zum weiter grübeln. --THE IT (Diskussion) 19:45, 26. Okt. 2014 (CET)[Beantworten]
Hallo THE IT, herzlichen Dank für dein Angebot. Genau an solche Kenntnisse habe ich gedacht und keine Sorge, die Vorgänger, welche wir diesbezüglich vor allem bei der ADB hatten, haben auch nichts einfach so aus dem Ärmel geschüttelt, es lief eher "learning by doing" Wir haben zwar schon noch hin und wieder aktive Leute, die mit Bots etwas umgehen können, und vermutlich auch noch etwas Ahnung von den Vorgängen damals bei der ADB haben, aber sie haben sich eben zumindest auf WS rar gemacht und wir können natürlich niemanden herbei zitieren, es wird ja seine guten Gründe haben. Da müssten sie sich schon selbst melden, wenn sie dafür wieder Zeit und Lust für ein größeres Projekt haben sollten. Auch ich selbst bin nicht mehr so oft aktiv, wie ich gerne möchte.
Bei der ADB war es so, das Benutzer:Robot Monk (leider aus privaten Gründen komplett inaktiv) die OCR einschließlich der fehlenden Artikel per Bot angelegt bzw. verteilt hat, wie genau, kann ich nicht mehr nachvollziehen, da er vieles lokal vorbereitete, also keine genauen Aufzeichnungen dazu auf WS zu finden sind. Die OCR für alle Bände wurde von Benutzer:Xarax (ebenfalls wohl aus Zeitmangel gänzlich inaktiv) erzeugt und von anderen global über alle Bände um die häufigsten typischen Fraktur-OCR-Fehler vorbereinigt, wofür Robot Monk Regex-Scripte zum Suchen und Ersetzen bereitstellte. Die Diskussion um die automatisierte Einstellung beginnt hier Benutzer Diskussion:Robot_Monk/Archiv#Regex, ist aber auch auf zahlreichen Arbeitsseiten verteilt, sodass ich, obwohl seinerzeit mitverfolgt, auch nicht mehr zusammen bringe, was da wie genau gelaufen ist. Siehe auch Diskussion:Allgemeine Deutsche Biographie und das Archiv dazu sowie Wikisource:ADB-Werkstatt. Die Lemma-Liste, bzw. Artikelfolge, also das Register konnte zunächst von der Bay. StaBi (BSB bzw. MDZ) übernommen werden, welches damals schon mit den Scans online war, es musste aber vielfach nachträglich an den WP-Standard angepasst werden.
Letzteres müsste beim Brümmer komplett neu und vermutlich mit viel Hand- und Recherchearbeit erzeugt werden. Falls man diese Personenliste vielleicht anhand bestimmter Marker, z.B. Fettung der Personennamen etc. aus dem DTA-Text wenigstens grob extrahieren könnte, wäre dies schon großer Gewinn, selbst wenn wir den Brümmer nicht übernehmen, denn wir könnten wenigstens ein Register mit den Linkvorlagen daraus erstellen. Im Grunde existiert ja bis dato im freien Internet überhaupt noch keine Übersicht, wer alles im Brümmer verzeichnet ist, jedenfalls nicht am Stück als Liste. Biographische Dienste wie WBIS haben den Brümmer natürlich schon vollständig oder zumindest weitgehend ausgewertet, zeigen aber den Volltext bzw. den Scan nicht außerhalb von Bibliotheksarbeitsplätzen an, also den private Nutzern der w:Nationallizenz über Internet und eine Liste lässt sich wohl dort auch nicht grabben, weil man glaube ich keine Trefferliste nach einer bestimmten biogr. Quelle ausgeben lassen kann. Genau sagen kann ich es nicht, da ich gerade nicht reinschauen kann, weil ich die jährliche Verlängerung des kostenlosen Nationallizenzen-Accounts mal wieder verpasst habe.
Scripte für eine automatische Anpassung von DTA-Texten an die WS-ER wären natürlich eine feine Sache, wie du schon sagtest auch jenseits des Brümmer. Das Haupthindernis für Übernahmen ist ja die erneute Korrekturlesearbeit, für die wir einfach nicht genug Leute haben, bzw. diese an eigenen Projekten gebunden sind. Wenn es hinzukriegen wäre, dass wir ohne manuelle Nacharbeiten am eigentlichen Text (Formatierungen und anderes ginge ja alles noch) auskommen und auf "fertig" setzen könnten, dann wäre das super. Ich begrüße deinen Vorschlag, mal eine Ecke einzurichten um unverbindlich zu schauen was möglich sein könnte. --Rumpelsteig (Diskussion) 23:18, 26. Okt. 2014 (CET)[Beantworten]
Lieber Rumpelsteig, THE IT und A. Wagner (eine spezifische Antwort oben reinqe<quetsch>t, generell:), wir begrüßen die Diskussion hier sehr! und freuen uns, dass ihr über Möglichkeiten nachdenkt, den Brümmer doch noch nach WS zu bringen. Wir sehen das genauso wie Rumpelsteig betont: es wäre mehr als Spiegeln und ein (auch aus unserer Sicht) erfreulicher weiterer Anwendungsfall derselben Datengrundlage, die das DTA vor einem anderen Hintergrund als WS erschloseen hat. Auch für WP wäre das was, aber da kann ich auch nochmal gesondert anfragen, wenn es keine enge Beziehung zwischen den hier aktiven WSlern und WP gibt. Jedenfalls: Dank der Strukturierung der Artikel und der bei uns schon verfügbaren Werkzeuge zur Normalisierung der zeichen- und zeilengenauen XML-Transkription in die zeichennormalisierte HTML-Fassung mit aufgelöster Silbentrennung könnten wir euch da etwas unterstützen. Minimalziel und eine gute Grundlage für euch wären doch Wiki-Syntax-ähnliche Dokumente, artikelsepariert mit Autorennamen als Header und erkenn(-d.h.-parse-)bar abgetrennten biographischen und bibliographischen Abschnitten zum jeweilgen Artikel. Es werden sich weniger als 2 Transkriptionsfehler je 10000 Zeichen darin finden, da die Bände manuell von einem Dienstleister erfasst wurden. Ausgedehntes Korrekturlesen durch WP sollte nicht mehr nötig sein, die gefundenen Fehler könntet ihr freundlicherweise uns (am effektivsten über DTAQ) melden.
Der guten Resonanz schuldent lege ich hier mal einen groben Plan vor, wie ich die Transkription angehen würde. Ich plane nicht hier die OCR nochmalig rüberlaufen zu lassen, dafür ist die Grundlage der DTA viel zu gut.
  1. Als Grundlage würde ich die TEI-XML-Dokumente von der DTA übernehmen. Da diese XML sind, kann er durch Python sehr gut eingelesen werden.
  2. Zur ersten Bearbeitung kommen erstmal nur die reinen lexikalischen Teile in Frage, da die Tags in der Einleitung doch recht vielfältig sind. Die Tags in den lexikalischen Teilen können recht einfach erfasst werden, dabei sollten auch gleichzeitig eine Liste aller Lemmata mit den dazugehörigen Seiten abfallen. Hier werden auch schon die Zeilenumbrüche entfernt.
  3. Im nächsten Schritt werden die HTML-Sonderzeichen ersetzt, und entsprechende weitere Ersetzungen auf Zeichen- und Wortebene durchgeführt (ſs -> ß z.B.).
  4. danach werden anhand der Lemma-Überschriften Sections in den Seiten festgelegt und die Seite als fertig (Korrekturlesungen durch das DTA (Dienstleister von mir aus auch)) markiert.
  5. Die Übersicht der Lemma (2. Schritt) liefert eine Quelle für das Anlegen der Biographierartikel.
  6. Manuelle Durchsicht eines jeden Artikels durch einen WS-Bearbeiter, bezüglich der generellen Struktur.
  7. Händische Durcharbeitung der Einleitung
Hört sich vielleicht aufwendig an, ist aber durchaus im Bereich des Machbaren. Das Technische würde ich übernehmen und damit eine Pythonbasis für das zukünftige Übernehmen weiterer DTA-Werke liefern. Diesen Code gedenke ich öffentlich zugänglich zu machen. Nun brauche ich aber min. einen Freiwilligen der sich die redaktionelle Betreuung zutraut und sich zutraut das zusammen mit mir anzugehen, im besten Falle könnte er gerne administrative Privilegien haben, falls doch mal zwischendurch was zu löschen ist. Wenn sich dieser Jemand hier findet würde ich die Vorstellung in der Projektbörse vornehmen. --THE IT (Diskussion) 18:51, 27. Okt. 2014 (CET)[Beantworten]

Hallo, bevor ihr solch ein großes Importprojekt beginnt, solltet ihr überlegen, ob es wirklich sinnvoll ist. Ich meine, bisher sind die Texte ja bereits auf Grundlage eines Scans transskribiert und an einer Stelle im Internet (mit hervorragenden Export-Möglichkeiten) verfügbar, bringt es wirklich solch einen Mehrwert, das Lexikon nach Wikisource zu übertragen? Wikisource sollte meiner Meinung nach nur dafür genutzt werden E-Texte aufzunehmen, die noch nicht im Internet verfügbar sind oder bei denen man nicht weiß, auf welcher Textgrundlage sie beruhen. Bei einem gespiegelten Text müsste man darauf achten, eventuelle Korrekturen immer doppelt vorzunehmen und es könnte dann leicht passieren, dass man auf einmal zwei (wenn auch nur minimal) abweichende Versionen vorzuliegen hat.--Sinuhe20 (Diskussion) 19:29, 27. Okt. 2014 (CET)[Beantworten]

+1, auch mir erschließt sich der Sinn dieses Projekts nicht. Unfertige Großprojekte haben wir genug, die Auflistung erspare ich mir, jeder kennt sie. --9xl (Diskussion) 08:50, 29. Okt. 2014 (CET)[Beantworten]

Ich fürchte der Plan wird hier noch etwas falsch verstanden ... ich gedenke nicht in irgendeiner Weise eine Baustelle zu eröffnen. Entweder wir bekommen es hin, dass es einen automatischen Import gibt oder halt nicht. Der Output des Programms sollen komplett fertige Seiten sein. Einzig Einleitung (beim ersten Band 30 Seiten [gesamt also 180 ~ entspricht ca. 90 Mannstunden]) müssen in einem händischen Copy-Paste-Prozess behandelt werden. Die Beurtheilung ob es lohnt dieses Werk zu spiegeln mag ich hier entgültig auch nicht treffen. Aber vielleicht den ein oder anderen Grund liefern. Wenn ich mir einen Autor aus dem Brümmer heraus picke, dann findet Google ihn nicht, jedenfalls nicht bei der dta, da scheint also die Indexierung bei der dta nicht optimal zu sein. Weiterhin ist auch für den Ottonormalnutzer nicht im vollen Umfang nutzerfreundlich. Vielmehr sehe ich in der dta eine Organisation, die möglicht gute Digitalisate zugänglich machen will. Dabei ist aber wohl mehr die Zielgruppe der Textweiterverarbeiter (uns) als die der Konsumenten angedacht. Newdta mag mich hier verbessern. Jedenfalls wäre ja eine andere Idee direkt auf die Seiten bei der dta zu verweisen, dies würde mich als Leser eines Personenartikels auf WS oder WP aber ehrlich gesagt abschrecken. --THE IT (Diskussion) 10:26, 29. Okt. 2014 (CET)[Beantworten]

Den einzigen Vorteil, den ich sehe ist, dass man für jeden Dichter einen eigenen Artikel einrichten könnte. Allerdings sind die meisten Einträge ja kaum länger als eine Seite. Eine 100% zufriedenstellende Lesefassung gibt es beim DTA aber tatsächlich nicht…--Sinuhe20 (Diskussion) 12:30, 29. Okt. 2014 (CET)[Beantworten]
Sinn oder Unsinn @9xl Ich schließe mich THE IT an, ein unfertige Baustelle (zumindest als Korrekturbaustelle) wird es nicht werden. Ich gehöre selbst zu den Leuten, die Neueinstellungen schon immer recht kritisch beobachtet und im Zweifel der Abarbeitung vorhandener Baustellen den Vorzug gegeben hatten, auch als der Mitarbeitermangel noch nicht so dramatisch schien. Aber wenn es ohne Neukorrektur zu schaffen wäre, dann wäre es fast unverantwortlich, wegen der verbleibenden Arbeiten auf ein Werk dieser Art zu verzichten. @Sinuhe20: Es soll ja nach dem Muster der ADB jeder Dichter einen eigenen Artikel bekommen und über die sonstigen Vorteile einer Fassung auf WS gilt das gleiche, was seinerzeit zur ADB gesagt wurde.
Admin/Botaufgaben: Wenn sich kein Admin und Botbetreiber findet, der Zeit hat, den Versuch Brümmer so zu begleiten wie es für eine zügige Zusammenarbeit geboten wäre, dann könnte man auch darüber nachdenken THE IT diese Rechte kurzfristig ohne reguläre Wahl zu erteilen, begrenzt auf das Projekt und seiner Dauer. THE IT dürfte, als Ingenieur naturgemäß für Problemlösungen ausgebildet, damit umzugehen wissen.
Einleitungen: An den Einleitungen sollte es nicht scheitern. Zunächst stellt sich die Frage, ob man diese überhaupt mit einstellen muss bzw. ob man wenigstens vorläufig darauf verzichtet. Bei anderen Artikelsammlungen werden ja auch nur einzelne Artikel transkripiert, wobei es beim Brümmer von vornherein nur heißen kann, entweder alle eigentlichen Artikel oder überhaupt keine. Entscheidend für WS ist nur der eigentliche Artikelkorpus. Bei der ADB interessiert sich auch niemand für die Einleitung (ist aber vorhanden) und auf die Transkription des gedruckten Registers wurde zugunsten unseres eigenen ganz verzichtet. Der Nutzer kommt über Links und Suchmaschinen zu den gewünschten Artikel und nur das zählt.
Fehlerrate @newdta: Es ist keine Frage, dass das Verfahren des DTA sehr wahrscheinlich viel zuverlässiger ist als ein Korrekturlese-Duo auf WS und wir haben ja z. B. von Zeno bereits Texte ohne erneute Korrektur übernommen, welche mit dem gleichen Verfahren erstellt wurden. Von Neukorrektur sprechen wir hier deshalb auch nur für den Fall, das manuelle und damit fehleranfällige Eingriffe nötig wären, um den Text an unsere ER anzupassen. Wenn wir darum nicht herum kommen würden, wäre es das Aus, weil wir dafür keine Leute haben. Wir müssen sehen, dass wir eine zuverlässige automatische Konversion hinkriegen, ansonsten können wir dieses Projekt und fast alles was künftig noch folgen könnte aus Zeitmangel wohl vergessen.
Lemmaerfassung @THE IT: Eine automatisierte oder halbautomatisierte (Erst)Erfassung wäre extrem hilfreich und möglicherweise, aber das muss man noch sehen, nimmt man diese zunächst auch wie vorgefunden zur botgestützten Artikelerstellung und passt sie erst später in Ruhe an den WP-Standard bzw. WBIS-Standard an. Wie bei der ADB gleicht die Schreibweise des Personennamens im Text nicht notwendigerweise dem gewünschten Lemma. Die Transkription im Artikeltext bleibt selbstverständlich unverändert, der Personenname im WS-Artikelname, "unserem" Lemma ist hingegen Teil der Infrastruktur wird natürlich nach der gängigsten Ansetzung normalisiert. Dies dürfte auch die aufwendigste manuelle Arbeit außerhalb der rein technischen Aufgaben sein, eine womit ich bereits Erfahrung habe und gerne auch übernehmen würde, wenn sich sonst niemand niemand meldet, der noch mehr Spaß daran hätte als ich.
Gestalt: Die der Artikel bzw. die Infobox sollte meine Ansicht nach möglichst genauso aussehen und den Funktionsumfang haben wie bei der ADB ADB:Arnim, Bettina von, also mit Linkvorlage für WS und WP und dem Link zur entsprechenden Einzelseite des DTA, der ja den maßgeblichen Scan und eben noch 3 andere Textvarianten enthält. Damit wäre das DTA auch in jeden WS-Artikel fest eingebunden und nebenbei so gewürdigt, wie es sich für eine Zusammenarbeit gehört. Bei den relativ kurzen Artikel des Brümmer, die sich max. über 2, vielleicht in Ausnahmefällen über 3 Seiten ziehen könnte man auf die Verlinkung der Folgeseiten im Artikeltext verzichten, es also bei einem Link zur Anfangsseite in der Textbox belassen, zumal die Scans bei uns nicht Korrektur gebraucht werden, also arbeitsergonomische Gründe entfallen.
Über den Tellerrand: Ich finde die Frage einer Zusammenarbeit (wenn auch in geringerem Umfang) hat auch einen gewissen kulturpolitischen Aspekt. Immer wieder wird gefordert, dass öffentliche Institutionen wie Archive, Museen und Universitäten mit ihren Bibliotheken und Projekten den Kontakt zur interessierten Öffentlichkeit breiter ausbauen sollen. Es gibt ja bereits etliche Kooperationen mit WP oder Commons, zugeben nicht immer ganz konfliktfrei, vor allem wegen Rechtsfragen. Das DTA ist dankenswerterweise auf Wikisource zugekommen, nachdem wir bereits in einigen Fällen als Textquelle ausgewählt wurden, worauf wir sicher auch ein wenig stolz sein dürfen. Für Kooperationen oder überhaupt so etwas wie freundschaftliche Kontakte mit WS gibt es nicht gerade viele Beispiele. Darum sollten wir den "Fall Brümmer" dazu nutzen, mal gegenseitig konkret abzuklopfen, mit welchen Massnahmen, insbesondere eben den "technischen" im Bedarfsfalle eine Kooperation möglich ist, auch wenn wir personell ziemlich klamm sind, (so klamm das beinahe keine Diskussion darüber zustande kam, was mir im Nachhinein doch ziemlich peinlich ist), denn es könnte sich lohnen:
Wer weiss, was da in Zukunft noch alles für Möglichkeiten drin sind. Das DTA hat ja bestimmte Kriterien zur Auswahl der Texte für seinen Korpus. Wir könnten ja in einigen Fällen vielleicht gemeinsam überlegen, welche Texte sowohl für das DTA als auch für WS interessant sind, welche möglichst auch sonst noch nicht im Netz verfügbar sind (abgesehen vielleicht von Google-OCR)
Es kann uns, gerade in der derzeiten Situation des Mitarbeitermangels nur Recht sein, wenn wir WS vielleicht trozdem um einige wichtige Sachen ohne aufwendige Neukorrektur ausbauen könnten, an die sonst vielleicht schwer ranzukommen wäre. Das DTA hat sicher für solche von ihnen wie von WS gewünschten Werke den ein oder anderen guten Draht zu digitalisierenden Bibliotheken, falls noch keine Scans im Netz verfügbar sind und finanziert eben die aufwendige Transkription. Wir dagegen rücken das DTA in den Übernahmen mit unseren Links auf ihre Scans und deren Textalternativen in eine etwas größere Öffentlichkeit.
Rückkopplung: Ich will es mal nicht überbewerten, aber für den weiteren Bestand oder Ausbau solcher Projekte wie das DTA ist der Grad der öffentlichen Wahrnehmung sicher nicht ganz unerheblich, insbesonderere wenn sich der Blick auch von "Endverbrauchern" außerhalb des eigentlichen Wissenschaftsberiebes darauf richtet und das Wikimedia-Universum ist in dieser Hinsicht sicher auch ein nicht ganz unerheblicher Teil dieser öffentlichen Wahrnehmung und wichtige Brücke zum "Endverbraucher". Dies alles sollte man im Blick haben, wenn man sich über den "Fall Brümmer" als möglicher Test für eine Zusammenarbeit unterhält und ich bin sicher, dass wir das ohne Blessuren hinkriegen, wenn wir keine Neukorrektur am Hals haben.
Vorschlag: Wir richten am besten eine Arbeitsecke ein, in der mal generell die technischen Details für Übernahmen von Texten des DTA erarbeitet werden und nehmen unverbindlich den Brümmer als Beispiel. Das Anlegen von Testseiten sollten dabei ausdrücklich erwünscht sein. Diese Phase sollte kontinuierlich, aber ohne unnötigen Zeitdruck angegangen werden, ganz wie es sich für die Beteiligten, nicht zuletzt beim DTA einrichten lässt. Niemand soll alles andere liegen lassen oder sich gar Nächte um die Ohren schlagen müssen, wie damals bei der forcierten Einstellung der ADB, wo es tatsächlich Zeitdruck gab, weil quasi in einen vorhandenen Teilbestand bei laufenden Korrekturberieb hinein automatisiert werden musste und die BSB uns aus dem Rennen zu werfen drohte.
Wenn es sich abzeichnet, dass wir den Brümmer so an unsere ER anpassen können, das keine Neukorrektur nötig ist und die Infrastruktur zumindest teilweise botgestützt erstellen können, dann soll entweder die ganze Gemeinschaft entscheiden ob wir das Projekt übernehmen oder sich gemäss den Regeln ausreichend Leute finden, welche für die anfallenden Restarbeiten daran verantwortlich zeichnen. Ich wäre einer davon. --Rumpelsteig (Diskussion) 18:23, 31. Okt. 2014 (CET)[Beantworten]
Wenn es mit Bot's sinnvoll möglich ist, die Texte zu übernehmen, und nur geringe Restarbeiten nötig wären - so wie hier schon erwähnt - halte ich es für sinnvoll diese wertvollen Texte zu übernehmen. Ich würde dabei auch mithelfen. Auch weitere Zusammenarbeiten mit DTA halte ich für sinnvoll. --Jörgens.Mi Talk 20:06, 31. Okt. 2014 (CET)[Beantworten]

Sehe das wie Joergens, wobei dann definitionsgemäß meine Mithilfe bei geringen Restarbeiten eher nicht erforderlich wäre ;-) --FrobenChristoph (Diskussion) 20:12, 31. Okt. 2014 (CET)[Beantworten]