Wikisource:Archiv/Professionalisierung

aus Wikisource, der freien Quellensammlung
Zur Navigation springen Zur Suche springen
Qsicon Achtung Orange.svg
Diese Seite entspricht nicht mehr den derzeitigen Standards. Um die technische Entwicklung von Wikisource nachvollziehen zu können, wurde diese Seite archiviert.
Qsicon Achtung Orange.svg

Übersicht:

  • Persitend Identfier: DNB angefragt (PatrickD)
    • Benachrichtigungsdienst: Düsentrieb anfragen.
  • Metadatenformat: ?
    • Erstellen der Metadaten mit Vorlage
  • OAI Schnittstelle: Bedeutung OAI Plugin ermitteln (BDK)
  • XML Kodierung: nicht begonnen
  • Volltextsuche: nicht begonnen
  • Erweiterte Blätterfunktion: nicht begonnen
  • Download Möglichkeiten: bisher nur externe manuelle Erstellung möglich
    • PDF: manuell erstellen
    • DjVu: manuell erstellen, Dateiformat kann bereits lokal und auf Commons hochgeladen werden; eine Thumbnailfunktion für DjVu-Dateien als Mediawiki-Extension befindet sich in Vorbereitung.
  • Zitierempfehlung: Bugfix (Variable REVISIONID funktioniert nicht in Seiten, die den <ref>-Tag enthalten) kommt mit dem nächsten Release der Mediawiki-Software. Exemplarisch: Zitierempfehlungsvorlage in Briefwechsel Hildebrand Veckinchusen:319

Allgemeines und Prioritäten[Bearbeiten]

Das sind alles wichtige Punkte. Ich verweise übrigens auch auf die Checkliste unter [1]. Von den aufgelisteten Punkten hängen zwei zusammen:

  • Ohne dauerhafte URLs (die sog. Permanentlinks reichen nicht aus) hat eine OAI-Schnittstelle keinen Sinn.

Zu den Prioritäten:

  • XML-Kodierung sehe ich als Cura Posterior.
  • Eigene Richtlinien für Handschriften sind ebenfalls nachrangig. Der Punkt der Metadaten hängt auch vom OAI-Thema zusammen.
  • Da ich inhaltlich OAI/Persistent-URL, PDF-Download und Volltextsuche gleichrangig sehe, einige Bemerkungen zur technischen Realisierbarkeit:
  • Alle ganzen Bücher auf Commons sollten zum einen eine Blätterfunktion (möglichst mit direkter Ansteuerung einer bestimmten Seitenzahl) haben und zum anderen als Download in verschiedenen Formaten (PDF, Djvu, jeweils Scans, E-Text, Scans+E-Text als zweischichtiges PDF/Djvu-Dokument) bereitstehen. Alle PDFs sollten einen Header mit den Metadaten haben.
  • Eine unabhängige Volltextsuche nach wissenschaftlichen Maßstäben wäre als OpenSource-Programm dringend wünschenswert. Sie könnte bei allen SQL-Datenbanken eingesetzt werden. Dazu einige Gedanken:
    • Eingängige Bedienbarkeit Google-like, aber auch Expertenmodus für Suchcracks
    • Boolean, Trunkierung
    • Definition des Suchabstands bei 2 Wörtern wie bei Directmedia-Suche
    • phonetische Suche (unnd wird auch gefunden, wenn und eingegeben wird) auf Wunsch einschaltbar. --FrobenChristoph 16:26, 25. Mai 2006 (UTC)

Einige Ergänzungen:

  • Permalinks lassen vielleicht auch ohne große Softwareänderung realisieren, in dem wir URN einsetzen und einen Benachrichtigungservice für Verschiebungen realisieren. Hier sollte sich das Commonswatch Tool von Düsentrieb vielleicht anpassen lassen. (sollte dies als Option überlegt werden kann ich gerne den Kontakt zur DDB herstellen.)
  • Mit der Suche sollte man vielleicht mal bei Neofonie anfragen, die die Web.de Wikipedia Suche programiert haben. Eine reine Volltextsuche erfüllt in meinem Augen auch keine wissenschaftlichen Ansprüche, dann könnte man gleich Google nehmen. Auch hier können gute Metadaten helfen um Suchergebnisse im Nachhinein einzuschränken oder im Vorherein schon bessere einschränkungen vornehmen zu können.
  • Einheitliche Beschreibungen halte ich am leichtesten für realisierbar, außerdem lassen sich aus einheitlichen Beschreibungen sehr schnell halbautomatisch Metadaten erzeugen, wie der Erfahrung aus den Personendaten eindeutig gezeigt haben.
  • XML oder TEI sind praktisch, jedoch könnte darunter due usebility für den unbedaren User leiden, der Sourcecode wird auf jeden Fall schwerer lesbar.
  • PDF download ist praktisch, hier ist meines Wissens Directmedia die damit die meister Erfahung hat, ansonsten gibt bisher kein freies Tool, dies könnte aber auch extern entwickelt werden, möglichweise soder von einem Partner innerhalb eines Forschungsprojects.

Daher würde ich folge Reihenfolge vorschlagen:

  1. Projektinterne Diskussion um einheitliche Beschreibung
  2. Konzepterstellen zr Realisierung eines Persident Identifiers (z.B. URN mit Benachrichtigungsdienst)
  3. Erarbeitung eines Metadatenstandarts (Dublin Core sollte das absolute Minimum sein)
  4. Erstellen der Metadaten mit Vorlage
  5. Bereitstellung einer OAI Schnitstelle

Parallel dazu:

  • Spezifikationen erstellen für PDF Export
  • Spezifikation der Suche

Beide Projekte könnten als externe Tools realisiert werden. --PatrickD 22:10, 25. Mai 2006 (UTC)


OAI-Schnittstelle und Metadaten[Bearbeiten]

Damit die im Rahmen von Wikisource digitalisierten Texte später in das momentan im Aufbau befindliche Zentrale Verzeichnis Digitalisierter Drucke (http://www.zvdd.de/) aufgenommen werden, ist die Schaffung einer OAI-Schnittstelle notwendig (zu OAI siehe Open Archives Initiative). Hier stellt sich die Frage ob diese Schnittstelle als Modul in die Mediawiki-Software integriert werden könnte, oder ob die in den Einstiegsseiten der einzelnen Projekte abgelegten Metadaten über einen Harvester gesammelt und über den von Wikimedia betriebenen Toolserver für die Bibliotheken zur Verfügung gestellt werden sollten. Voraussetzung für dies alles ist eine projektinterne Verständigung auf ein Modell für die Metadaten (wie etwa das von Patrick bereits weiter oben angesprochene Dublin Core) notwendig. Die Metadaten selbst könnten über Templates eingebunden sein, die – so wie die Personendaten in der Wikipedia – für den Nutzer nicht sichtbar sind. --Frank Schulenburg 13:07, 25. Mai 2006 (UTC)


Für OAI halte ich ein Template für Metadaten wie bei den Personendaten für die beste Möglichkeit zur Implementation. Die Seiten, bei denen das Template eingebunden ist, werden regelmäßig ausgewertet und die einzelnen Felder in eine Datenbank eingespeist, die über OAI abfragbar ist. Ich schätze den Programmieraufwand auf höchstens eine Woche, allerdings sollte zunächst geklärt werden, welche Metadaten notwendig sind und wie sie auf Dublin Core und ggf. andere Formate abgebildet werden können. Im ZVDD (http://www.zvdd.de/) sind u.A. DDC-Klasse, Autor, Sammlung und Publikationstyp angegeben - ich frage mal nach dem konkreten Format nach. -- JakobVoss 20:18, 27. Mai 2006 (UTC)

Reichen vielleicht die auf http://dublincore.org/documents/dces/ beschriebenen Elemente für eine erste Version aus? --Frank Schulenburg 23:14, 28. Mai 2006 (UTC)
Ein Teil davon steht schon in Vorlage:Textdaten. Ich denke es wäre sinnvoller, diese Vorlage anzupassen, statt eine komplett neue Metadatenvorlage zu erstellen. -- Timo Müller Diskussion 19:43, 29. Mai 2006 (UTC)
Die Metadatenvorlage wird Dublin-Core-Elemente (englischsprachig) enthalten. Ich bin mir nicht sicher, ob wir das mit der Vorlage:Textdaten verbinden können werden. --Frank Schulenburg 21:19, 29. Mai 2006 (UTC)
Was ist der Status eurer OAI-PMH-Bemühngen? Nur zur Sicherheit: Es gibt bereits eine OAI Extension für Mediawiki, welche wohl nur noch auf das gwünschte Metadaten-Format angepasst werden muss. Geonick 01:12, 10. Okt 2006 (CEST)

XML[Bearbeiten]

Volltextsuche[Bearbeiten]

Die momentan in Mediawiki eingebaute Volltextsuche erscheint mir für die spätere wissenschaftliche Nutzung der Texte (etwa zur Ermittlung von Worthäufigkeiten usw.) völlig ungeeignet. Ein weiterer Hemmschuh scheint mir die Aufteilung der Transkriptionen auf Einzelseiten – anstelle eines großen Gesamttextes für jede Quelle – zu sein. Während sich ersteres Problem wohl nur durch die Übermittlung eines klaren Anforderungsprofils an die momentan tätigen Mediawikientwickler lösen ließe, ist letzteres eine Frage der Konsensfindung in der momentanen Community. --Frank Schulenburg 13:07, 25. Mai 2006 (UTC)

Persident Identifier[Bearbeiten]

Bereitstellung von dauerhaften Internetadressen und Einbindung von Zitierempfehlungen auf jeder einzelnen Seite der Edition. In diesem Zusammenhang stellt sich die Frage, ob das jetzige Instrument der bereits in der Mediawikisoftware verankerten „Permantentlinks“ ausreicht. Der zweite Punkt ließe sich aus meiner Sicht leicht durch die Schaffung einer Vorlage realisieren. Sollte ein Konsens über die Notwendigkeit einer solchen Maßnahme bestehen, wäre ich für konkrete Vorschläge und ein beherztes Zur-Tat-Schreiten sehr empfänglich ;-) --Frank Schulenburg 13:07, 25. Mai 2006 (UTC)

Die „Permantentlinks“ wie überhaupt die ganze Versionsgeschichte sind ziemlich unzureichend. Aufgrund der Hintergrundssoftware, die sich jederzeit ändern kann, der Templates und der eingebundenen Drittserver (commons) kann eine Textversion schon morgen ganz anders aussehen. Perma-Links adressieren leider keinen atomaren Text. Über die P-Links kann man allenfalls mittelbar den nackten wiki-formatierten Quelltext erreichen. Aktuell können wir beobachten, wie sich verschwundene Leerzeilen bei Gedichten auswirken. Das Problem als solches ist zumindest seit einem Jahr bekannt und mit der gewachsenen wikimedia-Software wahrscheinlich nicht zu lösen. --Keichwa 06:10, 5. Jun 2006 (UTC)
Die Persistant Identifier werden voraussichtlich über eine Registrierung von URNs bei der dazugehörigen Vergabestelle realisiert. Es wäre nett, wenn PatrickD uns die bisherigen Pläne und den späteren Geschäftsgang erläutern könnte. --Frank Schulenburg 09:23, 5. Jun 2006 (UTC)
Die PIs nützen jedoch nichts, wenn dir das Kissen unter dem Hintern weggezogen wird.--Keichwa 09:48, 5. Jun 2006 (UTC)
Das verstehe ich nun überhaupt nicht. Wenn sich die URL ändert kann man dies melden. Und wer sollte bitte sie Software löschen??? und wer Commons?? Übrigens der Wikisource Server steht nicht unweit von dem Commons Server im selben Rechenzentrum weil auch der selbe Betreiber ist. --PatrickD 11:15, 5. Jun 2006 (UTC)
Commons liegt soweit ich weiß sogar auf dem gleichen Server. So gravierende Änderungen wie eine komplette Änderung der Software wird es in absehbarer Zukunft wohl nicht geben, und erst recht nicht von heute auf morgen und ohne Vorankündigung, sodass man aich nicht darauf einstellen könnte. Kleinere Softwarefehler wie die kaputten leerzeilen treten zwar hin und wieder auf, sind aber höchstens ärgerlich, und kein wirkliches Problem für das Projekt. -- Timo Müller Diskussion 12:37, 5. Jun 2006 (UTC)
Ich verstehe nicht, was daran so schwer zu verstehen ist. Check doch mal dies aus und dann wundere dich über die fehlenden Bilder: http://de.wikipedia.org/w/index.php?title=N%C3%BCrnberg&oldid=364960 - Ähnliches kann leicht mit Templates passieren. Oder noch Schlimmer: Etwas Eingebundes kann zwischenzeitlich aktualisiert worden sein; das erkennt man nicht, wenn man eine ältere Version auscheckt. Unter wissenschaftlichen Gesichtspunkten ist das nicht auf die leichte Schulter zu nehmen.--Keichwa 13:08, 5. Jun 2006 (UTC)
Besonders in WS ist ja immer die aktuellste Version die wirklich interessante. Und da können fehlende Bilder schnell wieder in Ordnung gebracht werden. Außerdem betreffen solche Änderungen in WS meistens nur kleinigkeiten, ich kann mir nicht vorstellen, dass in Commons eine koplette Ladung Scanns mal eben durch die Gegend verschoben wird. Und auch bei den Vorlagen werden wohl eher selten wirklich größere Änderungen vorgenommen. -- Timo Müller Diskussion 14:10, 5. Jun 2006 (UTC)
Aus diesem Grund halte ich einen Identifier auch Werksbezogen für sinnvoll. Wenn ein PI auf ein Werk verweist, kann es sogar abgefangen werden wenn Wikisource nicht mehr exitiert und ein neues Projekt mit den gleichen Inhalten gestartet würde. Ein Originalscan, der nicht mehr angezeigt wird ist zwar ärgerlich aber davon wird der Inhalt auf Wikisource nicht weniger wert auch nicht aus wissenschaftlicher Sicht. In Wikisource gilt das eingebunde ja nur als Beleg und über die Verweise kann man bei jedem Bild checken, ob sich was geändert hat und wann der letzte Bearbeitungsstand ist. Natürlich könnte man überlegen, ob eine Funktion sinnvoll ist, die in die Bildbeschreibung auf der jeweiligen Seite automatisch das letzte Bearbeitungsdatum des Bildes einblenden kann. --PatrickD 14:48, 5. Jun 2006 (UTC)

Zitierempfehlung[Bearbeiten]

Um eine Zitierempfehlung ans Ende jeder fertig bearbeiteten Seite setzen zu können, wäre eine Systemvariable wie {{REVISIONID}}, die auf eine bestimmte Version (Permalink) verweist, hilfreich (vgl. http://de.wikipedia.org/wiki/Wikipedia:Variablen). Weiß jemand, ob diese Systemvariable in Wikisource existiert? --Frank Schulenburg 23:26, 28. Mai 2006 (UTC)

Ist komisch geht tatsächlich nicht. Eigentlich sollte das genauso funktionieren. Hast du mal in der Wp probiert ob die Variable da funktioniert? --Finanzer 23:32, 28. Mai 2006 (UTC)

Nein, hier aber ein erster Vorschlag zur Zitierempfehlung:

Empfohlene Zitierweise:

Moritz Sachs (Hrsg.): Abdruck der zwischen dem […] Herrn Albrecht Hertzog zu Friedland […] Und der Stadt Rostock […] getroffenen Capitulation und Assecuration, in: Wikisource, URL: http://de.wikisource.org/w/index.php?title=Kapitulation_der_Stadt_Rostock_vor_Wallenstein&oldid=45227 (Version vom 27. Mai 2006, 21:55 Uhr)

Über Einwände und Verbesserungsvorschläge freut sich --Frank Schulenburg 23:40, 28. Mai 2006 (UTC)

Schaut gut aus, aber die Fachleute werden sicherlich wieder dran rummäkeln ;-) --Finanzer 23:42, 28. Mai 2006 (UTC)
Technische Voraussetzung ist dann, daß die hervorgehobenen Daten

URL: http://de.wikisource.org/w/index.php?title=Kapitulation_der_Stadt_Rostock_vor_Wallenstein&oldid=45227 (Version Nr. 4522 vom 27. Mai 2006, 21:55 Uhr)

dann tatsächlich dynamisch (wohl über Systemvariablen) erzeugt werden können. --Frank Schulenburg 23:45, 28. Mai 2006 (UTC)

Wie ich gerade sehe ist bei Wikisource die Spezialseite Spezial:Cite nicth aktiv. Werde da mal einen Bugzilla-Eintrag erstellen. Das könnte einiges erleichtern. --Finanzer 23:46, 28. Mai 2006 (UTC)

Ich fände es tatsächlich besser, wenn die Zitierempfehlung in die einzelnen Seiten eingebunden würde. In der WP ist die von Dir genannte Spezialseite leider kaum nutzbar und taugt meiner Ansicht nach schon allein deshalb wenig als Vorbild. Zudem wäre der Link im Menü kaum zu finden und ein standardisiertes Verfahren wenig flexibel. --Frank Schulenburg 23:51, 28. Mai 2006 (UTC)
Ok, dann brauchen wir das also eher nicht. Außerdem sehe ich gerade das folgende Extension installiert ist OAIRepository jemand ne Ahnung wozu das gut ist und wie das fuinktioniert, konnte auf die schnelle nix finden. --Finanzer 23:53, 28. Mai 2006 (UTC)
Mathias wies mich vor einigen Tagen schon darauf hin. Ob das für unsere OAI-Pläne nützlich ist, habe ich bislang aber nicht herausfinden können. --Frank Schulenburg 23:55, 28. Mai 2006 (UTC)


Alsooo *zu Wort meld* Erstmal gibt es jetzt bug 6223 (wer also mag, darf … *g*).
Diese Spezialseite lässt sich über MediaWiki-Nachrichten sehr gut und ganz nach Euren Bedürfnissen anpassen (auf die WP-Version habe ich Frank bereits zwecks Verbesserungsvorschlägen angesprochen). Standardisiert einbinden ließe sie sich z.B. über {{Spezial:Cite/{{FULLPAGENAME}}}} (einfach mal in der Wikipedia ausprobieren, lässt sich je nach Bedarf beliebig platzieren und mit anderem Linktext versehen).
Um zu einer geeigneten/angepassten Zitierhilfe/-empfehlung zu kommen, dürfte es nun empfehlenswert sein, sich eine möglichst komplex aufgebaute Seite als Beispiel vorzuknöpfen (mit Namensraum, Anlage evtl. als Unterseite, mit Sonderzeichen im Titel usw.), um dann konkret herauszufinden, wo es evtl. hakt.
Bzgl. OAIRepository werd' ich Brion mal fragen, bitte ggf. im IRC nachfragen (hier schau ich seltener rein).
Soweit auf die Schnelle und Grüße in die muntere Runde --:Bdk: 20:05, 6. Jun 2006 (UTC)
Das sieht schon alles prima aus. Nur die Systemvariable {{REVISIONID}} gibt keinen Wert aus (siehe [2]). Beste Grüße und vielen Dank. --Frank Schulenburg 23:04, 6. Jun 2006 (UTC)
Yap *g*. Liegt offenbar am Nicht-Vorhandensein von Cite. --:Bdk: 23:48, 6. Jun 2006 (UTC)

Mittlerweile geht es: 1998508 -- Timo Müller Diskussion 20:13, 23. Jun 2006 (UTC) Leider nicht im ARtikelnamensraum. :-( Könnte man als Bug melden. Nur, ob das was bringt? --- Timo Müller Diskussion 20:19, 23. Jun 2006 (UTC)

Danke für den Hinweis, den ich eben auch in Bugzilla gepostet habe. --Frank Schulenburg 06:43, 24. Jun 2006 (UTC)
Welche Nummer hat der Bug? -- Timo Müller Diskussion 11:10, 24. Jun 2006 (UTC)
Das ist Bug #6299. --Frank Schulenburg 11:41, 24. Jun 2006 (UTC)

Richtlinien der Beschreibung[Bearbeiten]

Über die Box „Textdaten“ werden bereits Kurzbeschreibungen der Digitalisate auf jeder Eingangsseite eingebunden. Hier stellt sich uns meiner Ansicht nach die Aufgabe einer Überprüfung, ob die momentan bestehende Form der Beschreibung ausreicht, oder ob wir eigene Richtlinien zu Katalogisierung entwickeln sollten (etwa analog zu: DFG-Richtlinien zur Handschriftenkatalogisierung, hier: Neuzeitliche Buchhandschriften). --Frank Schulenburg 13:07, 25. Mai 2006 (UTC)

PDF-Versionen[Bearbeiten]

Wie bereits von Finanzer an verschiedener Stelle vorbildlich praktiziert, böte sich vielleicht ein generelles Angebot von PDF-Versionen parallel zu unserer momentanen Bereitstellung der Texte im HTML-Format an. In diesem Zusammenhang wäre es sicherlich sinnvoll, sich einmal grundlegend auf Richtlinien für die Erstellung solcher PDF-Dokumente zu einigen. Eine dieser Fragen könnte etwa sein: Sollen bei Projekten wie dem Rechenbuchprojekt mehrere Versionen (einmal die reinen Scans in einer Datei und einmal der reine Volltext) bereitgestellt werden? --Frank Schulenburg 13:07, 25. Mai 2006 (UTC)

Ich habe unter Wikisource:Download mal eine Seite angelegt, wo die bereits verfügbaren Downloads gesammelt werden. Heute abend werde ich mich wahrscheinlich daran setzen, den ersten Gedichtband als PDF zu kreieren (die 103 Gedichte von Joachim Ringelnatz sind offensichtlich vollständig) und dort beizufügen. Falls es eine solche Seite bereits gibt und ich nur mal wieder zu blöd bin, selbige zu finden, gebt bitte Bescheid. Gruß -- 212.202.251.162 08:26, 31. Mai 2006 (UTC)

DjVu-Format[Bearbeiten]

Hallo,

um in Zukunft das in digitalen Bibliotheken bereits auf breiter Linie etablierte Dateiformat DjVu (sprich: déjà-vu) auch für Wikisource nutzen zu können, ist eine Aufnahme der .djvu-Dateiendung in die offizielle Liste der akzeptierten Dateiformate für Mediawiki-Projekte notwendig. Deshalb habe ich soeben eine Anfrage bei den Mediawiki-Entwicklern gestartet:

http://bugzilla.wikimedia.org/show_bug.cgi?id=6131

Über Unterstützung würde ich mich freuen. --Frank Schulenburg 19:11, 29. Mai 2006 (UTC)

PS. Zum Ausprobieren: Rechenbuch komplett im DjVu-Format (besonders attraktiv ist die Doppelseiten-Ansicht) und der dazugehörige Viewer (kostenfrei als Browser-Plugin) hier: http://www.lizardtech.com/download/dl_options.php?page=plugins.

Ja, schön. DjVu ist durchaus bekannt. Leider kann dies Format nicht die PDF-Bookmarks, glaube ich.--Keichwa 19:49, 29. Mai 2006 (UTC)

Literatur[Bearbeiten]