Benutzer Diskussion:JensKreher
Abschnitt hinzufügenAuf dieser Seite werden Abschnitte automatisch archiviert, die seit 1 Tagen mit dem Baustein {{Erledigt|~~~~}} versehen sind.
|
Zedler-OCR
[Bearbeiten]Hallo Jens, alles Gute noch im Neuen Jahr. Sag mal, wie erzeugst du die OCR der Zedler-Artikel? Ich selber tippe sie nämlich teilweise ab. --Arnd 🇺🇦 10:56, 3. Jan. 2023 (CET)
- Ich wünsche Dir auch ein gutes neues Jahr.
- Ich benutze hierfür Tesseract (Freeware) mit der frk-Bibliothek. Ich könnte hierfür auch eine kurze Einführung erstellen, würde aber erst Ende der Woche dazu kommen. JensKreher (Diskussion) 16:57, 3. Jan. 2023 (CET)
- Nutzt man das dann "lokal" auf seinem Rechner? Ich bin technisch versiert; also würde mir auch kurze Hilfe reichen. Übrigens gibt es für die auf Commons verfügbaren Inhalte auch https://ocr.wmcloud.org/ . Gruß, Arnd 🇺🇦 22:33, 5. Jan. 2023 (CET)
- Ja, die OCR läuft lokal. Ich nutze dafür Tesseract ( [1]); bei der Installation das "frk"-Modell auswählen, das wird standardmässig nicht mit installiert. Mit folgenden Einstellungen habe ich die besten Ergebnisse erhalten:
- Model: frk
- PSM: 3 (default)
- OEM: 1 (Neuronales Netz)
- Output format: txt
- Die Bilder teile ich vorher gleich in die Spalten auf, dass kann Tesseract zwar theoretisch auch, in der Praxis sind die Ergebnisse aber optimierungswürdig.
- Tesseract funktioniert auf Kommandozeilenebene, da ich aber kein Freund davon bin, nutze ich als grafische Oberfläche "Tesseract Xplore" ( [2] ). Da kann man bequem die oben genannten Einstellungen vornehmen, die Bilder auswählen, Tesseract starten etc.
- Bei den erhaltenen OCR müssen dann nur noch die Zeilenumbrüche entfernt und "ſ" durch "s" ersetzt werden. Ich nutze allgemein als Texteditor notepad++, wo ich ein Makro erstellt habe, dass die beiden Sachen mit einem Mausklick korrigiert.
- Die Ergebnisse von Tesseract hängen von der Qualität der Scans ab, aber sie sind meist (bei den späteren Bänden) gut bis sehr gut, und vergleichbar mit Abbyy. Nur ein paar Fehler macht Tesseract bei mir immer. Hebräische und griechische Wörter werden nicht erkannt (trotz ausgewähltem Modell), aus einem grossen "S" wird immer ein kleines, und bei "ck" kann alles rauskommen, nur nie "ck". Aber damit kann ich leben. Dafür geht Fraktur und Lateinisch gleichzeitig, was ich bei Abby nicht schaffe, da muss ich immer das Modell umstellen. JensKreher (Diskussion) 08:34, 8. Jan. 2023 (CET)
- Ja, die OCR läuft lokal. Ich nutze dafür Tesseract ( [1]); bei der Installation das "frk"-Modell auswählen, das wird standardmässig nicht mit installiert. Mit folgenden Einstellungen habe ich die besten Ergebnisse erhalten:
- Nutzt man das dann "lokal" auf seinem Rechner? Ich bin technisch versiert; also würde mir auch kurze Hilfe reichen. Übrigens gibt es für die auf Commons verfügbaren Inhalte auch https://ocr.wmcloud.org/ . Gruß, Arnd 🇺🇦 22:33, 5. Jan. 2023 (CET)
Guten Abend Jensk, danke für die Infos. Das klappt bei mir soweit auch wie beschrieben und ist viel besser als abtippen. Mein letztes Ergebnis ist Zedler:Zäunemannin. Grüße, --Arnd 🇺🇦 21:34, 13. Jan. 2023 (CET)
Hi Jens, du kannst gern die in Benutzer:Aschroet/Zedler genannten aber schon vorhandenen Artikel aus der Liste entfernen. Das würde mir helfen. Werde mal sehen, ob ich mit dem Rest etwas weiter voran komme. Gruß, --Arnd 🇺🇦 23:06, 15. Okt. 2023 (CEST)
Wikidata
[Bearbeiten]Hi Jens, die Frage ist, ob man in der Vorlage:Zedler automatisch den WP-Artikel des "main subject" des verbundenen WD-Item anzeigen sollte, wenn nichts angegeben ist in der Vorlage. Allerdings ist mir nicht klar, ob nicht der JAnDbot auf WD genau diesen Wert ausliest, um dann erst "main subject" zu füllen. Gruß, --Arnd 🇺🇦 21:08, 18. Okt. 2023 (CEST)
- Grundsätzlich finde ich die Idee gut, das würde langfristig Arbeit sparen, wenn Wikidata entsprechend gepflegt wird. Gibt es andere Vorlagen, wo das ähnlich gelöst wird? JensKreher (Diskussion) 22:15, 18. Okt. 2023 (CEST)
Hi Jens, ich habe mal etwas rumprobiert: Benutzer:Aschroet/1. Dafür habe ich erstmal als Test eine erweiterte Vorlage:ZedlerWD erstellt, bei der man über den letzten Parameter optional eine Q-ID mitgeben kann. Kannst es dir ja mal anschauen und Feedback geben. Gruß, --Arnd 🇺🇦 17:27, 25. Okt. 2023 (CEST)
- Hallo Arnd, Danke, ich habe sie mal getestet, gefällt mir. Auch, dass die Wikisource und Wikipedia-Links aus WikiData übernommen werden. Was mir aufgefallen ist, wenn in der Wikidata kein Wikipedia-Artikel hinterlegt ist, wird [[w:Sitelink nicht gefunden.|Artikel in der Wikipedia]] angezeigt. Vielleicht müsste man das prüfen und leer lassen, wenn da noch nichts hinterlegt ist.
Hab das gefixt. Die Frage ist dann noch, was eigentlich wünschenswert ist. Sollte man WP- und WS-Artikel als Möglichkeit weiter drinlassen und WD nur als Option. Was denkst du? --Arnd 🇺🇦 16:17, 30. Okt. 2023 (CET)
- Danke. Ich würde empfehlen, die WS- und WP-Artikel zunächst noch zuzulassen, sonst müssten alle 8000 existierenden Artikel sofort nach WikiData. Mittelfristig könnten sie meiner Meinung nach aber entfallen, sonst haben wir immer einen Misch aus beiden. JensKreher (Diskussion) 19:01, 30. Okt. 2023 (CET)
Hallo Jens, mir ist ein neuer Ansatz für Vorlage:ZedlerWD eingefallen. Statt eine komplett neue Vorlage zu entwickeln, rufe ich nun die Originalvorlage mit ggf. durch Wikidata ergänzte Werte auf. Damit kann man ZedlerWD im Prinzip genauso nutzen wie Vorlage:Zedler, allerdings wird die Angabe des 12. Parameters erwartet. Dieser wird verwendet wenn kein Artikel zu Wikipedia oder Wikisoure angegeben ist, um die Daten von Wikidata zu holen. Was meinst du dazu? Gruß, --Arnd 🇺🇦 22:40, 24. Mär. 2024 (CET)
Konnte es nicht lassen weiterzumachen. Da ja gewöhnlich die einzelnen Zedler-Artikel ja einen WD-Eintrag mit einer Main-Topic haben, kann man die QID ja darüber bestimmen. Deswegen in Zedler:Zäunemannin mal ein Test der Vorlage:ZedlerAuto, welche ohne expliziete Angabe von QID, WP- oder WS-Artikel diese Werte generiert. --Arnd 🇺🇦 00:41, 25. Mär. 2024 (CET)
Danke, ich habe es auch mal ausprobiert, bei mir kommt in den Wikisource und Wikipedia-Feldern "Die Kennung „“ ist dem System unbekannt. Bitte verwende eine gültige Objektkennung.|Die Kennung „“ ist dem System unbekannt. Bitte verwende eine gültige Objektkennung." angezeigt. Muss das irgendwo vorgegeben werden? JensKreher (Diskussion) 07:22, 8. Apr. 2024 (CEST)
- Das liegt an der Art und Weise wie die Infos von Wikisource nach Wikidata kommen. Aktuell läuft es so: Man legt per Vorlage:Zedler einen neuen Artikel in WS an. Der WD-Bot JAnDbot sucht ab und zu nach neuen Artikeln und legt für diese Wikidata-Items. Wenn in der Vorlage ein Parameter für Wikipedia gesetzt ist, so wird dieser auch als Main-Topic des WD-Items eingetragen. Erst dann kann man die Vorlage:ZedlerAuto verwenden. Alternativ könnte man natürlich auch händisch das WD-Item zum Zedler-Artikel anlegen und würde sich den Umweg über den Bot sparen. --Arnd 🇺🇦 21:43, 8. Apr. 2024 (CEST)
Korrekturen Zedler-Artikel
[Bearbeiten]Hallo, Jens, ich habe die zwei Artikel Zedler:Pole der Ecliptick und Zedler:Pole der Welt korrigiert. Schau bitte ob das so passt; einmal die WS-Anmerkung und ein mal die Vorlage Division. Gruß, --Peter-K (Diskussion) 17:34, 4. Jan. 2024 (CET)
- Passt für mich, vielen Dank. JensKreher (Diskussion) 17:36, 4. Jan. 2024 (CET)
Fragen zu Zedler
[Bearbeiten]Hallo Jens,
wie hälst du es mit offensichtlichen Fehlern in den Stichworten bei der Vorlage? Ich habe 2 gefunden:
- Zedler:Weib, eines Aichters Ehe-, hier müsste es „Weib, eines Aechters Ehe-“ heissen;
- Aarsen, , van Arßen; hier sind meines Erachtens ein Komma und ein Leerzeichen zu viel.
Hälst du dich strickt an die Stichworte oder korrigierst du diese Stillschweigend?
Dann noch eine Frage bezüglich griechischen bzw. hebräischen Textpassagen:
Wie bekommst du die in den Text? Ich habe im Artikel Zedler:Weib, Weibs-Bild, Weibs-Person viele Lücken, die ich mit der Vorlage:Anno markiert habe. Leider habe ich absolut kein Wissen über griechisch und hebräisch.
Gruß, Peter-K (Diskussion) 15:59, 16. Mär. 2024 (CET)
- Hallo Peter, ich nehme die tatsächlichen Bezeichnung in den Artikeln als Stichwort. Bei den Stichworten auf zedler-lexikon.de sind viele Fehler, die vermutlich auf eine fehlerhafte OCR zurückgehen. So wird z. B. in Band 4, Spalte 1454, aus "Brod-Rind-Pflaster" (Pflaster aus Brot-Rinde bzw. Brotkruste) ein "Brod-Kind-Pflaster" und bei griechischen und hebräischen Stichworten steht nur ein " * " (z. B. bei Μείωσις oder מאה ברכות)
- Ich kann auch weder griechisch noch hebräisch, und transkribiere die Zeichen genau so, wie sie da stehen.
- Bei griechischen Wörten kopiere ich die Zeichen aus der Wikipedia (https://de.wikipedia.org/wiki/Griechisches_Alphabet) bzw. wenn sie Akzente haben, dann aus der Sonderzeichenliste oben im Bearbeitungsfenster. Für die hebräischen Zeichen habe ich mir eine Liste mit Screenshots und den dazugehörigen Zeichen erstellt und kopiere ich dann in den Text. Deshalb habe ich teilweise Artikel über hebräische Buchstaben angelegt, wie Schin, der 21ste Buchstabe des hebräischen Alphabets, damit es leichter wird.
- Und auch für die Sonderzeichen bei den medizinischen Rezepten habe ich eine Liste angelegt:
- - Man nehme ℞
- - Unze ℥
- - Drachme Ʒ
- - Scrupel ℈
- - Pfund ℔
- Viele Grüße, Jens
- JensKreher (Diskussion) 16:52, 16. Mär. 2024 (CET)
Vielen Dank für die prompte Antwort; Peter-K (Diskussion) 17:19, 16. Mär. 2024 (CET)
Zedler-Quellen
[Bearbeiten]Hallo Jens, wäre es sinnvoll die unter Zedler-Artikel genannten Quellen z. B. auf einer Unterseite zentral zu sammeln? Man könnte dort direkt einen Link aufs Digitalisat hinterlegen.
Ich wusste übrigens gar nicht, dass Teile des Zedler komplett abgeschrieben wurden (hab das später so auch auf Wikipedia gefunden). So z. B. ein Teil des Artikels Zedler:Wolfsgarten ("Es wird ein runder Wolffsgarten..."), welcher aus der dort angegebenen Quelle stammt.[3] Schönen Abend, --Arnd 🇺🇦 22:57, 4. Okt. 2024 (CEST)
- Das ist eine gute Idee. Insbesondere, da einige Quellen, z.B. Wabst bei Ortsbeschreibungen, immer wieder vorkommen, wäre ein Link auf das Digitalisat bzw. auf eine evtl. vorhandene Autorenseite eine sinnvolle Erweiterung.
- Bei Vergleichen zwischen den Artikeln im Zedler und den Originalquellen ist mir auch schon aufgefallen, dass vor allem die kleinen Artikel oft 1:1 aus den angegebenen Quellen stammen. Ob der jeweilige Artikel vom gleichen Autor wie die angegebene Quelle ist, oder ob es eine Art Urheberrechtsverletzung war, ist aber schwer zu sagen. JensKreher (Diskussion) 23:17, 4. Okt. 2024 (CEST)
- Zu dem Thema Quellenverarbeitung im Zedler gibt es eine interessante Publikation: https://www-degruyter-com.wikipedialibrary.idm.oclc.org/document/doi/10.1515/9783110476958-007/html --Arnd 🇺🇦 08:57, 11. Okt. 2024 (CEST)
- Hab mal eine Mini-Liste begonnen: Zedler/Quellen. --Arnd 🇺🇦 21:55, 2. Nov. 2024 (CET)