Diskussion:Meyers Blitz-Lexikon

aus Wikisource, der freien Quellensammlung

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

[Bearbeiten] Vorformatierung

Für eine Seite habe ich ca. 1.5 Stunden benötigt (ohne Bilder). Vielleicht könnte man die Prozedur etwas beschleunigen, wenn man automatisch Zeichenfolgen der Form

blabla. - Dingsda, ein

umwandelt in

blabla.

'''Dingsda''', ein 

Trotzdem bin ich nicht sehr optimistisch, dass das Projekt in absehbarer Zeit fertig wird. Da müssten sich schon mindestens 10 Leute für einige Monate regelmäßig mit beschäftigen.--Casimir 20:44, 4. Okt 2005 (UTC)

Ich habe jetzt ein Perl-Script geschrieben, das die Seiten vorformatiert, um ein wenig Tipperei zu sparen. Als Beispiel habe ich Meyers Blitz-Lexikon/0036 umgewandelt. Die Seite muss noch manuell korrigiert werden.--Casimir 14:01, 10. Okt 2005 (UTC)

Kannst du es bitte ins '''Dingsda,''' ein verändern? --LA2 22:18, 10. Okt 2005 (UTC)

[Bearbeiten] OCR-Programm

Ich habe einige Fragen zum OCR-Programm:--Casimir 11:41, 5. Okt 2005 (UTC)

  • Wie heißt das Programm?
  • Kann es Fett- und Kursivschrift von normaler Schrift unterscheiden?
  • Buchstaben mit Akzenten und ç werden nicht richtig erkannt. Kann man Französisch als zusätzliche Sprache einstellen, ohne dass sich die Erkennung der deutschen Wörter wesentlich verschlechtert?
  • Da das Programm offenbar erkennt, wo sich Text befindet, muss es doch irgendwie die ganze Seite segmentieren können. Kann es die Bilder automatisch erkennen und ausschneiden (und speichern)?
I'm using ABBYY FineReader 6.0. It does recognize boldface/italics but with a high degree of error, and the available output formats (DOC, RTF, HTML) contain a lot more garbage (such as font sizes, column positions, etc.) that would need to be processed away. This is why I use TXT output. The French ç could be added to the recognition set. I should have done that. The automatic page segmentation produces many errors on these tight two-column pages and I have to manually go through every page and correct the text columns. This takes a lot of time, and doing it for the images too would double the time, and FineReader is not a good tool for separating images. However, if you want to try this, nothing stops you from downloading the 300 dpi images from Commons and getting your own copy of FineReader (currently version 8) for circa 150 euro. We could separate the work between us, so that I scan and you do the OCR. --LA2 15:17, 5. Okt 2005 (UTC)
I don't buy software unless it is really inevitable :-). But I plan to write a program that automatically detects the positions of the images and drawings and extracts them, provided they are rectangular. And if that succeeds, maybe I'll try to write my own OCR function. That may sound a bit foolhardy, but I don't intend to write a general OCR program that can recognize words written in many different fonts (Blitz: only one font +bold +italic) and font sizes (Blitz: only one font size) at arbitrary positions (Blitz: equally spaced lines in two columns). And I don't mind if it takes an hour or so to analyse a single page.
The possiblity to reliably discern normal/bold/italic letters is not the only motivation to write a new OCR program. As I have a lot of floaters in my eyes, proofreading is very tedious for me. It would be best to have the original and recognized texts in one place to avoid large jumps (even for normal eyes). The program could overlay both texts and show black where they coincide and e.g. green where the original image is black and the recognized text is not, and red vice versa. Spaces could be signalled as tiny blue symbols. To correct a letter, one clicks on it and presses the correct letter on the keyboard. Obviously this kind of proofreading is only possible if it is embedded in the OCR program. Do you know of an OCR program that has this functionality or is this a new idea?--Casimir 21:39, 5. Okt 2005 (UTC)
I recommend you take a look at Gamera, a Python software library for OCR developers. --LA2 19:37, 6. Okt 2005 (UTC)
I'll test that. I've already started to write the program. You can monitor the progress on my user page.--Casimir 23:02, 9. Okt 2005 (UTC)

[Bearbeiten] Herunterladen der Bilder

Zum Herunterladen der Bilder kann man folgendes Script benutzen:

#!/usr/bin/perl

no utf8; use bytes;
use Digest::MD5 qw(md5_hex);

for($i=1; $i<=443; $i++) {
  $bild = sprintf "LA2-Blitz-%04d.jpg", $i;
  $md5    = md5_hex($bild);
  $md5_1  = substr($md5, 0, 1);
  $md5_12 = substr($md5, 0, 2);
  $url = "http://upload.wikimedia.org/wikipedia/commons/$md5_1/$md5_12/$bild";
  system "wget $url";
  sleep 2;
}

Die Bilder sind insgesamt 676 MB groß, und der Download dauert mit DSL ca. 2 Stunden.--Casimir 16:03, 6. Okt 2005 (UTC)

[Bearbeiten] Mein Resümee

Ich habe bisher eine Seite bearbeitet und meine das das nichts bringt. Die Scans kann man gut lesen, eine Konvertierung in Text braucht es da imho nicht. Was mir sehr gut gefällt sind einige Bilder. Manche lassen sich direkt verwenden, z.B. die Autos oder die ägyptische Kunst, bei anderen müsste man wohl eine Bearbeitung vorschalten. So habe ich schon mal ein Bild in w:Europa (Schiff) eingebaut. Bei manchem Bild wäre vielleicht auch ein neuer Scan hilfreich. --80.135.62.50 12:48, 9. Okt 2005 (UTC)

Bei Europa hättest du besser (1) das 300 dpi hoch aufgelöste Originalbild verwendet und (2) das neue Bild auf Wikimedia Commons (statt de.wikipedia) hochgeladet so dass es einfach für mehrere Sprachen verwendet werden kann. Das Korrekturlesen ist noch nötig um eine besser Suchbarkeit zu erreichen. --LA2 19:31, 9. Okt 2005 (UTC)
Wo bekommt man denn das Orginalbild her? Interessiert mich, da ich weitere Bilder übernehmen will. Für das Schiff-Bild habe ich ein w:Screenshot mit dem Programm SnagIt gemacht und dieses anschließend leicht bearbeitet. Das Ergebniss erscheint mir doch recht gut zu sein. --80.135.45.222 01:19, 10. Okt 2005 (UTC)
Zweimal auf dem Bild klicken. Nicht doppelklicken, sondern erst einmal um die Bildseite zu sehen und dann noch einmal um das hoch aufgelöste Originalbild zu sehen. Oder das Script hier oben brauchen um sämtliche Bilder in Originalauflösung herunterzuladen. --LA2 01:32, 10. Okt 2005 (UTC)
Das ging ja schnell mit der Antwort. Ich habe jetzt das große 2285 kB Bild genommen. Mir scheint allerdings, dass man dieses Bild unbearbeitet auf keinen Fall nehmen darf. Zum einen ist es ein Farbbild, also habe ich erst mal ein schwarz-weiß Bild draus gemacht und anschließend einen Median-Filter drüberlaufen lassen, da das Bild bei unterschiedlichen zoom-Stufen heftige Grafik-Fehler produziert hat. Liegt wohl an der Darstellung, als Punkt-Bild. Anschließend sieht es recht gut aus. Auch das w:Bild:Maori.jpg ist nun besser geworden. --80.135.45.222 01:52, 10. Okt 2005 (UTC)
Bei w:Projekt Runeberg habe ich seit 1998 schwarzweisse (also ohne Graustufen, nur schwarz und weiss, "bitonal", Dateiformat TIFF G4) Bilder gescannt, z.B. [1], weil diese weniger Platz nehmen, sich besser für OCR eignen und schneller laden. Illustrationen sind dort ganz so gut und schlecht wie mit einem Xerox Kopiegerät oder Fax. Wikimedia Commons kann aber TIFF G4 nicht hantieren, nur PNG, GIF und JPEG. Also habe ich vorgetragen JPEG Farbbilder einzuscannen, weil dies auch einige Vorteile bei Illustrationen (graue oder färbige) bringt, z.B. die wunderschöne Planschen Keramik und Pilze, aber auch gewöhnliche Photos wie beim Dampfschiff Europa. Um die gelbe Papierfarb zu entfernen solle man eigentlich eine auf Histogram basierte Farbkorrektion vornehmen. Das habe ich nicht getan, weil ich dafür kein gutes (Batch-)Programm habe. Stattdessen habe ich nur die Kontrasteinstellung bei Einscannen auf Stufe 7 von 8 gesetzt und die Resultate habe ich "gut genug" gefunden. Die färbigen Planschen sind auf bessserem, weisserem Papier als die Textseiten gedruckt; die Karten aber auf mehr durch Alter gelbgefärbtem Papier. Meiner Meinung nach ist dies ein Wiki und jeder kann die Bilder herunterladen, sie in Photoshop oder auf andere Weise verbessern, und dann wieder hochladen. --LA2 03:21, 10. Okt 2005 (UTC)

Ich denke, man gut mit den Scans arbeiten. Noch eine Frage. Wäre es sinnvoll irgendwo zu vermerken, welche Bilder in die Wikipedia übertragen wurden? --80.135.36.187 03:34, 11. Okt 2005 (UTC)

[Bearbeiten] Bilder

Wäre es nicht besser, wenn man die Bilder mit an den Ort, wo ihre "Übersetzung" steht gleich mit einbindet? Ich meine: Ein Bild, zum Beispiel einer Person, aus der Originalseiten-Bild(die eingescannte Seite) ausschneidet und an entsprechender Stelle mit einfügt am rechten Rand. Die Originalseite bleibt aber bestehen! -- Joschy 15:58, 20. Dez 2005 (UTC)

[Bearbeiten] Is "Meyers Blitz-Lexikon" in the Public Domain?

Kindly, as I do not speak German, Is the Meyers Blitz-Lexikon in the public domain? I would like to use some of the pictures and diagrams on other wikipedia pages. --

Hi stranger! Yes it is, just because it is old enough. -- Dr. Schorsch 15:52, 19. Jan 2006 (UTC)

[Bearbeiten] old enough

Mich würde die genaue Rechtefrage interessieren. Wo bekomme ich Informationen? Was sagt in einem solchen fall der Verlag Meyers (jetzt Brockhaus) dazu? Wird der überhaupt vorher gefragt?--85.25.112.24 15:02, 11. Feb 2006 (UTC)

Problematisch sind die Illustrationen, siehe den Wikipedia-Artikel Anonymes Werk --FrobenChristoph 21:44, 21. Feb 2006 (UTC)

[Bearbeiten] Was ist denn hier passiert ???

Was ist denn hier passiert ??? Wieso sehe ich plötzlich auf jeder Seite vor dem normalen Text den Inhalt von "Meyers Blitz-Lexikon/0097" ? Sogar in den alten Versionen steht es drin. Irgendjemandem ist da wohl ein Mißgeschick passiert. Kann das jemand reparieren? Gruß Tungesdorp

Jemand hat offensichtl. versehentlich Text direkt in die Vorlage:LA2-Blitz eingegeben. Das Problem sollte jetzt behoben sein. --Jofi 22:18, 21. Feb 2006 (UTC)
Persönliche Werkzeuge