Sie sind hier : Homepage →  OCR für Fraktur Schrift

Juni 2010 - Deutsche Fraktur-Schrift ist sehr selten geworden.

Und die jungen Menschen unter 40 (wir schreiben Juni 2010) können die sowieso nicht mehr lesen. Da ist es um so erfreulicher, daß sich Schriftspezialisten zusammengetan haben, um die historischen Druckwerke in unser elektronisches Zeitalter zu übernehmen. Und das Ganze ist auch noch als Freeware erstellt, sodaß kleinere Museen und motivierte Webseitenbetreiber sich das überhaupt leisten können.
Ich will nicht verschweigen daß es den Finereader 19 mit deutschem Fraktur Modul gibt, doch ist der (mit etwas über 1.000.- Euro für mich) unerschwinglich teuer.

Darum erst einmal meine allererste Musterseite, mit der ich das probiert hatte.

Ich hatte viel zu lange gebraucht, um zu verstehen . . .

Erfolge bereits mit der Version 2.6 aus 2008 - es funktioniert.

Bereits vor einem Jahr bin ich auf "tesseract" für Linux gestoßen und hatte gehört, es gäbe ein Windos 32 "Compilat", das wäre aber als CLI (Command Line Interface) sehr komplex oder kompliziert.

Weiterhin gäbe es die ganzen Deutschen Frakturschrift Datensätze ebenfalls frei zur Verfügung. Etwas später las ich von einem Windows 32 GUI für diese OCR Engine, genannt freeocr (Version 2.6) und diese Version läuft ab WIN 2000.

Nach dem Installieren solle man einfach die deutschen Zeichensatz Dateien "da" (also zu den englischen Zeichnsätzen) mit rein kopieren und es ginge dann. Es ging natürlich nicht bzw. nie. Es fehlte immer noch das kleine i-Tüpfelchen beim Verständnis.

Wie es funktioniert - es stand in einem Forum

Also: der "Englische Schriftsatz" ist immer dabei und die Schriftdateien fangen mit eng.xxx an. Und von der Deutschen Variante gibt es derer 2, die "Deutsche" und die "Deutsche-Fraktur" !! Das alles wohnt auf unterster Windows Verzeichnis-Ebene in dem Schriftartenverzeichnis /windows/tesseract/

Man lade also nicht beide Sprachen runter, es sei denn, man braucht wirklich beide. Man lade nur die Fraktur-Variante und entpacke die in einem eigenem (Fraktur-) Verzeichnis, also nicht im Verzeichnis Deutsch. Dann benenne man die Dateien alle von "deu-f.xxxx" in "deu.xxx" um, sonst erkennt (laut Forumseintrag) das "freeocr" GUI diese Deutsche Schriftart nicht. (Mit tesseract auf CLI Ebene sollte es auch so gehen.)

Ich hatte nämlich immer wieder (nur) die beiden Deutschen Schriftarten in das Schriften-Vorratsverzeichnis einfach nur rein kopiert und es hatte nie funktioniert. "freeocr 2.6" konnte Fraktur Schrift so gut wie nicht erkennen, es sieht offensichtlich nur Schriften-Vorlagen mit den 3 Anfangsbuchstaben vor dem ersten Punkt !!!

Weiterhin ist jeweils beim Starten
- ganz rechts oben im Schriftauswahlfeld - immer "eng" eingestellt. Das muß man wirklich jedes Mal neu auf "deu" umstellen.
.

Jetzt hat es endlich funktioniert mit dem Umwandeln in "ascii" :

Jetzt hat es endlich funktioniert, es wäre so einfach gewesen. Doch mit 5 laufenden Regal-Metern Funkschau im Rücken war der Leidensdruck so erheblich gewachsen, daß ich mehrere Stunden gegoogelt hatte.

Sorgfältige Vorbereitung der Vorlagen gefragt :
Die beiden ersten Seiten aus 1936/37 hatte ich dann mit Corel Photo Paint 10 gescannt und von optischem Schmutz, dem grauen Hintergrund, bereinigt und alle Bilder ausgeschnitten und dann gelöscht. Man muß also seine Fraktur- Text-Vorlagen sorgfältig grafikfrei und fleckenfrei vorbereiten und etwas ins Weiß hochziehen.

Mit dem Photoshop geht das natürlich auch. Dieses OCR-GUI verarbeitet mehrere Grafikformate. Gescannt werden sollte mit (mindestens) 300dpi, mehr würde laut Entwickler "nichts bringen", also eher das System verlangsamen. Es ist toll, die Erkennungsrate dieser beiden (ersten Test-) Seiten war durchaus bei 97%.

Anmerkung: Die "freeOcr" Version 3.0 läßt sich unter Windows 2000 nicht mehr installieren, da ist (noch) ein Bug im Installer drinnen.
.

Startseite -- © 2001/2022 - Copyright by Dipl.-Ing. Gert Redlich / Germany - D-65191 Wiesbaden - Telefon-Nummer - Impressum