Font Group Recognition for Improved OCR

Third party funded individual grant


Start date : 01.08.2021

End date : 01.08.2023


Project details

Scientific Abstract

OCR-D steht mit seiner Aufgabe OCR für die massenhaft digitalisierten deutschen Drucke des 16. bis 18. Jahrhunderts zu ermöglichen – trotz großer Fortschritte in der letzten Projektphase – immer noch vor zwei zentralen Problemen: Die große Vielfalt dieses Materials macht es äußerst schwer generische OCR-Modelle zu trainieren, die für alle Drucke gleichermaßen zufriedenstellende Ergebnisse liefern. Eine händische Auswahl spezialisierter Modelle verbietet sich aber, da in Anbetracht der Menge des Materials der Workflow von OCR-D i.d.R. vollautomatisch ablaufen muss. Verschärft wird diese Situation durch eine durchwegs unbefriedigende Versorgung mit OCR-Trainingsdaten, die bisher weit überwiegend aus Frakturtexten, v.a. des 19. Jahrhunderts bestehen, was die typographische Bandbreite der drei vorangegangenen Jahrhunderte nicht im Ansatz abdeckt.Vor diesem Hintergrund und in Antwort auf Bedarfsmeldungen der SLUB Dresden sowie der ULB Halle schlagen wir vor diesen Zustand wenn nicht gänzlich zu lösen, so doch deutlich zu verbessern indem wir 1) unsere in der letzten Runde erfolgreich entwickelte Schriftarterkennung weiterentwickeln und so feingranular einsetzbar machen, dass sie auf Zeichenebene eingesetzt werden kann;2) repräsentativ ausgewählte OCR-Trainingsdaten für das 16.–18. Jahrhundert transkribieren, die auch Schriften wie Schwabacher und andere Bastarden sowie alte Frakturstile besser abbilden;3) schriftspezifische OCR-Modelle, sowie integrierte Modelle erstellen, die gleichzeitig Schrift und Text erkennen; ein Ansatz der auch schon in anderen Kontexten dafür gesorgt hat, dass die jeweiligen Einzelaufgaben höhere Genauigkeiten erlangten, da so mögliches Overfitting während des Trainings vermindert werden kann. Ergebnis des Projekts wäre eine deutlich verbesserte OCR-Qualität insbesondere für Drucke in Nicht-Frakturschriften, ein qualitativ hochwertiger und für diesen Kontext hochrelevanter Trainigsdatensatz, der langfristig nachnutzbar ist, sowie eine feingranularere Schriftarterkennung, die jenseits der Ermöglichung von schriftartspezifischer OCR auch wichtige Anwendungsgebiete in der Erkennung von Textattributen und der Layoutanalyse hat.

Involved:

Contributing FAU Organisations:

Funding Source

Research Areas