Neue Software Historische Texte werden für alle lesbar

Würzburg · Wissenschaftler der Julius-Maximilians-Universität in Würzburg (JMU) haben eine Texterkennungssoftware zum Lesen sehr alter Texte entwickelt. Wie die Uni mitteilte, setzt das Programm historische Drucke, die eingescannt oder abfotografiert wurden, in einen von Nicht-Fachleuten und dem Computer lesbaren Text um.

Die Fehlerquote liege dabei bei weniger als einem Prozent.

Zudem biete das Programm, genannt OCR4all, eine grafische Benutzeroberfläche, für deren Bedienung kein Informatik-Fachwissen nötig sei. Das neue elektronische Werkzeug ist unter der Leitung von Christan Reul, zusammen mit Informatik-Fachkollegen und Studenten konzipiert worden.

 Bei der Entwicklung haben die Informatiker außerdem eng mit geisteswissenschaftlichen Disziplinen der Universität Würzburg zusammengearbeitet, unter anderem mit der Germanistik und der Romanistik. Im gemeinsamen Projekt sei es darum gegangen, das „Narrenschiff“, eine Moralsatire von Sebastian Brant aus dem
­15. Jahrhundert, digital aufzubereiten. Laut Reul war eines der größten Probleme dabei, die Typographie. Das liege unter anderem daran, dass die ersten Druckereien des 15. Jahrhunderts keine einheitlichen Schriften verwendeten. „Ihre Druckstempel waren alle selbstgeschnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen.“ In alten Drucken seien e oder c, v oder r oft nicht einfach zu unterscheiden. Eine Software könne aber lernen, solche Feinheiten zu erkennen, so Reul.

Gemeinsam mit dem Zentrum für digitale Lexikographie der deutschen Sprache in Berlin sei mit dem neu entwickelten Werkzeug auch Daniel Sanders’ „Wörterbuch der deutschen Sprache“ digital erschlossen worden, erklärt die Universität Würzburg. Dieses Werk enthalte pro Textzeile oft verschiedene Schrifttypen, die für jeweils andere semantische Informationen stünden. Hier sei der bestehende Ansatz zur Zeichenerkennung so erweitert worden, dass sich neben dem Text auch die Typographie und damit die komplexe inhaltliche Struktur des Sprachlexikons sehr exakt abbilden ließen.

(kna)
Meistgelesen
Neueste Artikel
Zum Thema
Aus dem Ressort