Details zur Veranstaltung

Mittwoch, 04. Oktober 2023

14:00 - 17:00 Uhr

Hermann Escher-Saal, Zentralbibliothek Zürich

Aus der Reihe «Praxisatelier Digital Humanities»

Mit Phillip Ströbel, Institut für Computerlinguistik, Universität Zürich

Die fortschreitende Digitalisierung umfangreicher Textarchive bringt neue Herausforderungen mit sich. Die automatische Texterkennung für historische Drucke und Handschriften ist nämlich mit einigen Schwierigkeiten konfrontiert, z. B. Frakturschrift, Verunreinigungen auf den Seiten, durchscheinendem Text und unterschiedlich großen Schriftarten bei Zeitungen und eine enorme Vielfalt an verschiedenen Händen in Manuskripten. Frühere automatische Texterkennungsverfahren (ATR: Automatic Text Recognition) erzeugten hier oft unverständliche und entstellte Texte. Bei solchen Materialien ist eine effektive Textsuche kaum möglich und bedeutende Dokumente oder Artikel oft nicht auffindbar.
Neuere ATR-Systeme, die auf neuronalen Netzwerken basieren, bieten dagegen eine Lösung. Sie können Buchstaben auf den Seiten zuverlässig erkennen.

In diesem Workshop werden wir zuerst kurz die theoretischen Grundlagen vorstellen. Danach werden wir im praktischen Teil anhand verschiedener Tools demonstrieren, wie man Trainingsmaterial erstellt und ein individuelles Modell trainiert. Dazu verwenden wir unter anderem Transkribus Lite.

Anmeldefenster: 1.9. - 24.9.2023

Die Teilnehmenden sind gebeten, im Voraus einen Transkribus Account zu erstellen und ihren eigenen Laptop mitzubringen. Sie haben die Möglichkeit, eigene Texte (digitalisierte, fotografierte Manuskripte und Drucke) mitzubringen.