Bei den drei grossen Schweizer Portalen für gedruckte Dokumente – e-rara.ch, e-periodica.ch und e-newspaperarchives.ch - wurden die Texte bereits mit dem OCR-Texterkennungsverfahren erschlossen. Es wurden grosse Mengen an Scans verarbeitet und durchsuchbar gemacht. So ist es nun möglich, nach Wörtern zu suchen, die innerhalb eines Artikels oder Buches vorkommen und diese Textstellen direkt anzusteuern.

Herausforderung Handschrift

Im gleichen Stil möchten wir die handschriftlichen Dokumente besser zugänglich machen. Da die Schriften aber viel unregelmässiger und für eine Maschine um einiges schwieriger zu erkennen sind, haben wir ein Transkriptionsprogramm eingerichtet, bei dem die Abschriften von Hand erstellt werden.

Indem an möglichst vielen Stellen gleichzeitig transkribiert wird, soll der Gesamtbestand an erschlossenen und durchsuchbaren Texten kontinuierlich wachsen. Jede interessierte Person kann sich beteiligen und ganz frei aus allen aufgeschalteten Dokumenten eine Seite auswählen und diese transkribieren.

Editor

Nebst einer reinen Textabschrift können auch Anmerkungen und Erläuterungen zu Personen, Orten oder inhaltlichen Aspekten hinzugefügt werden. Solche Zusätze lassen sich bis jetzt noch nicht zuverlässig von der Maschine erstellen. Allerdings werden mit künstlicher Intelligenz schon erstaunliche Resultate erzielt – da gelingt durchaus die Identifikation einer genannten Person mittels Analyse der umstehenden Texte.

Die Maschine holt auch bei Handschriften auf

In der Zwischenzeit hat sich auch die maschinelle Verarbeitung von handschriftlichen Dokumenten weiterentwickelt und es können immer mehr Schriften erkannt werden. Da eröffnet sich eine neue Möglichkeit, eine grosse Zahl von Seiten zu bearbeiten, wie es von Hand nicht denkbar wäre.

So wollen wir nun mit der maschinellen Verarbeitung im Programm der HTR-Anwendung Transkribus starten. Mit einem Beispieltitel wurde hier im ersten Durchgang das Layout erfasst und jede Zeile mit blauer Farbe markiert. Diese Koordinatengebung erlaubt es später, Suchtreffer per Highlighting auf dem Bild zu markieren, wie es durchaus üblich ist bei OCR-Dateien, wie beispielsweise in e-rara.

Training mit spezifischer Handschrift

In weiteren Durchgängen werden vorhandene Schrift-Modelle angewendet, um möglichst viel Text zu erkennen. Wenn die Modelle nicht gut passen, sollten zuerst von einer Handschrift möglichst viele Seiten manuell transkribiert werden. Etwa 100 Seiten werden empfohlen. Diese Trainingsdaten können verwendet werden, um weitere Seiten der gleichen Handschrift maschinell zu bearbeiten.

Bei e-manuscripta haben wir das Problem, dass wir von ganz vielen verschiedenen Handschriften jeweils nur eine überschaubare Menge an Text haben. Vielleicht etwa 10’000 Seiten pro Handschrift als äusserstes Maximum – bei total 862'593 auf der Plattform vorhandenen Seiten. Das bedeutet, wenn wir Transkribus anwenden möchten, sind wir eher auf die bereits vorhandenen Modelle angewiesen. Und können dann bei besonders prominenten Schreiberhänden eine gewisse Vertiefung erarbeiten. Wenn beispielsweise eine umfangreiche Edition vorliegt, bietet sich eine gute Ausgangslage für die Bearbeitung eines solchen Bestandes.


Leiterin Geschäftsstelle e-manuscripta.ch