Dem Zürcher Nachtschreiber mit KI auf der Spur
Johann Konrad Ulrich stellt seine Lampe auf den Tresen. «Ah, der Brix ist auch wieder da!» Nacht für Nacht dreht Ulrich seine Runde durch die neun Gaststätten der Stadt und rapportiert sämtliche Übernachtungsgäste an den Rat der Stadt Zürich. Bereits seit dem Dreissigjährigen Krieg gibt es in Zürich das Amt des Nachtschreibers, der allabendlich die Namen der Hotelgäste erfragt. Als Knopfmacher Johann Konrad Ulrich das Amt des Nachtschreibers 1780 übernahm, führte er eine technologische Neuerung ein. Auf eigene Initiative begann er, die bis dato handschriftlich erfassten Gästelisten auf einer Handpresse zu drucken. Rund 10'000 solcher Einblattdrucke wurden überliefert. Sie kamen aus den Beständen der Stadtbibliothek in die ZB und tragen noch heute die sprechende Signatur «Laubenkästenraritäten». Bis heute wurden die Blätter von elf Jahrgängen aus dem Zeitraum 1780 bis 1792 digitalisiert.
Liest man diese Nachtzedel, so fallen gewisse Personen auf, die Zürich regelmässig aufsuchten. Der eingangs erwähnte Glashändler Brix aus Böhmen zum Beispiel, der über Jahre hinweg immer wieder in der Stadt logierte. Man wird vielleicht auch auf ein paar wohlbekannte Namen wie Goethe oder Hölderlin stossen. Das Bild, das sich aus der Lektüre einzelner Zettel ergibt, wird aber beim Episodischen bleiben. Um sich ein umfassenderes Bild der damaligen Situation zu verschaffen und die grösseren Zusammenhänge, wie zum Beispiel welche Berufsgruppen die Stadt besonders oft aufsuchten und woher die Besucher kamen, zu erkennen, muss das gesamte Korpus ausgewertet und analysiert werden. Erst dann wird der Schatz an sozialen und ökonomischen Daten, den die Nachtzedel bergen, ersichtlich und erforschbar. Dieser Aufgabe widmete sich das ZB-Lab, das Innovationslabor der Zentralbibliothek.

In einem Experiment wollte das ZB-Lab herausfinden, ob grosse Sprachmodelle in der Lage sind, historische Dokumente wie die Nachtzedel zuverlässig zu transkribieren und die darin enthaltenen Informationen automatisch in vorgegebenen Kategorien, wie Name, Beruf und Herkunftsort zu klassifizieren. Das maschinell erstellte Resultat sollte eine Genauigkeit von 95% aufweisen.
«Die Nachtzedel weisen eine ganze Reihe von Herausforderungen auf, die mit herkömmlichen Methoden der Informationsextraktion schwierig zu bewältigen sind,» sagt die Computerlinguistin Sarah Kiener, die im ZB-Lab als Machine Learning Engineer arbeitet. Die Herausforderungen liegen insbesondere in der grossen Varianz, die die Listen aufweisen und die das Erkennen der Struktur und der Zuordnung in Tabellenspalten wie Name, Beruf, Herkunft und Gruppengrösse erschwert. Die Notation des Nachtschreibers folgt keinem stabilen Muster. Die Reihenfolge, in der die Informationen präsentiert werden, variiert je nach Lust und Laune. Ausserdem ist der Datensatz mehrsprachig. Viele Berufsbezeichnungen und Orte werden in Französisch oder Italienisch wiedergegeben. So finden wir «Mylan» für Mailand oder «Maître de danse». Zudem sind die Zuordnungen zu den Kategorien nicht immer eindeutig. Selbst für die Expert*innen vom ZB-Lab ist es nicht einfach zu entscheiden, wie sie mit «Doktor Frey aus Basel» umgehen sollen. Schreiben wir «Doktor» in die Spalte Anrede oder Beruf? Mit ihrem allgemeinen «Weltwissen» haben grosse Sprachmodelle das Potential, mit all diesen vielschichtigen Herausforderungen umgehen zu können und in der Vielfalt ein Muster zu erkennen.
Das Experiment des ZB-Labs zeigte, dass grosse Sprachmodelle tatsächlich viele der genannten Herausforderungen erfolgreich meistern. Die grosse Mehrheit der Informationen wird korrekt in das vorgegebene Tabellenschema eingefüllt. Trotzdem schlichen sich auch einige Fehler ein. So fiel es der KI nicht einfach, Reisegruppen mit mehreren Personen als zusammengehörig zu erkennen und in einem Tabelleneintrag zusammenzufassen. Auch die Mehrsprachigkeit der Daten verursachte gelegentlich Probleme. Obschon die grossen Sprachmodelle mit Mehrsprachigkeit umgehen können, treten hin und wieder phonetisch anmutende Fehlinterpretationen auf. So wurde «Gênes» nicht mit Genua, sondern mit Genf übersetzt. Ähnlich wurde der Kanton Schwyz als Schweiz interpretiert. «Hier muss man genau auf den Output des Modells schauen. Wir mussten viele solche Probleme erkennen und den Prompt immer wieder erweitern und anpassen», sagt Sarah Kiener vom ZB-Lab. Dennoch gelang es dem Modell nicht immer, sich konsequent an die definierten Regeln zu halten. Als besonders schwierig erwies sich der Umgang mit dem historischen langen S «ſ». Gerade in Doppel-S Konstellationen wich das Modell von den klaren Instruktionen ab. So wurde der Name «Caſſati» immer wieder als Caflati transkribiert, weil das lange s dem f und l sehr ähnlich sieht.
Für das Team des ZB-Lab war es ein langer Weg, bis es mit dem Output zufrieden war. Anhand eines manuell erstellten Goldstandards, eine Auswahl manuell transkribierter und damit fehlerfreier Nachtzedel, die als Referenzgrösse für die Qualitätsmessung dienen, hat das ZB-Lab immer wieder gemessen, wie gut die Resultate sind. Die Anweisungen im Prompt wurden unermüdlich optimiert. Schliesslich merzte das ZB-Lab eine Reihe von Fehlern mit einer regelbasierten Nachbearbeitung aus. Mit einer durchschnittlichen Zeichengenauigkeit von 97.33% wurde ein qualitativ hochwertiger Datensatz geschaffen, der sich für verschiedene historische Auswertungen eignet. «In Anbetracht der verschiedenen Schwierigkeiten, die die Nachtzedel bieten, ist dies ein sehr zufriedenstellendes Ergebnis. Damit haben wir unsere Zielvorgabe von einer Zeichengenauigkeit von 95% sogar übertroffen,» zieht Anja Weng, Leiterin des ZB-Lab, Bilanz.
Die erarbeitete Methode wollte das ZB-Lab mit anderen teilen, die ebenfalls historische Quellen mit grossen Sprachmodellen bearbeiten. Deshalb veranstaltete das Lab Anfang September eine zwei-tägige Summer School zum Thema Datenextraktion mit grossen Sprachmodellen. Nebst theoretischem Input gab es auch reichlich Gelegenheit, das Gelernte praktisch anzuwenden. Die Teilnehmer*innen durften auch ihre eigenen Datensets mitbringen und bearbeiten. Während der erste Tag der iterativen Promptentwicklung galt, konzentrierte sich der zweite Tag ausschliesslich auf die Qualitätsanalyse des erzeugten Outputs und die maschinelle wie auch manuelle Nachbereitung der Daten. «Der kritische Blick auf die Daten lag uns dabei sehr am Herzen,» betont Sarah Kiener. Die aufgezeichneten Lerneinheiten sind auf dem YouTube-Kanal der ZB zugänglich. Dort wird unter anderem die Funktionsweise von Sprachmodellen in einfach verständlicher Sprache erklärt.
Das Zurich AI Festival bot eine weitere Gelegenheit, der breiteren Öffentlichkeit die spezielle Geschichte der Nachtzedel vorzustellen. Am Stand des ZB-Labs konnten die Besucher*innen die aus den Nachtzedel extrahierten Daten auf zwei Monitoren und auf einer Stellwand explorieren. Ein Dashboard mit Statistiken und Visualisierungen gibt einen ersten Einblick in die einzigartige Datenquelle. So überliefern die Nachtzedel beispielsweise, welche Berufsgruppen wann und wie oft die Stadt aufsuchten oder wie viele Frauen alleine nach Zürich reisten. Eine historische Europakarte zeigt auf, woher die Besuchenden kamen und mit welchen Orten die Stadt Zürich besonders eng vernetzt war. Bemerkenswerterweise spannt sich dieses Netzwerk nicht nur über ganz Europa, sondern reicht sogar bis nach Russland, Arabien und Nordamerika.
Derzeit arbeitet das ZB-Lab an der Fertigstellung und Dokumentation der Daten. Der maschinell erstellte Datensatz sowie die angewandte Methode werden für die Nachnutzung im Sinne von Open Science genau beschrieben, so dass für Forschende exakt nachvollziehbar ist, wie der Datensatz zustande kam, was er beinhaltet und was nicht. Dazu wird in der Dokumentation erläutert, wie die Daten aufbereitet und welche Entscheidungen dabei getroffen wurden. Immer wieder war das ZB-Lab auf historisches Wissen und Kontextinformation angewiesen und wurde während der gesamten Projektphase von Rainer Walter aus der Handschriftenabteilung begleitet. «Wir hoffen, dass unser strukturierter Datensatz nun rege von der Forschung genutzt wird, um die damaligen sozialen und ökonomischen Gegebenheiten zu analysieren und Veränderungen über die Zeit nachzuverfolgen,» erhofft sich Anja Weng, Leiterin des ZB-Labs. So erlaubt es das digital aufbereitete und durchsuchbare Nachtzedel-Korpus nun, dem eingangs erwähnten Glashändler Brix aus Böhmen auf die Spur zu kommen. Der Dauergast übernachtete in der analysierten Periode von 1780 bis 1792 jeweils über 200-mal pro Jahr in Zürich. Weshalb verbrachte der Glashändler aus dem fernen Böhmen den grössten Teil des Jahres in der Stadt Zürich? Hatte er hier eine Filiale für böhmisches Glas? Oder hatte er eine Geliebte in der Stadt? Oder beides? Und warum verliess er jeweils ausgerechnet im Juni und September die Stadt, genau dann, wenn Hunderte von Krämern nach Zürich strömten? Solche und viele weitere Zusammenhänge werden durch die digitale Aufbereitung und Analyse der Nachtzedel nun ersichtlich und warten darauf, erforscht zu werden.
Die Nachtzedel auf e-manuscripta: https://www.e-manuscripta.ch/search/quick?query=Nachtzedel
Die Nachtzedel Daten im Dashboard explorieren: https://ausstellungen.zb.uzh.ch/nachtzedel/
|
|
ZB-Lab |

