Summer School: Digitale Aufbereitung historischer Quellen mittels ChatGPT
Dienstag, 02. September 2025 - Mittwoch, 03. September 2025
09:00 - 19:30 Uhr
Von der Quelle zum Datensatz
Diese interdisziplinäre Summer School richtet sich an Historiker*innen, die ihre Quellen mit grossen Sprachmodellen (LLMs) wie ChatGPT bearbeiten möchten. Bisher waren Textmining-Kenntnisse erforderlich, um serielle Quellen wie Karteikarten, Register, Listen, Kataloge oder Bibliografien in eine strukturierte Datenform zu übertragen. Heute können auch grosse Sprachmodelle solche Aufgaben übernehmen. Die Summer School vermittelt die dafür notwendigen Kompetenzen: Wie verfeinert man den Prompt so, dass das Modell die Texte und Zahlen möglichst präzise wiedergibt? Wie überträgt man den in der grafischen Oberfläche entwickelten Prompt in ein Python-Script, mit dem sich eine grössere Anzahl von Dokumenten verarbeiten lässt?
Der zweite Schwerpunkt liegt auf der kritischen Reflexion der digitalen Methodik. Die Ergebnisse der Transformation der Quellen zum Datensatz müssen im wissenschaftlichen Kontext überprüft werden. Welche etablierten Vorgehensweisen der Qualitätsmessung gibt es, und wie kann die Datenqualität anhand eines Goldstandards überprüft werden? Neben automatisierten Verfahren steht auch die manuelle Dateninspektion zur Verfügung. Hierfür hat sich OpenRefine als effizientes Tool etabliert, mit dem sich Ungereimtheiten schnell erkennen und bereinigen lassen. Zudem bietet OpenRefine die Möglichkeit, Personen- und Ortsnamen mit Referenzwerken wie WikiData, Geonames oder der GND abzugleichen.
Die Summer School besteht aus verschiedenen methodischen Inputs und praktischen Arbeitsphasen. Die Teilnehmenden können entweder mit dem Beispieldatensatz oder mit ihren eigenen Quellen arbeiten. Der Beispieldatensatz besteht aus einem Korpus so genannter «Nachtzedel» der Stadt Zürich (1780-1810). Ein Nachtschreiber zählte jeden Abend die Hotelgäste, schrieb dabei ihren Beruf und ihre Herkunft auf. In anderen Städten ist diese Quellengattung als «Fremdenlisten» bekannt. Solche Listen geben Einblick in die vielfältigen Beziehungen und transnationale Vernetzung der Stadt. Sie zeigen, welche Händler und Kunstschaffenden die Stadt besuchten und woher sie stammten.
Die öffentlichen Abendvorträge erweitern die Thematik durch Erfahrungen aus konkreten Forschungsprojekten und durch kritische Reflexion der automatisierten Quellenverarbeitung. Die Roundtable bietet Raum zur kontroversen Diskussion von Chancen und Risiken beim Einsatz von KI in der Geschichtswissenschaft.
Teilnahme (ausgebucht):
Die Summer School richtet sich an digital affine Historiker*innen und Geisteswissenschaftler*innen des Mittelbaus sowie an Masterstudierende in der Abschlussphase. Vorkenntnisse in Python oder Datenformaten wie JSON und CSV sind von Vorteil, aber nicht Voraussetzung. Es wird jedoch erwartet, dass die Teilnehmenden an beiden Tagen durchgehend anwesend sind. Die Summer School findet im Hermann-Escher-Saal der Zentralbibliothek Zürich statt.
Ein Online-Pre-Event am 18. August bietet eine Einführung in die Funktionsweise von Sprachmodellen.
Die Teilnahme selbst ist kostenlos. Anreise und Unterkunft sind von den Teilnehmenden selbst zu organisieren und tragen.
Die Anmeldefrist ist am 30. Juli abgelaufen. Die Summer School ist ausgebucht.
Programm:
Pre-Event: Montag, 18.8., 13:30 - 17:00, online
Einführung in die Funktionsweise von Sprachmodellen
Zeit | Dienstag, 2. September 2025 Hermann-Escher-Saal, ZB Zürich | Mittwoch, 3. September 2025 Hermann-Escher-Saal, ZB Zürich |
9:00 | Begrüssung Einführung in die Thematik, Elias Kreyenbühl Entwicklung eines geeigneten Prompts für die vorliegende Quelle, Sarah Kiener | Evaluationsverfahren zur Qualitätsmessung: Vorstellung von Metriken. Auswertungen mit Goldstandard. Ausführen der Skripts. Interpretation der Ergebnisse, Sarah Kiener Visualisierungen der Daten |
10:45 | Aktive Arbeitsphase | Manuelle Dateninspektion. Einführung in OpenRefine, |
13:00 | Einführung in die Arbeit mit der ChatGPT API: Zwischendurch Pause mit Projektslam: alle Teilnehmenden | Datenbereinigung, Clustering und Reconciling mit OpenRefine Open Science: Open Research Data, Datenbeschreibung, Lizenzierung, Reproduzierbarkeit |
18:15 | Öffentlicher Abendvortrag: | Öffentlicher Inputvortrag: Mit anschliessender Podiumsdiskussion mit Christiane Sibille, Sacha Zala und Tobias Hodel. |