Forschungsdaten aus dem Bibliothekskatalog

Der neue swisscollections-Datenexport ermöglicht die Bildung spezifischer Text- und Bildkorpora für die Wissenschaft.

1. Oktober 2024

Die fortschreitende Digitalisierung hat unsere alltäglichen Gewohnheiten und Erwartungen nachhaltig beeinflusst. Wir haben uns daran gewöhnt, dass nahezu alle Dienstleistungen und Produkte online verfügbar sind, was unsere Art zu konsumieren und zu interagieren grundlegend verändert hat. Dies gilt auch für die Wissenschaft, die zunehmend erwartet, ihre Forschungsobjekte als Daten beziehen zu können: Volltexte zu Publikationen, digitalisierte Sammlungen als Bilddateien, Transkriptionen zu Handschriften, audiovisuelle Medien aus Archiven und Nachlässen, Objekte als 3D-Modell. Unabdingbar für das Auffinden, Filtern und Dokumentieren des individuell benötigten Korpus sind dazu hochwertige Metadaten.

Seit seiner Gründung im November 2020 hat das ZB-Lab viel darüber nachgedacht, wie wir in der Zentralbibliothek Zürich den Zugriff auf unsere Daten verbessern bzw. wie wir sie überhaupt erst als Daten zur Verfügung stellen können. Wie können wir die Erstellung eines Korpus aus unseren digitalen Beständen ermöglichen, wenn eine Doktorandin zum Beispiel eine ganze Bildsammlung oder den Volltext aus vierhundert Romanen benötigt? Mit Hilfe von Interviews hat das ZB-Lab versucht, Anforderungen von Digital Humanities-Forschenden an Bibliotheksservices zu ermitteln. Dabei wurde deutlich, dass Forschende in der Lage sein wollen, ihr Datenkorpus gezielt einzugrenzen. So suchen sie z.B. nach japanischen Holzschnittdrucken in Farbe oder nach zwischen 1850 und 1930 veröffentlichten Romanen von in der Schweiz sozialisierten Autor:innen. Für die Identifikation und Eingrenzung der zu den differenzierten Suchkriterien passenden Bibliotheksbestände brauchen wir die hochwertigen Metadaten, die auf swisscovery durchsucht werden können. So ist die Idee entstanden, den Bibliothekskatalog als Datenexplorationsquelle zu nutzen, um gezielt Korpora zu erstellen.

Aus rechtlichen Gründen bleibt es trotz Fortschritten im Bereich Open Access schwierig, Massendownloads für zeitgenössische e-Medien anzubieten. Anders sieht es bei digitalisierten historischen Beständen aus, die unter einer freien Lizenz verfügbar sind. In einem Vorprojekt mit dem Arbeitstitel OneAPI (etwa «die eine Schnittstelle») hat das ZB-Lab sich 2022 intensiv mit der Frage auseinandergesetzt, wie die ZB diese historischen Bestände für Forschende als flexibel zusammenstellbare Bild- und Textkorpora inkl. hochwertiger Metadaten zur Verfügung stellen könnte. In Betracht gezogen wurde dabei sowohl eine Datenschnittstelle ohne Suchoberfläche als auch die Kombination mit einem bestehenden Discovery-Interface wie swisscovery. Im Lauf des OneAPI-Vorprojekts wurde klar, dass der geeignete Datenausschnitt für einen solchen Service die auf e-rara und e-manuscripta publizierten Digitalisate sind. Einerseits wegen ihrer freien Lizenz (Public Domain Mark), andererseits wegen der Schnittstellen für die nötige Datenaufbereitung, die diese Systeme zur Verfügung stellen.

Die Entwicklung eines Datenservices zur Zusammenstellung und zum Download von Bild- und Textkorpora ergibt nur im Verbund mehrerer Institutionen Sinn: Erstens, weil die Daten ohnehin bereits auf institutionsübergreifenden Plattformen publiziert sind. Zweitens, um Entwicklungsressourcen zu bündeln, und drittens, um die Daten- und Zielgruppenreichweite zu maximieren. So ist das ZB-Lab mit seiner Idee an den Verein swisscollections herangetreten, der den gleichnamigen Metakatalog für Sammlungen und Spezialbestände in Schweizer Bibliotheken und Archiven betreibt. Der Verein zeigte grosses Interesse, und so entstand eine Kooperation zwischen den swisscollections-Entwickler:innen der UB Basel und dem ZB-Lab. Es war eine für beide Seiten bereichernde Zusammenarbeit, und nun sind wir stolz, mitteilen zu dürfen: Der neue Datenservice ist da! Es ist nun möglich, eine swisscollections-Trefferliste als Datenpaket zu exportieren.

Beim Klick auf den Export-Button erhalten Sie zunächst einen zip-Ordner mit hochwertigen Metadaten in den Formaten csv, JSON Lines und Marc-XML. Wo Digitalisate und ggf. OCR-Text bzw. Transkriptionen vorhanden sind, können Sie in einem zweiten Schritt mit Hilfe einer Browser-Extension Bild- und Textdateien sowie PDFs herunterladen.

Der neue swisscollections-Datenexport bietet neue Möglichkeiten und macht datengestützte Analysen viel einfacher. Digitale Bibliotheken werden jedoch bereits seit geraumer Zeit als Datenquelle genutzt. Wir haben immer wieder von Forschenden gehört, dass sie Bilder oder Volltexte von unseren Plattformen mit Hilfe von Web Scraping einsammeln. Das bedeutet, dass sie Skripte schreiben, die auf Webseiten angezeigte Informationen wie Download-Links auslesen. Statt gut dokumentierte Schnittstellen nutzen zu können, mussten sie detektivisch analysieren, wie die Daten auf der Webseite strukturiert sind. Dieser Aufwand ist nun hinfällig geworden, und die gewünschten Daten lassen sich bequem mit ein paar Klicks herunterladen. Metadaten in den Formaten CSV und JSON ermöglichen zudem eine einfache Weiterverarbeitung, beispielsweise eine weitere Eingrenzung oder eine Kombination mit einer anderen Suche.

Was machen Forschende und Kulturschaffende mit swisscollections-Daten?

Der Historiker Tassilo Roeck kuratiert Multimedia Ausstellungen in der Rhyality Immersive Art Hall, Neuhausen am Rheinfall. Er lädt im Zuge der Vorbereitungen jeweils hunderte Bilder von e-manuscripta und e-rara herunter. Als wir ihm den Datenexport zeigten, meinte er: «Dieses Tool hätte mir eine ganze Menge Zeit erspart – wenn ich es nur schon früher gehabt hätte!». Auch in der Kunstgeschichte könnte die Möglichkeit, nach bestimmten Kriterien zu suchen und die entsprechenden Bilder rasch herunterzuladen, auf grosses Interesse stossen. So kann man beispielsweise auf einen Schlag hunderte von Holzschnittdrucken aus dem 16. Jahrhundert herunterladen und vergleichen.

Künftig werden immer mehr Forschende die massenweise heruntergeladenen Daten mit digitalen Methoden analysieren, gruppieren und auswerten. Unser ZB-Kollege Mark Ittensohn befasst sich z.B. mit Machine Learning und Computer Vision. Er hatte sich bereits voriges Jahr mit Gesichtserkennung beschäftigt. Bevor er zur eigentlichen Aufgabe schreiten konnte, musste er jedoch viel Zeit in den Download der Bilder stecken. Nun kann er sich ganz auf die Bildanalyse konzentrieren.

Das gezielte Sammeln von Daten ist ein wichtiger Schritt für viele Forschungsvorhaben. In der Linguistik, die schon lange auf gute Textkorpora angewiesen ist, wurde der Wunsch einer Datenbibliothek schon vor einigen Jahren artikuliert. So formulierten die Computerlinguisten Noah Bubenhofer und Klaus Rothenhäusler im Jahr 2016 ihre Wünsche an Bibliotheken:

Die Bibliotheken müssen ihre Bestände im Volltext, nicht nur deren Metadaten digital verfügbar machen, so dass mit computergestützten Verfahren darauf Forschung betrieben werden kann. Im Vergleich zu anderen (kommerziellen) Angeboten wären Bibliotheken in der Lage, über ihre Metadatenspeicher einen wissenschaftlichen Mehrwert zu diesen Rohdaten zu liefern […]. Sie wären also nicht nur Bibliothek, sondern auch «Korporathek».¹

Auch wenn die Vision von Bubenhofer und Rothenhäusler weiter gefasst ist, bringt uns der swisscollections-Datenexport ihr einen Schritt näher. So kann dieser als Zwischenschritt in einer grösseren Entwicklung in Richtung Open Science verstanden werden, in der Bibliotheken ihre Speicher für digitale Nutzungsformen öffnen.² Wir wünschen uns, dass der neue Datenservice die Bibliotheks-Community dazu anregt, weitere Datenangebote auf- und auszubauen und so das Arbeiten mit Bibliotheksbeständen als Korpora über immer grössere Datenmengen hinweg zu ermöglichen.

Probieren Sie den neuen Datenexport aus auf swisscollections.ch. Weitere Infos finden Sie in unserer Dokumentation.

Literatur:

¹ Bubenhofer, N., & Rothenhäusler, K. (2016). «Korporatheken»: Die digitale und verdatete Bibliothek. 027.7 zeitschrift für bibliothekskultur, 4(2), 60–71, https://doi.org/10.5281/zenodo.4705307, S. 69.

² Max Kaiser stellt den Weg dar, auf dem sich die ÖNB auf die digitalen Nutzungsformen vorbereitet: Kaiser, M. (2023). «Digitale Sammlungen als offene Daten für die Forschung». Bibliothek Forschung und Praxis, Bd. 47/2, S. 200-212, https://doi.org/10.1515/bfp-2023-0021.

ZB-Lab

Veröffentlicht am 01.10.2024