E194 - Institut für Information Systems Engineering
-
Date (published):
2023
-
Number of Pages:
66
-
Keywords:
digital history; archival document; information retrieval; user interface
en
Abstract:
Jüngste Fortschritte in der Textdigitalisierung und -verarbeitung haben eine Vielzahl von Möglichkeiten eröffnet, historische Archive effizient und automatisiert zu bearbeiten und zu digitalisieren. Verarbeitungsschritte, die auch Spracherkennung, optische Zeichenerkennung (optical character recognition - OCR), Named Entity Recognition (NER), Markierung von Erkennungsfehlern und automatische oder manuelle Korrekturen umfassen, können zu digitalisierten Archiven führen, die sowohl qualitativ hochwertige Faksimile-Darstellungen von gescannten Originaldokumenten als auch extrahierte Text-Metadaten nahe am Originaltext in einem maschinenfreundlichen Format liefern. Im Rahmen des Forschungsprojekts “Visual History of the Holocaust” (VHH) ist die Erforschung digital aufbereiteter Archive ein wichtiger Schritt für den zukünftigen Arbeitsablauf von Archivaren und Historikern gleichermaßen.Nach einer Analyse und Kategorisierung der Anforderungen der Mitarbeiter des VHH-Projekts schlagen wir eine neuartige, semantisch erweiterte Suchabfrage-Methode und ein Konzept zur dynamischen Generierung von suchrelevanten Faksimile-Bildausschnitten vor. Diese Arbeit demonstriert einen auf diesen Methoden basierenden Human-in-the-Loop Such- und Recherchearbeitsablauf, indem sie einen Prototyp einer Suchbenutzeroberfläche bereitstellt, die auf die intuitive Erkundung von Themen in einem mehrsprachigen historischen Faksimile-Archivkorpus ausgerichtet ist.
de
Recent advances in text digitization and processing have opened up plenty of possibilities for historical archives to be processed and digitized in an efficient and automated manner. Processing steps, also involving language detection, optical character recognition (OCR), named entity recognition (NER), recognition error detection, and automated or manual correction can result in digitized archives providing both high-quality facsimile representations of original document scans and extracted text metadata close to the original text in a machine-friendly format. In the context of the research project “Visual History of the Holocaust” (VHH), exploration of digitally enhanced archives is an important step forward in the future workflow of archivists and historians alike.After analysing and categorizing the requirements of collaborators in the VHH project, we propose a novel semantically extended retrieval method and a concept for dynamically generating retrieval-relevant facsimile image snippets. This work demonstrates a Human-in-the-Loop retrieval and research workflow based on these methods by providing a search user interface prototype geared towards intuitively exploring topics across a multilingual historical facsimile archive corpus.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers