<div class="csl-bib-body">
<div class="csl-entry">Banyasz, D. (2023). <i>Cross-lingual search in pre-processed archival facsimile documents</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.84623</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2023.84623
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/188667
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Jüngste Fortschritte in der Textdigitalisierung und -verarbeitung haben eine Vielzahl von Möglichkeiten eröffnet, historische Archive effizient und automatisiert zu bearbeiten und zu digitalisieren. Verarbeitungsschritte, die auch Spracherkennung, optische Zeichenerkennung (optical character recognition - OCR), Named Entity Recognition (NER), Markierung von Erkennungsfehlern und automatische oder manuelle Korrekturen umfassen, können zu digitalisierten Archiven führen, die sowohl qualitativ hochwertige Faksimile-Darstellungen von gescannten Originaldokumenten als auch extrahierte Text-Metadaten nahe am Originaltext in einem maschinenfreundlichen Format liefern. Im Rahmen des Forschungsprojekts “Visual History of the Holocaust” (VHH) ist die Erforschung digital aufbereiteter Archive ein wichtiger Schritt für den zukünftigen Arbeitsablauf von Archivaren und Historikern gleichermaßen.Nach einer Analyse und Kategorisierung der Anforderungen der Mitarbeiter des VHH-Projekts schlagen wir eine neuartige, semantisch erweiterte Suchabfrage-Methode und ein Konzept zur dynamischen Generierung von suchrelevanten Faksimile-Bildausschnitten vor. Diese Arbeit demonstriert einen auf diesen Methoden basierenden Human-in-the-Loop Such- und Recherchearbeitsablauf, indem sie einen Prototyp einer Suchbenutzeroberfläche bereitstellt, die auf die intuitive Erkundung von Themen in einem mehrsprachigen historischen Faksimile-Archivkorpus ausgerichtet ist.
de
dc.description.abstract
Recent advances in text digitization and processing have opened up plenty of possibilities for historical archives to be processed and digitized in an efficient and automated manner. Processing steps, also involving language detection, optical character recognition (OCR), named entity recognition (NER), recognition error detection, and automated or manual correction can result in digitized archives providing both high-quality facsimile representations of original document scans and extracted text metadata close to the original text in a machine-friendly format. In the context of the research project “Visual History of the Holocaust” (VHH), exploration of digitally enhanced archives is an important step forward in the future workflow of archivists and historians alike.After analysing and categorizing the requirements of collaborators in the VHH project, we propose a novel semantically extended retrieval method and a concept for dynamically generating retrieval-relevant facsimile image snippets. This work demonstrates a Human-in-the-Loop retrieval and research workflow based on these methods by providing a search user interface prototype geared towards intuitively exploring topics across a multilingual historical facsimile archive corpus.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
digital history
en
dc.subject
archival document
en
dc.subject
information retrieval
en
dc.subject
user interface
en
dc.title
Cross-lingual search in pre-processed archival facsimile documents
en
dc.title.alternative
Cross-linguale semantische Suche mit Language Representation Pre-training
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2023.84623
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
David Banyasz
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Hofstätter, Sebastian
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16956905
-
dc.description.numberOfPages
66
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-7149-5843
-
item.languageiso639-1
en
-
item.grantfulltext
open
-
item.cerifentitytype
Publications
-
item.openairetype
master thesis
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.fulltext
with Fulltext
-
item.mimetype
application/pdf
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E194-04 - Forschungsbereich Data Science
-
crisitem.author.parentorg
E194 - Institut für Information Systems Engineering