Cross-lingual search in pre-processed archival facsimile documents

Banyasz, David

doi:10.34726/hss.2023.84623

DC Field

Value

Language

dc.contributor.advisor

Hanbury, Allan

dc.contributor.author

Banyasz, David

dc.date.accessioned

2023-10-03T07:23:24Z

dc.date.issued

2023

dc.date.submitted

2023-09

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Banyasz, D. (2023). <i>Cross-lingual search in pre-processed archival facsimile documents</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.84623</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2023.84623

dc.identifier.uri

http://hdl.handle.net/20.500.12708/188667

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Jüngste Fortschritte in der Textdigitalisierung und -verarbeitung haben eine Vielzahl von Möglichkeiten eröffnet, historische Archive effizient und automatisiert zu bearbeiten und zu digitalisieren. Verarbeitungsschritte, die auch Spracherkennung, optische Zeichenerkennung (optical character recognition - OCR), Named Entity Recognition (NER), Markierung von Erkennungsfehlern und automatische oder manuelle Korrekturen umfassen, können zu digitalisierten Archiven führen, die sowohl qualitativ hochwertige Faksimile-Darstellungen von gescannten Originaldokumenten als auch extrahierte Text-Metadaten nahe am Originaltext in einem maschinenfreundlichen Format liefern. Im Rahmen des Forschungsprojekts “Visual History of the Holocaust” (VHH) ist die Erforschung digital aufbereiteter Archive ein wichtiger Schritt für den zukünftigen Arbeitsablauf von Archivaren und Historikern gleichermaßen.Nach einer Analyse und Kategorisierung der Anforderungen der Mitarbeiter des VHH-Projekts schlagen wir eine neuartige, semantisch erweiterte Suchabfrage-Methode und ein Konzept zur dynamischen Generierung von suchrelevanten Faksimile-Bildausschnitten vor. Diese Arbeit demonstriert einen auf diesen Methoden basierenden Human-in-the-Loop Such- und Recherchearbeitsablauf, indem sie einen Prototyp einer Suchbenutzeroberfläche bereitstellt, die auf die intuitive Erkundung von Themen in einem mehrsprachigen historischen Faksimile-Archivkorpus ausgerichtet ist.

dc.description.abstract

Recent advances in text digitization and processing have opened up plenty of possibilities for historical archives to be processed and digitized in an efficient and automated manner. Processing steps, also involving language detection, optical character recognition (OCR), named entity recognition (NER), recognition error detection, and automated or manual correction can result in digitized archives providing both high-quality facsimile representations of original document scans and extracted text metadata close to the original text in a machine-friendly format. In the context of the research project “Visual History of the Holocaust” (VHH), exploration of digitally enhanced archives is an important step forward in the future workflow of archivists and historians alike.After analysing and categorizing the requirements of collaborators in the VHH project, we propose a novel semantically extended retrieval method and a concept for dynamically generating retrieval-relevant facsimile image snippets. This work demonstrates a Human-in-the-Loop retrieval and research workflow based on these methods by providing a search user interface prototype geared towards intuitively exploring topics across a multilingual historical facsimile archive corpus.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

digital history

dc.subject

archival document

dc.subject

information retrieval

dc.subject

user interface

dc.title

Cross-lingual search in pre-processed archival facsimile documents

dc.title.alternative

Cross-linguale semantische Suche mit Language Representation Pre-training

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2023.84623

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

David Banyasz

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Hofstätter, Sebastian

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16956905

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-7149-5843

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E194-04 - Forschungsbereich Data Science

crisitem.author.parentorg

E194 - Institut für Information Systems Engineering

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(3.97 MB)

In Copyright

Show simple item record

Page view(s)

212

checked on Nov 19, 2023

Download(s)

132

checked on Nov 19, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM