Weber, J. T. (2021). Extracting retrievable information from archival documents [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.93623
E194 - Institut für Information Systems Engineering
-
Date (published):
2021
-
Number of Pages:
98
-
Keywords:
historical facsimile digitisation; archival research; requirement analysis; optical character recognition; computer vision; OCR pipeline; visual history of the holocaust; spelling error correction; named entity recognition; natural language processing /
en
Abstract:
Die Digitalisierung großer Mengen von Bilddaten im Hinblick auf die Textextraktion wird im Bereich der Archivforschung zunehmend gefordert, um die Dokumente digital aufzubewahren und computergetrieben verarbeiten zu können. Bei der Digitalisierung großer Dokumentenmengen stellt die automatisierte Verarbeitung aufgrund der Vielzahl von Schwierigkeiten, die Archivdokumente mit sich bringen, eine Herausforderung dar. Während sich einige Studien darauf fokussieren, dokumentenspezifische Schwierigkeiten wie die Auflösung oder Ausrichtung der Dokumente zu korrigieren, um die Dokumen- te zunächst extrahierbar zu machen, fokussieren sich andere Studien auf Methoden zur Verbesserung und Optimierung des Textextraktionsprozesses. Andere Digitalisie- rungsprojekte haben gezeigt, dass das Zusammenspiel von Dokumentenkorrektur- und Dokumentverbesserungsmaßnahmen essentiell ist um ein gutes Digitalisierungsergebnis zu erzielen.Wir haben Anforderungen von Historikern, die im Forschungsprojekt „Visual History of the Holocaust“ arbeiten, an ein Digitalisierungssystem extrahiert und analysiert, um diese mittels technischer Lösungen umzusetzen. Um der Forderung nach einem minimalen Interaktionsdesign und dem daraus resultierenden Automatisierungsgrad gerecht zu werden, setzten wir unüberwachte Metriken auf der Basis von Textextraktionsmetadaten ein, die es dem System ermöglichen, Entscheidungen über Dokumententransformationen zwischen und innerhalb von Verarbeitungsschritten zu treen. Wir evaluieren unser Digitalisierungssystem, die OCR-Pipeline, an einem von Historikern definierten und transkribierten Datensatz im Vergleich zu einem im Projekt verwendeten kommerziellen Digitalisierungswerkzeug und messen die Überlegenheit unseres Systems anhand einer Wortfehlermetrik.Wir erweitern die extrahierten Klartextdaten, indem wir Maßnahmen zur Korrektur von Rechtschreibfehlern sowie Maßnahmen zur Extraktion von Zeitkontexten anwenden, um die Anwendbarkeit der extrahierten Daten zu erweitern. Im Hinblick auf die Korrektur von Rechtschreibfehlern evaluieren wir unsere Methode anhand eines aufgabenspezifischen Datensatzes und messen die Auswirkungen der auf den extrahierten Text angewandten Korrekturvorschläge. Im Hinblick auf die Erkennung von Zeiteinheiten stellen wir die Auswirkungen auf die Erkennungsraten von Zeiteinheiten zwischen der Textausgabe der OCR-Pipeline und der extrahierten Ausgabe ohne Korrekturmaßnahmen auf der Grundlage eines weiteren aufgabenspezifisch annotierten Datensatzes dar.
de
The digitisation of large volumes of image data with regard to text extraction is increas- ingly demanded in the field of archival research in order to preserve the documents and process them in a computer-driven manner. With regard to digitizing large volumes of documents, automated processing presents a challenge due to the multitude of diculties that archival documents entail. While some studies focus on correcting document-specific diculties such as document resolution or document orientation to make them extractable initially, other studies focus on methods to improve and optimise the text extraction process. Other digitisation projects have shown that the interaction of both document correction and document improvement measures is essential and can lead to a good digitisation result.We extracted and analysed requirements of historians working in the research project “Visual History of the Holocaust” for a digitisation system in order to translate and implement requirements into technical solutions. To meet the requirement for a minimal interaction design and the resulting level of required automation, we employed unsu- pervised metrics based on text extraction metadata that enables the system to make decisions about document transformations between and within processing steps. We evaluate our digitisation system, the OCR pipeline, on a dataset defined and transcribed by historians, against a commercial digitisation tool used in the project, and measure thesuperiority of our system using a word error metric.We further augment the plain text data extracted by applying spelling error detection and correction measures as well as time context extraction measures to expand the applicability of the extracted data. With regard to the spelling error correction workflow, we evaluate our method on the basis of a task-specific dataset and measure the eects of the correction suggestions applied to the extracted text. In terms of time entity detection, we present the impact on time entity recognition rates between the text output of the OCR pipeline and the extracted output without pre-processing and correction measures applied based on another task specifically annotated dataset.