Kleber, F. (2014). Document image analysis preprocessing of low-quality and sparsely inscribed documents [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2014.23118
Document Analysis; Binarization; Skew Estimation; Form Classification
en
Abstract:
Aufgrund einer steigenden Digitalisierung von den Beständen von Bibliotheken, Handschriftenabteilungen (altertümliche Manuskripten), oder per Hand ausgefüllte Formulare gibt es die Notwendigkeit der automatischen Verarbeitung von digitalen Bildern von Dokumenten. Projekte wie Google Books of Google Inc. oder IMPACT (Improving Access to Text) benötigen automatisierte Systeme der Dokumentenanalyse. Zu den Vorverarbeitungsschritten in der Dokumentenanalyse von Bildern gehören die Binarisierung (Einteilung in Vordergrund und Hintergrund) und die Detektion der Dokumentausrichtung. Eine Formularklassifikation erlaubt die Extraktion von Formularfeldern aufgrund der MetaInformation (Position der Formularfelder) von bekannten Formulartypen. Binarisierung als auch die Korrektur der globalen Ausrichtung sind wesentliche Vorverarbeitungsschritte für die Layoutanalyse als auch der Zeichenerkennung (OCR). Eine Formularklassifikation erlaubt einerseits das Sortieren von Dokumenten und ist ebenfalls ein Vorverarbeitungsschritt für die Layoutanalyse (z.B. Form Dropout). Diese Dissertation beschäftigt sich mit den drei genannten Dokument-Vorverarbeitungsschritten, wobei vor allem schlecht erhaltene (historische, altertümliche) Dokumente als auch Dokumente mit geringem Inhalt (wenige Worte) betrachtet werden. Die entwickelte Methodik kann dabei zum Beispiel auf Dokumentfragmente angewendet werden, wodurch eine Rekonstruktion von "zerrissenen" Dokumenten ermöglicht wird. Die erforschten Methodiken werden mit State of the Art Metriken evaluiert und mit Methoden die im Rahmen von Contests präsentiert wurden verglichen.
de
The mass digitalization of libraries, national archives or museums needs an automated processing of the acquired image data for a further preparation (indexing, word spotting) and improving the access to the content, thus a document analysis. Projects and institutions that are dealing with the digitalization of documents are amongst others the manuscript research center of Graz University (Vestigia), Improving Access to Text (IMPACT), or projects like Google Books of Google Inc. Document preprocessing is one of the most important steps of document image analysis and is defined as noise removal and binarization, thus foreground/background separation. An additional preprocessing step is the skew estimation of documents which can be based on binarized images or on original grayvalue image. Uncorrected documents can affect the performance of Optical Character Recognition (OCR) and segmentation (layout analysis) methods. Document classification can be used for automated indexing in digital libraries by classifying all e.g. "Table of Contents" pages or allows a document retrieval on large document image databases. By classifying document types, a-priori knowledge (position of text boxes) can be incorporated into the document image analysis system, thus facilitating higher-level document analysis. While binarization and skew estimation are defined as classical preprocessing steps, form classification is added as a preprocessing step within this thesis. The research within this thesis deals with this three preprocessing steps for ancient and historical documents with sparsely inscribed Information (printed or written text). Historical documents can be degraded (e.g. faded out ink or noise like background stains) or fragmented due to their storage conditions. The methods are evaluated using state of the art metrics and are compared to methods of current document Image analysis contests regarding binarization and skew estimation.