Hauri, M. R. (2020). Detecting signatures in scanned document images [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.82593
Ziel dieser Arbeit ist es Unterschriften in Bauanträgen der Stadt Wien zu erkennen und zu aggregieren um diese auf Vollständigkeit zu überprüfen, eine Serienverarbeitung von Dokumenten soll möglich sein. Eine Reihe von maschinellen Lernmodellen wurde trainiert und evaluiert um einen robusten und schnellen Algorithmus zu finden. Zur Gewährleistung der Reproduzierbarkeit und Vergleichbarkeit wurde der frei verfügbare Tobacco 800 Datensatz initial zum Training verwendet. Der Datensatz beinhaltet eine Vielzahl von Dokumenten, die von Tabakproduzenten im Rahmen des Master Settlement Aggrements freigegeben wurden. Jedes Dokument setzt sich aus maschinell gedrucktem Text, Unterschriften und handgeschriebenen Notizen zusammen und jede visuelle Entität ist annotiert. Aufgrund des vergleichbaren Aufbaus von Bauanträgen und Dokumenten aus dem Tobacco 800 Datensatz, eignet sich dieser als initiales Substitut. Die Stadt Wien stellt Bauanträge nur als Rohdaten zur Verfügung, ohne weitere Annotationen von visuellen Entitäten. Um einen zeitaufwändigen manuellen Annontationsprozess zu vermeiden, wurde eine Transfer Learning Pipeline implementiert. Dabei wurde das, auf Basis des Tobacco 800 Datensatz trainierte, Modell verwendet um Unterschriften im Datensatz der Stadt Wien zu detektieren. Die erkannten Bounding Boxes der Unterschriften wurden danach manuell evaluiert und verfeinert um schnell den neuen Datensatz zu annotieren. Im letzten Schritt wurde das Modell verwendet um einen Prototyp zu implementieren, der es Benutzern ohne fundierte technische Kenntnisse ermöglicht schnell Unterschriften aus Dokumenten zu aggregieren, um die Vollständigkeit von Dokumenten in Bezug auf die benötigten Unterschriften zu überprüfen.
de
The goal of this thesis is to provide a means for detecting and aggregating signatures and signature fields to check for completeness of building applications of the City of Vienna in bulk, i.e. it should be possible to process sets of documents. In order to find a robust algorithm, several machine learning models were trained and evaluated. For reproducibility and comparability with published results, the freely available Tobacco 800 data set was used initially for training. This data set is composed of a variety of documents released by tobacco companies under the Master Settlement Agreement. Each document image contains machine printed text, signatures and handwritten notes, whereas the position of each visual entity is annotated. Therefore, the Tobacco 800 data set is suitable as an initial substitute for the building applications data set from the City of Vienna. The City of Vienna only supplies raw scans of building applications without any annotations of visual entities. To avoid a tedious and time-consuming completely manual annotation process, a transfer learning pipeline was established, where the model trained with the Tobacco 800 data set was applied to the building applications data set from the City of Vienna. The model trained on the Tobacco 800 data set was used to accelerate the manual annotation process of the building applications data set. It was employed to predict signatures in the building applications data set, the predicted bounding boxes were then manually refined. Finally, this model was used to implement a prototype, accessible to users without technical knowledge, that facilitates the rapid aggregation of signatures and assessment of completeness with regard to required signatures for building applications in bulk.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers