Scheidl, H. (2018). Handwritten text recognition in historical documents [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.43931
Handwritten Text Recognition; Document Analysis; OCR
de
Handwritten Text Recognition; Document Analysis; OCR
en
Abstract:
Digitalisierte historische Dokumente liegen in Form von gescannten Bildern vor. Dokumente, zu welchen der Text digital vorliegt, erleichtern jedoch die Arbeit für Historiker. Unter anderem vereinfacht sich dadurch die Textsuche. Handschrifterkennungssysteme sind in der Lage die Transkription automatisch durchzuführen. Im Wesentlichen existieren zwei Methoden zur Handschrifterkennung: Hidden Markov Models und neuronale Netze. Die im Zuge dieser Arbeit implementierte Handschrifterkennung basiert auf neuronalen Netzen. Die Eingabebilder werden mit verschiedenen Methoden verbessert, wodurch die Problemstellung für den Klassifikator vereinfacht wird. Einerseits wird der Bildkontrast normalisiert, andererseits werden die Bilder zufällig verändert um die Datensatzgröße künstlich zu erhöhen, wodurch der Klassifikator besser auf neuen Daten generalisiert. Ein weiterer, optionaler Vorverarbeitungsschritt richtet kursive Handschrift auf. Der Klassifikator selbst ist an die Problemstellung angepasst. Convolutional Neural Networks (CNNs) lernen Faltungsmatrizen zum Extrahieren relevanter Bildmerkmale. Handschrift hat eine sequentielle Gestalt, es kann somit hilfreich sein, Informationen links und rechts der aktuell betrachteten Position miteinzubeziehen. Genau dies geschieht mittels Recurrent Neural Networks (RNNs), welche für jede Position eine Wahrscheinlichkeitsverteilung über die möglichen Buchstaben liefern. Dieses Berechnungsergebnis des RNNs wird mit der Connectionist Temporal Classification Operation decodiert. Schließlich werden etwaige Rechtschreibfehler noch mittels Textkorrektur ausgebessert. Zur Evaluierung werden fünf öffentlich zugängliche Datensätze verwendet, wobei drei davon als historisch zu betrachten sind (9. Jahrhundert, 15. bis 19. Jahrhundert sowie die Zeit um das Jahr 1800). Die Ergebnisse werden mit öffentlich verfügbaren Ergebnissen anderer Methoden verglichen. Die Vorverarbeitungsschritte werden optional deaktiviert, um deren Einfluss zu analysieren. Die Ausgabesequenz des RNNs ist codiert, zum Decodieren existieren verschiedene Algorithmen, welche optional um ein Sprachmodell erweitert werden können. Sowohl die Decodierungsalgorithmen als auch die Sprachmodelle werden evaluiert. Schließlich wird noch die Effizienz der Textkorrektur ermittelt. Diese Arbeit liefert vier Beiträge zur Handschrifterkennung in historischen Dokumenten: erstens die Analyse verschiedener Parameter im implementierten System, zweitens eine Methode zur Segmentierung von Wörtern durch Decodieren des RNN Ergebnisses, drittens eine auf CNNs basierende Alternative zu RNNs und viertens einen Decodierungsalgorithmus welcher Wörterbuch und Sprachmodell integriert, gleichzeitig aber beliebige Zeichen zwischen Wörtern zulässt.
de
After digitalization historical documents are available in the form of scanned images. However, having documents in the form of digital text simplifies the work of historians, as it e.g. makes it possible to search for text. Handwritten Text Recognition (HTR) is an automatic way to transcribe documents by a computer. There are two main approaches for HTR, namely hidden Markov models and Artificial Neural Networks (ANNs). The proposed HTR system is based on ANNs. Preprocessing methods enhance the input images and therefore simplify the problem for the classifier. These methods include contrast normalization as well as data augmentation to increase the size of the dataset. Optionally, the handwritten text is set upright by a deslanting algorithm. The classifier has Convolutional Neural Network (CNN) layers to extract features from the input image and Recurrent Neural Network (RNN) layers to propagate information through the image. The RNN outputs a matrix which contains a probability distribution over the characters at each image position. Decoding this matrix yields the final text and is done by the connectionist temporal classification operation. A final text postprocessing accounts for spelling mistakes in the decoded text. Five publicly accessible datasets are used for evaluation and experiments. Three of these five datasets can be regarded as historical, they are from the 9th century, from the 15th until the 19th century and from around the year 1800. The accuracy of the proposed system is compared to the results of other authors who published their results. Preprocessing methods are optionally disabled to analyze their influence. Different decoding algorithms and language models are evaluated. Finally, the text postprocessing method is analyzed. The four main contributions of this thesis are: (1) analysis of different parameters and different architectures of the proposed system, (2) a word segmentation approach using a decoding method for the RNN output, (3) a CNN based replacement of the RNN layers and (4) a decoding algorithm which integrates a dictionary and language model while still allowing arbitrary non-word characters between words.