Kunerth, M. (2016). Optische Worterkennung mithilfe eines Wörterbuches [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/79582
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2016
-
Number of Pages:
76
-
Keywords:
Optical Character Recognition (OCR); Klassifikation; Merkmalsextraktion; Worterkennung
de
Abstract:
Diese Arbeit optimiert Optical Character Recognition (OCR), i.e. die Erkennung von Zeichen durch den Computer. Vor allem Freeware in diesem Bereich liefern keine perfekten Ergebnisse, die sich mit sinkender Auflösung des Eingabebildes erheblich verschlechtern. Dies liegt daran, dass diese Systeme auf der Erkennung von einzelnen Zeichen (Characters), und nicht auf der Erkennung von Wörtern beruhen. Der vorgeschlagene Algorithmus basiert auf der Klassifikation ganzer Wörter mithilfe eines Wörterbuches. Für das Training werden im ersten Schritt alle Wörter des Wörterbuches in verschiedenen Schriftarten gerendert. Anschließend werden daraus jeweils verschiedene Merkmale extrahiert und zu einem Merkmalsvektor zusammengefügt. Die Wahl der richtigen Merkmale ist dabei sehr wichtig, weil diese für die Zwecke der Worterkennung geeignet sein müssen. Mit diesem wird für jede Schriftart und jeden Schriftstil ein eigener Klassifikator traininert und gespeichert. Zum Testen der Worterkennung müssen im ersten Schritt die einzelnen Wörter aus dem Eingabebild segmentiert werden. Danach werden aus jedem Wort typografische Merkmale extrahiert, um die jeweilige Schiftart zu erkennen. Dies ist notwendig, um den richtigen Klassifikator zu laden. Anschließend werden aus jedem Wort die gleichen Merkmale wie beim Training extrahiert und an den Klassifikator übergeben. Dieser gibt schließlich das erkannte Wort zurück. Der Algorithmus liefert mit einer durchschnittlichen Erkennungsrate von 99.91% sehr gute Ergebnisse und schneidet besser als alle anderen getesteten Methoden ab. Speziell bei Eingabebildern, die bei niedriger Auflösung gescannt wurden, ist die Überlegenheit des Algorithmus zu sehen.
de
This thesis optimizes Optical Character Recognition (OCR). Freeware in this research area still doesn't yield perfect results. At sinking resolution the recognition rate gets even worse. The reason for this is the fact that OCR is based upon the recognition of single characters, instead of words. The proposed algorithm relies on the classification of whole words using a dictionary. To do so, in the training step all words need to be rendered in different fonts and styles first. Afterwards these images are used to extract different features out of them. The choice of the features is very important, as they must be suitable for the means of word recognition. The features are combined to one feature vector per word which is passed to the classifier. For every font and style there is one classifier trained. For testing word recognition in the first step all words need to be segmented out of the input image. Then typographical features are extracted out of every word in order to classify its font. The font is needed to load the right classifier. Now the same features as in the training process are extracted out of every word and passed to the classifier for testing. The classifier finally returns the recognized word. The algorithm has a very good recongition rate of 99.91%. It performs better than all other tested methods. Especially testing input images scanned at lower resolution shows the algorithms superiority.