ocr, local descriptors, image processing, pattern recognition
en
OCR; Lokale Deskriptoren; Bildverarbeitung; Mustererkennung
de
Abstract:
In dieser Diplomarbeit wird ein neues Character Recognition System für schlecht erhaltene Manuskripte vorgestellt. Im Gegensatz zu aktuellen OCR Systemen, welche Information durch eine frühzeitige Binarisierung verwerfen, wird eine Methodik implementiert, die sich an aktuellen Objekterkennungs-Algorithmen orientiert. Um die Bildinformation aufzubereiten, werden Interest Points berechnet, die Bildbereiche markieren, welche Struktur enthalten. Mit Hilfe von Interest Points können dann lokale Deskriptoren, sozusagen hochdimensionale Feature Vektoren, berechnet werden. Eine SVM klassifiziert die lokalen Deskriptoren.<br />Mit dieser Methodik werden auch ausgebleichte Buchstaben erkannt. Die Lokalisierung der Buchstaben muss aufgrund der nicht durchgeführten Binarisierung durch die Interest Points realisiert werden.<br />Dafür werden Interest Points, die ganze Buchstaben beschreiben durch ein Scale Distribution Histogram segmentiert. Diese Interest Points dienen zur Initialisierung eines k-means Clusterings, welches lokale Deskriptoren eines Buchstabens gruppiert. Für die endgültige Klassifizierung der Buchstaben werden die Wahrscheinlichkeiten aller lokaler Deskriptoren eines Clusters, welche mit der SVM bestimmt wurden, durch ein Voting Schema akkumuliert.<br />Das System wurde mit drei Datensätzen evaluiert: generierte lateinische Buchstaben, schlecht erhaltene glagolitische Buchstaben und Dokumentseiten des Cod. Sin. Slav. 5N. Auf ganzen Dokumentseiten wird ein F score von 0.77 erreicht.<br />
de
In this thesis, a character recognition system is proposed that handles degraded manuscript documents which were discovered at the St.<br />Catherine's Monastery. In contrast to state-of-the-art OCR systems, no early decision, namely the image binarization, needs to be performed.<br />Thus, an object recognition methodology is adapted for the recognition of ancient manuscripts. Therefore, interest points are extracted which allow for the computation of local descriptors. These are directly classified using a SVM with one against all tests. In order to localize characters, interest points that represent characters are found by means of a scale distribution histogram. Then, the remaining interest points are clustered using a k-means which is initialized with the previously selected interest points. Finally a voting scheme is applied where the local descriptors' class probabilities are accumulated to a probability histogram for each character cluster. This histogram does not solely allow for a hard decision, but can be presented to human experts who can decide the character class for hardly readable characters according to the probabilities obtained.<br />The system was evaluated on three different datasets, namely a synthetic with Latin script, degraded characters and real world data. The system achieves a F score of 0.77 on the last dataset mentioned.