Kavelar, A. (2012). Automatically recognizing ancient Roman republican coin legends [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160583
computer vision; text recognition; character recognition; ancient coins; scene text recognition
en
Abstract:
Diese Diplomarbeit stellt einen neue, vollautomatische und bildbasierte Methode zur Erkennung von Legenden antiker Münzen der Römischen Republik. Herkömmliche Texterkennungsmethoden setzen eine horizontale Ausrichtung des im Bild befindlichen Textes voraus und setzen Binarisierungsverfahren zum Segmentieren des Textes vom Hintergrund ein. Da Legenden in Münzbildern beliebig orientiert sein können und die Farbe der Legende jener der Münze an sich ident ist, scheitern diese Methoden. Deshalb setzt die hier präsentierte Technik auf Objekt- und Mustererkennungsmethoden und nützt lokale Bildmerkmale zur Beschreibung der Buchstaben im Bild. Zur Legendenerkennung werden in Bildregionen von hohem Informationsgehalt für jeden zweiten Pixel in horizontaler und vertikaler Richtung SIFT-Deskriptoren fixer Größe berechnet. Für diese Punkte wird mit einem Klassifikator, im Speziellen mit Support Vector Machines (SVM), die Wahrscheinlichkeit für das Auftreten unterschiedlicher Buchstaben ermittelt. Die den Punkten zugeordneten Wahrscheinlichkeiten werden mittels einer pictorial structures (bildhafte Strukturen) genannten Technik zu Wörtern eines vordefinierten Lexikons kombiniert. Jenes Wort, das dabei die niedrigsten Kosten verursacht, wird im Bild erkannt. Da im Voraus keine Annahmen über die Orientierung der im Bild dargestellten Legenden getroffen werden kann, ist es wichtig, rotationsinvariante Bildmerkmale zur Buchstabenerkennung zu verwenden. Bei den Experimenten stellte sich heraus, dass der Einsatz rotationsinvarianter Bildmerkmale die Erkennungsrate senkt. Um diesen Umstand zu kompensieren, werden aufgrund rotationsinvarianter Bildmerkmale gefundene Worthypothesen in einem nachfolgenden Schritt mit Bildmerkmalen der Worthypothese entsprechender fixer Orientierung verifiziert. In den durchgeführten Experimenten konnte nachgewiesen werden, dass dieser nachgelagerte Schritt die Erkennungsrate signifikant verbessert. In Abhängigkeit der verwendeten Lexikongröße wurden auf einer Testmenge von 180 Bildern antiker römischer Münzen Erkennungsraten von 29 % bis zu 53 % erzielt. Neben der Legendenerkennung wurde die Buchstabenerkennung in einem unabhängigen Experiment für drei verschiedene Testmengen evaluiert: (1) Manuell segmentierte Bilder, die Buchstaben von Münzlegenden zeigen, (2) synthetisch generierte Buchstaben und (3) die ICDAR 2003 Buchstabenerkennungs-Testbilder. Abhängig von der Konfiguration der verwendeten SVMs und SIFT-Deskriptoren wurden für die drei unterschiedlichen Testmengen Erkennungsraten von 75 %, 84 % und 72 % erzielt.
This thesis presents a novel approach towards a fully-automated, image-based coin legend recognition system for images of ancient Roman Republican coins. Standard Optical Character Recognition (OCR) techniques depend on horizontal text alignment and binarization for text segmentation and thus fail to recognize ancient coin legends due to their arbitrary orientation and the complex shading effects on the highly specular coin surfaces. Hence, the presented approach is based on object recognition techniques and employs local image features for character description. SIFT descriptors of a fixed scale are computed for densely sampled locations, so-called keypoints, on coin images and are classified using Support Vecor Machines. The optimal kernels and respective kernel parameters for the Support Vector Machines were determined using k-fold cross-validation on a training set comprising 50 images for 18 different character classes. Based on the probabilities for each character class that were assigned to every keypoint, meaningful words are formed using the pictorial structures approach. The word of a finite lexicon, which causes the lowest costs, is chosen. As coin legends can be oriented arbitrarily, rotational invariance of the employed local image descriptors is imperative. However, the experiments carried out show that rotationally invariant SIFT descriptors result in a lower classification rate as opposed to SIFT features with fixed orientations. This fact is compensated by the introduction of a re-scoring method which recomputes the likelihoods of the words found for a legend word hypothesis by testing them against Support Vector Machines trained for SIFT descriptors with fixed orientations. Thereby the number of false positives is reduced while the classification accuracy is increased. Depending on the lexicon size and SIFT configuration used, the legend recognition rates achieved in experiments carried out on a test set of 180 images of Roman Republican coins range from 29% to 53%. Besides the legend recognition experiments, character recognition experiments were carried out independently on three different datasets: (1) Manually segmented legend letter images, (2) synthetically generated character images mimicking the appearance of legend characters and (3) the ICDAR 2003 character recognition dataset. Depending on the selected kernel and SIFT descriptor configuration, classification rates of up to 75%, 84% and 72% are achieved for the three datasets.