Zambanini, S. (2014). Insensitive image comparison in the absence of training data [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2014.25346
Diese Dissertation beschäftigt sich mit dem Problem, die visuelle Ähnlichkeit von in Bildern dargestellten Objekten zu bestimmen. Die besondere Schwierigkeit einer solchen Ähnlichkeitsbestimmung liegt darin, das Ähnlichkeitsmaß insensitiv zu Veränderungen im Aussehen der Objekte zu machen, ohne die nützliche Information zur Unterscheidung von Objekten zu verlieren. Eine gebräuchlicher und effektiver Weg dafür ist der Einsatz von Techniken des maschinellen Lernens, bei denen die Variationen innerhalb einer Objektklasse anhand von repräsentativen Beispielbildern automatisch gelernt werden. Für einen effektiven Einsatz müssen diese Bilder aber in einer großen Zahl vorhanden sein, was in der Praxis nicht immer möglich ist. Aus diesem Grund verfolgt die vorgestellte Arbeit das Ziel, eine robuste Klassifizierung mithilfe eines Bildähnlichkeitsmaßes zu erreichen. Es wird ein exemplar-basierter Klassifizierungsprozess vorgestellt, dessen Einzelschritte unterschiedliche Aspekte von Objektvariabilität behandeln. Auf der Anwendungsseite ist dieser Prozess von dem Problem der automatischen Klassifizierung antiker Münzen motiviert, da für diese Objekte eine Vielzahl von Variabilitäten wie Beleuchtungseffekte, räumliche Verformungen oder unvollständige Bilddaten berücksichtigt werden muss. Im ersten Teil der Arbeit wird eine Bildsegmentierung von annähernd runden Objekten vorgestellt, die es ermöglicht, den Bildvergleich unabhängig vom Hintergrund und der Größe des Objektes im Bild durchzuführen. Der zweite Teil untersucht die Berechnung von beleuchtungsinsensitiven Bildmerkmalen mit dem Hauptaugenmerk auf untexturierte Objekte. Untexturierte Objekte wie beispielsweise antike Münzen bestehen aus nur einer einheitlichen Farbe und sind daher unter Beleuchtungsunterschieden schwieriger zu erkennen als texturierte Objekte, weshalb sie in der Vergangenheit im Bereich der Computer Vision Forschung großteils vernachlässigt wurden. Aus diesem Grund werden in der Arbeit in einer umfangreichen Studie einfache pixelbasierte Merkmale auf ihre Insensitivität zu Beleuchtungsveränderungen untersucht. Die Erkenntnisse dieser Studie werden in weiterer Folge dazu genutzt, einen lokalen Bilddeskriptor zu entwickeln, der leistungsfähiger als bestehende Deskriptoren unter Beleuchtungsunterschieden ist. Der letzte Teil der Arbeit wird der Insensitivität gegenüber räumlichen Verformungen gewidmet, wie sie beispielsweise innerhalb von Objekten eines Münztyps vorkommen. Es wird gezeigt, dass das Ergebnis einer Suche nach zusammengehörenden Bildpunkten, die sowohl aussehensbasierte als auch geometrische Kriterien berücksichtigt, dazu genutzt werden kann, eine schrittweise Klassifizierung von Münzen zu erreichen. Jedoch erlaubt dieser rechenintensive Prozess lediglich die Berücksichtigung von einfachen geometrischen Bedingungen. Aus diesem Grund wird eine verbesserte Methode vorgestellt, die die zuverlässigsten Korrespondenzen von Bildpunkten dazu verwendet, um die Ähnlichkeit aus deren geometrischer Plausibilität abzuleiten, was zu einem schneller berechenbaren und leistungsfähigerem Ähnlichkeitsmaß führt.
de
This thesis deals with the problem of automatically estimating the visual similarity of two objects shown in an image pair. Visual image comparison is a challenging task in the presence of appearance variations between objects, as the similarity estimation has to be made insensitive to the variations without losing the essential information necessary for differentiation. A common and effective methodology to handle appearance variations is to exploit machine learning techniques where the intra-class variations are learned by means of representative example images. However, this methodology relies on large amounts of a-priori available image data which might be infeasible in practice. Therefore, the work presented in this thesis aims at the robust classification with the aid of an insensitive image-to-image similarity estimation. Consequently, an exemplar-based classification pipeline is presented whose individual steps treat different aspects of appearance variability. The task of recognizing ancient coins is used as motivating example and main application area of the presented methods due to the challenging nature of ancient coins in terms of illumination effects, non-rigid spatial deformations, image clutter and inter-class similarity. In the first part of the pipeline the segmentation of roughly circular objects like ancient coins is treated in order to make the visual comparison insensitive to object location and scale as well as background clutter. The second part deals with the illumination-insensitive extraction of image features, with a special focus on non-flat, textureless objects like coins. Textureless objects exhibit more complex appearance variations under illumination changes than textured objects, which have been the main objects-of-interest in the computer vision research on illumination insensitivity so far. Thus, an exhaustive evaluation of low-level image representations for recognizing textureless objects under illumination changes is presented. The findings of this study are utilized to construct a local image descriptor that outperforms state-of-the-art descriptors under illumination changes. Finally, in the last part the insensitivity against non-rigid local deformations is addressed, as this type of appearance variations typically occurs within instances of the same coin class. It is shown that by imposing both appearance-based and geometric constraints on the optimization framework for correspondence search one can use the matching costs for exemplar-based coin classification in a coarse-to-fine manner. However, the classification performance of this methodology suffers from the computational demands of using only weak geometric constraints. Appearance-driven feature matching followed by an evaluation of the geometric plausibility of the detected correspondences allows to use stronger geometric constraints and consequently leads to a faster and more reliable similarity estimation.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache