Bhatti, M. N. A. (2012). On the contextual co-occurrence of local features in images [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/161099
Im Bereich der digitalen Bildverarbeitung werden lokale Features extrahiert und als Grundlage für die Objekterkennung in Bildern verwendet. Diese Features werden oftmals als identisch und unabhängig verteilt angesehen, wie (beispielsweise) im originalen "Bag of Words" Modell. Tatsächlich sind diese Features aber abhängig voneinander verteilt. Beispielsweise ist ein Bild eines Gesichtes schwer erkennbar, falls die relative Position der Augen, der Nase und des Mundes verschoben ist. Die relative Abhängigkeit von lokalen Features kann modelliert werden mithilfe der Distanzabhängigkeit, der Korrelation und der Co-Occurence. Lokale Features, die in einem Bild eine relative Abhängigkeit zueinander haben liegen mit hoher Wahrscheinlichkeit in einem Bereich um ein spezifisches lokales Feature. Dieser Bereich eines lokalen Features wird kontextueller Bereich genannt und die relative Co-Occurence der darin liegenden lokalen Features wird kontextuelle Co-Occurence genannt. Das Ziel dieser Arbeit liegt darin, die kontextuelle Co-Occurence von lokalen Features, die in natürlichen Bildern und binarisierten Bildern von Patentdokumenten gefunden werden, zu modellieren und ihre Verwendbarkeit für die Objekterkennung zu untersuchen. Die kontextuelle Co-Occurence von lokalen Features in natürlichen Bildern und binarisierten Patentbildern wird untersucht, indem ein Kontextmodel vorgeschlagen wird, das auf einem elliptischen Bereich basiert. Lokale Features, die in natürlichen Bildern gute Ergebnisse erzielen, sind für binäre Patentbilder oftmals unbrauchbar, da diese große Unterschiede in ihrer Beschaffenheit gegenüber natürlichen Bildern aufweisen. Aufgrund dieser Problematik werden Feature Punkte detektiert und falsche Detektionen durch morphologisches Spurring und der granulometrischen Information entfernt.<br />Um lokale Muster in der Umgebung der detektierten Punkte zu klassifizieren, wird ein neuer auf der Distanz basierender Local Primitive Words Algorithmus für Patentbilder vorgeschlagen. Da die Feature Punkte durch Linien verbunden sind, wird deren kontextuelle Co-Occurence Information mit einem neuen morphologischen Geodesic Context Modell beschrieben. Die kontextuelle Co-Occurence Information der lokalen Features wird paarweise enkodiert, indem ein visuelles Codebook eines Bag of Words Modells auf ein relationales Codebook erweitert wird. Die Verwendbarkeit der kontextuellen Co-Occurrence Information wird anhand einer Bildklassifikation von natürlichen Bildern und eines Retrievals von binären Patentbildern untersucht. Die durchgeführten Experimente zeigen, dass die Verwendung der kontextuellen Co-Occurence Information bei Patentbildern zu besseren Ergebnissen und bei natürlichen Bildern teilweise zu Verbesserungen führt; verglichen mit der unabhängigen Occurence Information von lokalen Features. Die auf Patentbildern erzielten Ergebnisse sind mit den Resultaten des adaptiven, hierarchischen Dichtehistogramms vergleichbar, das in der Literatur zu finden ist. Die Evaluierung der kontextuellen Co-Occurence Information verdeutlicht deren Potential für die Erfassung von Bildinhalten.<br />
de
In computer vision, local features are extracted and used as the source of information for recognizing objects in images. These features are often considered as identically and independently distributed like in the original "bag of words" model. In reality, the local features are relatively and dependently distributed in an image, for example an image of face is hard to recognize if the relative positions of eyes, nose and mouth are displaced. The relative dependence of the local features can be modeled as distance dependence, correlation and co-occurrence. In an image, the local features having relative dependence to each other are likely to co-occur in a spatial area around a specific local feature. The spatial area of a local feature can be called the contextual area and the relative co-occurrence of the local features in it as the contextual co-occurrence. The aim of this thesis is to model the contextual co-occurrence of local features in natural images and binary images found in patent documents and explore its usefulness in object recognition.<br />The contextual co-occurrence of local features in natural as well as binary patent images is explored by proposing a context model based on the elliptical scale of detection of the local features. Local features and descriptors performing well in case of natural images are often unable to capture the content of binary patent images due to their different composition as compared to natural images. Motivated by these issues in binary images, feature points are detected and a suitable treatment of the false detections is proposed using the morphological spurring and the granulometric information of the binary image. To classify the local patterns found at the detected points, a novel distance-based local primitive words algorithm using granulometric information is proposed for the binary patent images. As feature points in the binary patent images are spatially connected through lines, their contextual co-occurrence is modeled by proposing a novel mathematical morphology based geodesic context model. The contextual co-occurrence information of the local features is encoded in a pair-wise fashion by performing an augmentation of the "bag of words" model extending the visual codebook to a relational codebook. The usefulness of the contextual co-occurrence information is investigated in an image classification task for natural images and in a similar image retrieval task for binary patent images. Experimental results indicate that the contextual co-occurrence information always performs better in case of the binary patent images and partially better in case of the natural images as compared to the independent occurrence information of the local features, which is taken as a natural comparison to it. Moreover, in the case of binary patent images, its performance is found comparable to the adaptive hierarchical density histograms taken from the literature.<br />Experimental evaluation of the contextual co-occurrence information of the local features in images signify its potential to better capture the content of the images.