Ince, S. A. (2017). Weakly-supervised learning of visual object models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.51247
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Datum (veröffentlicht):
2017
-
Umfang:
140
-
Keywords:
Machine Learning; Supervised Learning
en
Abstract:
Diese Masterarbeit untersucht die schwach beaufsichtigte visuelle Objektdetektion eines gegebenen Satzes von Bildern. Hauptziel ist es, ein optimales Objektmodell für jedes ausgewählte visuelle Objekt zu erhalten, indem dieses sowohl positiv als auch negativ auf Bildniveau markierte Bilder lernt. Zu diesem Zweck wird ein Analyseprozess vorgeschlagen, der Segmente des Zielvisualobjekts aus positiven Trainingsbildern sammelt. Ein allgemeineres Objektmodell wird durch die Bestimmung der am meisten diskriminierenden detektierten Objektsegmente aufgebaut. Diese endgültige Form des Objektmodells wird von einem binären Klassifikator verwendet, um Segmente des Zielvisualobjekts aus Testbildern zu detektieren. Der vorgeschlagene Ansatz zur Wiederherstellung eines optimalen Objektmodells umfasst vier Hauptverarbeitungsschritte: Segmentierung, Merkmalsextraktion, Ähnlichkeitsmessung und Lernen. Für jeden dieser Schritte wird die Eignung verschiedener Techniken ausgewertet. Als erstes wird eine Auswertung in Bezug auf die Segmentierung mit einer mittleren Schichtsegmentierung und einem einfacheren und schnelleren Gleitfensteransatz durchgeführt. Zweitens werden für die Beschreibung der im ersten Schritt erhaltenen Segmente unterschiedliche Arten von Merkmalen (Farbhistogramme, dichte SIFT-Deskriptoren, PHOW-Deskriptoren, VLAD-Deskriptoren, CEDD und MPEG-7-Farbdeskriptoren) ausgewertet. Der dritte Schritt beinhaltet bei der Ähnlichkeitsmessung eine Auswertung unterschiedlicher Distanz- und Ähnlichkeitsfunktionen. Schließlich wird im Lernschritt ein nicht parametrisches, diskriminierendes Lernschema verwendet, welches auf Informationsgewinn basiert. Das Ergebnis des Lernens ist ein Ranking, das die Unterscheidungskraft jedes Kandidatensegments ausdrückt. Darüber hinaus wird die MPEG-Videocodierung als alternative Technik für die Merkmalsextraktion und die Ähnlichkeitsmessung untersucht. Zu diesem Zweck wird ein Ansatz, der aus der Texturklassifizierung stammt, auf Farbbildsegmente erweitert. Die experimentellen Ergebnisse zeigen eine geringere rechnerische Komplexität für alle Kombinationen von untersuchten Merkmalsdeskriptoren und Distanzfunktionen im Vergleich zum MPEG-Video-Codierungs-basierten Ansatz. Weiterhin ist die Genauigkeit von visuellen Objektmodellen, die durch MPEG-Videocodierung erhalten werden, niedriger als diejenigen, welche in einigen der vorgeschlagenen Ansätze verwendet werden, die getrennte Verarbeitungsschritte für die Merkmalsextraktion und die Ähnlichkeitsmessung verwenden. Diese Masterarbeitsergebnisse zeigen, dass die Repräsentation in Form von VLAD-Deskriptoren zusammen mit einer der drei Distanz-Funktionen (Chi-Quadrat-Statistik, Diffusions-Distanz und Euklidischer Abstand) die besten Ergebnisse liefern. Darüber hinaus wird eine Auswertung von Zielobjektdetektoren durch Auswählen eines der wiederhergestellten Objektmodelle für jede Auswertung durchgeführt. Der Zielobjektdetektor ist ein SVM-Klassifikator, ein Naïve Bayes-Klassifikator und ein alternativer Ansatz, der Informationsgewinn verwendet, um Entscheidungsschwellen zu lernen.
de
This master’s thesis investigates the weakly-supervised visual object detection from a given set of images. The main goal is set as obtaining an optimal object model for any selected visual object by learning from positive- and negative-labeled images. To this end, an analysis process is proposed that gathers segments of the target visual object from positive training images. A more common object model is built by determining the most discriminative detected object segments. This ultimate form of the object model is employed by a binary classifier in order to detect segments of a target visual object from test images. The proposed approach for the recovery of an optimal object model comprises of four major processing steps: segmentation, feature extraction, similarity measurement, and learning. For each of these steps, the suitability of different techniques is evaluated. Firstly, an evaluation with respect to segmentation is made with mean shift segmentation and a simpler and faster sliding window approach. Secondly, different types of features (color histograms, dense SIFT descriptors, PHOW descriptors, VLAD descriptors, CEDD and MPEG-7 color descriptors) are evaluated for the description of the segments obtained in the first step. Thirdly, in similarity measurement an evaluation involves different distance and similarity functions. Lastly, in the learning step a non-parametric discriminative learning scheme based on information gain is employed. The result of learning is a ranking that expresses the distinctiveness of each candidate segment. In addition, MPEG video encoding is investigated as an alternative technique for both feature extraction and similarity measurement. For this purpose, an approach originating from texture classification is extended to color image segments. The experimental results demonstrate lower computational complexity for all combinations of investigated feature descriptors and distance functions compared to the MPEG video encoding-based approach. Furthermore, the accuracy of visual object models obtained by MPEG video encoding is lower than those presented in some of the proposed approaches employing separate processing steps for feature extraction and similarity measurement. These master thesis results suggest using the feature descriptors obtained from VLAD descriptors and one of three distance functions: chi square statistics, diffusion distance, and Euclidean distance. Moreover, an evaluation of target object detectors is performed by selecting one of the recovered object models for each evaluation. The target object detector is an SVM classifier, a Naïve Bayes classifier, and an alternative approach employing information gain to learn decision thresholds.