Ponweiser, W. (2009). The vision of a vision system : the optimized use of computer vision algorithms [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-35241
Computer Vision; Optimization; Multiobjective Optimization; System Composition; System Architectures; Performance Evaluation; Performance Optimization; Service Specification; Robotic
en
Abstract:
Um "Robotern das Sehen beizubringen" beschäftigen sich die meisten wissenschaftlichen Arbeiten mit immer ausgereifteren Algorithmen zur Bildverarbeitung (BV), die deren Robustheit bezüglich unterschiedlicher Beleuchtungssituationen, unterschiedlichem Hintergrund und Bewegungen im Bild verbessern. Der Ansatz dieser Dissertation ist den Einsatz bereits existierender BV-Algorithmen zu optimieren.<br />Meine Vision eines Bildverarbeitungssystems ist ein dynamischer Aufbau des Systems aus den jeweils optimalen Algorithmen. Dieser Aufbau muss speziell auf die aktuelle Aufgabe und den aktuellen Kontext abgestimmt werden. Dabei definiert die Aufgabe den eigentlichen Zweck sowie die Kosten/Nutzen Bewertung von Treffern und Fehlern, und der Kontext definiert alle strukturierten Einflüsse auf die BV-Algorithmen.<br />Die wichtigste Voraussetzung, um solch ein BV-System zusammensetzten zu können, ist die Vorhersage der Leistung der BV-Algorithmen. Diese Vorhersage beruht auf Daten, die bei einer off-line Evaluierung gewonnen werden können. Die aufgabenspezifische Erstellung von Leistungsprofilen der BV-Algorithmen aus diesen Daten führt zu einem Mehrziel-Optimierungsproblem (MOP). Obwohl diese Optimierung off-line erfolgt, ist die Anzahl der praktisch durchführbaren Evaluierungen auf 130 bis 200 Evaluierungsläufe beschränkt (zeitlicher Aufwand).<br />Allerdings benötigen herkömmliche Optimierungsmethoden für multimodale Probleme tausende Evaluierungsläufe. Die Lösung liegt im Einsatz von Surrogatmodellen, die das Leistungsprofil auf Basis weniger Evaluierungen nachahmen. Dieses Modell simuliert die aufwendigen, originalen Evaluierungen bei der Optimierung. Dabei wird nur mehr das schnelle Modell evaluiert und ermöglicht damit die notwendige, hohe Anzahl an Evaluierungen.<br />In dieser Dissertation wird diese Optimierungstechnik an Einziel-Optimierungsproblemen theoretisch analysiert und verbessert. Die Herausforderung besteht aus der gleichzeitigen Erfüllung dreier Aufgaben: die Verbesserung bereits bekannter Optima, die Abarbeitung des gesamten Suchraumes zur Detektion unbekannter Optima und die Verbesserung des Surrogatmodells.<br />Der zweite mathematische Beitrag dieser Dissertation ist die Übertragung dieser Optimierungstechnik auf die Mehrziel-Optimierung. Die kritische Normalisierung der konkurrierenden Ziele wird mit Hilfe der sogenannten S-Metrik erreicht. Der neu entwickelte S-Metric Selection-based Efficient Global Optimization (SMS-EGO) Algorithmus übertrifft alle bekannten Algorithmen für geringe Evaluierungsiterationen in fast allen Benchmark-Tests. Im letzten mathematischen Beitrag wird der Kontext in das Evaluierungskonzept integriert. Das daraus entstehende Mehrfache Mehrziel Optimierungsproblem (M-MOP) ist mathematisch definiert, entsprechende Benchmark-Tests generiert und geeignete Optimierungsmethoden entwickelt.<br />Der neue SMS-EGO und das M-MOP wurden an zwei BV-Algorithmen untersucht und deren praktische Anwendbarkeit gezeigt. Neben den angedachten Applikationen im Bereich der Serviceroboter können auch BV-Wettbewerbe vom entwickelten Evaluierungskonzept profitieren, indem deren Ergebnisse bezogen auf verschiedene Kontexte verfügbar werden. Letztendlich kann das Evaluierungskonzept auch als Werkzeug zur Analyse von Kontexten und deren Einflüsse auf die Leistung von BV-Algorithmen herangezogen werden.<br />Dies ermöglicht einen Vergleich mit entsprechenden, kontextspezifischen Wahrnehmungsfähigkeiten (Kognition) des Menschen.<br />
de
In order to make robots see, research is aimed at developing better computer vision algorithms to overcome typical problems involving external conditions such as different lighting, background and motion conditions. On the contrary, this work optimizes the USE of pre-existing computer vision algorithms. My 'vision of a Vision System' is to aptly apply the algorithm (out of a pool of available algorithms) that will achieve the best results, so as to perform this selection specifically for the task and context discussed. The 'task' is that which defines the essential purpose of the required vision process as well as the cost/benefit of hits/errors of the algorithm. The 'context' meant here is a structured set of influences that effects the vision processing and is vailable to the system.<br />The basic requirement for such a Vision System is the performance redictability of the vision algorithms. The prediction is based on off-line evaluations at image benchmarks covering all intended contexts.<br />Creating the performance profile of a computer vision algorithm regarding different tasks results in a Multi-objective Optimization Problem (MOP). Although this optimization takes place off-line, the number of evaluation runs is practically limited (this thesis considers 130 to 200 evaluation runs due to time constraints). The challenge arises from the fact that optimization methods for multi-modal problems require several thousands of evaluations. The puzzle clue is to apply surrogate models. The preceding step of this optimization technique models the performance profile based on only a few evaluations. This model simulates the expensive, original evaluations at the optimization step, where only the fast model has to be evaluated. Therefore, the numerousness evaluations can be performed for the actual optimization.<br />Initially this type of surrogate model-based optimization technique is analyzed theoretically and enhanced with Single-objective Optimization Problems (SOP). The issue is to balance three aspects: the exploitation of currently known optima, the exploration of the entire search space to detect unknown optima and the improvement of inaccurate or uncertain areas of the surrogate model. The second mathematical contribution of this thesis is the multi-objectivization of this optimization technique.<br />The adept normalization between the multiple concurrent objectives is performed by applying the so-called S-metric. This novel S-Metric Selection-based Efficient Global Optimization (SMS-EGO) outperforms state-ofthe-art optimization methods for low evaluation budgets at almost all tested benchmarks. On top of that, the final mathematical contribution stems from the efficient incorporation of the context into the evaluation framework. The emerging 'Multiple Multi-objective Optimization Problem' (M-MOP) is defined, a benchmark generated and suitable optimization methods developed.<br />The novel SMS-EGO and M-MOP are applied to two vision algorithms, proving the practicability of the approach. Besides the intended application in the robotics domain, computer vision competitions can provide more expressive, context-related results using the developed evaluation procedure. Finally, the evaluation framework can be used as a tool for analyzing the influence of different contexts regarding the performance of vision algorithms and to study similarities to human perceptual (cognitive) capabilities.