Hödlmoser, M. (2013). Towards exploiting redundancy for 3D scene understanding from videos [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-47582
3D Computer Vision; Kamerakalibrierung; 3D Rekonstruktion; 3D Verstehen
de
3D Computer Vision; Camera Calibration; 3D Reconstruktion; 3D Reasoning
en
Abstract:
Menschen leben in einer 3D Welt und haben die Möglichkeit, Schlussfolgerungen dreidimensional zu ziehen. So zum Beispiel werden Verdeckungen und räumliche Aufteilungen von Objekten erkannt, wobei diese Fähigkeiten für die Führung von Objekten und für die Navigation notwendig sind. Projektionen von 3D Szenen variieren in Hinblick auf die eingebundenen Objekte, welche zum Beispiel Fußgänger, Autos, Stühle, Wände, oder Berge sein können. Die Objekte können in Hinblick auf ihre Abmessungen und Farben verschieden konzipiert sein. Szenen werden aber auch unter veränderten Aufnahmebedingungen, wie zum Beispiel verschiedener Beleuchtung, Wetterbedingung oder Tageszeit, erfasst.<br />Projizierte Szenen unterscheiden sich zusätzlich in den Ereignissen oder Handlungen, welche durch oder zwischen Objekten auftreten. Aufgrund einer unendlichen Anzahl an Variationen werden Anwendungen und Algorithmen der Bildverarbeitung so entwickelt, dass sie in der Lage sind, eine spezielle Aufgabe unter bestimmten Bedingungen zu bewältigen und dabei eine festgelegte Genauigkeit erreichen.<br />Diese Arbeit versucht durch die Verwendung von redundanter Information die spezifische Wirksamkeit eines einzelnen Algorithmus aus der 3D Bildverarbeitung zu umgehen und die Robustheit zu erhöhen. Als Redundanz wird in diesem Zusammenhang die Kombination von mehreren Algorithmen oder Merkmalen bezeichnet. Das 3D Verstehen von visuellen Szenen wird in die drei Aufgaben Kamerakalibrierung, 3D Rekonstruktion und 3D Interpretation unterteilt.<br />Es werden zwei Methoden zur Selbstkalibrierung mittels Videos für Verkehrsüberwachungsszenen präsentiert. Der erste Ansatz schätzt sowohl intrinsische, als auch extrinsische Parameter mehrerer Kameras in einem Netzwerk durch die Analyse von Fußgängern. Die zweite Methode ist in der Lage, eine Verkehrsüberwachungskamera mittels Fußgänger und Zebrastreifen zu kalibrieren. Redundanz zur Kalibrierung wird durch die Kombination von mehreren zeitlichen Instanzen der Fußgänger und mittels Kombination von statischen (Zebrastreifen) und dynamischen Objekten (Fußgänger) gewonnen.<br />Künstlich geschaffene Innenräume weisen ebene und texturlose Flächen auf, wo merkmalsbasierte Ansätze nicht in der Lage sind, den 3D Szenenaufbau zu rekonstruieren. Zur Lösung dieses Problems präsentiert diese Arbeit die Kombination von 3D Information aus merkmalsbasierten Techniken mit semantischen Interpretationen. Es wird angenommen, dass ein Bild segmentiert werden kann und jedes Segment einer Ebene entspricht. Die 3D Oberflächennormalen der Segmente werden eruiert und die global beste Lösung für die Normale jedes Pixels wird durch eine pixelweise Optimierung erreicht. Redundanz zur 3D Rekonstruktion wird erstens durch mehrere Segmentierungen und zweitens durch die Kombination von merkmalsbasierten Methoden und semantischen Informationen erreicht.<br />Die 3D Interpretation beinhaltet die Beschreibung einer Vielzahl von Ereignissen, wie zum Beispiel menschliche Handlungen oder Interaktionen zwischen Objekten. Die 3D Posenschätzung und die 3D Verfolgung stellen dabei die Basis dar. Deshalb werden zwei Methoden zur Posenschätzung, Klassifizierung und 3D Verfolgung von Fahrzeugen, die neben Personen die wichtigsten zu analysierenden Objekte in der Bildverarbeitung sind, vorgestellt. Durch Verwendung von existierenden 3D Modellen wird das Problem der 3D Rekonstruktion aus einzelnen Bildern gelöst und die Trainingsphase effizienter gestaltet, da Trainingsdaten nicht manuell annotiert werden. Die beste Pose wird durch Vergleichen der Projektionen der 3D Modelle mit den Eingabebildern und durch eine globale Optimierung über aufeinander folgende Posen eruiert. Es wird auch gezeigt, dass die Genauigkeit unter Berücksichtigung von mehreren Blickrichtungen gesteigert wird. Die Redundanz zur Interpretation der 3D Szene wird durch die Verwendung von 3D Modellen, aber auch durch die zeitliche Optimierung und die gleichzeitige Analyse von mehreren, synchronisierten Blickrichtungen, sichergestellt.<br />Die Ergebnisse dieser Arbeit verdeutlichen, dass die Ausnutzung von redundanter Information die Genauigkeit aller drei Teile des 3D Verstehens einer visuellen Szene erhöht und somit die Bildverarbeitung näher an eine robustere Wahrnehmung, verglichen mit der menschlichen Wahrnehmungsfähigkeit, gebracht wird.<br />
de
Humans are living in a 3D world and are able to reason about 3D properties. They can for example estimate occlusion boundaries and spatial arrangements of objects which is necessary for object manipulation and navigation. When capturing various real world scenes on 2D image planes, they may vary in terms of involved objects. These objects can for example be pedestrians, vehicles, chairs, walls, mountains. They may also provide a variety of appearances, namely different dimensions, or colors. Images showing these scenes may also be taken under changing environmental settings which may be changes in terms of lighting, weather condition, or the time of the day. Captured scenes do also differ regarding the events and actions which occur among objects. Due to this endless number of variations, computer vision applications and algorithms are designed to handle a specific task at a specific environmental setting in order to assure a certain accuracy for that task.<br />This thesis deals with overcoming the specificity of a single algorithm and increasing its robustness by exploiting redundant information for solving 3D computer vision tasks. Redundancy in this context is a combination of different algorithms, or a variety of different cues. The task of 3D scene understanding is divided into three parts, namely calibration, 3D reconstruction and 3D reasoning.<br />Two auto-calibration methods for traffic surveillance scenarios from videos are presented. The first algorithm estimates extrinsic and intrinsic camera parameters for a whole network of cameras from analyzing pedestrians. The second proposed method aims for calibrating a surveillance camera from pedestrians and zebra-crossings. Redundant information for calibration is gathered by combining multiple instances of a pedestrian over time and by combining static and dynamic objects by means of pedestrians and zebra-crossings.<br />Man-made indoor environments suffer from flat and textureless surfaces, where conventional, feature-based 3D reconstruction pipelines fail to estimate the 3D scene layout. In order to overcome this problem, the proposed work combines conventional feature matching techniques with 3D information coming from semantic reasoning. It is assumed that an image can be segmented in parts where each segment can be modeled by a planar patch. The patches' 3D surface normal orientations are estimated and a pixel-wise optimization is exploited in order to get the globally best surface normal orientation for each pixel. Redundant information for 3D surface labeling and 3D reconstruction is achieved by combining different segmentation methods when performing semantic reasoning and by combining semantic information with geometric information coming from conventional feature matches.<br />The task of 3D reasoning covers the description of a variety of different events which are for example human actions or interactions between objects. Nevertheless, 3D pose estimation and 3D tracking are the basis for analyzing these events. Therefore, two pose estimation, object classification and tracking algorithms for vehicles, which are the most important objects to be analyzed in computer vision besides persons, are presented. The proposed methods exploit existing 3D models for pose estimation and classification of vehicles. This first enables overcoming the ill-posed problem of projecting a pixel from the image plane into 3D space and second speeds up the training phase of collecting annotated data. The best pose is then found by obtaining a matching score between 3D model projections and the input frame and by determining a global optimization over subsequent frames. It is also shown that the accuracy increases when having multiple viewpoints.<br />Redundant information for 3D reasoning is obtained by using existing 3D models, by incorporating temporal consistency, and by considering multiple viewpoints.<br />As can be seen from the experiments conducted in this thesis, exploiting redundant information improves the accuracy of all three parts of the pipeline and brings computer vision solutions one step closer towards automatically accomplishing a more robust 3D perception than humans achieve.<br />