Wolf, D. (2017). Learning and modeling scene context for semantic segmentation of 3D point clouds [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.45521
Bereits in naher Zukunft werden autonome Roboter endgültig Einzug in unseren Straßenverkehr und in unsere Wohnungen halten. Mit der fortschreitenden Entwicklung dieser Systeme wird es immer wichtiger, dass diese in der Lage sind, ihre Umgebung zu erkennen, zu interpretieren und angemessen darauf zu reagieren. Selbstfahrende Autos müssen schnell zwischen Fahrbahn, Autos, Gehsteigen, Gebäuden und Menschen unterscheiden; mobile Serviceroboter, egal ob zu Hause oder in der Industrie eingesetzt, müssen ihre unmittelbare Umwelt erkennen und verstehen, um ihr Potenzial voll auszuschöpfen. Ein zugrunde liegendes, aber noch ungelöstes Problem auf dem Weg zu einem ganzheitlichen, visuellen Szenenverständnis solcher Systeme ist semantische Segmentierung, das heißt, die Dekomposition einer Szene in ihre semantisch bedeutungsvollen Teile. Aus der Sicht eines Computer Vision Systems besteht die größte Herausforderung bei semantischer Segmentierung darin, die häufig in einer Szene auftretenden Mehrdeutigkeiten richtig zu interpretieren. Eine Szene kann schließlich aus hunderten verschiedenen Objekten zusammengesetzt sein, die sich zusätzlich noch gegenseitig verdecken. Allerdings weisen die meisten von Menschen erstellten Umgebungen die Eigenschaft auf, dass sie wiederholt auf ähnliche Weise angeordnet sind, zum Beispiel Räume, die einem bestimmten Zweck dienen. Kann dieser Szenenkontext erkannt und berücksichtigt werden, hilft dies einem semantischen Segmentierer, schwierige Szenen richtig zu interpretieren. In diesem Zusammenhang stellt diese Arbeit zwei neuartige Konzepte zur Verbesserung von semantischer Segmentierung vor, mit welchen kontextuelle Information in 3D Punktwolken von Szenen automatisch gelernt und modelliert werden kann. Beide Methoden wurden im Hinblick auf eine Anwendung auf mobilen Robotern entwickelt und weisen daher sehr schnelle Berechnungszeiten auf. Der erste Ansatz basiert auf einem Random Forest Klassifizierer, der eine erste lokale semantische Einordnung errechnet, welche anschließend von einem vollständig zusammenhängenden Conditional Random Field verfeinert wird. Für alle semantischen Klassen werden Kompatibilitäts-Parameter gelernt, welche in den paarweisen Termen des Modells dazu beitragen, dass oft auftretende Kombinationen von Objekten, abhängig von ihrer geometrischen Anordnung, bevorzugt werden. Die zweite Methode erweitert den Klassifizierer um ein neues Set sogenannter 3D Entangled Features. Diese Features ermöglichen es einem Random Forest direkt, geometrische und kontextuelle Beziehungen zwischen verschiedenen Objekten explizit zu Modellieren und zur Klassifizierung heranzuziehen, sodass keine weitere Verfeinerung notwendig ist. In einer detaillierten Evaluierung auf mehreren Indoor-Datensätzen vergleichen wir beide Varianten miteinander und mit dem aktuellen Stand der Technik. Die Ergebnisse zeigen klar, dass die Berücksichtigung von Kontext semantische Segmentierung deutlich verbessert. In einer weiteren tiefgreifenden Analyse betrachten wir die individuelle Effizienz unserer neuen 3D Entangled Features. Abschließende Untersuchungen zur Berechnungszeit unserer Methoden unterstreichen ihre Eignung für die Anwendung auf einem mobilen Roboter.
de
With autonomous robotic systems advancing and finally also making their way onto our roads and into our homes in the foreseeable future, it is vital that these systems are equipped with capabilities to recognize and interpret their environment and react to it with intelligent informed decisions. Autonomous cars need to quickly distinguish between drivable road, cars, sidewalks, buildings and people. Or mobile service robots, regardless if they are used in an industrial setting or at home, have to recognize and understand their immediate surroundings to fully exploit their potential. A fundamental underlying problem to achieve this level of holistic visual scene understanding is semantic segmentation, which describes the decomposition of a scene into its semantically meaningful parts. From a computer vision perspective, the major challenge of semantic segmentation is to resolve the frequent ambiguities that are observed in an image of a scene, which potentially consists of hundreds of different objects that often also occlude each other. However, an essential property of most man-made scenes is that they are repeatedly arranged in a similar fashion, such as rooms serving a particular purpose. Being able to identify and consider this scene context can guide a semantic segmentation system to resolve challenging scenes and improve the performance. Focusing on this capability, this thesis introduces two novel concepts to automatically learn and model contextual information from 3D point clouds of a scene and exploit it to improve semantic segmentation. Developed for computational efficiency, both methods exhibit fast processing times, which is a crucial factor to consider for online applications on a robot. Our first approach is based on a random forest classifier to obtain a local semantic prediction, which is then refined using a densely connected conditional random field. Label compatibility parameters are learned and incorporated in the pairwise terms of the model, emphasizing frequently appearing pairwise combinations of objects, depending on their geometric arrangement. The second method enhances the classifier by introducing a novel set of so-called 3D entangled features. This feature set directly enables a random forest to explicitly model and incorporate contextual and geometric relations between different objects, such that a separate refinement step is not required. We compare both methods to each other and the current state of the art in a detailed evaluation on several indoor datasets. The results clearly indicate that taking context into account is crucial for semantic segmentation, boosting the performance in each case. In an in-depth analysis we further examine the individual contributions of our new entangled feature set and provide a comprehensive evaluation of the computational efficiency of our methods, proving their suitability for the deployment on a mobile robotic system.