Learning and modeling scene context for semantic segmentation of 3D point clouds

Wolf, Daniel

doi:10.34726/hss.2017.45521

DC Field

Value

Language

dc.contributor.advisor

Vincze, Markus

dc.contributor.author

Wolf, Daniel

dc.date.accessioned

2020-06-28T10:30:48Z

dc.date.issued

2017

dc.date.submitted

2017-06

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Wolf, D. (2017). <i>Learning and modeling scene context for semantic segmentation of 3D point clouds</i> [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.45521</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2017.45521

dc.identifier.uri

http://hdl.handle.net/20.500.12708/3804

dc.description.abstract

Bereits in naher Zukunft werden autonome Roboter endgültig Einzug in unseren Straßenverkehr und in unsere Wohnungen halten. Mit der fortschreitenden Entwicklung dieser Systeme wird es immer wichtiger, dass diese in der Lage sind, ihre Umgebung zu erkennen, zu interpretieren und angemessen darauf zu reagieren. Selbstfahrende Autos müssen schnell zwischen Fahrbahn, Autos, Gehsteigen, Gebäuden und Menschen unterscheiden; mobile Serviceroboter, egal ob zu Hause oder in der Industrie eingesetzt, müssen ihre unmittelbare Umwelt erkennen und verstehen, um ihr Potenzial voll auszuschöpfen. Ein zugrunde liegendes, aber noch ungelöstes Problem auf dem Weg zu einem ganzheitlichen, visuellen Szenenverständnis solcher Systeme ist semantische Segmentierung, das heißt, die Dekomposition einer Szene in ihre semantisch bedeutungsvollen Teile. Aus der Sicht eines Computer Vision Systems besteht die größte Herausforderung bei semantischer Segmentierung darin, die häufig in einer Szene auftretenden Mehrdeutigkeiten richtig zu interpretieren. Eine Szene kann schließlich aus hunderten verschiedenen Objekten zusammengesetzt sein, die sich zusätzlich noch gegenseitig verdecken. Allerdings weisen die meisten von Menschen erstellten Umgebungen die Eigenschaft auf, dass sie wiederholt auf ähnliche Weise angeordnet sind, zum Beispiel Räume, die einem bestimmten Zweck dienen. Kann dieser Szenenkontext erkannt und berücksichtigt werden, hilft dies einem semantischen Segmentierer, schwierige Szenen richtig zu interpretieren. In diesem Zusammenhang stellt diese Arbeit zwei neuartige Konzepte zur Verbesserung von semantischer Segmentierung vor, mit welchen kontextuelle Information in 3D Punktwolken von Szenen automatisch gelernt und modelliert werden kann. Beide Methoden wurden im Hinblick auf eine Anwendung auf mobilen Robotern entwickelt und weisen daher sehr schnelle Berechnungszeiten auf. Der erste Ansatz basiert auf einem Random Forest Klassifizierer, der eine erste lokale semantische Einordnung errechnet, welche anschließend von einem vollständig zusammenhängenden Conditional Random Field verfeinert wird. Für alle semantischen Klassen werden Kompatibilitäts-Parameter gelernt, welche in den paarweisen Termen des Modells dazu beitragen, dass oft auftretende Kombinationen von Objekten, abhängig von ihrer geometrischen Anordnung, bevorzugt werden. Die zweite Methode erweitert den Klassifizierer um ein neues Set sogenannter 3D Entangled Features. Diese Features ermöglichen es einem Random Forest direkt, geometrische und kontextuelle Beziehungen zwischen verschiedenen Objekten explizit zu Modellieren und zur Klassifizierung heranzuziehen, sodass keine weitere Verfeinerung notwendig ist. In einer detaillierten Evaluierung auf mehreren Indoor-Datensätzen vergleichen wir beide Varianten miteinander und mit dem aktuellen Stand der Technik. Die Ergebnisse zeigen klar, dass die Berücksichtigung von Kontext semantische Segmentierung deutlich verbessert. In einer weiteren tiefgreifenden Analyse betrachten wir die individuelle Effizienz unserer neuen 3D Entangled Features. Abschließende Untersuchungen zur Berechnungszeit unserer Methoden unterstreichen ihre Eignung für die Anwendung auf einem mobilen Roboter.

dc.description.abstract

With autonomous robotic systems advancing and finally also making their way onto our roads and into our homes in the foreseeable future, it is vital that these systems are equipped with capabilities to recognize and interpret their environment and react to it with intelligent informed decisions. Autonomous cars need to quickly distinguish between drivable road, cars, sidewalks, buildings and people. Or mobile service robots, regardless if they are used in an industrial setting or at home, have to recognize and understand their immediate surroundings to fully exploit their potential. A fundamental underlying problem to achieve this level of holistic visual scene understanding is semantic segmentation, which describes the decomposition of a scene into its semantically meaningful parts. From a computer vision perspective, the major challenge of semantic segmentation is to resolve the frequent ambiguities that are observed in an image of a scene, which potentially consists of hundreds of different objects that often also occlude each other. However, an essential property of most man-made scenes is that they are repeatedly arranged in a similar fashion, such as rooms serving a particular purpose. Being able to identify and consider this scene context can guide a semantic segmentation system to resolve challenging scenes and improve the performance. Focusing on this capability, this thesis introduces two novel concepts to automatically learn and model contextual information from 3D point clouds of a scene and exploit it to improve semantic segmentation. Developed for computational efficiency, both methods exhibit fast processing times, which is a crucial factor to consider for online applications on a robot. Our first approach is based on a random forest classifier to obtain a local semantic prediction, which is then refined using a densely connected conditional random field. Label compatibility parameters are learned and incorporated in the pairwise terms of the model, emphasizing frequently appearing pairwise combinations of objects, depending on their geometric arrangement. The second method enhances the classifier by introducing a novel set of so-called 3D entangled features. This feature set directly enables a random forest to explicitly model and incorporate contextual and geometric relations between different objects, such that a separate refinement step is not required. We compare both methods to each other and the current state of the art in a detailed evaluation on several indoor datasets. The results clearly indicate that taking context into account is crucial for semantic segmentation, boosting the performance in each case. In an in-depth analysis we further examine the individual contributions of our new entangled feature set and provide a comprehensive evaluation of the computational efficiency of our methods, proving their suitability for the deployment on a mobile robotic system.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Semantische Segmentierung

dc.subject

Tiefenbilder

dc.subject

Robotik

dc.subject

Objekterkennung

dc.subject

Semantic segmentation

dc.subject

depth images

dc.subject

robotics

dc.subject

object recognition

dc.title

Learning and modeling scene context for semantic segmentation of 3D point clouds

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2017.45521

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Daniel Wolf

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E376 - Institut für Automatisierungs- und Regelungstechnik

dc.type.qualificationlevel

Doctoral

dc.identifier.libraryid

AC13725827

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-99414

dc.thesistype

Dissertation

dc.thesistype

Dissertation

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

item.languageiso639-1

item.openairetype

doctoral thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_db06

item.openaccessfulltext

Open Access

crisitem.author.dept

E376 - Institut für Automatisierungs- und Regelungstechnik

crisitem.author.parentorg

E350 - Fakultät für Elektrotechnik und Informationstechnik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(14.53 MB)

In Copyright

Show simple item record

Page view(s)

257

checked on Dec 1, 2023

Download(s)

checked on Dec 1, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM