Depth sensing and mesh-based 3D reconstruction

Schreiberhuber, Simon

doi:10.34726/hss.2023.112883

Record link:

https://doi.org/10.34726/hss.2023.112883
http://hdl.handle.net/20.500.12708/177454

Title:

Depth sensing and mesh-based 3D reconstruction

Citation:

Schreiberhuber, S. (2023). Depth sensing and mesh-based 3D reconstruction [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.112883

reposiTUm DOI:

10.34726/hss.2023.112883

CatalogPlus:

AC16863102

Publication Type:

Thesis - Dissertation

Language:

English

Authors:

Schreiberhuber, Simon

Advisor:

Vincze, Markus

Co-advisor:

Weibel, Jean-Baptiste Nicolas

Organisational Unit:

E376 - Institut für Automatisierungs- und Regelungstechnik

Date (published):

2023

Number of Pages:

Keywords:

Bildverarbeitung; Kamera; Rekonstruktion; Robotik

Computer vision; cameras; reconstruction; robotics

Abstract:

Räumliche Wahrnehmung und Analyse sind Fundamente von moderner Computer Vision und ermöglichen ein breites Feld an Anwendungen in Robotik, autonomen Fahren und Augmented Reality. Damit einher geht eine Vielzahl an Herausforderungen, wobei die beiden grundlegendsten die Erfassung von Entfernungsdaten und Kombination dieser Daten in eine konsistente Rekonstruktion sind. Diese zwei Aufgaben bilden den Kern dieser Arbeit.Das erste große Kapitel, Kapitel 3, widmet sich der maschinellen Tiefenwahrnehmung und Verbesserung existierender “structured light”-Methoden. Bei diesen Methoden wird codiertes Licht auf die zu messenden Oberflächen projeziert und mit räumlich versetzten Kameras aufgenommen. Indem man das Signal dieser Pixel entschlüsselt, lassen sich die ursprünglichen Projektionsrichtungen ableiten und mittels Triangulierung die Tiefe der einzelnen Pixel errechnen.In diesem speziellen Fall bedienen wir uns der “spatial neighborhood”-Verschlüsselung, einem verbreiteten “structured light”-Ansatz, der in kommerzieller Hardware genutzt wird. Um eine erfolgreiche Dekodierung zu gewährleisten muss das projezierte Muster in einer räumlichen Nachbarschaft intakt bleiben. Verzerrung, Abdämpfung und Fragmentierung aufgrund der Oberflächengeometrie und -beschaffenheit stellen dabei eine Herausforderung dar. Die verwendeten Dekodierungsalgorithmen müssen deshalb einen Kompromiss zwischen Präzision der resultierenden Messung und Robustheit gegenüber den soeben genannten Effekten bieten. Klassische “stereo matching”-Methoden liefern zuverlässige Resultate, indem das aufgenommene Bild mit einem Referenzbild des projezierten Musters verglichen wird. Robustheit bezüglich Verzerrungen und akkurate Ergebnisse sind dabei gegensätzlich, sodass eine Verbesserung in einem Aspekt oft nur mit Kompromissen in anderen Aspekten möglich ist. Wir zeigen, dass Robustheit und Genauigkeit entscheidend gesteigert werden können, indem man die Positionen der einzelnen Pixel im Referenzmuster direkt schätzt. Der von uns vorgestellte “weight-adaptivelayer” ermöglicht es Informationen zu verarbeiten, die zuvor durch ein “convolutional neural network” aus den rohen Bilddaten extrahiert worden sind. Dies geschieht in einem mehrstufigen Klassifikations- und Regressionsmodell: Ein auf “multilayerperceptrons” basierter Entscheidungsbaum, der den Lösungsraum in kleiner werdende Intervalle unterteilt, bis ein finaler Regressionsschritt subpixelgenaue Resultate liefert.Da unser Ansatz während der Trainingsphase auf absolute “ground-truth”-Tiefendaten angewiesen ist, führen wir das Training mit Hilfe eines künstlichen Datensatzes aus, der nahe an der Realität und den Anwendungsfällen eines solchen Sensors liegt. Anhand eines separaten Datensatzes, der mit einem “structured light”-Sensor und einem proffessionellen Laserscanner aufgenommen worden ist, zeigen wir auf, dass unser Ansatz aktuellen konkurrierenden Methoden überlegen ist: Wir demonstrieren starke Unempfindlichkeit hinsichtlich des Wechsels von der Trainings- zur Anwendungsdomäne, sowie hohe Genauigkeit auf subpixel-Niveau.Das zweite zentrale Kapitel, Kapitel 4, behandelt die Herausforderungen und Vorteile von 3D-Rekonstruktionen anhand des genutzten, auf Dreiecken basierten Oberflächenmodells. Dichte 3D-Rekonstruktionen akkumulieren einzelne Aufnahmen in ein globalkonsistentes Modell der Umgebung, welches in Anwendungen genutzt werden kann,wie zum Beispiel der Robotik. Gegenwärtige, auf RGB-D Daten operierende Systeme sind dabei jedoch eingeschränkt, da die gängigen volumetrischen Datenstrukturen die Auflösung der Farbinformationen an die geometrische Auflösung koppeln – Dies ist ein limitierender Faktor dieser Methoden. Wir präsentieren deshalb einen echtzeitfähigenAlgorithmus, der die Erstellung und Aktualisierung dreiecksbasierter Oberflächenrekonstruktionen ermöglicht. Die vorgestellten Methoden, um Speicherverbrauch undDetailgrad zu steuern, erlauben sowohl kleinste Details von Objekten akkurat zu rekonstruieren, als auch große Areale oder Gebäude in Echtzeit zu verwalten und darzustellen.Um die Vorteile dieses Algorithmus zu demonstrieren, erweitern wir eine handelsübliche PrimeSense basierte RGB-D Kamera mit einer hochauflösenden “global shutter” RGBKamera. Die resultierenden Rekonstruktionen zeigen nicht nur mehr Details, sondern erfassen auch größere Areale als typische surfel- oder volumenbasierte Rekonstruktionen.

Spatial understanding and sensing is a cornerstone of modern computer vision and the enabler of a vast field of applications in robotics, augmented reality, or self-driving by providing a geometrically interpretable foundation. However, this comes with a number of challenges whose two most fundamental ones are the acquisition of range data and the coherent integration of said data into a reconstruction. These are the main topics of this work and receive dedicated chapters each.The first major chapter of this work, Chapter 3, is focused on depth sensing and takes on the challenge of improving existing structured light principles. By projecting encodedlight onto the measured surfaces and decoding the pattern position from a capturedcamera image, simple triangulation can give dense depth values on a per-pixel basis.Spatial neighborhood encoding, in particular, is a popular structured light approachfor off-the-shelf hardware. However, it suffers from the distortion and fragmentation of the projected pattern by the scene’s geometry in the vicinity of a pixel. This forces algorithms to find a delicate balance between depth prediction accuracy and robustness to pattern fragmentation or appearance change. While stereo matching provides more robustness at the expense of accuracy, we show that learning to regress a pixel’s position within the projected pattern is not only more accurate when combined with classification but can be made equally robust. We propose splitting the regression problem into smaller classification subproblems in a coarse-to-fine manner with the use of a weight adaptive layer that efficiently implements branching per-pixel Multilayer Perceptrons applied to features extracted by a Convolutional Neural Network. As our approach requires full supervision, we train our algorithm on a rendered dataset sufficiently closeto the real-world domain. On a separately captured real-world dataset, we show thatour network outperforms state of the art and is significantly more robust than other regression-based approaches.The second major topic, presented in Chapter 4, discusses the challenges and benefits of 3D reconstruction while focusing on the influence of the utilized data structure.Dense 3D reconstructions generate globally consistent data of the environment suitable for many robot applications. Current RGB-D-based real-time reconstructions, however,only maintain the color resolution equal to the depth resolution of the used sensor.This firmly limits the precision and realism of the generated reconstructions. We present a real-time approach for creating and maintaining a surface reconstruction in as high as possible a geometrical fidelity with full sensor resolution for its colorization.By performing the reconstruction directly on a dense triangle mesh, we overcome the lossyand inflexible nature of voxel-based reconstructions that, for many purposes, need toI be transformed to such triangle mesh. A multi-scale memory management process and a Level of Detail scheme enable equally detailed reconstructions to be generated at small scales, such as objects, as well as large scales, such as rooms or buildings. We show case the benefit of this novel pipeline with a PrimeSense RGB-D camera as well asby combining the depth channel of this camera with a high resolution global shutter camera. Further experiments show that our memory management approach allows us to scale up to larger domains that are not achievable with current state-of-the-art methods.

Additional information:

Zusammenfassung in deutscher Sprache
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis