Automated digital content creation from point clouds and image data

Schenzel, Georg

doi:10.34726/hss.2024.123826

Datensatz Zitierlink:

https://doi.org/10.34726/hss.2024.123826
http://hdl.handle.net/20.500.12708/205279

Titel:

Automated digital content creation from point clouds and image data

Zitat:

Schenzel, G. (2024). Automated digital content creation from point clouds and image data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.123826

reposiTUm-DOI:

10.34726/hss.2024.123826

CatalogPlus:

AC17385380

Publikationstyp:

Hochschulschrift - Diplomarbeit

Sprache:

Englisch

Autor_innen:

Schenzel, Georg

Betreuer_in:

Kan, Peter

Mitbetreuer_innen:

Kaufmann, Hannes

Organisationseinheit:

E193 - Institut für Visual Computing and Human-Centered Technology

Datum (veröffentlicht):

2024

Umfang:

Keywords:

mesh reconstruction; 3D semantic segmentation; mesh semantic segmentation; photogrammetry; point clouds; autonomous driving simulations; automation pipeline; virtual view semantic segmentation; urban mesh dataset

Abstract:

Diese Arbeit stellt eine Pipeline vor, die reale Daten wie Punktwolken und Bilder nutzt, um digitale Zwillinge für autonome Fahrsimulationen zu erstellen. Simulationen spielen eine entscheidende Rolle bei der Entwicklung sicherer autonomer Fahrsysteme, da sie kostengünstige und risikofreie Tests ermöglichen. Um die Zuverlässigkeit dieser Simulationen zu gewährleisten, müssen die virtuellen Umgebungen der realen Welt sehr ähnlich sein. Unsere Pipeline erzeugt aus den Eingabedaten hochwertige 3D-Meshes mit fotorealistischen Texturen. Zusätzlich wird eine semantische Segmentierung des rekonstruierten 3D-Modells durchgeführt, die als Grundlage für nachfolgende Simulationsanwendungen dient. Diese semantische Segmentierung wird durch einen Virtual-View-Ansatz erreicht, bei dem 2D-Renderings der Szene mit einem vortrainierten Modell segmentiert werden und die Ergebnisse dann auf die 3D-Szene zurückprojiziert werden. Informationen über den Straßenverlauf und die Fahrspuren werden aus OpenStreetMap bezogen und mit dem 3D-Modell überlagert. Schlussendlich wird das Ergebnis der Pipeline zur Erstellung einer virtuellen Umgebung im Fahrsimulator CARLA verwendet. Wir haben Bild- und Punktwolkendaten von drei verschiedenen Orten gesammelt und die Pipeline mit diesen Daten getestet. Wir haben die Unterschiede in den Rekonstruktionen aus beiden Eingabemodalitäten verglichen und ihre Effektivität für praktische Anwendungen evaluiert. Die Rekonstruktionen der Szenen wurden manuell semantisch annotiert, um Referenzwerte für die quantitative Evaluierung des 3D semantischen Segmentationsalgorithmus zu erhalten. Die Pipeline wurde in Python mit dem Ziel eines hohen Automatisierungsgrades implementiert. Sie ist in der Lage innerhalb weniger Stunden einen qualitativ hochwertigen digitalen Zwilling zu erstellen, wobei der/die Benutzer/in weniger als 20 Minuten für manuelle Tätigkeiten benötigt. Der semantische Segmentationsalgorithmus erreicht einen mIoU-Wert von 55,2 und einen F1-Wert von 67,1, was eine gute Leistung der Segmentierung der Gitterpunkte in unseren Datensätzen widerspiegelt. Dieser Ansatz ist ein Schritt nach vorne für eine sicherere und schnellere Entwicklung von automatisierten Fahrsystemen.

This thesis presents a pipeline that leverages real-world data, such as point clouds and images, to create digital twins for autonomous driving simulations. Simulations play a crucial role in the development of safe automated driving systems, as they enable cost-effective and risk-free testing. To ensure the reliability of these simulations, virtual environments must closely resemble the real world. Our pipeline generates high-quality 3D meshes with photorealistic textures from the input data. Additionally, a 3D semantic segmentation of the reconstructed mesh is performed, providing ground truth data for downstream simulation tasks. This semantic segmentation is achieved using a virtual-view approach, where 2D renderings of the scene are segmented with an off-the-shelf model, and the predictions are projected back into the 3D scene. Information about the road layout and lanes is obtained from OpenStreetMap and aligned with the mesh. Finally, the pipeline output is used to create a virtual map in the driving simulator CARLA. We captured image and point cloud data from three locations and tested the pipeline using this input. We compared the differences in reconstructions from both input modalities, assessed their feasibility, and evaluated their effectiveness for practical applications. Reconstructions of the scenes were manually semantically annotated to provide ground truth for quantitative evaluation of the 3D semantic segmentation algorithm. The pipeline was implemented in Python with the goal of achieving a high degree of automation. It can produce a high-quality digital twin in a matter of hours, requiring minimal user intervention of under 20 minutes. The semantic segmentation algorithm achieves an mIoU of 55.2 and an F1 score of 67.1, reflecting a good performance for labeling the vertices of our datasets. This streamlined approach is a step forward for safer and faster development of automated driving systems.

Lizenz:

Urheberrechtsschutz

Enthalten in den Sammlungen:

Thesis