Mit zunehmenden Fortschritten im Bereich des autonomen Fahren stellen genaue Entfernungsschätzungen und die Robustheit gegenüber Bildrauschen eine Herausforderung für ausschließlich auf RGB basierenden Steuergeräten dar. Diese Arbeit untersucht wie sich die Hinzunahme von räumlicher Tiefeninformationen, neben der Eingabe von "Single Modality", auf die Lenkvorhersage auswirkt. Im Gegensatz zu bestehenden Ergebnissen, welche die Vorzüge der multimodalen Wahrnehmung in Simulationen aufzeigen, werden in dieser Arbeit leichte RGB-D Modelle auf einer ressourcenbeschränkten Plattform eingesetzt. Die Arbeit untersucht drei Schlüsselfragen: (1) Inwieweit verbessert Tiefeninformationen die Lenkungsleistung? (2) Welche Fusionsmethode bietet die beste Balance zwischen Robustheit und Effizienz? (3) Kann volle Autonomie mit einem leichten multimodalen Steuerungssystem erreicht werden? Zu diesem Zweck wird eine kleine autonome Plattform, der roboracer, verwendet, um verschiedene Fusionstechniken zu testen, einschließlich "early" und "late Fusion", sowie fortgeschrittene räumliche Anpassungsmechanismen wie "deformable convolutions" und Weitere. Neben Experimenten mit "open-loop" werden auch solche mit "closed-loop" durchgeführt. Die Leistung der Modelle wird anhand von Metriken wie der mittleren quadratischen Abweichung, "Attention Maps" und der Analyse von Steuerbefehlssequenzen mit Fokus auf der Navigationsstabilität bewertet. Die Ergebnisse zeigen, dass die Einbeziehung von Tiefeninformationen durch "early Fusion" die Zuverlässigkeit des Controllers verbessert. Reine RGB-Modelle zeigen insbesondere bei unterschiedlichen Beleuchtungs Schwierigkeiten und versagen in Regionen mit unzureichenden visuellen Hinweisen, während RGB-D-Modelle Tiefeninformationen nutzen, um effektiv zu navigieren und selbst bei Bildausfällen und Sensorrauschen eine gleichbleibende Leistung aufweisen. Die "early Fusion" ermöglicht zudem eine robuste und stabile Navigation durch Fokussierung auf kritische Fahrhinweise. Dies bestätigt die Bedeutung einer tiefenverstärkten Modalitätswahrnehmung für robuste und effiziente Controller auf Basis neuronaler Netze.
de
As more and more advancements are made in the autonomous driving scene, accurate distance estimation and image noise robustness remain challenging for solely RGB-reliant controllers. This thesis examines the impact of integrating depth information alongside single-modality input on steering prediction. Furthermore, stepping up from previous work which demonstrates the benefits of multimodal perception in simulations, this research deploys lightweight RGB-D models on a resource-constrained platform. The presented work investigates three key questions: (1) To what extent does depth improve steering performance? (2) Which fusion method provides the best balance between robustness and efficiency? (3) Can full autonomy be achieved with a lightweight multimodal control system? A small-scale platform, roboracer, is used to test various fusion techniques, including early and late fusion, as well as advanced spatial adaptability mechanisms like deformable convolutions and variants thereof. Closed-loop experiments are carried out alongside open-loop counterparts while assessing the models' performance by employing metrics such as mean squared error, attention maps, and analysis of steering command sequences, with a focus on navigation stability. Ultimately, the results reveal that incorporating depth information through early fusion improves the controller's reliability. In particular, RGB-only models struggle under varying lighting and fail in regions with insufficient visual cues, whereas RGB-D models leverage depth information to navigate effectively and maintain consistent performance even when exposed to frame drops and sensor noise. Above all, early fusion enables robust and stable navigation by focusing on critical driving cues, confirming the importance of depth-enhanced modality perception for robust and efficient neural network controllers.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers