Widhalm, V. (2023). Learning navigation priors based on adaptive data aggregation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.70301
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2023
-
Number of Pages:
99
-
Keywords:
data aggregation; object detection; object localization; distance estimation; monocular camera
en
Abstract:
Autonomes Fahren lässt sich in 6 Level der Autonomie unterteilen. Während bei Level 0 keine Automatisierung am Fahrzeug vorgesehen ist, beschreibt Level 5 ein voll automatisiertes Fahrzeug das ganz ohne menschlichen Fahrer auskommt [Int18]. Die Fahrzeuge der Autobauer haben derzeit Level 2 erreicht und sind kurz davor Level 3 abzuschließen. Bei Level 3 muss noch eine Person im Fahrzeug anwesend und aufmerksam sein aber kann die Hände vom Lenkrad nehmen und das Fahrzeug fährt selbstständig [QLL22]. Um die nächste Autonomiephase zu erreichen sind weitere Entwicklungen im Bereich des Maschinellen Lernens erforderlich. Damit Autonomes Fahren generell möglich ist, muss das Fahrzeug während des Fahrprozesses wissen wo es sich befindet und weiters seine unmittelbare Umgebung wahrnehmen. Um das zu gewährleisten, benötigen Neuronale Netze ein menschenähnliches Szenenverständnis. Dies geschieht, indem sie spezifische Fahrdaten von verschiedenen bildgebenden Sensoren wie etwa Bilder von RGB Kameras über einen längeren Zeitraum analysieren. Die daraus gewonnenen Daten und abgeleiteten Erkenntnisse unterstützen autonome Fahrzeuge dabei ihre Umgebung zu erkennen und zu verstehen. Diese gesammelten Informationen können auch an andere Fahrzeuge weitergegeben werden und können genutzt werden, um das Fahrverhalten auf kommende Ereignisse anzupassen. Dadurch sind zum Beispiel Hindernisse und deren geografische Positionen für autonome Fahrzeuge bereits bekannt, obwohl sie diese selbst mit ihren Sensoren noch nicht erfasst haben. Es muss jedoch auch eine Phase der Koexistenz berücksichtigt werden in der sich sowohl autonome als auch von Menschen gesteuerte Fahrzeuge im Straßenverkehr über einen langen Zeitraum gemeinsam bewegen können. Daher sind statische Infrastrukturen wie zum Beispiel Verkehrszeichen und Ampelanlagen für die Sicherheit und das richtige Verhalten im Straßenverkehr unerlässlich. Für den Fahrprozess ist die Eigenlokalisation des autonomen Fahrzeugs wichtig, um sich zu orientieren und eine passende Wegstrecke zu finden. Jedoch ist die Eigenlokalisierung teilweise zu ungenau. Grund dafür ist ein gestörtes Signal, von welchem die ungenauen GPS Daten produziert werden. Um die Lokalisierung des Fahrzeugs als auch von anderen Objekten zu gewährleisten, muss die Umgebung durch einen Sensor wie zum Beispiel eine Kamera wahrgenommen werden. Jedoch wird die Wahrnehmung der Umgebung auf Basis von Kamerabildern erschwert durch gewisse Störfaktoren wie etwa durch Aufnahmeartefakte, Verkehrshindernisse während der Fahrt oder erschwertes Detektieren und Tracken von Objekten während dem Fahrprozess auf Grund von bewegten Kameraaufnahmen während der Fahrt.Um diese Herausforderungen zu meistern und eine robuste Wahrnehmung mit anschließender Lokalisierung zu unterstützen, wird im Zuge dieser Arbeit eine Kombination aus Convolutional Neural Networks untersucht. Die Objektlokalisierung im Rahmen dieser Arbeit ist das Ergebnis von drei Hauptkomponenten: ein Modul für Datenvorverarbeitung und -aggregation, ein Modul zur Objekterkennung und -klassifikation und ein Lokalisierungsmodul. Während das erste vorverarbeitete Daten aufbereitet um die Modelle zu trainieren und optimieren, extrahieren die resultierenden Modelle in den Erkennungs- und Klassifizierungsmodulen die straßenbezogenen Informationen aus den Bilddaten. Es werden dabei Autos, Radfahrer, Lastwagen, Personen, Verkehrsampeln und Verkehrsschilder entlang der Fahrbahn identifiziert. Durch Optimierungen unter Verwendung der zeitlichen Komponente werden die Ergebnisse mit Hilfe von Optical Flow und Object Tracking verbessert. Abschließend erfolgt im Lokalisierungsmodul die finale Berechnung und Positionierung der Objekte in einer Straßenkarte.
de
There are 6 levels of autonomous driving, whereby level 0 means the driver is steering the car with no automation and level 5 is fully automation and can drive without any human driver [Int18]. Today car manufacturers are above level 2 and close to level 3 where the autonomous vehicle is driving by its own but it is required that the driver take over the control of the vehicle if it is requested by the vehicle [QLL22]. To reach the next level, further developments of machine learning are essential. To enable autonomous driving, the vehicle must know where it is during the driving process and perceive its immediate surroundings. Therefore, algorithms for autonomous driving need human like scene understanding by analyzing specific driving data from various sensors like images from a RGB camera over time. The collected data and the derived information from the data supports the autonomous vehicles to recognize and understand their surroundings. To further improve autonomous driving, it is necessary to get access to accurate information of obstacles and their geolocations. Autonomous vehicles are able to share and exchange the collected information with other autonomous vehicles. This means, for example, that obstacles and its geographical positions are already known to autonomous vehicles, even though they have not yet detected the obstacles itself with their sensors. However, stationary infrastructure is still essential like traffic signs and lights are essential for safety and proper behavior in road traffic due to the fact that autonomous vehicles and human-driven cars have to share the roads as long as humans are still driving cars by their own. Self-localization is needed for autonomous driving even though the localization can be inaccurate due to a disturbed GPS signal. To ensure the localization of the vehicle as well as other objects, the driving environment must be perceived by a sensor such as a camera. However, the environmental perception by image sequences is hampered by certain disturbing factors such as recording artifacts, traffic obstacles while driving or moving background.To address the challenges and to support a robust visualization, a combined approach based on convolutional neural networks is introduced. Within this thesis the performance of traffic sign localization and self-localization are the result of three major factors, namely: the data preprocessing and aggregation approach, the object detection and classification part and the localization module. While the first one prepares preprocessed data to train the models, the next two modules, the detection and classification modules extract the road-related information. The models are trained to identify cars, bicycles, trucks, persons, traffic lights and traffic signs along the traffic area. By using the temporal data, the results of the previous modules are improved. For that, optical flow and object tracking are used. The localization module performs the final localization of the objects within the street map.