Ulmer, S. (2023). Attention based neural network for autonomous driving agents [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.101600
Over the last decade, autonomous driving has continuously evolved with respect to innovation and safety. From the tests in a laboratory at the early stage of development, the automotive industry managed to get the cars to public roads, advancing the research ofintelligent systems. The overall aim is to reduce traffic accidents and increase the possible mobility for people. The technological advance improved the reliability and performance of the hardware used for autonomous driving, but these systems have struggled in adapting to the complexity and variety of scenarios in the real world till recent years. Machine learning proved to be an effective method to enhance the adaptation of these systems to a broad variety of driving scenarios, through the learning from historical data and the generalization capabilities of deep-learning models. This pushed the research in machine learning topics and a lot of research was done in the last recent years on how machine learning can support autonomous driving systems. Nowadays, there is no fully autonomous driving system that is able to deal with the complexity of real-world driving, but many systems are fastly progressing towards full autonomy. Despite the wide adoption of self-driving terminology, there are many categories for classifying the autonomy level. A car has to fulfill a certain level for the allowance to provide these autonomous systems in real traffic. Valuable insights into driving behavior are provided by human-attention, a crucial elementin driving, playing a significant role in identifying and reacting to various road conditions and potential hazards in driving situations.To advance the capability of existing autonomous driving systems, the potential benefits of incorporating human-attention can be considered for the training process. By including human-attention as an additional feature for training neural networks, this master thesis observes improvements regarding the steering angle prediction of an autonomous driving system on a track. For the usage of machine learning, a dataset with driving scenarios including human-attention had to be created. The F1tenth framework was used to operate the car on the track and a mounted Logitech camera on the car recorded a video during driving to create the frame-based dataset.Additionally, the ViewPointSystem-glasses were used to record the human-attention for the specific frames and save the corresponding attention-gaze coordinates for the dataset. From the dataset as starting point an attention model was implemented and trained to predict the human-attention for incoming frames. When this prediction was reasonable, the next step was the design of an agent model that would predict a steering angle based on an input frame with a human-attention area marked on it.After having evaluated the performance of the trained agents in simulation, the deployment of the trained model was done on a F1Tenth racecar. The results in simulation and real-world deployment show encouraging improvements due to the use of human-attention features. Therefore, it suggests the potential of integrating human-attention models in future autonomous driving systems.
en
In dem letzten Jahrzehnt hat autonomes Fahren kontinuierlich an Innovation zugelegt und die Sicherheit verbessert. Von anfänglichen Tests im Labor, schaffte es die Automobilindustrie, das autonome Fahren auf öffentliche Straßen zu bringen und die Forschung intelligenter Systeme voranzutreiben. Das Ziel ist, Verkehrsunfälle zu reduzieren und die menschliche Mobilität zu erhöhen. Der technologische Fortschritt hat die Zuverlässigkeit und Leistung der Hardware für das autonome Fahren verbessert, trotzdem haben diese Systeme Schwierigkeiten, alle Szenarien der realen Welt zu meistern. Eine Lösung für dieses Problem ist maschinelles Lernen, da es aus vorhandenen Fahrszenarien lernt, wie vergleichbare Situationen bewältigt werden können. Dies hat die Forschung in maschinellem Lernen vorangetrieben, in den letzten Jahren wurde untersucht wie machinelles Lernen das autonome Fahren unterstützen kann. Obwohl es heutzutage noch kein vollständig autonomes Fahrsystem gibt, das mit der Komplexität des realen Straßenverkehrs umgehen kann, machen viele Systeme rasante Fortschritte in Richtung vollständiger Autonomie. Trotz der Verbreitung des Begriffs selbstfahrend, gilt es spezielle Kategorien hinsichtlich des Autonomie-Levels zu berücksichtigen. Ein Fahrzeug muss ein bestimmtes Level an Autonomie erreichen, um diese autonomen Systeme im realen Verkehr bereitstellen zu dürfen. Wertvolle Erkenntnisse in Bezug auf das Fahrverhalten sind durch menschliche Aufmerksamkeit erlangbar, diese Aufmerksamkeit spielt eine wichtige Rolle bei der Identifizierung und Reaktion auf verschiedene Straßenbedingungen und potenzielle Gefahren. Um die Fähigkeiten bestehender autonomer Fahrsysteme weiter zuentwickeln, können etwaige Vorteile durch die Berücksichtigung der menschlichen Aufmerksamkeit in den Trainings- einbezogen werden. Durch die Beachtung der menschlichen Aufmerksamkeit als zusätzliches Merkmal für das Training neuronaler Netzwerke, berücksichtigt diese Masterarbeit Verbesserungen hinsichtlich der Vorhersage des Lenkwinkels eines autonomen Fahrsystems auf einer Strecke. Für die Verwendung von maschinellem Lernen musste ein Datensatz mit Fahrszenarien erstellt werden, welcher die dazugehörigen menschlichen Aufmerksamkeitsbereiche inkludiert. Das F1tenth Framework wurde verwendet, um das Auto auf der Strecke zu fahren und mittels montierter Logitech Kamera wurde ein Video aufgezeichnet. DerDatensatz ist bildbasiert, wobei für jedes Bild aus dem Video der menschliche Aufmerksamkeitsbereich mit der ViewPointSystem-Brille extrahiert wurde, um die entsprechenden Blickkoordinaten im Datensatz zu speichern. Es wurde ein neuronales Netz implementiert, dass mit dem Datensatz trainiert wurde, um die menschlichen Aufmerksamkeitsbereiche vorherzusagen. Im Anschluss musste ein neuronales Netzwerk designed werden, das einen Lenkwinkel auf Basis eines eingehenden Kamerabildes vorgibt. Dieses Bild enthält einen markierten Bereich, welcher den menschlichen Aufmerksamkeitsbereich repräsentiert. Nach adäquater Funktion in Simulation, wurde der gesamte Workflow auf einem F1tenth Auto eingesetzt, um die Funktionsweise auf einer echten Strecke zu testen. Sowohl die Ergebnisse in der Simulation, als auch auf einer realen Strecke, sind für den verwendeten Datensatz angemessen. Daher deutet dies auf das Potenzial hin, die Aufmerksamkeit eines Menschen als zusätzliches Merkmal in zukünftige autonome Fahrsysteme zu integrieren