Kietreiber, T. (2023). Combining maximum entropy reinforcement learning with distributional Q-value approximation methods : At the example of autonomous driving [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.111501
E101 - Institut für Analysis und Scientific Computing
-
Date (published):
2023
-
Number of Pages:
81
-
Keywords:
Reinforcement learning; distributional reinforcement learning; maximum entropy methods; autonomous driving
en
Abstract:
Reinforcement Learning hat in den letzten Jahren sehr an Popularität gewonnen, da damit komplexe Probleme nur mithilfe eines Belohnungssignals gelöst werden können, besonders nachdem es auf moderne Deep Learning Architekturen ausgedehnt wurde. Es werden laufend neue Erweiterungen entwickelt, darunter die Approximation der q-Werte in Verteilung und Maximum Entropy Reinforcement Learning. Beide scheinen in Umgebungen des autonomen Fahrens besonders gut zu funktionieren.In dieser Arbeit werden diese beiden Methoden vorgestellt, indem zunächst ein kurzer Überblick über bestehende Literatur gegeben und danach die Kombination der beiden Methoden präsentiert wird. Schlussendlich werden wir experimentell im CARLA Simulator zeigen, dass dies nicht nur funktioniert, sondern bei Problemen des autonomen Fahrens auch zu besseren Ergebnissen führt.
de
Reinforcement Learning has gained a lot of popularity in recent years due to its capability to learn complex tasks from just a reward signal, especially after the extension to modern Deep Learning architectures. A number of improvements to the concept were introduced, two of them being distributional q-value approximation and Maximum Entropy Reinforcement Learning. In environments dealing with autonomous driving problems, both seem to have a benefit on performance. In this thesis, these two methods are introduced by giving a short overview of previous work and the idea behind their combination is presented. Lastly, we will show through experiments in the CARLA simulator that this combination not only works but is generally superior in autonomous driving tasks.