aus der Schmitten, J. (2025). Reliability in Reinforcement Learning and Off-Policy Evaluation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.116800
In dieser Arbeit werden verschiedene Ansätze zum verteilungsbasierten bestärkenden Lernen und zur off-policy Evaluierung diskutiert, die darauf abzielen, die Zuverlässigkeit des bestärkenden Lernens zu erhöhen. Außerdem werden Konvergenzgarantien für diese Algorithmen diskutiert. Die entsprechenden Algorithmen werden auf zwei Simulationsmodelle einer Pumpturbine angewendet, die Teil eines Pumpspeichersystems ist und daher zuverlässig betrieben werden muss. Wir vergleichen die Performanz der Algorithmen in den Umgebungen und erörtern die Herausforderungen bei der Gestaltung der Belohnungsfunktion und der Implementierung der Software. Abschließend stellen wir einige Ideen vor, wie man die erlernten Verteilungen vergleichen und analysieren kann.
de
This thesis discusses several approaches to distributional reinforcement learning and off-policy evaluation that aim to increase the reliability of reinforcement learning. Furthermore, we discuss convergence guarantees for these algorithms. The corresponding algorithms are applied to two simulation models of a pump turbine, which is part of a pumped storage system and therefore needs to be operated in a reliable manner. We compare the performance of the algorithms on the environments and discuss challenges regarding the design of the reward function and the implementation of the software.Lastly, we present some ideas on how to compare and analyze the learnt distributions.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers