E376 - Institut für Automatisierungs- und Regelungstechnik
-
Date (published):
2023
-
Number of Pages:
79
-
Keywords:
Robotik; Deep Learning; Reinforcement Learning; Learning from Demonstrations
de
Robots; Deep Learning; Reinforcement Learning; Learning from Demonstrations
en
Abstract:
Die Verbesserung der Stichprobeneffizienz von Reinforcement Learning (RL) Algorithmen spielt eine entscheidende Rolle für deren Anwendung in Situationen,in denen Daten knapp oder schwer zu erheben sind. In dieser Arbeit wird mit Local Cluster Experience Replay (LCER) ein Algorithmus vorgestellt, der dieses Problem durch synthetische Stichprobengenerierung schmälert. LCER bildet Cluster innerhalb des Replay-Buffers von Off-Policy RL Algorithmen. Er erzeugt neue und ungesehene Stichproben durch Interpolation zwischen Übergängen aus demselben Cluster, wodurch sichergestellt wird, dass die Interpolation nur zwischen Zustands-übergängen erfolgt, die im Zustands-Aktionsraum benachbart sind. Konzeptionell erstellt LCER lokal lineare Modelle zwischen verschiedenen Übergängen im Replay Buffer, die eine Interpolation zwischen verschiedenen Episoden ermöglichen und die Verallgemeinerbarkeit von Entscheidungsstrategien verbessern. Wir kombinieren unseren Ansatz mit modernen RL Algorithmen und evaluieren ihn in kontinuierlichen Fortbewegungs- und Robotersteuerungsumgebungen. LCER zeigt signifikante Verbesserungen in der Stichprobeneffizienz gegenüber RL Standardalgorithmen in beiden Umgebungsdomänen. Darüber hinaus ist LCER in der Lage, große und komplexe Umgebungen effektiv zu handhaben. Damit ist er ein vielversprechender Ansatz für die Verbesserung der Stichprobeneffizienz einer Vielzahl von RLAnwendungen.
de
Improving the sample efficiency of Reinforcement Learning (RL) algorithms playsa crucial role for their application in situations where data is scarce or expensive to collect. This thesis presents Local Cluster Experience Replay (LCER), an algorithm that aims to mitigate this problem by synthetic sample generation. LCERforms clusters within the replay-buffer of off-policy RL algorithms. It creates new and unseen state transitions by interpolating between samples from the same cluster, ensuring that interpolation only occurs on transitions that are adjacent in the state-action space. Conceptually, LCER creates locally linear models between different samples in the replay-buffer, allowing interpolation between various episodes and enhancing policy generalizability. We combine our approach with state-of-the-artRL algorithms and evaluate on continuous locomotive and continuous robotic control environments. LCER demonstrates significant improvement in sample efficiencyover baseline RL algorithms in both environment domains. Additionally, LCER can effectively handle large and complex environments, making it a promising approach for improving the sample efficiency of a wide range of RL applications.