<div class="csl-bib-body">
<div class="csl-entry">Zahlner, S. (2023). <i>Local cluster experience replay</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.86850</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2023.86850
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/158329
-
dc.description.abstract
Die Verbesserung der Stichprobeneffizienz von Reinforcement Learning (RL) Algorithmen spielt eine entscheidende Rolle für deren Anwendung in Situationen,in denen Daten knapp oder schwer zu erheben sind. In dieser Arbeit wird mit Local Cluster Experience Replay (LCER) ein Algorithmus vorgestellt, der dieses Problem durch synthetische Stichprobengenerierung schmälert. LCER bildet Cluster innerhalb des Replay-Buffers von Off-Policy RL Algorithmen. Er erzeugt neue und ungesehene Stichproben durch Interpolation zwischen Übergängen aus demselben Cluster, wodurch sichergestellt wird, dass die Interpolation nur zwischen Zustands-übergängen erfolgt, die im Zustands-Aktionsraum benachbart sind. Konzeptionell erstellt LCER lokal lineare Modelle zwischen verschiedenen Übergängen im Replay Buffer, die eine Interpolation zwischen verschiedenen Episoden ermöglichen und die Verallgemeinerbarkeit von Entscheidungsstrategien verbessern. Wir kombinieren unseren Ansatz mit modernen RL Algorithmen und evaluieren ihn in kontinuierlichen Fortbewegungs- und Robotersteuerungsumgebungen. LCER zeigt signifikante Verbesserungen in der Stichprobeneffizienz gegenüber RL Standardalgorithmen in beiden Umgebungsdomänen. Darüber hinaus ist LCER in der Lage, große und komplexe Umgebungen effektiv zu handhaben. Damit ist er ein vielversprechender Ansatz für die Verbesserung der Stichprobeneffizienz einer Vielzahl von RLAnwendungen.
de
dc.description.abstract
Improving the sample efficiency of Reinforcement Learning (RL) algorithms playsa crucial role for their application in situations where data is scarce or expensive to collect. This thesis presents Local Cluster Experience Replay (LCER), an algorithm that aims to mitigate this problem by synthetic sample generation. LCERforms clusters within the replay-buffer of off-policy RL algorithms. It creates new and unseen state transitions by interpolating between samples from the same cluster, ensuring that interpolation only occurs on transitions that are adjacent in the state-action space. Conceptually, LCER creates locally linear models between different samples in the replay-buffer, allowing interpolation between various episodes and enhancing policy generalizability. We combine our approach with state-of-the-artRL algorithms and evaluate on continuous locomotive and continuous robotic control environments. LCER demonstrates significant improvement in sample efficiencyover baseline RL algorithms in both environment domains. Additionally, LCER can effectively handle large and complex environments, making it a promising approach for improving the sample efficiency of a wide range of RL applications.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Robotik
de
dc.subject
Deep Learning
de
dc.subject
Reinforcement Learning
de
dc.subject
Learning from Demonstrations
de
dc.subject
Robots
en
dc.subject
Deep Learning
en
dc.subject
Reinforcement Learning
en
dc.subject
Learning from Demonstrations
en
dc.title
Local cluster experience replay
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2023.86850
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Stefan Zahlner
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Hirschmanner, Matthias
-
tuw.publication.orgunit
E376 - Institut für Automatisierungs- und Regelungstechnik
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16782138
-
dc.description.numberOfPages
79
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.assistant.orcid
0000-0002-0534-385X
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E376 - Institut für Automatisierungs- und Regelungstechnik
-
crisitem.author.parentorg
E350 - Fakultät für Elektrotechnik und Informationstechnik