Local cluster experience replay

Zahlner, Stefan

doi:10.34726/hss.2023.86850

DC Element

Wert

Sprache

dc.contributor.advisor

Vincze, Markus

dc.contributor.author

Zahlner, Stefan

dc.date.accessioned

2023-03-01T14:15:34Z

dc.date.issued

2023

dc.date.submitted

2023-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Zahlner, S. (2023). <i>Local cluster experience replay</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.86850</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2023.86850

dc.identifier.uri

http://hdl.handle.net/20.500.12708/158329

dc.description.abstract

Die Verbesserung der Stichprobeneffizienz von Reinforcement Learning (RL) Algorithmen spielt eine entscheidende Rolle für deren Anwendung in Situationen,in denen Daten knapp oder schwer zu erheben sind. In dieser Arbeit wird mit Local Cluster Experience Replay (LCER) ein Algorithmus vorgestellt, der dieses Problem durch synthetische Stichprobengenerierung schmälert. LCER bildet Cluster innerhalb des Replay-Buffers von Off-Policy RL Algorithmen. Er erzeugt neue und ungesehene Stichproben durch Interpolation zwischen Übergängen aus demselben Cluster, wodurch sichergestellt wird, dass die Interpolation nur zwischen Zustands-übergängen erfolgt, die im Zustands-Aktionsraum benachbart sind. Konzeptionell erstellt LCER lokal lineare Modelle zwischen verschiedenen Übergängen im Replay Buffer, die eine Interpolation zwischen verschiedenen Episoden ermöglichen und die Verallgemeinerbarkeit von Entscheidungsstrategien verbessern. Wir kombinieren unseren Ansatz mit modernen RL Algorithmen und evaluieren ihn in kontinuierlichen Fortbewegungs- und Robotersteuerungsumgebungen. LCER zeigt signifikante Verbesserungen in der Stichprobeneffizienz gegenüber RL Standardalgorithmen in beiden Umgebungsdomänen. Darüber hinaus ist LCER in der Lage, große und komplexe Umgebungen effektiv zu handhaben. Damit ist er ein vielversprechender Ansatz für die Verbesserung der Stichprobeneffizienz einer Vielzahl von RLAnwendungen.

dc.description.abstract

Improving the sample efficiency of Reinforcement Learning (RL) algorithms playsa crucial role for their application in situations where data is scarce or expensive to collect. This thesis presents Local Cluster Experience Replay (LCER), an algorithm that aims to mitigate this problem by synthetic sample generation. LCERforms clusters within the replay-buffer of off-policy RL algorithms. It creates new and unseen state transitions by interpolating between samples from the same cluster, ensuring that interpolation only occurs on transitions that are adjacent in the state-action space. Conceptually, LCER creates locally linear models between different samples in the replay-buffer, allowing interpolation between various episodes and enhancing policy generalizability. We combine our approach with state-of-the-artRL algorithms and evaluate on continuous locomotive and continuous robotic control environments. LCER demonstrates significant improvement in sample efficiencyover baseline RL algorithms in both environment domains. Additionally, LCER can effectively handle large and complex environments, making it a promising approach for improving the sample efficiency of a wide range of RL applications.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Robotik

dc.subject

Deep Learning

dc.subject

Reinforcement Learning

dc.subject

Learning from Demonstrations

dc.subject

Robots

dc.subject

Deep Learning

dc.subject

Reinforcement Learning

dc.subject

Learning from Demonstrations

dc.title

Local cluster experience replay

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2023.86850

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Stefan Zahlner

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Hirschmanner, Matthias

tuw.publication.orgunit

E376 - Institut für Automatisierungs- und Regelungstechnik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16782138

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.assistant.orcid

0000-0002-0534-385X

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E376 - Institut für Automatisierungs- und Regelungstechnik

crisitem.author.parentorg

E350 - Fakultät für Elektrotechnik und Informationstechnik

Enthalten in den Sammlungen:

Thesis

Volltext (Version of Record (published version))

Adobe PDF

(2.21 MB)

Urheberrechtsschutz

Zur Kurzanzeige

Seiten Aufrufe

225

aufgerufen am 20.11.2023

Download(s)

136

aufgerufen am 20.11.2023

Google Scholar^TM

Check

Seiten Aufrufe

Download(s)

Google ScholarTM

Google Scholar^TM