<div class="csl-bib-body">
<div class="csl-entry">aus der Schmitten, J. (2025). <i>Reliability in Reinforcement Learning and Off-Policy Evaluation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.116800</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.116800
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/215352
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
In dieser Arbeit werden verschiedene Ansätze zum verteilungsbasierten bestärkenden Lernen und zur off-policy Evaluierung diskutiert, die darauf abzielen, die Zuverlässigkeit des bestärkenden Lernens zu erhöhen. Außerdem werden Konvergenzgarantien für diese Algorithmen diskutiert. Die entsprechenden Algorithmen werden auf zwei Simulationsmodelle einer Pumpturbine angewendet, die Teil eines Pumpspeichersystems ist und daher zuverlässig betrieben werden muss. Wir vergleichen die Performanz der Algorithmen in den Umgebungen und erörtern die Herausforderungen bei der Gestaltung der Belohnungsfunktion und der Implementierung der Software. Abschließend stellen wir einige Ideen vor, wie man die erlernten Verteilungen vergleichen und analysieren kann.
de
dc.description.abstract
This thesis discusses several approaches to distributional reinforcement learning and off-policy evaluation that aim to increase the reliability of reinforcement learning. Furthermore, we discuss convergence guarantees for these algorithms. The corresponding algorithms are applied to two simulation models of a pump turbine, which is part of a pumped storage system and therefore needs to be operated in a reliable manner. We compare the performance of the algorithms on the environments and discuss challenges regarding the design of the reward function and the implementation of the software.Lastly, we present some ideas on how to compare and analyze the learnt distributions.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Bestärkendes Lernen
de
dc.subject
Zuverlässigkeit
de
dc.subject
off-policy Evaluierung
de
dc.subject
Pumpturbine
de
dc.subject
Reinforcement learning
en
dc.subject
reliability
en
dc.subject
off-policy evaluation
en
dc.subject
pump turbine
en
dc.title
Reliability in Reinforcement Learning and Off-Policy Evaluation
en
dc.title.alternative
Zuverlässigkeit im bestärkenden Lernen und off-policy Evaluierung
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.116800
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Jakob aus der Schmitten
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17516639
-
dc.description.numberOfPages
52
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E194-06 - Forschungsbereich Machine Learning
-
crisitem.author.parentorg
E194 - Institut für Information Systems Engineering