<div class="csl-bib-body">
<div class="csl-entry">Stanusoiu, M.-T. (2025). <i>Modeling System Dynamics In Partially-Observable Environments Using Biologically-Inspired Recurrent Neural Networks</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.129105</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.129105
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/216265
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Selbstlernende End-to-End-Agenten sind eine beliebte Wahl für kontinuierliche Regelungsaufgaben. Anstatt eine Pipeline für Zustandsschätzung und Planung zu entwerfen, konzentriert sich ein Teilbereich der Reinforcement-Learning-Forschung auf die Entwicklung robuster, lernbasierter Regelungen. Moderne Ansätze haben sich bei der Bewältigung von Regelungs problemen in simulierten Umgebungen und einfachen realen Aufgaben bewährt. Diese Leistung erfordert jedoch häufig ausgewählte, geräuschfreie Beobachtungen und kontrollierte Laborbedingungen. Erfolgreiche, autonome Agenten, die in der realen Welt eingesetzt werden, müssen in der Lage sein, mit Unsicherheiten umzugehen, die durch partielle Beobachtbarkeit, Sensorrauschen und Verzögerungen entstehen. Diese Arbeit untersucht einen Ansatz zur Modellierung von Zustandsrepräsentationen basierend auf aufgezeichneten Trajektorien für Agenten mit Reinforcement Learning, die in teilweise beobachtbaren Prozessen arbeiten. Liquid-Time-Constant Neural Networks (LTC) und Closed-form Continuous-time Neural Networks (CfC) verarbeiten die Sequenz vergangener Beobachtungen und Aktionen, um annähernd markovsche Zustände aus unzuverlässigen Eingangsdaten zu kodieren. Die Darstellungen werden in den modellbasierten TD-MPC2-Rahmen integriert, um kontinuierliche Regelungs probleme mit unvollständiger Information zu bewältigen. Die Arbeit führt drei verschiedene Weltmodellformulierungen ein, die den ursprünglichen TD-MPC2-Ansatz erweitern: (1) ein deterministisches Beobachtungs-Vorhersagemodell, (2) ein stochastisches Beobachtungs-Vorhersagemodell und (3) ein latentes Zustands-Vorhersagemodell. Die vorgeschlagenen Methoden werden anhand ausgewählter Standard-Benchmarks für kontinuierliche Regelungs simulationen (Cartpole, Acrobot, Walker) evaluiert, die so angepasst wurden, dass sie Verdeckungen, Sensorrauschen und Zeitverzögerungen induzieren. Die experimentellen Ergebnisse zeigen, dass die Ausstattung von TD-MPC2 mit History-Encodern, die in der Lage sind, komplexe Dynamiken zu erfassen, die Robustheit unter Sensorrauschen deutlich verbessert und eine optimale Leistung ohne Zugang zu Geschwindigkeitsmessungen erreicht. Insbesondere löst einer der vorgeschlagenen Ansätze die schwierige, unteraktuierte Akrobot-Schwenkaufgabe optimal, im Gegensatz zur TD-MPC2-Basislösung. Darüber hinaus deuten vorläufige Ergebnisse darauf hin, dass die Methoden das Potenzial haben, Zustände aus unregelmäßigen Beobachtungen zu erfassen, was ihr Potenzial für den Einsatz in der realen Welt mit stochastischen Zeitverzögerungen hervorhebt.
de
dc.description.abstract
End-to-end self-learning agents are a popular and desirable choice for continuous control settings. Instead of designing a pipeline of state estimation and planning, a subfield of Reinforcement Learning research focuses on designing robust, learning-based controllers. State of the art approaches have proven capable of tackling control problems in simulated environments and simple real-world tasks. However, such performance often requires curated, noise-free observations and controlled laboratory settings. Successful, autonomous agents deployed in the real world must be capable of dealing with uncertainty induced by partial observability, sensor noise and delays. This work explores an approach to modeling history-based state representations for reinforcement learning agents operating in partially observable processes. Liquid Time-Constant Neural Networks (LTC) and Closed-form Continuous-time Neural Networks (CfC) process the sequence of past observations and actions to encode approximately Markovian states from unreliable input data. The representations are integrated into the model-based TD-MPC2 framework to tackle continuous control problems with incomplete information. The work builds on theoretical foundations on approximate information states and state abstractions from histories to introduce three different world model formulations: (1) a deterministic observation-predictive model, (2) a stochastic observation-predictive model, and (3) a latent state-predictive model, extending the original TD-MPC2 approach. The proposed methods are evaluated on selected standard, continuous control simulation benchmarks (Cartpole, Acrobot, Walker), adapted to induce occlusions, sensor noise, and time delays. Experimental results show that equipping TD-MPC2 with history encoders capable of capturing complex dynamics significantly improves robustness under sensor noise and achieves optimal performance without access to velocity measurements. In particular, one of the proposed approaches optimally solves the challenging, underactuated Acrobot swingup task, unlike the baseline TD-MPC2. Furthermore, preliminary results suggest that the methods show potential in capturing states from irregularly timed observations, highlighting their potential for real-world deployment with stochastic time delays.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Reinforcement Learning
en
dc.subject
Partially Observable Markov Decision Process
en
dc.subject
Model Predictive Control
en
dc.subject
Continuous Control
en
dc.subject
Liquid Time-Constant Networks
en
dc.subject
Continuous-Time Recurrent Neural Networks
en
dc.subject
Model-Based Reinforcement Learning
en
dc.title
Modeling System Dynamics In Partially-Observable Environments Using Biologically-Inspired Recurrent Neural Networks