Modeling System Dynamics In Partially-Observable Environments Using Biologically-Inspired Recurrent Neural Networks

Stanusoiu, Mihai-Teodor

doi:10.34726/hss.2025.129105

DC Field

Value

Language

dc.contributor.advisor

Grosu, Radu

dc.contributor.author

Stanusoiu, Mihai-Teodor

dc.date.accessioned

2025-06-20T12:47:50Z

dc.date.issued

2025

dc.date.submitted

2025-05

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Stanusoiu, M.-T. (2025). <i>Modeling System Dynamics In Partially-Observable Environments Using Biologically-Inspired Recurrent Neural Networks</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.129105</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.129105

dc.identifier.uri

http://hdl.handle.net/20.500.12708/216265

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Selbstlernende End-to-End-Agenten sind eine beliebte Wahl für kontinuierliche Regelungsaufgaben. Anstatt eine Pipeline für Zustandsschätzung und Planung zu entwerfen, konzentriert sich ein Teilbereich der Reinforcement-Learning-Forschung auf die Entwicklung robuster, lernbasierter Regelungen. Moderne Ansätze haben sich bei der Bewältigung von Regelungs problemen in simulierten Umgebungen und einfachen realen Aufgaben bewährt. Diese Leistung erfordert jedoch häufig ausgewählte, geräuschfreie Beobachtungen und kontrollierte Laborbedingungen. Erfolgreiche, autonome Agenten, die in der realen Welt eingesetzt werden, müssen in der Lage sein, mit Unsicherheiten umzugehen, die durch partielle Beobachtbarkeit, Sensorrauschen und Verzögerungen entstehen. Diese Arbeit untersucht einen Ansatz zur Modellierung von Zustandsrepräsentationen basierend auf aufgezeichneten Trajektorien für Agenten mit Reinforcement Learning, die in teilweise beobachtbaren Prozessen arbeiten. Liquid-Time-Constant Neural Networks (LTC) und Closed-form Continuous-time Neural Networks (CfC) verarbeiten die Sequenz vergangener Beobachtungen und Aktionen, um annähernd markovsche Zustände aus unzuverlässigen Eingangsdaten zu kodieren. Die Darstellungen werden in den modellbasierten TD-MPC2-Rahmen integriert, um kontinuierliche Regelungs probleme mit unvollständiger Information zu bewältigen. Die Arbeit führt drei verschiedene Weltmodellformulierungen ein, die den ursprünglichen TD-MPC2-Ansatz erweitern: (1) ein deterministisches Beobachtungs-Vorhersagemodell, (2) ein stochastisches Beobachtungs-Vorhersagemodell und (3) ein latentes Zustands-Vorhersagemodell. Die vorgeschlagenen Methoden werden anhand ausgewählter Standard-Benchmarks für kontinuierliche Regelungs simulationen (Cartpole, Acrobot, Walker) evaluiert, die so angepasst wurden, dass sie Verdeckungen, Sensorrauschen und Zeitverzögerungen induzieren. Die experimentellen Ergebnisse zeigen, dass die Ausstattung von TD-MPC2 mit History-Encodern, die in der Lage sind, komplexe Dynamiken zu erfassen, die Robustheit unter Sensorrauschen deutlich verbessert und eine optimale Leistung ohne Zugang zu Geschwindigkeitsmessungen erreicht. Insbesondere löst einer der vorgeschlagenen Ansätze die schwierige, unteraktuierte Akrobot-Schwenkaufgabe optimal, im Gegensatz zur TD-MPC2-Basislösung. Darüber hinaus deuten vorläufige Ergebnisse darauf hin, dass die Methoden das Potenzial haben, Zustände aus unregelmäßigen Beobachtungen zu erfassen, was ihr Potenzial für den Einsatz in der realen Welt mit stochastischen Zeitverzögerungen hervorhebt.

dc.description.abstract

End-to-end self-learning agents are a popular and desirable choice for continuous control settings. Instead of designing a pipeline of state estimation and planning, a subfield of Reinforcement Learning research focuses on designing robust, learning-based controllers. State of the art approaches have proven capable of tackling control problems in simulated environments and simple real-world tasks. However, such performance often requires curated, noise-free observations and controlled laboratory settings. Successful, autonomous agents deployed in the real world must be capable of dealing with uncertainty induced by partial observability, sensor noise and delays. This work explores an approach to modeling history-based state representations for reinforcement learning agents operating in partially observable processes. Liquid Time-Constant Neural Networks (LTC) and Closed-form Continuous-time Neural Networks (CfC) process the sequence of past observations and actions to encode approximately Markovian states from unreliable input data. The representations are integrated into the model-based TD-MPC2 framework to tackle continuous control problems with incomplete information. The work builds on theoretical foundations on approximate information states and state abstractions from histories to introduce three different world model formulations: (1) a deterministic observation-predictive model, (2) a stochastic observation-predictive model, and (3) a latent state-predictive model, extending the original TD-MPC2 approach. The proposed methods are evaluated on selected standard, continuous control simulation benchmarks (Cartpole, Acrobot, Walker), adapted to induce occlusions, sensor noise, and time delays. Experimental results show that equipping TD-MPC2 with history encoders capable of capturing complex dynamics significantly improves robustness under sensor noise and achieves optimal performance without access to velocity measurements. In particular, one of the proposed approaches optimally solves the challenging, underactuated Acrobot swingup task, unlike the baseline TD-MPC2. Furthermore, preliminary results suggest that the methods show potential in capturing states from irregularly timed observations, highlighting their potential for real-world deployment with stochastic time delays.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Reinforcement Learning

dc.subject

Partially Observable Markov Decision Process

dc.subject

Model Predictive Control

dc.subject

Continuous Control

dc.subject

Liquid Time-Constant Networks

dc.subject

Continuous-Time Recurrent Neural Networks

dc.subject

Model-Based Reinforcement Learning

dc.title

Modeling System Dynamics In Partially-Observable Environments Using Biologically-Inspired Recurrent Neural Networks

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.129105

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Mihai-Teodor Stanusoiu

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Farsang, Monika

tuw.publication.orgunit

E191 - Institut für Computer Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17563172

dc.description.numberOfPages

129

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0001-5715-2142

tuw.assistant.orcid

0009-0002-9305-6507

item.openaccessfulltext

Open Access

item.grantfulltext

open

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.languageiso639-1

item.openairetype

master thesis

Appears in Collections:

Thesis

Stanusoiu Mihai-Teodor - 2025 - Modeling System Dynamics In Partially-Observable...pdf

Adobe PDF

(3.58 MB)

Show simple item record

Page view(s)

checked on Jun 20, 2025

Google Scholar^TM

Check

Page view(s)

Google ScholarTM

Google Scholar^TM