Schmitt, A. (2025). Deontic Challenges Combined with ASP-Planning on RL-Training for the FrozenLake and Extensions [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.124623
Normative Reasoning; Planning; Answer Set Programming; Reinforcement Learning; Agents
en
Abstract:
Diese Arbeit untersucht die Integration von Reinforcement Learning (RL), Answer Set Programming (ASP) und Deontischer Logik (DL), um normatives Schließen in autonomen Agenten zu verankern, die in nicht-deterministischen Umgebungen agieren. Mithilfe einer erweiterten Version der FrozenLake-Umgebung von OpenAI – mit dynamischen Hindernissen, bedingten Feldern und modifizierten Belohnungen – simuliert diese Studie reale Dilemmata, in denen Agenten Befolgung von Normen mit Belohnungsmaximierung abwägen müssen. Es wird ein Framework entwickelt, das Q-Learning mit ASP-basierter Planung über Potasscos Telingo kombiniert und deontische Operatoren integriert. Das Framework bewertet die Fähigkeit des Agenten, mit widersprüchlichen Normen umzugehen, insbesondere mit 'Contrary-to-Duty' (CTD) Verpflichtungen, die nach Normverstößen entstehen. Experimente untersuchen die Effektivität verschiedener Strategien des normativen Schließens, wobei interne Planungsmodelle mit verschiedenen normbasierten Anpassungen der Belohnungen bzw. Rückmeldungen der Umgebung verglichen werden. Unsere Ergebnisse zeigen, dass der Agent zwar erfolgreich statische Normen erlernt, aber dynamische Normen und CTDs erhebliche Herausforderungen darstellen. Planungsbasierte Ansätze beschleunigen das Lernen, aber unvollständige Modelle haben Schwierigkeiten mit dynamischen Aspekten, während Belohnungsanpassung die Normbefolgung verbessert, jedoch das Risiko suboptimaler Politiken oder langsamer Konvergenz birgt. Die Ergebnisse deuten darauf hin, dass ein hybrider Ansatz – der normatives Schließen im Agentenmodell mit Belohnungsanpassung kombiniert – eine vielversprechende Richtung für zukünftige Forschung darstellt. Diese Arbeit leistet einen Beitrag zum breiteren Diskurs über die Verankerung ethischer und rechtlicher Normen in RL-Systemen, liefert Einblicke in die Komplexität automatisierten normativen Schließens und bildet die Grundlage für weitere Untersuchungen in diesem interdisziplinären Feld.
de
This thesis investigates the integration of Reinforcement Learning (RL), Answer Set Programming (ASP), and Deontic Logic (DL) to embed normative reasoning in autonomous agents operating in non-deterministic environments. Using an extended version of OpenAI’s FrozenLake environment- with dynamic obstacles, conditional tiles, and modified rewards- this study simulates real-world dilemmas where agents must balance norm adherence with reward maximization. A framework is developed that combines Q-Learning with ASP-based planning via Potassco’s Telingo, incorporating deontic operators. The framework evaluates the agent’s ability to handle conflicting norms, particularly contraryto-Duty (CTD) obligations that emerge after norm violations. Experiments assess the effectiveness of different norm-reasoning strategies, comparing internal planning models with reward-shaping mechanisms. Our results show that while agents successfully learn static norms, dynamic norms and CTDs present significant challenges. Planning-based approaches accelerate learning but incomplete models struggle with dynamic aspects, whereas reward shaping enhances norm adherence but risks suboptimal policies or slow convergence. The findings suggest that a hybrid approach—integrating norm reasoning within the agent’s model alongside reward shaping—offers a promising direction for future research. This work contributes to the broader discourse on embedding ethical and legal norms in RL systems, providing insights into the complexities of automated norm reasoning and laying the foundation for further exploration in this interdisciplinary f ield.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers