Reinforcement Learning; Deep Reinforcement Learning; Ethical AI; Deontic Logic
en
Abstract:
Autonome, auf maschinellem Lernen basierte KI-Agenten haben begonnen, Teil unseres Alltags zu werden, von selbstfahrenden Autos bis hin zu Chatbots als persönliche Assistenten. Viele dieser Agenten werden mit Hilfe von Reinforcement Learning trainiert, wobei ein System von Belohnungen oder Bestrafungen eingesetzt wird, um bestimmte Verhaltensweisen zu fördern oder zu unterbinden. In jüngster Zeit hat der rasche Fortschritt in diesen Bereichen Sicherheitsbedenken aufgeworfen, sodass manche Experten sogar einen vorübergehenden Entwicklungsstopp forderten. Wenn wir KI-Agenten in unsere Gesellschaft integrieren wollen, sollten wir sicherstellen, dass sie ethischen, rechtlichen und sozialen Normen unterliegen, ähnlich wie Menschen. Diese Arbeit befasst sich mit der Frage, wie wir sicherstellen können, dass Agenten, die mit Reinforcement Learning trainiert wurden, Normen einhalten, ohne an Nutzen zu verlieren. Unser Ansatz erweitert bestehende Techniken mit Algorithmen für lexikographische Mehrzielprobleme. Bei diesen sind die Ziele nach Priorität geordnet und werden unter der Bedingung optimiert, dass vorherige Ziele bereits optimiert wurden. Mit einem externen Theorembeweiser für deontische Logik - die Logik der Verpflichtungen und Erlaubnisse - bestrafen wir den Agenten für die Verletzung von Normen. Indem er zunächst diese normativen Strafen minimiert und dann seine anderen Ziele optimiert, lernt der Agent, sein Ziel zu erreichen und dabei eine Vielzahl von Normen einzuhalten. Wir evaluieren diesen Ansatz experimentell, indem wir ihn mit verschiedenen Agenten testen, die das Arcade-Spiel Pac-Man spielen. In einer vereinfachten Version des Spiels lernten die Agenten, die Normen nicht zu verletzen und gewannen die meisten ihrer Testspiele. Sie waren jedoch nicht in der Lage, das gleiche Leistungsniveau in einer komplexeren Umgebung zu erreichen.
de
Autonomous AI agents based on machine learning have started to commonly aid us in our everyday lives, from self-driving cars to personal assistant chatbots. Many of these agents are trained using reinforcement learning, utilizing a system of rewards or punishments to encourage or discourage certain behaviors. Recently, the rapid progress in these fields raised safety concerns, with some experts even calling for a temporary development stop. If we want to integrate AI agents into our society they should be subjected to ethical, legal and social norms, just like humans. This thesis is concerned with the question of how to ensure normative compliance in reinforcement learning agents while conserving their usefulness. Our approach extends existing techniques from normative reinforcement learning with algorithms for lexicographic multi-objective problems, where objectives are ordered by priority and optimized subject to the constraint that prior objectives have already been optimized. Using an external reasoning module for Deontic logic - the logic of obligations and permissions - we penalize the agent for violating norms. By first minimizing these normative penalties and then optimizing its other objectives the agent learns to reach its goal while complying with a variety of norms. We evaluate this approach experimentally by testing it with various agents playing the arcade game Pac-Man. The agents won most of their test games while complying with the normative system in a simplified version of the game. However, they were unable to reach the same level of performance in a more complex environment.