Reinforcement learning in agent based modelling

Thannen, Sebastian von der

doi:10.34726/hss.2018.56660

DC Field

Value

Language

dc.contributor.advisor

Breitenecker, Felix

dc.contributor.author

Thannen, Sebastian von der

dc.date.accessioned

2020-06-29T18:26:04Z

dc.date.issued

2018

dc.date.submitted

2018-11

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Thannen, S. von der. (2018). <i>Reinforcement learning in agent based modelling</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.56660</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2018.56660

dc.identifier.uri

http://hdl.handle.net/20.500.12708/7911

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

In den letzten Jahren konnte die Forschung im Bereich des maschinellen Lernens in Verbindung mit künstlichen neuronalen Netzen enorme Fortschritte erzielen. Insbesondere im Bereich des bestärkenden Lernens wurden viele Durchbrüche erzielt (z. B. das Spielen von Atari-Spielen und AlphaGo von Google Deep Mind). Die meisten dieser behandelten Probleme umfassen einen einzigen Agenten, der sich in einer Umgebung befindet, mit welcher er interagieren kann. Ziel des Agenten ist es dabei, mit Hilfe einer Belohnungsfunktion herauszufinden, welche Aktionen ihn zur maximalen Belohnung führen. Mit den selben Techniken versucht diese Arbeit einen generellen Rahmen zu schaffen, um bestärkendes Lernen in der agentenbasierten Modellierung einzusetzen. Anschließend wird dieses Konzept an einem agentenbasierten Räuber-Beute Modell angewendet und evaluiert. Da einige Modelle es erlauben, die Agenten in Gruppen einzuteilen, wie es zum Beispiel für das Räuber-Beute Modell der Fall ist, muss für jede dieser Gruppen eine eigene Belohnungsfunktion definiert werden. Dadurch kann jede Gruppe ihr optimales Verhalten erlernen. Diese daraus resultierende Verhaltensfunktion, die durch ein neuronales Netz approximiert wird, führt den Agenten zu einer optimalen Verhaltensweise, um die erwartete zukünftige Gesamtbelohnung, basierend auf seinem aktuellen Zustand, zu maximieren. Im Vergleich zu herkömmlichen agentenbasierten Modellen kann dieser Ansatz den Modellierungsprozess vereinfachen und gleichzeitig die Verzerrung des Modells verringern, da die vom Modellierer festgelegten Verhaltensregeln durch eine Belohnungsfunktion ersetzt werden. Diese Arbeit versucht verschiedene Ansätze aufzuzeigen, um sowohl eine sinnvolle Belohnungsfunktion, als auch gute Parameterwerte zu finden. Damit soll eine globale Konvergenz bei der Modellierung komplexer Interaktionen zwischen Agenten in einer Umgebung gewährleistet werden.

dc.description.abstract

In recent years, huge progress has been made in machine learning using neural networks as function approximators. Especially in reinforcement learning, extensive research is ongoing and a lot of breakthroughs were achieved (e.g. playing atari games and AlphaGo by Google Deep Mind). Most of these problems involve a single agent thrown into an environment where it has to figure out how to perform optimally based on given rewards for each action. Using these techniques, the thesis aims to develop a general framework for agent based modelling using reinforcement learning and evaluate the results on a predator-prey model using usual approaches such as the Lotka-Volterra equations or rule based models. As some models require a classification of agents in groups, as it is for the predator-prey model, each group of agents demand their own reward function in order to find its optimal policy. This policy function, which will be approximated by a neural network, gives the agent advice for the best action to take with focus on maximising the agents expected total future rewards based on their current state. Compared to usual agent based models, this approach can simplify the modelling process while decreasing the bias of the model since hard coded behavioural rules are replaced by a reward function. This thesis tries to explore different approaches to find both, a meaningful reward function and good parameters to assure global convergence when modelling complex interactions between agents in an environment.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Reinforcement learning

dc.subject

neural networks

dc.subject

Agent-based modelling

dc.title

Reinforcement learning in agent based modelling

dc.title.alternative

Bestärkendes Lernen in agentenbasierter Modellierung

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2018.56660

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Sebastian von der Thannen

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Popper, Nikolas

tuw.publication.orgunit

E101 - Institut für Analysis und Scientific Computing

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC15216337

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-119021

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.assistant.orcid

0000-0003-4615-2774

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.07 MB)

In Copyright

Show simple item record

Page view(s)

362

checked on Nov 21, 2023

Download(s)

236

checked on Nov 21, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM