Halmetschlager, M. (2022). A collaborative multi agent reinforcement learning approach to managing traffic light grids [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.96331
E194 - Institut für Information Systems Engineering
-
Date (published):
2022
-
Number of Pages:
84
-
Keywords:
traffic management; reinforcement learning; deep q-learning; smart traffic lights; collaborative machine learning; multi agent reinfrocement learning; traffic light grids
en
Abstract:
Verkehrsstaus werden mit der ständig wachsenden Weltbevölkerung und Urbanisierung zu einem immer schwieriger zu lösenden Problem. Infolgedessen sind ampelgesteuerte Kreuzungen ein wichtiger Brennpunkt, der die Effizienz des Verkehrsflusses im gesamten Straßennetz einer Stadt beeinträchtigen und schnell zu Staus führen kann. In den letzten Jahren hat sich gezeigt, dass Reinforcement Learning großartige Ergebnisse bei der Verbesserung des Verkehrsflusses erzielt, die in der Lage ist, optimale Ampelphasen in Echtzeit auszuwählen. Während diese Lösungen sehr vielversprechend sind, steht die Forschung mit ihrem aktuellen Stand vor einem von zwei Problemen. Die state-of-the-art-Lösungen konzentrieren sich entweder auf eine einzelne Kreuzung, die die Schwierigkeiten des Verkehrsmanagements nicht angemessen abbildet, oder sie versuchen, komplexere Systeme als Ganzes zu lösen, was keinen skalierbarer Ansatz für ganze Städte darstellt. Diese Arbeit schlägt eine skalierbare Deep-Q-Learning-basierte Lösung für intelligente Ampeln vor, die sich auf die Zusammenarbeit von Ampeln mit ihrer unmittelbaren Nachbarschaft konzentriert, wodurch die Komplexität der Zusammenarbeit begrenzt wird und gleichzeitig die Modellierung transitiver Effekte ermöglicht wird, die sich über mehrere Kreuzungen auswirken, wie zum Beispiel der green wave Effekt. Diese Dissertation evaluiert mehrere verschiedene Stufen der Zusammenarbeit und verschiedene Synchronisationsschemata zwischen Agenten und misst die Auswirkungen dieser Designentscheidung auf ein kollaboratives System. Es wird gezeigt, dass vielversprechende state-of-the-art-Lösungen, die im Rahmen einer einzelnen Kreuzung evaluiert wurden, in einem Systemen mit mehreren Kreuzungen nicht mit optimierten fixen Zeitintervallen konkurieren können, was die Wichtigkeit der Nutzung von zusätzlichen Informationen bestätigt, die durch Kollaboration bereitgestellt werden. Diese Arbeit zeigt auch, dass der kollaborative Ansatz zu einer signifikanten Verringerung der Wartezeit in einem Netz von fünf Kreuzungen im Vergleich zu einer nicht kollaborativen state-of-the-art-Alternative führt. Schließlich wird auch gezeigt, dass die vorgeschlagene Lösung mit einer adaptiven und optimierten realen Lösung innerhalb einer Simulation von drei Kreuzungen basierend auf realen Verkehrsdaten und den entsprechenden Ampelprotokollen des beobachteten Zeitrahmens konkurrieren und diese bei geringem bis mittlerem Verkehrsaufkommen übertreffen kann. Diese Ergebnisse bilden die Grundlage für ein skalierbares, kollaboratives System, welches in großen Verkerhsnetzen und sogar ganzen Städten eingesetzt werden kann.
de
Traffic congestion is becoming an increasingly difficult problem to solve with the ever growing world population and urbanization. As a result, traffic light controlled intersections are an important focal point that can make or break efficiency of traffic flow throughout a cities road network and can quickly cause congestion. In recent years, reinforcement learning has been shown to produce great results in improvement of traffic flow by using fully adaptive agent based traffic light control capable of choosing optimal light phases in real time. While these solutions show great promise, current literature faces one of two problems. The state-of-the-art solutions focus either on a single intersection which does not adequately represent the difficulties of traffic management or they attempt to solve more complex systems as a whole which is not a scalable approach for entire cities. This work proposes a scalable deep Q-Learning based solution for smart traffic lights that focuses on collaboration of traffic lights with their immediate neighborhood, thus limiting the complexity of the collaboration while still allowing modeling of transitive effects that span multiple intersections such as the green wave effect. This thesis evaluates several different levels of collaboration and different synchronisation schemes between agents measuring the impact of these design decisions in a collaborative system. It is shown that promising state-of-the-art solutions that were evaluated using the scope of a single intersection fall behind highly optimized fixed time intervals in systems of multiple intersections, which confirms the importance of utilizing the additional information provided by collaboration. This work also shows that collaboration results in significant reduction of wait time in a grid of five intersections when compared to a non-collaborative state-of-the-art alternative. Lastly it is also shown that the proposed solution can compete with and for low to medium traffic outperform an adaptive and optimized real world solution within a simulation of three intersections based on real traffic data and the respective traffic light logs of the observed time frame. These findings lay the ground work for a scalable, collaborative system deployable throughout large scale traffic systems or even entire cities.