Lingler, A. (2023). Smart agent supported task-switching optimization using reinforcement learning and Human Cognition Modelling [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.105567
Diese Arbeit befasst sich mit der KI-gestützten Optimierung eines menschlichen Arbeitsablaufes. Mithilfe von Reinforcement Learning (RL) in Verbindung mit Cognitive Constraint Modeling (CCM) wird ein Supervisor Agent trainiert, der den idealen Zeitpunkt für einen Aufgabenwechsel finden soll, sodass die menschliche Performance maximiert wird. Als Basis für die Erforschung dieser Aufgabenstellung dient ein Spiel, wobei die Aufgabenumgebung über zwei identische Plattformen verfügt, auf denen sich jeweils ein Ball befindet. Die spielende Person steuert dabei lediglich eine dieser Plattformen und versucht dabei die Bälle möglichst lange auf den jeweiligen Plattformen zu halten. Der Supervisor-Agent soll dabei für den Menschen entscheiden, welche Plattform gesteuert wird. Die Performance wird dabei durch die erreichte Zeit bestimmt, in der beide Bälle auf den Plattformen verbleiben. Mittels dieser konkreten Implementierung soll im Allgemeinen die Möglichkeit des Einsatzes von RL in Verbindung mit CCM zur Feststellung eines idealen Zeitpunktes für einen Aufgabenwechsel aufgezeigt werden. Dieses Verfahren kann folglich z.B. für den Einsatz von Take-Over Requests (TOR) im Bereich des autonomen Fahrens verwendet werden. Um einen solchen Agenten trainieren zu können, muss dieser mittels menschlicher Eingaben trainiert werden. Diese Eingaben sind aufgrund der benötigten Menge an Trainingsdaten für eine einzelne Person nicht durchführbar. Daher wurde mittels CCM eine Umgebung geschaffen, die menschliche Einschränkungen (z.B. ungenaue Eingaben) berücksichtigt. Basierend auf dieser Umgebung wurde ein weiterer Agent trainiert, der in Folge einen Menschen simuliert, der das Balance-Spiel durchführt. Der Supervisor Agent wurde anhand der Eingaben dieses weiteren Agenten trainiert. Der so trainierte Supervisor-Agent wurde anhand einer Benutzerstudie evaluiert. Mithilfe dieser Studie wurden passende Parameter für das kognitive Modell bestimmt. In einem weiteren Schritt mussten die teilnehmenden Personen das Spiel in vier unterschiedlichen Modi absolvieren, wobei sich ein Modus durch die fehlende Unterstützung eines Supervisors auszeichnet und ein Modus den Supervisor enthält, der mittels des kognitiven Models trainiert wurde. Die teilnehmenden Personen konnten im Durchschnitt die beste Leistung mit dem Supervisor erzielen, der mittels der Eingaben des kognitiven Modells trainiert wurde. Es konnte somit gezeigt werden, dass durch den Einsatz von RL der ideale Zeitpunkt für einen Aufgabenwechsel festgestellt werden kann. Die teilnehmenden Personen konnten ihre Leistung mithilfe des Supervisors im Vergleich zu dem Szenario in den sie selbst entscheiden, wann sie die Aufgabe wechseln, verbessern.
de
This work addresses AI-assisted optimization of human workflow. Using reinforcement learning (RL) in conjunction with cognitive constraint modeling (CCM), a supervisor agent is trained to find the opportune time to switch tasks in order to maximize human performance. The task environment contained two identical platforms, each with a ball on it. The player controlled only one of these platforms at a time and tried to keep the balls on their respective platforms as long as possible. The supervisor agent decided which platform to control for the human. The performance was determined by the time both balls stayed on the platforms. This concrete implementation shows the possibility of using RL in combination with CCM to determine an ideal time for a task switch in general. Thus, this method can be used, for example, for take-over requests (TOR) in the field of autonomous driving. Such an agent must be trained using human input. However, this input is not feasible for a human due to the amount of input required. Therefore, an environment that accounts for human constraints (e.g., inaccurate inputs) was created using CCM. Based on this environment, another agent was trained to simulate a human playing the balancing game. The supervisor agent was trained based on the inputs of this further agent. These trained supervisor agents were evaluated with the help of a user study. Based on this study, suitable parameters for the cognitive model were determined. In a further step, the participants completed the game in four different modes, one mode being characterized by a lack of support from the supervisor and another containing the supervisor trained using the cognitive model. On average, participants achieved the best performance with the supervisor trained using the inputs of the cognitive model. Thus, this study shows that RL can be used to find the ideal time to switch tasks. The participants improved their performance more using the supervisor than in the scenario in which they decided themselves when to switch tasks.