Brunner, K. (2021). Simulating a reinforcement learning model for application in just-In-time adaptive intervention recommender systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.96865
E101 - Institut für Analysis und Scientific Computing
-
Date (published):
2021
-
Number of Pages:
165
-
Keywords:
Machine Learning; Model-based; Recommender Systems
en
Abstract:
Eine einheitliche Gesundheitsversorgung und offene Zugänge zu Gesundheitsdiensten für alle Bevölkerungsschichten sind weltweit noch immer eine Utopie. In einigen Gebieten dieser Welt übersteigt die Reichweite der Mobilfunknetze die der lokalen Gesundheitsinfrastruktur Um diesem Problem zu begegnen, sind in den letzten Jahren Initiativen zu “Digital Health“ entstanden, die mögliche Lösungen versprechen. Ein wichtiger, aber komplexer Sektor im Bereich von Digital Health ist die Entwicklung von “Recommender Systems“, also Empfehlungssystemen, bei denen es sich um Machine Learning-basierte mehrkomponentige Anwendungen handelt, die künstliche Intelligenz nutzen, um Einzelpersonenpersonalisierte unterstützende Interventionen bereitzustellen, die auf Just-in-Time-Interventionsbereitstellung und Adaptivität basieren.Diese Arbeit befasst sich mit einem Machine Learning Algorithmus namens “Thompson Sampling with Restricted Context“ (TSRC) und untersucht, ob er ein Anwärter für die Engine in einem adaptiven Just-in-Time-Empfehlungssystem ist. Zunächst wird ein Überblick über die Struktur von medizinischen Empfehlungssystemen gegeben, der die Beschreibungvon Schlüsselelementen und eine Erörterung der aktuellen Anwendungen beinhaltet, die mit diesem Konzept arbeiten.Mathematisch kann das Problem von Empfehlungssystemen als kontextuelles mehrarmiges Banditenproblem interpretiert werden. Die Standardalgorithmen, die dieses Problem lösen, werden vorgestellt und ihre Vor- und Nachteile diskutiert, bevor argumentiert wird, warum der Thompson-Sampling-Ansatz für diese Diplomarbeit gewählt wurde.Anschließend wird Thompson Sampling als Paradigma des Machine Learning untersucht und der TSRC-Algorithmus als Erweiterung der traditionellen Heuristik vorgestellt, der aufgrund seiner Einschränkung von Kontextvariablen in Situationen nützlich sein kann, in denen Kontextinformation fehlt, zum Beispiel im Falle eines technischen Ausfalls während der Datenaufzeichnung.Um die Leistung des TSRC-Algorithmus bei der Auswahl unterstützender Interventionen zu analysieren, wird ein Reinforcement Learning Modell entworfen und in Matlab implementiert.Es umfasst das Modell eines Empfehlungssystems, virtuelle Klient*innen und die Implementierung des TSRC-Algorithmus.Anschließend werden Simulationen mit dem Modell des Empfehlungssystems und verschiedenen Modell-Klient*innen durchgeführt, und die Reaktion des TSRC-Algorithmus auf Sparsität von Kontext und den Fall fehlender Daten untersucht, die sich beide auf eingeschränkte Kontextvariablen beziehen. Alle Simulationsergebnisse deuten stark darauf hin, dass der TSRC-Algorithmus ein Anwärter für adaptive Just-in-Time-Empfehlungssysteme ist, und es wird ein Ausblick auf weiterführende Forschungsbereiche zu diesem Thema gegeben.
de
Globally speaking, consistent healthcare and easy access to health services for all citizensis still a utopian concept. In some areas of this world the coverage of mobile networkssurpasses the local health care infrastructure. In order to combat this issue, digital healthinitiatives have emerged in recent years, promising possible solutions. An important butcomplex sector in digital health is the development of treatment recommender systems,which are machine learning driven multi-component applications that utilise artificial intelligenceto deliver personalised supportive intervention to a client, based on just-in-timeintervention delivery, and adaptiveness.This thesis looks at a machine learning algorithm called Thompson Sampling with RestrictedContext, or TSRC, and investigates whether it is a contender for the engine in ajust-in-time adaptive recommender system. First, an overview of the framework for medicalrecommender systems is given, which includes a description of its key elements and adiscussion of the current applications working with this concept.Mathematically, the problem faced by recommender systems can be interpreted as acontextual multi-armed bandit problem. The standard algorithms solving this problem arepresented, and their advantages and disadvantages are discussed before arguing why theThompson Sampling approach is selected for this thesis.Subsequently, Thompson Sampling is investigated as a machine learning paradigm, andthe TSRC algorithm is presented as an extension of the traditional heuristic, which, due toits restricted context policy may be equipped to handle cases where contextual informationis missing, for example in the case of a technical failure to record data.In order to analyse the TSRC algorithm’s performance in choosing supportive interventions,a reinforcement learning-based model is designed and implemented in Matlab. Itincludes a model recommender system together with virtual model clients, and the implementationof the TSRC algorithm.Thereafter, simulations are performed with the model recommender system and differentclients, and the TSRC algorithm’s response to contextual feature sparsity and cases ofmissing data, both relating to restricted context, are investigated. All simulation resultsstrongly suggest that the TSRC algorithm is a contender for just-in-time adaptive recommendersystems, and an outlook containing future research into the topic is provided.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers