Huetter, S. (2023). Personalized self-supervised learning for real-world human activity recognition [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.109782
Smart Cities und Mobile Crowdsensing sind zwei Konzepte, die eng miteinander verwoben sind und in der Forschung immer mehr Beachtung finden. Da Smartphones immer leistungsfähiger werden, werden sie für alle Arten von Sensor- und Rechenaufgaben immer nützlicher. Mobile Crowdsensing zielt darauf ab, die privaten Smartphones der Nutzer als Sensoren zu nutzen, sodass keine statisch installierten Geräte erforderlich sind. Auf diese Weise können zahlreiche heterogene Datenströme gesammelt werden, die zur Verbesserung der Sicherheit und der Lebensqualität der Nutzer genutzt werden können. Dazu gehört auch die Vorbereitung und Durchführung von Evakuierungsszenarien nach Naturkatastrophen.Die Erkennung menschlicher Aktivitäten (Human Activity Recognition, HAR) kann zur Verbesserung solcher Evakuierungsszenarien eingesetzt werden, indem sie Informationen darüber liefert, welche evakuierungsbezogenen Aktivitäten ein Nutzer gerade ausführt. Accelerometer- und Gyroskopdaten von Smartphone-Sensoren können verwendet werden, um Modelle für Machine Learning zu trainieren, die die menschliche Aktivität in verschiedene Klassen einteilen. In Kombination mit dem Konzept des Mobile Crowdsensing, bei dem benutzereigene Smartphones verwendet werden, können mit HAR wertvolle Einblicke in die alltäglichen Aktivitäten eines Nutzers gewonnen werden. Durch das Sammeln alltäglicher Daten kann man leichter eine größere Menge an Daten erfassen, und die gesammelten Daten repräsentieren die realen Daten besser, auf deren Grundlage später Vorhersagen getroffen werden. Diese unkontrollierte Datenerfassung bringt jedoch auch Herausforderungen mit sich, z. B. die Korrektheit der Label oder die Vielfalt der Daten.Diese Arbeit schlägt eine Ende-zu-Ende-HAR-Anwendung vor, die unkontrollierte Daten mit den Smartphones der Nutzer sammelt, ein Modell direkt auf dem Gerät trainiert und dieses Modell verwendet, um Vorhersagen über die Aktivitäten des Nutzers zu treffen. Um ein Modell ohne gelabelte Daten zu trainieren, wird Self-Supervised Learning (SSL) verwendet, um sinnvolle Merkmale aus den Rohdaten der realen Welt zu extrahieren.Es werden umfangreiche Experimente durchgeführt, um unseren Ansatz der unkontrollierten Datensammlung mit öffentlichen Datensätzen zu vergleichen. Die Ähnlichkeiten dieser Datensätze und ihre Auswirkungen werden ebenfalls untersucht. Die Experimente zeigen, dass unser Ansatz besser abschneidet als alle anderen Datensätze. Im realen Anwendungsfall unserer Ende-zu-Ende-Anwendung verbessert unser Ansatz die Leistung um 52\% und 126\% für zwei Fine-Tuning Datensätze.Da in einer realen Umgebung nur die persönlichen Daten eines Benutzers verfügbar sind, werden in dieser Arbeit auch die Auswirkungen der Personalisierung für SSL in HAR untersucht. Die Ergebnisse zeigen, dass die Vielfalt und Individualität der persönlichen Daten kritische Faktoren bei der Bewertung der Auswirkungen der Personalisierung auf die nachfolgende Klassifizierungsleistung sind.
de
Smart Cities and Mobile Crowdsensing are two concepts that are highly intertwined and gaining more and more attention in research. Due to smartphones becoming more powerful, they become more useful for all kinds of sensing and computing tasks. Mobile Crowdsensing aims to use users' private smartphones as sensing devices, so no statically deployed devices are needed. This way, numerous heterogeneous data streams can be collected, which can be used to improve users' safety and living qualities. This includes the preparation and execution of evacuation scenarios after natural disasters. Human Activity Recognition (HAR) can improve such evacuation scenarios by delivering information on what evacuation-related activity a user is currently performing. Accelerometer and Gyroscope data from smartphone sensors can be used to train Machine Learning models that classify human activity into distinct classes. In combination with the concept of Mobile Crowdsensing, where user-owned smartphones are used, HAR can be used to get valuable insights into a user's day-to-day activities. By collecting day-to-day, real-world data, one can collect a large amount of data easily. Additionally, the collected data better represents the real-world data on which predictions are made later. This uncontrolled data gathering also comes with challenges, such as the correctness of the activity labels or the diversity of the data. This work proposes an End-To-End HAR application that collects personal, uncontrolled data with the user's smartphones, trains a personalized model directly on the device, and uses this model to make predictions about the user's activity. This all happens on the user's device and personal data. To train a model without labeled data, Self-Supervised Learning (SSL) is used to extract sensible features of the raw, real-world data. Extensive experiments are done to compare our uncontrolled data collection approach to publicly available datasets. The similarities of those datasets and their impact are also studied. To evaluate two different use cases, the models are tested with pre-training and fine-tuning data. Because only a user's personal data is available in an uncontrolled, real-world setting, the impact of personalization for SSL in HAR is also examined in this work. This way the SSL is performed on the personal data on which predictions are made. The experiments show that our approach consistently outperformed all other datasets, leading to higher performing models. In the real-world use case of our End-To-End application, our approach improves the performance by 52\% and 126\% for two fine-tuning sets. The results also indicate that the diversity and individuality of the personal data are critical factors in evaluating the impact of personalization on the downstream classification performance.