Brunner, L. (2025). In-Cabin Driver Monitoring Using Video- and Pose-Based Action Recognition [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.117545
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2025
-
Number of Pages:
102
-
Keywords:
Computer Vision; Human Action Recognition; Autonomous Driving; Assisted Driving
en
Abstract:
Menschliche Aktionserkennung auf Basis visueller oder räumlicher Daten, wie z.B. Bilddaten oder Daten, welche die Fahrerpose beschreiben, birgt erhebliches Potential für die Fahrerüberwachung im Kontext des halbautonomen Individualverkehrs. Derzeitige Fahrerassistenzsysteme (FAS) erfordern noch immer eine Überwachung durch den menschlichen Fahrer und die automatisierte Fahrerüberwachung kann dabei helfen, die korrekte und verantwortungsvolle Benutzung solcher halbautonomer FAS Funktionen sicherzustellen. In dieser Arbeit vergleichen wir zwei Ansätze, die daruf abzielen, ein Fahrerüberwachungssystem auf Basis tiefer neuronaler Netwerke mittels Techniken der Computer Vision umzusetzen: posenbasierte und videobasierte Aktionserkennung. Für beide Ansätze evaluieren wir mehrere Modelle auf zwei Datensätzen, indem wir die Klassifikationsgenauigkeit im Gesamten und für einzelne Aktionsklassen ermitteln und vergleichen. Zudem messen wir die Vorhersagelatenz und die Anzahl der Gleitkommaoperationen eines jeden Modells und diskutieren die Ergebnisse im Kontext der qualitativen Eigenschaften von posen- und videobasierten Methoden. In Abhängigkeit vom Datensatz und seinen Klassen erreichen posenbasierte Modelle in unseren Experimenten eine Sensitivität von bis zu 78% im Vergleich zu bis zu 75% bei videobasierten Modellen, während sie zudem vorteilhafte strukturelle Eigenschaften für den anvisierten Anwendungsbereich zeigen. Videobasierte Modelle können jedoch unter selben Bedingungen oft ein besseres Ergebnis als posenbasierte Modelle erreichen, sind aber um mindestens eine Größenordnung rechenaufwändiger. Mit ihrem dadurch bedingten kürzeren zeitlichen rezeptiven Feld zeigen sie mitunter Schwierigkeiten, zeitliche Abhängigkeiten abzubilden. Posenbasierte Modelle erfassen diese leichter, sind aber auf lange zeitliche rezeptive Felder angewiesen, mit Auswirkung auf die effektive Erkennungslatenz.
de
Human action recognition from visual or spatial data, such as image or body pose data, holds considerable potential for driver monitoring in the context of semi-autonomous personal means of transport. Current Advanced Driver Assistance Systems (ADAS) still require human supervision by the driver, and driver monitoring can help ensure proper and responsible use of such semi-autonomous ADAS features. In this thesis, we compare two approaches supporting the implementation of a driver monitoring system based on deep neural networks using computer vision techniques: pose-based and video-based action recognition. We evaluate multiple models for both approaches on two datasets by determining and comparing their classification performance in an aggregated form and on individual action classes. Additionally, we measure the prediction latency and the number of floating-point operations of each model and discuss the results in the context of the qualitative properties of pose- and video-based methods.Depending on the dataset and its classes, in our experiments pose-based models achieve a recall of up to 78% vs. up to 75% among video-based methods, while showing beneficial structural properties for the covered scope of application. However, under the same conditions, video-based models can often achieve better performance than pose-based models while requiring more computational resources by at least one order of magnitude. With their corresponding shorter temporal receptive field, they further show difficulties in modeling some temporal dependencies. Pose-based models handle these better, however, they rely on long temporal receptive fields with implications on the effective action prediction latency.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft