Varga, Z. (2024). Multimodal transformer models for human action classification [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.111023
Der Großteil der Forschung im Bereich Deep Learning konzentriert sich auf die Verarbeitung einer einzelnen Modalität, wie z.B. Bild, Ton, Text oder Bewegung. Im Gegensatz dazu nutzen Menschen tagtäglich verschiedene Sinne, um reichhaltige Informationen über die Umgebung aufzunehmen. In intelligenten Systemen kann kein einzelner Sensor alle Aspekte der Umgebung vollständig erfassen, weshalb die Integration verschiedener Sensortypen notwendig ist. Die Fusion von Sensormodalitäten ermöglicht ein tieferes Verständnis der Umgebung. Davon inspiriert, haben wir ein multimodales Modell auf Basis von Transformern zur Erkennung menschlicher Aktionen entwickelt und dessen Leistung und Robustheit umfassend evaluiert. Insbesondere konzentriert sich diese Arbeit auf die Untersuchung der Vorteile multimodaler Daten für Handlungserkennung in einer Küchenszene. Wir untersuchen das Verständnis des Modells und den Einfluss der Zusammenführung von Modalitäten durch eine systematische quantitative Analyse. Darüber hinaus ermitteln wir den Einfluss einzelnen Modalitäten anhand des Aufmerksamkeitsmechanismus unserer Transformer-Architektur und untersuchen verschiedene Fusionsmethoden, um herauszufinden, wie verschiedene Modalitäten am besten kombiniert werden können. Unsere Studie zeigt, dass multimodale Transformer besser abschneiden als ihre modalitätsspezifischen Äquivalenten. Der höchste Genauigkeitssteigerung im Vergleich zu der reinen Video-Baseline beträgt +10,1 %, was durch späte Fusion und stochastisch maskierte Training ermöglicht wird. Der implementierte multimodale Ansatz für interne Sensoren übertrifft ein vorheriges Modell, das dem Stand der Technik in Handlungserkennung entspricht, um 32,8 %. Unser Deep-Learning-Modell profitiert von der Kombination von Video, Kraft, Muskelaktivität, Pose und Ton. Abschließend untersuchen wir den Zusammenhang zwischen den Sensoren, indem wir einen Decoder trainieren, eine fehlende Modalität zu generieren. Dieser Decoder rekonstruiert Griffkräfte mit einem mittleren Fehler von ±9,9 %. Zusammenfassend legen unsere Ergebnisse nahe, dass die Nutzung verschiedener Modalitäten die Leistung und Robustheit signifikant verbessert, was durch die Verwendung von stochastischen Masken weiter gesteigert werden kann.
de
The majority of research in deep learning focuses on processing a single modality, such as image, audio, text, or proprioception data. However, humans benefit from leveraging information from diverse senses on a daily basis for richer information acquisition. In intelligent systems, no single sensor can fully capture all aspects of the surroundings, making it necessary to integrate different types. Fusing sensor modalities allows for achieving a deeper understanding of the environment. Inspired by this, we design a transformer-based multimodal model for human action recognition and thoroughly evaluate its performance and robustness. In particular, this thesis focuses on examining the benefit of using multimodal data for human action recognition in a kitchen scenario. We conduct an ablation study of the model's understanding through a systematic quantitative evaluation and investigate the influence of uniting modalities on performance. Furthermore, we analyse the role of each modality by comparing the attention scores of our transformer architecture and explore different fusion methods to assess how various modalities are best combined. Our study shows that multimodal transformers perform better than their modality-specific equivalents. The highest boost of accuracy compared to our vision-only baseline is +10.1%, achieved by late fusion trained with stochastical masking. The implemented multimodal approach of internal sensors outperforms a previous state-of-the-art model in action recognition by 32.8%. The implemented deep learning model benefits from combining vision, force, muscle activity, body pose, and sound. Lastly, we further explore the dependency between sensors by training a decoder to infer (generate) a missing modality. This decoder reconstructs tactile force with a mean error of ±9.9%. In conclusion, our findings suggest leveraging various modalities to improve performance and robustness significantly, which can be further increased by stochastical masking.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers