Vision Transformer Interpretability for Video-based Action Recognition

Panadero Palenzuela, Raquel

doi:10.34726/hss.2025.117540

Record link:

https://doi.org/10.34726/hss.2025.117540
http://hdl.handle.net/20.500.12708/227063

Title:

Vision Transformer Interpretability for Video-based Action Recognition

Citation:

Panadero Palenzuela, R. (2025). Vision Transformer Interpretability for Video-based Action Recognition [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.117540

reposiTUm DOI:

10.34726/hss.2025.117540

CatalogPlus:

AC17815200

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Panadero Palenzuela, Raquel

Advisor:

Gelautz, Margrit

Co-advisor:

Schörkhuber, Dominik

Organisational Unit:

E193 - Institut für Visual Computing and Human-Centered Technology

Date (published):

2025

Number of Pages:

Keywords:

Computer Vision; Machine Learning; Action Recognition; Video Transformers; Interpretability; Pruning; Driver Monitoring

Abstract:

Die Erkennung von Verhaltensweisen von Autofahrer*innen ist ein wichtiger Bestandteil intelligenter Überwachungssysteme im Fahrzeuginnenraum, die darauf abzielen, die Verkehrssicherheit durch die Erkennung riskanter Verhaltensweisen wie Müdigkeit, Ablenkung oder Telefonieren zu verbessern. Transformer-Modelle haben sich in letzter Zeit als vielversprechende Lösung für diese videobasierte Aufgabe herausgestellt, da sie komplexe räumlich-zeitliche Muster modellieren können. Ihre Einführung in sicherheitskritische Bereiche wie die Fahrer*innenüberwachung wird jedoch durch zwei wesentliche Einschränkungen behindert: (1) eine schlechte Interpretierbarkeit, die es erschwert, die Entscheidungsfindung des Modells zu verstehen, Transparenz zu gewährleisten und potenzielle Verzerrungen im Ergebnis zu identifizieren, (2) sowie lange Rechenzeiten, die praktische Herausforderungen für den Echtzeit-Einsatz in ressourcenbeschränkten Umgebungen mit sich bringen. In dieser Arbeit befassen wir uns mit diesen beiden Herausforderungen, indem wir bestehende Interpretierbarkeitstechniken anwenden und einen Layer-Pruning-Ansatz einführen, der sich an der Wichtigkeit der Attention Heads orientiert. Unsere qualitative Analyse der Attention Heads über alle Netzwerk-Schichten hinweg zeigt, wie Transformer räumlich-zeitliche Merkmale schrittweise kodieren, wobei Heads in tieferen Schichten sich auf Merkmale spezialisieren, die für das Fahrverhalten relevant sind. Diese Analyse unterstreicht die Wirksamkeit der angewandten Metriken zur Erkennung der Bedeutung der Heads bei der Identifizierung der entscheidenden Attention Heads und gibt Aufschluss über die wichtigsten visuellen Hinweise, welche die Vorhersagen des Modells leiten. Quantitative experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Pruning-Technik eine erhebliche Reduzierung der Rechenzeit bei minimaler Leistungseinbuße durch das Entfernen von Schichten mit geringer Relevanz erzielt. Konkret erreichen wir auf unserem DriverActionInsight (DAI)-Datensatz eine FLOPs-Einsparung von 23,5% bei der Komprimierung von Video Swin mit einer Verringerung der Top-1-Genauigkeit von weniger als 1%. Diese Ergebnisse zeigen das Potenzial unseres Ansatzes auf, die Interpretierbarkeit und Effizienz von Video-Transformer-Modellen zu erhöhen und dadurch ihren Echtzeiteinsatz in Fahrer*innenassistenzsystemen zu ermöglichen.

Driver action recognition is a critical component of intelligent in-cabin monitoring systems aimed at enhancing road safety by detecting risky behaviors such as drowsiness, distraction, or phone use. For this video-based task, transformer models have recently emerged as a promising solution, thanks to their ability to model complex spatio-temporal patterns. However, their adoption in safety-critical domains like driver monitoring is hindered by two major limitations: (1) poor interpretability, which makes it difficult to understand model decision-making, ensure transparency, and identify potential biases; and (2) high computational cost, which poses practical challenges for real-time deployment in resource-constrained environments. In this work, we address both challenges by building upon existing interpretability techniques and introducing a novel layer-pruning approach guided by attention head importance. Our qualitative analysis of attention heads across layers reveals how transformers progressively encode spatio-temporal features, with deeper-layer heads specializing in features relevant to driver behaviors. This analysis underscores the effectiveness of the applied head importance metrics in pinpointing the crucial attention heads, shedding light on the key visual cues that guide the model’s predictions. Quantitative experimental results demonstrate that our proposed pruning technique achieves substantial reductions in computational costs with minimal performance degradation when removing low-relevance layers. Specifically, on our DriverActionInsight (DAI) dataset, we achieve a 23.5% FLOPs saving in compressing Video Swin with less than a 1% decrease in Top-1 accuracy. These findings highlight the potential of our approach to make video transformers more interpretable and efficient, facilitating real-time deployment in driver assistance systems.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

License:

In Copyright

Appears in Collections:

Thesis