<div class="csl-bib-body">
<div class="csl-entry">Angyal, R. (2025). <i>Enhancing Depth-Based Human Action Recognition through Zero-Shot Depth Estimation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.131662</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.131662
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/221827
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Diese Masterarbeit befasst sich mit der Herausforderung der begrenzten Verfügbarkeit von Tiefendaten in der menschlichen Bewegungserkennung (Human Action Recognition, HAR), indem synthetische Tiefenbilder aus RGB-Videos mittels Zero-Shot- Tiefenschätzung erzeugt werden. Obwohl Tiefendaten für HAR Vorteile wie Robustheit gegenüber Lichtverhältnissen und verbesserten Datenschutz bieten, limitiert die begrenzte Anzahl und der Umfang verfügbarer Tiefendatensätze im Vergleich zu RGB-Datensätzen die Modellentwicklung. Die Forschung schlägt ein Framework vor, das RGB-Datensätze menschlicher Bewegungen mithilfe von Zero-Shot-Tiefenschätzungsmethoden in synthetische Tiefenbilder umwandelt, um die Trainingsdaten für tiefenbasierte HAR-Systeme zu erweitern. Durch vergleichende Experimente zwischen realen und synthetischen Tiefenbildern sowie die Untersuchung von Domänenadaptationstechniken.
de
dc.description.abstract
Human Action Recognition (HAR) is a computer vision task that identifies human activities from visual data, with applications ranging from healthcare to robotics. While RGB video is the standard input modality, depth data, which measures distance from a sensor, offers advantages such as robustness to lighting changes and enhanced privacy. However, progress in depth-based HAR is hindered by the scarcity of large, publicly available depth datasets compared to RGB. This data limitation restricts model performance and generalization. To address this, we show that high-quality synthetic depth data, generated from RGB videos using off-the-shelf zero-shot depth estimation models, can effectively augment limited real depth data for training robust HAR systems. While previous works have used estimated depth as a complementary modality to RGB or evaluated it only on synthetic depth data, our work is the first to demonstrate that synthetic-to-real transfer is effective for depth-only HAR on real sensor-captured datasets. We find that augmenting a small fraction of real data with synthetic data can recover performance lost due to data scarcity, and can even surpass the accuracy of models trained on the full real dataset, when using recent, robust video understanding architectures for HAR. This framework provides a scalable and cost-effective solution to the data acquisition bottleneck in depth-based HAR. By enabling the use of large existing RGB datasets, our approach supports the development of privacy-preserving, reliable, and practical depth-only HAR systems for real-world applications.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Menschliche Bewegungserkennung
de
dc.subject
Zero-Shot-Tiefenschätzung
de
dc.subject
Synthetische Datengenerierung
de
dc.subject
Tiefendaten
de
dc.subject
Domain-Adaptation
de
dc.subject
Computer Vision
de
dc.subject
Deep Learning
de
dc.subject
Human Action Recognition (HAR)
en
dc.subject
Zero-Shot Depth Estimation
en
dc.subject
Synthetic Data Generation
en
dc.subject
Depth Maps
en
dc.subject
Domain Adaptation
en
dc.subject
Computer Vision
en
dc.subject
Deep Learning
en
dc.title
Enhancing Depth-Based Human Action Recognition through Zero-Shot Depth Estimation
en
dc.title.alternative
Verbesserung der tiefenbasierten menschlichen Bewegungserkennung durch Zero-Shot-Tiefenschätzung
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.131662
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Rebeka Angyal
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology