Enhancing Depth-Based Human Action Recognition through Zero-Shot Depth Estimation

Angyal, Rebeka

doi:10.34726/hss.2025.131662

DC Field

Value

Language

dc.contributor.advisor

Kampel, Martin

dc.contributor.author

Angyal, Rebeka

dc.date.accessioned

2025-12-01T08:50:18Z

dc.date.issued

2025

dc.date.submitted

2025-11

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Angyal, R. (2025). <i>Enhancing Depth-Based Human Action Recognition through Zero-Shot Depth Estimation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.131662</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.131662

dc.identifier.uri

http://hdl.handle.net/20.500.12708/221827

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Diese Masterarbeit befasst sich mit der Herausforderung der begrenzten Verfügbarkeit von Tiefendaten in der menschlichen Bewegungserkennung (Human Action Recognition, HAR), indem synthetische Tiefenbilder aus RGB-Videos mittels Zero-Shot- Tiefenschätzung erzeugt werden. Obwohl Tiefendaten für HAR Vorteile wie Robustheit gegenüber Lichtverhältnissen und verbesserten Datenschutz bieten, limitiert die begrenzte Anzahl und der Umfang verfügbarer Tiefendatensätze im Vergleich zu RGB-Datensätzen die Modellentwicklung. Die Forschung schlägt ein Framework vor, das RGB-Datensätze menschlicher Bewegungen mithilfe von Zero-Shot-Tiefenschätzungsmethoden in synthetische Tiefenbilder umwandelt, um die Trainingsdaten für tiefenbasierte HAR-Systeme zu erweitern. Durch vergleichende Experimente zwischen realen und synthetischen Tiefenbildern sowie die Untersuchung von Domänenadaptationstechniken.

dc.description.abstract

Human Action Recognition (HAR) is a computer vision task that identifies human activities from visual data, with applications ranging from healthcare to robotics. While RGB video is the standard input modality, depth data, which measures distance from a sensor, offers advantages such as robustness to lighting changes and enhanced privacy. However, progress in depth-based HAR is hindered by the scarcity of large, publicly available depth datasets compared to RGB. This data limitation restricts model performance and generalization. To address this, we show that high-quality synthetic depth data, generated from RGB videos using off-the-shelf zero-shot depth estimation models, can effectively augment limited real depth data for training robust HAR systems. While previous works have used estimated depth as a complementary modality to RGB or evaluated it only on synthetic depth data, our work is the first to demonstrate that synthetic-to-real transfer is effective for depth-only HAR on real sensor-captured datasets. We find that augmenting a small fraction of real data with synthetic data can recover performance lost due to data scarcity, and can even surpass the accuracy of models trained on the full real dataset, when using recent, robust video understanding architectures for HAR. This framework provides a scalable and cost-effective solution to the data acquisition bottleneck in depth-based HAR. By enabling the use of large existing RGB datasets, our approach supports the development of privacy-preserving, reliable, and practical depth-only HAR systems for real-world applications.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Menschliche Bewegungserkennung

dc.subject

Zero-Shot-Tiefenschätzung

dc.subject

Synthetische Datengenerierung

dc.subject

Tiefendaten

dc.subject

Domain-Adaptation

dc.subject

Computer Vision

dc.subject

Deep Learning

dc.subject

Human Action Recognition (HAR)

dc.subject

Zero-Shot Depth Estimation

dc.subject

Synthetic Data Generation

dc.subject

Depth Maps

dc.subject

Domain Adaptation

dc.subject

Computer Vision

dc.subject

Deep Learning

dc.title

Enhancing Depth-Based Human Action Recognition through Zero-Shot Depth Estimation

dc.title.alternative

Verbesserung der tiefenbasierten menschlichen Bewegungserkennung durch Zero-Shot-Tiefenschätzung

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.131662

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Rebeka Angyal

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17721249

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-5217-2854

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.cerifentitytype

Publications

item.openairetype

master thesis

item.fulltext

with Fulltext

item.mimetype

application/pdf

item.languageiso639-1

item.grantfulltext

open

item.openaccessfulltext

Open Access

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.83 MB)

In Copyright

Show simple item record

Page view(s)

checked on Dec 2, 2025

Download(s)

checked on Dec 2, 2025

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM