Multimodal machine learning to alleviate data scarcity : trimodal datast generation

Stippel, Christian

doi:10.34726/hss.2024.113540

Datensatz Zitierlink:

https://doi.org/10.34726/hss.2024.113540
http://hdl.handle.net/20.500.12708/196051

Titel:

Multimodal machine learning to alleviate data scarcity : trimodal datast generation

Zitat:

Stippel, C. (2024). Multimodal machine learning to alleviate data scarcity : trimodal datast generation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.113540

reposiTUm-DOI:

10.34726/hss.2024.113540

CatalogPlus:

AC17129788

Publikationstyp:

Hochschulschrift - Diplomarbeit

Sprache:

Englisch

Autor_innen:

Stippel, Christian

Betreuer_in:

Kampel, Martin

Mitbetreuer_innen:

Heitzinger, Thomas

Organisationseinheit:

E193 - Institut für Visual Computing and Human-Centered Technology

Datum (veröffentlicht):

2024

Umfang:

Keywords:

Generative Models; Multimodal Scene Understanding; Dataset Augmentation; Human Segmentation; Action Recognition

Abstract:

Research in computer vision, particularly in human behavior analysis, has predominantly relied on RGB datasets, which despite their information richness have limitations in terms of lighting conditions and privacy concerns. To address these challenges, this work presents a comprehensive approach that augments RGB data with thermal and depth data to provide more robust and privacy-friendly alternatives. We introduce TRISTAR, a public trimodal segmentation and action archive comprising registered sequences of RGB, depth and thermal data in different environments. This dataset includes annotations for semantic segmentation of humans, per image annotations for temporal action detection and scene understanding. Benchmark models focusing on human segmentation and action detection show significant improvements when using thermal and depth modes.In addition, we are developing a generative technique to create trimodal datasets by translating RGB data into thermal and depth images using unsupervised learning. This method has the potential to be a solution in scenarios with limited data availability or challenging conditions.

Die Forschung im Bereich der Computer Vision, insbesondere in der Analyse menschlichen Verhaltens, hat sich überwiegend auf RGB-Datensätze gestützt, die trotz ihres Informationsreichtums Einschränkungen in Bezug auf Lichtverhältnisse und Datenschutzbedenken aufweisen. Um diese Herausforderungen zu adressieren, präsentiert diese Arbeit einen umfassenden Ansatz, der RGB-Daten durch thermische und Tiefendaten ergänzt, um robustere und datenschutzfreundlichere Alternativen zu bieten. Wir führen TRISTAR ein, ein öffentliches Trimodales Segmentierungs- und Aktionsarchiv, das registrierte Sequenzen von RGB-, Tiefen- und Thermaldaten in verschiedenen Umgebungen umfasst. Dieser Datensatz beinhaltet Annotationen für die semantische Segmentierung von Menschen, per Bild Annotationen für die zeitliche Aktionsdetektion und das Verständnis von Szenen. Benchmark-Modelle, die sich auf die Segmentierung von Menschen und die Aktionsdetektion konzentrieren, zeigen signifikante Verbesserungen bei der Verwendung von Thermal- und Tiefenmodi. Darüber hinaus entwickeln wir eine generative Technik zur Erstellung trimodaler Datensätze, indem wir RGB-Daten mittels Unsupervised Learning in Thermal- und Tiefenbilder übersetzen. Diese Methode hat das Potential Lösung in Szenarien mit begrenzter Datenverfügbarkeit oder herausfordernden Bedingungen zu sein.

Lizenz:

Urheberrechtsschutz

Enthalten in den Sammlungen:

Thesis