Stippel, C. (2024). Multimodal Machine Learning to alleviate Data Scarcity [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.113540
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2024
-
Number of Pages:
77
-
Keywords:
Generative Models; Multimodal Scene Understanding; Dataset Augmentation; Human Segmentation; Action Recognition
en
Abstract:
Die Forschung im Bereich der Computer Vision, insbesondere in der Analyse menschlichen Verhaltens, hat sich überwiegend auf RGB-Datensätze gestützt, die trotz ihres Informationsreichtums Einschränkungen in Bezug auf Lichtverhältnisse und Datenschutzbedenkenaufweisen. Um diese Herausforderungen zu adressieren, präsentiert diese Arbeit einen umfassenden Ansatz, der RGB-Daten durch thermische und Tiefendaten ergänzt, um robustere und datenschutzfreundlichere Alternativen zu bieten. Wir führen TRISTAR ein, ein öffentliches Trimodales Segmentierungs- und Aktionsarchiv, das registrierte Sequenzen von RGB-, Tiefen- und Thermaldaten in verschiedenen Umgebungen umfasst. Dieser Datensatz beinhaltet Annotationen für die semantische Segmentierung von Menschen, per Bild Annotationen für die zeitliche Aktionsdetektion und das Verständnis von Szenen. Benchmark-Modelle, die sich auf die Segmentierung von Menschen und die Aktionsdetektion konzentrieren, zeigen signifikante Verbesserungenbei der Verwendung von Thermal- und Tiefenmodi. Darüber hinaus entwickeln wir eine generative Technik zur Erstellung trimodaler Datensätze, indem wir RGB-Daten mittels Unsupervised Learning in Thermal- und Tiefenbilderübersetzen. Diese Methode hat das Potential Lösung in Szenarien mit begrenzter Datenverfügbarkeit oder herausfordernden Bedingungen zu sein.
de
Research in computer vision, particularly in human behavior analysis, has predominantly relied on RGB datasets, which despite their information richness have limitations interms of lighting conditions and privacy concerns. To address these challenges, this workpresents a comprehensive approach that augments RGB data with thermal and depthdata to provide more robust and privacy-friendly alternatives. We introduce TRISTAR, a public trimodal segmentation and action archive comprising registered sequences of RGB, depth and thermal data in different environments. Thisdataset includes annotations for semantic segmentation of humans, per image annotationsfor temporal action detection and scene understanding. Benchmark models focusing onhuman segmentation and action detection show significant improvements when usingthermal and depth modes.In addition, we are developing a generative technique to create trimodal datasets bytranslating RGB data into thermal and depth images using unsupervised learning. Thismethod has the potential to be a solution in scenarios with limited data availability orchallenging conditions.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers