<div class="csl-bib-body">
<div class="csl-entry">Stippel, C. (2024). <i>Multimodal machine learning to alleviate data scarcity : trimodal datast generation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.113540</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2024.113540
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/196051
-
dc.description.abstract
Research in computer vision, particularly in human behavior analysis, has predominantly relied on RGB datasets, which despite their information richness have limitations in terms of lighting conditions and privacy concerns. To address these challenges, this work presents a comprehensive approach that augments RGB data with thermal and depth data to provide more robust and privacy-friendly alternatives. We introduce TRISTAR, a public trimodal segmentation and action archive comprising registered sequences of RGB, depth and thermal data in different environments. This dataset includes annotations for semantic segmentation of humans, per image annotations for temporal action detection and scene understanding. Benchmark models focusing on human segmentation and action detection show significant improvements when using thermal and depth modes.In addition, we are developing a generative technique to create trimodal datasets by translating RGB data into thermal and depth images using unsupervised learning. This method has the potential to be a solution in scenarios with limited data availability or challenging conditions.
en
dc.description.abstract
Die Forschung im Bereich der Computer Vision, insbesondere in der Analyse menschlichen Verhaltens, hat sich überwiegend auf RGB-Datensätze gestützt, die trotz ihres Informationsreichtums Einschränkungen in Bezug auf Lichtverhältnisse und Datenschutzbedenken aufweisen. Um diese Herausforderungen zu adressieren, präsentiert diese Arbeit einen umfassenden Ansatz, der RGB-Daten durch thermische und Tiefendaten ergänzt, um robustere und datenschutzfreundlichere Alternativen zu bieten. Wir führen TRISTAR ein, ein öffentliches Trimodales Segmentierungs- und Aktionsarchiv, das registrierte Sequenzen von RGB-, Tiefen- und Thermaldaten in verschiedenen Umgebungen umfasst. Dieser Datensatz beinhaltet Annotationen für die semantische Segmentierung von Menschen, per Bild Annotationen für die zeitliche Aktionsdetektion und das Verständnis von Szenen. Benchmark-Modelle, die sich auf die Segmentierung von Menschen und die Aktionsdetektion konzentrieren, zeigen signifikante Verbesserungen bei der Verwendung von Thermal- und Tiefenmodi. Darüber hinaus entwickeln wir eine generative Technik zur Erstellung trimodaler Datensätze, indem wir RGB-Daten mittels Unsupervised Learning in Thermal- und Tiefenbilder übersetzen. Diese Methode hat das Potential Lösung in Szenarien mit begrenzter Datenverfügbarkeit oder herausfordernden Bedingungen zu sein.
de
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Generative Models
en
dc.subject
Multimodal Scene Understanding
en
dc.subject
Dataset Augmentation
en
dc.subject
Human Segmentation
en
dc.subject
Action Recognition
en
dc.title
Multimodal machine learning to alleviate data scarcity : trimodal datast generation
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2024.113540
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Christian Stippel
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Heitzinger, Thomas
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17129788
-
dc.description.numberOfPages
77
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-5217-2854
-
tuw.assistant.orcid
0000-0002-3129-5054
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E193-01 - Forschungsbereich Computer Vision
-
crisitem.author.parentorg
E193 - Institut für Visual Computing and Human-Centered Technology