<div class="csl-bib-body">
<div class="csl-entry">Kunanuntakij, T. (2026). <i>Monocular 3D Human Pose Estimation for In-cabin Monitoring Utilizing Synthetic Images</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.140003</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2026.140003
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/226955
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Einer der entscheidendsten Aspekte der Fahrzeugherstellung ist die Gewährleistung der Sicherheit der Fahrzeuginsassen. Da fahrerbedingte Faktoren wie Müdigkeit und Ablenkung zu einem Großteil der Unfälle beitragen, ist die Überwachung der Fahrer*innen wesentlich, um die Verkehrssicherheit zu verbessern. Fortschritte im Bereich des maschinellen Sehens haben den Einsatz kostengünstiger Bildsensoren zur Implementierung von Fahrerüberwachungssystemen ermöglicht. In dieser Arbeit interessierten wir uns für die Schätzung der 3D-Pose von Fahrer*innen mit dem Ziel, menschliche Skelettdarstellungen aus Eingabebildern mithilfe von Deep-Learning-Methoden zu rekonstruieren. Da Deep Learning jedoch große Datenmengen erfordert, ist die Erfassung realer Datensätze kostspielig und herausfordernd. Synthetische Daten bieten eine attraktive Alternative, die die Menge an benötigten realen Daten verringern kann, ohne die Genauigkeit zu beeinträchtigen. Unser Ansatz folgt einem dreistufigen Framework zur 3D-Pose-Schätzung. Die Pose-Schätzungspipeline besteht aus vorgefertigten Modellen für die Personenerkennung und die 2D-Pose-Schätzung. Anschließend verwendeten wir synthetische Daten, um verschiedene 2D-zu-3D-Human-Pose-Lifting-Modelle basierend auf unterschiedlichen neuronalen Netzwerkarchitekturen für die letzte Stufe vorzutrainieren. Schließlich wurden diese Modelle mit zunehmenden Mengen realer Daten feinabgestimmt. Ein Experiment mit Drive&Act als Benchmark-Datensatz zeigte Genauigkeitsgewinne für vortrainierte Modelle bei jeder Menge realer Daten, obwohl diese Gewinne mit zunehmender Menge realer Daten abnahmen. Hybride Modelle wie GraphMLP und GraFormer erzielten die besten Ergebnisse, wenn sie mit geringen bis mittleren Mengen realer Daten trainiert wurden, während JointFormer, ein Transformer-Modell, die anderen übertraf, wenn das vollständige reale Datenset verwendet wurde. Darüber hinaus stellten wir fest, dass das nur mit dem synthetischen Datensatz vortrainierte Lifting-Modell selbst dann eine angemessene Pose-Schätzungsleistung erreichte, wenn keine 3D-Pose-Annotationen für die Ziel-Realweltdaten verfügbar waren, beispielsweise wenn deren Erfassung zu kostspielig ist. Insgesamt deuten die Ergebnisse klar auf den Vorteil der Verwendung synthetischer Daten zur Verbesserung der Genauigkeit der 3D-Fahrer*innen-Pose-Schätzung hin, insbesondere wenn 3D-Pose-Annotationen für reale Datensätze nur eingeschränkt verfügbar sind.
de
dc.description.abstract
One of the most crucial aspects of vehicle manufacturing is ensuring passenger safety. As driver-related factors such as fatigue and distraction contribute to a majority of accidents, monitoring drivers becomes essential to improve road safety. Advances in computer vision have enabled the use of affordable image sensors to implement driver monitoring systems. In this work, we were interested in estimating 3D driver pose with the goal of reconstructing human skeletal representations from input images using deep learning methods. However, deep learning requires large amounts of data, and real-world dataset collection is expensive and challenging. Synthetic data offers an appealing alternative that might reduce the amount of real-world data needed while maintaining accuracy. Our approach adopts a three-stage 3D pose estimation framework. The pose estimation pipeline consists of off-the-shelf models for both human detection and 2D pose estimation. Then, we used synthetic data to pre-train various 2D-to-3D human pose lifting models based on different neural network architectures for the last stage. Finally, we fine-tuned these models with increasing amounts of real-world data. An experiment with Drive&Act as a benchmark dataset revealed accuracy gains for pre-trained models with any amount of real-world data, though these gains diminished as more real data became available. Hybrid models like GraphMLP and GraFormer performed best when trained on low to moderate amounts of real-world data, while JointFormer, a transformer model, outperformed others when trained with the full real-world dataset. In addition, we found that the lifter pre-trained only with the synthetic dataset still achieved reasonable pose estimation performance even when 3D pose annotations for the target real-world data were not available, such as when they are too costly to obtain. Overall, the findings clearly suggest the advantage of using synthetic data for improving the accuracy of 3D driver pose estimation, especially when 3D pose annotations for real-world datasets are limited.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
computer vision
en
dc.subject
deep learning
en
dc.subject
driver monitoring
en
dc.subject
human pose estimation
en
dc.subject
monocular
en
dc.subject
synthetic images
en
dc.title
Monocular 3D Human Pose Estimation for In-cabin Monitoring Utilizing Synthetic Images
en
dc.title.alternative
Monokulare 3D-Schätzung menschlicher Körperhaltungen zur Beobachtung von Fahrzeuginnenräumen unter Verwendung synthetischer Bilder
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2026.140003
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Thummanoon Kunanuntakij
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Schörkhuber, Dominik
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17802903
-
dc.description.numberOfPages
119
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-9476-0865
-
tuw.assistant.orcid
0000-0003-2015-6507
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.grantfulltext
open
-
item.cerifentitytype
Publications
-
item.openairetype
master thesis
-
item.mimetype
application/pdf
-
item.languageiso639-1
en
-
item.fulltext
with Fulltext
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E193-01 - Forschungsbereich Computer Vision
-
crisitem.author.parentorg
E193 - Institut für Visual Computing and Human-Centered Technology