Monocular 3D Human Pose Estimation for In-cabin Monitoring Utilizing Synthetic Images

Kunanuntakij, Thummanoon

doi:10.34726/hss.2026.140003

DC Field

Value

Language

dc.contributor.advisor

Gelautz, Margrit

dc.contributor.author

Kunanuntakij, Thummanoon

dc.date.accessioned

2026-03-16T11:35:44Z

dc.date.issued

2026

dc.date.submitted

2026-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Kunanuntakij, T. (2026). <i>Monocular 3D Human Pose Estimation for In-cabin Monitoring Utilizing Synthetic Images</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.140003</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.140003

dc.identifier.uri

http://hdl.handle.net/20.500.12708/226955

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Einer der entscheidendsten Aspekte der Fahrzeugherstellung ist die Gewährleistung der Sicherheit der Fahrzeuginsassen. Da fahrerbedingte Faktoren wie Müdigkeit und Ablenkung zu einem Großteil der Unfälle beitragen, ist die Überwachung der Fahrer*innen wesentlich, um die Verkehrssicherheit zu verbessern. Fortschritte im Bereich des maschinellen Sehens haben den Einsatz kostengünstiger Bildsensoren zur Implementierung von Fahrerüberwachungssystemen ermöglicht. In dieser Arbeit interessierten wir uns für die Schätzung der 3D-Pose von Fahrer*innen mit dem Ziel, menschliche Skelettdarstellungen aus Eingabebildern mithilfe von Deep-Learning-Methoden zu rekonstruieren. Da Deep Learning jedoch große Datenmengen erfordert, ist die Erfassung realer Datensätze kostspielig und herausfordernd. Synthetische Daten bieten eine attraktive Alternative, die die Menge an benötigten realen Daten verringern kann, ohne die Genauigkeit zu beeinträchtigen. Unser Ansatz folgt einem dreistufigen Framework zur 3D-Pose-Schätzung. Die Pose-Schätzungspipeline besteht aus vorgefertigten Modellen für die Personenerkennung und die 2D-Pose-Schätzung. Anschließend verwendeten wir synthetische Daten, um verschiedene 2D-zu-3D-Human-Pose-Lifting-Modelle basierend auf unterschiedlichen neuronalen Netzwerkarchitekturen für die letzte Stufe vorzutrainieren. Schließlich wurden diese Modelle mit zunehmenden Mengen realer Daten feinabgestimmt. Ein Experiment mit Drive&Act als Benchmark-Datensatz zeigte Genauigkeitsgewinne für vortrainierte Modelle bei jeder Menge realer Daten, obwohl diese Gewinne mit zunehmender Menge realer Daten abnahmen. Hybride Modelle wie GraphMLP und GraFormer erzielten die besten Ergebnisse, wenn sie mit geringen bis mittleren Mengen realer Daten trainiert wurden, während JointFormer, ein Transformer-Modell, die anderen übertraf, wenn das vollständige reale Datenset verwendet wurde. Darüber hinaus stellten wir fest, dass das nur mit dem synthetischen Datensatz vortrainierte Lifting-Modell selbst dann eine angemessene Pose-Schätzungsleistung erreichte, wenn keine 3D-Pose-Annotationen für die Ziel-Realweltdaten verfügbar waren, beispielsweise wenn deren Erfassung zu kostspielig ist. Insgesamt deuten die Ergebnisse klar auf den Vorteil der Verwendung synthetischer Daten zur Verbesserung der Genauigkeit der 3D-Fahrer*innen-Pose-Schätzung hin, insbesondere wenn 3D-Pose-Annotationen für reale Datensätze nur eingeschränkt verfügbar sind.

dc.description.abstract

One of the most crucial aspects of vehicle manufacturing is ensuring passenger safety. As driver-related factors such as fatigue and distraction contribute to a majority of accidents, monitoring drivers becomes essential to improve road safety. Advances in computer vision have enabled the use of affordable image sensors to implement driver monitoring systems. In this work, we were interested in estimating 3D driver pose with the goal of reconstructing human skeletal representations from input images using deep learning methods. However, deep learning requires large amounts of data, and real-world dataset collection is expensive and challenging. Synthetic data offers an appealing alternative that might reduce the amount of real-world data needed while maintaining accuracy. Our approach adopts a three-stage 3D pose estimation framework. The pose estimation pipeline consists of off-the-shelf models for both human detection and 2D pose estimation. Then, we used synthetic data to pre-train various 2D-to-3D human pose lifting models based on different neural network architectures for the last stage. Finally, we fine-tuned these models with increasing amounts of real-world data. An experiment with Drive&Act as a benchmark dataset revealed accuracy gains for pre-trained models with any amount of real-world data, though these gains diminished as more real data became available. Hybrid models like GraphMLP and GraFormer performed best when trained on low to moderate amounts of real-world data, while JointFormer, a transformer model, outperformed others when trained with the full real-world dataset. In addition, we found that the lifter pre-trained only with the synthetic dataset still achieved reasonable pose estimation performance even when 3D pose annotations for the target real-world data were not available, such as when they are too costly to obtain. Overall, the findings clearly suggest the advantage of using synthetic data for improving the accuracy of 3D driver pose estimation, especially when 3D pose annotations for real-world datasets are limited.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

computer vision

dc.subject

deep learning

dc.subject

driver monitoring

dc.subject

human pose estimation

dc.subject

monocular

dc.subject

synthetic images

dc.title

Monocular 3D Human Pose Estimation for In-cabin Monitoring Utilizing Synthetic Images

dc.title.alternative

Monokulare 3D-Schätzung menschlicher Körperhaltungen zur Beobachtung von Fahrzeuginnenräumen unter Verwendung synthetischer Bilder

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.140003

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Thummanoon Kunanuntakij

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Schörkhuber, Dominik

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17802903

dc.description.numberOfPages

119

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-9476-0865

tuw.assistant.orcid

0000-0003-2015-6507

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.grantfulltext

open

item.cerifentitytype

Publications

item.openairetype

master thesis

item.mimetype

application/pdf

item.languageiso639-1

item.fulltext

with Fulltext

item.openaccessfulltext

Open Access

crisitem.author.dept

E193-01 - Forschungsbereich Computer Vision

crisitem.author.parentorg

E193 - Institut für Visual Computing and Human-Centered Technology

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(4.59 MB)

In Copyright

Show simple item record

Page view(s)

checked on Mar 16, 2026

Download(s)

checked on Mar 16, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM