Monocular 3D Human Pose Estimation for In-cabin Monitoring Utilizing Synthetic Images

Kunanuntakij, Thummanoon

doi:10.34726/hss.2026.140003

Record link:

https://doi.org/10.34726/hss.2026.140003
http://hdl.handle.net/20.500.12708/226955

Title:

Monocular 3D Human Pose Estimation for In-cabin Monitoring Utilizing Synthetic Images

Citation:

Kunanuntakij, T. (2026). Monocular 3D Human Pose Estimation for In-cabin Monitoring Utilizing Synthetic Images [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.140003

reposiTUm DOI:

10.34726/hss.2026.140003

CatalogPlus:

AC17802903

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Kunanuntakij, Thummanoon

Advisor:

Gelautz, Margrit

Co-advisor:

Schörkhuber, Dominik

Organisational Unit:

E193 - Institut für Visual Computing and Human-Centered Technology

Date (published):

2026

Number of Pages:

119

Keywords:

computer vision; deep learning; driver monitoring; human pose estimation; monocular; synthetic images

Abstract:

Einer der entscheidendsten Aspekte der Fahrzeugherstellung ist die Gewährleistung der Sicherheit der Fahrzeuginsassen. Da fahrerbedingte Faktoren wie Müdigkeit und Ablenkung zu einem Großteil der Unfälle beitragen, ist die Überwachung der Fahrer*innen wesentlich, um die Verkehrssicherheit zu verbessern. Fortschritte im Bereich des maschinellen Sehens haben den Einsatz kostengünstiger Bildsensoren zur Implementierung von Fahrerüberwachungssystemen ermöglicht. In dieser Arbeit interessierten wir uns für die Schätzung der 3D-Pose von Fahrer*innen mit dem Ziel, menschliche Skelettdarstellungen aus Eingabebildern mithilfe von Deep-Learning-Methoden zu rekonstruieren. Da Deep Learning jedoch große Datenmengen erfordert, ist die Erfassung realer Datensätze kostspielig und herausfordernd. Synthetische Daten bieten eine attraktive Alternative, die die Menge an benötigten realen Daten verringern kann, ohne die Genauigkeit zu beeinträchtigen. Unser Ansatz folgt einem dreistufigen Framework zur 3D-Pose-Schätzung. Die Pose-Schätzungspipeline besteht aus vorgefertigten Modellen für die Personenerkennung und die 2D-Pose-Schätzung. Anschließend verwendeten wir synthetische Daten, um verschiedene 2D-zu-3D-Human-Pose-Lifting-Modelle basierend auf unterschiedlichen neuronalen Netzwerkarchitekturen für die letzte Stufe vorzutrainieren. Schließlich wurden diese Modelle mit zunehmenden Mengen realer Daten feinabgestimmt. Ein Experiment mit Drive&Act als Benchmark-Datensatz zeigte Genauigkeitsgewinne für vortrainierte Modelle bei jeder Menge realer Daten, obwohl diese Gewinne mit zunehmender Menge realer Daten abnahmen. Hybride Modelle wie GraphMLP und GraFormer erzielten die besten Ergebnisse, wenn sie mit geringen bis mittleren Mengen realer Daten trainiert wurden, während JointFormer, ein Transformer-Modell, die anderen übertraf, wenn das vollständige reale Datenset verwendet wurde. Darüber hinaus stellten wir fest, dass das nur mit dem synthetischen Datensatz vortrainierte Lifting-Modell selbst dann eine angemessene Pose-Schätzungsleistung erreichte, wenn keine 3D-Pose-Annotationen für die Ziel-Realweltdaten verfügbar waren, beispielsweise wenn deren Erfassung zu kostspielig ist. Insgesamt deuten die Ergebnisse klar auf den Vorteil der Verwendung synthetischer Daten zur Verbesserung der Genauigkeit der 3D-Fahrer*innen-Pose-Schätzung hin, insbesondere wenn 3D-Pose-Annotationen für reale Datensätze nur eingeschränkt verfügbar sind.

One of the most crucial aspects of vehicle manufacturing is ensuring passenger safety. As driver-related factors such as fatigue and distraction contribute to a majority of accidents, monitoring drivers becomes essential to improve road safety. Advances in computer vision have enabled the use of affordable image sensors to implement driver monitoring systems. In this work, we were interested in estimating 3D driver pose with the goal of reconstructing human skeletal representations from input images using deep learning methods. However, deep learning requires large amounts of data, and real-world dataset collection is expensive and challenging. Synthetic data offers an appealing alternative that might reduce the amount of real-world data needed while maintaining accuracy. Our approach adopts a three-stage 3D pose estimation framework. The pose estimation pipeline consists of off-the-shelf models for both human detection and 2D pose estimation. Then, we used synthetic data to pre-train various 2D-to-3D human pose lifting models based on different neural network architectures for the last stage. Finally, we fine-tuned these models with increasing amounts of real-world data. An experiment with Drive&Act as a benchmark dataset revealed accuracy gains for pre-trained models with any amount of real-world data, though these gains diminished as more real data became available. Hybrid models like GraphMLP and GraFormer performed best when trained on low to moderate amounts of real-world data, while JointFormer, a transformer model, outperformed others when trained with the full real-world dataset. In addition, we found that the lifter pre-trained only with the synthetic dataset still achieved reasonable pose estimation performance even when 3D pose annotations for the target real-world data were not available, such as when they are too costly to obtain. Overall, the findings clearly suggest the advantage of using synthetic data for improving the accuracy of 3D driver pose estimation, especially when 3D pose annotations for real-world datasets are limited.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis