Driver pose estimation using synthetic car interiors

Sagmeister, Daniel

doi:10.34726/hss.2022.88889

DC Field

Value

Language

dc.contributor.advisor

Gelautz, Margrit

dc.contributor.author

Sagmeister, Daniel

dc.date.accessioned

2022-12-21T12:15:31Z

dc.date.issued

2022

dc.date.submitted

2022-12

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Sagmeister, D. (2022). <i>Driver pose estimation using synthetic car interiors</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.88889</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2022.88889

dc.identifier.uri

http://hdl.handle.net/20.500.12708/137033

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Die Schätzung der Körperhaltung des Fahrers ist ein wesentlicher Bestandteil zukünftiger Fahrerassistenzsysteme, die die Sicherheit und den Komfort beim Fahren erhöhen sollen. Mit den jüngsten Fortschritten im Bereich des maschinellen Lernens und insbesondere der konvolutionalen neuronalen Netzwerke (CNN) haben bildbasierte Ansätze zur Schätzung der menschlichen Körperhaltung in den letzten Jahren an Bedeutung gewonnen. Aufgrund des Mangels an annotierten und öffentlich zugänglichen Datensätzen, haben sich bisher jedoch nur wenige Studien mit der Schätzung der Fahrerpose anhand von Bildern des Fahrzeuginnenraums befasst. In dieser Arbeit entwerfen, implementieren und evaluieren wir eine dreistufige Pipeline zur Schätzung der Fahrerpose in 2D und 3D. Wir beginnen mit der Detektion der Bounding Box des Fahrers und schätzen anschließend 2D-Gelenkpositionen, die anschließend zur Triangulation der Fahrerpose in 3D verwendet werden. Wir untersuchen die Verwendbarkeit mehrerer im Fahrzeug positionierter Kameras, um günstige Kamerakonfigurationen für die 3D-Positionsbestimmung des Fahrers zu ermitteln. Ein wesentlicher Teil unserer Arbeit ist die Durchführung von Experimenten, um herauszufinden, ob synthetische Daten geeignet sind, den Mangel an annotierten realen Daten im Zusammenhang mit der Fahrerposenschätzung zu beheben. Zu diesem Zweck verwenden wir synthetische Daten, um Modelle vorzutrainieren, die dann auf realen Daten feinabgestimmt werden. Unsere Ergebnisse zeigen, dass die Kameraposition auf der Beifahrerseite günstig ist, um die Position des Fahrers zu bestimmen und 2D-Keypoints zu erkennen. In unserem Anwendungsfall wird die genaueste 3D-Pose durch Triangulation der Perspektiven der fahrer- und beifahrerseitigen Säule berechnet, was zu einem MPJPE von 22,6 mm führt. Wir stellen fest, dass synthetische Daten allein für das Training von Algorithmen nichtausreichen. Wir zeigen jedoch, dass Modelle, die auf synthetischen Daten vortrainiert und auf realen Daten feinabgestimmt wurden, eine signifikante Leistungsverbesserung im Vergleich zu Modellen ohne Vortraining aufweisen. Dieser Leistungszuwachs ist besonders ausgeprägt, wenn nur wenige reale Daten für die Feinabstimmung zur Verfügung stehen. Schließlich bestätigen wir, dass synthetische Daten, die im Fahrzeuginnenraum aufgezeichnet wurden, für das Vortraining von Modellen zur Schätzung der Fahrerhaltung wesentlich besser geeignet sind als synthetische Daten für allgemeine Zwecke.

dc.description.abstract

Driver pose estimation is an essential component of future driver assistance systems which aim to increase safety and comfort while driving. With recent advances in machine learning and especially convolutional neural networks (CNN), vision-based approaches to estimate the human body pose have gained importance in the past years. However, due to a lack of annotated and publicly available datasets, only few studies have explored driver pose estimation from images of the car interior so far. In this work, we design, implement and evaluate a three-staged pipeline to estimate the driver pose in 2D and 3D. We start by approximating the driver’s bounding box, and then detect 2D joint locations, which are afterwards used to triangulate the pose of the driver in 3D. We explore the use of multiple cameras positioned inside the car to determine favorable camera configurations for 3D driver pose estimation. As an essential part of our work, we conduct experiments to find whether synthetic data is suitable to overcome a lack of annotated real data in the context of driver pose estimation. To this end, we use synthetic data to pre-train models which are then fine-tuned on real data. Our results indicate that the camera position on the passenger-side pillar is favorable to determine the position of the driver and to detect 2D human key points. In our use case, the most accurate 3D pose is calculated by triangulating the perspectives of the driver-side pillar and passenger-side pillar, resulting in an MPJPE of 22.6mm. While we find that synthetic data alone is not sufficient for algorithm training, we demonstrate that models pre-trained on synthetic data and fine-tuned on real data show a significant improvement in performance over no pre-training. This gain in performance becomes especially pronounced when only few real data samples are available for fine-tuning. Lastly, we confirm that synthetic data recorded in the car interior is much more appropriate for

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Computer Vision

dc.subject

maschinelles Lernen

dc.subject

menschliche Posenschätzung

dc.subject

autonomes Fahren

dc.subject

computer vision

dc.subject

machine learning

dc.subject

human pose estimation

dc.subject

autonomous driving

dc.title

Driver pose estimation using synthetic car interiors

dc.title.alternative

Schätzung der Fahrerpose unter Verwendung von synthetischen Autoinnenräumen

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2022.88889

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Daniel Sagmeister

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16725476

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-9476-0865

item.grantfulltext

open

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.mimetype

application/pdf

item.openairetype

master thesis

item.openaccessfulltext

Open Access

item.languageiso639-1

item.cerifentitytype

Publications

item.fulltext

with Fulltext

crisitem.author.dept

E193-01 - Forschungsbereich Computer Vision

crisitem.author.parentorg

E193 - Institut für Visual Computing and Human-Centered Technology

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(4.33 MB)

In Copyright

Show simple item record

Page view(s)

396

checked on Nov 20, 2023

Download(s)

166

checked on Nov 20, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM