<div class="csl-bib-body">
<div class="csl-entry">Sagmeister, D. (2022). <i>Driver pose estimation using synthetic car interiors</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.88889</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2022.88889
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/137033
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Die Schätzung der Körperhaltung des Fahrers ist ein wesentlicher Bestandteil zukünftiger Fahrerassistenzsysteme, die die Sicherheit und den Komfort beim Fahren erhöhen sollen. Mit den jüngsten Fortschritten im Bereich des maschinellen Lernens und insbesondere der konvolutionalen neuronalen Netzwerke (CNN) haben bildbasierte Ansätze zur Schätzung der menschlichen Körperhaltung in den letzten Jahren an Bedeutung gewonnen. Aufgrund des Mangels an annotierten und öffentlich zugänglichen Datensätzen, haben sich bisher jedoch nur wenige Studien mit der Schätzung der Fahrerpose anhand von Bildern des Fahrzeuginnenraums befasst. In dieser Arbeit entwerfen, implementieren und evaluieren wir eine dreistufige Pipeline zur Schätzung der Fahrerpose in 2D und 3D. Wir beginnen mit der Detektion der Bounding Box des Fahrers und schätzen anschließend 2D-Gelenkpositionen, die anschließend zur Triangulation der Fahrerpose in 3D verwendet werden. Wir untersuchen die Verwendbarkeit mehrerer im Fahrzeug positionierter Kameras, um günstige Kamerakonfigurationen für die 3D-Positionsbestimmung des Fahrers zu ermitteln. Ein wesentlicher Teil unserer Arbeit ist die Durchführung von Experimenten, um herauszufinden, ob synthetische Daten geeignet sind, den Mangel an annotierten realen Daten im Zusammenhang mit der Fahrerposenschätzung zu beheben. Zu diesem Zweck verwenden wir synthetische Daten, um Modelle vorzutrainieren, die dann auf realen Daten feinabgestimmt werden. Unsere Ergebnisse zeigen, dass die Kameraposition auf der Beifahrerseite günstig ist, um die Position des Fahrers zu bestimmen und 2D-Keypoints zu erkennen. In unserem Anwendungsfall wird die genaueste 3D-Pose durch Triangulation der Perspektiven der fahrer- und beifahrerseitigen Säule berechnet, was zu einem MPJPE von 22,6 mm führt. Wir stellen fest, dass synthetische Daten allein für das Training von Algorithmen nichtausreichen. Wir zeigen jedoch, dass Modelle, die auf synthetischen Daten vortrainiert und auf realen Daten feinabgestimmt wurden, eine signifikante Leistungsverbesserung im Vergleich zu Modellen ohne Vortraining aufweisen. Dieser Leistungszuwachs ist besonders ausgeprägt, wenn nur wenige reale Daten für die Feinabstimmung zur Verfügung stehen. Schließlich bestätigen wir, dass synthetische Daten, die im Fahrzeuginnenraum aufgezeichnet wurden, für das Vortraining von Modellen zur Schätzung der Fahrerhaltung wesentlich besser geeignet sind als synthetische Daten für allgemeine Zwecke.
de
dc.description.abstract
Driver pose estimation is an essential component of future driver assistance systems which aim to increase safety and comfort while driving. With recent advances in machine learning and especially convolutional neural networks (CNN), vision-based approaches to estimate the human body pose have gained importance in the past years. However, due to a lack of annotated and publicly available datasets, only few studies have explored driver pose estimation from images of the car interior so far. In this work, we design, implement and evaluate a three-staged pipeline to estimate the driver pose in 2D and 3D. We start by approximating the driver’s bounding box, and then detect 2D joint locations, which are afterwards used to triangulate the pose of the driver in 3D. We explore the use of multiple cameras positioned inside the car to determine favorable camera configurations for 3D driver pose estimation. As an essential part of our work, we conduct experiments to find whether synthetic data is suitable to overcome a lack of annotated real data in the context of driver pose estimation. To this end, we use synthetic data to pre-train models which are then fine-tuned on real data. Our results indicate that the camera position on the passenger-side pillar is favorable to determine the position of the driver and to detect 2D human key points. In our use case, the most accurate 3D pose is calculated by triangulating the perspectives of the driver-side pillar and passenger-side pillar, resulting in an MPJPE of 22.6mm. While we find that synthetic data alone is not sufficient for algorithm training, we demonstrate that models pre-trained on synthetic data and fine-tuned on real data show a significant improvement in performance over no pre-training. This gain in performance becomes especially pronounced when only few real data samples are available for fine-tuning. Lastly, we confirm that synthetic data recorded in the car interior is much more appropriate for
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Computer Vision
de
dc.subject
maschinelles Lernen
de
dc.subject
menschliche Posenschätzung
de
dc.subject
autonomes Fahren
de
dc.subject
computer vision
en
dc.subject
machine learning
en
dc.subject
human pose estimation
en
dc.subject
autonomous driving
en
dc.title
Driver pose estimation using synthetic car interiors
en
dc.title.alternative
Schätzung der Fahrerpose unter Verwendung von synthetischen Autoinnenräumen
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2022.88889
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Daniel Sagmeister
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16725476
-
dc.description.numberOfPages
53
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-9476-0865
-
item.openaccessfulltext
Open Access
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.grantfulltext
open
-
item.mimetype
application/pdf
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
crisitem.author.dept
E193-01 - Forschungsbereich Computer Vision
-
crisitem.author.parentorg
E193 - Institut für Visual Computing and Human-Centered Technology