Sagmeister, D. (2022). Driver pose estimation using synthetic car interiors [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.88889
computer vision; machine learning; human pose estimation; autonomous driving
en
Abstract:
Die Schätzung der Körperhaltung des Fahrers ist ein wesentlicher Bestandteil zukünftiger Fahrerassistenzsysteme, die die Sicherheit und den Komfort beim Fahren erhöhen sollen. Mit den jüngsten Fortschritten im Bereich des maschinellen Lernens und insbesondere der konvolutionalen neuronalen Netzwerke (CNN) haben bildbasierte Ansätze zur Schätzung der menschlichen Körperhaltung in den letzten Jahren...
Die Schätzung der Körperhaltung des Fahrers ist ein wesentlicher Bestandteil zukünftiger Fahrerassistenzsysteme, die die Sicherheit und den Komfort beim Fahren erhöhen sollen. Mit den jüngsten Fortschritten im Bereich des maschinellen Lernens und insbesondere der konvolutionalen neuronalen Netzwerke (CNN) haben bildbasierte Ansätze zur Schätzung der menschlichen Körperhaltung in den letzten Jahren an Bedeutung gewonnen. Aufgrund des Mangels an annotierten und öffentlich zugänglichen Datensätzen, haben sich bisher jedoch nur wenige Studien mit der Schätzung der Fahrerpose anhand von Bildern des Fahrzeuginnenraums befasst. In dieser Arbeit entwerfen, implementieren und evaluieren wir eine dreistufige Pipeline zur Schätzung der Fahrerpose in 2D und 3D. Wir beginnen mit der Detektion der Bounding Box des Fahrers und schätzen anschließend 2D-Gelenkpositionen, die anschließend zur Triangulation der Fahrerpose in 3D verwendet werden. Wir untersuchen die Verwendbarkeit mehrerer im Fahrzeug positionierter Kameras, um günstige Kamerakonfigurationen für die 3D-Positionsbestimmung des Fahrers zu ermitteln. Ein wesentlicher Teil unserer Arbeit ist die Durchführung von Experimenten, um herauszufinden, ob synthetische Daten geeignet sind, den Mangel an annotierten realen Daten im Zusammenhang mit der Fahrerposenschätzung zu beheben. Zu diesem Zweck verwenden wir synthetische Daten, um Modelle vorzutrainieren, die dann auf realen Daten feinabgestimmt werden. Unsere Ergebnisse zeigen, dass die Kameraposition auf der Beifahrerseite günstig ist, um die Position des Fahrers zu bestimmen und 2D-Keypoints zu erkennen. In unserem Anwendungsfall wird die genaueste 3D-Pose durch Triangulation der Perspektiven der fahrer- und beifahrerseitigen Säule berechnet, was zu einem MPJPE von 22,6 mm führt. Wir stellen fest, dass synthetische Daten allein für das Training von Algorithmen nichtausreichen. Wir zeigen jedoch, dass Modelle, die auf synthetischen Daten vortrainiert und auf realen Daten feinabgestimmt wurden, eine signifikante Leistungsverbesserung im Vergleich zu Modellen ohne Vortraining aufweisen. Dieser Leistungszuwachs ist besonders ausgeprägt, wenn nur wenige reale Daten für die Feinabstimmung zur Verfügung stehen. Schließlich bestätigen wir, dass synthetische Daten, die im Fahrzeuginnenraum aufgezeichnet wurden, für das Vortraining von Modellen zur Schätzung der Fahrerhaltung wesentlich besser geeignet sind als synthetische Daten für allgemeine Zwecke.
de
Driver pose estimation is an essential component of future driver assistance systems which aim to increase safety and comfort while driving. With recent advances in machine learning and especially convolutional neural networks (CNN), vision-based approaches to estimate the human body pose have gained importance in the past years. However, due to a lack of annotated and publicly available datasets,...
Driver pose estimation is an essential component of future driver assistance systems which aim to increase safety and comfort while driving. With recent advances in machine learning and especially convolutional neural networks (CNN), vision-based approaches to estimate the human body pose have gained importance in the past years. However, due to a lack of annotated and publicly available datasets, only few studies have explored driver pose estimation from images of the car interior so far. In this work, we design, implement and evaluate a three-staged pipeline to estimate the driver pose in 2D and 3D. We start by approximating the driver’s bounding box, and then detect 2D joint locations, which are afterwards used to triangulate the pose of the driver in 3D. We explore the use of multiple cameras positioned inside the car to determine favorable camera configurations for 3D driver pose estimation. As an essential part of our work, we conduct experiments to find whether synthetic data is suitable to overcome a lack of annotated real data in the context of driver pose estimation. To this end, we use synthetic data to pre-train models which are then fine-tuned on real data. Our results indicate that the camera position on the passenger-side pillar is favorable to determine the position of the driver and to detect 2D human key points. In our use case, the most accurate 3D pose is calculated by triangulating the perspectives of the driver-side pillar and passenger-side pillar, resulting in an MPJPE of 22.6mm. While we find that synthetic data alone is not sufficient for algorithm training, we demonstrate that models pre-trained on synthetic data and fine-tuned on real data show a significant improvement in performance over no pre-training. This gain in performance becomes especially pronounced when only few real data samples are available for fine-tuning. Lastly, we confirm that synthetic data recorded in the car interior is much more appropriate for
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers