<div class="csl-bib-body">
<div class="csl-entry">Windbacher, F. (2022). <i>Single-stage human pose estimation of vulnerable road users</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.102783</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2022.102783
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/81456
-
dc.description.abstract
Die Posenerkennung von ungeschützten Verkehrsteilnehmern ist eine wichtige Aufgabe autonomer Fahrzeuge. Informationen über die Körperhaltung von Menschen im Straßenverkehr können dazu beitragen, deren Absichten einzuschätzen. Dies, wiederum, kann der effektiven Steuerung des Fahrzeuges dienen. Der Verkehrskontext unterscheidet sich von anderen üblichen Anwendungsfällen von Posenerkennung, etwa durch sein charakteristisches Szenenbild, die Schwierigkeit der Datensammlung, und die zusätzliche Verwendung von LiDAR-Sensoren. Einstufige Methoden für die Posenerkennung wurden in diesem Gebiet bisher wenig erforscht. Generell wurden derartige Ansätze bisher für weniger akkurat befunden. Sie haben jedoch andere vorteilhafte Eigenschaften, etwa das Potenzial für geringe Latenzzeiten. Wir untersuchen daher eine ausgewählte einstufige Methode zur Posenerkennung im Verkehrskontext. Erst kürzlich wurden mehrere geeignete, domänenspezifische Datensätze veröffentlicht. Die Positionen der Körperteile der beinhalteten Posen sind jedoch meist nicht mit Tiefeninformationen versehen. Nur das Waymo Open Dataset lokalisiert eine relativ kleine Anzahl an Posen auch in 3D. Deswegen haben wir uns entschienen, das Waymo Open Dataset zu erweitern. Hierfür nutzen wir die Bounding-Boxes, mit welchen alle sichtbaren Personen annotiert sind. Wir wenden eine zweistufige Methode für Posenerkennung auf diese Bounding-Boxes an. Zusätzlich nutzen wir die Tiefeninformation der verfügbaren LiDAR-Punktwolken. So erstellen wir mehr als eine Million Posen mit 3D Gelenkspositionen. In einem Vergleich mit den originalen Posendaten, beträgt der MPJPE weniger als 10 cm. Als Nächstes untersuchen wir eine ausgewählte einstufige Methode für Posenerkennung: KAPAO, ein neuartiger Ansatz, der sich durch eine besonders schnelle Inferenz auszeichnet. Wir untersuchen ihn anhand von 2D Verkehrsteilnehmer-Datensätzen. Wir variieren Trainings- und Inferenzparameter, wählen verschiedene initiale Modellgewichte, und modifizieren die Modellarchitektur. Unsere Resultate für die Datensätze Tsinghua-Daimler Urban Pose und Berkley DeepDrive 100K können mit den besten veröffentlichten Ergebnissen mithalten. Mit dem erweiterten Waymo Open Dataset und vielversprechenden KAPAO-Konfigurationen, formulieren wir zum Zweck der 3D-Posenschätzung KAPAO 3D: eine Variante von KAPAO, welche zusätzlich die Tiefe von Körperteilen vorhersagt. Als Vergleichswert dient ein Uplifting-Ansatz. Dieser führt 2D KAPAO Vorhersagen in 3D über, indem den Körperteilen naheliegende LiDAR-Punkte interpoliert werden. KAPAO 3D liefert etwas schlechtere Ergebnisse in Metriken wie AP, AR und MPJPE. Der visuelle Vergleich der beiden Ansätze zeigt jedoch, dass KAPAO 3D im Allgemeinen plausiblere Posen erzeugt.
de
dc.description.abstract
Human pose estimation of vulnerable road users is an important perception task for autonomous vehicles. Understanding the pose of traffic participants can provide valuable input for intention prediction, which, in turn, can guide the actions of the vehicle. This autonomous driving context for human pose estimation has a number of special characteristics, such as its distinctive scenes, the inherent difficulty of data collection and the prominence of LiDAR sensors. Single-stage human pose estimation approaches have hardly been studied in this setting so far. While they have generally been less accurate than two-stage methods in the past, they showed other desirable qualities, such as the potential for low-latency applications. We propose to study a designated single-stage method in the autonomous vehicle domain. Recently, multiple public benchmark datasets were released for that specific purpose. Depth information for the poses, however, is still largely unavailable. To our knowledge, only the Waymo Open Dataset localizes a small number of poses in 3D. Therefore, we decide to extend the Waymo Open Dataset. To that end, we leverage 2D and 3D bounding boxes that are present for any visible person in the dataset. Using a state-of-the-art two-stage model on those bounding boxes, as well as depth information from the LiDAR point clouds, we create more than one million poses with 3D joint positions. Evaluating the quality on a holdout set of original labels, we report an MPJPE of less than 10 cm. Next, we focus on our single-stage model of choice: KAPAO. It is a state-of-the-art human pose estimation method, which stands out due to its inference speed. We study its performance on 2D vulnerable road user benchmark datasets. We vary training and inference parameters, choose different initial checkpoints, and even consider an architecture modification. Evaluating on Tsinghua-Daimler Urban Pose and Berkley DeepDrive 100K, we find KAPAO to be competitive with the best reported results. Having access to a large-scale dataset and promising configurations of KAPAO, we finally study 3D pose estimation in the domain. We propose KAPAO 3D, a variant of KAPAO that additionally predicts the depths of joints. This is compared against a baseline uplifting approach, in which 2D KAPAO predictions are lifted into 3D using close-by LiDAR points in a post-processing step. KAPAO 3D performs slightly worse than the baseline in metrics like AP, AR and MPJPE. Closer visual inspection of the errors made, however, shows that the 3D model generally produces more plausible poses.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Computer Vision
en
dc.subject
Deep Learning
en
dc.subject
Human Pose Estimation
en
dc.title
Single-stage human pose estimation of vulnerable road users
en
dc.title.alternative
Einstufige Posenerkennung von verletzlichen Verkehrsteilnehmern
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2022.102783
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Fabian Windbacher
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC16673545
-
dc.description.numberOfPages
70
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-9476-0865
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E649-03 - Fachbereich .digital office
-
crisitem.author.parentorg
E649 - Services Vizerektorat Digitalisierung und Infrastruktur