Single-stage human pose estimation of vulnerable road users

Windbacher, Fabian

doi:10.34726/hss.2022.102783

DC Field

Value

Language

dc.contributor.advisor

Gelautz, Margrit

dc.contributor.author

Windbacher, Fabian

dc.date.accessioned

2022-10-19T11:40:52Z

dc.date.issued

2022

dc.date.submitted

2022-10

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Windbacher, F. (2022). <i>Single-stage human pose estimation of vulnerable road users</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.102783</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2022.102783

dc.identifier.uri

http://hdl.handle.net/20.500.12708/81456

dc.description.abstract

Die Posenerkennung von ungeschützten Verkehrsteilnehmern ist eine wichtige Aufgabe autonomer Fahrzeuge. Informationen über die Körperhaltung von Menschen im Straßenverkehr können dazu beitragen, deren Absichten einzuschätzen. Dies, wiederum, kann der effektiven Steuerung des Fahrzeuges dienen. Der Verkehrskontext unterscheidet sich von anderen üblichen Anwendungsfällen von Posenerkennung, etwa durch sein charakteristisches Szenenbild, die Schwierigkeit der Datensammlung, und die zusätzliche Verwendung von LiDAR-Sensoren. Einstufige Methoden für die Posenerkennung wurden in diesem Gebiet bisher wenig erforscht. Generell wurden derartige Ansätze bisher für weniger akkurat befunden. Sie haben jedoch andere vorteilhafte Eigenschaften, etwa das Potenzial für geringe Latenzzeiten. Wir untersuchen daher eine ausgewählte einstufige Methode zur Posenerkennung im Verkehrskontext. Erst kürzlich wurden mehrere geeignete, domänenspezifische Datensätze veröffentlicht. Die Positionen der Körperteile der beinhalteten Posen sind jedoch meist nicht mit Tiefeninformationen versehen. Nur das Waymo Open Dataset lokalisiert eine relativ kleine Anzahl an Posen auch in 3D. Deswegen haben wir uns entschienen, das Waymo Open Dataset zu erweitern. Hierfür nutzen wir die Bounding-Boxes, mit welchen alle sichtbaren Personen annotiert sind. Wir wenden eine zweistufige Methode für Posenerkennung auf diese Bounding-Boxes an. Zusätzlich nutzen wir die Tiefeninformation der verfügbaren LiDAR-Punktwolken. So erstellen wir mehr als eine Million Posen mit 3D Gelenkspositionen. In einem Vergleich mit den originalen Posendaten, beträgt der MPJPE weniger als 10 cm. Als Nächstes untersuchen wir eine ausgewählte einstufige Methode für Posenerkennung: KAPAO, ein neuartiger Ansatz, der sich durch eine besonders schnelle Inferenz auszeichnet. Wir untersuchen ihn anhand von 2D Verkehrsteilnehmer-Datensätzen. Wir variieren Trainings- und Inferenzparameter, wählen verschiedene initiale Modellgewichte, und modifizieren die Modellarchitektur. Unsere Resultate für die Datensätze Tsinghua-Daimler Urban Pose und Berkley DeepDrive 100K können mit den besten veröffentlichten Ergebnissen mithalten. Mit dem erweiterten Waymo Open Dataset und vielversprechenden KAPAO-Konfigurationen, formulieren wir zum Zweck der 3D-Posenschätzung KAPAO 3D: eine Variante von KAPAO, welche zusätzlich die Tiefe von Körperteilen vorhersagt. Als Vergleichswert dient ein Uplifting-Ansatz. Dieser führt 2D KAPAO Vorhersagen in 3D über, indem den Körperteilen naheliegende LiDAR-Punkte interpoliert werden. KAPAO 3D liefert etwas schlechtere Ergebnisse in Metriken wie AP, AR und MPJPE. Der visuelle Vergleich der beiden Ansätze zeigt jedoch, dass KAPAO 3D im Allgemeinen plausiblere Posen erzeugt.

dc.description.abstract

Human pose estimation of vulnerable road users is an important perception task for autonomous vehicles. Understanding the pose of traffic participants can provide valuable input for intention prediction, which, in turn, can guide the actions of the vehicle. This autonomous driving context for human pose estimation has a number of special characteristics, such as its distinctive scenes, the inherent difficulty of data collection and the prominence of LiDAR sensors. Single-stage human pose estimation approaches have hardly been studied in this setting so far. While they have generally been less accurate than two-stage methods in the past, they showed other desirable qualities, such as the potential for low-latency applications. We propose to study a designated single-stage method in the autonomous vehicle domain. Recently, multiple public benchmark datasets were released for that specific purpose. Depth information for the poses, however, is still largely unavailable. To our knowledge, only the Waymo Open Dataset localizes a small number of poses in 3D. Therefore, we decide to extend the Waymo Open Dataset. To that end, we leverage 2D and 3D bounding boxes that are present for any visible person in the dataset. Using a state-of-the-art two-stage model on those bounding boxes, as well as depth information from the LiDAR point clouds, we create more than one million poses with 3D joint positions. Evaluating the quality on a holdout set of original labels, we report an MPJPE of less than 10 cm. Next, we focus on our single-stage model of choice: KAPAO. It is a state-of-the-art human pose estimation method, which stands out due to its inference speed. We study its performance on 2D vulnerable road user benchmark datasets. We vary training and inference parameters, choose different initial checkpoints, and even consider an architecture modification. Evaluating on Tsinghua-Daimler Urban Pose and Berkley DeepDrive 100K, we find KAPAO to be competitive with the best reported results. Having access to a large-scale dataset and promising configurations of KAPAO, we finally study 3D pose estimation in the domain. We propose KAPAO 3D, a variant of KAPAO that additionally predicts the depths of joints. This is compared against a baseline uplifting approach, in which 2D KAPAO predictions are lifted into 3D using close-by LiDAR points in a post-processing step. KAPAO 3D performs slightly worse than the baseline in metrics like AP, AR and MPJPE. Closer visual inspection of the errors made, however, shows that the 3D model generally produces more plausible poses.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Computer Vision

dc.subject

Deep Learning

dc.subject

Human Pose Estimation

dc.title

Single-stage human pose estimation of vulnerable road users

dc.title.alternative

Einstufige Posenerkennung von verletzlichen Verkehrsteilnehmern

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2022.102783

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Fabian Windbacher

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16673545

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-9476-0865

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E649-03 - Fachbereich .digital office

crisitem.author.parentorg

E649 - Services Vizerektorat Digitalisierung und Infrastruktur

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.68 MB)

In Copyright

Show simple item record

Page view(s)

654

checked on Nov 20, 2023

Download(s)

181

checked on Nov 20, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM