Sing, A. O. P. (2022). Learning 3D pose and target ID for accurate multi-target tracking [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.94901
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2022
-
Number of Pages:
65
-
Keywords:
Object Tracking; 3D Pose Estimation; Object Detection; Deep Learning
en
Abstract:
Objekte in Zeit und Raum zu erkennen und zu verfolgen stellt eine zentrale, wissenschaftliche Frage für viele Szenarien bildbasierter Wahrnehmung dar. Jüngste Entwicklungen in Deep Learning ermöglichen verbesserte Repräsentationen von Objekten in Bezug auf ihre Position, Form, Erscheinung und Bewegung. Durch lernbasierte Methoden können klassen- oder objektspezifische Merkmale erfasst und sogar spezifische Korrelationen innerhalb von Bildern einer 3D Szene entdeckt werden, da ein perspektivisches Bild viele Hinweise über die 3D Position, Orientierung, Größe und Identität eines Objektes enthält. Fehlende Erkennungen, Verdeckungen und die Gegenwart mehrerer interagierender Objekte machen diese Aufgabe jedoch komplex und weiterhin ungelöst. In dieser Arbeit wird die Integration mehrerer lernbasierter Erweiterungen der Objektrepräsentationen vorgeschlagen, um diese Probleme zu verringern und die 3D Multi-Target Objekterkennung und -verfolgung präziser zu machen. Eine aufmerksamkeitsbasierte Erweiterung der Repräsentationen wird formuliert, um die Nutzung von Merkmalen, die den räumlichen Kontext beachten, im Rückgrat einer Neuronalen Netzwerk Architektur und dem Wiedererkennungsmodul zu fördern. Als zweiter Beitrag wird eine Repräsentation eingeführt, die ein Objekterkennungsmodul erweitert, um inkrementell neue Klassen von wenigen (1-10) Bildern zu lernen, ohne vorherige Klassen zu vergessen. Die vorgeschlagenen wissenschaftlichen Konzepte berücksichtigen existierende Datensätze und Forschungs- und Evaluierungsmethoden. Zusätzlich wurde im Rahmen der Evaluierungsaufgabe ein Schema zur synthetischen Generierung mehrerer Ziele und ihrer Trajektorien entwickelt, um Szenen mit einer variablen Anzahl an interagierenden Objekten mit Annotationen erstellen zu können. Die vorgeschlagene Methode wird auf dem KITTI Multi-Target Tracking Benchmark Datensatz evaluiert. Sie weist vergleichbare Resultate gegenüber einem Referenzansatz auf, der nur auf einer kinematischen Assoziation mithilfe eines Kalman Filters beruht. Außerdem wurden die ausgearbeiteten Konzepte in einem angewandten Szenario (Bike2CAV Projekt) validiert, bei dem die zeitlich variierende Konfiguration von Verkehrsteilnehmern aus Sicht eines bewegten Fahrzeuges geschätzt wird. Die Forschungsergebnisse deuten darauf hin, dass, trotz der Mehrdeutigkeit der monokularen Sicht, die eingeführten Erweiterungen der Repräsentation zu einer präziseren räumlichen Lokalisierung führen. Des Weiteren demonstrieren die Resultate, dass eine Wiedererkennung mittels Merkmalen Vorteile gegenüber einer einfachen, kinematischen Modellierung hat, da es zu zeitlich stabileren Tracking Ergebnissen führt. Dieser Vorteil könnte bei größeren Datensätzen mit 3D Posen und Tracking Annotationen ausgeprägter sein, was Raum für weitere Forschung lässt.
de
Detecting and pursuing various targets in space and time represents a key scientific question for many vision-based perception scenarios. Recent developments in Deep Learning offer enhanced ways to represent targets in terms of their location, shape, appearance and motion. Learning can capture the significant variations seen in the training data while retaining class- or target-specific cues. Learning even allows for discovering specific correlations within an image of a 3D scene, as a perspective image contains many hints about an object's 3D location, orientation, size and identity. This single-image based spatial reasoning task is the subject of ongoing research. However, detection failures, occlusion, and the presence of multiple interacting targets render this task complex and still unsolved. In this thesis, the integration of multiple learning-based representational enhancements is proposed to mitigate these problems and perform the 3D multi-target detection and tracking task more accurately. In these tasks, an attention mechanism can facilitate discovering the correlation between image features and spatial attributes. An attention-based representational enhancement is formulated to guide learning towards using spatially-aware features in the backbone network within a neural-network architecture and the reidentification branch. As a second contribution, a representation for extending multi-task learning to incrementally learn new classes from a few (1-10) image samples without forgetting is introduced. As monocular 3D estimation is an evolving field, the proposed scientific concepts take existing datasets, research methodologies and evaluation concepts into account. Additionally, a synthetic multi-target trajectory generation scheme was developed to complement the evaluation task, offering a variable number of moving and interacting targets with computed ground truth. The proposed method is evaluated on the KITTI multi-target tracking benchmark dataset. It demonstrates competitive results against a baseline relying solely on a Kalman Filter based kinematic association step. The elaborated research concept has also been validated in an applied scenario (Bike2CAV project), where the time-varying spatial configuration of traffic participants is estimated from the viewpoint of a moving vehicle. The main findings of this research indicate that despite the monocular view ambiguity, the introduced representational enhancements lead to a more accurate spatial localisation. Results also demonstrate that target reidentification is advantageous beyond simple kinematic modelling, leading to a temporally more stable multi-target tracking performance. This advantage might be more pronounced by using larger datasets with extensive 3D poses and tracking annotations, indicating future research opportunities.