<div class="csl-bib-body">
<div class="csl-entry">Röhrl, K. (2024). <i>6D object tracking as a reinforcement learning task</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.112698</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2024.112698
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/197091
-
dc.description.abstract
Objekte in Videos zu lokalisieren ist eine wichtige Aufgabe in dynamischen Umgebungen, insbesondere in der Robotik, wenn sich entweder die Position und Orientierung eines Objekts oder die Kameraperspektive kontinuierlich ändern. Methoden, die Objekte in einem einzelnen Bild lokalisieren, versagen aufgrund der dynamischen Änderungen in der Umgebung. Obwohl Tracking-Methoden die zeitlichen und räumlichen Zusammenhänge über mehrere Bilder hinweg berücksichtigen, können sich Fehler im Laufe der Zeit akkumulieren und letztendlich zum Scheitern der Methode führen. Des Weiteren erschweren teilweise verdeckte Objekte, beispielsweise durch Hände oder anderen Objekte, die akkurate Lokalisation über längere Zeiträume. In manchen Szenarien, wie bei komplett verdeckten Objekten, ist es außerdem nicht möglich, die Position und Orientierung des Objekts visuell zu bestimmen, wodurch Tracking konsequenterweise versagt. Während RGB(-D) Methoden große Datenmengen für das Training benötigen, schlagen wir einen vereinfachten Ansatz vor, der 6D Object Tracking als tiefenbasiertes Ausrichtungsproblem von niedrig aufgelösten 3D Punktwolken betrachtet. Als gemeinsame Reinforcement Learning (RL) Aufgabe berücksichtigen wir gleichzeitig Abhängigkeiten zwischen Bildern durch die Registrierung von aufeinanderfolgenden Beobachtungen in den Tiefenbildern (Frame-To-Frame Registration), sowie das Kompensieren von sich aufsummierenden Fehlern durch die Einbindung eines Modells als Referenz (Frame-To-Model Refinement). In unserem Belohnungssystem fördern wir gleichzeitig präzisere Ergebnisse über mehrerere Optimierungsschritte in einem einzigen Bild, als auch das langfristige, akkurate Lokalisieren des Objektes über mehrere Bilder hinweg. Wir verwenden ein Modell zur Berechnung von Referenz-Tiefendaten als geometrische Unsicherheit und kombinieren dies mit einer Unsicherheits-Metrik des Netzwerks, um die Methode effizient und autonom zu reinitialisieren. Unsere Experimente zeigten, dass unser tiefenbasierter Ansatz den Unterschied zu aktuellen RGB-D Methoden verkleinert, während gleichzeitig alle anderen tiefenbasierten Methoden geschlagen werden. Insbesondere hat unsere gemeinsame Betrachtung von Frame-To-Frame Registration und Frame-To-Model Refinement bessere Ergebnisse erzielt als beide Ansätze isoliert, wodurch die Vorteile beider Methoden erfolgreich kombiniert wurden. Als Ergänzung zu unseren Experimenten an Datensätzen demonstrieren wir unsere Methode auch in einem Objekt-Übergabe Szenario von Mensch zu Roboter und zeigen somit die Anwendbarkeit in der realen Welt.
de
dc.description.abstract
6D object tracking is an essential task in dynamic environments, especially in applications involving robotic manipulation, where an object’s pose is constantly manipulated or the camera is moving. While single-frame pose estimation fails in such a scenario, dedicated object tracking methods aim to leverage temporal and spatial coherence by exploiting priors, however, the persistence of small errors may accumulate over longer time horizons and contribute to the deterioration in tracking. The characteristics imposed by the environment, e.g. partially occluded objects due to hands or other objects, further exacerbate the challenges of accurate tracking. Moreover, heavily or fully occluded objects may occur in some scenarios, leading to a situation where tracking is unable to recover. While RGB(-D) tracking methods rely on vast amounts of training data, we propose to learn 6D object trajectories from scratch as a simplified depth-only alignment problem, utilizing limited amounts of low-resolution 3D point clouds. In a joint Reinforcement Learning (RL) task, our novel network architecture exploits correspondences across frames by aligning consecutive observations (frame-to-frame registration), while accumulating errors are compensated via model-based recovery (frame-to-model refinement). Our multi-frame reward encourages our method to achieve close alignment in a single frame, while concurrently maintaining track of the object’s pose across longer time horizons. Propagating the object’s mask as a depth rendering is leveraged as a geometry-guided uncertainty metric and, in combination with the agent’s uncertainty, contributes to an efficient and autonomous reinitialization heuristic. Our experiments demonstrated, how our depth-only method closes the gap towards State of the Art (SotA) RGB-D methods and outperforms all other depth-based methods. Most importantly, fusing both subtasks contributes to improved tracking accuracy, as compared to either subtask in isolation. In addition to quantitative analysis, we showcase the efficacy of our tracking method in a robotic handover scenario, proving its practicability in dynamic real-world environments.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Object Tracking
de
dc.subject
Pointcloud Registration
de
dc.subject
Reinforcement Learning
de
dc.subject
Computer Vision
de
dc.subject
Robotik
de
dc.subject
Object Tracking
en
dc.subject
Pointcloud Registration
en
dc.subject
Reinforcement Learning
en
dc.subject
Computer Vision
en
dc.subject
Robotics
en
dc.title
6D object tracking as a reinforcement learning task
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2024.112698
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Konstantin Röhrl
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Neuberger, Bernhard
-
tuw.publication.orgunit
E376 - Institut für Automatisierungs- und Regelungstechnik
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17163626
-
dc.description.numberOfPages
68
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.grantfulltext
open
-
item.cerifentitytype
Publications
-
item.fulltext
with Fulltext
-
item.mimetype
application/pdf
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E376 - Institut für Automatisierungs- und Regelungstechnik
-
crisitem.author.orcid
0009-0008-3427-7661
-
crisitem.author.parentorg
E350 - Fakultät für Elektrotechnik und Informationstechnik