Wimmer, F. (2023). Composite object detection and 3D pose estimation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.112423
E104 - Institut für Diskrete Mathematik und Geometrie
-
Datum (veröffentlicht):
2023
-
Umfang:
132
-
Keywords:
Mannigfaltigkeiten; Optimierung; Posenschätzung
de
manifolds; optimization; pose estimation
en
Abstract:
Die orthogonale Gruppe On ist definiert als die Gruppe aller regulären (n × n)-Matrizen A, deren transponierte Matrix AT die Inverse von A ist. Die spezielle orthogonale Gruppe SOn besteht aus allen orthogonalen (n × n)-Matrizen mit Determinante 1. Sie repräsentiert Rotationen um den Ursprung in Rn. Die spezielle Euklidische Gruppe SEn besteht aus allen Paaren (R, t), wobei R eine Rotation in SOn und t ein Vektor in Rn ist. Die Elemente von SEn können die Posen von Objekten repräsentieren. Diese drei Untergruppen von GLn sind differenzierbare Mannigfaltigkeiten.Faktorgraphen sind bipartite Graphen mit Variablenknoten und Faktorknoten. Sie definieren die Faktorisierung einer Funktion und können die geometrischen Beziehungen ver- schiedener Objekte zueinander darstellen. Zusätzlich können Faktorgraphen eine probabilistische Struktur tragen.Eine Retraktion ist eine Abbildung vom Tangentialbündel T M einer glatten Mannigfaltigkeit M auf M, die bestimmte Eigenschaften hat. Auf SOn und SEn können mithilfe der Exponentialfunktion für Matrizen Retraktionen definiert werden. Retraktionen ermöglichen die Anwendung iterativer Optimierungsmethoden auf Mannigfaltigkeiten analog zu Vektorräumen. Im folgenden konkreten Anwendungsszenario werden Relativpositionen teilweise beweglicher Teile geschätzt. Betrachtet man einen Lastwagen als zusammengesetztes Objekt bestehend aus einfacheren Komponenten, wie zum Beispiel den Rädern des Lastwagens, erhält man eine Darstellung dieses zusammengesetzten Objekts als Faktorgraph. Die Variablenknoten des Faktorgraphen repräsentieren die verschiedenen Teile des Lastwagens, und die Faktorknoten die relativen Posen der Teile zueinander. Durch die Einführung eines Sensors, der einzelne Teile des Lastwagens beobachtet, erweitert sich dieser Faktorgraph. Für jeden Zeitschritt wird ein neuer Variablenknoten in den Faktorgraphen eingefügt, der den Sensor zu diesem Zeitpunkt repräsentiert. Die Beobachtungen des Sensors werden durch neue Faktorknoten dargestellt. Die Faktorknoten erhalten Wahrscheinlichkeitsdichten, wodurch die Berechnung einer maximalen a posteriori-Schätzung der Posen X unter gegebenen Beobachtungen Z möglich ist. Dabei wird die zusammengesetzte Wahrscheinlichkeitsfunktion p(X, Z) mithilfe von Optimierung auf Mannigfaltigkeiten maximiert. Man erhält Schätzungen für die genaue Konfiguration des Lastwagens und die Pose des Sensors. Dieser Ansatz zur Posenschätzung zusammengesetzter Objekte kann mit dem Python-Paket GTSAM umgesetzt und getestet werden.
de
The orthogonal group On is defined as the group of all invertible (n × n)-matrices A whose transposed matrix AT is the inverse of A. The special orthogonal group SOn consists of all orthogonal (n × n)-matrices with a determinant of 1. It represents rotations around the origin in Rn . The special Euclidean group SEn comprises all pairs (R, t), where R is a rotation in SOn and t is a translation vector in Rn. An element of SEn can be used to represent the pose of an object. These three subgroups of GLn are smooth manifolds. Factor graphs are bipartite graphs with variable nodes and factor nodes and define the factorization of a function. They can encode geometrical relations among certain objects. Additionally, a factor graph can be equipped with a probabilistic structure. A retraction is a mapping from the tangent bundle T M of a smooth manifold M to the manifold M that satisfies certain properties, such as the local rigidity condition. By utilizing the exponential map for matrices, retractions can be defined on SOn and SEn. Retractions allow simple implementations of iterative optimization techniques on manifolds. In the following specific application scenario, the relative positions of partially movable components are estimated. Considering a truck as a composite object composed of simpler components, such as its wheels, leads to a representation of the truck as a factor graph. Variable nodes in the factor graph represent different parts of the truck, while factor nodes represent the relative poses of these parts to each other. Introducing a sensor observing specific parts of the truck expands the factor graph by adding variable nodes for the sensor at each time step and factor nodes for the observations. Equipping factor nodes with probability densities enables the computation of the maximum a posteriori estimate of some state X given observations Z by maximizing the joint probability function p(X, Z) through optimization on manifolds. This approach provides estimates for the configuration of the truck and the pose of the sensor. Implementation and testing of this pose estimation method for composite objects can be achieved using the Python package GTSAM.