Optimization of the relative stereo pose estimation pipeline

Maier, Josef-Johann

doi:10.34726/hss.2021.69784

Record link:

https://doi.org/10.34726/hss.2021.69784
http://hdl.handle.net/20.500.12708/17034

Title:

Optimization of the relative stereo pose estimation pipeline

Citation:

Maier, J.-J. (2021). Optimization of the relative stereo pose estimation pipeline [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.69784

reposiTUm DOI:

10.34726/hss.2021.69784

CatalogPlus:

AC16165180

Publication Type:

Thesis - Dissertation

Language:

English

Authors:

Maier, Josef-Johann

Advisor:

Vincze, Markus

Organisational Unit:

E376 - Institut für Automatisierungs- und Regelungstechnik

Date (published):

2021

Number of Pages:

336

Keywords:

Stereo Vision; Kamerakalibrierung; Kameraorientierungsschätzung; Korrespondenzanalyse

stereo vision; camera calibration; pose estimation; correspondence analysis; feature matching; keypoint; descriptor; ground truth; dynamic object; optical flow; bundle adjustment

Abstract:

Stereo Vision ermöglicht die Erstellung von 3D Modellen der Umgebung mit Hilfe von nur zwei starr miteinander verbundenen Kameras. Um eine fehlerhafte 3D Rekonstruktion im Bezug auf dynamische Objekte in der aufgenommenen Szene zu verhindern, werden Stereo-Kameras typischerweise zeitlich synchronisiert. Sollte dies nicht möglich sein, können dynamische Objekte auch in den Bildern detektiert werden. In dieser Arbeit werden zwei solcher Algorithmen, welche auf der Analyse des dichten optischen Flusses zwischen zwei Bildern basieren, vorgestellt. Die Genauigkeit von 3D Modellen hängt auch stark von den Kamerakalibrierungsparametern ab. Diese werden in die Kategorien intrinsische und extrinsische Kameraparameter unterteilt, wobei letztere auch unter dem Begriff relative Stereo-Orientierung bekannt sind. Die Kamerakalibrierung wird typischerweise offline durchgeführt und die ermittelten Parameter werden dann während des Betriebes konstant gehalten. Durch verschiedene Umwelteinflüsse wie Temperatur oder Erschütterungen können sich diese Parameter jedoch ändern, was zu einer verminderten Qualität der rekonstruierten 3D Szene führt. Um diesem Effekt vorzubeugen, werden des öfteren Online-Kalibrierungsverfahren verwendet, um Kameraparameter nachzuführen. Diese Methoden der Nachführung und Kalibrierung sind das Kernthema dieser Dissertation. Dazu wurde die gesamte Pipeline, welche zur Schätzung der extrinsischen Kameraparameter mit Hilfe von Korrespondenzen zwischen zwei Bildern notwendig ist, analysiert. Des Weiteren wird in dieser Arbeit eine neuartige Methode, um hochgenaue relative Stereo-Orientierungen zu schätzen, vorgestellt. Da Kameraorientierungsschätzalgorithmen stark von Bildkorrespondenz-Genauigkeiten abhängen, wurde eine tiefgreifende Analyse von verschiedenen Korrespondenz-Typen durchgeführt. Diese bestehen aus markanten Bildpunkten und einer Beschreibung der lokalen Bildumgebung. Letztere werden als Deskriptoren bezeichnet. Dazu wurden verschiedene Algorithmus-Kombinationen zur Berechnung von markanten Bildpunkten und Deskriptoren evaluiert. Dazu wurden öffentlich verfügbare Datensätze, welche die zu erzielenden Ergebnisse (Ground Truth (GT)) beinhalten, verwendet. Da die meisten Datensätze aber keine GT für Bildkorrespondenzen enthalten, wurde eine Methode entwickelt, welche diese aus anderen GT-Daten berechnet. Die Genauigkeit und Eindeutigkeit dieser sogenannten Ground Truth Matches (GTM) wurde über manuelle Annotierungen ermittelt. Diese erlaubten es auch, eine tiefgreifende Analyse der zugrundeliegenden Datensätze durchzuführen, welche dieser Arbeit entnommen werden kann. Um Bildkorrespondenzen von korrelierenden Bildern zu berechnen, wird ein Korrespondenzanalyse-Algorithmus benötigt, welcher Deskriptoren von diesen Bildern miteinander vergleicht. In dieser Arbeit wird ein neuartiger Korrespondenzanalyse-Algorithmus vorgestellt und mit aktuellen Algorithmen verglichen, welcher den Suchraum im Bildraum einschränkt, um die Korrespondenzanalyse zu beschleunigen und gleichzeitig hochgenaue Ergebnisse zu liefern. Berechnete Bildkorrespondenzen können dazu verwendet werden, um relative Orientierungen zwischen Kameras zu berechnen. Da Korrespondenzen üblicherweise Ausreißer beinhalten, welche eine inkorrekte Orientierungsberechnung verursachen, sollte eine solche Berechnung mittels robuster Methoden durchgeführt werden. Die Genauigkeit einer berechneten Kameraorientierung hängt aber auch stark von anderen Faktoren, wie der Positionsgenauigkeit von markanten Bildpunkten und der Tiefe von triangulierten Punkten im dreidimensionalen Raum ab. Um die Leistungsfähigkeit und Genauigkeit von robusten Methoden, Lineargleichungslösern und Verfeinerungsalgorithmen zu bestimmen, werden Datensätze benötigt, welche GT und eine bestimmte and bekannte Varianz der obengenannten Dateneigenschaften besitzen. Leider sind solche Datensätze nur schwer zu finden bzw. zu beschaffen. Daher stellt diese Arbeit ein System vor, um Datensätze mit verschiedensten Eigenschaften aus realen Bildern zu generieren. Diese Datensätze enthalten virtuelle Stereo-Bildpaarkorrespondenzen, welche aus realen Bildern extrahiert werden, sowie alle anderen notwendigen Informationen um diverse Algorithmen, welche auf Bildkorrespondenzen basieren, miteinander vergleichen zu können. Dieses System wurde genutzt, um verschiedene robuste Methoden, Lineargleichungslöser und Verfeinerungsalgorithmen auf Basis verschiedener Szenen-, Orientierungs- und Korrespondenzeigenschaften miteinander zu vergleichen. Abschließend wurde dieses System genutzt um einen neuartigen Algorithmus, welcher in dieser Arbeit vorgestellt wird, zu testen. Dieser Algorithmus ermöglicht die kontinuierliche Bestimmung von hochgenauen Stereo-Kameraorientierungen basierend auf Bildkorrespondenzen, welche über mehrere Stereo-Bildpaare gesammelt und gefiltert werden.

Stereo vision enables to capture a 3D representation of the world using two rigidly connected cameras. To avoid erroneous 3D reconstructions in case of dynamic objects present in the scenes and captured by stereo cameras, cameras are typically synchronized to record stereo images at the exact same point in time. For cases in which this requirement is not fulfilled, this thesis presents two algorithms for detecting dynamic objects based on dense optical flow from two images. The accuracy of 3D reconstructions strongly depends on camera calibration parameters. These are camera intrinsics and extrinsics typically describing the relative pose between the two cameras. Calibration is typically performed offline and parameters are fixed throughout operation. Due to environmental conditions like temperature changes or shock, these parameters are likely to be altered and, thus, 3D reconstruction qualities often degenerate. This is often compensated using online calibration techniques to re-estimate parameters, which is the main focus of this thesis. Therefore, the full pipeline necessary to estimate extrinsics from two images using image feature correspondences is analyzed in a first step followed by a novel algorithm to estimate highly accurate relative stereo poses. As pose estimation algorithms strongly depend on the accuracy of image feature matches, this thesis presents a deep analysis on existing image features which consist of keypoints and descriptors. Thus, different combinations of keypoints and descriptors are evaluated on publicly available ground truth (GT) datasets. As most datasets do not provide GT feature matches, a method is proposed to calculate ground truth matches (GTM) from datasets. The accuracy and unambiguity of these GTM is evaluated by manual annotation. These manual annotations also enabled a deep analysis of used GT datasets. Calculating matches from features of two correlated images is performed on descriptors using a matching algorithm. This thesis presents a novel matching algorithm which constrains the search space in the image domain to speed up matching while providing highly accurate results. Using feature correspondences, relative poses in-between cameras can be estimated by robust methods to exclude outliers which would render pose estimations invalid. Estimated poses also strongly depend on other properties like keypoint accuracies and the underlying depth of feature correspondences. To evaluate the performance of robust methods, minimal solvers, and refinement algorithms, GT information which should be close to real-world scenarios is necessary. Unfortunately, datasets providing such data properties are rarely available and hard to obtain. Therefore, this thesis presents a framework for generating GT sequences of virtual stereo frames containing GT feature matches of real images offering the possibility to define different scene properties. This framework is used to compare various robust methods, minimal solvers, and refinement algorithms. Finally, the framework is used to evaluate a novel continuous calibration technique for estimating highly accurate relative stereo poses based on aggregated image feature correspondences.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis