Langer, E. (2023). Object change detection for autonomous indoor robots in open-world settings [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.111500
Computer vision; Open-world object detection; Object matching; Scene differencing; Robotics
en
Abstract:
Deploying robots in homes to fulfill advanced tasks such as tidying up or filling the dishwasher, requires the capability to understand and adapt to changing environments. Detecting task-relevant objects is a key aspect for further steps such as object recognition and manipulation. Available learning-based object detectors achieve reasonable results when training and test data stem from the same distribution and all objects are known in advance. However, in an open-world setting, it is not enough to handle known objects, the robot also needs to detect objects it has never seen before. Another important aspect of object detection is the question of where in the environment it makes sense for a robot to look for objects. The proposed methods in this thesis not only support the robot in exploring the environment continuously but also perform tasks such as open-world object change detection. Due to the interest in not only table-top scenes but larger entities such as full rooms, 3D reconstructions are a common choice to represent environments.Reconstructions are used to store a specific state of the environment as a reference for future comparisons to the current state. This reveals changes in the environment depicting potentially interesting objects. While the first presented method uses voxel-based differencing to detect novel objects, the advantage compared to other works is that the current recording of the environment is created on-the-fly while the robot moves around to fulfill an unrelated task. In order to make differencing robust against insignificant changes in the environment, such as small movements of furniture, the second approach exploits semantic segmentation allowing the division of the environment into meaningful parts.This concept builds the basis for the third approach where a point pair feature descriptor is used to match detected objects from different timestamps and categorize them either into static, moved, removed, or novel. For qualitative evaluation, and as part of the contribution of this thesis, we create the new dataset ObChange, which is specifically designed for detecting changes on the object-level.The dataset provides real-world environment reconstructions from different timestamps acquired with a robot and where small objects that change are annotated.Until now no other publicly available dataset combines all of these characteristics. We use ObChange to show that our method using semantic segmentation to partition an environment achieves superior object detection results compared to global differencing methods. Furthermore, we use the dataset to compare our object detection and matching method against an adaption of recently published learning-based work. Even when only considering objects presented in the training set, the baseline falls behind our approach when considering real-world scenarios. Additionally, real-world robot experiments demonstrate the applicability of the proposed methods.
en
Roboter sind längst in der Industrie, aber auch im alltäglichen Leben angekommen. Obwohl Aufgaben wie Staubsaugen gut bewältigbar sind, stoßen autonome Roboter selbst bei scheinbar einfachen Aufgaben wie etwa Zimmer aufräumen oder das Befüllen eines Geschirrspülers an ihre Grenzen. Ein Grund dafür ist die dynamische Umgebung und das notwendige, stets aktualisierte Verständnis darüber.Dabei ist die Detektion aufgabenrelevanter Objekte essentiell für weitere Schritte wie etwa Objektwiedererkennung und -manipulation. Verfügbare lernbasierte Systeme zur Objektdetektierung erzielen gute Ergebnisse, wenn Trainings- und Testdaten aus der gleichen Verteilung stammen und alle Objekte im Voraus bekannt sind.Allerdings treffen diese Voraussetzungen für viele Umgebungen und Aufgaben nicht zu. Es ist daher essentiell, dass Roboter sich auch in nicht abgeschlossenen Umgebungen (open world) zurechtfinden und Objekte detektieren können, die sie noch nie zuvor gesehen haben.Eine wichtige zu klärende Frage ist, wo in der Umgebung ein Roboter sinnvollerweise nach Objekten suchen soll.Die in dieser Arbeit vorgestellten Methoden ermöglichen dem Roboter sowohl die kontinuierliche Erkundung der open-world Umgebung als auch die Detektierung der darin befindlichen Objekte, sollten diese neu sein oder ihre Position verändert haben.Um die Methoden nicht nur auf Tischszenen zu beschränken, sondern auch auf größere Umgebungen anzuwenden, wie zum Beispiel ganze Räume, sind 3D-Rekonstruktionen eine gängige Wahl.Rekonstruktionen werden verwendet, um einen bestimmten Zustand der Umgebung als Referenz zu speichern und diesen mit zukünftigen Zuständen zu vergleichen. Auf diese Weise werden Veränderungen in der Umgebung sichtbar, die potenziell interessante Objekte darstellen. Die erste vorgestellte Methode detektiert Objekte, indem sie zu unterschiedlichen Zeitpunkten aufgenommene, voxelbasierte Rekonstruktionen einer Umgebung miteinander vergleicht. Der Vorteil gegenüber anderen Arbeiten besteht darin, dass dies gänzlich nebenbei erfolgen kann, während der Roboter sich im Raum bewegt und eine andere Aufgabe durchführt. Um die Unterschiede in einer Umgebung und damit die Objektdetektierung robust gegenüber unbedeutenden Veränderungen zu machen, wie zum Beispiel geringfügige Bewegungen von Möbeln, unterteilt der zweite Ansatz in dieser Arbeit die Umgebung in semantisch sinnvolle Einheiten, welche dann unabhängig abgearbeitet werden. Dieses Konzept bildet die Grundlage für die dritte Methode, bei der ein Merkmalsdeskriptor verwendet wird, um zu unterschiedlichen Zeitpunkten detektierte Objekte zu vergleichen und sie entweder als statisch, verschoben, entfernt oder neu zu kategorisieren. Ein wichtiger Beitrag dieser Arbeit ist der neue Datensatz ObChange. Er eignet sich besonders zur quantitativen Auswertung von Methoden, welche Objekte durch den Vergleich zweier Umgebungszustände detektieren.Der Datensatz besteht aus Rekonstruktionen von realen Umgebungen zu verschiedenen Zeitpunkten, die mit einem Roboter aufgenommen wurden und in denen kleine Objekte annotiert sind.Bislang gibt es keinen anderen veröffentlichten Datensatz, der all diese Eigenschaften vereint.Basierend auf ObChange erzielt die vorgestellte Objektdetektierungsmethode, welche semantische Information zur Partitionierung einer Umgebung verwendet, bessere Ergebnisse als globale Vergleichssmethoden.Darüber hinaus verwenden wir den Datensatz, um unsere Methode, welche nicht nur Objekte detektiert sondern diese auch zwischen zwei Zeitpunkten abgleicht und kategorisiert, zu evaluieren. Die Ergebnisse werden mit einer leicht abgeänderten Form einer kürzlich vorgestellten Arbeit, welche lernbasierte Objektdetektoren verwendet, verglichen. Selbst wenn nur die im Trainingsset verwendeten Objekte berücksichtigt werden, schneidet der lernbasierte Ansatz schlechter ab. Zusätzlich zu den erzielten Ergebnissen der vorgestellten Methoden auf ObChange, zeigen wir mit durchgeführten Roboterexperimenten, dass die Ansätze auch in der echten Welt anwendbar sind.