Rettner, V. (2022). Comparison of RGB- and NIR-based transparent object segmentation methods [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.80731
E376 - Institut für Automatisierungs- und Regelungstechnik
-
Date (published):
2022
-
Number of Pages:
45
-
Keywords:
Roboter; Computer Vision; 3D Rekonstruktion; Objekterkennung
de
Robot; Computer Vision; 3D Rekonstruktion; Object Detection
en
Abstract:
Die alternde Bevölkerung in vielen westlichen Ländern führt zu neuen Herausforderungen für unsere Gesellschaft. Roboter können hier Teil der Lösung sein,z.B. indem sie zur Unterstützung älterer Menschen eingesetzt werden. Für diese Aufgabe müssen Roboter jedoch ein gutes Verständnis ihrer Umgebung erlangen,wobei maschinelles Sehen eine zentrale Rolle spielt. Insbesondere die Erkennung und Manipulation transparenter Objekte erweist sich hier als schwierig. Zur Untersuchung dieses Problems wird in dieser Arbeit ein Vergleich unterschiedlicher Methoden zur Maskenerkennung transparenter Objekte durchgeführt. Der zu diesem Zweck erstellte Datensatz besteht aus Farb-, Tiefen- und Infrarotbilderntransparenter Objekte sowie den zugehörigen Kamerapositionen. Zur Erstellung der Referenzmasken für die Evaluation erfolgt zudem eine manuelle Annotation der Objekte. Eine Auswahl an Methoden zur Maskenerkennung transparenter Objekte wird auf den neu erstellten Datensatz angewandt und die Ergebnisse werden mithilfe der Referenzmasken unter verschiedenen Metriken, nämlich F1-Score, IoU, Precision und Recall, auf Pixelebene ausgewertet. Für diese Studie wurden folgende Methoden ausgewählt: ein Algorithmus, der ungültige Tiefenkamerawerte in Kominbation mit dem GrabCut Algorithmus [1] verwendet, eine Adaption des Algorithmus von Ruppel et al. [2], der auf Infrarotbildern basiert,sowie die neuronalen Netzwerke TOM-Net [3], ClearGrasp [4], TransLab [5] undTrans2Seg [6]. Die jeweiligen Ansätze erzielen sehr unterschiedliche Ergebnisse,wobei die auf maschinelles Lernen basierten Methoden insgesamt am besten abschneiden. TransLab zum Beispiel erzielt den höchsten F1-Score von 67,5%und einen IoU von 55,8%. Die Ergebnisse werden ausführlich diskutiert unddarüber hinaus eine eingehende Analyse ausgewählter Szenen erstellt, wobei sowohl die Gemeinsamkeiten als auch die Schwierigkeiten der oben genannten Ansätze aufgezeigt werden. Während die meisten Ansätze erfolgreich grobe Objektmasken erkennen können, erweisen sich feine und komplexere Details wie Kunststoffschläuche insgesamt als schwierig.
de
The ageing population in many western countries leads to new challenges in our society. Here, support by robots can be part of the solution, e.g. by providing assistance for the elderly. However, for this task, robots need to be able to understand their environment better, where machine vision plays a central role. Especially being able to perceive and manipulate transparent objects is essential as they are widely used by humans. To tackle this problem, this thesis compares different methods for mask prediction of transparent objects by evaluating the methods on a new annotated dataset. The dataset consists of RGB-D and infrared images of several scenes with transparent objects. In addition, the camera poses are recorded to enable the annotation of the object poses. The annotation is carried out manually and used to render silhouettes as ground truth images for the comparison. A selection of mask predictions methods for transparent objects is then evaluated on the dataset and the results are compared with the ground truth using pixel-wise metrics, namely F1 score, IoU, precision and recall. The methods for mask prediction selected in this study are an approach using invalid depth and GrabCut [1], an infraredimage-based approach adapted from Ruppel et al. [2], and the Convolutional Neural Networks based (CNNs) TOM-Net [3], ClearGrasp [4], TransLab [5]and Trans2Seg [6]. The results of the respective approaches show a varying performance, with deep learning-based methods showing a better performance overall. TransLab, for example, exceeds the other methods with an F1 score of67.5% and an IoU of 55.8%. The overall performance over the whole dataset is discussed and, furthermore, an in-depth analysis for selected scenes is provided,highlighting similarities as well as challenges for the above approaches. While many approaches successfully predict a rough shape, fine and more complex details like plastic tubes prove to be quite challenging overall.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers