Steininger, R. (2024). Zero-shot detection of known tubes in RGB images [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.121404
In vielen Robotikanwendungen im Industrie- oder Medizinbereich ist es entscheidend, nicht-starre Objekte zu erkennen, um entweder sicher um sie herum zu navigieren oder sie zu greifen und aus dem Weg zu räumen. Wenn solche Objekte nicht erkannt werden, können sie ein Sicherheitsrisiko darstellen und das System potenziell beschädigen. Roboter sind nach wie vor nicht in der Lage, sich in unstrukturierten Umgebungen mit solchen Objekten ohne kostenintensive Kartierung zu bewegen. Insbesondere unsichtbare und nicht-starre Strukturen wie Schläuche sind für traditionelle Objekterkennungsverfahren schwer zu erkennen. Zusätzlich sind die Tiefeninformationen von Kameras für solche Objekte in der Regel inkonsistent und bei unsichtbaren Strukturen ungenau. Darüber hinaus erschweren die Eigenschaften und Störungen in Umgebungen die Erkennung. Um diese Herausforderungen zu bewältigen, stellen wir eine Zero-Shot Detection Pipeline vor. Diese ist darauf ausgelegt, beliebige nicht-starre Objekte zu erkennen und zu segmentieren, ohne dass ein zusätzliches Training erforderlich ist. Wir konzentrieren uns speziell auf standardisierte Schläuche aus sterilen Kits, die aufgrund ihrer Struktur und angeschlossenen Objekten zusätzliche Herausforderungen darstellen. Die Pipeline verwendet Distillation with No Labels (DINO)-Korrespondenzen, die durch Vergleich mit Referenzbildern generiert werden. Die Zero-Shot-Fähigkeiten ermöglichen es der Pipeline durch einfaches Ändern der Referenzbilder ohne Änderung der internen Struktur an beliebige Objekte angepasst zu werden. Aus den DINO-Korrespondenzen erstellen wir eine Segmentierung, die vom Segment-Anything Model (SAM) auf Grundlage der Korrespondenz-Abdeckung generiert wird. Um die Tiefeninformationen des Schlauchs aus der Segmentierung abzuleiten, wird die Pixelbreite des segmentierten Schlauchs mit seiner realen Breite anhand des Lochkameramodells in Beziehung gesetzt. Unsere Evaluierung umfasst eine Szene mit Bildern, die einen Schlauch aus einer 360° Ansicht zeigen. Wir vergleichen unsere Technik mit einem Scale-Invariant Feature Transform (SIFT)-basierten Ansatz. Die Ergebnisse zeigten, dass unsere Methode SIFT in Bezug auf die Menge und Präzision der Merkmalserkennung übertrifft, was in etwa bei 80% des Testsatzes zu einer genaueren Segmentierung führt. Die Ergebnisse der Tiefenvorhersage zeigten eine akzeptable Genauigkeit für bestimmte Bereiche des Schlauchs, mit einer klaren oberen Grenze für den absoluten Fehler. Während diese Methode für allgemeine Navigationsaufgaben geeignet ist, bleibt die Auswahl geeigneter Schlauchbereiche für Greifaufgaben eine Herausforderung.
de
In many robotics industrial and medical applications, it is essential to detect non-rigid objects to either navigate safely around or grasp the object and move it out of the way. When such objects are not identified, they pose a safety risk and potentially damage the system. Robots are still not able to move in unstructured environments with such objects without costly mapping. In particular, invisible and non-rigid structures like tubes are difficult to detect. Traditional object detection methods struggle to identify such objects, and the camera depth information is usually inconsistent and distorted by the invisible structures. Additionally, the characteristics and noise in environments with varying backgrounds, lighting conditions, and other objects make detection even more challenging. To address these problems, we present a Zero-Shot Detection Pipeline designed to detect and segment non-rigid objects without the need for retraining. We specifically focus on standardized tubes from sterile kits that pose additional challenges due to their structure and attached parts. The proposed pipeline uses Distillation with No Labels (DINO) correspondences generated from reference images to reliably detect such objects, with zero-shot capabilities to adapt to other non-rigid objects by simply changing the reference images, without altering the internal structure of the pipeline. From the DINO correspondences, we select a pixel-level segmentation generated by the Segment-Anything Model (SAM) based on coverage. To estimate the depth information of the tube from the segmentation, we present a method that relates the pixel-width of the segmented tube to its real-world width using the pinhole camera model. Our evaluation involves a scene of images showing a tube from 360° viewing angles. We compare the DINO-based method to an approach that uses Scale-Invariant Feature Transform (SIFT) instead. Results indicated that our method outperforms SIFT in terms of feature detection quantity and precision, leading to a more accurate segmentation in about 80% of the test set. Depth prediction results, which are compared to a 3D model, showed acceptable accuracy for certain areas of the tube, with a clear upper bound for the absolute error. While this method is suitable for general navigation tasks, selecting the proper regions for grasping tasks remains challenging.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers