<div class="csl-bib-body">
<div class="csl-entry">Steininger, R. (2024). <i>Zero-shot detection of known tubes in RGB images</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.121404</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2024.121404
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/208811
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
In vielen Robotikanwendungen im Industrie- oder Medizinbereich ist es entscheidend, nicht-starre Objekte zu erkennen, um entweder sicher um sie herum zu navigieren oder sie zu greifen und aus dem Weg zu räumen. Wenn solche Objekte nicht erkannt werden, können sie ein Sicherheitsrisiko darstellen und das System potenziell beschädigen. Roboter sind nach wie vor nicht in der Lage, sich in unstrukturierten Umgebungen mit solchen Objekten ohne kostenintensive Kartierung zu bewegen. Insbesondere unsichtbare und nicht-starre Strukturen wie Schläuche sind für traditionelle Objekterkennungsverfahren schwer zu erkennen. Zusätzlich sind die Tiefeninformationen von Kameras für solche Objekte in der Regel inkonsistent und bei unsichtbaren Strukturen ungenau. Darüber hinaus erschweren die Eigenschaften und Störungen in Umgebungen die Erkennung. Um diese Herausforderungen zu bewältigen, stellen wir eine Zero-Shot Detection Pipeline vor. Diese ist darauf ausgelegt, beliebige nicht-starre Objekte zu erkennen und zu segmentieren, ohne dass ein zusätzliches Training erforderlich ist. Wir konzentrieren uns speziell auf standardisierte Schläuche aus sterilen Kits, die aufgrund ihrer Struktur und angeschlossenen Objekten zusätzliche Herausforderungen darstellen. Die Pipeline verwendet Distillation with No Labels (DINO)-Korrespondenzen, die durch Vergleich mit Referenzbildern generiert werden. Die Zero-Shot-Fähigkeiten ermöglichen es der Pipeline durch einfaches Ändern der Referenzbilder ohne Änderung der internen Struktur an beliebige Objekte angepasst zu werden. Aus den DINO-Korrespondenzen erstellen wir eine Segmentierung, die vom Segment-Anything Model (SAM) auf Grundlage der Korrespondenz-Abdeckung generiert wird. Um die Tiefeninformationen des Schlauchs aus der Segmentierung abzuleiten, wird die Pixelbreite des segmentierten Schlauchs mit seiner realen Breite anhand des Lochkameramodells in Beziehung gesetzt. Unsere Evaluierung umfasst eine Szene mit Bildern, die einen Schlauch aus einer 360° Ansicht zeigen. Wir vergleichen unsere Technik mit einem Scale-Invariant Feature Transform (SIFT)-basierten Ansatz. Die Ergebnisse zeigten, dass unsere Methode SIFT in Bezug auf die Menge und Präzision der Merkmalserkennung übertrifft, was in etwa bei 80% des Testsatzes zu einer genaueren Segmentierung führt. Die Ergebnisse der Tiefenvorhersage zeigten eine akzeptable Genauigkeit für bestimmte Bereiche des Schlauchs, mit einer klaren oberen Grenze für den absoluten Fehler. Während diese Methode für allgemeine Navigationsaufgaben geeignet ist, bleibt die Auswahl geeigneter Schlauchbereiche für Greifaufgaben eine Herausforderung.
de
dc.description.abstract
In many robotics industrial and medical applications, it is essential to detect non-rigid objects to either navigate safely around or grasp the object and move it out of the way. When such objects are not identified, they pose a safety risk and potentially damage the system. Robots are still not able to move in unstructured environments with such objects without costly mapping. In particular, invisible and non-rigid structures like tubes are difficult to detect. Traditional object detection methods struggle to identify such objects, and the camera depth information is usually inconsistent and distorted by the invisible structures. Additionally, the characteristics and noise in environments with varying backgrounds, lighting conditions, and other objects make detection even more challenging. To address these problems, we present a Zero-Shot Detection Pipeline designed to detect and segment non-rigid objects without the need for retraining. We specifically focus on standardized tubes from sterile kits that pose additional challenges due to their structure and attached parts. The proposed pipeline uses Distillation with No Labels (DINO) correspondences generated from reference images to reliably detect such objects, with zero-shot capabilities to adapt to other non-rigid objects by simply changing the reference images, without altering the internal structure of the pipeline. From the DINO correspondences, we select a pixel-level segmentation generated by the Segment-Anything Model (SAM) based on coverage. To estimate the depth information of the tube from the segmentation, we present a method that relates the pixel-width of the segmented tube to its real-world width using the pinhole camera model. Our evaluation involves a scene of images showing a tube from 360° viewing angles. We compare the DINO-based method to an approach that uses Scale-Invariant Feature Transform (SIFT) instead. Results indicated that our method outperforms SIFT in terms of feature detection quantity and precision, leading to a more accurate segmentation in about 80% of the test set. Depth prediction results, which are compared to a 3D model, showed acceptable accuracy for certain areas of the tube, with a clear upper bound for the absolute error. While this method is suitable for general navigation tasks, selecting the proper regions for grasping tasks remains challenging.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Objekterkennung
de
dc.subject
Objektsegmentierung
de
dc.subject
Tiefenvorhersage
de
dc.subject
Tiefenschätzung
de
dc.subject
Zero-Shot
de
dc.subject
Nicht-Starre Objekte
de
dc.subject
Schläuche
de
dc.subject
DINO
de
dc.subject
SAM
de
dc.subject
Lochkamera-Projektionsprinzip
de
dc.subject
Object Detection
en
dc.subject
Object Segmentation
en
dc.subject
Depth Prediction
en
dc.subject
Depth Estimation
en
dc.subject
Zero-Shot
en
dc.subject
Non-Rigid Objects
en
dc.subject
Tubes
en
dc.subject
DINO
en
dc.subject
SAM
en
dc.subject
Pinhole Projection Principle
en
dc.title
Zero-shot detection of known tubes in RGB images
en
dc.title.alternative
Erkennung von Schläuchen in Farbbildern
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2024.121404
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Richard Steininger
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Weibel, Jean-Baptiste Nicolas
-
tuw.publication.orgunit
E376 - Institut für Automatisierungs- und Regelungstechnik