Schweighofer, D. (2025). Cable Manipulation by a Mobile Robot [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.132601
E376 - Institut für Automatisierungs- und Regelungstechnik
-
Date (published):
2025
-
Number of Pages:
55
-
Keywords:
Mobile Robotik; Robotische Manipulation; Computer Vision; Deep Learning
de
Mobile Robotics; Robotic Manipulation; Computer Vision; Deep Learning
en
Abstract:
Das Greifen transparenter und flexibler Objekte stellt aufgrund ihrer schlechten Sichtbarkeit in herkömmlichen RGB- oder Tiefensensoren nach wie vor eine große Herausforderung in der Robotik dar.Diese Arbeit befasst sich mit dem Problem des zuverlässigen Greifens eines transparenten Schlauches mit einem mobilen Eye-in-Hand-Roboter. Wir schlagen eine neuartige Methode vor, die die 3D-Form des Schlauches rekonstruiert und eine geeignete Greifpose bestimmt, wobei nur die an der Hand des Roboters montierte RGB-Kamera in Kombination mit ihrer bekannten Pose verwendet wird. Unsere Methode kombiniert zunächst Depth Anything v2 für die monokulare Tiefenschätzung mit Grounded Segment Anything 2 für eine robuste Segmentierung, um eine erste 3D B-Spline-Darstellung zu erzeugen. Wenn sich der Roboter dem Objekt nähert, wird die Form und Pose der B-Spline anhand von mehreren Ansichten der beweglichen Kamera iterativ verfeinert. Die resultierende 3D-Rekonstruktion ermöglicht die Berechnung einer stabilen Greifpose, die auf einem physischen Roboter ausgeführt wird. Experimentelle Bewertungen in realen Szenarien haben gezeigt, dass der vorgeschlagene Ansatz transparente Röhren ohne zusätzliche Tiefensensoren oder spezielle Hardware genau lokalisieren und erfolgreich greifen kann. Diese Ergebnisse zeigen, dass die Integration modernster monokularer Tiefenschätzung und Segmentierungstechniken, die seit langem bestehende Herausforderung der Manipulation transparenter Objekte effektiv bewältigen kann.
de
Grasping transparent and flexible objects remains a significant challenge in robotics due to their poor visibility in conventional RGB or depth sensing. This thesis addresses the problem of reliably grasping a transparent tube using a mobile, eye-in-hand robot. We propose a novel pipeline that reconstructs the 3D shape of the tube and determines a suitable grasp pose using only the robot’s hand-mounted RGB camera in combination with its known poses.Our method first combines Depth Anything v2 for monocular depth estimation with Grounded Segment Anything 2 for robust tube segmentation to generate an initial 3D B-spline representation. As the robot approaches the object, the pose of the B-spline is iteratively refined using multiview observations from the moving camera. The resulting 3D reconstruction enables the computation of a grasp pose that is executed on a physical robot. Experimental evaluations in real-world scenarios demonstrated that the proposed approach can accurately localize and successfully grasp transparent tubes without the need for additional depth sensors or specialized hardware. These results demonstrate that integrating state-of-the-art monocular depth estimation and segmentation techniques can effectively address the long-standing challenge of transparent-object manipulation.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers