Zeroshop - zero-shot object pose estimation in unconstrained environments

Lechner, Stefan

doi:10.34726/hss.2026.132600

Record link:

https://doi.org/10.34726/hss.2026.132600
http://hdl.handle.net/20.500.12708/226295

Title:

Zeroshop - zero-shot object pose estimation in unconstrained environments

Citation:

Lechner, S. (2026). Zeroshop - zero-shot object pose estimation in unconstrained environments [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.132600

reposiTUm DOI:

10.34726/hss.2026.132600

CatalogPlus:

AC17776941

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Lechner, Stefan

Advisor:

Vincze, Markus

Co-advisor:

Ausserlechner, Philipp

Organisational Unit:

E376 - Institut für Automatisierungs- und Regelungstechnik

Date (published):

2026

Number of Pages:

Keywords:

Objekt Posen Erkennung; Maschinelles Sehen; Computer Vision; Deep Learning; Robotik

Object Pose Estimation; Machine Vision; Computer Vision; Deep Learning; Robotics

Abstract:

Die robotische Manipulation unbekannter Objekte stützt sich häufig auf Zero-Shot-Methoden zur 6D-Objektposenschätzung, die typischerweise ein Mesh als Referenzrepräsentation verwenden. Die Erstellung hochauflösender Meshes erfordert jedoch in der Regel spezialisierte hardwarebasierte 3D-Scanning-Technologien und manuelle Nachbearbeitung. Die Entwicklung einer automatisierten Softwarelösung, die lediglich ein Objektvideo als Eingabe benötigt, könnte den Bedarf an teurer Hardware eliminieren, die Zugänglichkeit erhöhen und den manuellen Aufwand reduzieren. Neue Techniken zur Novel View Synthesis (NVS), darunter 2D Gaussian Splatting (2DGS) und Sparse Voxels Rasterization (SVRaster), rekonstruieren iterativ uneingeschränkte Umgebungen, um fotorealistische 3D-Szenen zu erzeugen, wobei eine präzise Oberflächenrekonstruktion als Nebenprodukt entsteht. Folglich bestand das Hauptziel dieser Forschung darin, eine automatisierte Mesh-Generierungspipeline zu entwickeln, die diese hochwertigen 3D-Informationen integriert und aus Datenerfassung, Kameraregistrierung und Punktwolkengenerierung, metrischer Höhenschätzung sowie anschließender NVS-basierter Mesh-Generierung besteht. Bei erfolgreicher Kameraregistrierung durch MASt3R-SfM oder VGGT erzeugt 2DGS hochpräzise Meshes innerhalb von Minuten, während SVRaster Meshes mit geringerer geometrischer Genauigkeit produziert, das Training aber nur Sekunden dauert. Für die metrische Skalierung lieferte die Kombination von nahansichtigen objektzentrierten Bildern und weitwinkligen Scanszenenbildern mittels MASt3R konsistente Schätzungen. Die Evaluierung mit BOP YCB-V zeigt eine starke Leistung bei den Segmentierungs- und Posenschätzungsmethoden CNOS, SAM-6D und FoundationPose, ohne signifikante Unterschiede zwischen den 2DGS- und SVRaster-Meshes. Schließlich deuten empirische robotische Greifexperimente mit Supermarktobjekten und der leistungsstärksten Posenschätzungspipeline CNOS/FoundationPose auf eine robuste Leistung selbst bei moderaten Skalierungsfehlern in den generierten Meshes hin.

Robotic manipulation of unseen objects often relies on zero-shot 6D object pose estimation methods, which typically employ a mesh as a reference representation. However, constructing high-fidelity meshes generally requires specialized hardware-based 3D scanning technologies and manual editing. The development of an automated software solution that requires only an object video as input could eliminate the need for expensive hardware, increase accessibility, and reduce the need for human intervention. Recently proposed Novel View Synthesis (NVS) techniques, including 2D Gaussian Splatting (2DGS) and Sparse Voxels Rasterization (SVRaster), iteratively reconstruct unconstrained environments to generate photorealistic 3D scenes, with accurate surface reconstruction emerging as a byproduct. Consequently, the primary objective of this research was to develop an automated mesh generation pipeline that integrates this high-quality 3D information, comprising Data Acquisition, Camera Registration and Pointcloud Generation, Metric Height Estimation, and subsequent NVS Mesh Generation. Given successful camera registration with MASt3R-SfM or VGGT, 2DGS produces highly accurate meshes in minutes, while SVRaster produces meshes with lower geometric accuracy but achieves training in seconds. For metric scale estimation, grounding near-view object-centric images with far-view scanning scene images using MASt3R yields consistent estimates. Evaluation with BOP YCB-V demonstrates strong performance on the segmentation and pose estimation methods CNOS, SAM-6D, and FoundationPose, with no significant differences between the 2DGS and SVRaster meshes. Finally, empirical robotic grasping experiments with supermarket objects and the best-performing perception pipeline CNOS/FoundationPose indicate robust performance even in the presence of moderate scale errors in the generated meshes.

License:

In Copyright

Appears in Collections:

Thesis