<div class="csl-bib-body">
<div class="csl-entry">Lechner, S. (2026). <i>Zeroshop - zero-shot object pose estimation in unconstrained environments</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.132600</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2026.132600
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/226295
-
dc.description.abstract
Die robotische Manipulation unbekannter Objekte stützt sich häufig auf Zero-Shot-Methoden zur 6D-Objektposenschätzung, die typischerweise ein Mesh als Referenzrepräsentation verwenden. Die Erstellung hochauflösender Meshes erfordert jedoch in der Regel spezialisierte hardwarebasierte 3D-Scanning-Technologien und manuelle Nachbearbeitung. Die Entwicklung einer automatisierten Softwarelösung, die lediglich ein Objektvideo als Eingabe benötigt, könnte den Bedarf an teurer Hardware eliminieren, die Zugänglichkeit erhöhen und den manuellen Aufwand reduzieren. Neue Techniken zur Novel View Synthesis (NVS), darunter 2D Gaussian Splatting (2DGS) und Sparse Voxels Rasterization (SVRaster), rekonstruieren iterativ uneingeschränkte Umgebungen, um fotorealistische 3D-Szenen zu erzeugen, wobei eine präzise Oberflächenrekonstruktion als Nebenprodukt entsteht. Folglich bestand das Hauptziel dieser Forschung darin, eine automatisierte Mesh-Generierungspipeline zu entwickeln, die diese hochwertigen 3D-Informationen integriert und aus Datenerfassung, Kameraregistrierung und Punktwolkengenerierung, metrischer Höhenschätzung sowie anschließender NVS-basierter Mesh-Generierung besteht. Bei erfolgreicher Kameraregistrierung durch MASt3R-SfM oder VGGT erzeugt 2DGS hochpräzise Meshes innerhalb von Minuten, während SVRaster Meshes mit geringerer geometrischer Genauigkeit produziert, das Training aber nur Sekunden dauert. Für die metrische Skalierung lieferte die Kombination von nahansichtigen objektzentrierten Bildern und weitwinkligen Scanszenenbildern mittels MASt3R konsistente Schätzungen. Die Evaluierung mit BOP YCB-V zeigt eine starke Leistung bei den Segmentierungs- und Posenschätzungsmethoden CNOS, SAM-6D und FoundationPose, ohne signifikante Unterschiede zwischen den 2DGS- und SVRaster-Meshes. Schließlich deuten empirische robotische Greifexperimente mit Supermarktobjekten und der leistungsstärksten Posenschätzungspipeline CNOS/FoundationPose auf eine robuste Leistung selbst bei moderaten Skalierungsfehlern in den generierten Meshes hin.
de
dc.description.abstract
Robotic manipulation of unseen objects often relies on zero-shot 6D object pose estimation methods, which typically employ a mesh as a reference representation. However, constructing high-fidelity meshes generally requires specialized hardware-based 3D scanning technologies and manual editing. The development of an automated software solution that requires only an object video as input could eliminate the need for expensive hardware, increase accessibility, and reduce the need for human intervention. Recently proposed Novel View Synthesis (NVS) techniques, including 2D Gaussian Splatting (2DGS) and Sparse Voxels Rasterization (SVRaster), iteratively reconstruct unconstrained environments to generate photorealistic 3D scenes, with accurate surface reconstruction emerging as a byproduct. Consequently, the primary objective of this research was to develop an automated mesh generation pipeline that integrates this high-quality 3D information, comprising Data Acquisition, Camera Registration and Pointcloud Generation, Metric Height Estimation, and subsequent NVS Mesh Generation. Given successful camera registration with MASt3R-SfM or VGGT, 2DGS produces highly accurate meshes in minutes, while SVRaster produces meshes with lower geometric accuracy but achieves training in seconds. For metric scale estimation, grounding near-view object-centric images with far-view scanning scene images using MASt3R yields consistent estimates. Evaluation with BOP YCB-V demonstrates strong performance on the segmentation and pose estimation methods CNOS, SAM-6D, and FoundationPose, with no significant differences between the 2DGS and SVRaster meshes. Finally, empirical robotic grasping experiments with supermarket objects and the best-performing perception pipeline CNOS/FoundationPose indicate robust performance even in the presence of moderate scale errors in the generated meshes.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Objekt Posen Erkennung
de
dc.subject
Maschinelles Sehen
de
dc.subject
Computer Vision
de
dc.subject
Deep Learning
de
dc.subject
Robotik
de
dc.subject
Object Pose Estimation
en
dc.subject
Machine Vision
en
dc.subject
Computer Vision
en
dc.subject
Deep Learning
en
dc.subject
Robotics
en
dc.title
Zeroshop - zero-shot object pose estimation in unconstrained environments
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2026.132600
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Stefan Lechner
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Ausserlechner, Philipp
-
tuw.publication.orgunit
E376 - Institut für Automatisierungs- und Regelungstechnik