Zeroshop - zero-shot object pose estimation in unconstrained environments

Lechner, Stefan

doi:10.34726/hss.2026.132600

DC Field

Value

Language

dc.contributor.advisor

Vincze, Markus

dc.contributor.author

Lechner, Stefan

dc.date.accessioned

2026-02-12T12:27:27Z

dc.date.issued

2026

dc.date.submitted

2026-01

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Lechner, S. (2026). <i>Zeroshop - zero-shot object pose estimation in unconstrained environments</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.132600</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.132600

dc.identifier.uri

http://hdl.handle.net/20.500.12708/226295

dc.description.abstract

Die robotische Manipulation unbekannter Objekte stützt sich häufig auf Zero-Shot-Methoden zur 6D-Objektposenschätzung, die typischerweise ein Mesh als Referenzrepräsentation verwenden. Die Erstellung hochauflösender Meshes erfordert jedoch in der Regel spezialisierte hardwarebasierte 3D-Scanning-Technologien und manuelle Nachbearbeitung. Die Entwicklung einer automatisierten Softwarelösung, die lediglich ein Objektvideo als Eingabe benötigt, könnte den Bedarf an teurer Hardware eliminieren, die Zugänglichkeit erhöhen und den manuellen Aufwand reduzieren. Neue Techniken zur Novel View Synthesis (NVS), darunter 2D Gaussian Splatting (2DGS) und Sparse Voxels Rasterization (SVRaster), rekonstruieren iterativ uneingeschränkte Umgebungen, um fotorealistische 3D-Szenen zu erzeugen, wobei eine präzise Oberflächenrekonstruktion als Nebenprodukt entsteht. Folglich bestand das Hauptziel dieser Forschung darin, eine automatisierte Mesh-Generierungspipeline zu entwickeln, die diese hochwertigen 3D-Informationen integriert und aus Datenerfassung, Kameraregistrierung und Punktwolkengenerierung, metrischer Höhenschätzung sowie anschließender NVS-basierter Mesh-Generierung besteht. Bei erfolgreicher Kameraregistrierung durch MASt3R-SfM oder VGGT erzeugt 2DGS hochpräzise Meshes innerhalb von Minuten, während SVRaster Meshes mit geringerer geometrischer Genauigkeit produziert, das Training aber nur Sekunden dauert. Für die metrische Skalierung lieferte die Kombination von nahansichtigen objektzentrierten Bildern und weitwinkligen Scanszenenbildern mittels MASt3R konsistente Schätzungen. Die Evaluierung mit BOP YCB-V zeigt eine starke Leistung bei den Segmentierungs- und Posenschätzungsmethoden CNOS, SAM-6D und FoundationPose, ohne signifikante Unterschiede zwischen den 2DGS- und SVRaster-Meshes. Schließlich deuten empirische robotische Greifexperimente mit Supermarktobjekten und der leistungsstärksten Posenschätzungspipeline CNOS/FoundationPose auf eine robuste Leistung selbst bei moderaten Skalierungsfehlern in den generierten Meshes hin.

dc.description.abstract

Robotic manipulation of unseen objects often relies on zero-shot 6D object pose estimation methods, which typically employ a mesh as a reference representation. However, constructing high-fidelity meshes generally requires specialized hardware-based 3D scanning technologies and manual editing. The development of an automated software solution that requires only an object video as input could eliminate the need for expensive hardware, increase accessibility, and reduce the need for human intervention. Recently proposed Novel View Synthesis (NVS) techniques, including 2D Gaussian Splatting (2DGS) and Sparse Voxels Rasterization (SVRaster), iteratively reconstruct unconstrained environments to generate photorealistic 3D scenes, with accurate surface reconstruction emerging as a byproduct. Consequently, the primary objective of this research was to develop an automated mesh generation pipeline that integrates this high-quality 3D information, comprising Data Acquisition, Camera Registration and Pointcloud Generation, Metric Height Estimation, and subsequent NVS Mesh Generation. Given successful camera registration with MASt3R-SfM or VGGT, 2DGS produces highly accurate meshes in minutes, while SVRaster produces meshes with lower geometric accuracy but achieves training in seconds. For metric scale estimation, grounding near-view object-centric images with far-view scanning scene images using MASt3R yields consistent estimates. Evaluation with BOP YCB-V demonstrates strong performance on the segmentation and pose estimation methods CNOS, SAM-6D, and FoundationPose, with no significant differences between the 2DGS and SVRaster meshes. Finally, empirical robotic grasping experiments with supermarket objects and the best-performing perception pipeline CNOS/FoundationPose indicate robust performance even in the presence of moderate scale errors in the generated meshes.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Objekt Posen Erkennung

dc.subject

Maschinelles Sehen

dc.subject

Computer Vision

dc.subject

Deep Learning

dc.subject

Robotik

dc.subject

Object Pose Estimation

dc.subject

Machine Vision

dc.subject

Computer Vision

dc.subject

Deep Learning

dc.subject

Robotics

dc.title

Zeroshop - zero-shot object pose estimation in unconstrained environments

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.132600

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Stefan Lechner

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Ausserlechner, Philipp

tuw.publication.orgunit

E376 - Institut für Automatisierungs- und Regelungstechnik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17776941

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

item.fulltext

with Fulltext

item.grantfulltext

open

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.cerifentitytype

Publications

item.languageiso639-1

item.openairetype

master thesis

item.openaccessfulltext

Open Access

item.mimetype

application/pdf

crisitem.author.dept

E330-02-3 - Forschungsgruppe Mensch-Maschine-Interaktion

crisitem.author.parentorg

E330-02 - Forschungsbereich Betriebstechnik, Systemplanung und Facility Management

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(3.91 MB)

In Copyright

Show simple item record

Page view(s)

checked on Feb 12, 2026

Download(s)

144

checked on Feb 12, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM