Transparent object pose refinement using differentiable rendering

Layegh Khavidaki, Negar

doi:10.34726/hss.2024.118792

DC Element

Wert

Sprache

dc.contributor.advisor

Vincze, Markus

dc.contributor.author

Layegh Khavidaki, Negar

dc.date.accessioned

2024-03-15T12:55:19Z

dc.date.issued

2024

dc.date.submitted

2024-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Layegh Khavidaki, N. (2024). <i>Transparent object pose refinement using differentiable rendering</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.118792</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2024.118792

dc.identifier.uri

http://hdl.handle.net/20.500.12708/195628

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

From starting our day by drinking a glass of water, packing our lunch box, or passing a glass door, transparent materials are prevalent throughout our daily lives. However, identifying these objects can be complex, especially under varying lighting or scene conditions, and even more challenging for robots or any autonomous perception system. The challenge lies in the transparency of such objects. This property influences their depth information, making traditional depth-based approaches insufficient; in such methods, estimating the missing depth information is also a complex problem. Additionally, texture-based methods face difficulties due to reflections and the need for precise background modeling.To overcome these issues, a pipeline is proposed that uses differentiable rendering to refine the position and orientation of transparent objects from RGB images within a scene. The pipeline leverages 3D models and a differentiable renderer to create a 3D representation of the scene of interest. The advantage of this approach is that it optimizes directly in the image space using the parameters of the 3D scene, such as the position and appearance of objects. Furthermore, by utilizing the 3D representations, the optimizer is guided to avoid unnatural collisions between objects, ensuring realistic spatial arrangements (e.g., preventing one object from being inside another). The combination of 3D scenes and RGB images, along with optimization within the image space, enhances the flexibility of our approach, liberating it from the need for extensive datasets and predetermined object shapes.Three scenes containing transparent canisters are recorded and annotated to support this thesis. These scenes serve as valuable data for evaluating and validating the proposed approach. The flexibility and effectiveness of the proposed pipeline make it applicable in various domains, including robotics and autonomous systems, where the accurate position of transparent objects is crucial.

dc.description.abstract

Vom Beginn unseres Tages mit dem Trinken eines Glases Wasser, dem Packen unserer Lunchbox oder dem Durchqueren einer Glastür, transparente Materialien sind allgegenwärtig in unserem täglichen Leben. Die Identifizierung dieser Objekte kann jedoch komplex sein, insbesondere unter unterschiedlichen Licht- oder Szenenbedingungen, und noch herausfordernder für Roboter und deren autonome Wahrnehmungssysteme.Die Herausforderung liegt in der Transparenz solcher Objekte. Diese Eigenschaft führt oft zu äußerst fehlerbehafteten oder fehlenden Tiefeninformationen, was traditionelle tiefenbasierte Ansätze unzureichend macht. Andererseits stoßen texturbasierte Methoden auf Schwierigkeiten aufgrund von Reflexionen und der Notwendigkeit einer präzisen Hintergrundmodellierung.Wir addressieren diese Probleme mit einer Differentiable-Rendering Pipeline, um die Position und Ausrichtung transparenter Objekte aus RGB-Bildern innerhalb einer Szene robuster zu erkennen. Basierend auf 3D Modellen erstellt unsere Differentiable-Rendering Pipeline eine 3D-Repräsentation einer Szene zu erstellen. Der Vorteil dieses Ansatzes besteht darin, dass direkt im Bildraum unter Verwendung der Parameter der 3D-Szene optimiert wird, basierend auf der Position und dem Aussehen von Objekten. Darüber hinaus wird der Optimierer durch die Verwendung der 3D-Repräsentation angeleitet, (deleted) realistische räumliche Anordnungen sicherzustellen (z.B. das Verhindern, dass ein Objekt in einem anderen liegt). Die Kombination von 3D-Szenen und RGB-Bildern, zusammen mit der Optimierung im Bildraum, erhöht die Flexibilität unseres Ansatzes und ermöglicht Pose Refinement für transparente Objekte ohne zeit- oder datenintensivem Training.Im Rahmen dieser Arbeit werden drei Szenen aufgezeichnet und annotiert, um verschiedene Szenarien zu evaluieren. Diese Szenen dienen als wertvolle Daten zur Bewertung und Validierung des vorgeschlagenen Ansatzes. Die Flexibilität und Effektivität unserer Pipeline machen sie insbesondere in der Robotik anwendbar, in denen die Bestimmung der genauen Position von transparenten Objekte entscheidend für viele Anwendungen ist.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Transparent Object Pose Refinement

dc.subject

Object Pose Refinement

dc.subject

Differentiable Rendering

dc.subject

RGB-based Pose Refinement

dc.subject

Pose Optimization

dc.subject

Scene Understanding

dc.subject

Robot Vision

dc.subject

Computer Vision

dc.subject

Machine Learning

dc.title

Transparent object pose refinement using differentiable rendering

dc.title.alternative

Schätzung der Pose von transparenten Objekten mittels differentiellem Rendering

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2024.118792

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Negar Layegh Khavidaki

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E376 - Institut für Automatisierungs- und Regelungstechnik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17109211

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

item.languageiso639-1

item.openairetype

master thesis

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.grantfulltext

open

item.cerifentitytype

Publications

item.fulltext

with Fulltext

item.mimetype

application/pdf

item.openaccessfulltext

Open Access

Enthalten in den Sammlungen:

Thesis

Volltext (Version of Record (published version))

Adobe PDF

(5.13 MB)

Urheberrechtsschutz

Zur Kurzanzeige

Seiten Aufrufe

206

aufgerufen am 15.03.2024

Download(s)

139

aufgerufen am 15.03.2024

Google Scholar^TM

Check

Seiten Aufrufe

Download(s)

Google ScholarTM

Google Scholar^TM