<div class="csl-bib-body">
<div class="csl-entry">Layegh Khavidaki, N. (2024). <i>Transparent Object Pose Refinement using Differentiable Rendering</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.118792</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2024.118792
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/195628
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
From starting our day by drinking a glass of water, packing our lunch box, or passing a glass door, transparent materials are prevalent throughout our daily lives. However, identifying these objects can be complex, especially under varying lighting or scene conditions, and even more challenging for robots or any autonomous perception system. The challenge lies in the transparency of such objects. This property influences their depth information, making traditional depth-based approaches insufficient; in such methods, estimating the missing depth information is also a complex problem. Additionally, texture-based methods face difficulties due to reflections and the need for precise background modeling.To overcome these issues, a pipeline is proposed that uses differentiable rendering to refine the position and orientation of transparent objects from RGB images within a scene. The pipeline leverages 3D models and a differentiable renderer to create a 3D representation of the scene of interest. The advantage of this approach is that it optimizes directly in the image space using the parameters of the 3D scene, such as the position and appearance of objects. Furthermore, by utilizing the 3D representations, the optimizer is guided to avoid unnatural collisions between objects, ensuring realistic spatial arrangements (e.g., preventing one object from being inside another). The combination of 3D scenes and RGB images, along with optimization within the image space, enhances the flexibility of our approach, liberating it from the need for extensive datasets and predetermined object shapes.Three scenes containing transparent canisters are recorded and annotated to support this thesis. These scenes serve as valuable data for evaluating and validating the proposed approach. The flexibility and effectiveness of the proposed pipeline make it applicable in various domains, including robotics and autonomous systems, where the accurate position of transparent objects is crucial.
en
dc.description.abstract
Vom Beginn unseres Tages mit dem Trinken eines Glases Wasser, dem Packen unserer Lunchbox oder dem Durchqueren einer Glastür, transparente Materialien sind allgegenwärtig in unserem täglichen Leben. Die Identifizierung dieser Objekte kann jedoch komplex sein, insbesondere unter unterschiedlichen Licht- oder Szenenbedingungen, und noch herausfordernder für Roboter und deren autonome Wahrnehmungssysteme.Die Herausforderung liegt in der Transparenz solcher Objekte. Diese Eigenschaft führt oft zu äußerst fehlerbehafteten oder fehlenden Tiefeninformationen, was traditionelle tiefenbasierte Ansätze unzureichend macht. Andererseits stoßen texturbasierte Methoden auf Schwierigkeiten aufgrund von Reflexionen und der Notwendigkeit einer präzisen Hintergrundmodellierung.Wir addressieren diese Probleme mit einer Differentiable-Rendering Pipeline, um die Position und Ausrichtung transparenter Objekte aus RGB-Bildern innerhalb einer Szene robuster zu erkennen. Basierend auf 3D Modellen erstellt unsere Differentiable-Rendering Pipeline eine 3D-Repräsentation einer Szene zu erstellen. Der Vorteil dieses Ansatzes besteht darin, dass direkt im Bildraum unter Verwendung der Parameter der 3D-Szene optimiert wird, basierend auf der Position und dem Aussehen von Objekten. Darüber hinaus wird der Optimierer durch die Verwendung der 3D-Repräsentation angeleitet, (deleted) realistische räumliche Anordnungen sicherzustellen (z.B. das Verhindern, dass ein Objekt in einem anderen liegt). Die Kombination von 3D-Szenen und RGB-Bildern, zusammen mit der Optimierung im Bildraum, erhöht die Flexibilität unseres Ansatzes und ermöglicht Pose Refinement für transparente Objekte ohne zeit- oder datenintensivem Training.Im Rahmen dieser Arbeit werden drei Szenen aufgezeichnet und annotiert, um verschiedene Szenarien zu evaluieren. Diese Szenen dienen als wertvolle Daten zur Bewertung und Validierung des vorgeschlagenen Ansatzes. Die Flexibilität und Effektivität unserer Pipeline machen sie insbesondere in der Robotik anwendbar, in denen die Bestimmung der genauen Position von transparenten Objekte entscheidend für viele Anwendungen ist.
de
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Transparent Object Pose Refinement
en
dc.subject
Object Pose Refinement
en
dc.subject
Differentiable Rendering
en
dc.subject
RGB-based Pose Refinement
en
dc.subject
Pose Optimization
en
dc.subject
Scene Understanding
en
dc.subject
Robot Vision
en
dc.subject
Computer Vision
en
dc.subject
Machine Learning
en
dc.title
Transparent Object Pose Refinement using Differentiable Rendering
en
dc.title.alternative
Schätzung der Pose von transparenten Objekten mittels differentiellem Rendering
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2024.118792
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Negar Layegh Khavidaki
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E376 - Institut für Automatisierungs- und Regelungstechnik