From starting our day by drinking a glass of water, packing our lunch box, or passing a glass door, transparent materials are prevalent throughout our daily lives. However, identifying these objects can be complex, especially under varying lighting or scene conditions, and even more challenging for robots or any autonomous perception system. The challenge lies in the transparency of such objects. This property influences their depth information, making traditional depth-based approaches insufficient; in such methods, estimating the missing depth information is also a complex problem. Additionally, texture-based methods face difficulties due to reflections and the need for precise background modeling.To overcome these issues, a pipeline is proposed that uses differentiable rendering to refine the position and orientation of transparent objects from RGB images within a scene. The pipeline leverages 3D models and a differentiable renderer to create a 3D representation of the scene of interest. The advantage of this approach is that it optimizes directly in the image space using the parameters of the 3D scene, such as the position and appearance of objects. Furthermore, by utilizing the 3D representations, the optimizer is guided to avoid unnatural collisions between objects, ensuring realistic spatial arrangements (e.g., preventing one object from being inside another). The combination of 3D scenes and RGB images, along with optimization within the image space, enhances the flexibility of our approach, liberating it from the need for extensive datasets and predetermined object shapes.Three scenes containing transparent canisters are recorded and annotated to support this thesis. These scenes serve as valuable data for evaluating and validating the proposed approach. The flexibility and effectiveness of the proposed pipeline make it applicable in various domains, including robotics and autonomous systems, where the accurate position of transparent objects is crucial.
en
Vom Beginn unseres Tages mit dem Trinken eines Glases Wasser, dem Packen unserer Lunchbox oder dem Durchqueren einer Glastür, transparente Materialien sind allgegenwärtig in unserem täglichen Leben. Die Identifizierung dieser Objekte kann jedoch komplex sein, insbesondere unter unterschiedlichen Licht- oder Szenenbedingungen, und noch herausfordernder für Roboter und deren autonome Wahrnehmungssysteme.Die Herausforderung liegt in der Transparenz solcher Objekte. Diese Eigenschaft führt oft zu äußerst fehlerbehafteten oder fehlenden Tiefeninformationen, was traditionelle tiefenbasierte Ansätze unzureichend macht. Andererseits stoßen texturbasierte Methoden auf Schwierigkeiten aufgrund von Reflexionen und der Notwendigkeit einer präzisen Hintergrundmodellierung.Wir addressieren diese Probleme mit einer Differentiable-Rendering Pipeline, um die Position und Ausrichtung transparenter Objekte aus RGB-Bildern innerhalb einer Szene robuster zu erkennen. Basierend auf 3D Modellen erstellt unsere Differentiable-Rendering Pipeline eine 3D-Repräsentation einer Szene zu erstellen. Der Vorteil dieses Ansatzes besteht darin, dass direkt im Bildraum unter Verwendung der Parameter der 3D-Szene optimiert wird, basierend auf der Position und dem Aussehen von Objekten. Darüber hinaus wird der Optimierer durch die Verwendung der 3D-Repräsentation angeleitet, (deleted) realistische räumliche Anordnungen sicherzustellen (z.B. das Verhindern, dass ein Objekt in einem anderen liegt). Die Kombination von 3D-Szenen und RGB-Bildern, zusammen mit der Optimierung im Bildraum, erhöht die Flexibilität unseres Ansatzes und ermöglicht Pose Refinement für transparente Objekte ohne zeit- oder datenintensivem Training.Im Rahmen dieser Arbeit werden drei Szenen aufgezeichnet und annotiert, um verschiedene Szenarien zu evaluieren. Diese Szenen dienen als wertvolle Daten zur Bewertung und Validierung des vorgeschlagenen Ansatzes. Die Flexibilität und Effektivität unserer Pipeline machen sie insbesondere in der Robotik anwendbar, in denen die Bestimmung der genauen Position von transparenten Objekte entscheidend für viele Anwendungen ist.
de
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers