Crnogorac, N. (2025). Efficient annotation system of flexible and transparent objects [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.119701
E376 - Institut für Automatisierungs- und Regelungstechnik
-
Datum (veröffentlicht):
2025
-
Umfang:
97
-
Keywords:
Bildverarbeitung; transparente Objekte
de
computer vision; transparent objects
en
Abstract:
Die präzise Segmentierung und Korrespondenzschätzung von den transparenten und deformierbaren Objekten stellt eine grundlegende Herausforderung in der Computer Vision dar, da ihre komplexen physikalischen Eigenschaften, einschließlich uneindeutiger Tiefenwahrnehmung, spiegelnder Reflexionen und dynamischer Formveränderungen,herkömmliche Methoden vor erhebliche Schwierigkeiten stellen, insbesondere in Multi View-Szenarien. Um diese Einschränkungen zu überwinden, stellen wir ein mehrstufiges Segmentierungs- und Korrespondenzschätzungs-Framework vor, das einen promptbasierten Segmentierungsalgorithmus zur Erzeugung von Masken auf Einzelbildebene mit zwei komplementären Methoden zur Masken-Korrespondenzschätzung kombiniert: eine nutzt Tiefeninformationen, während die andere ausschließlich auf geometrischen Randbedingungen basiert und unabhängig von Tiefendaten arbeitet.Die tiefenbasierte Methode verwendet 3D-Informationen zur Bestimmung von Korrespondenzen zwischen segmentierten Masken aus mehreren Blickwinkeln der Camera und gewährleistet dadurch eine verbesserte räumliche Konsistenz in strukturierten Umgebungen. Im Gegensatz dazu setzt der tiefenunabhängige Ansatz auf einen RayTracing-Algorithmus, bei dem Maskenprojektionen durch 3D-Strahlenrückprojektion analysiert werden, um eine optimale Korrespondenzschätzung auf Basis von Schnittmengen zu ermöglichen. Dieser Ansatz umgeht Herausforderungen, die mit unzuverlässigen oder fehlenden Tiefendaten einhergehen, indem die räumlichen Beziehungen zwischen Objektmasken direkt modelliert werden. Dadurch ist eine robuste Zuordnung selbst bei komplexen, texturlosen oder reflektierenden Oberflächen möglich. Die Flexibilität unseres Verfahrens erlaubt die Anwendung auf beliebige vorsegmentierte Maskensätze,unabhängig davon, ob sie durch unseren promptbasierten Algorithmus oder durch eine externe automatische Segmentierungspipeline wie das Segment Anything Model (SAM) generiert wurden.Experimentelle Ergebnisse zeigen, dass unser hybrides Framework die Segmentierungsrobustheit und Anpassungsfähigkeit in verschiedenen realen Szenarien verbessert und eine Brücke zwischen datengetriebenen und geometriebasierten Segmentierungsmethoden schlägt. Darüber hinaus untersuchen wir Optimierungstechniken zur weiteren Verfeinerung der Genauigkeit der Maskenkorrespondenzen. Abschließend diskutieren wir potenzielle zukünftige Forschungsrichtungen, einschließlich der Integration lernbasierter Verfeinerungen, der Verbesserung der zeitlichen Konsistenz sowie der rechnerischen Optimierung, um die Anwendbarkeit und Effizienz unseres Ansatzes für komplexe Aufgabenin der Computer Vision weiter zu steigern.
de
The accurate segmentation and correspondence estimation of semi-transparent and deformable objects present fundamental challenges in computer vision due to their complex physical properties, including ambiguous depth perception, specular reflections,and dynamic shape variations. Traditional segmentation methods often struggle to handle these intricacies effectively, particularly in multi-view scenarios. To address these limitations, we introduce a multi-level segmentation and correspondence estimation framework that integrates a prompt-based segmentation algorithm for generating perimage masks and two complementary mask-to-mask correspondence estimation methods,one leveraging depth information and the other relying purely on geometric constraints,independent of depth.The depth-aware method utilizes 3D information to establish correspondences between segmented masks across multiple views, ensuring improved spatial consistency in structured environments. In contrast, the depth-independent approach employs a ray-tracing algorithm, where in mask projections are analysed through 3D ray back-projection to optimize intersection-based correspondence estimation. This method circumvents challenges associated with unreliable or missing depth data by directly modelling spatial relationships between object masks, allowing for robust matching even in complex, textureless,or reflective surfaces. The flexibility of our approach enables its application to any set of pre-segmented masks, whether derived from our prompting algorithm or an externalautomatic segmentation pipeline such as SAM (Segment Anything Model).Experimental results demonstrate that our hybrid framework enhances segmentation robustness and adaptability across diverse real-world scenarios, bridging the gap between data-driven and geometry-based segmentation methodologies. Additionally, we explore the optimization techniques for further refinement of the accuracy of mask correspondences.Finally, we discuss potential avenues for future research, including the integration of learning-based refinements, improvements in temporal consistency, and computational optimizations to further enhance the applicability and efficiency of our approach in complex vision tasks.
en
Weitere Information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers