Efficient annotation system of flexible and transparent objects

Crnogorac, Nikolina

doi:10.34726/hss.2025.119701

DC Field

Value

Language

dc.contributor.advisor

Vincze, Markus

dc.contributor.author

Crnogorac, Nikolina

dc.date.accessioned

2025-04-08T10:09:44Z

dc.date.issued

2025

dc.date.submitted

2025-03

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Crnogorac, N. (2025). <i>Efficient annotation system of flexible and transparent objects</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.119701</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.119701

dc.identifier.uri

http://hdl.handle.net/20.500.12708/213797

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Die präzise Segmentierung und Korrespondenzschätzung von den transparenten und deformierbaren Objekten stellt eine grundlegende Herausforderung in der Computer Vision dar, da ihre komplexen physikalischen Eigenschaften, einschließlich uneindeutiger Tiefenwahrnehmung, spiegelnder Reflexionen und dynamischer Formveränderungen,herkömmliche Methoden vor erhebliche Schwierigkeiten stellen, insbesondere in Multi View-Szenarien. Um diese Einschränkungen zu überwinden, stellen wir ein mehrstufiges Segmentierungs- und Korrespondenzschätzungs-Framework vor, das einen promptbasierten Segmentierungsalgorithmus zur Erzeugung von Masken auf Einzelbildebene mit zwei komplementären Methoden zur Masken-Korrespondenzschätzung kombiniert: eine nutzt Tiefeninformationen, während die andere ausschließlich auf geometrischen Randbedingungen basiert und unabhängig von Tiefendaten arbeitet.Die tiefenbasierte Methode verwendet 3D-Informationen zur Bestimmung von Korrespondenzen zwischen segmentierten Masken aus mehreren Blickwinkeln der Camera und gewährleistet dadurch eine verbesserte räumliche Konsistenz in strukturierten Umgebungen. Im Gegensatz dazu setzt der tiefenunabhängige Ansatz auf einen RayTracing-Algorithmus, bei dem Maskenprojektionen durch 3D-Strahlenrückprojektion analysiert werden, um eine optimale Korrespondenzschätzung auf Basis von Schnittmengen zu ermöglichen. Dieser Ansatz umgeht Herausforderungen, die mit unzuverlässigen oder fehlenden Tiefendaten einhergehen, indem die räumlichen Beziehungen zwischen Objektmasken direkt modelliert werden. Dadurch ist eine robuste Zuordnung selbst bei komplexen, texturlosen oder reflektierenden Oberflächen möglich. Die Flexibilität unseres Verfahrens erlaubt die Anwendung auf beliebige vorsegmentierte Maskensätze,unabhängig davon, ob sie durch unseren promptbasierten Algorithmus oder durch eine externe automatische Segmentierungspipeline wie das Segment Anything Model (SAM) generiert wurden.Experimentelle Ergebnisse zeigen, dass unser hybrides Framework die Segmentierungsrobustheit und Anpassungsfähigkeit in verschiedenen realen Szenarien verbessert und eine Brücke zwischen datengetriebenen und geometriebasierten Segmentierungsmethoden schlägt. Darüber hinaus untersuchen wir Optimierungstechniken zur weiteren Verfeinerung der Genauigkeit der Maskenkorrespondenzen. Abschließend diskutieren wir potenzielle zukünftige Forschungsrichtungen, einschließlich der Integration lernbasierter Verfeinerungen, der Verbesserung der zeitlichen Konsistenz sowie der rechnerischen Optimierung, um die Anwendbarkeit und Effizienz unseres Ansatzes für komplexe Aufgabenin der Computer Vision weiter zu steigern.

dc.description.abstract

The accurate segmentation and correspondence estimation of semi-transparent and deformable objects present fundamental challenges in computer vision due to their complex physical properties, including ambiguous depth perception, specular reflections,and dynamic shape variations. Traditional segmentation methods often struggle to handle these intricacies effectively, particularly in multi-view scenarios. To address these limitations, we introduce a multi-level segmentation and correspondence estimation framework that integrates a prompt-based segmentation algorithm for generating perimage masks and two complementary mask-to-mask correspondence estimation methods,one leveraging depth information and the other relying purely on geometric constraints,independent of depth.The depth-aware method utilizes 3D information to establish correspondences between segmented masks across multiple views, ensuring improved spatial consistency in structured environments. In contrast, the depth-independent approach employs a ray-tracing algorithm, where in mask projections are analysed through 3D ray back-projection to optimize intersection-based correspondence estimation. This method circumvents challenges associated with unreliable or missing depth data by directly modelling spatial relationships between object masks, allowing for robust matching even in complex, textureless,or reflective surfaces. The flexibility of our approach enables its application to any set of pre-segmented masks, whether derived from our prompting algorithm or an externalautomatic segmentation pipeline such as SAM (Segment Anything Model).Experimental results demonstrate that our hybrid framework enhances segmentation robustness and adaptability across diverse real-world scenarios, bridging the gap between data-driven and geometry-based segmentation methodologies. Additionally, we explore the optimization techniques for further refinement of the accuracy of mask correspondences.Finally, we discuss potential avenues for future research, including the integration of learning-based refinements, improvements in temporal consistency, and computational optimizations to further enhance the applicability and efficiency of our approach in complex vision tasks.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Bildverarbeitung

dc.subject

transparente Objekte

dc.subject

computer vision

dc.subject

transparent objects

dc.title

Efficient annotation system of flexible and transparent objects

dc.title.alternative

Effizientes Annotatierungssystem für flexible und transparente Objecte

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.119701

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Nikolina Crnogorac

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Weibel, Jean-Baptiste Nicolas

tuw.publication.orgunit

E376 - Institut für Automatisierungs- und Regelungstechnik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17484882

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.assistant.orcid

0000-0003-0201-4740

item.languageiso639-1

item.grantfulltext

open

item.openairetype

master thesis

item.openaccessfulltext

Open Access

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.cerifentitytype

Publications

item.fulltext

with Fulltext

crisitem.author.dept

E193 - Institut für Visual Computing and Human-Centered Technology

crisitem.author.parentorg

E180 - Fakultät für Informatik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(5.55 MB)

In Copyright

Show simple item record

Page view(s)

187

checked on Apr 8, 2025

Download(s)

195

checked on Apr 8, 2025

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM