<div class="csl-bib-body">
<div class="csl-entry">Crnogorac, N. (2025). <i>Efficient annotation system of flexible and transparent objects</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.119701</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.119701
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/213797
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Die präzise Segmentierung und Korrespondenzschätzung von den transparenten und deformierbaren Objekten stellt eine grundlegende Herausforderung in der Computer Vision dar, da ihre komplexen physikalischen Eigenschaften, einschließlich uneindeutiger Tiefenwahrnehmung, spiegelnder Reflexionen und dynamischer Formveränderungen,herkömmliche Methoden vor erhebliche Schwierigkeiten stellen, insbesondere in Multi View-Szenarien. Um diese Einschränkungen zu überwinden, stellen wir ein mehrstufiges Segmentierungs- und Korrespondenzschätzungs-Framework vor, das einen promptbasierten Segmentierungsalgorithmus zur Erzeugung von Masken auf Einzelbildebene mit zwei komplementären Methoden zur Masken-Korrespondenzschätzung kombiniert: eine nutzt Tiefeninformationen, während die andere ausschließlich auf geometrischen Randbedingungen basiert und unabhängig von Tiefendaten arbeitet.Die tiefenbasierte Methode verwendet 3D-Informationen zur Bestimmung von Korrespondenzen zwischen segmentierten Masken aus mehreren Blickwinkeln der Camera und gewährleistet dadurch eine verbesserte räumliche Konsistenz in strukturierten Umgebungen. Im Gegensatz dazu setzt der tiefenunabhängige Ansatz auf einen RayTracing-Algorithmus, bei dem Maskenprojektionen durch 3D-Strahlenrückprojektion analysiert werden, um eine optimale Korrespondenzschätzung auf Basis von Schnittmengen zu ermöglichen. Dieser Ansatz umgeht Herausforderungen, die mit unzuverlässigen oder fehlenden Tiefendaten einhergehen, indem die räumlichen Beziehungen zwischen Objektmasken direkt modelliert werden. Dadurch ist eine robuste Zuordnung selbst bei komplexen, texturlosen oder reflektierenden Oberflächen möglich. Die Flexibilität unseres Verfahrens erlaubt die Anwendung auf beliebige vorsegmentierte Maskensätze,unabhängig davon, ob sie durch unseren promptbasierten Algorithmus oder durch eine externe automatische Segmentierungspipeline wie das Segment Anything Model (SAM) generiert wurden.Experimentelle Ergebnisse zeigen, dass unser hybrides Framework die Segmentierungsrobustheit und Anpassungsfähigkeit in verschiedenen realen Szenarien verbessert und eine Brücke zwischen datengetriebenen und geometriebasierten Segmentierungsmethoden schlägt. Darüber hinaus untersuchen wir Optimierungstechniken zur weiteren Verfeinerung der Genauigkeit der Maskenkorrespondenzen. Abschließend diskutieren wir potenzielle zukünftige Forschungsrichtungen, einschließlich der Integration lernbasierter Verfeinerungen, der Verbesserung der zeitlichen Konsistenz sowie der rechnerischen Optimierung, um die Anwendbarkeit und Effizienz unseres Ansatzes für komplexe Aufgabenin der Computer Vision weiter zu steigern.
de
dc.description.abstract
The accurate segmentation and correspondence estimation of semi-transparent and deformable objects present fundamental challenges in computer vision due to their complex physical properties, including ambiguous depth perception, specular reflections,and dynamic shape variations. Traditional segmentation methods often struggle to handle these intricacies effectively, particularly in multi-view scenarios. To address these limitations, we introduce a multi-level segmentation and correspondence estimation framework that integrates a prompt-based segmentation algorithm for generating perimage masks and two complementary mask-to-mask correspondence estimation methods,one leveraging depth information and the other relying purely on geometric constraints,independent of depth.The depth-aware method utilizes 3D information to establish correspondences between segmented masks across multiple views, ensuring improved spatial consistency in structured environments. In contrast, the depth-independent approach employs a ray-tracing algorithm, where in mask projections are analysed through 3D ray back-projection to optimize intersection-based correspondence estimation. This method circumvents challenges associated with unreliable or missing depth data by directly modelling spatial relationships between object masks, allowing for robust matching even in complex, textureless,or reflective surfaces. The flexibility of our approach enables its application to any set of pre-segmented masks, whether derived from our prompting algorithm or an externalautomatic segmentation pipeline such as SAM (Segment Anything Model).Experimental results demonstrate that our hybrid framework enhances segmentation robustness and adaptability across diverse real-world scenarios, bridging the gap between data-driven and geometry-based segmentation methodologies. Additionally, we explore the optimization techniques for further refinement of the accuracy of mask correspondences.Finally, we discuss potential avenues for future research, including the integration of learning-based refinements, improvements in temporal consistency, and computational optimizations to further enhance the applicability and efficiency of our approach in complex vision tasks.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Bildverarbeitung
de
dc.subject
transparente Objekte
de
dc.subject
computer vision
en
dc.subject
transparent objects
en
dc.title
Efficient annotation system of flexible and transparent objects
en
dc.title.alternative
Effizientes Annotatierungssystem für flexible und transparente Objecte
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.119701
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Nikolina Crnogorac
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Weibel, Jean-Baptiste Nicolas
-
tuw.publication.orgunit
E376 - Institut für Automatisierungs- und Regelungstechnik
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17484882
-
dc.description.numberOfPages
97
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.assistant.orcid
0000-0003-0201-4740
-
item.languageiso639-1
en
-
item.grantfulltext
open
-
item.openairetype
master thesis
-
item.openaccessfulltext
Open Access
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.cerifentitytype
Publications
-
item.fulltext
with Fulltext
-
crisitem.author.dept
E193 - Institut für Visual Computing and Human-Centered Technology