<div class="csl-bib-body">
<div class="csl-entry">Miesbauer, M. (2025). <i>Few Shot Semantic Segmentation on the Fly: Using Low-Rank Adaptation in Visual Foundation Models</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.128224</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.128224
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/216245
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Few-Shot Semantic Segmentation (FSS) ist eine Aufgabe in der Computervision, bei der neue Objektklassen mit nur wenigen Beispielen segmentiert werden. Dabei wird jeder Pixel als Vorder- oder Hintergrund markiert. Diese herausfordernde, aber entscheidende Aufgabe ist besonders in Bereichen interessant, in denen keine großen Datensätze zur Verfügung stehen. Diese Diplomarbeit untersucht den Einsatz von Low-Rank Adaptation (LoRA), einer Technik aus Sprachmodellen, um große Visual Foundation Models (VFMs), insbesondere DINOv2, an eine neue Klasse anzupassen.Wir implementieren eine FSS-Pipeline, in der ein binärer Segmentierer mit den segmentierten Beispielen trainiert wird. Dabei werden Matrizen mit niedrigem Rang in ausgewählte Schichten von DINOv2 injiziert und trainiert, anstatt die bestehenden Parameter von DINOv2 zu verändern. Für die Segmentierung verwenden wir eine einfache lineare Abbildung.Wir führen Experimente auf drei etablierten FSS Benchmarks, PASCAL-5i, COCO-20i und FSS-1000, durch und analysieren sowohl quantitative Metriken, wie mIoU und FB-IoU, als auch die qualitative Segmentierungsqualität. Die Ergebnisse zeigen, dass wir viele bestehende Modelle, insbesondere hinsichtlich der Generalisierungsfähigkeit übertreffen konnten. Zwar konnten wir nicht alle State-of-the-Art-Modelle schlagen, aber insbesondere beim Benchmark FSS-1000 sind wir sehr nahe gekommen. Eine Ablationsstudie zeigt, dass nur wenige Transformationen mit LoRA-Matrizen vom Rang 2 angepasst werden müssen, um die besten Ergebnisse zu erzielen. Diese Arbeit zeigt, dass LoRA eine effektive Strategie ist, um VFMs an neue Segmentierungsaufgaben anzupassen und somit Few-Shot Learning auch in ressourcenbeschränkten Umgebungen zu ermöglichen.
de
dc.description.abstract
Few-Shot Semantic Segmentation (FSS) aims to segment novel object classes using only a handful of labeled examples, a challenging yet critical task in domains where large-scale annotated datasets are unavailable. This thesis explores the application of Low-Rank Adaptation (LoRA) to enable efficient FSS using large-scale Visual Foundation Models (VFMs), in particular DINOv2.We propose an FSS pipeline in which a binary segmenter is trained using the labeled examples. We inject trainable low-rank matrices into selected layers of DINOv2 and train these layers instead of the existing parameters. We use a simple linear pixel-wise classification head.We perform extensive experiments on three established FSS benchmarks, PASCAL-5i, COCO-20i and FSS-1000, evaluating the quantitative metrics mIoU and FB-IoU, as well as the qualitative segmentation performance. Our results outperform many existing models, particularly in terms of generalization, although we did not outperform all state-of-the-art models, but came close in the FSS-1000 benchmark.We present an ablation study which shows that only a few transformations need to be adapted using rank 2 low-rank matrices to achieve the best results. This work demonstrates that LoRA provides an effective strategy for adapting VFMs to new segmentation tasks, enabling easy few-shot learning in resource-constrained environments.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Few-Shot Learning
en
dc.subject
Semantic Segmentation
en
dc.subject
Low-Rank Adaptation
en
dc.subject
Visual Foundation Models
en
dc.subject
Computer Vision
en
dc.subject
DINOv2
en
dc.subject
Fine-Tuning
en
dc.title
Few Shot Semantic Segmentation on the Fly: Using Low-Rank Adaptation in Visual Foundation Models
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.128224
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Martin Miesbauer
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17562738
-
dc.description.numberOfPages
67
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
exstaff
-
item.openaccessfulltext
Open Access
-
item.grantfulltext
open
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
crisitem.author.dept
E104 - Institut für Diskrete Mathematik und Geometrie