Miesbauer, M. (2025). Few Shot Semantic Segmentation on the Fly: Using Low-Rank Adaptation in Visual Foundation Models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.128224
Few-Shot Semantic Segmentation (FSS) ist eine Aufgabe in der Computervision, bei der neue Objektklassen mit nur wenigen Beispielen segmentiert werden. Dabei wird jeder Pixel als Vorder- oder Hintergrund markiert. Diese herausfordernde, aber entscheidende Aufgabe ist besonders in Bereichen interessant, in denen keine großen Datensätze zur Verfügung stehen. Diese Diplomarbeit untersucht den Einsatz von Low-Rank Adaptation (LoRA), einer Technik aus Sprachmodellen, um große Visual Foundation Models (VFMs), insbesondere DINOv2, an eine neue Klasse anzupassen.Wir implementieren eine FSS-Pipeline, in der ein binärer Segmentierer mit den segmentierten Beispielen trainiert wird. Dabei werden Matrizen mit niedrigem Rang in ausgewählte Schichten von DINOv2 injiziert und trainiert, anstatt die bestehenden Parameter von DINOv2 zu verändern. Für die Segmentierung verwenden wir eine einfache lineare Abbildung.Wir führen Experimente auf drei etablierten FSS Benchmarks, PASCAL-5i, COCO-20i und FSS-1000, durch und analysieren sowohl quantitative Metriken, wie mIoU und FB-IoU, als auch die qualitative Segmentierungsqualität. Die Ergebnisse zeigen, dass wir viele bestehende Modelle, insbesondere hinsichtlich der Generalisierungsfähigkeit übertreffen konnten. Zwar konnten wir nicht alle State-of-the-Art-Modelle schlagen, aber insbesondere beim Benchmark FSS-1000 sind wir sehr nahe gekommen. Eine Ablationsstudie zeigt, dass nur wenige Transformationen mit LoRA-Matrizen vom Rang 2 angepasst werden müssen, um die besten Ergebnisse zu erzielen. Diese Arbeit zeigt, dass LoRA eine effektive Strategie ist, um VFMs an neue Segmentierungsaufgaben anzupassen und somit Few-Shot Learning auch in ressourcenbeschränkten Umgebungen zu ermöglichen.
de
Few-Shot Semantic Segmentation (FSS) aims to segment novel object classes using only a handful of labeled examples, a challenging yet critical task in domains where large-scale annotated datasets are unavailable. This thesis explores the application of Low-Rank Adaptation (LoRA) to enable efficient FSS using large-scale Visual Foundation Models (VFMs), in particular DINOv2.We propose an FSS pipeline in which a binary segmenter is trained using the labeled examples. We inject trainable low-rank matrices into selected layers of DINOv2 and train these layers instead of the existing parameters. We use a simple linear pixel-wise classification head.We perform extensive experiments on three established FSS benchmarks, PASCAL-5i, COCO-20i and FSS-1000, evaluating the quantitative metrics mIoU and FB-IoU, as well as the qualitative segmentation performance. Our results outperform many existing models, particularly in terms of generalization, although we did not outperform all state-of-the-art models, but came close in the FSS-1000 benchmark.We present an ablation study which shows that only a few transformations need to be adapted using rank 2 low-rank matrices to achieve the best results. This work demonstrates that LoRA provides an effective strategy for adapting VFMs to new segmentation tasks, enabling easy few-shot learning in resource-constrained environments.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers