Few shot semantic segmentation on the fly : using low-rank adaptation in visual foundation models

Miesbauer, Martin

doi:10.34726/hss.2025.128224

DC Field

Value

Language

dc.contributor.advisor

Hermosilla Casajus, Pedro

dc.contributor.author

Miesbauer, Martin

dc.date.accessioned

2025-06-20T06:02:54Z

dc.date.issued

2025

dc.date.submitted

2025-05

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Miesbauer, M. (2025). <i>Few shot semantic segmentation on the fly : using low-rank adaptation in visual foundation models</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.128224</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.128224

dc.identifier.uri

http://hdl.handle.net/20.500.12708/216245

dc.description.abstract

Few-Shot Semantic Segmentation (FSS) aims to segment novel object classes using only a handful of labeled examples, a challenging yet critical task in domains where large-scale annotated datasets are unavailable. This thesis explores the application of Low-Rank Adaptation (LoRA) to enable efficient FSS using large-scale Visual Foundation Models (VFMs), in particular DINOv2.We propose an FSS pipeline in which a binary segmenter is trained using the labeled examples. We inject trainable low-rank matrices into selected layers of DINOv2 and train these layers instead of the existing parameters. We use a simple linear pixel-wise classification head.We perform extensive experiments on three established FSS benchmarks, PASCAL-5i, COCO-20i and FSS-1000, evaluating the quantitative metrics mIoU and FB-IoU, as well as the qualitative segmentation performance. Our results outperform many existing models, particularly in terms of generalization, although we did not outperform all state-of-the-art models, but came close in the FSS-1000 benchmark.We present an ablation study which shows that only a few transformations need to be adapted using rank 2 low-rank matrices to achieve the best results. This work demonstrates that LoRA provides an effective strategy for adapting VFMs to new segmentation tasks, enabling easy few-shot learning in resource-constrained environments.

dc.description.abstract

Few-Shot Semantic Segmentation (FSS) ist eine Aufgabe in der Computervision, bei der neue Objektklassen mit nur wenigen Beispielen segmentiert werden. Dabei wird jeder Pixel als Vorder- oder Hintergrund markiert. Diese herausfordernde, aber entscheidende Aufgabe ist besonders in Bereichen interessant, in denen keine großen Datensätze zur Verfügung stehen. Diese Diplomarbeit untersucht den Einsatz von Low-Rank Adaptation (LoRA), einer Technik aus Sprachmodellen, um große Visual Foundation Models (VFMs), insbesondere DINOv2, an eine neue Klasse anzupassen.Wir implementieren eine FSS-Pipeline, in der ein binärer Segmentierer mit den segmentierten Beispielen trainiert wird. Dabei werden Matrizen mit niedrigem Rang in ausgewählte Schichten von DINOv2 injiziert und trainiert, anstatt die bestehenden Parameter von DINOv2 zu verändern. Für die Segmentierung verwenden wir eine einfache lineare Abbildung. Wir führen Experimente auf drei etablierten FSS Benchmarks, PASCAL-5i, COCO-20i und FSS-1000, durch und analysieren sowohl quantitative Metriken, wie mIoU und FB-IoU, als auch die qualitative Segmentierungsqualität. Die Ergebnisse zeigen, dass wir viele bestehende Modelle, insbesondere hinsichtlich der Generalisierungsfähigkeit übertreffen konnten. Zwar konnten wir nicht alle State-of-the-Art-Modelle schlagen, aber insbesondere beim Benchmark FSS-1000 sind wir sehr nahe gekommen. Eine Ablationsstudie zeigt, dass nur wenige Transformationen mit LoRA-Matrizen vom Rang 2 angepasst werden müssen, um die besten Ergebnisse zu erzielen. Diese Arbeit zeigt, dass LoRA eine effektive Strategie ist, um VFMs an neue Segmentierungsaufgaben anzupassen und somit Few-Shot Learning auch in ressourcenbeschränkten Umgebungen zu ermöglichen.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Few-Shot Learning

dc.subject

Semantic Segmentation

dc.subject

Low-Rank Adaptation

dc.subject

Visual Foundation Models

dc.subject

Computer Vision

dc.subject

DINOv2

dc.subject

Fine-Tuning

dc.title

Few shot semantic segmentation on the fly : using low-rank adaptation in visual foundation models

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.128224

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Martin Miesbauer

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17562738

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

exstaff

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.cerifentitytype

Publications

item.openaccessfulltext

Open Access

item.openairetype

master thesis

item.languageiso639-1

item.grantfulltext

open

item.mimetype

application/pdf

item.fulltext

with Fulltext

crisitem.author.dept

E104 - Institut für Diskrete Mathematik und Geometrie

crisitem.author.parentorg

E100 - Fakultät für Mathematik und Geoinformation

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.85 MB)

In Copyright

Show simple item record

Page view(s)

224

checked on Jun 20, 2025

Download(s)

386

checked on Jun 20, 2025

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM