<div class="csl-bib-body">
<div class="csl-entry">Schuster, S. (2025). <i>Simultaneous Detection and Segmentation of Different Objects</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.117511</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.117511
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/220536
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Objekterkennung und Bildsegmentierung sind zunehmend essenzielle, jedoch rechenintensive Computervision Aufgaben, besonders in den Bereichen Edge Computing und Embedded Devices. Herkömm- liche Systeme nutzen meist separate, für eine Aufgabe konzipierte Netzwerke, was zu redundanten Berechnungen sowie erhöhtem Ressourcenaufwand führt und so den Einsatz auf Embedded Devices erschwert. Diese Arbeit untersucht die Machbarkeit von drei Strategien zur gemeinsamen Nutzung des Encoders, um Redundanz im System zu reduzieren und quantifiziert deren Einfluss auf Performance sowie Ressourcenverbrauch: • Encoder Swapping: Ein Netzwerk wird für eine Aufgabe trainiert, dessen Encoder dann einge- froren und für eine andere Aufgabe eingesetzt. • Encoder Sharing: Ein eingefrorener, zuvor aufgabenunabhängig trainierter Encoder wird für beide Aufgaben verwendet. • Dual-Head: Gemeinsames Training eines einzelnen Encoders mit separaten Objekterkennungs- und Segmentierungsköpfen. Vier Backbones (ResNet18, MobileNetV3-Large, EfficientNetV2-S, DenseNet121) wurden auf einem 20- Klassen COCO Subset evaluiert. Dual-Head-Modelle performten stets besser als andere Trainingsmeth- oden sowie Single-Task-Baselines, mit Verbesserungen von bis zu 17% mAP und 10% mIoU bei re- duzierter Parameterzahl von etwa 45%. Erlaubt man begrenzte Anpassung der eingefrorenen Encoder mittels Bias-Adaption, kann der Performanceverlust um bis zu 21 Prozentpunkte reduziert werden. In- ferenztests auf einem NVIDIA Jetson AGX Orin bestätigen, dass Dual-Head-Modelle schneller auszuführbar sind als eine sequenzielle Verarbeitung durch entsprechende Single-Task-Modelle. Die Ergebnisse zeigen, dass gemeinsam genutzte Encoder mit minimaler aufgabenspezifischer Anpassung oder gemeinsamer Optimierung sowohl Effizienz als auch höhere Leistung in Multi-Task-Vision-Anwendungen liefern können, wobei Bias-Adaption eine Alternative darstellt, wenn gemeinsames Training nicht praktikabel oder möglich ist.
de
dc.description.abstract
Object detection and image segmentation are increasingly essential, yet computationally intensive tasks in the field of computer vision, particularly in the domains of edge computing and embedded systems. Traditional approaches employ separate, specialized networks for each task, thereby introducing com- putational redundancy and resource consumption, posing a challenge for real-life deployment on em- bedded devices. This thesis investigates the feasibility of three shared encoder strategies to reduce redundancy and quantifies their impact on predictive performance as well as resource consumption: • Encoder Swapping: Training a network for a single task before freezing and transferring its encoder to another task. • Encoder Sharing: Using a task-agnostic, frozen pretrained backbone for both tasks. • Dual-Head: Jointly training a single encoder with separate detection and segmentation heads. Four backbones (ResNet18, MobileNetV3-Large, EfficientNetV2-S, DenseNet121) were evaluated on a 20-class COCO subset. Dual-head models consistently outperformed other training approaches as well as single-task baselines, yielding performance uplifts of up to 17% mAP and 10% mIoU while reducing overall parameter count by about 45%. Allowing limited adaptation in frozen encoders by unfreezing the bias terms recovered up to 21 percentage points of performance loss. Embedded inference testing on an NVIDIA Jetson AGX Orin confirmed that dual-head models achieve faster joint execution than sequential single-task runs. The results demonstrate that shared encoders with minimal task-specific adaptation or joint optimization can deliver both efficiency and enhanced performance for multi-task vision applications, with bias adaptation offering an alternative when multi-task training is not feasible or possible.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Object Detection
en
dc.subject
Segmentation
en
dc.subject
Shared Encoder
en
dc.subject
Embedded Machine Learning
en
dc.subject
CNN
en
dc.subject
COCO
en
dc.title
Simultaneous Detection and Segmentation of Different Objects
en
dc.title.alternative
Gleichzeitiges Detektieren und Segmentieren von verschiedenen Objekten