<div class="csl-bib-body">
<div class="csl-entry">Bernhart, C. (2025). <i>Real-Time Multi-Object Tracking under Resource Constraints</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130802</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.130802
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/224661
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Multi-Object Tracking (MOT) gewinnt zunehmend an Bedeutung in Edge-Szenarien, in denen Datenschutz, Latenz und eingeschränkte Konnektivität den Einsatz Cloud-basierter Lösungen einschränken. Die lokale Ausführung von Echtzeit-MOT ermöglicht reaktives und autonomes Verhalten in sensiblen Bereichen wie Mobilität und Assistenztechnologien. Die begrenzten Rechenressourcen auf Edge-Hardware stellen jedoch eine Herausforderung für den Einsatz größerer Modelle dar. Diese Diplomarbeit untersucht Echtzeit-MOT unter hardwareseitigen Ressourcenbeschränkungen, mit Fokus auf den Kompromiss zwischen Genauigkeit, Latenz und Rechenkapazität über drei Hardwareebenen: Smartphone, Embedded-GPU und Desktop-GPU. Eine strukturierte Analyse von Detektion- und Trackingarchitekturen beschreibt die Entwicklung der You Only Look Once (YOLO)-Serie sowie Tracker wie SORT, ByteTrack und BoT-SORT. Ein neuartiger Objektdetektor, YOLOv1210, wird vorgestellt, der Attention-zentrierte Komponenten mit einem NMS-freien Detection-Head kombiniert, um die Genauigkeit zu erhöhen und die Latenz zu minimieren. Zwei domänenspezifische Datensätze werden vorgestellt, um Suchszenarien nach konkreten Objekten zu simulieren. Die Experimente zeigen, dass CNN-basierte Detektoren wie YOLOv11 auf ressourcenbeschränkten Geräten leistungsfähiger sind als Attention-basierte Modelle. Beispielsweise erreicht YOLOv11-s auf einem Smartphone eine Genauigkeit von 68,04 % mean Average Precision (mAP) bei 12 Frames Per Second (FPS), während YOLOv12-s eine vergleichbare Genauigkeit von 67,32 % mAP, jedoch lediglich 2 FPS erzielt. Unter den Trackern bietet ByteTrack das beste Verhältnis zwischen Geschwindigkeit und Genauigkeit. End-to-End MOT Pipelines wurden unter Latenzanforderungen von 5 bis 30 FPS evaluiert. Die Ergebnisse zeigen, dass sowohl die Bildrate als auch die Detektorleistung die Tracking-Stabilitätbeeinflussen. Die höchste Erkennungsgenauigkeit wurde mit YOLOv11-x in Kombination mit BoT-SORT auf einer Desktop-Graphics Processing Unit (GPU) erzielt. Eine vergleichbare Leistung konnte auf einem Jetson Orin Nano durch den Einsatz der kompakten YOLOv10-s Variante in Verbindung mit ByteTrack erreicht werden. Beide Systeme erreichten dabei eine Laufzeitgeschwindigkeit von mindestens 30 FPS. Auf einem Smartphone ist Echtzeitverarbeitung durch sorgfältige Auswahl der Architektur ebenfalls möglich, jedoch mit einem messbaren Rückgang der Tracking-Genauigkeit.
de
dc.description.abstract
Multi-Object Tracking (MOT) is increasingly relevant in edge scenarios where privacy, latency and connectivity constraints limit the use of cloud-based solutions. Real-time MOT deployed locally enables responsive and autonomous behaviour in sensitive domains such as mobility and assistive technology. However, constrained computational resources on edge hardware challenge the deployment of deeper models. This diploma thesis investigates real-time MOT under resource constraints, focusing on the trade-off between accuracy, latency and available computational resources across three hardware tiers: smartphone, embedded GPU and desktop GPU. A structured review of detection and tracking architectures highlights the evolution of the You Only Look Once (YOLO) series and trackers, including SORT, ByteTrack and BoT-SORT. A novel object detector, YOLOv1210, is proposed, integrating attention-centric components with an NMS-free detection head to increase accuracy and reduce latency. Two domain-specific datasets are introduced to simulate search scenarios involving the localisation of target objects. Experimental results demonstrate that convolution-based object detectors, such as YOLOv11, consistently outperform attention-based models when deployed on resource-limited devices. For instance, YOLOv11-s achieves 68.04% mAP at 12 Frames Per Second (FPS) on a commercial smartphone, whereas YOLOv12-s yields comparable accuracy of 67.32% mAP but operates at only 2 FPS. In the context of object tracking, ByteTrack provides the most favourable balance between speed and robustness. End-to-end MOT pipelines were benchmarked under latency constraints ranging from 5 to 30 FPS. Results indicate that both frame rate and detector accuracy influence tracking stability, with higher frame rates generally contributing more to consistent tracking than improvements in detector accuracy. The highest accuracy was observed on a desktop GPU using YOLOv11-x with BoT-SORT, followed closely by the Jetson Orin Nano using a compact YOLOv10-s variant with ByteTrack, both of which sustained at least 30 FPS. Real-time performance remains feasible on smartphones through careful architectural selection, although tracking accuracy declines.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Multi-Objekt-Tracking
de
dc.subject
Objekterkennung
de
dc.subject
Echtzeit
de
dc.subject
Edge Computing
de
dc.subject
Ressourcenbeschränkte Geräte
de
dc.subject
YOLO
de
dc.subject
Justizvollzugsanstalten
de
dc.subject
KI im Strafvollzug
de
dc.subject
Haftraum-Durchsuchung
de
dc.subject
multi-object tracking
en
dc.subject
object detection
en
dc.subject
real-time
en
dc.subject
edge computing
en
dc.subject
resource-constrained devices
en
dc.subject
YOLO
en
dc.subject
correctional settings
en
dc.subject
ai in prisons
en
dc.subject
detention room inspection
en
dc.title
Real-Time Multi-Object Tracking under Resource Constraints
en
dc.title.alternative
Echtzeit-Tracking mehrerer Objekte unter Ressourcenbeschränkungen
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.130802
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Costin Bernhart
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17749706
-
dc.description.numberOfPages
96
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-5217-2854
-
item.cerifentitytype
Publications
-
item.openaccessfulltext
Open Access
-
item.languageiso639-1
en
-
item.fulltext
with Fulltext
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
crisitem.author.dept
E193-01 - Forschungsbereich Computer Vision
-
crisitem.author.parentorg
E193 - Institut für Visual Computing and Human-Centered Technology