Real-Time Multi-Object Tracking under Resource Constraints

Bernhart, Costin

doi:10.34726/hss.2025.130802

DC Field

Value

Language

dc.contributor.advisor

Kampel, Martin

dc.contributor.author

Bernhart, Costin

dc.date.accessioned

2026-01-16T11:56:09Z

dc.date.issued

2025

dc.date.submitted

2025-12

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Bernhart, C. (2025). <i>Real-Time Multi-Object Tracking under Resource Constraints</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130802</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.130802

dc.identifier.uri

http://hdl.handle.net/20.500.12708/224661

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Multi-Object Tracking (MOT) gewinnt zunehmend an Bedeutung in Edge-Szenarien, in denen Datenschutz, Latenz und eingeschränkte Konnektivität den Einsatz Cloud-basierter Lösungen einschränken. Die lokale Ausführung von Echtzeit-MOT ermöglicht reaktives und autonomes Verhalten in sensiblen Bereichen wie Mobilität und Assistenztechnologien. Die begrenzten Rechenressourcen auf Edge-Hardware stellen jedoch eine Herausforderung für den Einsatz größerer Modelle dar. Diese Diplomarbeit untersucht Echtzeit-MOT unter hardwareseitigen Ressourcenbeschränkungen, mit Fokus auf den Kompromiss zwischen Genauigkeit, Latenz und Rechenkapazität über drei Hardwareebenen: Smartphone, Embedded-GPU und Desktop-GPU. Eine strukturierte Analyse von Detektion- und Trackingarchitekturen beschreibt die Entwicklung der You Only Look Once (YOLO)-Serie sowie Tracker wie SORT, ByteTrack und BoT-SORT. Ein neuartiger Objektdetektor, YOLOv1210, wird vorgestellt, der Attention-zentrierte Komponenten mit einem NMS-freien Detection-Head kombiniert, um die Genauigkeit zu erhöhen und die Latenz zu minimieren. Zwei domänenspezifische Datensätze werden vorgestellt, um Suchszenarien nach konkreten Objekten zu simulieren. Die Experimente zeigen, dass CNN-basierte Detektoren wie YOLOv11 auf ressourcenbeschränkten Geräten leistungsfähiger sind als Attention-basierte Modelle. Beispielsweise erreicht YOLOv11-s auf einem Smartphone eine Genauigkeit von 68,04 % mean Average Precision (mAP) bei 12 Frames Per Second (FPS), während YOLOv12-s eine vergleichbare Genauigkeit von 67,32 % mAP, jedoch lediglich 2 FPS erzielt. Unter den Trackern bietet ByteTrack das beste Verhältnis zwischen Geschwindigkeit und Genauigkeit. End-to-End MOT Pipelines wurden unter Latenzanforderungen von 5 bis 30 FPS evaluiert. Die Ergebnisse zeigen, dass sowohl die Bildrate als auch die Detektorleistung die Tracking-Stabilitätbeeinflussen. Die höchste Erkennungsgenauigkeit wurde mit YOLOv11-x in Kombination mit BoT-SORT auf einer Desktop-Graphics Processing Unit (GPU) erzielt. Eine vergleichbare Leistung konnte auf einem Jetson Orin Nano durch den Einsatz der kompakten YOLOv10-s Variante in Verbindung mit ByteTrack erreicht werden. Beide Systeme erreichten dabei eine Laufzeitgeschwindigkeit von mindestens 30 FPS. Auf einem Smartphone ist Echtzeitverarbeitung durch sorgfältige Auswahl der Architektur ebenfalls möglich, jedoch mit einem messbaren Rückgang der Tracking-Genauigkeit.

dc.description.abstract

Multi-Object Tracking (MOT) is increasingly relevant in edge scenarios where privacy, latency and connectivity constraints limit the use of cloud-based solutions. Real-time MOT deployed locally enables responsive and autonomous behaviour in sensitive domains such as mobility and assistive technology. However, constrained computational resources on edge hardware challenge the deployment of deeper models. This diploma thesis investigates real-time MOT under resource constraints, focusing on the trade-off between accuracy, latency and available computational resources across three hardware tiers: smartphone, embedded GPU and desktop GPU. A structured review of detection and tracking architectures highlights the evolution of the You Only Look Once (YOLO) series and trackers, including SORT, ByteTrack and BoT-SORT. A novel object detector, YOLOv1210, is proposed, integrating attention-centric components with an NMS-free detection head to increase accuracy and reduce latency. Two domain-specific datasets are introduced to simulate search scenarios involving the localisation of target objects. Experimental results demonstrate that convolution-based object detectors, such as YOLOv11, consistently outperform attention-based models when deployed on resource-limited devices. For instance, YOLOv11-s achieves 68.04% mAP at 12 Frames Per Second (FPS) on a commercial smartphone, whereas YOLOv12-s yields comparable accuracy of 67.32% mAP but operates at only 2 FPS. In the context of object tracking, ByteTrack provides the most favourable balance between speed and robustness. End-to-end MOT pipelines were benchmarked under latency constraints ranging from 5 to 30 FPS. Results indicate that both frame rate and detector accuracy influence tracking stability, with higher frame rates generally contributing more to consistent tracking than improvements in detector accuracy. The highest accuracy was observed on a desktop GPU using YOLOv11-x with BoT-SORT, followed closely by the Jetson Orin Nano using a compact YOLOv10-s variant with ByteTrack, both of which sustained at least 30 FPS. Real-time performance remains feasible on smartphones through careful architectural selection, although tracking accuracy declines.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Multi-Objekt-Tracking

dc.subject

Objekterkennung

dc.subject

Echtzeit

dc.subject

Edge Computing

dc.subject

Ressourcenbeschränkte Geräte

dc.subject

YOLO

dc.subject

Justizvollzugsanstalten

dc.subject

KI im Strafvollzug

dc.subject

Haftraum-Durchsuchung

dc.subject

multi-object tracking

dc.subject

object detection

dc.subject

real-time

dc.subject

edge computing

dc.subject

resource-constrained devices

dc.subject

YOLO

dc.subject

correctional settings

dc.subject

ai in prisons

dc.subject

detention room inspection

dc.title

Real-Time Multi-Object Tracking under Resource Constraints

dc.title.alternative

Echtzeit-Tracking mehrerer Objekte unter Ressourcenbeschränkungen

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.130802

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Costin Bernhart

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17749706

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-5217-2854

item.cerifentitytype

Publications

item.openaccessfulltext

Open Access

item.languageiso639-1

item.fulltext

with Fulltext

item.openairetype

master thesis

item.grantfulltext

open

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

crisitem.author.dept

E193-01 - Forschungsbereich Computer Vision

crisitem.author.parentorg

E193 - Institut für Visual Computing and Human-Centered Technology

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(3.16 MB)

In Copyright

Show simple item record

Page view(s)

checked on Jan 16, 2026

Download(s)

checked on Jan 16, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM