E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2025
-
Number of Pages:
96
-
Keywords:
Multi-Objekt-Tracking; Objekterkennung; Echtzeit; Edge Computing; Ressourcenbeschränkte Geräte; YOLO; Justizvollzugsanstalten; KI im Strafvollzug; Haftraum-Durchsuchung
de
multi-object tracking; object detection; real-time; edge computing; resource-constrained devices; YOLO; correctional settings; ai in prisons; detention room inspection
en
Abstract:
Multi-Object Tracking (MOT) gewinnt zunehmend an Bedeutung in Edge-Szenarien, in denen Datenschutz, Latenz und eingeschränkte Konnektivität den Einsatz Cloud-basierter Lösungen einschränken. Die lokale Ausführung von Echtzeit-MOT ermöglicht reaktives und autonomes Verhalten in sensiblen Bereichen wie Mobilität und Assistenztechnologien. Die begrenzten Rechenressourcen auf Edge-Hardware stellen jedoch eine Herausforderung für den Einsatz größerer Modelle dar. Diese Diplomarbeit untersucht Echtzeit-MOT unter hardwareseitigen Ressourcenbeschränkungen, mit Fokus auf den Kompromiss zwischen Genauigkeit, Latenz und Rechenkapazität über drei Hardwareebenen: Smartphone, Embedded-GPU und Desktop-GPU. Eine strukturierte Analyse von Detektion- und Trackingarchitekturen beschreibt die Entwicklung der You Only Look Once (YOLO)-Serie sowie Tracker wie SORT, ByteTrack und BoT-SORT. Ein neuartiger Objektdetektor, YOLOv1210, wird vorgestellt, der Attention-zentrierte Komponenten mit einem NMS-freien Detection-Head kombiniert, um die Genauigkeit zu erhöhen und die Latenz zu minimieren. Zwei domänenspezifische Datensätze werden vorgestellt, um Suchszenarien nach konkreten Objekten zu simulieren. Die Experimente zeigen, dass CNN-basierte Detektoren wie YOLOv11 auf ressourcenbeschränkten Geräten leistungsfähiger sind als Attention-basierte Modelle. Beispielsweise erreicht YOLOv11-s auf einem Smartphone eine Genauigkeit von 68,04 % mean Average Precision (mAP) bei 12 Frames Per Second (FPS), während YOLOv12-s eine vergleichbare Genauigkeit von 67,32 % mAP, jedoch lediglich 2 FPS erzielt. Unter den Trackern bietet ByteTrack das beste Verhältnis zwischen Geschwindigkeit und Genauigkeit. End-to-End MOT Pipelines wurden unter Latenzanforderungen von 5 bis 30 FPS evaluiert. Die Ergebnisse zeigen, dass sowohl die Bildrate als auch die Detektorleistung die Tracking-Stabilitätbeeinflussen. Die höchste Erkennungsgenauigkeit wurde mit YOLOv11-x in Kombination mit BoT-SORT auf einer Desktop-Graphics Processing Unit (GPU) erzielt. Eine vergleichbare Leistung konnte auf einem Jetson Orin Nano durch den Einsatz der kompakten YOLOv10-s Variante in Verbindung mit ByteTrack erreicht werden. Beide Systeme erreichten dabei eine Laufzeitgeschwindigkeit von mindestens 30 FPS. Auf einem Smartphone ist Echtzeitverarbeitung durch sorgfältige Auswahl der Architektur ebenfalls möglich, jedoch mit einem messbaren Rückgang der Tracking-Genauigkeit.
de
Multi-Object Tracking (MOT) is increasingly relevant in edge scenarios where privacy, latency and connectivity constraints limit the use of cloud-based solutions. Real-time MOT deployed locally enables responsive and autonomous behaviour in sensitive domains such as mobility and assistive technology. However, constrained computational resources on edge hardware challenge the deployment of deeper models. This diploma thesis investigates real-time MOT under resource constraints, focusing on the trade-off between accuracy, latency and available computational resources across three hardware tiers: smartphone, embedded GPU and desktop GPU. A structured review of detection and tracking architectures highlights the evolution of the You Only Look Once (YOLO) series and trackers, including SORT, ByteTrack and BoT-SORT. A novel object detector, YOLOv1210, is proposed, integrating attention-centric components with an NMS-free detection head to increase accuracy and reduce latency. Two domain-specific datasets are introduced to simulate search scenarios involving the localisation of target objects. Experimental results demonstrate that convolution-based object detectors, such as YOLOv11, consistently outperform attention-based models when deployed on resource-limited devices. For instance, YOLOv11-s achieves 68.04% mAP at 12 Frames Per Second (FPS) on a commercial smartphone, whereas YOLOv12-s yields comparable accuracy of 67.32% mAP but operates at only 2 FPS. In the context of object tracking, ByteTrack provides the most favourable balance between speed and robustness. End-to-end MOT pipelines were benchmarked under latency constraints ranging from 5 to 30 FPS. Results indicate that both frame rate and detector accuracy influence tracking stability, with higher frame rates generally contributing more to consistent tracking than improvements in detector accuracy. The highest accuracy was observed on a desktop GPU using YOLOv11-x with BoT-SORT, followed closely by the Jetson Orin Nano using a compact YOLOv10-s variant with ByteTrack, both of which sustained at least 30 FPS. Real-time performance remains feasible on smartphones through careful architectural selection, although tracking accuracy declines.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers