Kotrba, T. (2023). Simultanous multispectral detection of objects [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.90184
Machine Learning; Embedded Systeme; Deep Learning; Neurale Netze; Bilderkennung
de
Machine Learning; Embedded System; Deep Learning; Neural Networks; Image Recognition
en
Abstract:
Die Objekterkennung mit multispektralen Bildern, z.B. im sichtbaren und infraroten Spektrum, kann bei realen Anwendungen wie dem autonomen Fahren oder der automatischen Verkehrsüberwachung vorteilhaft sein. Der Grund dafür ist, dass die Informationen der multispektralen Spektren einander ergänzen, insbesondere beim Einfluss von unvorteilhaftem Wetter oder schlechter Ausleuchtung. Im Falle von Deep-Learning-basierten Objektdetektoren können diese komplementären Informationen an verschiedenen Stellen in der Netzwerkarchitektur zusammengeführt werden. Die Hauptunterschiede zwischen den Ansätzen äußern sich, wie gut die Objektdetektion im Vergleich zu den (monospektralen) Referenznetzwerken ist und wie hoch der Anstieg der Latenzzeit aufgrund der zusätzlichen Netzwerkoperationen ist. Es gibt zahlreiche Arbeiten zur Feature-Fusionierung in neuronalen Netzen, aber kaum welche, die sich mit den Auswirkungen auf Embedded Hardware beschäftigen.Diese Arbeit vergleicht die Auswirkungen verschiedener Fusionsarchitekturen in einem Deep-Learning-basierten Objektdetektor und optimiert diese Fusionsarchitekturen für ein Embedded Device. Es werden sechs verschiedene Fusionsarchitekturen vorgestellt und für einen NVIDIA Jetson AGX Xavier optimiert. Anschließend werden sie bezüglich ihrer Netzwerklatenz, dem Energieverbrauch und ihre Objekterkennungsqualität verglichen. Die Ergebnisse zeigen, dass die vorgeschlagenen multispektralen Fusionsansätze die Referenznetzwerke in Bezug auf die Objekterkennung der ursprünglichen Netzwerke übertreffen, während die Fusionsansätze zu Beginn des Netzwerks nur zu einem relativ geringen Anstieg der Latenzzeit führen.
de
Object detection in multispectral images, e.g., visible and infrared light, can benefit real-world applications such as autonomous driving or traffic surveillance. This is due to complementary information, especially in adverse weather and low illumination conditions. In the case of deep-learning-based object detectors, this complementary information can be fused at several positions throughout the network architecture. The main differences between the approaches are how good the performance is compared to the single spectrum reference networks and how high the latency increase is due to the additional network operations. Although there are many works on feature fusion in neural networks, there is rarely a focus on embedded hardware performance. This thesis compares the impact of different fusion architectures in a deep-learning-based object detector and optimizes these fusion architectures for an embedded device. Particularly, six different fusion architectures are proposed and optimized for an NVIDIA Jetson AGX Xavier, and their inference time, power consumption, and object detection performance are compared. The results show that the proposed multispectral fusion approaches outperform the reference networks in object detection metrics compared to the baseline networks. The early fusion approaches only lead to a reasonably slight increase in latency.