E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2022
-
Number of Pages:
87
-
Keywords:
Objektlokalisierung; Fragmentierte Verdeckung; Räumlich-zeitliche Netzwerke; Deep Learing; Neuronale Netze
de
object localization; fragmented occlusion; spatio-temporal networks; deep learning; neural networks
en
Abstract:
Die Herausforderung der Objektdetektion stellt einen wesentlichen Baustein in vielen Anwendungsbereichen wie z.B. autonomes Fahren, Robotik und Überwachung dar. Aus diesem Grund hat das Thema in letzter Zeit durch umfangreiche Forschung rasante Verbesserungen erfahren. Aktuelle Objektdetektoren basieren meist auf neuronalen Netzen und übertreffen konkurrierende Lösungen bei weitem. Trotz der bemerkenswerten Verbesserungen durch Deep Learning steht die Objektdetektion weiterhin vor großen Herausforderungen. Ein Problem besteht darin, dass die Zielobjekte oft verdeckt sind, wodurch räumliche Information verloren geht und die Merkmalsextraktion dadurch gestört wird. Hierbei tritt Verdeckung sowohl in urbanen (z.B. durch Häuser, Fahrzeuge und Straßenschilder) als auch in ländlichen (z.B. durch Bäume und Sträucher) Umgebungen gleichermaßen auf. Aus diesem Grund erforschen wir eine robuste Objektdetektion unter Verdeckung, mit besonderem Fokus auf fragmentierte Verdeckung. Wir basieren unsere Lösung auf räumlich-zeitlichen Netzwerken und beschränken uns auf das Problem der Personenlokalisierung. Wir behaupten, dass der räumliche Informationsverlust zum Zeitpunkt t0 durch die Aggregation der Komplementär-Information zu den benachbarten Zeitpunkten t−n + ... + tn kompensiert werden kann. Wir stützen unsere Hypothese mit Experimenten basierend auf synthetischen Daten, welche die Grundlage für unsere Lösung bilden. Zusätzlich schlagen wir eine Methode zur Reduktion der räumlichen Information vor, welche die Netzwerke dazu bringt, räumlich-zeitliche Daten stärker zu berücksichtigen, indem zeitlich angrenzende Informationsbruchstücke akkumuliert werden. Da es derzeit einen Mangel an Daten gibt, erstellen und annotieren wir einen neuartigen Datensatz, der sich auf fragmentierte Verdeckung konzentriert. Die Auswertung auf den annotierten Sequenzen zeigt eine erhöhte Genauigkeit (0.955 F1) im Vergleich zum Stand der Technik.
de
The task of object detection represents an essential building block in many application areas like autonomous driving, robotics and surveillance. Therefore, the topic has recently experienced rapid improvements through significant amount of research. Current object detectors are mostly based on neural networks, outperforming competing solutions by a wide margin. Despite the notable improvements with deep learning, object detection still faces major challenges. One issue originates from target objects being occluded, causing spatial information loss and therefore disrupting feature extraction. Here, occlusion occurs equally in urban (e.g. through houses, vehicles and street signs) and rural (e.g. through trees and shrubs) environments. To address this problem, we explore robust object detection under occlusion, with the special focus on fragmented occlusion. We base our solution on spatio-temporal networks and limit ourselves to person localization. We argue that the spatial information loss at time t0 can be compensated by aggregating the complementary information at the neighbouring time frames t−n + ... + tn. We support our hypothesis with experiments based on synthetic data, which build the foundation of our final solution. Additionally we propose a method to reduce spatial information, which forces the networks to consider spatio-temporal data more heavily, by accumulating temporal adjacent information-fractals. As there is currently a lack of data, we create and annotate a novel dataset focusing on fragmented occlusion. Evaluation on the annotated sequences shows increased performance (0.955 F1) compared to the state of the art.