Scheuchenstuhl, D. (2023). Attentional neural network based dynamic object detection for autonomous multi-agent systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.101601
Object detection; human attention; machine learning
de
Human Attention; Object Detection; Autonomous Driving; Artificial Intelligence; Computer Vision
en
Abstract:
Das Erlernen robuster Merkmalsrepräsentationen bleibt ein anspruchsvolles Problem in der Robotik, insbesondere in Anbetracht komplexer visueller Eingaben. Inspiriert durch den menschlichen Aufmerksamkeitsmechanismus, welcher es Menschen ermöglicht, komplexe visuelle Szenen schnell zu verarbeiten und auf Umweltreize zu reagieren, zeigen wir, dass wir durch Einbetten von menschlichen Aufmerksamkeitsmerkmalen in Objekterkennungsalgorithmen die Effizienz und Robustheit der Objekterkennungsalgorithmen verbessern können. In dieser Masterarbeit präsentieren wir eine neuartige Methode zur Emulation von menschlicher Aufmerksamkeit mit einem approximierten maschinellen Lernmodell, indem wir auf menschlichen Blickaufzeichnungen lernen, die während des manuellen Fahrens in einer realen Umgebung im kleinen Maßstab aufgezeichnet wurden. Dementsprechend nutzen wir die gelernten menschlichen Aufmerksamkeitsmerkmale, um die visuellen Eingaben des Objekterkennungsmodells zu bereichern. Die in dieser Arbeit durchgeführten Experimente vergleichen unseren Ansatz mit modernen Objekterkennungsmethoden im Bereich des maschinellen Sehens und zeigen, dass die Nutzung vorhergesagter menschlicher Aufmerksamkeit zu einer verbesserten Robustheit der trainierten Objekterkennungsmodelle in Szenarien außerhalb der Trainingsverteilung führt. Damit betont diese Arbeit das Potenzial der Integration von zusätzlichen menschlichen Aufmerksamkeitsmerkmalen im Rahmen des Repräsentationslernens für die Robotik und zeigt neue Wege für zukünftige Forschungsrichtungen auf.
de
Learning robust feature representations remains a challenging problem in robotics, especially when considering complex visual inputs. Inspired by the human-attention mechanism, allowing humans to rapidly process complex visual scenes and react to environmental stimuli, we show that by embedding human-attention feature maps into object detection pipelines, we can enhance the efficiency and robustness of the object detection algorithms. In this master thesis, we present a novel method for emulating human-attention with an approximated Machine Learning (ML) model by learning on human-gaze recordings of manual driving in a small-scale real-world setting. Consequently, we exploit the learned human-attention feature maps, enriching the visual inputs of the object detection model. The experiments conducted in this thesis compare our approach to state-of-the-art computer vision-based object detection baselines and demonstrate that leveraging predicted human-attention results in improved robustness of the trained object detection models on Out-of-Distribution (OOD) scenarios.To that end, this work emphasizes the potential of integrating auxiliary human-attention features in representation learning for robotics and illustrates new avenues for future research directions