Kuhn, J. (2025). Natural Language Commands for Robotic Navigation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.127900
E376 - Institut für Automatisierungs- und Regelungstechnik
-
Date (published):
2025
-
Number of Pages:
47
-
Keywords:
Roboter; LLM; Objekterkennung
de
Robot; LLM; Object recognition
en
Abstract:
Roboter werden zunehmend in menschlicher Umgebung eingesetzt, weshalb die natürliche Interaktion mit ihnen umso wichtiger wird. Um Navigationsbefehle mit offenem Vokabular zu verstehen, benötigt ein Roboter die Möglichkeit, Sprache zu verarbeiten und eine strukturierte Repräsentation der Umgebung. Large Language Models (LLMs) verfügenüber starke Fähigkeiten in der Sprachverarbeitung, und 3D-Szenengraphen (3DSG) sind in der Lage, die Umgebung strukturiert darzustellen. Allerdings fehlen vielen 3DSGs explizite räumlich-semantische Beziehungen zwischen den Objekten, obwohl Menschen häufig mithilfe dieser Beziehungen die Umgebung beschreiben.Diese Arbeit untersucht, ob die Interpretation von Navigationsbefehlen in natürlicher Sprache von LLMs verbessert werden kann, wenn räumlich-semantische Beziehungen in 3DSGs integriert werden. Außerdem wird untersucht, wie diese Beziehungen effektiv erstellt und dargestellt werden können.Zu diesem Zweck wurde eine auf einem LLM-basierten Pipeline entwickelt, welche anhand einer Beschreibung in offenem Vokabular ein Objekt in einer Umgebung identifizieren soll. Zusätzlich wird in dieser Arbeit eine Methode zur Extraktion und Markierung von Bildern aus den Daten des Robotermappings präsentiert sowie eine VLM-basierte Pipeline zur Erstellung von räumlich-semantischen Beziehungen in offenem Vokabular aus diesen Bildern. Abschließend wurde im Rahmen einer Studie die Leistung von zwei LLMs hinsichtlich der Fähigkeit, Objekte in einer Umgebung anhand einer Beschreibung zu identifizieren, getestet.Die Ergebnisse zeigen, dass explizite räumlich-semantische Beziehungen besonders die Leistung von Generative Pre-trained Transformer - 4 omni (GPT-4o) verbessern, während Generative Pre-trained Transformer - 3.5 (GPT-3.5) nicht in der Lage ist, die hinzugefügten Beziehungen effektiv zu nutzen. Darüber hinaus hat sich gezeigt, dass die Generierung von Beziehungen in offenem Vokabular mit VLMs mit vom Roboter aufgenommenen Bildern machbar ist. Abschließend zeigt diese Arbeit, dass die Kombination aus LLMs und Szenenrepräsentationen mit expliziten Beziehungen die Navigation mit natürlicher Sprache voranbringt.
de
Robots are finding wider adoption in human environments, making the need for natural interaction increasingly important. However, understanding open-vocabulary navigation commands requires both Natural Language Processing (NLP) and structured environmental representations. Large Language Models (LLMs) offer strong capabilities in interpreting natural language, while 3D scene graphs (3DSGs) provide structured maps ofthe environment. However, many 3DSGs lack explicit spatio-semantic relations between objects, even though humans often rely on these relations to describe an environment.This thesis investigates whether incorporating open-vocabulary and closed-vocabulary spatio-semantic relations into 3DSGs can improve the ability of LLMs to interpret natural language navigation commands. Additionally, it is examined how these relations can be effectively estimated and represented.To address this, an LLM-based pipeline for target object grounding from open vocabulary queries was developed, where the task is to identify an object in the environment based on a natural language description. Furthermore, this thesis presents an extraction and labeling method for images from a robot’s mapping data, along with a VLM-based pipeline to generate open-vocabulary spatio-semantic edges from these images. Finally, two LLMs are evaluated in a study assessing their performance on the downstream task of target object grounding.The findings demonstrate that explicit spatio-semantic relations enhance the LLM performance, particularly for Generative Pre-trained Transformer - 4 omni (GPT-4o),while Generative Pre-trained Transformer - 3.5 (GPT-3.5) fails to reason over added relations. More over, open-vocabulary relation generation with VLMs proves feasible from robot-captured images. Overall, this work highlights the value of combining explicit relations in scene representations with LLMs to advance grounded natural language navigation.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers