Natural language commands for robotic navigation

Kuhn, Julia

doi:10.34726/hss.2025.127900

Record link:

https://doi.org/10.34726/hss.2025.127900
http://hdl.handle.net/20.500.12708/220774

Title:

Natural language commands for robotic navigation

Citation:

Kuhn, J. (2025). Natural language commands for robotic navigation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.127900

reposiTUm DOI:

10.34726/hss.2025.127900

CatalogPlus:

AC17691776

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Kuhn, Julia

Advisor:

Vincze, Markus

Organisational Unit:

E376 - Institut für Automatisierungs- und Regelungstechnik

Date (published):

2025

Number of Pages:

Keywords:

Roboter; LLM; Objekterkennung

Robot; LLM; Object recognition

Abstract:

Robots are finding wider adoption in human environments, making the need for natural interaction increasingly important. However, understanding open-vocabulary navigation commands requires both Natural Language Processing (NLP) and structured environmental representations. Large Language Models (LLMs) offer strong capabilities in interpreting natural language, while 3D scene graphs (3DSGs) provide structured maps ofthe environment. However, many 3DSGs lack explicit spatio-semantic relations between objects, even though humans often rely on these relations to describe an environment.This thesis investigates whether incorporating open-vocabulary and closed-vocabulary spatio-semantic relations into 3DSGs can improve the ability of LLMs to interpret natural language navigation commands. Additionally, it is examined how these relations can be effectively estimated and represented.To address this, an LLM-based pipeline for target object grounding from open vocabulary queries was developed, where the task is to identify an object in the environment based on a natural language description. Furthermore, this thesis presents an extraction and labeling method for images from a robot’s mapping data, along with a VLM-based pipeline to generate open-vocabulary spatio-semantic edges from these images. Finally, two LLMs are evaluated in a study assessing their performance on the downstream task of target object grounding.The findings demonstrate that explicit spatio-semantic relations enhance the LLM performance, particularly for Generative Pre-trained Transformer - 4 omni (GPT-4o),while Generative Pre-trained Transformer - 3.5 (GPT-3.5) fails to reason over added relations. More over, open-vocabulary relation generation with VLMs proves feasible from robot-captured images. Overall, this work highlights the value of combining explicit relations in scene representations with LLMs to advance grounded natural language navigation.

Roboter werden zunehmend in menschlicher Umgebung eingesetzt, weshalb die natürliche Interaktion mit ihnen umso wichtiger wird. Um Navigationsbefehle mit offenem Vokabular zu verstehen, benötigt ein Roboter die Möglichkeit, Sprache zu verarbeiten und eine strukturierte Repräsentation der Umgebung. Large Language Models (LLMs) verfügen über starke Fähigkeiten in der Sprachverarbeitung, und 3D-Szenengraphen (3DSG) sind in der Lage, die Umgebung strukturiert darzustellen. Allerdings fehlen vielen 3DSGs explizite räumlich-semantische Beziehungen zwischen den Objekten, obwohl Menschen häufig mithilfe dieser Beziehungen die Umgebung beschreiben. Diese Arbeit untersucht, ob die Interpretation von Navigationsbefehlen in natürlicher Sprache von LLMs verbessert werden kann, wenn räumlich-semantische Beziehungen in 3DSGs integriert werden. Außerdem wird untersucht, wie diese Beziehungen effektiv erstellt und dargestellt werden können. Zu diesem Zweck wurde eine auf einem LLM-basierten Pipeline entwickelt, welche anhand einer Beschreibung in offenem Vokabular ein Objekt in einer Umgebung identifizieren soll. Zusätzlich wird in dieser Arbeit eine Methode zur Extraktion und Markierung von Bildern aus den Daten des Robotermappings präsentiert sowie eine VLM-basierte Pipeline zur Erstellung von räumlich-semantischen Beziehungen in offenem Vokabular aus diesen Bildern. Abschließend wurde im Rahmen einer Studie die Leistung von zwei LLMs hinsichtlich der Fähigkeit, Objekte in einer Umgebung anhand einer Beschreibung zu identifizieren, getestet.Die Ergebnisse zeigen, dass explizite räumlich-semantische Beziehungen besonders die Leistung von Generative Pre-trained Transformer - 4 omni (GPT-4o) verbessern, während Generative Pre-trained Transformer - 3.5 (GPT-3.5) nicht in der Lage ist, die hinzugefügten Beziehungen effektiv zu nutzen. Darüber hinaus hat sich gezeigt, dass die Generierung von Beziehungen in offenem Vokabular mit VLMs mit vom Roboter aufgenommenen Bildern machbar ist. Abschließend zeigt diese Arbeit, dass die Kombination aus LLMs und Szenenrepräsentationen mit expliziten Beziehungen die Navigation mit natürlicher Sprache voranbringt.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis