Panin, V. (2025). Large Language Model-Powered Query Answering [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.128205
Large Language Model; SQL; Neuro-symbolic AI; Soft Chase; Classification
en
Abstract:
Die jüngsten Fortschritte im Bereich großer Sprachmodelle, Large Language Models(LLMs), haben deren herausragende Fähigkeiten im Verstehen, Interpretieren und Generieren von Sprache eindrucksvoll unter Beweis gestellt. Beim Abfragen von Datenbanken in domänenspezifische Sprachen wie der Structured Query Language (SQL), die speziell für relationale Datenbanken entwickelt wurden, können Fehler auftreten, die durch Probleme wie Rauschen in den Daten, in konsistente Formate oder fehlende Standardisierung bedingt sind. LLMs bieten das Potenzial, diese Herausforderungen zu überwinden. In dieser Arbeit werden mehrere Pipelines vorgeschlagen, die die Interpretationsfähigkeit natürlicher Sprache durch LLMs nutzen, um den ursprünglichen Query zu modifizieren und somit das Ergebnis zu verändern. Dies wird erreicht, indem die ursprüngliche Abfragean gepasst und bei Bedarf zusätzliche Übersetzungstabellen integriert werden.Zunächst entwerfen wir einen ersten Testdatensatz, der potenzielle Herausforderungen exemplarisch darstellt und als Grundlage für nachfolgende Experimente dient. Die Experimente werden mithilfe dieser Pipelines durchgeführt und demonstrieren deren Leistungsfähigkeit im Umgang mit einer Vielzahl von SQL-Vergleichsoperatoren. Darüber hinaus werden die vorgeschlagenen Methoden mit dem traditionellen Ansatz verglichen,bei dem ausschließlich die ursprüngliche, unveränderte Abfrage ausgeführt wird. Dieser Vergleich zeigt eine deutliche Verbesserung zentraler Leistungskennzahlen um bis zu 50% zugunsten der entwickelten Pipeline.Zudem identifizieren wir potenzielle Fehlerquellen und zeigen, dass Abweichungen von korrekten Ergebnissen in mehreren Phasen der Pipeline auftreten können, insbesondere beim semantischen Vergleich sowie bei der Modifikation der Abfragen. Abschließend evaluieren wir den vorgeschlagenen Ansatz anhand zweier größerer Testdatensätze. Die Ergebnisse belegen eine gute Leistung hinsichtlich dieser wichtigen Metriken. Darüber hinaus werden die drei implementierten Ansätze—Zero-Shot Prompting, Embedding-Onlyund Two-Step—miteinander verglichen, wobei sowohl Leistungsunterschiede als auch potenzielle Zielkonflikte hinsichtlich Genauigkeit und Ausführungszeit herausgearbeitet werden.Schließlich fassen wir die zentralen Erkenntnisse dieser Arbeit zusammen und skizzieren vielversprechende Ansätze für zukünftige Forschung in diesem Bereich.
de
Large Language Models (LLMs) have shown remarkable capabilities in understanding and generating natural language. However, when querying databases in domain-specific languages, such as the Structured Query Language (SQL), designed specifically for relational databases, errors can arise due to issues such as noisy data, inconsistent formats, or lack of standardization. LLMs have the potential to mitigate these challenges.This work proposes several query evaluation pipelines that leverage the semantic strengths of LLMs to modify query outputs to account for residual noise. This is accomplished by modifying the original query and, when applicable, incorporating additional translation tables to enhance accuracy.First, we design an initial test dataset that exemplifies potential issues, which will serve asa foundation for experimentation. Experiments are conducted using a LLM, showcasing its capability across a range of SQL comparison operators. Additionally, these methods are evaluated against the traditional baseline of executing the original, unmodified query,revealing a strong improvement in key performance metrics.We also identify potential sources of errors and show that deviations from correct results can occur at various stages of the chosen pipeline, including the semantic comparison and the modification of the queries. Finally, we evaluate the proposed approach on two larger datasets. The results indicate good performance across key performance indicators. Moreover, the evaluation compares the three implemented approaches—zero-shotprompting, embedding-only, and two-step—and highlights their performance differences,including potential trade-offs in terms of both key performance metrics and execution efficiency.In conclusion, we synthesize the key findings of this work and outline promising directions for future research in the domain.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers