Bschor, N. (2025). Enabling Semantic-Aware Query Evaluation in a Traditional Database Framework [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.128181
Relationale Datenbankverwaltungssysteme (RDBMS) spielen, dank ihrer Fähigkeit Daten effizient zu organisieren, speichern und abzurufen, eine große Rolle in der Datenverarbeitung. Sie beruhen auf strengen Regeln und exakten Übereinstimmungssemantiken. Dies stellt einen Widerspruch zu natürlichen Daten und menschlich generierten Texten dar, da diese oft Unreinheiten, Inkonsistenzen oder semantische Vielfältigkeit aufweisen. Die Anfrage für ein 'Auto' an ein RDBMS würde 'Automobil' nicht finden, obwohl beide Begriffe das selbe beschreiben. Diese semantischen Unstimmigkeiten führen oft zu unvollständigen oder ungenauen Ergebnissen. Große Sprachmodelle (LLMs) und vortrainierte Transformermodelle (PTMs) haben sich als besonders effektiv in der Verarbeitung verrauschter Daten erwiesen. Daher binden wir LLMs und PTMs direkt in die Evaluation der Abfrage ein, um die Limitierungen traditioneller RDBMS bei verrauschten Daten zu überwinden.Der Ansatz baut auf dem Volcano Modell auf, einem weit verbreiteten Konzept zur Ausführung von Abfragen. Bei Volcano werden verschiedene Operatoren zu Abfrageplänen zusammengesetzt. Basierend auf klassischen Operatoren wie Scan, Project (Map), Select, Join und Aggregate, entwickeln wir neue Operatoren, die von den strikten Regeln traditioneller RDBMS abweichen und durch die Einbindung von PLMs und LLMs, semantische Schlussfolgerungen ermöglichen. Durch die \textit{Volcano} Schnittstelle können diese neuen Operatoren beliebig in Abfragepläne eingebaut werden. Das erlaubt, zu filtern, zu gruppieren und zu aggregieren basierend auf semantischer statt strikter Gleichheit. Wir evaluieren unseren Ansatz mit fünf Datensätzen aus verschiedenen Bereichen wie E-Commerce, Musik und Biologie. Dadurch zeigen wir die Generalisierungsfähigkeit und die hohe Effektivität der Operatoren bei Aufgaben wie Entitäten-Abgleich, semantischem Filtern und semantischer Aggregation. Wir analysieren, welchen Einfluss verschiedene Sprachmodelle und Implementierungsstrategien auf die Qualität und den Durchsatz der Ergebnisse haben. Zudem zeigen wir, dass durch die Kombination von PLMs und LLMs in einem Operator, eine höhere Verarbeitungsgeschwindigkeit bei gleichbleibender Ergebnisqualität erzielt werden kann als bei der Nutzung einzelner Strategien.
de
Relational Database Management Systems (RDBMS) play a crucial role in data processing due to their ability to organize, store, and retrieve data efficiently. They rely on strict rules and exact-match semantics which often clash with the noisy, inconsistent, or semantically diverse real-world data, particularly natural language texts. For instance, a traditional RDBMS cannot retrieve a 'automobil' when querying for a 'car' even though both terms describe similar concepts. These semantic mismatches often results in incomplete or inaccurate query results. Large Language Models (LLMs) and Pretrained Transformer Models (PTMs) have shown high effectiveness on handling the noise occurring in natural language. Therefore, to overcome these limitations of traditional RDBMS, we incorporate LLMs and PTMs directly into the query execution pipeline of a traditional database framework. Building upon the Volcano Model, a widely adopted concept for database query execution where operators are assembled to execution plans, we propose new operators. They are based on traditional operators such as Scan, Project (Map), Select, Join and Aggregate and enable semantic inference capabilities by leveraging PLMs and LLMs. Through the Volcano interface, they can be integrated at any stage of a relational algebra execution plan, enabling approximate filtering, joining, and grouping based on semantic similarity rather than strict equality. We evaluate our approach on five real-world datasets from various domains such as music, e-commerce, and biology, demonstrating the operators' generalization capabilities and high effectiveness in tasks such as data integration, semantic filtering, and semantic aggregation. We analyze the influence of different LLMs and implementation strategies on the result quality and the system's throughput. We show that the combination of PTMs and LLMs allows the operators to generate results comparable to those which use PLMs or LLMs alone, while achieving a higher throughput.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers