König, S. (2025). Automated evaluation of parameter optimisation for retrieval augmented generation systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.122443
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
69
-
Keywords:
Information Retrieval; Knowledge Retrieval; Natural Language Processing; Large Language Model; Sentence Transformer; Parameter Evaluation; Vector embeddings; RAG
en
Abstract:
Retrieval Augmented Generation (RAG)-Systeme verbinden Sprachmodelle mit externen Wissensdatenbanken. Die rapiden Fortschritte bei der Verarbeitung natürlicher Sprache (NLP) und maschinelles Lernen, insbesondere transformatorbasierte Architekturen, haben zur weit verbreiteten Entwicklung von RAG-Systemen geführt. Während das Feld in eine forschungsorientierte Richtung tendiert, bleibt der Entwurf solcher Systeme oft eher eine Kunst als eine Wissenschaft. Diese Arbeit soll zu einem wissenschaftlicheren Ansatz für den Entwurf und die Bewertung solcher Systeme beizutragen. In der jüngeren Forschung wurden Evaluierungs-Systeme eingeführt, die stark von gelabelten Datensätzen abhängen, um Anhaltspunkte für den Entwurf von RAG-Systemen zu liefern. Diese Systeme sind jedoch oft in Szenarien, in denen markierte Datensätze nicht verfügbar sind, nicht anwenbar. Diese Arbeit adressiert diese Problem und stellt ein leicht gewichtiges RAG-Evaluierungsframework vor, das auch mit unmarkierten Datensätzen umgehen kann. Zwei komplementäre Bewertungsmetriken finden Anwerndung in dieser Arbeit, die leichtgewichtige ROUGE-Metrik und die aufwendige LLM-Judge-Metrik. Diese Studie stellt ein neuartiges, gebrauchsfertiges RAG-Bewertungssystem vor und bietet allgemeine Richtlinien für ein verbessertes RAG Design. Zusätzlich wird der RAG-Triad-Ansatz als Methode zur effektiven Handhabung von Datensätzen ohne „ground-truth labels“ vorgeschlagen. Die Ergebnisse dieser Arbeit tragen zu dem, sich schnell entwickelnden Ökosystem der natürlichsprachlichen KI bei, indem sie einen robusten Rahmen für die Bewertung von RAG Systemen liefern.
de
Retrieval Augmented Generation (RAG) systems connect language models to external knowledge bases. The rapid advancements in natural language processing (NLP) and machine learning, particularly transformer-based architectures, have led to the widespread development of RAG systems. While the field is trending in a research-oriented direction, the design of such system often remains more of an art than a science. This work aims to contribute to a more scientific approach for the design and evaluation of such systems. Recent research has introduced evaluation frameworks that heavily depend on labeled datasets to provide guidance for RAG system design. However, these frameworks often fall short in scenarios where labeled datasets are unavailable. This study addresses these limitations by proposing a lightweight RAG evaluation framework capable of handling unlabeled datasets. A RAG pipeline is developed and configured using the proposed evaluation system. The evaluation framework makes use of two complementary scoring metrics - the lightweight ROUGE metric and the elaborate LLM-judge metric. This study introduces a novel, ready-to-use RAG evaluation framework and offers general guidelines for improved RAG system design. Additionally, the RAG Triad approach is proposed as a method for effectively handling datasets without ground-truth labels. The findings of this work contribute to the rapidly evolving ecosystem of natural language AI by offering a robust framework for the evaluation, recommendation and innovation of RAG systems.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers